論文の概要: Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma?
- arxiv url: http://arxiv.org/abs/2503.12496v1
- Date: Sun, 16 Mar 2025 13:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:01.609666
- Title: Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma?
- Title(参考訳): 長時間のジレンマでビジョンランゲージモデルが失われる?
- Authors: Tianyuan Qu, Longxiang Tang, Bohao Peng, Senqiao Yang, Bei Yu, Jiaya Jia,
- Abstract要約: 低密度サンプリングは臨界情報を欠くリスクを負うが、高密度サンプリングは冗長性をもたらす。
LSDBenchは、LVLM(Large Vision-Language Models)を長時間ビデオ上で評価するための最初のベンチマークである。
本稿では,質問関連キューのグローバルな局在化と局所的な高密度サンプリングを組み合わせ,高精度な推論を行うReasoning-Driven Hierarchical Smplingフレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.2978328773242
- License:
- Abstract: The rise of Large Vision-Language Models (LVLMs) has significantly advanced video understanding. However, efficiently processing long videos remains a challenge due to the ``Sampling Dilemma'': low-density sampling risks missing critical information, while high-density sampling introduces redundancy. To address this issue, we introduce LSDBench, the first benchmark designed to evaluate LVLMs on long-video tasks by constructing high Necessary Sampling Density (NSD) questions, where NSD represents the minimum sampling density required to accurately answer a given question. LSDBench focuses on dense, short-duration actions to rigorously assess the sampling strategies employed by LVLMs. To tackle the challenges posed by high-NSD questions, we propose a novel Reasoning-Driven Hierarchical Sampling (RHS) framework, which combines global localization of question-relevant cues with local dense sampling for precise inference. Additionally, we develop a lightweight Semantic-Guided Frame Selector to prioritize informative frames, enabling RHS to achieve comparable or superior performance with significantly fewer sampled frames. Together, our LSDBench and RHS framework address the unique challenges of high-NSD long-video tasks, setting a new standard for evaluating and improving LVLMs in this domain.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の台頭により、映像理解が大幅に進歩した。
しかし、'Sampling Dilemma'': 低密度サンプリングは重要な情報を欠くリスクを負うが、高密度サンプリングは冗長性をもたらす。
この問題に対処するために,我々は,SDが与えられた質問に正確に答えるのに必要な最小サンプリング密度を表す高必要サンプリング密度 (NSD) の質問を構築することで,長ビデオタスクにおけるLVLMを評価するために設計された最初のベンチマークであるLSDBenchを紹介する。
LSDBenchは、LVLMが採用するサンプリング戦略を厳格に評価するために、密集した短時間の動作に焦点を当てている。
高NSD質問による課題に対処するために,質問関連キューのグローバルなローカライゼーションと,高精度推論のための局所的なサンプリングを組み合わせたReasoning-Driven Hierarchical Smpling (RHS) フレームワークを提案する。
さらに,情報フレームを優先する軽量なセマンティックガイドフレームセレクタを開発した。
我々のLSDBenchとRDSフレームワークは、高NSD長ビデオタスクのユニークな課題に対処し、この領域におけるLVLMの評価と改善のための新しい標準を設定します。
関連論文リスト
- Zero-Shot Action Recognition in Surveillance Videos [5.070026408553652]
現在のAIベースのビデオ監視システムは、広範囲の微調整を必要とするコアコンピュータビジョンモデルに依存している。
VideoLLaMA2はゼロショットのパフォーマンスが飛躍的に向上し、ベースラインを20%上回る。
さらに、Self-ReSはゼロショットアクション認識性能を44.6%に向上させた。
論文 参考訳(メタデータ) (2024-10-28T15:13:53Z) - ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs [95.15814662348245]
構成推論(CR)は属性、関係、単語の順序の重要さを把握する。
近年の視覚言語モデル (VLM) は、そのような推論タスクにおいて顕著な習熟性を示している。
論文 参考訳(メタデータ) (2024-06-12T12:54:27Z) - Reinforcement Tuning for Detecting Stances and Debunking Rumors Jointly with Large Language Models [13.356554246394692]
大型言語モデル(LLMs)は、JSDRVと呼ばれる共同姿勢検出(SD)および噂検証(RV)タスクのための基礎アノテーションである。
LLM ベースの SD と RV コンポーネントのジョイント予測能力を向上する新たな強化チューニングフレームワークを提案する。
以上の結果から,JSDRVはタスクモデルとして適合する非LLMへの一般化だけでなく,共同作業におけるLLMの能力の向上を図っている。
論文 参考訳(メタデータ) (2024-06-04T09:31:18Z) - SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding [50.337896542603524]
時間的ビデオグラウンドティングのためのマルチモーダル・スパイク・サリエンシ・マンバであるSpikeMbaを紹介した。
我々のアプローチでは、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合して、そのユニークな利点を活用する。
我々の実験は、最先端の手法を一貫して上回るSpikeMbaの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-01T15:26:44Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Task-adaptive Spatial-Temporal Video Sampler for Few-shot Action
Recognition [25.888314212797436]
本稿では,アクション認識のための新しいビデオフレームサンプリング手法を提案する。
タスク固有の時空間フレームサンプリングは時空間セレクタ(TS)と空間増幅器(SA)を介して実現される
実験では、長期ビデオを含む様々なベンチマークが大幅に向上した。
論文 参考訳(メタデータ) (2022-07-20T09:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。