論文の概要: SiLVR: A Simple Language-based Video Reasoning Framework
- arxiv url: http://arxiv.org/abs/2505.24869v1
- Date: Fri, 30 May 2025 17:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.128458
- Title: SiLVR: A Simple Language-based Video Reasoning Framework
- Title(参考訳): SiLVR: シンプルな言語ベースのビデオ推論フレームワーク
- Authors: Ce Zhang, Yan-Bo Lin, Ziyang Wang, Mohit Bansal, Gedas Bertasius,
- Abstract要約: 簡単な言語ベースのビデオ推論フレームワークであるSiLVRについて紹介する。
第一段階では、SiLVRは生動画を多感覚入力を用いて言語ベースの表現に変換する。
第2段階では、複雑なビデオ言語理解タスクを解決するために、言語記述を強力な理由付けLLMに入力する。
- 参考スコア(独自算出の注目度): 71.77141065418238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in test-time optimization have led to remarkable reasoning capabilities in Large Language Models (LLMs), enabling them to solve highly complex problems in math and coding. However, the reasoning capabilities of multimodal LLMs (MLLMs) still significantly lag, especially for complex video-language tasks. To address this issue, we present SiLVR, a Simple Language-based Video Reasoning framework that decomposes complex video understanding into two stages. In the first stage, SiLVR transforms raw video into language-based representations using multisensory inputs, such as short clip captions and audio/speech subtitles. In the second stage, language descriptions are fed into a powerful reasoning LLM to solve complex video-language understanding tasks. To handle long-context multisensory inputs, we use an adaptive token reduction scheme, which dynamically determines the temporal granularity with which to sample the tokens. Our simple, modular, and training-free video reasoning framework achieves the best-reported results on Video-MME (long), Video-MMMU (comprehension), Video-MMLU, CGBench, and EgoLife. Furthermore, our empirical study focused on video reasoning capabilities shows that, despite not being explicitly trained on video, strong reasoning LLMs can effectively aggregate multisensory input information from video, speech, and audio for complex temporal, causal, long-context, and knowledge acquisition reasoning tasks in video. Code is available at https://github.com/CeeZh/SILVR.
- Abstract(参考訳): テスト時間最適化の最近の進歩は、Large Language Models (LLMs) において顕著な推論能力をもたらし、数学やコーディングにおいて非常に複雑な問題を解けるようになった。
しかし、マルチモーダルLLM(MLLM)の推論能力は、特に複雑なビデオ言語タスクにおいて、依然として著しく遅れている。
この問題に対処するために、複雑なビデオ理解を2段階に分解するシンプルな言語ベースのビデオ推論フレームワークSiLVRを提案する。
第一段階では、SiLVRは、短いクリップキャプションやオーディオ/音声字幕などの多感覚入力を用いて、生のビデオを言語ベースの表現に変換する。
第2段階では、複雑なビデオ言語理解タスクを解決するために、言語記述を強力な理由付けLLMに入力する。
長文多感覚入力の処理には適応型トークン削減方式を用い,トークンをサンプリングする時間的粒度を動的に決定する。
我々は,ビデオMME (long), Video-MMMU (comprehension), Video-MMLU, CGBench, EgoLifeについて,最も報告の少ないビデオ推論フレームワークを構築した。
さらに、ビデオ推論機能に着目した実証研究により、ビデオ上で明示的に訓練されていないにもかかわらず、強力な推論LLMは、ビデオ中の複雑な時間的、因果的、長期コンテキスト、知識獲得推論タスクに対して、ビデオ、音声、音声からの多感覚入力情報を効果的に集約できることを示した。
コードはhttps://github.com/CeeZh/SILVR.comで入手できる。
関連論文リスト
- Do Language Models Understand Time? [2.290956583394892]
大規模言語モデル(LLM)は、アクション認識、異常検出、要約を含む、ビデオベースのコンピュータビジョンアプリケーションに革命をもたらした。
本研究は,ビデオ処理におけるLLMの役割を,時間的推論能力に着目して批判的に考察する。
LLMの時間的理解を制限するため、バイアス、時間的アノテーションの欠如、ドメイン固有の制限など、既存のビデオデータセットによる課題を分析します。
論文 参考訳(メタデータ) (2024-12-18T13:38:06Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - Long Video Understanding with Learnable Retrieval in Video-Language Models [36.793956806567834]
本稿では,学習可能な検索ベースビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高いKビデオチャンクを特定し、選択する。
これにより、ビデオトークンの数を効果的に減らし、ノイズ干渉をなくし、システム性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。