論文の概要: A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
- arxiv url: http://arxiv.org/abs/2512.16978v1
- Date: Thu, 18 Dec 2025 18:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.138937
- Title: A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
- Title(参考訳): ビデオにおけるOmni-Modal Reasoningとツール利用のためのベンチマークとエージェントフレームワーク
- Authors: Mohammed Irfan Kurpath, Jaseel Muhammad Kaithakkodan, Jinxing Zhou, Sahal Shaji Mullappilly, Mohammad Almansoori, Noor Ahsan, Beknur Kalmakhanbet, Sambal Shikhar, Rishabh Lalla, Jean Lahoud, Mariette Awad, Fahad Shahbaz Khan, Salman Khan, Rao Muhammad Anwer, Hisham Cholakkal,
- Abstract要約: LongShOTBenchは、長めのマルチモーダルビデオ理解のための診断ベンチマークである。
これには、オープンエンド、インテント駆動の質問、シングルターンとマルチターンの対話、マルチモーダル推論とエージェントツールの使用を必要とするタスクが含まれる。
LongShOTAgentは、前処理、検索、反復的な精細化を通じて、長いビデオを分析するエージェントシステムである。
- 参考スコア(独自算出の注目度): 76.98722001848493
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long-form multimodal video understanding requires integrating vision, speech, and ambient audio with coherent long-range reasoning. Existing benchmarks emphasize either temporal length or multimodal richness, but rarely both and while some incorporate open-ended questions and advanced metrics, they mostly rely on single-score accuracy, obscuring failure modes. We introduce LongShOTBench, a diagnostic benchmark with open-ended, intent-driven questions; single- and multi-turn dialogues; and tasks requiring multimodal reasoning and agentic tool use across video, audio, and speech. Each item includes a reference answer and graded rubric for interpretable, and traceable evaluation. LongShOTBench is produced via a scalable, human-validated pipeline to ensure coverage and reproducibility. All samples in our LongShOTBench are human-verified and corrected. Furthermore, we present LongShOTAgent, an agentic system that analyzes long videos via preprocessing, search, and iterative refinement. On LongShOTBench, state-of-the-art MLLMs show large gaps: Gemini-2.5-Flash achieves 52.95%, open-source models remain below 30%, and LongShOTAgent attains 44.66%. These results underscore the difficulty of real-world long-form video understanding. LongShOTBench provides a practical, reproducible foundation for evaluating and improving MLLMs. All resources are available on GitHub: https://github.com/mbzuai-oryx/longshot.
- Abstract(参考訳): ロングフォームなマルチモーダルビデオ理解には、視覚、音声、周囲の音声をコヒーレントな長距離推論と統合する必要がある。
既存のベンチマークでは、時間長またはマルチモーダルのリッチさが強調されているが、どちらもまれであり、一部にはオープンエンドの質問や高度なメトリクスが組み込まれているが、それらは主にシングルスコアの正確さと障害モードに依存している。
我々はLongShOTBenchを紹介した。これは、オープンエンド、インテント駆動の質問、シングルターン、マルチターンの対話、ビデオ、音声、音声で使用されるマルチモーダル推論とエージェントツールを必要とするタスクの診断ベンチマークである。
各項目は、参照応答と、解釈可能な、トレーサブルな評価のためのグレードされたルーリックを含む。
LongShOTBenchは、スケーラブルで有能なパイプラインを通じて、カバレッジと再現性を保証する。
LongShOTBenchのサンプルはすべて、人間によって検証され、修正されています。
さらに,前処理,検索,反復精錬による長編動画の分析を行うエージェントシステムであるLongShOTAgentを提案する。
ジェミニ2.5-Flashは52.95%、オープンソースモデルは30%以下、LongShOTBenchは44.66%である。
これらの結果は、現実世界の長大なビデオ理解の難しさを浮き彫りにしている。
LongShOTBenchはMLLMを評価し改善するための実用的で再現可能な基盤を提供する。
リソースはすべてGitHubで入手できる。
関連論文リスト
- LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling [87.98096428508181]
LongVTは、Multimodal Chain-of-Tool-Thoughtを通じて"Thinking with Long Videos"を可能にするエンドツーエンドのエージェントフレームワークである。
我々は、LMM固有の時間的接地機能を利用して、特定のビデオクリップをズームインし、よりきめ細かいビデオフレームを再サンプリングするネイティブビデオトリミングツールを開発した。
トレーニングデータセットは, ツール統合型冷間始動微調整用247.9K試料, エージェント強化学習用1.6K試料, エージェント強化微調整用15.4K試料からなる。
論文 参考訳(メタデータ) (2025-11-25T19:22:48Z) - LongInsightBench: A Comprehensive Benchmark for Evaluating Omni-Modal Models on Human-Centric Long-Video Understanding [19.03169157546538]
textbfLongInsightBenchは、長いビデオを理解するモデルの能力を評価するために設計された最初のベンチマークである。
ベンチマークでは,textbfa, textbfb, textbfcの3つの重要な領域を抽出した。
論文 参考訳(メタデータ) (2025-10-20T08:49:10Z) - OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs [72.425061028374]
音声・視覚の相乗的理解を評価するためのベンチマークであるOmniVideoBenchを紹介する。
OmniVideoBenchは1000の高品質なQA(QA)ペアで構成され、それぞれにステップバイステップの推論トレースが付加されている。
我々はOmniVideoBenchをリリースし、より強力でより一般化可能な推論機能を持つMLLMの開発を促進する。
論文 参考訳(メタデータ) (2025-10-12T16:34:00Z) - AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs [53.248502396225724]
AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-10-08T17:50:16Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。