論文の概要: LongInsightBench: A Comprehensive Benchmark for Evaluating Omni-Modal Models on Human-Centric Long-Video Understanding
- arxiv url: http://arxiv.org/abs/2510.17305v2
- Date: Tue, 21 Oct 2025 10:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.030477
- Title: LongInsightBench: A Comprehensive Benchmark for Evaluating Omni-Modal Models on Human-Centric Long-Video Understanding
- Title(参考訳): LongInsightBench:人間中心の長時間映像理解におけるOmni-Modal Modelの評価のための総合ベンチマーク
- Authors: ZhaoYang Han, Qihan Lin, Hao Liang, Bowen Chen, Zhou Liu, Wentao Zhang,
- Abstract要約: textbfLongInsightBenchは、長いビデオを理解するモデルの能力を評価するために設計された最初のベンチマークである。
ベンチマークでは,textbfa, textbfb, textbfcの3つの重要な領域を抽出した。
- 参考スコア(独自算出の注目度): 19.03169157546538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce \textbf{LongInsightBench}, the first benchmark designed to assess models' ability to understand long videos, with a focus on human language, viewpoints, actions, and other contextual elements, while integrating \textbf{visual, audio, and text} modalities. Our benchmark excels in three key areas: \textbf{a) Long-Duration, Information-Dense Videos:} We carefully select approximately 1,000 videos from open-source datasets FineVideo based on duration limit and the information density of both visual and audio modalities, focusing on content like lectures, interviews, and vlogs, which contain rich language elements. \textbf{b) Diverse and Challenging Task Scenarios:} We have designed six challenging task scenarios, including both Intra-Event and Inter-Event Tasks. \textbf{c) Rigorous and Comprehensive Quality Assurance Pipelines:} We have developed a three-step, semi-automated data quality assurance pipeline to ensure the difficulty and validity of the synthesized questions and answer options. Based on LongInsightBench, we designed a series of experiments. Experimental results shows that Omni-modal models(OLMs) still face challenge in tasks requiring precise temporal localization (T-Loc) and long-range causal inference (CE-Caus). Extended experiments reveal the information loss and processing bias in multi-modal fusion of OLMs. Our dataset and code is available at https://anonymous.4open.science/r/LongInsightBench-910F/.
- Abstract(参考訳): これは、人間の言語、視点、行動、その他の文脈要素に焦点を当て、長いビデオを理解するためのモデルの能力を評価するために設計された最初のベンチマークである。
ベンチマークは以下の3つの重要な領域を抜粋する: \textbf{a) Long-Duration, Information-Dense Videos:} オープンソースのデータセットから約1,000の動画を慎重に選択する。
図2. \textbf{b) Diverse and Challenging Task Scenarios:} イベント内タスクとイベント間タスクの両方を含む6つの困難なタスクシナリオを設計しました。
厳密で包括的な品質保証パイプライン:} 合成された質問と回答の難易度と妥当性を確保するために、3段階の半自動データ品質保証パイプラインを開発した。
LongInsightBenchに基づいて、一連の実験を設計しました。
実験の結果,Omni-modal model (OLMs) は正確な時間的局所化 (T-Loc) と長距離因果推論 (CE-Caus) を必要とするタスクにおいて依然として課題に直面していることがわかった。
拡張実験により,OLMの多モード融合における情報損失と処理バイアスが明らかになった。
私たちのデータセットとコードはhttps://anonymous.4open.science/r/LongInsightBench-910F/で公開されています。
関連論文リスト
- A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos [76.98722001848493]
LongShOTBenchは、長めのマルチモーダルビデオ理解のための診断ベンチマークである。
これには、オープンエンド、インテント駆動の質問、シングルターンとマルチターンの対話、マルチモーダル推論とエージェントツールの使用を必要とするタスクが含まれる。
LongShOTAgentは、前処理、検索、反復的な精細化を通じて、長いビデオを分析するエージェントシステムである。
論文 参考訳(メタデータ) (2025-12-18T18:59:27Z) - LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling [87.98096428508181]
LongVTは、Multimodal Chain-of-Tool-Thoughtを通じて"Thinking with Long Videos"を可能にするエンドツーエンドのエージェントフレームワークである。
我々は、LMM固有の時間的接地機能を利用して、特定のビデオクリップをズームインし、よりきめ細かいビデオフレームを再サンプリングするネイティブビデオトリミングツールを開発した。
トレーニングデータセットは, ツール統合型冷間始動微調整用247.9K試料, エージェント強化学習用1.6K試料, エージェント強化微調整用15.4K試料からなる。
論文 参考訳(メタデータ) (2025-11-25T19:22:48Z) - TextVidBench: A Benchmark for Long Video Scene Text Understanding [60.94150574231576]
TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。
TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。
i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
論文 参考訳(メタデータ) (2025-06-05T12:54:56Z) - MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - X-LeBench: A Benchmark for Extremely Long Egocentric Video Understanding [25.85614872348223]
ロングフォームなエゴセントリックなビデオ理解は、コンテキスト情報と長期的な人間の行動に関する洞察を提供する。
既存のベンチマークデータセットは、主に、単一、短調のビデオ、あるいは適度に長いビデオに焦点を当てている。
X-LeBenchは、極端に長いエゴセントリックなビデオ録画のタスクを評価するために特別に作られた、新しいベンチマークデータセットである。
論文 参考訳(メタデータ) (2025-01-12T15:07:03Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - LvBench: A Benchmark for Long-form Video Understanding with Versatile Multi-modal Question Answering [49.68215536040896]
LvBenchは多目的なマルチモーダル質問応答のための長文ビデオ理解ベンチマークである。
ビデオは70秒から4時間で、シングルシーン、マルチシーン、フルシーンのコンテキストをカバーしています。
本データセットは、慎重に選択された100本の映画から得られた20,061組の質問応答対からなる。
論文 参考訳(メタデータ) (2023-12-08T03:33:38Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。