論文の概要: LVSum: A Benchmark for Timestamp-Aware Long Video Summarization
- arxiv url: http://arxiv.org/abs/2604.10024v1
- Date: Sat, 11 Apr 2026 04:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.797352
- Title: LVSum: A Benchmark for Timestamp-Aware Long Video Summarization
- Title(参考訳): LVSum: タイムスタンプを意識したロングビデオ要約のためのベンチマーク
- Authors: Alkesh Patel, Melis Ozyildirim, Ying-Chang Cheng, Ganesh Nagarajan,
- Abstract要約: 時間的アライメントの微粒化による長大映像要約評価のための人為的注釈付きベンチマークであるLVSumを提案する。
我々はLVSum上で,プロプライエタリおよびオープンソースMLLMの総合評価を行う。
実験により,既存のMLLM間の時間的理解の体系的なギャップが明らかとなり,映像要約における時間的推論の新たな基盤となる知見が得られた。
- 参考スコア(独自算出の注目度): 0.7290872981626243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long video summarization presents significant challenges for current multimodal large language models (MLLMs), particularly in maintaining temporal fidelity over extended durations and producing summaries that are both semantically and temporally grounded. In this work, we present LVSum, a human-annotated benchmark designed specifically for evaluating long video summarization with fine-grained temporal alignment. LVSum comprises diverse long-form videos across 13 domains, each paired with human-generated summaries containing precise temporal references. We conduct a comprehensive evaluation of both proprietary and open-source MLLMs on LVSum, assessing performance using newly introduced LLM-based metrics for content relevance and modality coherence, alongside standard evaluation metrics. Our experiments reveal systematic gaps in temporal understanding among existing MLLMs and offer insights that establish a new foundation for advancing temporal reasoning in long video summarization.
- Abstract(参考訳): 長ビデオ要約は、現在のマルチモーダル大言語モデル(MLLM)において、特に長期にわたる時間的忠実性を維持し、意味的および時間的基盤を持つ要約を生成する上で重要な課題である。
本研究では,時間的アライメントをきめ細かな時間的アライメントで長大な映像の要約を評価するために,人間による注釈付きベンチマークであるLVSumを提案する。
LVSumは13のドメインにまたがる様々な長編ビデオで構成され、それぞれに正確な時間的参照を含む人間の生成した要約をペアリングする。
我々は、LVSum上でのプロプライエタリおよびオープンソースMLLMの総合評価を行い、標準評価指標とともに、コンテンツ関連性およびモダリティコヒーレンスのためのLLMベースのメトリクスを用いて性能評価を行う。
実験により,既存のMLLM間の時間的理解の体系的なギャップが明らかとなり,長期ビデオ要約における時間的推論の新たな基盤となる知見が得られた。
関連論文リスト
- Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline [58.585692088008905]
MM-Lifelongはマルチモーダルライフロング理解のために設計されたデータセットである。
撮影時間は181.1時間で、日、週、月の各スケールにまたがって構成され、様々な時間密度を捉えている。
論文 参考訳(メタデータ) (2026-03-05T18:52:12Z) - Temporal Referential Consistency: Do LLMs Favor Sequences Over Absolute Time References? [21.90468150326666]
LLM(Large Language Model)は、知識ソースの代替品である。
LLMは現実的に正確でなければならないし、時間次元にわたって一貫性を示す必要がある。
この重要な要件にもかかわらず、LLMの時間的整合性を確保する努力は依然として不十分である。
論文 参考訳(メタデータ) (2025-10-17T10:33:48Z) - A Survey on Video Temporal Grounding with Multimodal Large Language Model [107.24431595873808]
時間的グラウンドリング(VTG)の最近の進歩は、きめ細かいビデオ理解を著しく向上させた。
より優れたマルチモーダル理解と推論能力により、MLLM(VTG-MLLM)に基づくVTGアプローチは、従来の微調整手法を徐々に超えつつある。
一般的なビデオ言語理解に関する広範な調査にもかかわらず、VTG-MLLMに関する包括的なレビューは乏しいままである。
論文 参考訳(メタデータ) (2025-08-07T08:52:11Z) - MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding [56.78088668917983]
SVBenchは時間的マルチターン質問応答チェーンを用いた先駆的ベンチマークである。
半自動アノテーションパイプラインを設計し、49,979対のQA(QA)と1,353本のストリーミングビデオを取得する。
対話とストリーミング評価の14モデルから得られた実験結果から, クローズドソースのGPT-4oは他より優れているが, 大部分のオープンソースLVLMは, 長文のストリーミングビデオ理解に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-15T14:29:44Z) - Video LLMs for Temporal Reasoning in Long Videos [7.2900856926028155]
テンポラルVLM(TemporalVLM)は、ビデオ大言語モデルであり、時間的推論を効果的に行い、長いビデオにおいてきめ細やかな理解を可能にする。
我々のアプローチには、長期入力ビデオの時間認識機能へのマッピングと、ローカルおよびグローバルの両方のキューを含むビジュアルエンコーダが含まれる。
本稿では,TemporalVLMの評価を容易にするために,産業組み立てプロセスの大規模ビデオデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-04T00:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。