論文の概要: Seeing the Scene Matters: Revealing Forgetting in Video Understanding Models with a Scene-Aware Long-Video Benchmark
- arxiv url: http://arxiv.org/abs/2603.27259v1
- Date: Sat, 28 Mar 2026 12:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.870977
- Title: Seeing the Scene Matters: Revealing Forgetting in Video Understanding Models with a Scene-Aware Long-Video Benchmark
- Title(参考訳): 場面で見る: シーンを意識したロングビデオベンチマークでビデオ理解モデルに期待すること
- Authors: Seng Nam Chen, Hao Chen, Chenglam Ho, Xinyu Mao, Jinping Wang, Yu Zhang, Chao Li,
- Abstract要約: この研究はシーンを、視覚的コンテキストと意味的コンテキストの両方が一貫したビデオのコヒーレントなセグメントとして定義する。
我々は、シーンレベルの課題を提供するために設計された新しいベンチマークであるSceneBenchを紹介した。
Scene-RAGはVLMの性能を+2.50%改善し、現在のモデルが長いコンテキスト保持に苦戦していることを確認した。
- 参考スコア(独自算出の注目度): 13.365117498062565
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long video understanding (LVU) remains a core challenge in multimodal learning. Although recent vision-language models (VLMs) have made notable progress, existing benchmarks mainly focus on either fine-grained perception or coarse summarization, offering limited insight into temporal understanding over long contexts. In this work, we define a scene as a coherent segment of a video in which both visual and semantic contexts remain consistent, aligning with human perception. This leads us to a key question: can current VLMs reason effectively over long, scene-level contexts? To answer this, we introduce a new benchmark, SceneBench, designed to provide scene-level challenges. Our evaluation reveals a sharp drop in accuracy when VLMs attempt to answer scene-level questions, indicating significant forgetting of long-range context. To further validate these findings, we propose Scene Retrieval-Augmented Generation (Scene-RAG), which constructs a dynamic scene memory by retrieving and integrating relevant context across scenes. This Scene-RAG improves VLM performance by +2.50%, confirming that current models still struggle with long-context retention. We hope SceneBench will encourage future research toward VLMs with more robust, human-like video comprehension.
- Abstract(参考訳): ロングビデオ理解(LVU)は、マルチモーダル学習における中核的な課題である。
近年の視覚言語モデル (VLM) は顕著な進歩を遂げているが、既存のベンチマークは主に細粒度知覚か粗い要約に焦点をあてており、長期にわたる時間的理解に限定した洞察を与えている。
本研究では、シーンを映像のコヒーレントな部分として定義し、視覚的コンテキストと意味的コンテキストの両方が人間の知覚と整合性を維持している。
現在のVLMは、長時間のシーンレベルのコンテキストに対して、効果的に理屈を定めますか?
これに対応するために、シーンレベルの課題を提供するために設計された新しいベンチマークであるSceneBenchを紹介します。
我々の評価では、VLMがシーンレベルの質問に答えようとするときの精度の急落が明らかとなり、長距離コンテキストをかなり忘れることが示唆された。
これらの知見をさらに検証するため,シーン間の関連状況の検索と統合により動的シーンメモリを構築するScene Retrieval-Augmented Generation (Scene-RAG)を提案する。
このScene-RAGはVLMの性能を+2.50%改善し、現在のモデルが長いコンテキスト保持に苦戦していることを確認した。
SceneBenchは、より堅牢で人間らしいビデオ理解を持つVLMに向けた将来の研究を促進することを願っている。
関連論文リスト
- Enhancing Long Video Question Answering with Scene-Localized Frame Grouping [19.83545369186771]
現在のMultimodal Large Language Models (MLLMs) は、長いビデオ理解ではよく機能しない。
本稿では,ビデオ質問応答タスクであるSceneQAの新たなシナリオを提案する。
本研究では,個々のフレームを意味的に一貫性のあるシーンフレームに結合する,SLFGと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-08-05T02:28:58Z) - Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames [70.93346841539626]
本稿では,ビデオ質問応答のための推論戦略である思考の時間的連鎖について述べる。
VLM自体を使用して、ビデオから最も関連性の高いフレームを反復的に識別し、抽出する。
推論時により多くの計算を利用すれば、最も関連性の高いコンテキストを選択することで、精度が向上することを示す。
論文 参考訳(メタデータ) (2025-07-01T18:39:26Z) - SceneRAG: Scene-level Retrieval-Augmented Generation for Video Understanding [6.980340270823506]
SceneRAGは,映像を物語に一貫性のあるシーンに分割するフレームワークである。
各シーンについて、このフレームワークは視覚とテキストの両方のモダリティから情報を融合し、エンティティ関係を抽出する。
LongerVideosベンチマークの実験では、134時間以上の多様なコンテンツがあり、SceneRAGが以前のベースラインを大幅に上回っていることを確認した。
論文 参考訳(メタデータ) (2025-06-09T10:00:54Z) - TextVidBench: A Benchmark for Long Video Scene Text Understanding [60.94150574231576]
TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。
TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。
i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
論文 参考訳(メタデータ) (2025-06-05T12:54:56Z) - InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文 参考訳(メタデータ) (2025-05-23T07:33:25Z) - MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - Scene Consistency Representation Learning for Video Scene Segmentation [26.790491577584366]
本稿では,長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。
本稿では,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法について検討する。
本手法は,映像シーンのタスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-11T13:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。