論文の概要: Event-Anchored Frame Selection for Effective Long-Video Understanding
- arxiv url: http://arxiv.org/abs/2603.00983v1
- Date: Sun, 01 Mar 2026 08:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.443596
- Title: Event-Anchored Frame Selection for Effective Long-Video Understanding
- Title(参考訳): 実時間長ビデオ理解のためのイベントアンコールフレーム選択法
- Authors: Wang Chen, Yongdong Luo, Yuhui Zeng, Luojun Lin, Tianyu Xie, Fei Chao, Rongrong Ji, Xiawu Zheng,
- Abstract要約: Event-Anchored Frame Selection (EFS)は階層的なイベント認識パイプラインである。
トレーニング不要のプラグイン・アンド・プレイモジュールとして、EFSは既製のLVLMにシームレスに統合できる。
- 参考スコア(独自算出の注目度): 67.56884568828508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Massive frame redundancy and limited context window make efficient frame selection crucial for long-video understanding with large vision-language models (LVLMs). Prevailing approaches, however, adopt a flat sampling paradigm which treats the video as an unstructured collection of frames. In this paper, we introduce Event-Anchored Frame Selection (EFS), a hierarchical, event-aware pipeline. Leveraging self-supervised DINO embeddings, EFS first partitions the video stream into visually homogeneous temporal segments, which serve as proxies for semantic events. Within each event, it then selects the most query-relevant frame as an anchor. These anchors act as structural priors that guide a global refinement stage using an adaptive Maximal Marginal Relevance (MMR) scheme. This pipeline ensures the final keyframe set jointly optimizes for event coverage, query relevance, and visual diversity. As a training-free, plug-and-play module, EFS can be seamlessly integrated into off-the-shelf LVLMs, yielding substantial gains on challenging video understanding benchmarks. Specifically, when applied to LLaVA-Video-7B, EFS improves accuracy by 4.7%, 4.9%, and 8.8% on VideoMME, LongVideoBench, and MLVU, respectively.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)を用いた長時間ビデオ理解において,フレームの冗長性とコンテキストウィンドウの制限により,フレーム選択の効率化が重要となる。
しかし、一般的なアプローチでは、動画を非構造化フレームの集合として扱う平らなサンプリングパラダイムが採用されている。
本稿では,階層的なイベント認識パイプラインであるイベントアンコールフレーム選択(EFS)を紹介する。
自己教師付きDINO埋め込みを活用して、EFSはまずビデオストリームを視覚的に均質な時間セグメントに分割し、セマンティックイベントのプロキシとして機能する。
各イベント内で、最もクエリ関連のあるフレームをアンカーとして選択する。
これらのアンカーは、MMR(Adaptive Maximal Marginal Relevance)スキームを用いて、グローバルな精錬段階を導く構造的先行として機能する。
このパイプラインは、最終キーフレームセットがイベントカバレッジ、クエリ関連性、視覚的多様性を共同で最適化することを保証する。
トレーニング不要のプラグイン・アンド・プレイモジュールとして、EFSは市販のLVLMにシームレスに統合することができ、挑戦的なビデオ理解ベンチマークでかなりの利益を得ている。
具体的には、LLaVA-Video-7Bに適用した場合、EFSは、それぞれビデオMME、LongVideoBench、MLVUの精度を4.7%、4.9%、そして8.8%向上させる。
関連論文リスト
- Wavelet-based Frame Selection by Detecting Semantic Boundary for Long Video Understanding [43.587729230845525]
現在のメソッドは、通常、与えられたクエリに高い関連性を持つフレームを選択する。
トレーニング不要なフレームワークであるセマンティック境界(WFS-SB)の検出によるウェーブレットベースのフレーム選択を提案する。
WFS-SBはLVLMの性能を大幅に向上させ、ビデオMMEでは5.5%、MLVUでは9.5%、LongVideoBenchでは6.2%の精度向上を実現した。
論文 参考訳(メタデータ) (2026-02-28T07:18:07Z) - VideoScaffold: Elastic-Scale Visual Hierarchies for Streaming Video Understanding in MLLMs [28.026438743789907]
VideoScaffoldはビデオ理解のストリーミング用に設計された動的表現フレームワークである。
微粒な視覚的意味を保ちながら、ビデオの長さに応じてイベントの粒度を適応的に調整する。
このフレームワークはモジュール式でプラグアンドプレイで、既存の画像ベースのMLLMをシームレスに継続的ビデオ理解に拡張する。
論文 参考訳(メタデータ) (2025-12-23T03:33:45Z) - HFS: Holistic Query-Aware Frame Selection for Efficient Video Reasoning [13.569944737211472]
ビデオ理解におけるキーフレーム選択は重要な課題である。
フレームを独立にスコアする従来のトップK選択法は、選択全体を最適化するのに失敗することが多い。
フレーム選択のためのエンドツーエンドのトレーニング可能なタスク適応フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-12T13:10:30Z) - From Frames to Clips: Efficient Key Clip Selection for Long-Form Video Understanding [43.82717677801915]
ビデオ大言語モデル(VLM)は様々な視覚言語タスクにおいて顕著な成果を上げている。
生のビデオフレームから生成される膨大な数の視覚トークンが、モデルのコンテキストウィンドウを消費する。
分離されたキーフレームからキークリップへの選択を、短い時間的コヒーレントなセグメントに拡張することで、ビデオの理解が向上することを示す。
論文 参考訳(メタデータ) (2025-10-02T17:43:01Z) - Q-Frame: Query-aware Frame Selection and Multi-Resolution Adaptation for Video-LLMs [13.306662159600677]
適応型フレーム選択とマルチテンポラリスケーリングのための新しいアプローチであるビデオQFrameを紹介する。
Q-Frameは、CLIPのようなテキスト画像マッチングネットワークによって生成されたトレーニング不要のプラグイン・アンド・プレイ戦略を採用している。
ベンチマークデータセットの広範な実験を通じて,Q-Frameの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-27T11:30:51Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding [70.56829394569938]
長い文脈LMMを使わずに長い入力を処理するためのフレーム選択拡張生成(FRAG)を提案する。
選択プロセスのコアは、長いコンテキスト処理を必要としない各フレームを独立にスコアリングすることで行われる。
FRAGは、長大なビデオと長大な文書理解の両面において、常に性能を向上し、最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-04-24T11:19:18Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。