論文の概要: DynFrame: Adaptive Reasoning-Driven Multimodal Framework with Dynamic Frame Augmentation for Complex Video Understanding
- arxiv url: http://arxiv.org/abs/2605.26680v1
- Date: Tue, 26 May 2026 08:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.74713
- Title: DynFrame: Adaptive Reasoning-Driven Multimodal Framework with Dynamic Frame Augmentation for Complex Video Understanding
- Title(参考訳): DynFrame: 複雑なビデオ理解のための動的フレーム拡張による適応推論駆動型マルチモーダルフレームワーク
- Authors: Peng Zhang, Guanghao Zhang, Wanggui He, Longxiang Zhang, Mushui Liu, Yan Xia, Zhenhao Peng, Weilong Dai, Jinlong Liu, Haobing Tang, Le Zhang, Hao Jiang, Pipei Huang,
- Abstract要約: 時間ウィンドウとサンプリング密度を1つの自己回帰パス内でネイティブトークンとして出力するフレームワークであるDynFrameを提案する。
この学習可能なスパン密度検索は、単一の検索ステップで多粒度証拠の取得を可能にする。
- 参考スコア(独自算出の注目度): 19.492762364136393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent video multimodal large language models (MLLMs) increasingly couple step-by-step reasoning with on-demand visual evidence retrieval, allowing models to revisit relevant video segments during inference. However, two structural gaps remain in existing thinking-with-video systems. (i) Sampling density is not a learnable decision: existing methods may let the model decide where to look, but the per-window frame rate is largely fixed. As a result, fine-grained evidence is often recovered through repeated retrieval calls, which increases inference context length and training difficulty. (ii) Retrieval and answer generation are usually optimized with a single trajectory-level advantage, so the "where to look" tokens and the "how to answer" tokens receive the same credit even when one is correct and the other is not. To address these gaps, we present DynFrame, a framework that emits the temporal window and the sampling density as native tokens within a single autoregressive pass. This learnable span-density retrieval enables acquiring multi-granularity evidence with a single retrieval step. Based on the above tokenized retrieval interface, we further introduce Segment-Decoupled GRPO (SD-GRPO), which splits each rollout at the retrieval boundary and assigns role-specific token-level advantages, separately crediting the sampling decision and the answer. Trained on the curated DM-CoT-74k and DM-RL-45k, DynFrame-4B is competitive with strong 7B-8B baselines across six benchmarks (NExT-GQA, Charades-STA, ActivityNet-MR, Video-MME, MLVU, LVBench), and DynFrame-8B sets new state-of-the-art on most metrics. Code is available at https://github.com/zhangguanghao523/DynFrame.
- Abstract(参考訳): 最近のビデオマルチモーダル大言語モデル(MLLM)は、オンデマンドの視覚的エビデンス検索とステップバイステップの推論が増加しており、推論中に関連するビデオセグメントを再検討することができる。
しかし、既存の思考とビデオシステムには2つの構造的ギャップが残っている。
(i) 密度のサンプリングは、学習可能な決定ではない: 既存の手法では、モデルがどこを見るべきかを決定することができるが、ウィンドウごとのフレームレートは概ね固定されている。
その結果、連続した検索コールによって詳細な証拠が回収され、推論コンテキストの長さと訓練の難しさが増大する。
(ii)検索と回答の生成は通常、単一のトラジェクトリレベルの利点で最適化されるため、"見る場所"トークンと"答える方法"トークンは同じクレジットを受け取っています。
このようなギャップに対処するため、DynFrameは、時間ウィンドウとサンプリング密度を1つの自己回帰パス内のネイティブトークンとして出力するフレームワークである。
この学習可能なスパン密度検索は、単一の検索ステップで多粒度証拠の取得を可能にする。
上記のトークン化検索インタフェースに基づいて、各ロールアウトを検索境界で分割し、ロール固有のトークンレベルの利点を割り当てるSegment-Decoupled GRPO(SD-GRPO)をさらに導入し、サンプリング決定と回答を別々に信用する。
DM-CoT-74kとDM-RL-45kで訓練されたDynFrame-4Bは、6つのベンチマーク(NExT-GQA、Charades-STA、ActivityNet-MR、Video-MME、MLVU、LVBench)で7B-8Bベースラインと競合する。
コードはhttps://github.com/zhangguanghao523/DynFrameで入手できる。
関連論文リスト
- Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory [50.30283773196725]
既存のアプローチは、時間とともにフレームレベルの詳細を蓄積するためにキーバリューキャッシングに依存していますが、フレーム毎に限られた数のトークンを使用します。
より詳細な時間的理解と推論を可能にするためにトークン予算のスケーリングを提案する。
論文 参考訳(メタデータ) (2026-02-20T18:59:50Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration [24.337139909108117]
過剰なフレームが文脈の希釈によってパラドックス的に性能を低下させる「レスはそれ以上」現象である。
視覚エコー」は「視覚エコー」という時間的冗長性を有する
AFP"は、ResNet-50とCLIPの機能空間に適応的な階層的クラスタリングアルゴリズムを用いて、これらのエコーを単一の代表に識別し、マージする。
我々の完全なアプローチは、必要なフレームを86.9%まで、合計入力トークンを83.2%まで劇的に削減することを示しています。
論文 参考訳(メタデータ) (2025-08-05T11:31:55Z) - Towards Universal Modal Tracking with Online Dense Temporal Token Learning [66.83607018706519]
オンライン高密度時間トークン学習を用いたユニバーサルビデオレベルのモダリティ認識追跡モデルを提案する。
モデルの入力をビデオシーケンスレベルに拡張し、よりリッチなビデオコンテキストを言語に近い視点から見ることを目的としている。
論文 参考訳(メタデータ) (2025-07-27T08:47:42Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - VidCtx: Context-aware Video Question Answering with Image Models [15.1350316858766]
VidCtxは、入力フレームからの視覚情報と他のフレームのテキスト記述の両方を統合する、新しいトレーニング不要なビデオQAフレームワークである。
実験により、VidCtxはオープンモデルに依存するアプローチ間の競争性能を達成することが示された。
論文 参考訳(メタデータ) (2024-12-23T09:26:38Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。