論文の概要: ReCA: Multi-Shot Long Video Extrapolation via Recursive Context Allocation
- arxiv url: http://arxiv.org/abs/2605.26525v1
- Date: Tue, 26 May 2026 04:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.616953
- Title: ReCA: Multi-Shot Long Video Extrapolation via Recursive Context Allocation
- Title(参考訳): ReCA: 再帰的コンテキストアロケーションによるマルチショット長ビデオ外挿
- Authors: Akide Liu, Jinbo Xing, Chaojie Mao, Ye Li, Zeyu Zhang, Yefei He, Weijie Wang, Zihan Wang, Yu Liu, Gholamreza Haffari, Bohan Zhuang,
- Abstract要約: マルチショットビデオ外挿(マルチショットビデオ外挿、Multi-Shot Video Extrapolation、MSVE)は、観察されたフレームまたはクリップを撮影的に構造化された一連のショットに拡張するタスクである。
MSVEは、長ビデオの障害は単にコンテキスト長の制限ではなく、コンテキスト割り当ての障害であることを明らかにした。
本稿では,再帰的コンテキスト割当(Recursive Context Allocation, ReCA)を提案する。
- 参考スコア(独自算出の注目度): 69.45329019089041
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Minute-scale cinematic video generation is a central challenge for generative video models. Existing paradigms address only fragments of this challenge: single-shot extrapolation preserves an anchor but lacks cinematic structure, while multi-shot storytelling imposes structure yet remains free to invent its visual states rather than continue an observed one. We define Multi-Shot Video Extrapolation (MSVE), a task that extends an observed frame or clip into a sequence of cinematically structured shots while preserving anchor state and advancing narrative intent. This setting operates under the finite per-call generation budget of short-video models. We identify three coupled bottlenecks: (1) global planners over-specify unsupported details from full screenplays; (2) shot-level prompts dilute task-relevant state when carrying the complete story; and (3) temporal chaining turns generated frames into a lossy memory in which identity, scene, object, and action state decay. MSVE reveals that long-video failure is not merely a limitation of context length, but a failure of context allocation. We propose Recursive Context Allocation (ReCA), an inference-time framework that allocates context hierarchically across planning and generation. ReCA recursively decomposes MSVE into context-bounded subproblems, invokes frozen generators at leaf nodes, and propagates structured state updates across time. To evaluate this setting, we further propose MSVE-Bench and NB-Q, a source-grounded protocol with prompts purpose-built for 3 to 5 minute long-video generation, a regime not addressed by existing short-clip benchmarks. Compared to previous methods, ReCA improves average normalized score by 8 to 16 percent over the strongest competing controller and improves multi-shot consistency metrics by 28 to 43 percent. View the project page at https://reca.vmv.re.
- Abstract(参考訳): ミニスケール映像生成は、生成ビデオモデルにおいて中心的な課題である。
シングルショットの補間はアンカーを保存するが、撮影構造は欠如するが、マルチショットのストーリーテリングは構造を課すが、観察されたストーリーテリングを継続するのではなく、その視覚状態を創造する自由なままである。
我々は,観察されたフレームやクリップを撮影的に構造化された一連のショットに拡張し,アンカー状態を維持し,物語の意図を推し進めるタスクであるマルチショットビデオ補間(MSVE)を定義した。
この設定は、ショートビデオモデルの呼び出し毎に有限の予算で機能する。
我々は,(1)大域的プランナーが全画面からサポート対象の詳細を過剰に特定し,(2)ショットレベルがタスク関連状態を希薄に促す,(3)時間的連鎖によって生成されたフレームを,アイデンティティ,シーン,オブジェクト,アクション状態が崩壊する損失記憶に変換する,という3つのボトルネックを同定する。
MSVEは、長ビデオの障害は単にコンテキスト長の制限ではなく、コンテキスト割り当ての障害であることを明らかにした。
本稿では,再帰的コンテキスト割当(Recursive Context Allocation, ReCA)を提案する。
ReCAはMSVEをコンテキスト境界のサブプロブレムに再帰的に分解し、葉のノードで凍結したジェネレータを起動し、時間をかけて構造化された状態更新を伝搬する。
この設定を評価するため,MSVE-BenchとNB-Qについても提案する。
従来の方法と比較して、ReCAは最強のコントローラよりも平均正規化スコアを8~16パーセント改善し、マルチショット一貫性メトリクスを28~43パーセント改善した。
プロジェクトのページはhttps://reca.vmv.re.com。
関連論文リスト
- Soap2Soap: Long Cinematic Video Remaking via Multi-Agent Collaboration [61.98029663481308]
Soap2SoapはDualBridgeメカニズムを通じて長期の視覚的一貫性を強制するマルチエージェントフレームワークである。
クローズドループ検証エージェントは、識別、安定性、アライメントを監査し、選択的再生を誘導する。
論文 参考訳(メタデータ) (2026-05-17T12:38:21Z) - Bridging Modalities, Spanning Time: Structured Memory for Ultra-Long Agentic Video Reasoning [82.97398529552166]
MAGIC-Videoは、インターリーブされた物語チェーンを備えたマルチモーダルメモリグラフを中心に構築されたフレームワークである。
EgoLifeQA、Ego-R1、MM-Lifelongでは、MAGIC-Videoは一貫して、強力な汎用、長期ビデオ、エージェントベースラインを上回っている。
論文 参考訳(メタデータ) (2026-05-08T03:21:47Z) - HieraMamba: Video Temporal Grounding via Hierarchical Anchor-Mamba Pooling [52.10845971383909]
HieraMambaは階層的なアーキテクチャで、時間的構造と規模にわたって意味的な豊かさを保ちます。
Ego4D-NLQ、MAD、TACoSに新たな最先端技術を導入し、長い、トリミングされていないビデオの正確な時間的忠実なローカライゼーションを実証した。
論文 参考訳(メタデータ) (2025-10-27T06:13:07Z) - Enhancing Long Video Question Answering with Scene-Localized Frame Grouping [19.83545369186771]
現在のMultimodal Large Language Models (MLLMs) は、長いビデオ理解ではよく機能しない。
本稿では,ビデオ質問応答タスクであるSceneQAの新たなシナリオを提案する。
本研究では,個々のフレームを意味的に一貫性のあるシーンフレームに結合する,SLFGと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-08-05T02:28:58Z) - HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding [14.464718780172582]
タスク対応の階層型Q-FormerベースのフレームワークであるHierarQを導入する。
ビデオ理解にタスク認識を組み込むために,軽量な2ストリーム言語誘導機能変調器を導入する。
ビデオ理解、質問応答、キャプションタスクにわたる10の動画ベンチマークの大規模な評価は、HierarQの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-11T16:21:23Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - Reconstructive Sequence-Graph Network for Video Summarization [107.0328985865372]
キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。
フレームとショットをシーケンスおよびグラフ階層としてエンコードする再構成シーケンスグラフネットワーク(RSGN)を提案する。
リコンストラクタを開発し、サマリージェネレータに報奨を与えることにより、ジェネレータを教師なしの方法で最適化することができる。
論文 参考訳(メタデータ) (2021-05-10T01:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。