論文の概要: Video Finetuning Improves Reasoning Between Frames
- arxiv url: http://arxiv.org/abs/2511.12868v1
- Date: Mon, 17 Nov 2025 01:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.592437
- Title: Video Finetuning Improves Reasoning Between Frames
- Title(参考訳): フレーム間の推論を改良したビデオファインタニング
- Authors: Ruiqi Yang, Tian Yun, Zihan Wang, Ellie Pavlick,
- Abstract要約: 連続するフレーム間の遷移イベント記述を生成する明示的な推論プロセスであるVisual Chain-of-Thoughtを提案する。
実験の結果,vCoTは長文ビデオ質問応答における画像のみのモデルの性能を大幅に向上させることがわかった。
ビデオモデルは、この時間的推論能力を純粋に静的な設定に移行し、視覚的推論タスクにおける画像モデルのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 23.676284017808218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (LLMs) have made rapid progress in visual understanding, yet their extension from images to videos often reduces to a naive concatenation of frame tokens. In this work, we investigate what video finetuning brings to multimodal LLMs. We propose Visual Chain-of-Thought (vCoT), an explicit reasoning process that generates transitional event descriptions between consecutive frames. Using vCoT, we systematically compare image-only LVLMs with their video-finetuned counterparts, both with and without access to these transitional cues. Our experiments show that vCoT significantly improves the performance of image-only models on long-form video question answering, while yielding only marginal gains for video-finetuned models. This suggests that the latter already capture frame-to-frame transitions implicitly. Moreover, we find that video models transfer this temporal reasoning ability to purely static settings, outperforming image models' baselines on relational visual reasoning tasks.
- Abstract(参考訳): マルチモーダル大言語モデル(LLM)は、視覚的理解の急速な進歩を遂げているが、画像からビデオへの拡張はしばしばフレームトークンの単純な結合に還元される。
本研究では,マルチモーダルLLMにビデオファインタニングがもたらす影響について検討する。
本稿では,連続フレーム間の遷移イベント記述を生成する明示的な推論プロセスであるVisual Chain-of-Thought (vCoT)を提案する。
vCoTを用いて,映像のみのLVLMと映像のみのLVLMを比較した。
実験の結果,vCoTは長文ビデオ質問応答における画像のみのモデルの性能を著しく向上する一方で,ビデオファインタネートモデルでは限界ゲインしか得られないことがわかった。
これは、後者が既に暗黙的にフレーム間遷移をキャプチャしていることを示している。
さらに、映像モデルは、この時間的推論能力を純粋に静的な設定に移行し、リレーショナルな視覚的推論タスクに基づく画像モデルのベースラインを上回ります。
関連論文リスト
- Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning [37.86612817818566]
そこで本稿では,関連ビデオフレームに推論ステップを接頭し,明示的に参照するビデオLLMを提案する。
我々のアプローチはシンプルで自己完結型であり、ビデオCoTの既存のアプローチとは異なり、関連するフレームを選択またはキャプションするために補助的なネットワークを必要としない。
これにより、複数のビデオ理解ベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-05-31T00:08:21Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Continuous Video Process: Modeling Videos as Continuous Multi-Dimensional Processes for Video Prediction [43.16308241800144]
本稿では,映像を連続的な多次元プロセスとして扱う新しいモデルクラスを提案する。
我々は、KTH、BAIR、Human3.6M、UCF101などのベンチマークデータセットで検証された、ビデオ予測における最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-12-06T10:34:50Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Multi-entity Video Transformers for Fine-Grained Video Representation Learning [34.26732761916984]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
このアプローチの重要な側面は、時間パイプラインにおけるシーン情報の共有の改善です。
我々のMV-Former(Multi-entity Video Transformer)は、フレームを時間にわたってリンクされたトークンとして表現されたエンティティのグループとして処理します。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。