論文の概要: Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning
- arxiv url: http://arxiv.org/abs/2506.00318v1
- Date: Sat, 31 May 2025 00:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.771215
- Title: Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning
- Title(参考訳): フレームの連鎖:フレーム認識推論によるマルチモーダルLCMにおける映像理解の促進
- Authors: Sara Ghazanfari, Francesco Croce, Nicolas Flammarion, Prashanth Krishnamurthy, Farshad Khorrami, Siddharth Garg,
- Abstract要約: そこで本稿では,関連ビデオフレームに推論ステップを接頭し,明示的に参照するビデオLLMを提案する。
我々のアプローチはシンプルで自己完結型であり、ビデオCoTの既存のアプローチとは異なり、関連するフレームを選択またはキャプションするために補助的なネットワークを必要としない。
これにより、複数のビデオ理解ベンチマークのパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 37.86612817818566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that eliciting Large Language Models (LLMs) to generate reasoning traces in natural language before answering the user's request can significantly improve their performance across tasks. This approach has been extended to multimodal LLMs, where the models can produce chain-of-thoughts (CoT) about the content of input images and videos. In this work, we propose to obtain video LLMs whose reasoning steps are grounded in, and explicitly refer to, the relevant video frames. For this, we first create CoF-Data, a large dataset of diverse questions, answers, and corresponding frame-grounded reasoning traces about both natural and synthetic videos, spanning various topics and tasks. Then, we fine-tune existing video LLMs on this chain-of-frames (CoF) data. Our approach is simple and self-contained, and, unlike existing approaches for video CoT, does not require auxiliary networks to select or caption relevant frames. We show that our models based on CoF are able to generate chain-of-thoughts that accurately refer to the key frames to answer the given question. This, in turn, leads to improved performance across multiple video understanding benchmarks, for example, surpassing leading video LLMs on Video-MME, MVBench, and VSI-Bench, and notably reducing the hallucination rate. Code available at https://github.com/SaraGhazanfari/CoF}{github.com/SaraGhazanfari/CoF.
- Abstract(参考訳): 近年の研究では、ユーザの要求に答える前に、Large Language Models(LLMs)を使用して自然言語の推論トレースを生成することで、タスク間のパフォーマンスが大幅に向上することが示されている。
このアプローチはマルチモーダルLLMに拡張され、モデルが入力画像やビデオの内容に関するチェーン・オブ・シント(CoT)を作成することができる。
そこで本研究では,関連ビデオフレームに起因した推論ステップを具体化し,明示的に参照するビデオLLMを提案する。
そのため、我々はまず、さまざまな質問、回答、およびそれに対応するフレームグラウンド推論の大規模なデータセットであるCoF-Dataを作成し、様々なトピックやタスクにまたがる自然ビデオと合成ビデオの両方についてトレースする。
次に、このフレームチェーン(CoF)データ上に既存のビデオLLMを微調整する。
我々のアプローチはシンプルで自己完結型であり、ビデオCoTの既存のアプローチとは異なり、関連するフレームを選択またはキャプションするために補助的なネットワークを必要としない。
我々は、CoFに基づくモデルが、与えられた質問に答えるためにキーフレームを正確に参照するチェーン・オブ・ソートを生成することができることを示す。
これにより、例えば、ビデオMME、MVBench、VSI-Benchの動画LLMを上回り、幻覚率の低下など、複数のビデオ理解ベンチマークのパフォーマンスが向上する。
コードはhttps://github.com/SaraGhazanfari/CoF}{github.com/SaraGhazanfari/CoFで公開されている。
関連論文リスト
- ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts [64.93416171745693]
ビデオオブジェクトの推論は難しいタスクであり、入力ビデオと暗黙の複雑なテキストクエリからマスクシーケンスを生成する。
既存の作業は、セグメント化に基づく出力のためにMLLM(Multimodal Large Language Model)を微調整することでこの問題を調査するが、時間に敏感なクエリが与えられたビデオでは難しいケースでは依然として不足している。
MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用してこれらの課題に対処する新しいフレームワークであるThinkVideoを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - VidCtx: Context-aware Video Question Answering with Image Models [15.1350316858766]
VidCtxは、入力フレームからの視覚情報と他のフレームのテキスト記述の両方を統合する、新しいトレーニング不要なビデオQAフレームワークである。
実験により、VidCtxはオープンモデルに依存するアプローチ間の競争性能を達成することが示された。
論文 参考訳(メタデータ) (2024-12-23T09:26:38Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models [41.12711820047315]
ビデオ理解モデルは通常、フレームやクリップの集合をランダムにサンプリングする。
本稿では,最多領域フレーム (MDF) と最多命令フレーム (MIF) の2つのフレームサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T14:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。