論文の概要: Enhancing Video Large Language Models with Structured Multi-Video Collaborative Reasoning (early version)
- arxiv url: http://arxiv.org/abs/2509.13161v1
- Date: Tue, 16 Sep 2025 15:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.14448
- Title: Enhancing Video Large Language Models with Structured Multi-Video Collaborative Reasoning (early version)
- Title(参考訳): 構造化マルチビデオ協調推論によるビデオ大言語モデルの強化(初期バージョン)
- Authors: Zhihao He, Tianyao He, Tieyuan Chen, Yun Xu, Huabin Liu, Chaofan Gan, Gui Zou, Weiyao Lin,
- Abstract要約: 有望な解決策は、複数の関連ビデオによる推論のパフォーマンス向上である。
ビデオトークンは多数あり、冗長な情報を含んでいる。
ビデオ言語モデルのためのマルチビデオ協調フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.484276267960436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the prosperity of the video language model, the current pursuit of comprehensive video reasoning is thwarted by the inherent spatio-temporal incompleteness within individual videos, resulting in hallucinations and inaccuracies. A promising solution is to augment the reasoning performance with multiple related videos. However, video tokens are numerous and contain redundant information, so directly feeding the relevant video data into a large language model to enhance responses could be counterproductive. To address this challenge, we propose a multi-video collaborative framework for video language models. For efficient and flexible video representation, we establish a Video Structuring Module to represent the video's knowledge as a spatio-temporal graph. Based on the structured video representation, we design the Graph Fusion Module to fuse the structured knowledge and valuable information from related videos into the augmented graph node tokens. Finally, we construct an elaborate multi-video structured prompt to integrate the graph, visual, and textual tokens as the input to the large language model. Extensive experiments substantiate the effectiveness of our framework, showcasing its potential as a promising avenue for advancing video language models.
- Abstract(参考訳): ビデオ言語モデルの繁栄にもかかわらず、現在の包括的なビデオ推論の追求は、個々のビデオに固有の時空間的不完全性によって妨げられ、幻覚と不正確な結果をもたらす。
有望な解決策は、複数の関連ビデオによる推論のパフォーマンス向上である。
しかし、ビデオトークンは多種多様であり、冗長な情報を含んでいるため、対応性を高めるために関連ビデオデータを大きな言語モデルに直接供給することは非生産的である可能性がある。
この課題に対処するために,ビデオ言語モデルのためのマルチビデオ協調フレームワークを提案する。
効率的なフレキシブルなビデオ表現のために,ビデオの知識を時空間グラフとして表現するためのビデオ構造化モジュールを構築した。
構造化されたビデオ表現に基づいて、構造化された知識と、関連するビデオから貴重な情報を付加されたグラフノードトークンに融合するグラフ融合モジュールを設計する。
最後に、大規模言語モデルへの入力として、グラフ、ビジュアル、テキストトークンを統合するための、精巧なマルチビデオ構造化プロンプトを構築する。
大規模な実験により、我々のフレームワークの有効性が実証され、ビデオ言語モデルの発展のための有望な道としての可能性を示している。
関連論文リスト
- Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Valley: Video Assistant with Large Language model Enhanced abilitY [46.90402681897982]
ビデオ理解の強化と指示追従機能を実現するために設計された,マルチモーダル基盤モデルであるValleyを紹介する。
我々の実験は、バレーが効果的なビデオアシスタントとして機能し、複雑なビデオ理解のシナリオを単純化する可能性を実証している。
論文 参考訳(メタデータ) (2023-06-12T16:11:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。