論文の概要: BiLL-VTG: Bridging Large Language Models and Lightweight Visual Tools
for Video-based Texts Generation
- arxiv url: http://arxiv.org/abs/2310.10586v1
- Date: Mon, 16 Oct 2023 17:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 12:51:02.043238
- Title: BiLL-VTG: Bridging Large Language Models and Lightweight Visual Tools
for Video-based Texts Generation
- Title(参考訳): BiLL-VTG:ビデオベースのテキスト生成のための大規模言語モデルと軽量ビジュアルツール
- Authors: Ji Qi, Kaixuan Ji, Jifan Yu, Duokang Wang, Bin Xu, Lei Hou, Juanzi Li
- Abstract要約: BiLL-VTGは、ビデオの推論に大規模な言語モデルを活用する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令を用いて対応する映像イベントをローカライズする。
- 参考スコア(独自算出の注目度): 47.02859025575576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building models that generate textual responses to user instructions for
videos is a practical and challenging topic, as it requires both vision
understanding and knowledge reasoning. Compared to language and image
modalities, training efficiency remains a serious problem as existing studies
train models on massive sparse videos aligned with brief descriptions. In this
paper, we introduce BiLL-VTG, a fast adaptive framework that leverages large
language models (LLMs) to reasoning on videos based on essential lightweight
visual tools. Specifically, we reveal the key to response specific instructions
is the concentration on relevant video events, and utilize two visual tools of
structured scene graph generation and descriptive image caption generation to
gather and represent the events information. Thus, a LLM equipped with world
knowledge is adopted as the reasoning agent to achieve the response by
performing multiple reasoning steps on specified video events.To address the
difficulty of specifying events from agent, we further propose an
Instruction-oriented Video Events Recognition (InsOVER) algorithm based on the
efficient Hungarian matching to localize corresponding video events using
linguistic instructions, enabling LLMs to interact with long videos. Extensive
experiments on two typical video-based texts generations tasks show that our
tuning-free framework outperforms the pre-trained models including
Flamingo-80B, to achieve the state-of-the-art performance.
- Abstract(参考訳): ビデオのユーザ指示にテキスト応答を生成するモデルの構築は、視覚理解と知識推論の両方を必要とするため、実用的で挑戦的なトピックである。
言語や画像のモダリティと比較しても、既存の研究では、簡潔な記述に沿った巨大なスパースビデオのモデルを訓練しているため、トレーニング効率は深刻な問題である。
本稿では,大規模言語モデル(llm)を活用して,本質的軽量ビジュアルツールに基づくビデオの推論を行う高速適応フレームワークであるbill-vtgを紹介する。
具体的には、関連する映像イベントに集中して対応するための鍵を明らかにし、構造化されたシーングラフ生成と記述的な画像キャプション生成の2つの視覚ツールを使用してイベント情報を収集し、表現する。
そこで,世界知識を備えたLLMを推論エージェントとして採用し,特定のビデオイベントに対して複数の推論ステップを施すことにより応答を達成し,エージェントからイベントを特定することの難しさに対処するため,ハンガリー語対応の効率的なマッチングに基づく命令指向ビデオイベント認識(InsOVER)アルゴリズムを提案する。
2つの典型的なビデオベースのテキスト生成タスクに対する大規模な実験により、我々のチューニングフリーフレームワークは、Flamingo-80Bを含む事前訓練されたモデルよりも優れた性能を示し、最先端のパフォーマンスを実現している。
関連論文リスト
- Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。
これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。
そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-21T18:43:07Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。