論文の概要: Valley: Video Assistant with Large Language model Enhanced abilitY
- arxiv url: http://arxiv.org/abs/2306.07207v2
- Date: Sun, 8 Oct 2023 09:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 09:01:13.503607
- Title: Valley: Video Assistant with Large Language model Enhanced abilitY
- Title(参考訳): Valley:大きな言語モデルによるビデオアシスタントの強化
- Authors: Ruipu Luo, Ziwang Zhao, Min Yang, Junwei Dong, Da Li, Pengcheng Lu,
Tao Wang, Linmei Hu, Minghui Qiu, Zhongyu Wei
- Abstract要約: 大規模言語モデル強化型ビデオアシスタントであるValleyを紹介した。
映像理解と指示追従能力でバレーを強化するため,映像指導データセットを構築した。
タスク指向会話データの構築を容易にするためにChatGPTを用いる。
- 参考スコア(独自算出の注目度): 41.79449203718827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), with their remarkable conversational
capabilities, have demonstrated impressive performance across various
applications and have emerged as formidable AI assistants. In view of this, it
raises an intuitive question: Can we harness the power of LLMs to build
multimodal AI assistants for visual applications? Recently, several multi-modal
models have been developed for this purpose. They typically pre-train an
adaptation module to align the semantics of the vision encoder and language
model, followed by fine-tuning on instruction-following data. However, despite
the success of this pipeline in image and language understanding, its
effectiveness in joint video and language understanding has not been widely
explored. In this paper, we aim to develop a novel multi-modal foundation model
capable of comprehending video, image, and language within a general framework.
To achieve this goal, we introduce Valley, a Video Assistant with Large
Language model Enhanced abilitY. The Valley consists of a LLM, a temporal
modeling module, a visual encoder, and a simple projection module designed to
bridge visual and textual modes. To empower Valley with video comprehension and
instruction-following capabilities, we construct a video instruction dataset
and adopt a two-stage tuning procedure to train it. Specifically, we employ
ChatGPT to facilitate the construction of task-oriented conversation data
encompassing various tasks, including multi-shot captions, long video
descriptions, action recognition, causal relationship inference, etc.
Subsequently, we adopt a pre-training-then-instructions-tuned pipeline to align
visual and textual modalities and improve the instruction-following capability
of Valley. Qualitative experiments demonstrate that Valley has the potential to
function as a highly effective video assistant that can make complex video
understanding scenarios easy.
- Abstract(参考訳): 大きな言語モデル(LLM)とその卓越した会話能力は、さまざまなアプリケーションで印象的なパフォーマンスを示し、恐ろしいAIアシスタントとして登場した。
llmのパワーを利用して、ビジュアルアプリケーションのためのマルチモーダルaiアシスタントを構築することができるだろうか?
近年,複数のマルチモーダルモデルが開発されている。
彼らは通常、視覚エンコーダと言語モデルのセマンティクスを調整するために適応モジュールを事前訓練し、次に命令追従データに関する微調整を行う。
しかし、このパイプラインは画像と言語理解において成功しているが、共同ビデオと言語理解における効果は広く研究されていない。
本稿では,一般的なフレームワーク内でビデオ,画像,言語を解釈可能な,新しいマルチモーダル基盤モデルを開発することを目的とする。
この目標を達成するために,大きな言語モデルを備えたビデオアシスタントであるvalleyを紹介する。
バレーはllm、テンポラリモデリングモジュール、ビジュアルエンコーダ、ビジュアルモードとテキストモードを橋渡しするために設計された単純なプロジェクションモジュールで構成されている。
映像理解と指示追従能力でバレーを強化するために,映像指導データセットを構築し,その訓練に2段階のチューニング手順を採用する。
具体的には,マルチショットキャプション,ロングビデオ記述,アクション認識,因果関係推論など,さまざまなタスクを包含するタスク指向会話データの構築を容易にするためにchatgptを採用している。
続いて,事前学習型インストラクション調整パイプラインを採用し,視覚とテキストのモダリティを調整し,バレーの指示追従能力を向上させる。
質的な実験は、ヴァレーが複雑なビデオ理解シナリオを容易にする、非常に効果的なビデオアシスタントとして機能する可能性を実証している。
関連論文リスト
- VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - MuLTI: Efficient Video-and-Language Understanding with Text-Guided
MultiWay-Sampler and Multiple Choice Modeling [7.737755720567113]
本稿では,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。
適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計する。
また,新しい事前学習タスクであるMultiple Choice Modelingを提案する。
論文 参考訳(メタデータ) (2023-03-10T05:22:39Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。