論文の概要: Valley: Video Assistant with Large Language model Enhanced abilitY
- arxiv url: http://arxiv.org/abs/2306.07207v1
- Date: Mon, 12 Jun 2023 16:11:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 13:52:09.230296
- Title: Valley: Video Assistant with Large Language model Enhanced abilitY
- Title(参考訳): Valley:大きな言語モデルによるビデオアシスタントの強化
- Authors: Ruipu Luo, Ziwang Zhao, Min Yang, Junwei Dong, Minghui Qiu, Pengcheng
Lu, Tao Wang, Zhongyu Wei
- Abstract要約: 我々は、一般的なフレームワーク内でビデオ、画像、言語を知覚できる新しいマルチモーダル基盤モデルを開発する。
提案するバレーモデルは、ビデオ、画像、言語をブリッジする単純な投影モジュールで設計されている。
マルチタスク・インストラクション・フォローするビデオデータを生成し、マルチショットキャプション、長いビデオ記述、アクション認識、因果関係推論を含む。
- 参考スコア(独自算出の注目度): 38.03579653184694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, several multi-modal models have been developed for joint image and
language understanding, which have demonstrated impressive chat abilities by
utilizing advanced large language models (LLMs). The process of developing such
models is straightforward yet effective. It involves pre-training an adaptation
module to align the semantics of the vision encoder and language model,
followed by fine-tuning on the instruction-following data. However, despite the
success of this pipeline in image and language understanding, its effectiveness
in joint video and language understanding has not been widely explored. In this
paper, we aim to develop a novel multi-modal foundation model capable of
perceiving video, image, and language within a general framework. To achieve
this goal, we introduce Valley: Video Assistant with Large Language model
Enhanced ability. Specifically, our proposed Valley model is designed with a
simple projection module that bridges video, image, and language modalities,
and is further unified with a multi-lingual LLM. We also collect multi-source
vision-text pairs and adopt a spatio-temporal pooling strategy to obtain a
unified vision encoding of video and image input for pre-training. Furthermore,
we generate multi-task instruction-following video data, including multi-shot
captions, long video descriptions, action recognition, causal relationship
inference, etc. To obtain the instruction-following data, we design diverse
rounds of task-oriented conversations between humans and videos, facilitated by
ChatGPT. Qualitative examples demonstrate that our proposed model has the
potential to function as a highly effective multilingual video assistant that
can make complex video understanding scenarios easy. Code, data, and models
will be available at https://github.com/RupertLuo/Valley.
- Abstract(参考訳): 近年,高度な大規模言語モデル(llms)を用いて印象的なチャット能力を示す多モードモデルが開発されている。
このようなモデルを開発するプロセスは単純だが効果的である。
視覚エンコーダと言語モデルのセマンティクスを調整するために適応モジュールを事前トレーニングし、命令に従うデータの微調整を行う。
しかし、このパイプラインは画像と言語理解において成功しているが、共同ビデオと言語理解における効果は広く研究されていない。
本稿では,一般的な枠組みの中で映像,画像,言語を知覚できる新しいマルチモーダル基盤モデルを開発することを目的とする。
この目標を達成するために、大言語モデル拡張機能付きビデオアシスタントであるValleyを紹介します。
特に,提案するバレーモデルは,映像,画像,言語を橋渡しする単純な投影モジュールで設計され,多言語llmとさらに統合されている。
また,多元視覚テキストペアを収集し,時空間プーリング戦略を採用し,事前学習のための映像と画像入力の統一視覚符号化を得る。
さらに,マルチショットキャプション,ロングビデオ記述,アクション認識,因果関係推論などを含むマルチタスク命令追従ビデオデータを生成する。
命令追従データを得るために,チャットgptを用いて,人間とビデオ間のタスク指向会話の多種多様なラウンドをデザインする。
定性的な例では,提案モデルが複雑な映像理解のシナリオを容易に行える,高効率な多言語ビデオアシスタントとして機能する可能性を実証している。
コード、データ、モデルはhttps://github.com/RupertLuo/Valley.comで入手できる。
関連論文リスト
- VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - MuLTI: Efficient Video-and-Language Understanding with Text-Guided
MultiWay-Sampler and Multiple Choice Modeling [7.737755720567113]
本稿では,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。
適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計する。
また,新しい事前学習タスクであるMultiple Choice Modelingを提案する。
論文 参考訳(メタデータ) (2023-03-10T05:22:39Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。