Fugu-MT 論文翻訳(概要): Valley: Video Assistant with Large Language model Enhanced abilitY

論文の概要: Valley: Video Assistant with Large Language model Enhanced abilitY

arxiv url: http://arxiv.org/abs/2306.07207v1
Date: Mon, 12 Jun 2023 16:11:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-13 13:52:09.230296
Title: Valley: Video Assistant with Large Language model Enhanced abilitY
Title（参考訳）: Valley:大きな言語モデルによるビデオアシスタントの強化
Authors: Ruipu Luo, Ziwang Zhao, Min Yang, Junwei Dong, Minghui Qiu, Pengcheng Lu, Tao Wang, Zhongyu Wei
Abstract要約: 我々は、一般的なフレームワーク内でビデオ、画像、言語を知覚できる新しいマルチモーダル基盤モデルを開発する。提案するバレーモデルは、ビデオ、画像、言語をブリッジする単純な投影モジュールで設計されている。マルチタスク・インストラクション・フォローするビデオデータを生成し、マルチショットキャプション、長いビデオ記述、アクション認識、因果関係推論を含む。
参考スコア（独自算出の注目度）: 38.03579653184694
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, several multi-modal models have been developed for joint image and language understanding, which have demonstrated impressive chat abilities by utilizing advanced large language models (LLMs). The process of developing such models is straightforward yet effective. It involves pre-training an adaptation module to align the semantics of the vision encoder and language model, followed by fine-tuning on the instruction-following data. However, despite the success of this pipeline in image and language understanding, its effectiveness in joint video and language understanding has not been widely explored. In this paper, we aim to develop a novel multi-modal foundation model capable of perceiving video, image, and language within a general framework. To achieve this goal, we introduce Valley: Video Assistant with Large Language model Enhanced ability. Specifically, our proposed Valley model is designed with a simple projection module that bridges video, image, and language modalities, and is further unified with a multi-lingual LLM. We also collect multi-source vision-text pairs and adopt a spatio-temporal pooling strategy to obtain a unified vision encoding of video and image input for pre-training. Furthermore, we generate multi-task instruction-following video data, including multi-shot captions, long video descriptions, action recognition, causal relationship inference, etc. To obtain the instruction-following data, we design diverse rounds of task-oriented conversations between humans and videos, facilitated by ChatGPT. Qualitative examples demonstrate that our proposed model has the potential to function as a highly effective multilingual video assistant that can make complex video understanding scenarios easy. Code, data, and models will be available at https://github.com/RupertLuo/Valley.
Abstract（参考訳）: 近年,高度な大規模言語モデル(llms)を用いて印象的なチャット能力を示す多モードモデルが開発されている。このようなモデルを開発するプロセスは単純だが効果的である。視覚エンコーダと言語モデルのセマンティクスを調整するために適応モジュールを事前トレーニングし、命令に従うデータの微調整を行う。しかし、このパイプラインは画像と言語理解において成功しているが、共同ビデオと言語理解における効果は広く研究されていない。本稿では,一般的な枠組みの中で映像,画像,言語を知覚できる新しいマルチモーダル基盤モデルを開発することを目的とする。この目標を達成するために、大言語モデル拡張機能付きビデオアシスタントであるValleyを紹介します。特に,提案するバレーモデルは,映像,画像,言語を橋渡しする単純な投影モジュールで設計され,多言語llmとさらに統合されている。また,多元視覚テキストペアを収集し,時空間プーリング戦略を採用し,事前学習のための映像と画像入力の統一視覚符号化を得る。さらに,マルチショットキャプション,ロングビデオ記述,アクション認識,因果関係推論などを含むマルチタスク命令追従ビデオデータを生成する。命令追従データを得るために,チャットgptを用いて,人間とビデオ間のタスク指向会話の多種多様なラウンドをデザインする。定性的な例では,提案モデルが複雑な映像理解のシナリオを容易に行える,高効率な多言語ビデオアシスタントとして機能する可能性を実証している。コード、データ、モデルはhttps://github.com/RupertLuo/Valley.comで入手できる。

関連論文リスト

LinVT: Empower Your Image-level Large Language Model to Understand Videos [10.159566131070418]
大規模言語モデル(LLM)は様々なタスクで広く使われている。我々は、任意の訓練された画像ベースのLCMをビデオLLMに変換するモジュールを提案する。我々はLinVTをAquila, Blip-3, InternVL2, Mipha, Molmo, Qwen2-VLの6つのビジュアルLLMでベンチマークした。
論文参考訳（メタデータ） (2024-12-06T17:04:42Z)
VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文参考訳（メタデータ） (2024-07-08T18:12:49Z)
VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。 InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文参考訳（メタデータ） (2023-10-16T17:05:56Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。 VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文参考訳（メタデータ） (2023-05-22T17:51:22Z)
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。 VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文参考訳（メタデータ） (2023-05-22T15:54:22Z)
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文参考訳（メタデータ） (2023-04-27T13:27:01Z)
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文参考訳（メタデータ） (2023-03-29T16:42:30Z)
MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling [7.737755720567113]
本稿では,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計する。また,新しい事前学習タスクであるMultiple Choice Modelingを提案する。
論文参考訳（メタデータ） (2023-03-10T05:22:39Z)
Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文参考訳（メタデータ） (2022-08-17T05:30:18Z)
Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。 VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文参考訳（メタデータ） (2021-04-19T15:58:45Z)
UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。 2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文参考訳（メタデータ） (2020-02-15T10:03:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。