論文の概要: One For All: Video Conversation is Feasible Without Video Instruction
Tuning
- arxiv url: http://arxiv.org/abs/2309.15785v1
- Date: Wed, 27 Sep 2023 16:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 12:43:25.917808
- Title: One For All: Video Conversation is Feasible Without Video Instruction
Tuning
- Title(参考訳): ビデオの会話は、ビデオのインストラクションがなくてもできる
- Authors: Ruyang Liu and Chen Li and Yixiao Ge and Ying Shan and Thomas H. Li
and Ge Li
- Abstract要約: BT-Adapterは、画像言語で事前訓練されたモデルをビデオドメインに拡張する新しい方法である。
一度トレーニングされたばかりのBT-Adapterは、すべての画像会話モデルにシームレスに統合できる。
BT-Adapterは、(1)最先端のゼロショットの結果を、何千時間も少ないGPU時間で、様々なビデオタスクで達成する。
- 参考スコア(独自算出の注目度): 80.00756768030534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent progress in Large Language Models (LLM) has spurred various
advancements in image-language conversation agents, while how to build a
proficient video-based dialogue system is still under exploration. Considering
the extensive scale of LLM and visual backbone, minimal GPU memory is left for
facilitating effective temporal modeling, which is crucial for comprehending
and providing feedback on videos. To this end, we propose Branching Temporal
Adapter (BT-Adapter), a novel method for extending image-language pretrained
models into the video domain. Specifically, BT-Adapter serves as a plug-and-use
temporal modeling branch alongside the pretrained visual encoder, which is
tuned while keeping the backbone frozen. Just pretrained once, BT-Adapter can
be seamlessly integrated into all image conversation models using this version
of CLIP, enabling video conversations without the need for video instructions.
Besides, we develop a unique asymmetric token masking strategy inside the
branch with tailor-made training tasks for BT-Adapter, facilitating faster
convergence and better results. Thanks to BT-Adapter, we are able to empower
existing multimodal dialogue models with strong video understanding
capabilities without incurring excessive GPU costs. Without bells and whistles,
BT-Adapter achieves (1) state-of-the-art zero-shot results on various video
tasks using thousands of fewer GPU hours. (2) better performance than current
video chatbots without any video instruction tuning. (3) state-of-the-art
results of video chatting using video instruction tuning, outperforming
previous SOTAs by a large margin.
- Abstract(参考訳): 近年のLarge Language Models (LLM) の進歩により、画像言語対話エージェントの進歩が加速し、ビデオベース対話システムの構築方法がまだ検討中である。
LLMと視覚バックボーンの広範なスケールを考慮すると、ビデオの理解とフィードバックの提供に不可欠な効果的な時間的モデリングを容易にするために、最小限のGPUメモリが残されている。
そこで本研究では,画像言語事前学習モデルをビデオ領域に拡張する新しい手法であるBnching Temporal Adapter (BT-Adapter)を提案する。
具体的には、BT-Adapterは、事前訓練された視覚エンコーダと共に、プラグアンドユース・テンポラルモデリングブランチとして機能する。
一度事前トレーニングすると、bt-adapterは、このバージョンのクリップを使って、すべての画像会話モデルにシームレスに統合できる。
さらに,BT-Adapterのトレーニングタスクを調整したブランチ内で独自の非対称なトークンマスキング戦略を開発し,より高速な収束とより良い結果を得る。
BT-Adapterのおかげで、過剰なGPUコストを発生させることなく、強力なビデオ理解機能を備えた既存のマルチモーダル対話モデルを強化することができます。
BT-Adapterは、ベルとホイッスルを使わずに、(1)最先端のゼロショットの結果を、数千時間少ないGPU時間で、様々なビデオタスクで達成する。
2)ビデオインストラクションのチューニングが不要な現在のビデオチャットボットよりもパフォーマンスが良い。
3) 映像指導チューニングによるビデオチャットの最先端結果, 従来のSOTAよりも大差で優れていた。
関連論文リスト
- Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:03:49Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。