論文の概要: BT-Adapter: Video Conversation is Feasible Without Video Instruction Tuning
- arxiv url: http://arxiv.org/abs/2309.15785v2
- Date: Thu, 27 Jun 2024 12:05:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 20:16:23.401363
- Title: BT-Adapter: Video Conversation is Feasible Without Video Instruction Tuning
- Title(参考訳): BT-Adapter:ビデオの会話はビデオのインストラクションチューニングなしでは不可能
- Authors: Ruyang Liu, Chen Li, Yixiao Ge, Ying Shan, Thomas H. Li, Ge Li,
- Abstract要約: BT-Adapterは、画像言語で事前訓練されたモデルをビデオドメインに拡張する新しい方法である。
一度トレーニングされたばかりのBT-Adapterは、すべての画像会話モデルにシームレスに統合できる。
BT-Adapterは、(1)最先端のゼロショットの結果を、何千時間も少ないGPU時間で、様々なビデオタスクで達成する。
- 参考スコア(独自算出の注目度): 75.50620335266682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent progress in Large Language Models (LLM) has spurred various advancements in image-language conversation agents, while how to build a proficient video-based dialogue system is still under exploration. Considering the extensive scale of LLM and visual backbone, minimal GPU memory is left for facilitating effective temporal modeling, which is crucial for comprehending and providing feedback on videos. To this end, we propose Branching Temporal Adapter (BT-Adapter), a novel method for extending image-language pretrained models into the video domain. Specifically, BT-Adapter serves as a plug-and-use temporal modeling branch alongside the pretrained visual encoder, which is tuned while keeping the backbone frozen. Just pretrained once, BT-Adapter can be seamlessly integrated into all image conversation models using this version of CLIP, enabling video conversations without the need for video instructions. Besides, we develop a unique asymmetric token masking strategy inside the branch with tailor-made training tasks for BT-Adapter, facilitating faster convergence and better results. Thanks to BT-Adapter, we are able to empower existing multimodal dialogue models with strong video understanding capabilities without incurring excessive GPU costs. Without bells and whistles, BT-Adapter achieves (1) state-of-the-art zero-shot results on various video tasks using thousands of fewer GPU hours. (2) better performance than current video chatbots without any video instruction tuning. (3) state-of-the-art results of video chatting using video instruction tuning, outperforming previous SOTAs by a large margin.
- Abstract(参考訳): 近年のLarge Language Models (LLM) の進歩は、画像言語対話エージェントの様々な進歩を加速させ、また、熟練したビデオベースの対話システムの構築方法はまだ検討中である。
LLMと視覚バックボーンの広範なスケールを考慮すると、ビデオの理解とフィードバックの提供に不可欠な効果的な時間的モデリングを容易にするために、最小限のGPUメモリが残されている。
そこで本研究では,画像言語事前学習モデルをビデオ領域に拡張する新しい手法であるBnching Temporal Adapter (BT-Adapter)を提案する。
具体的には、BT-Adapterは、事前訓練された視覚エンコーダと共に、プラグアンドユース・テンポラル・モデリング・ブランチとして機能し、背骨を凍結させながら調整される。
一度トレーニングされたばかりのBT-Adapterは、このバージョンのCLIPを使用して、すべての画像会話モデルにシームレスに統合することができ、ビデオインストラクションを必要とせずにビデオ会話を可能にする。
さらに,BT-Adapterのトレーニングタスクをカスタマイズした,枝内におけるユニークな非対称なトークンマスキング戦略を開発し,より高速な収束とより良い結果を得る。
BT-Adapterのおかげで、過剰なGPUコストを発生させることなく、強力なビデオ理解機能を備えた既存のマルチモーダル対話モデルを強化することができます。
BT-Adapterは、ベルとホイッスルを使わずに、(1)最先端のゼロショットの結果を、数千時間少ないGPU時間で、様々なビデオタスクで達成する。
2) 現在のビデオチャットボットよりも、ビデオ指導のチューニングを伴わないパフォーマンスが向上した。
3) 映像指導チューニングによるビデオチャットの最先端結果, 従来のSOTAよりも大差で優れていた。
関連論文リスト
- Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:03:49Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。