論文の概要: Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision
- arxiv url: http://arxiv.org/abs/2407.06189v1
- Date: Mon, 8 Jul 2024 17:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 14:30:11.012341
- Title: Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision
- Title(参考訳): Video-STaR: 自己学習でどんな監督でもビデオのインストラクションを調整できる
- Authors: Orr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy,
- Abstract要約: Video Self-Training with augmented Reasoning (Video-STaR)は、最初のビデオセルフトレーニングアプローチである。
Video-STaRは、ビデオインストラクションチューニングにラベル付きビデオデータセットを利用することができる。
- 参考スコア(独自算出の注目度): 24.568643475808564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Large Vision Language Models (LVLMs) is dependent on the size and quality of their training datasets. Existing video instruction tuning datasets lack diversity as they are derived by prompting large language models with video captions to generate question-answer pairs, and are therefore mostly descriptive. Meanwhile, many labeled video datasets with diverse labels and supervision exist - however, we find that their integration into LVLMs is non-trivial. Herein, we present Video Self-Training with augmented Reasoning (Video-STaR), the first video self-training approach. Video-STaR allows the utilization of any labeled video dataset for video instruction tuning. In Video-STaR, an LVLM cycles between instruction generation and finetuning, which we show (I) improves general video understanding and (II) adapts LVLMs to novel downstream tasks with existing supervision. During generation, an LVLM is prompted to propose an answer. The answers are then filtered only to those that contain the original video labels, and the LVLM is then re-trained on the generated dataset. By only training on generated answers that contain the correct video labels, Video-STaR utilizes these existing video labels as weak supervision for video instruction tuning. Our results demonstrate that Video-STaR-enhanced LVLMs exhibit improved performance in (I) general video QA, where TempCompass performance improved by 10%, and (II) on downstream tasks, where Video-STaR improved Kinetics700-QA accuracy by 20% and action quality assessment on FineDiving by 15%.
- Abstract(参考訳): 大規模ビジョン言語モデル(LVLM)の性能は、トレーニングデータセットのサイズと品質に依存する。
既存のビデオインストラクションチューニングデータセットは、ビデオキャプションで大きな言語モデルに質問応答ペアを生成するよう促すことによって、多様性を欠いている。
一方、ラベル付きビデオデータセットにはさまざまなラベルや監督機能があるが、LVLMへの統合は簡単ではない。
本稿では、最初のビデオ自己学習アプローチである拡張推論(Video-STaR)を用いたビデオ自己学習について述べる。
Video-STaRは、ビデオインストラクションチューニングにラベル付きビデオデータセットを利用することができる。
ビデオ-STaRでは、命令生成と微調整の間のLVLMサイクルが、(I)一般的なビデオ理解を改善し、(II)既存の監督下での下流タスクにLVLMを適応させる。
生成中、LVLMに解答を提案する。
回答は元のビデオラベルを含むもののみにフィルタリングされ、LVLMは生成されたデータセットで再トレーニングされる。
ビデオラベルを含む生成された回答のみをトレーニングすることにより、既存のビデオラベルをビデオインストラクションチューニングの弱い監督手段として利用する。
以上の結果から,(I)TempCompass性能が10%向上し,(II)TempCompass性能が10%向上し,(II)Cineetics700-QA精度が20%向上し,FineDivingの動作品質が15%向上した。
関連論文リスト
- Fewer Tokens and Fewer Videos: Extending Video Understanding Abilities in Large Vision-Language Models [29.825619120260164]
本稿では,映像と映像の視覚的共通性を活かして,映像LVLMをビデオLVLMに進化させることによる課題に対処する。
本稿では、モデルアーキテクチャを強化し、革新的なトレーニング戦略を導入し、最も効果的なタイプのビデオ命令データを特定する、費用対効果のあるビデオLVLMを提案する。
論文 参考訳(メタデータ) (2024-06-12T09:22:45Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - Video-LLaVA: Learning United Visual Representation by Alignment Before
Projection [28.39885771124003]
我々は、画像とビデオの混合データセットから学習し、相互に強化するVideo-LLaVAを紹介する。
Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
特に、大規模な実験では、ビデオ-LLaVAは、画像やビデオ用に特別に設計されたモデルよりも優れた、統一された視覚表現内の画像とビデオに相互に利益をもたらすことが示されている。
論文 参考訳(メタデータ) (2023-11-16T10:59:44Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [77.02631712558251]
本稿では,大言語モデル(LLM)の機能を活用して,ビデオに合わせた細粒度な映像記述を実現することを提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
評価の結果,得られたキャプションは,テキスト・ビデオ検索のための多くのベンチマーク・データセットよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video
Understanding [61.80870130860662]
Video-LLaMAは、ビデオ内の視覚的および聴覚的コンテンツの両方を理解する能力を備えた、大規模言語モデル(LLM)を強化するフレームワークである。
Video-LLaMAブートストラップは、凍結された事前訓練されたビジュアルおよびオーディオエンコーダと凍結されたLCMからのクロスモーダルトレーニングである。
Video-LLaMAは,映像コンテンツを知覚し,理解し,意味のある応答を生成する能力を示す。
論文 参考訳(メタデータ) (2023-06-05T13:17:27Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - LiVLR: A Lightweight Visual-Linguistic Reasoning Framework for Video
Question Answering [50.11756459499762]
軽量な視覚言語推論フレームワークLiVLRを提案する。
LiVLRは、まず、グラフベースの視覚と言語のアブリケーションを使用して、多義的な視覚と言語表現を得る。
提案したLiVLRは軽量で、2つのVideoQAベンチマークでパフォーマンス上の優位性を示す。
論文 参考訳(メタデータ) (2021-11-29T14:18:47Z) - Advancing High-Resolution Video-Language Representation with Large-Scale
Video Transcriptions [31.4943447481144]
本稿では,共同学習と言語学習(VL)について検討し,モダリティ間の学習を可能とし,多くの下流作業に役立てる。
本モデルでは,10の理解タスクと2の新たなテキスト・ビジュアル生成タスクを実現する。
論文 参考訳(メタデータ) (2021-11-19T17:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。