論文の概要: VideoSAVi: Self-Aligned Video Language Models without Human Supervision
- arxiv url: http://arxiv.org/abs/2412.00624v1
- Date: Sun, 01 Dec 2024 00:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 21:11:22.072266
- Title: VideoSAVi: Self-Aligned Video Language Models without Human Supervision
- Title(参考訳): VideoSAVi:人間監督なしの自己調整型ビデオ言語モデル
- Authors: Yogesh Kulkarni, Pooyan Fazli,
- Abstract要約: VideoSAViは視覚言語モデル(VLM)のための新しい自己学習パイプラインである
広範囲のマニュアルアノテーションなしで独自のトレーニングデータを生成する。
VideoSAViは、複数のベンチマークで大幅に改善されている。
- 参考スコア(独自算出の注目度): 0.6854849895338531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models (VLMs) have significantly enhanced video understanding tasks. Instruction tuning (i.e., fine-tuning models on datasets of instructions paired with desired outputs) has been key to improving model performance. However, creating diverse instruction-tuning datasets is challenging due to high annotation costs and the complexity of capturing temporal information in videos. Existing approaches often rely on large language models to generate instruction-output pairs, which can limit diversity and lead to responses that lack grounding in the video content. To address this, we propose VideoSAVi (Self-Aligned Video Language Model), a novel self-training pipeline that enables VLMs to generate their own training data without extensive manual annotation. The process involves three stages: (1) generating diverse video-specific questions, (2) producing multiple candidate answers, and (3) evaluating these responses for alignment with the video content. This self-generated data is then used for direct preference optimization (DPO), allowing the model to refine its own high-quality outputs and improve alignment with video content. Our experiments demonstrate that even smaller models (0.5B and 7B parameters) can effectively use this self-training approach, outperforming previous methods and achieving results comparable to those trained on proprietary preference data. VideoSAVi shows significant improvements across multiple benchmarks: up to 28% on multi-choice QA, 8% on zero-shot open-ended QA, and 12% on temporal reasoning benchmarks. These results demonstrate the effectiveness of our self-training approach in enhancing video understanding while reducing dependence on proprietary models.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、ビデオ理解タスクを大幅に強化した。
インストラクションチューニング(すなわち、所望の出力と組み合わせた命令のデータセットの微調整モデル)は、モデル性能を改善する上で重要な要素である。
しかし、アノテーションのコストが高く、ビデオ内の時間的情報をキャプチャする複雑さのため、多様な命令チューニングデータセットを作成することは困難である。
既存のアプローチはしばしば、命令出力ペアを生成するために大きな言語モデルに依存しており、これは多様性を制限し、ビデオコンテンツに根ざしていない応答につながる可能性がある。
そこで本研究では,VLMが手作業のアノテーションを伴わずに独自のトレーニングデータを生成することのできる,新たな自己学習パイプラインであるVideoSAVi(Self-Aligned Video Language Model)を提案する。
このプロセスは、(1)多様なビデオ固有の質問を生成すること、(2)複数の候補回答を生成すること、(3)ビデオコンテンツに沿った反応を評価すること、の3段階を含む。
この自己生成データは、直接選好最適化(DPO)に使用され、モデルが自身の高品質な出力を洗練し、ビデオコンテンツとの整合性を改善する。
実験の結果,より小さなモデル (0.5B と 7B のパラメータ) であっても,この自己学習手法を効果的に利用でき,従来の手法よりも優れ,プロプライエタリな選好データで訓練されたモデルに匹敵する結果が得られることがわかった。
VideoSAViは、マルチチョイスQAで28%、ゼロショットオープンエンドQAで8%、時間的推論ベンチマークで12%という、複数のベンチマークで大幅に改善されている。
これらの結果から,プロプライエタリなモデルへの依存度を低減しつつ,映像理解を高めるための自己学習手法の有効性が示された。
関連論文リスト
- VideoPASTA: 7K Preference Pairs That Matter for Video-LLM Alignment [0.6854849895338531]
ビデオ言語モデル(Video-LLMs)は、ビデオコンテンツを理解するのに優れているが、空間的関係、時間的順序付け、フレーム間の連続性に苦慮している。
対象の選好最適化を通じてビデオLLMを強化するフレームワークであるVideoPASTAを紹介する。
論文 参考訳(メタデータ) (2025-04-18T22:28:03Z) - Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。
これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。
3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文 参考訳(メタデータ) (2025-04-02T17:59:57Z) - VPO: Aligning Text-to-Video Generation Models with Prompt Optimization [80.86205966195593]
ビデオ生成モデルは、通常、高度に詳細で慎重に記述されたテキストとビデオのペアで訓練される。
VPOは3つの基本原則(無害性、正確性、有用性)に基づいてプロンプトを最適化する、原則化されたフレームワークです。
実験の結果,VPOは基準法に比べて安全性,アライメント,画質を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-03-26T12:28:20Z) - Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models [26.866184981409607]
本稿では,計算オーバーヘッドを大幅に削減しつつ,競争性能を向上するビデオ言語理解のための効率的なエンコーダレス手法を提案する。
本稿では,ビデオ入力を直接処理する時空間アライメントブロック(STAB)を提案する。
本モデルでは,標準ベンチマークによるオープンエンドビデオ質問応答に対して,エンコーダに基づくアプローチに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-24T18:59:56Z) - OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization [30.6130504613716]
本稿では,ビデオ拡散モデルに特化した嗜好学習手法であるOnlineVPOを紹介する。
OnlineVPOは、ビデオ報酬モデルを使用して、簡潔なビデオフィードバックをオンザフライで提供することにより、効率的かつ効率的な選好ガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-19T18:34:50Z) - VideoDPO: Omni-Preference Alignment for Video Diffusion Generation [48.36302380755874]
DPO(Direct Preference Optimization)は、言語と画像生成において大幅に改善されている。
本稿では,いくつかの重要な調整を施したビデオDPOパイプラインを提案する。
本実験は視覚的品質とセマンティックアライメントの両面で大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2024-12-18T18:59:49Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video Annotator: A framework for efficiently building video classifiers
using vision-language models and active learning [0.0]
Video Annotator(VA)は、ビデオ分類データセットに注釈を付け、管理し、反復するフレームワークである。
VAは、データ収集とモデルのトレーニングをシームレスに統合する、継続的アノテーションプロセスを可能にする。
VAは、最も競争力のあるベースラインと比較して平均精度が6.8ポイント改善されている。
論文 参考訳(メタデータ) (2024-02-09T17:19:05Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。
ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。
副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-11T18:59:53Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。