Fugu-MT 論文翻訳(概要): VideoSAVi: Self-Aligned Video Language Models without Human Supervision

論文の概要: VideoSAVi: Self-Aligned Video Language Models without Human Supervision

arxiv url: http://arxiv.org/abs/2412.00624v3
Date: Sat, 09 Aug 2025 12:39:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-12 21:23:28.13009
Title: VideoSAVi: Self-Aligned Video Language Models without Human Supervision
Title（参考訳）: VideoSAVi:人間監督なしの自己調整型ビデオ言語モデル
Authors: Yogesh Kulkarni, Pooyan Fazli,
Abstract要約: VideoSAViは、ビデオ-LLMが外部の監督なしにビデオコンテンツから学ぶことができる自己学習パイプラインである。我々のアプローチは、モデルの初期応答における推論エラーを識別する自己記述機構を含む。 VideoSAViは、複数のベンチマークで大幅に改善されている。
参考スコア（独自算出の注目度）: 0.6854849895338531
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in video-large language models (Video-LLMs) have led to significant progress in video understanding. Current preference optimization methods often rely on proprietary APIs or human-annotated captions to generate preference data (i.e., pairs of model outputs ranked by quality or alignment with human judgment), which is then used to train models for video-language alignment. This approach is both costly and labor-intensive. To address this limitation, we introduce VideoSAVi (Self-Aligned Video Language Model), a self-training pipeline that enables Video-LLMs to learn from video content without external supervision. Our approach includes a self-critiquing mechanism that identifies reasoning errors in the model's initial responses and generates improved alternatives, creating preference pairs directly from video content. VideoSAVi then applies Direct Preference Optimization (DPO) to iteratively train the model using the preference data, thus enhancing its temporal and spatial reasoning for video understanding. Experiments show that VideoSAVi delivers significant improvements across multiple benchmarks, including a +4.2 percentage point gain on MVBench, +3.9 on PerceptionTest, and +6.8 on the challenging EgoSchema dataset compared to baseline models. Our model-agnostic approach is computationally efficient, requiring only 32 frames, offering a promising direction for self-aligned video understanding without reliance on external models or annotations.
Abstract（参考訳）: ビデオ大言語モデル(ビデオ-LLM)の最近の進歩は、ビデオ理解に大きな進歩をもたらした。現在の選好最適化手法は、しばしばプロプライエタリなAPIや人間の注釈付きキャプションに頼り、好みデータ(例えば、品質や人間の判断と一致したモデルアウトプットのペア)を生成し、ビデオ言語アライメントのためのモデルのトレーニングに使用される。このアプローチはコストが高く、労働集約的です。この制限に対処するために、ビデオ-LLMが外部の監督なしにビデオコンテンツから学習できる自己学習パイプラインであるVideoSAVi(Self-Aligned Video Language Model)を導入する。提案手法は,モデルの初期応答における推論誤りを識別し,改善された代替品を生成し,ビデオコンテンツから直接選好ペアを生成する自己判定機構を含む。次に、ビデオSAViは、嗜好データを用いてモデルを反復的に訓練するために直接選好最適化(DPO)を適用し、ビデオ理解のための時間的および空間的推論を強化する。 VideoSAViはMVBenchの+4.2パーセント、PerceptionTestの+3.9、ベースラインモデルと比較して挑戦的なEgoSchemaデータセットの+6.8など、複数のベンチマークで大幅に改善されている。我々のモデル非依存のアプローチは計算効率が高く、32フレームしか必要とせず、外部モデルやアノテーションに頼らずに、自己整合型ビデオ理解のための有望な方向を提供する。

関連論文リスト

AVC-DPO: Aligned Video Captioning via Direct Preference Optimization [50.08618093204503]
ビデオマルチモーダル大言語モデル(ビデオMLLM)は,ビデオキャプションタスクにおいて大きな進歩を遂げている。そこで我々は,ビデオMLLMのキャプション機能を高めるために,AVC-DPO(Designed Video Captioning via Direct Preference Optimization)を提案する。 LOVE@PRCV'25 Workshop Track 1A: Video Detailed Captioning Challengeで、ビデオ詳細キャプションのベンチマークで1位を獲得しました。
論文参考訳（メタデータ） (2025-07-02T08:51:45Z)
SynPO: Synergizing Descriptiveness and Preference Optimization for Video Detailed Captioning [69.34975070207763]
我々は、選好学習を活用し、細粒度ビデオキャプションにおける視覚言語モデルの性能を向上させる。本稿では,DPOとその変種に対する大きな優位性を示す新しい最適化手法を提案する。その結果、SynPOはトレーニング効率を20%向上しつつ、DPOの変種を一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2025-06-01T04:51:49Z)
VideoPASTA: 7K Preference Pairs That Matter for Video-LLM Alignment [0.6854849895338531]
ビデオ言語モデル(Video-LLMs)は、ビデオコンテンツを理解するのに優れているが、空間的関係、時間的順序付け、フレーム間の連続性に苦慮している。対象の選好最適化を通じてビデオLLMを強化するフレームワークであるVideoPASTAを紹介する。
論文参考訳（メタデータ） (2025-04-18T22:28:03Z)
Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。 3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文参考訳（メタデータ） (2025-04-02T17:59:57Z)
VPO: Aligning Text-to-Video Generation Models with Prompt Optimization [80.86205966195593]
ビデオ生成モデルは、通常、高度に詳細で慎重に記述されたテキストとビデオのペアで訓練される。 VPOは3つの基本原則(無害性、正確性、有用性)に基づいてプロンプトを最適化する、原則化されたフレームワークです。実験の結果,VPOは基準法に比べて安全性,アライメント,画質を著しく向上することがわかった。
論文参考訳（メタデータ） (2025-03-26T12:28:20Z)
Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models [26.866184981409607]
本稿では,計算オーバーヘッドを大幅に削減しつつ,競争性能を向上するビデオ言語理解のための効率的なエンコーダレス手法を提案する。本稿では,ビデオ入力を直接処理する時空間アライメントブロック(STAB)を提案する。本モデルでは,標準ベンチマークによるオープンエンドビデオ質問応答に対して,エンコーダに基づくアプローチに匹敵する,あるいは優れた性能を実現する。
論文参考訳（メタデータ） (2024-12-24T18:59:56Z)
OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization [30.6130504613716]
本稿では,ビデオ拡散モデルに特化した嗜好学習手法であるOnlineVPOを紹介する。 OnlineVPOは、ビデオ報酬モデルを使用して、簡潔なビデオフィードバックをオンザフライで提供することにより、効率的かつ効率的な選好ガイダンスを提供する。
論文参考訳（メタデータ） (2024-12-19T18:34:50Z)
VideoDPO: Omni-Preference Alignment for Video Diffusion Generation [48.36302380755874]
DPO(Direct Preference Optimization)は、言語と画像生成において大幅に改善されている。本稿では,いくつかの重要な調整を施したビデオDPOパイプラインを提案する。本実験は視覚的品質とセマンティックアライメントの両面で大幅に改善されたことを示す。
論文参考訳（メタデータ） (2024-12-18T18:59:49Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文参考訳（メタデータ） (2024-04-01T17:28:16Z)
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文参考訳（メタデータ） (2024-03-22T17:57:42Z)
Video Annotator: A framework for efficiently building video classifiers using vision-language models and active learning [0.0]
Video Annotator(VA)は、ビデオ分類データセットに注釈を付け、管理し、反復するフレームワークである。 VAは、データ収集とモデルのトレーニングをシームレスに統合する、継続的アノテーションプロセスを可能にする。 VAは、最も競争力のあるベースラインと比較して平均精度が6.8ポイント改善されている。
論文参考訳（メタデータ） (2024-02-09T17:19:05Z)
Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文参考訳（メタデータ） (2024-02-06T06:27:40Z)
Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文参考訳（メタデータ） (2024-01-11T18:59:53Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。 VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文参考訳（メタデータ） (2023-05-22T15:54:22Z)
VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。大規模なVidL事前学習による各種ベースライン法の評価を行った。我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文参考訳（メタデータ） (2021-06-08T18:34:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。