Fugu-MT 論文翻訳(概要): Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization

論文の概要: Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization

arxiv url: http://arxiv.org/abs/2504.12083v1
Date: Wed, 16 Apr 2025 13:43:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 17:35:38.860877
Title: Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization
Title（参考訳）: 正規化参照最適化による大規模ビデオ言語モデルの自己アライメント
Authors: Pritam Sarkar, Ali Etemad,
Abstract要約: 大規模ビデオ言語モデル(LVLM)は、微細な時間的理解と幻覚に苦慮し、単純なビデオ質問応答タスクでも単純な誤りを犯すことが多い。本稿では,LVLMが自己の誤りから学習できる自己調整フレームワークを提案する。
参考スコア（独自算出の注目度）: 29.706347050700867
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite recent advances in Large Video Language Models (LVLMs), they still struggle with fine-grained temporal understanding, hallucinate, and often make simple mistakes on even simple video question-answering tasks, all of which pose significant challenges to their safe and reliable deployment in real-world applications. To address these limitations, we propose a self-alignment framework that enables LVLMs to learn from their own errors. Our proposed framework first obtains a training set of preferred and non-preferred response pairs, where non-preferred responses are generated by incorporating common error patterns that often occur due to inadequate spatio-temporal understanding, spurious correlations between co-occurring concepts, and over-reliance on linguistic cues while neglecting the vision modality, among others. To facilitate self-alignment of LVLMs with the constructed preferred and non-preferred response pairs, we introduce Refined Regularized Preference Optimization (RRPO), a novel preference optimization method that utilizes sub-sequence-level refined rewards and token-wise KL regularization to address the limitations of Direct Preference Optimization (DPO). We demonstrate that RRPO achieves more precise alignment and more stable training compared to DPO. Our experiments and analysis validate the effectiveness of our approach across diverse video tasks, including video hallucination, short- and long-video understanding, and fine-grained temporal reasoning.
Abstract（参考訳）: 近年のLVLM(Large Video Language Models)の進歩にも拘わらず、細かな時間的理解、幻覚、単純なビデオ質問応答タスクの単純なミスに苦慮している。これらの制約に対処するために,LVLMが自身のエラーから学習できる自己調整フレームワークを提案する。提案手法はまず,不適切な時空間的理解,共起概念間の急激な相関,言語的手がかりに対する過度な信頼などの原因でしばしば発生する共通エラーパターンを組み込むことにより,好ましくない応答対のトレーニングセットを得る。提案手法では,LVLMの自己アライメントを容易にするために,サブシーケンスレベルの洗練された報酬とトークンワイドなKL正規化を併用し,直接参照最適化(DPO)の限界に対処する新しい選好最適化手法であるRefined Regularized Preference Optimization (RRPO)を導入する。 RRPOはDPOよりも高精度なアライメントと安定したトレーニングを実現していることを示す。実験と分析により,ビデオ幻覚,短時間・長時間の理解,微粒な時間的推論など,多様なビデオタスクにまたがるアプローチの有効性が検証された。

関連論文リスト

GAPO: Learning Preferential Prompt through Generative Adversarial Policy Optimization [28.85371253733727]
本稿では,GAPO(Generative Adversarial Policy Optimization)を紹介する。GAPOは,GANベースのトレーニングダイナミクスとエンコーダのみの報酬モデルを組み合わせた新しいフレームワークである。大規模な実験では、GAPOは複数のベンチマークで優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2025-03-26T03:37:52Z)
TEMPLE:Temporal Preference Learning of Video LLMs via Difficulty Scheduling and Pre-SFT Alignment [48.94844127553743]
TEMPLEはビデオ大言語モデルの時間的推論能力を高めるための体系的なフレームワークである。提案手法は,比較的小さな自己生成DPOデータを用いて,複数のベンチマークでビデオLLM性能を継続的に改善する。我々のTEMPLEは、SFTベースの手法をスケーラブルかつ効率的に補完するものであり、信頼性の高いビデオLLMを開発するための道を開くものである。
論文参考訳（メタデータ） (2025-03-21T08:00:29Z)
Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。 Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文参考訳（メタデータ） (2024-12-19T18:32:21Z)
Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-11-13T16:15:38Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。 LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文参考訳（メタデータ） (2024-05-22T10:21:50Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。