論文の概要: Aligning Large Vision-Language Models by Deep Reinforcement Learning and Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2509.06759v1
- Date: Mon, 08 Sep 2025 14:47:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.196872
- Title: Aligning Large Vision-Language Models by Deep Reinforcement Learning and Direct Preference Optimization
- Title(参考訳): 深部強化学習と直接選好最適化による大規模視覚言語モデルの調整
- Authors: Thanh Thi Nguyen, Campbell Wilson, Janis Dalins,
- Abstract要約: LVLM(Large Vision-Language Models)またはマルチモーダル大規模言語モデルは、人工知能の大幅な進歩を表している。
これらのモデルを人間の価値観と整合させたり、特定のタスクや行動に関わったりするための微調整は、依然として重要な課題である。
本総説では、DRLおよびDPO技術を用いてモデルを人間の好みや価値観に合わせる方法について、微調整LVLMのパラダイムを概説する。
- 参考スコア(独自算出の注目度): 3.6275547549769507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) or multimodal large language models represent a significant advancement in artificial intelligence, enabling systems to understand and generate content across both visual and textual modalities. While large-scale pretraining has driven substantial progress, fine-tuning these models for aligning with human values or engaging in specific tasks or behaviors remains a critical challenge. Deep Reinforcement Learning (DRL) and Direct Preference Optimization (DPO) offer promising frameworks for this aligning process. While DRL enables models to optimize actions using reward signals instead of relying solely on supervised preference data, DPO directly aligns the policy with preferences, eliminating the need for an explicit reward model. This overview explores paradigms for fine-tuning LVLMs, highlighting how DRL and DPO techniques can be used to align models with human preferences and values, improve task performance, and enable adaptive multimodal interaction. We categorize key approaches, examine sources of preference data, reward signals, and discuss open challenges such as scalability, sample efficiency, continual learning, generalization, and safety. The goal is to provide a clear understanding of how DRL and DPO contribute to the evolution of robust and human-aligned LVLMs.
- Abstract(参考訳): LVLM(Large Vision-Language Models)またはマルチモーダル言語モデル(Multimal large language model)は、人工知能の大幅な進歩を表し、システムは視覚とテキストの両方のモダリティでコンテンツを理解し、生成することができる。
大規模な事前訓練は大きな進歩をもたらしたが、これらのモデルを人間の価値観と整合させたり、特定のタスクや行動に関わるように微調整することは、依然として重要な課題である。
Deep Reinforcement Learning (DRL) と Direct Preference Optimization (DPO) はこの調整プロセスに有望なフレームワークを提供する。
DRLは、教師付き嗜好データのみに頼るのではなく、報酬信号を用いた行動の最適化を可能にするが、DPOはポリシーを直接好みと整合させ、明示的な報奨モデルの必要性を排除している。
本報告では,LVLMの微調整のパラダイムを概説し,DRLとDPO技術を用いてモデルと人間の嗜好と値の整合を図り,タスク性能を改善し,適応的なマルチモーダルインタラクションを実現する方法について述べる。
我々は、重要なアプローチを分類し、選好データ、報奨信号のソースを調べ、スケーラビリティ、サンプル効率、継続学習、一般化、安全性といったオープンな課題について議論する。
その目標は、DRLとDPOが、堅牢で人間に準拠したLVLMの進化にどのように貢献するかを明確に理解することである。
関連論文リスト
- A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [18.855378039713678]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - SELF: Surrogate-light Feature Selection with Large Language Models in Deep Recommender Systems [51.09233156090496]
ディープレコメンデータシステムのためのSurrogatE-Light特徴選択法
SELFは、大規模言語モデルからのセマンティック推論と、代理モデルからのタスク固有の学習を統合する。
実世界のレコメンデータプラットフォームからの3つの公開データセットに関する総合的な実験は、SELFの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-11T16:28:18Z) - GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets [19.485572131953937]
本稿では,GFlowNet-DPO (GDPO) と呼ばれる多様性探索型RLアルゴリズムのオフライン優先アライメント設定における実用的応用を提案する。
実証的な結果から、GDPOはベースライン法よりもはるかに多様な応答を生成できることが示された。
論文 参考訳(メタデータ) (2024-10-19T13:07:52Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。