Fugu-MT 論文翻訳(概要): Adversarial Preference Optimization

論文の概要: Adversarial Preference Optimization

arxiv url: http://arxiv.org/abs/2311.08045v1
Date: Tue, 14 Nov 2023 10:10:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 14:38:06.119497
Title: Adversarial Preference Optimization
Title（参考訳）: 逆選好最適化
Authors: Pengyu Cheng, Yifan Yang, Jian Li, Yong Dai, Nan Du
Abstract要約: 大きな言語モデル(LLM)の相互作用品質を改善するための人間の嗜好アライメントは、重要なトレーニングステップである本稿では,LLMエージェントと選好モデルが代わりにmin-maxゲームを介して更新される,逆選好最適化(APO)フレームワークを提案する。我々は,LLMの有効性と無害性を改善するためのAPOの有効性を,拒絶サンプリングベースラインと比較して実証的に検証した。
参考スコア（独自算出の注目度）: 35.16941269095122
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human preference alignment is a crucial training step to improve the interaction quality of large language models (LLMs). Existing aligning methods depend on manually annotated preference data to guide the LLM optimization directions. However, in practice, continuously updating LLMs raises a distribution gap between model-generated samples and human-preferred responses, which hinders model fine-tuning efficiency. To mitigate this issue, previous methods require additional preference annotation on generated samples to adapt the shifted distribution, which consumes a large amount of annotation resources. Targeting more efficient human preference optimization, we propose an adversarial preference optimization (APO) framework, where the LLM agent and the preference model update alternatively via a min-max game. Without additional annotation, our APO method can make a self-adaption to the generation distribution gap through the adversarial learning process. In experiments, we empirically verify the effectiveness of APO in improving LLM's helpfulness and harmlessness compared with rejection sampling baselines.
Abstract（参考訳）: 人間の好みのアライメントは、大きな言語モデル(LLM)の相互作用品質を改善するための重要なトレーニングステップである。既存のアライメント手法は、LLM最適化方向を導くために手動でアノテートされた好みデータに依存する。しかし, LLMを継続的に更新すると, モデル生成サンプルと人間優先応答との分布ギャップが増大し, モデル微調整効率が低下する。この問題を軽減するために、以前の手法では、大量のアノテーションリソースを消費するシフト分布に適応するために、生成されたサンプルに追加の優先アノテーションを必要とする。より効率的な人間の選好最適化を目標とし,LLMエージェントと選好モデルが代わりにmin-maxゲームを介して更新されるような,逆選好最適化(APO)フレームワークを提案する。追加のアノテーションがなければ、APO法は逆学習プロセスを通じて生成分布ギャップに自己適応することができる。実験では,LLMの有効性と無害性を改善する上でのAPOの有効性を,拒絶サンプリングベースラインと比較して実証的に検証した。

関連論文リスト

Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文参考訳（メタデータ） (2025-11-24T04:10:46Z)
PITA: Preference-Guided Inference-Time Alignment for LLM Post-Training [9.093854840532062]
PITAはLLMのトークン生成に直接好みフィードバックを統合する新しいフレームワークである。 PITAは、微調整をせずに、推論時にトークン確率を変更するための、小さな嗜好に基づくガイダンスポリシーを学習する。我々は,数学的推論や感情分類など,多種多様なタスクにまたがるPITAを評価する。
論文参考訳（メタデータ） (2025-07-26T21:46:32Z)
Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences [13.588231827053923]
直接選好最適化(DPO)は、テキスト・ツー・イメージ(T2I)生成モデルと、ペアの選好データを用いた人間の選好を一致させる。本稿では, DPO の目的を改善するために, 好み分布をモデル化する新しい手法である SmPO-Diffusion を提案する。提案手法は,既存手法における過度な最適化と客観的なミスアライメントの問題を効果的に軽減する。
論文参考訳（メタデータ） (2025-06-03T09:47:22Z)
Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [54.654823811482665]
大規模言語モデル (LLM) は、人間の値に対して出力を制御するための優先順位付け手法にますます依存している。近年のアプローチは、スケーラブルな代替手段としてLLMによって生成された合成データに転換されている。そこで我々は,そのようなシフトが存在する場合の優先調整を改善する新しい分散対応最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-08T09:14:38Z)
Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-11-13T16:15:38Z)
RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。 RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文参考訳（メタデータ） (2024-10-16T12:54:34Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
TSO: Self-Training with Scaled Preference Optimization [14.3799656174528]
我々は、追加の報酬モデルを訓練することなく、自己学習による選好学習を行う、選好最適化のためのフレームワークTSOを提案する。 TSOは、モデル行列を構築し、人間の嗜好応答を取り入れることで、応答の多様性を高める。実験の結果、TSOは様々なアライメント評価ベンチマークにおいて、既存の主流手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-31T05:37:01Z)
Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文参考訳（メタデータ） (2024-06-04T20:21:45Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。 ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文参考訳（メタデータ） (2024-04-25T17:39:50Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。