Fugu-MT 論文翻訳(概要): $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization

論文の概要: $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization

arxiv url: http://arxiv.org/abs/2405.15230v2
Date: Tue, 29 Oct 2024 00:19:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.716939
Title: $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization
Title（参考訳）: $i$REPO: $i$mplicit Reward Pairwise difference based Empirical Preference Optimization
Authors: Long Tan Le, Han Shu, Tung-Anh Nguyen, Choong Seon Hong, Nguyen H. Tran,
Abstract要約: 大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。 i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
参考スコア（独自算出の注目度）: 12.266207199002604
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While astonishingly capable, large Language Models (LLM) can sometimes produce outputs that deviate from human expectations. Such deviations necessitate an alignment phase to prevent disseminating untruthful, toxic, or biased information. Traditional alignment methods based on reinforcement learning often struggle with the identified instability, whereas preference optimization methods are limited by their overfitting to pre-collected hard-label datasets. In this paper, we propose a novel LLM alignment framework named $i$REPO, which utilizes implicit Reward pairwise difference regression for Empirical Preference Optimization. Particularly, $i$REPO employs self-generated datasets labeled by empirical human (or AI annotator) preference to iteratively refine the aligned policy through a novel regression-based loss function. Furthermore, we introduce an innovative algorithm backed by theoretical guarantees for achieving optimal results under ideal assumptions and providing a practical performance-gap result without such assumptions. Experimental results with Phi-2 and Mistral-7B demonstrate that $i$REPO effectively achieves self-alignment using soft-label, self-generated responses and the logit of empirical AI annotators. Furthermore, our approach surpasses preference optimization baselines in evaluations using the Language Model Evaluation Harness and Multi-turn benchmarks.
Abstract（参考訳）: 驚くべきことに、大きな言語モデル(LLM)は、人間の期待から外れたアウトプットを生成することがある。このような偏差は、不合理、毒性、偏見のある情報の拡散を防ぐためにアライメントフェーズを必要とする。強化学習に基づく従来のアライメント手法は、特定された不安定性に悩まされることが多いが、優先最適化手法は、事前コンパイルされたハードラベルデータセットに過度に適合することによって制限される。本稿では,経験的優先度最適化に暗黙の逆対差回帰を利用する,$i$REPOという新しいLCMアライメントフレームワークを提案する。特に$i$REPOは、経験的人間(またはAIアノテータ)によってラベル付けされた自己生成データセットを使用して、新しい回帰ベースの損失関数を通じて、整合したポリシーを反復的に洗練する。さらに、理想的な仮定の下で最適な結果を得るための理論的保証と、そのような仮定を伴わない実用的な性能向上結果を提供することによって、革新的なアルゴリズムを導入する。 Phi-2 と Mistral-7B による実験の結果、$i$REPO はソフトラベルの自己生成応答と経験的AIアノテータのロジットを用いて効果的に自己アライメントを実現することが示された。さらに,Language Model Evaluation HarnessとMulti-turnベンチマークを用いた評価において,好みの最適化基準を超越した手法を提案する。

関連論文リスト

Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文参考訳（メタデータ） (2026-03-04T14:48:53Z)
Provable and Practical In-Context Policy Optimization for Self-Improvement [49.670847804409874]
本研究では,モデルが推論における複数ラウンドの自己回帰によって解答を改善するテスト時間スケーリングについて検討する。 In-Context Policy Optimization (ICPO)を導入し、エージェントはパラメータを変更することなく、自己評価または外部から観察された報酬を用いて、その応答を文脈で最適化する。提案する最小エントロピーICPO(ME-ICPO, Minimum-Entropy ICPO)は、その応答と自己評価報酬を反復的に利用して、推論時にその応答を洗練する実用的なアルゴリズムである。
論文参考訳（メタデータ） (2026-03-02T00:21:50Z)
Provably avoiding over-optimization in Direct Preference Optimization without knowing the data distribution [47.604070468150844]
優先学習において、よく知られた過最適化問題を緩和するために、単段階直接選好最適化のようなアルゴリズムPEPOを導入する。 PEPOは、不整合データサブセットに基づいて訓練された嗜好最適化ポリシーのアンサンブルを通じて悲観的を達成する。
論文参考訳（メタデータ） (2026-02-05T22:31:07Z)
Principled Algorithms for Optimizing Generalized Metrics in Binary Classification [53.604375124674796]
一般化されたメトリクスを最適化するアルゴリズムを導入し、$H$-consistency と finite-sample generalization bounds をサポートする。提案手法は,メトリクス最適化を一般化したコスト依存学習問題として再検討する。我々は,理論性能を保証する新しいアルゴリズムMETROを開発した。
論文参考訳（メタデータ） (2025-12-29T01:33:42Z)
Proximalized Preference Optimization for Diverse Feedback Types: A Decomposed Perspective on DPO [19.5712961932773]
我々は、直接選好最適化(DPO)を再考し、その損失が理論的に分解された改革を認めることを実証する。 PRO (Proximalized PReference Optimization) を導入し,多様な課金型に対応する統一手法を提案する。
論文参考訳（メタデータ） (2025-05-29T10:23:22Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
$f$-PO: Generalizing Preference Optimization with $f$-divergence Minimization [91.43730624072226]
$f$-POは、既存のアプローチを一般化し拡張する新しいフレームワークである。ベンチマークデータセットを用いて最先端言語モデルの実験を行う。
論文参考訳（メタデータ） (2024-10-29T02:11:45Z)
Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文参考訳（メタデータ） (2024-10-26T14:24:37Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文参考訳（メタデータ） (2024-09-17T14:05:58Z)
Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
新たなオフラインアライメントアルゴリズムである$chi2$-Preference Optimization(chi$PO)を提案する。 $chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。過度な最適化には確実に堅牢であり、単一政治の集中性に基づいたサンプル複雑度保証を実現する。
論文参考訳（メタデータ） (2024-07-18T11:08:40Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Active Preference Optimization for Sample Efficient RLHF [27.772423917657626]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好の整合において重要である。現在の方法は、プロンプトジェネレーションのデータセットからプロンプトジェネレーションペアを均一に選択することに依存している。我々は、好みデータをクエリすることでモデルアライメントを向上させるアクティブな学習アルゴリズムである$textttAPO$を開発した。
論文参考訳（メタデータ） (2024-02-16T08:19:34Z)
Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文参考訳（メタデータ） (2024-01-28T21:19:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。