論文の概要: Learning to Align Human Code Preferences
- arxiv url: http://arxiv.org/abs/2507.20109v1
- Date: Sun, 27 Jul 2025 02:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.9655
- Title: Learning to Align Human Code Preferences
- Title(参考訳): 人間のコード嗜好に適応する学習
- Authors: Xin Yin, Chao Ni, Liushan Chen, Xiaohu Yang,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア開発タスクの自動化において顕著な可能性を示している。
最近の進歩は、スーパーバイザード・ファインチューニング(SFT)と直接選好最適化(DPO)を利用して、モデルを人間の好みに合わせることである。
本稿では,SFTとDPOがLLMと異なるコード嗜好の整合において果たす役割を体系的に検討する。
本稿では,適応型最適化(APO, Adaptive Preference Optimization)を提案する。この手法は,好ましくない応答を適応的に増幅し,好ましくない応答を抑制し,トレーニング中に潜在的に優れた解の探索を促す。
- 参考スコア(独自算出の注目度): 2.9994722574283443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable potential in automating software development tasks. While recent advances leverage Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) to align models with human preferences, the optimal training strategy remains unclear across diverse code preference scenarios. This paper systematically investigates the roles of SFT and DPO in aligning LLMs with different code preferences. Through both theoretical analysis and empirical observation, we hypothesize that SFT excels in scenarios with objectively verifiable optimal solutions, while applying SFT followed by DPO (S&D) enables models to explore superior solutions in scenarios without objectively verifiable optimal solutions. Based on the analysis and experimental evidence, we propose Adaptive Preference Optimization (APO), a dynamic integration approach that adaptively amplifies preferred responses, suppresses dispreferred ones, and encourages exploration of potentially superior solutions during training. Extensive experiments across six representative code preference tasks validate our theoretical hypotheses and demonstrate that APO consistently matches or surpasses the performance of existing SFT and S&D strategies. Our work provides both theoretical foundations and practical guidance for selecting appropriate training strategies in different code preference alignment scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア開発タスクの自動化において顕著な可能性を示している。
最近の進歩は、Supervised Fine-Tuning (SFT) と Direct Preference Optimization (DPO) を利用して、モデルを人間の好みと整合させるが、最適なトレーニング戦略は、様々なコード優先シナリオにおいて不明確である。
本稿では,SFT と DPO がLLM と異なるコード嗜好の整合において果たす役割を体系的に検討する。
理論的解析と経験的観察の両方を通じて、SFTは客観的に検証可能な最適解のシナリオにおいて優れており、SFTとDPO(S&D)を併用することで、客観的に検証可能な最適解のシナリオにおいて優れた解を探索することができると仮定する。
この分析と実験的な証拠に基づき,適応的優先最適化 (APO) を提案する。これは,適応的に望ましい応答を増幅し,不適切な応答を抑制し,トレーニング中に潜在的に優れた解を探索する動的統合手法である。
APOが既存のSFTおよびS&D戦略の性能と一貫して一致または上回っていることを示す。
私たちの研究は、異なるコード優先アライメントシナリオで適切なトレーニング戦略を選択するための理論的基礎と実践的なガイダンスの両方を提供します。
関連論文リスト
- Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - A Survey on the Optimization of Large Language Model-based Agents [16.733092886211097]
大規模言語モデル(LLM)は様々な分野で広く採用されており、自律的な意思決定や対話的なタスクに欠かせないものとなっている。
しかしながら、現在の作業は通常、バニラLLMに適用された迅速な設計や微調整戦略に依存している。
LLMに基づくエージェント最適化手法の総合的なレビューを行い、パラメータ駆動型およびパラメータフリーな手法に分類する。
論文 参考訳(メタデータ) (2025-03-16T10:09:10Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment [45.45508377432791]
本稿では、人気のある選好最適化手法を統合する数学的フレームワークであるReward-Aware Preference Optimization (RPO)を紹介する。
RPOは、様々な設計選択の影響を混乱させ、体系的に研究するための構造化されたアプローチを提供する。
そこで我々は,このような設計選択をクリーンかつ直接アブレーションできる新しい実験装置を提案する。
論文 参考訳(メタデータ) (2025-01-31T22:39:04Z) - Align-Pro: A Principled Approach to Prompt Optimization for LLM Alignment [40.71270945505082]
大規模言語モデル(LLM)は、様々な社会的および意思決定プロセスに統合されつつある。
人間のフィードバックからの強化学習(RLHF)のような従来の手法は、微調整モデルパラメータによるアライメントを実現する。
対照的に、迅速な最適化はLLMアライメントのためのRLHFの代替となる。
論文 参考訳(メタデータ) (2025-01-07T03:14:39Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。