Fugu-MT 論文翻訳(概要): Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process

論文の概要: Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process

arxiv url: http://arxiv.org/abs/2405.11870v2
Date: Tue, 28 May 2024 16:14:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 00:29:50.716104
Title: Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process
Title（参考訳）: 直感的なファインチューニング:1つのプロセスへのアライメントの簡易化を目指して
Authors: Ermo Hua, Biqing Qi, Kaiyan Zhang, Yue Yu, Ning Ding, Xingtai Lv, Kai Tian, Bowen Zhou,
Abstract要約: 直感的ファインチューニング(IFT)を導入し,SFTと優先度最適化をひとつのプロセスに統合する。 IFTは、SFTのシーケンシャルなレシピやいくつかの典型的なPreference Optimizationメソッドと相容れないか、それ以上に優れている。説明可能なフロズンレイクゲームは、競争政策を得るためのIFTの有効性をさらに検証する。
参考スコア（独自算出の注目度）: 26.196705232699884
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Supervised Fine-Tuning (SFT) and Preference Optimization (PO) are two fundamental processes for enhancing the capabilities of Language Models (LMs) post pre-training, aligning them better with human preferences. Although SFT advances in training efficiency, PO delivers better alignment, thus they are often combined. However, common practices simply apply them sequentially without integrating their optimization objectives, ignoring the opportunities to bridge their paradigm gap and take the strengths from both. To obtain a unified understanding, we interpret SFT and PO with two sub-processes -- Preference Estimation and Transition Optimization -- defined at token level within the Markov Decision Process (MDP) framework. This modeling shows that SFT is only a specialized case of PO with inferior estimation and optimization. PO evaluates the quality of model's entire generated answer, whereas SFT only scores predicted tokens based on preceding tokens from target answers. Therefore, SFT overestimates the ability of model, leading to inferior optimization. Building on this view, we introduce Intuitive Fine-Tuning (IFT) to integrate SFT and Preference Optimization into a single process. IFT captures LMs' intuitive sense of the entire answers through a temporal residual connection, but it solely relies on a single policy and the same volume of non-preference-labeled data as SFT. Our experiments show that IFT performs comparably or even superiorly to sequential recipes of SFT and some typical Preference Optimization methods across several tasks, particularly those requires generation, reasoning, and fact-following abilities. An explainable Frozen Lake game further validates the effectiveness of IFT for getting competitive policy.
Abstract（参考訳）: Supervised Fine-Tuning (SFT) と Preference Optimization (PO) は、事前学習後の言語モデル(LM)の機能を強化するための2つの基本的なプロセスである。 SFTは訓練効率が向上するが、POはより優れたアライメントを提供するため、しばしば組み合わせられる。しかしながら、一般的なプラクティスは、最適化の目的を統合することなく、それらをシーケンシャルに適用し、パラダイムギャップを埋め、両方の強みを取る機会を無視します。統一された理解を得るために、我々は、Markov Decision Process (MDP)フレームワーク内のトークンレベルで定義された2つのサブプロセス、優先度推定と遷移最適化でSFTとPOを解釈する。このモデリングにより、SFT は劣等な推定と最適化を伴う PO の特殊ケースに過ぎないことが分かる。 POはモデル全体の回答の質を評価し、SFTはターゲットの回答から前のトークンに基づいて予測トークンをスコアする。したがって、SFTはモデルの性能を過大評価し、劣等な最適化をもたらす。この観点から,SFT と Preference Optimization をひとつのプロセスに統合する直感的ファインチューニング (IFT) を導入する。 IFTは、LMの時間的残差接続による全回答の直感的な感覚を捉えているが、それは単一のポリシーとSFTと同量の非参照ラベルデータに依存している。我々の実験により、IFTはSFTのシーケンシャルなレシピやいくつかのタスク、特に生成、推論、ファクトフォローの能力を必要とする典型的なPreference Optimization手法と相容れないか、あるいはそれ以上に優れていることが示されている。説明可能なフロズンレイクゲームは、競争政策を得るためのIFTの有効性をさらに検証する。

関連論文リスト

Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文参考訳（メタデータ） (2025-06-15T05:42:29Z)
Discriminative Finetuning of Generative Large Language Models without Reward Models and Preference Data [61.463946150106054]
Supervised Fine-tuning (SFT) と Prefery Optimization (PO) は、事前訓練された大規模言語モデル(LLM)を改善するための標準となっている。本稿では、嗜好データを必要としない新しいアプローチであるDFTを紹介する。 i) 答えの識別可能性を明確にモデル化した微調整LDMの識別確率フレームワーク、(ii) この識別確率を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範囲な実験、そして、SFTよりも優れた性能を達成し、そうでなければ同等である。
論文参考訳（メタデータ） (2025-02-25T22:38:55Z)
Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning [18.381178799923514]
大規模言語モデルの訓練後、しばしば監視ファインタニング(SFT)のパイプラインと、優先度ファインタニング(PFT)が伴う。本研究では,2段階間のトレーニングデータ予算を最適に割り当てる方法について検討する。
論文参考訳（メタデータ） (2025-02-16T21:57:35Z)
Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。 PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文参考訳（メタデータ） (2024-12-17T12:49:14Z)
Direct Preference Optimization Using Sparse Feature-Level Constraints [47.15096507230884]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文参考訳（メタデータ） (2024-11-12T07:54:13Z)
UFT: Unifying Fine-Tuning of SFT and RLHF/DPO/UNA through a Generalized Implicit Reward Function [18.54945183526789]
SFTとアライメントを単一のトレーニングステージに統合するUnified Fine-Tuning(UFT)を導入する。実験結果から,UFTは命令調整データのみにおいて,SFTよりも優れていることが示された。命令チューニングデータとアライメントデータを組み合わせることで、UFTは破滅的な忘れを効果的に防止する。
論文参考訳（メタデータ） (2024-10-28T18:34:25Z)
Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。 SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。 SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-10-07T17:56:53Z)
TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。 TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文参考訳（メタデータ） (2024-10-06T04:03:00Z)
ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。 ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-09-14T11:39:13Z)
Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文参考訳（メタデータ） (2024-09-10T17:54:28Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead [75.87007729801304]
SpaFL: 計算オーバーヘッドの少ないスパースモデル構造を最適化する通信効率のよいFLフレームワークを提案する。実験により、スパースベースラインに比べて通信やコンピューティングリソースをはるかに少なくし、精度を向上することが示された。
論文参考訳（メタデータ） (2024-06-01T13:10:35Z)
Triple Preference Optimization: Achieving Better Alignment with Less Data in a Single Step Optimization [35.36615140853107]
Triple Preference Optimization (TPO) は、大きめの言語モデルと3つの好みを、別個のSupervised Fine-Tuned (SFT)モデルを必要とせずに整合させるように設計されている。 TPOは,SFT,DPO,KTO,IPO,CPO,ORPOといった他の手法によるモデルと比較して,優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-05-26T20:18:11Z)
HFT: Half Fine-Tuning for Large Language Models [42.60438623804577]
1つ以上の微調整フェーズを持つ大規模言語モデル(LLM)は、様々な機能をアンロックするために必要なステップとなっている。本稿では,部分的パラメータを定期的にリセットすることで,LLMが元の知識の一部を復元できることを見出した。本稿では,LLM 用ハーフファインチューニング (HFT) をフルファインチューニング (FFT) の代替として導入し,忘れる問題を緩和する。
論文参考訳（メタデータ） (2024-04-29T07:07:58Z)
Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。我々はこの仮説を言語間タスクの範囲内で批判的に検証する。タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文参考訳（メタデータ） (2024-04-25T17:19:36Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
AutoFT: Learning an Objective for Robust Fine-Tuning [60.641186718253735]
ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。手作り正則化技術を用いた頑健な微調整への最近のアプローチ我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。
論文参考訳（メタデータ） (2024-01-18T18:58:49Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。