論文の概要: Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks
- arxiv url: http://arxiv.org/abs/2404.14723v2
- Date: Sat, 08 Feb 2025 16:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:26:15.366828
- Title: Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks
- Title(参考訳): 調整への視点:DPOとその複数のタスクにおける変数の評価
- Authors: Amir Saeidi, Shivanshu Verma, Md Nayem Uddin, Chitta Baral,
- Abstract要約: 本研究では,多言語モデル(LLM)と人間の嗜好を整合させるためのDPOとその変種について検討する。
評価対象は、対話、推論、数学的問題解決、質問応答、真理性、MT-Bench、Big Bench、Open LLM Leaderboardを含む13のベンチマークである。
トレーニングデータのサブセットが小さい場合でも,アライメント手法がほぼ最適に近い性能を達成できることが判明した。
- 参考スコア(独自算出の注目度): 35.36615140853107
- License:
- Abstract: This study evaluates Direct Preference Optimization (DPO) and its variants for aligning Large Language Models (LLMs) with human preferences, testing three configurations: (1) with Supervised Fine Tuning (SFT), (2) without SFT, and (3) without SFT but using an instruction tuned model. We further investigate how training set size influences model performance. Our evaluation spans 13 benchmarks covering dialogue, reasoning, mathematical problem-solving, question answering, truthfulness, MT-Bench, Big Bench, and the Open LLM Leaderboard. We find that: (1) alignment methods often achieve near optimal performance even with smaller subsets of training data; (2) although they offer limited improvements on complex reasoning tasks, they enhance mathematical problem-solving; and (3) using an instruction tuned model improves truthfulness. These insights highlight the conditions under which alignment methods excel, as well as their limitations.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) を人間の好みに合わせるために,(1) Supervised Fine Tuning (SFT) ,(2) SFTなし,(3) SFTなし,(3) SFTなし,(3) の3つの構成を検証した。
さらに,トレーニングセットのサイズがモデル性能に与える影響について検討する。
評価対象は、対話、推論、数学的問題解決、質問応答、真理性、MT-Bench、Big Bench、Open LLM Leaderboardを含む13のベンチマークである。
その結果,(1) トレーニングデータのサブセットが小さい場合でも,アライメント手法がほぼ最適に近い性能を達成すること,(2) 複雑な推論タスクを限定的に改善する一方で,数学的問題解決を向上すること,(3) 命令調律モデルを用いることで真理性を向上させること,などが判明した。
これらの洞察は、アライメント手法が優れている条件とそれらの制限を強調している。
関連論文リスト
- Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
商用問題解決者のための自然言語記述から最適化モデルを作成するための自動アプローチを開発する。
本稿では,(1)問題依存仮説空間の定義,(2)不確実性の下でこの空間を効率的に探索すること,(3)定式化の正しさを評価すること,の3つの課題を同定する。
論文 参考訳(メタデータ) (2024-11-03T20:41:38Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。