論文の概要: Making Large Language Models Better Reasoners with Alignment
- arxiv url: http://arxiv.org/abs/2309.02144v1
- Date: Tue, 5 Sep 2023 11:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 15:01:25.996914
- Title: Making Large Language Models Better Reasoners with Alignment
- Title(参考訳): 大規模言語モデルによるアライメントによる推論の改善
- Authors: Peiyi Wang and Lei Li and Liang Chen and Feifan Song and Binghuai Lin
and Yunbo Cao and Tianyu Liu and Zhifang Sui
- Abstract要約: 推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
- 参考スコア(独自算出の注目度): 57.82176656663245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning is a cognitive process of using evidence to reach a sound
conclusion. The reasoning capability is essential for large language models
(LLMs) to serve as the brain of the artificial general intelligence agent.
Recent studies reveal that fine-tuning LLMs on data with the chain of thought
(COT) reasoning process can significantly enhance their reasoning capabilities.
However, we find that the fine-tuned LLMs suffer from an \textit{Assessment
Misalignment} problem, i.e., they frequently assign higher scores to subpar
COTs, leading to potential limitations in their reasoning abilities. To address
this problem, we introduce an \textit{Alignment Fine-Tuning (AFT)} paradigm,
which involves three steps: 1) fine-tuning LLMs with COT training data; 2)
generating multiple COT responses for each question, and categorizing them into
positive and negative ones based on whether they achieve the correct answer; 3)
calibrating the scores of positive and negative responses given by LLMs with a
novel constraint alignment loss. Specifically, the constraint alignment loss
has two objectives: a) Alignment, which guarantees that positive scores surpass
negative scores to encourage answers with high-quality COTs; b) Constraint,
which keeps the negative scores confined to a reasonable range to prevent the
model degradation. Beyond just the binary positive and negative feedback, the
constraint alignment loss can be seamlessly adapted to the ranking situations
when ranking feedback is accessible. Furthermore, we also delve deeply into
recent ranking-based alignment methods, such as DPO, RRHF, and PRO, and
discover that the constraint, which has been overlooked by these approaches, is
also crucial for their performance. Extensive experiments on four reasoning
benchmarks with both binary and ranking feedback demonstrate the effectiveness
of AFT.
- Abstract(参考訳): 推論は、正しい結論に達するために証拠を使用する認知過程である。
推論能力は、大規模言語モデル(LLM)が人工知能エージェントの脳として機能するために不可欠である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
しかし、微調整 LLM は \textit{Assessment Misalignment} 問題、すなわち COT のサブパー化に高得点を割り当てることによって、推論能力の潜在的な制限が生じる。
この問題に対処するために,3つのステップを含む‘textit{Alignment Fine-Tuning(AFT)パラダイムを導入する。
1)COTトレーニングデータを用いた微調整LDM
2) 各質問に対して複数のcot応答を生成し,その回答が正しいかどうかに基づいて肯定的かつ否定的な回答に分類する。
3) LLMの正と負の反応のスコアを, 新たな拘束アライメント損失で調整した。
具体的には、制約アライメント損失には2つの目的がある。
a) 高品質のCOTで回答を促すために正のスコアが負のスコアを超えることを保証する調整
b) モデル劣化を防止するために,負のスコアを妥当な範囲に限定する制約。
バイナリ正と負のフィードバックだけでなく、ランク付けされたフィードバックがアクセス可能な場合、制約アライメント損失はランキングの状況にシームレスに適応できる。
さらに,最近のdpo,rrhf,proなどのランキングに基づくアライメント手法を深く検討し,これらのアプローチで見過ごされている制約が性能に重要であることを発見した。
2値と2値の両方のフィードバックを持つ4つの推論ベンチマークの大規模な実験は、AFTの有効性を示している。
関連論文リスト
- Negating Negatives: Alignment without Human Positive Samples via
Distributional Dispreference Optimization [36.66806788879868]
大規模言語モデル(LLM)はAIの役割に革命をもたらしたが、非倫理的コンテンツを伝播する潜在的なリスクを生じさせている。
この研究は、人間に注釈付けされた負のサンプルのみを用いてアライメントを達成することに焦点を当てている。
論文 参考訳(メタデータ) (2024-03-06T03:02:38Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [63.69441506085566]
本稿では,リストワイズ優先最適化(LiPO)フレームワークについて述べる。このフレームワークでは,評価可能な応答のランクリストから,ポリシーをより効率的に学習することができる。
2つの選好アライメントタスクにおいて,LiPO-lambdaがDPOとSLiCよりも明確なマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Reasons to Reject? Aligning Language Models with Judgments [77.67252611252046]
コントラスト的異種訓練(CUT)は、判断に基づいて、きめ細かい不適切な内容の検出と修正を可能にする。
オンラインアライメントの結果は、CUTがモデル固有判断データを用いて反復的にLLMを整列できることを示している。
論文 参考訳(メタデータ) (2023-12-22T10:29:43Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [113.01510055986694]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z) - Are Large Language Models Really Good Logical Reasoners? A Comprehensive
Evaluation and Beyond [32.797832207443896]
大規模言語モデル(LLM)は、自然言語処理(NLP)における注目すべき革新として登場した。
本論文では,このギャップを埋め,包括的に評価することを目的としている。
論文 参考訳(メタデータ) (2023-06-16T13:39:35Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。