論文の概要: Making Large Language Models Better Reasoners with Alignment
- arxiv url: http://arxiv.org/abs/2309.02144v1
- Date: Tue, 5 Sep 2023 11:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 15:01:25.996914
- Title: Making Large Language Models Better Reasoners with Alignment
- Title(参考訳): 大規模言語モデルによるアライメントによる推論の改善
- Authors: Peiyi Wang and Lei Li and Liang Chen and Feifan Song and Binghuai Lin
and Yunbo Cao and Tianyu Liu and Zhifang Sui
- Abstract要約: 推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
- 参考スコア(独自算出の注目度): 57.82176656663245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning is a cognitive process of using evidence to reach a sound
conclusion. The reasoning capability is essential for large language models
(LLMs) to serve as the brain of the artificial general intelligence agent.
Recent studies reveal that fine-tuning LLMs on data with the chain of thought
(COT) reasoning process can significantly enhance their reasoning capabilities.
However, we find that the fine-tuned LLMs suffer from an \textit{Assessment
Misalignment} problem, i.e., they frequently assign higher scores to subpar
COTs, leading to potential limitations in their reasoning abilities. To address
this problem, we introduce an \textit{Alignment Fine-Tuning (AFT)} paradigm,
which involves three steps: 1) fine-tuning LLMs with COT training data; 2)
generating multiple COT responses for each question, and categorizing them into
positive and negative ones based on whether they achieve the correct answer; 3)
calibrating the scores of positive and negative responses given by LLMs with a
novel constraint alignment loss. Specifically, the constraint alignment loss
has two objectives: a) Alignment, which guarantees that positive scores surpass
negative scores to encourage answers with high-quality COTs; b) Constraint,
which keeps the negative scores confined to a reasonable range to prevent the
model degradation. Beyond just the binary positive and negative feedback, the
constraint alignment loss can be seamlessly adapted to the ranking situations
when ranking feedback is accessible. Furthermore, we also delve deeply into
recent ranking-based alignment methods, such as DPO, RRHF, and PRO, and
discover that the constraint, which has been overlooked by these approaches, is
also crucial for their performance. Extensive experiments on four reasoning
benchmarks with both binary and ranking feedback demonstrate the effectiveness
of AFT.
- Abstract(参考訳): 推論は、正しい結論に達するために証拠を使用する認知過程である。
推論能力は、大規模言語モデル(LLM)が人工知能エージェントの脳として機能するために不可欠である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
しかし、微調整 LLM は \textit{Assessment Misalignment} 問題、すなわち COT のサブパー化に高得点を割り当てることによって、推論能力の潜在的な制限が生じる。
この問題に対処するために,3つのステップを含む‘textit{Alignment Fine-Tuning(AFT)パラダイムを導入する。
1)COTトレーニングデータを用いた微調整LDM
2) 各質問に対して複数のcot応答を生成し,その回答が正しいかどうかに基づいて肯定的かつ否定的な回答に分類する。
3) LLMの正と負の反応のスコアを, 新たな拘束アライメント損失で調整した。
具体的には、制約アライメント損失には2つの目的がある。
a) 高品質のCOTで回答を促すために正のスコアが負のスコアを超えることを保証する調整
b) モデル劣化を防止するために,負のスコアを妥当な範囲に限定する制約。
バイナリ正と負のフィードバックだけでなく、ランク付けされたフィードバックがアクセス可能な場合、制約アライメント損失はランキングの状況にシームレスに適応できる。
さらに,最近のdpo,rrhf,proなどのランキングに基づくアライメント手法を深く検討し,これらのアプローチで見過ごされている制約が性能に重要であることを発見した。
2値と2値の両方のフィードバックを持つ4つの推論ベンチマークの大規模な実験は、AFTの有効性を示している。
関連論文リスト
- Automatic Curriculum Expert Iteration for Reliable LLM Reasoning [60.60318625779015]
幻覚(すなわち、可塑性だが不正確な内容を生成する)と怠慢(すなわち過剰な拒絶や「私は知らない」のデフォルト)は、LLM推論における主要な課題として残る。
幻覚を減らそうとする現在の取り組みは、主に知識に基づくタスクにおける事実的誤りに焦点を当てており、しばしば欠陥推論に関連する幻覚を無視している。
本稿では,LLM推論を強化し,モデルの能力に応答する自動カリキュラムエキスパートイテレーション(Auto-CEI)を提案する。
論文 参考訳(メタデータ) (2024-10-10T05:43:07Z) - As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss [26.860139372768092]
本稿では、最適化中に安定な双方向負のフィードバック(BNF)を確立する新しいアライメント損失を提案する。
提案するBNF損失は, 対意に対照的な損失が不要となる。
我々は、2つの挑戦的なQAベンチマークと4つの推論ベンチマークにまたがる広範な実験を行っている。
論文 参考訳(メタデータ) (2024-10-07T08:44:04Z) - Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options [2.1184929769291294]
本研究では,大規模言語モデル(LLM)が「誤解を招く」命令を与えられた場合,推論や真理よりも次の命令を優先するかどうかを考察する。
本稿では,学習前アライメントと学習後アライメントの関連性に新たな光を当てる「反射判断」という新しい指標を提案する。
論文 参考訳(メタデータ) (2024-08-27T19:27:43Z) - Don't Say No: Jailbreaking LLM by Suppressing Refusal [13.666830169722576]
本研究では,バニラ目標損失が最適でない理由を最初に明らかにし,損失目標を探索・拡張し,DSN(Don't Say No)攻撃を導入する。
Refusalキーワードマッチングのような既存の評価では、多くの偽陽性および偽陰性インスタンスが明らかである。
この課題を克服するために,自然言語推論(NLI)の矛盾評価と2つの外部LCM評価器を新たに組み込んだアンサンブル評価パイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-25T07:15:23Z) - Negating Negatives: Alignment with Human Negative Samples via Distributional Dispreference Optimization [37.8788435790632]
大規模言語モデル(LLM)は、AIの役割に革命をもたらしたが、潜在的な社会的リスクをもたらしている。
既存の方法は高品質な正負の訓練ペアに依存しており、ノイズの多い正の反応に悩まされており、負の反応とほとんど区別できない。
本稿では,非参照応答と生成した非負応答との差を最大化する分散参照最適化(D$2$O)を提案する。
論文 参考訳(メタデータ) (2024-03-06T03:02:38Z) - Reasons to Reject? Aligning Language Models with Judgments [72.39858230784002]
言語フィードバックを用いた大規模言語モデル(LLM)の整合性について検討する。
本稿では,不適切なコンテンツ検出と判断に基づく修正が可能なコントラスト型異種訓練(Contrastive Unlikelihood Training, CUT)を提案する。
以上の結果から,CUTは175BのDaVinci003を破り,AlpacaEvalの50.84ポイントを達成できた。
論文 参考訳(メタデータ) (2023-12-22T10:29:43Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。