論文の概要: Varying Shades of Wrong: Aligning LLMs with Wrong Answers Only
- arxiv url: http://arxiv.org/abs/2410.11055v1
- Date: Mon, 14 Oct 2024 20:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:14.199407
- Title: Varying Shades of Wrong: Aligning LLMs with Wrong Answers Only
- Title(参考訳): 誤答のバラエティ - 誤答のみによるLCMのアライメント
- Authors: Jihan Yao, Wenxuan Ding, Shangbin Feng, Lucy Lu Wang, Yulia Tsvetkov,
- Abstract要約: 我々は,自己整合性,トークン確率,LCM-as-a-judgeに基づく手法を用いて,誤った過激な嗜好を導き出す。
実験により、LLMは様々な間違った色合いを区別する予備的な能力を持ち、ランダムな推測よりも最大20.9%高い性能を達成していることが示された。
- 参考スコア(独自算出の注目度): 37.36302216137465
- License:
- Abstract: In the absence of abundant reliable annotations for challenging tasks and contexts, how can we expand the frontier of LLM capabilities with potentially wrong answers? We focus on two research questions: (1) Can LLMs generate reliable preferences among wrong options? And if so, (2) Would alignment with such wrong-over-wrong preferences be helpful? We employ methods based on self-consistency, token probabilities, and LLM-as-a-judge to elicit wrong-over-wrong preferences, and fine-tune language models with preference optimization approaches using these synthesized preferences. Extensive experiments with seven LLMs and eight datasets demonstrate that (1) LLMs do have preliminary capability in distinguishing various shades of wrong, achieving up to 20.9% higher performance than random guess; (2) Alignment with wrong-over-wrong preferences helps LLMs to produce less wrong and sometimes even outright correct answers, while overall improving model calibration.
- Abstract(参考訳): 課題や状況に挑戦するための豊富な信頼できるアノテーションがないため、LLM機能のフロンティアを、潜在的に間違った回答で拡張するにはどうすればよいのか?
1)LLMは間違った選択肢の中で信頼性の高い選好を生成できるのか?
もしそうなら、(2)間違った意見の一致は役に立ちますか?
本研究では, 自己整合性, トークン確率, LLM-as-a-judge に基づく手法を用いて, 誤りを重んじる嗜好を導出する手法と, これら合成選好を用いた選好最適化手法を用いた微調整言語モデルを用いる。
7つのLLMと8つのデータセットによる大規模な実験により、(1)LLMは、ランダムな推測よりも最大20.9%高い性能を達成するために、様々な間違った色合いを区別する予備的な能力を持っていることが示される。
関連論文リスト
- LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking [56.275521022148794]
ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。
LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか、そうでなければ、なぜそうでないのでしょうか?
その結果,(1) LLM-judge の嗜好は,安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge の暗黙バイアスが強く,事実性や安全性よりもスタイルを優先し,(3) POステージではなく,訓練後の微調整段階がアライメントに最も影響していることが判明した。
論文 参考訳(メタデータ) (2024-09-23T17:58:07Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - Can LLMs Learn from Previous Mistakes? Investigating LLMs' Errors to Boost for Reasoning [34.34977150518316]
textscCoTErrorSetは609,432の質問を持つ新しいベンチマークで、それぞれが正しい参照とエラー参照の両方で設計されている。
textbfSelf-rethinking guideing LLMsは、彼らが同じような間違いを犯したかどうかを再考するよう促している。
textbfMistakeチューニングは、正しい推論ドメインと間違った推論ドメインの両方でモデルを微調整する。
論文 参考訳(メタデータ) (2024-03-29T08:30:34Z) - SH2: Self-Highlighted Hesitation Helps You Decode More Truthfully [9.796854466591942]
本稿では,大規模言語モデルのより真に復号化を支援するための推論時間法,Self-Highlighted Hesitation (SH2)を提案する。
実験の結果,我々のSH2は,LLMが事実知識を抽出し,幻覚的文脈を識別するのに役立つことが示された。
論文 参考訳(メタデータ) (2024-01-11T14:09:09Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - LLMs cannot find reasoning errors, but can correct them given the error location [0.9017736137562115]
低い自己補正性能は、LLMが既知の誤りを訂正する能力ではなく、論理的な誤りを見つけることができないことに起因する。
我々は,そのミスフィリング能力について,最先端のLLMのいくつかをベンチマークし,そのタスクに一般的に苦労していることを示す。
そこで本研究では,地平線ラベルやドメイン内トレーニングデータを使わずに,誤った位置情報を得られることを示す。
論文 参考訳(メタデータ) (2023-11-14T20:12:38Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。