論文の概要: Debating with More Persuasive LLMs Leads to More Truthful Answers
- arxiv url: http://arxiv.org/abs/2402.06782v1
- Date: Fri, 9 Feb 2024 21:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 19:19:10.805763
- Title: Debating with More Persuasive LLMs Leads to More Truthful Answers
- Title(参考訳): より説得力のあるLLMによる議論は、より真に答える
- Authors: Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan,
Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rockt\"aschel
and Ethan Perez
- Abstract要約: 議論は、非専門家モデルと人間の両方が、それぞれ76%と88%の精度で質問に答えるのを一貫して助けていることに気付きました。
以上の結果から,基礎的真理の欠如によるモデルと議論の整合性に関する実証的証拠が得られた。
- 参考スコア(独自算出の注目度): 35.542549414611216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Common methods for aligning large language models (LLMs) with desired
behaviour heavily rely on human-labelled data. However, as models grow
increasingly sophisticated, they will surpass human expertise, and the role of
human evaluation will evolve into non-experts overseeing experts. In
anticipation of this, we ask: can weaker models assess the correctness of
stronger models? We investigate this question in an analogous setting, where
stronger models (experts) possess the necessary information to answer questions
and weaker models (non-experts) lack this information. The method we evaluate
is \textit{debate}, where two LLM experts each argue for a different answer,
and a non-expert selects the answer. We find that debate consistently helps
both non-expert models and humans answer questions, achieving 76\% and 88\%
accuracy respectively (naive baselines obtain 48\% and 60\%). Furthermore,
optimising expert debaters for persuasiveness in an unsupervised manner
improves non-expert ability to identify the truth in debates. Our results
provide encouraging empirical evidence for the viability of aligning models
with debate in the absence of ground truth.
- Abstract(参考訳): 大規模言語モデル(llm)を望ましい振る舞いに合わせる一般的な方法は、人間のラベルデータに大きく依存する。
しかし、モデルが高度化するにつれて、それらは人間の専門知識を超え、人間の評価の役割は専門家を監督する非専門家へと進化する。
より弱いモデルはより強固なモデルの正確性を評価することができるか?
より強力なモデル(専門家)が疑問に答えるために必要な情報を持ち、より弱いモデル(専門家でない者)がこの情報を欠いている類似の環境でこの問題を調査する。
評価するメソッドは \textit{debate} で、2人のllmの専門家がそれぞれ異なる答えを議論し、非専門家が答えを選択する。
議論は、非専門家モデルと人間の両方が、それぞれ76\%と88\%の精度で質問に答えるのを一貫して助けている(ナイーブベースラインは48\%と60\%)。
さらに、専門家の議論者を指導されていない方法で説得力に最適化することで、議論の真相を識別する非専門家能力が向上する。
以上の結果から,基礎的真理の欠如によるモデルと議論の整合性に関する実証的証拠が得られた。
関連論文リスト
- Teaching Models to Balance Resisting and Accepting Persuasion [69.68379406317682]
大規模言語モデル(LLM)は説得に影響を受けやすいため、モデルが対向的インターロケータに直面するとリスクが生じる可能性がある。
モデルを一方だけに最適化すると、もう一方のパフォーマンスが低下することを示す。
PBT(Persuasion-Balanced Training)を導入する。
論文 参考訳(メタデータ) (2024-10-18T16:49:36Z) - Training Language Models to Win Debates with Self-Play Improves Judge Accuracy [8.13173791334223]
本稿では,学習モデルによるスケーラブルな監視手法としての議論の堅牢性を試行し,自己再生によって生成されたデータと議論する。
言語モデルに基づく評価器は、モデルの判断が議論に勝つように最適化されたときに、より正確に質問に答える。
論文 参考訳(メタデータ) (2024-09-25T05:28:33Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Debate Helps Supervise Unreliable Experts [33.03555781137954]
信頼できない2人の専門家の議論は、専門家でない裁判官が真実をより確実に特定する助けになることを示す。
1人の専門家が、半分の時間で正しい答えを1つだけ主張する、基準となる議論と比較すると、議論ははるかに効果が高いことが分かります。
これらの結果は、議論がますます有能で信頼性の低いAIシステムを監視するための有望なアプローチであることを示している。
論文 参考訳(メタデータ) (2023-11-15T05:05:40Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Ask an Expert: Leveraging Language Models to Improve Strategic Reasoning
in Goal-Oriented Dialogue Models [15.476899850339395]
モデルに各ターンで相談可能な"エキスパート"へのアクセスをトレーニングする"エキスパートを尋ねる"フレームワークを提案する。
アドバイスは専門家との構造化された対話を通じて提供され、コンテキストと対話履歴が与えられた場合、モデルを選択的に利用(または無視)するために最適化される。
この枠組みを、専門家の会話の構造を、現場の実践者に教えられた推論戦略を反映した事前に特定されたプロンプトによって概説する精神保健支援領域において評価する。
論文 参考訳(メタデータ) (2023-05-29T04:19:35Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - Are Metrics Enough? Guidelines for Communicating and Visualizing
Predictive Models to Subject Matter Experts [7.768301998812552]
本稿では,コミュニケーションのギャップを理解するために,課題の専門家とデータ科学者の双方による反復的研究について述べる。
モデルの強みと弱みを伝達するための共通媒体として可視化を利用する一連のコミュニケーションガイドラインを導出する。
論文 参考訳(メタデータ) (2022-05-11T19:40:24Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。