論文の概要: Debating with More Persuasive LLMs Leads to More Truthful Answers
- arxiv url: http://arxiv.org/abs/2402.06782v3
- Date: Thu, 30 May 2024 13:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 21:05:54.243626
- Title: Debating with More Persuasive LLMs Leads to More Truthful Answers
- Title(参考訳): より説得力のあるLLMによる議論は、より真に答える
- Authors: Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rocktäschel, Ethan Perez,
- Abstract要約: 議論は、非専門家モデルと人間の両方が、それぞれ76%と88%の精度で質問に答えるのを一貫して助けていることに気付きました。
以上の結果から,基礎的真理の欠如によるモデルと議論の整合性に関する実証的証拠が得られた。
- 参考スコア(独自算出の注目度): 45.0343254517401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Common methods for aligning large language models (LLMs) with desired behaviour heavily rely on human-labelled data. However, as models grow increasingly sophisticated, they will surpass human expertise, and the role of human evaluation will evolve into non-experts overseeing experts. In anticipation of this, we ask: can weaker models assess the correctness of stronger models? We investigate this question in an analogous setting, where stronger models (experts) possess the necessary information to answer questions and weaker models (non-experts) lack this information. The method we evaluate is debate, where two LLM experts each argue for a different answer, and a non-expert selects the answer. We find that debate consistently helps both non-expert models and humans answer questions, achieving 76% and 88% accuracy respectively (naive baselines obtain 48% and 60%). Furthermore, optimising expert debaters for persuasiveness in an unsupervised manner improves non-expert ability to identify the truth in debates. Our results provide encouraging empirical evidence for the viability of aligning models with debate in the absence of ground truth.
- Abstract(参考訳): 大規模言語モデル(LLM)を望ましい振る舞いと整合させる一般的な方法は、人間のラベル付きデータに大きく依存する。
しかし、モデルが高度化するにつれて、彼らは人間の専門知識を超越し、人間の評価の役割は専門家を監督する非専門家へと進化する。
より弱いモデルはより強いモデルの正しさを評価することができるか?
より強力なモデル(専門家)が疑問に答えるために必要な情報を持ち、より弱いモデル(専門家でない者)がこの情報を欠いている類似の環境でこの問題を調査する。
LLMの専門家2人がそれぞれ異なる解答を主張し、非専門家が解答を選択する。
議論は、非専門家モデルと人間の両方が、それぞれ76%と88%の精度で答えるのに一貫して役立ちます。
さらに、専門家の議論者を指導されていない方法で説得力に最適化することで、議論の真相を識別する非専門家能力が向上する。
以上の結果から,基礎的真理の欠如によるモデルと議論の整合性に関する実証的証拠が得られた。
関連論文リスト
- On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Why Would You Suggest That? Human Trust in Language Model Responses [0.3749861135832073]
フレーミングと説明の存在がユーザ信頼とモデルパフォーマンスにどのように影響するかを分析する。
今後の研究は、人間と機械のチームリングシステムにおける信頼度の評価を、より深く掘り下げることを目的としている。
論文 参考訳(メタデータ) (2024-06-04T06:57:47Z) - Debate Helps Supervise Unreliable Experts [33.03555781137954]
信頼できない2人の専門家の議論は、専門家でない裁判官が真実をより確実に特定する助けになることを示す。
1人の専門家が、半分の時間で正しい答えを1つだけ主張する、基準となる議論と比較すると、議論ははるかに効果が高いことが分かります。
これらの結果は、議論がますます有能で信頼性の低いAIシステムを監視するための有望なアプローチであることを示している。
論文 参考訳(メタデータ) (2023-11-15T05:05:40Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Ask an Expert: Leveraging Language Models to Improve Strategic Reasoning
in Goal-Oriented Dialogue Models [15.476899850339395]
モデルに各ターンで相談可能な"エキスパート"へのアクセスをトレーニングする"エキスパートを尋ねる"フレームワークを提案する。
アドバイスは専門家との構造化された対話を通じて提供され、コンテキストと対話履歴が与えられた場合、モデルを選択的に利用(または無視)するために最適化される。
この枠組みを、専門家の会話の構造を、現場の実践者に教えられた推論戦略を反映した事前に特定されたプロンプトによって概説する精神保健支援領域において評価する。
論文 参考訳(メタデータ) (2023-05-29T04:19:35Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - Are Metrics Enough? Guidelines for Communicating and Visualizing
Predictive Models to Subject Matter Experts [7.768301998812552]
本稿では,コミュニケーションのギャップを理解するために,課題の専門家とデータ科学者の双方による反復的研究について述べる。
モデルの強みと弱みを伝達するための共通媒体として可視化を利用する一連のコミュニケーションガイドラインを導出する。
論文 参考訳(メタデータ) (2022-05-11T19:40:24Z) - Teaching language models to support answers with verified quotes [12.296242080730831]
オープンブック”QAモデルをトレーニングし、その一方で、その主張に関する具体的な証拠を引用しています。
2800億のパラメータモデルであるGopherCiteは、高品質なサポートエビデンスで回答を生成し、不確実な場合には回答を控えることができます。
論文 参考訳(メタデータ) (2022-03-21T17:26:29Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。