Fugu-MT 論文翻訳(概要): Debating with More Persuasive LLMs Leads to More Truthful Answers

論文の概要: Debating with More Persuasive LLMs Leads to More Truthful Answers

arxiv url: http://arxiv.org/abs/2402.06782v3
Date: Thu, 30 May 2024 13:59:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 21:05:54.243626
Title: Debating with More Persuasive LLMs Leads to More Truthful Answers
Title（参考訳）: より説得力のあるLLMによる議論は、より真に答える
Authors: Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rocktäschel, Ethan Perez,
Abstract要約: 議論は、非専門家モデルと人間の両方が、それぞれ76%と88%の精度で質問に答えるのを一貫して助けていることに気付きました。以上の結果から,基礎的真理の欠如によるモデルと議論の整合性に関する実証的証拠が得られた。
参考スコア（独自算出の注目度）: 45.0343254517401
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Common methods for aligning large language models (LLMs) with desired behaviour heavily rely on human-labelled data. However, as models grow increasingly sophisticated, they will surpass human expertise, and the role of human evaluation will evolve into non-experts overseeing experts. In anticipation of this, we ask: can weaker models assess the correctness of stronger models? We investigate this question in an analogous setting, where stronger models (experts) possess the necessary information to answer questions and weaker models (non-experts) lack this information. The method we evaluate is debate, where two LLM experts each argue for a different answer, and a non-expert selects the answer. We find that debate consistently helps both non-expert models and humans answer questions, achieving 76% and 88% accuracy respectively (naive baselines obtain 48% and 60%). Furthermore, optimising expert debaters for persuasiveness in an unsupervised manner improves non-expert ability to identify the truth in debates. Our results provide encouraging empirical evidence for the viability of aligning models with debate in the absence of ground truth.
Abstract（参考訳）: 大規模言語モデル(LLM)を望ましい振る舞いと整合させる一般的な方法は、人間のラベル付きデータに大きく依存する。しかし、モデルが高度化するにつれて、彼らは人間の専門知識を超越し、人間の評価の役割は専門家を監督する非専門家へと進化する。より弱いモデルはより強いモデルの正しさを評価することができるか? より強力なモデル(専門家)が疑問に答えるために必要な情報を持ち、より弱いモデル(専門家でない者)がこの情報を欠いている類似の環境でこの問題を調査する。 LLMの専門家2人がそれぞれ異なる解答を主張し、非専門家が解答を選択する。議論は、非専門家モデルと人間の両方が、それぞれ76%と88%の精度で答えるのに一貫して役立ちます。さらに、専門家の議論者を指導されていない方法で説得力に最適化することで、議論の真相を識別する非専門家能力が向上する。以上の結果から,基礎的真理の欠如によるモデルと議論の整合性に関する実証的証拠が得られた。

関連論文リスト

Debating for Better Reasoning: An Unsupervised Multimodal Approach [56.74157117060815]
議論のパラダイムをマルチモーダルな設定に拡張し、より弱いモデルがより強力なモデルの性能を監督し、強化する可能性を探る。視覚的質問応答 (VQA) に焦点をあて, 2つの「目に見える」専門家の視覚言語モデルが解答について議論する一方, 「盲目」(テキストのみ)の判断は議論の品質にのみ依存する。この枠組みでは, 専門家は信念に沿う回答のみを守り, 明示的な役割プレーの必要性を排除し, 専門家の不一致の事例に議論を集中させる。
論文参考訳（メタデータ） (2025-05-20T17:18:17Z)
Debate Helps Weak-to-Strong Generalization [68.70065254564642]
我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。 OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
論文参考訳（メタデータ） (2025-01-21T05:36:13Z)
The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文参考訳（メタデータ） (2024-12-15T10:34:06Z)
Teaching Models to Balance Resisting and Accepting Persuasion [69.68379406317682]
大規模言語モデル(LLM)は説得に影響を受けやすいため、モデルが対向的インターロケータに直面するとリスクが生じる可能性がある。モデルを一方だけに最適化すると、もう一方のパフォーマンスが低下することを示す。 PBT(Persuasion-Balanced Training)を導入する。
論文参考訳（メタデータ） (2024-10-18T16:49:36Z)
Training Language Models to Win Debates with Self-Play Improves Judge Accuracy [8.13173791334223]
本稿では,学習モデルによるスケーラブルな監視手法としての議論の堅牢性を試行し,自己再生によって生成されたデータと議論する。言語モデルに基づく評価器は、モデルの判断が議論に勝つように最適化されたときに、より正確に質問に答える。
論文参考訳（メタデータ） (2024-09-25T05:28:33Z)
On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文参考訳（メタデータ） (2024-07-05T16:29:15Z)
When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour [0.8133739801185272]
本研究では,サイコファンティック行動に対する大規模言語モデルの提案可能性について検討する。この行動は梅毒(sycophancy)として知られ、LLMが誤解を招く反応を引き起こす傾向を描いている。
論文参考訳（メタデータ） (2023-11-15T22:18:33Z)
Debate Helps Supervise Unreliable Experts [33.03555781137954]
信頼できない2人の専門家の議論は、専門家でない裁判官が真実をより確実に特定する助けになることを示す。 1人の専門家が、半分の時間で正しい答えを1つだけ主張する、基準となる議論と比較すると、議論ははるかに効果が高いことが分かります。これらの結果は、議論がますます有能で信頼性の低いAIシステムを監視するための有望なアプローチであることを示している。
論文参考訳（メタデータ） (2023-11-15T05:05:40Z)
The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。 LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文参考訳（メタデータ） (2023-11-14T07:26:32Z)
Ask an Expert: Leveraging Language Models to Improve Strategic Reasoning in Goal-Oriented Dialogue Models [15.476899850339395]
モデルに各ターンで相談可能な"エキスパート"へのアクセスをトレーニングする"エキスパートを尋ねる"フレームワークを提案する。アドバイスは専門家との構造化された対話を通じて提供され、コンテキストと対話履歴が与えられた場合、モデルを選択的に利用(または無視)するために最適化される。この枠組みを、専門家の会話の構造を、現場の実践者に教えられた推論戦略を反映した事前に特定されたプロンプトによって概説する精神保健支援領域において評価する。
論文参考訳（メタデータ） (2023-05-29T04:19:35Z)
Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文参考訳（メタデータ） (2023-05-24T02:00:51Z)
Are Metrics Enough? Guidelines for Communicating and Visualizing Predictive Models to Subject Matter Experts [7.768301998812552]
本稿では,コミュニケーションのギャップを理解するために,課題の専門家とデータ科学者の双方による反復的研究について述べる。モデルの強みと弱みを伝達するための共通媒体として可視化を利用する一連のコミュニケーションガイドラインを導出する。
論文参考訳（メタデータ） (2022-05-11T19:40:24Z)
Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文参考訳（メタデータ） (2021-04-18T07:00:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。