論文の概要: Easier to Mislead Than to Correct: Harmful and Beneficial Revision in LLM Conformity
- arxiv url: http://arxiv.org/abs/2606.01637v2
- Date: Sat, 06 Jun 2026 04:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:04.775684
- Title: Easier to Mislead Than to Correct: Harmful and Beneficial Revision in LLM Conformity
- Title(参考訳): LLMの整合性における有害かつ便益的な改善
- Authors: Jiaming Qu, Lucheng Fu, Yibo Hu,
- Abstract要約: ピア合意は、当初間違ったモデルを修正するよりも、最初に正しいモデルを誤解させるのがずっと簡単であることを示す。
これらの結果から,マルチエージェントLLMシステムは単に集約するのではなく,ピア回答を検証すべきであることが示唆された。
- 参考スコア(独自算出の注目度): 1.4889674786265437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used in multi-agent systems, where they see and respond to other agents' answers. A key risk is conformity: a model may abandon its own answer simply because others agree on a different one. Prior studies show that LLMs often revise toward a majority answer, but it remains unclear whether these revisions help correct mistakes as often as they introduce new errors. In this paper, we conduct a controlled study in which an LLM first answers a question, then sees simulated peer responses before making a final decision. We manipulate two social cues: consensus structure and authority labels assigned to peers, and measure how they influence beneficial and harmful revisions. Across four open-weight LLMs and seven QA datasets, we find that peer agreement makes it much easier to mislead initially correct models than to correct initially wrong ones. Authority labels make models more likely to choose the endorsed answer, regardless of whether it is correct. More concerningly, generic reasoning interventions such as chain-of-thought and reflection do not reliably reduce harmful revision while preserving beneficial revision. These findings suggest that multi-agent LLM systems should verify peer answers rather than simply aggregate them.
- Abstract(参考訳): 大規模言語モデルは、他のエージェントの回答を見たり反応したりするマルチエージェントシステムにおいて、ますます使われている。
モデルは単に別のモデルに同意するため、自分自身の答えを捨てる可能性がある。
以前の研究では、LSMは多数回答に向けて修正されることがしばしばあったが、これらの修正が誤りを訂正するのに役立つのか、新しいエラーを導入するのと同じくらいの頻度で修正されているのかは不明だ。
本稿では、LLMがまず質問に答え、次に最終的な決定を行う前にシミュレーションされたピア応答を見る制御された研究を行う。
我々は、コンセンサス構造と、ピアに割り当てられた権限ラベルの2つの社会的手段を操り、それらが有益で有害な修正にどのように影響するかを測定する。
4つのオープンウェイト LLM と7つの QA データセットにわたって、ピア合意は、最初のモデルの誤りを訂正するよりも、最初に正しいモデルを誤解しやすくする。
オーソリティレーベルは、モデルが正しいかどうかに関わらず、支持された回答を選択する可能性が高い。
より具体的には、連鎖やリフレクションのような一般的な推論介入は、有益なリビジョンを維持しながら有害なリビジョンを確実に低減しない。
これらの結果から,多エージェントLLMシステムは単に集約するのではなく,ピア回答を検証すべきであることが示唆された。
関連論文リスト
- GRP: Goal-Reversed Prompting for Zero-Shot Evaluation with LLMs [14.906150451947443]
大きな言語モデル(LLMs)を使用して2つの回答を評価し比較する。
目的逆プロンプティング(GRP)手法を提案し、元のタスクをより良い解から悪い解を選択するようにシフトする。
論文 参考訳(メタデータ) (2025-03-08T09:44:24Z) - LLMs Can Generate a Better Answer by Aggregating Their Own Responses [83.69632759174405]
大きな言語モデル(LLM)はタスク間で顕著な機能を示しているが、複雑な問題に直面している場合、追加のプロンプト技術を必要とすることが多い。
この制限は、共通LLMポストトレーニング手順が差別的判断タスクの明示的な監督を欠いているという事実に起因している、と我々は主張する。
本稿では,モデルの識別機能を必要とせず,解答品質を向上させる手法である生成自己集合(GSA)を提案する。
論文 参考訳(メタデータ) (2025-03-06T05:25:43Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs [29.295135832861522]
自己補正(Self-correction)は、LLMを用いて推論中に応答を精製することで、大きな言語モデル(LLM)からの応答を改善するアプローチである。
これまでの作業では,自己評価や外部からのフィードバックなど,さまざまなフィードバック源を用いたさまざまな自己補正フレームワークが提案されていた。
我々は幅広い論文を批判的に調査し、自己補正を成功させるために必要な条件について議論する。
論文 参考訳(メタデータ) (2024-06-03T13:05:46Z) - Recursive Chain-of-Feedback Prevents Performance Degradation from
Redundant Prompting [0.4662017507844857]
本稿では,このような反復行動とその効果について,新しい設定,CoF(Chain-of-Feedback)を定義することによって検討する。
これらの問題を緩和するために、新しい手法、Recursive Chain-of-Feedback (R-CoF)を提案する。
論文 参考訳(メタデータ) (2024-02-05T00:44:28Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。