論文の概要: Counterfactual Debating with Preset Stances for Hallucination Elimination of LLMs
- arxiv url: http://arxiv.org/abs/2406.11514v1
- Date: Mon, 17 Jun 2024 13:21:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:42:04.966116
- Title: Counterfactual Debating with Preset Stances for Hallucination Elimination of LLMs
- Title(参考訳): LLMの幻覚除去のためのプリセットスタンスによる非現実的議論
- Authors: Yi Fang, Moxin Li, Wenjie Wang, Hui Lin, Fuli Feng,
- Abstract要約: 大規模言語モデル(LLM)は様々な自然言語処理タスクに優れるが、幻覚に苦しむ。
本稿では, LLM 固有のバイアスをオーバーライドして解答検査を行うために, CFMAD フレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.38821594541265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel in various natural language processing tasks but struggle with hallucination issues. Existing solutions have considered utilizing LLMs' inherent reasoning abilities to alleviate hallucination, such as self-correction and diverse sampling methods. However, these methods often overtrust LLMs' initial answers due to inherent biases. The key to alleviating this issue lies in overriding LLMs' inherent biases for answer inspection. To this end, we propose a CounterFactual Multi-Agent Debate (CFMAD) framework. CFMAD presets the stances of LLMs to override their inherent biases by compelling LLMs to generate justifications for a predetermined answer's correctness. The LLMs with different predetermined stances are engaged with a skeptical critic for counterfactual debate on the rationality of generated justifications. Finally, the debate process is evaluated by a third-party judge to determine the final answer. Extensive experiments on four datasets of three tasks demonstrate the superiority of CFMAD over existing methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な自然言語処理タスクに優れるが、幻覚に苦しむ。
既存のソリューションでは、自己補正や多様なサンプリング手法などの幻覚を緩和するために、LSMs固有の推論能力を活用することを検討してきた。
しかしながら、これらの手法は、固有のバイアスのために LLM の初期回答を過信することが多い。
この問題を緩和する鍵は、答え検査のためにLLM固有のバイアスをオーバーライドすることにある。
そこで本研究では,CFMAD(CounterFactual Multi-Agent Debate)フレームワークを提案する。
CFMADは、所定回答の正当性に対する正当化を生成するためにLLMを説得することで、LLMの固有のバイアスをオーバーライドする姿勢を予め設定している。
所定のスタンスが異なるLDMは、生成された正当化の合理性に関する反実的な議論に対して懐疑的な批判を受ける。
最後に、最終回答を決定するために、第三者の裁判官によって議論プロセスを評価する。
3つのタスクの4つのデータセットに対する大規模な実験は、既存の手法よりもCFMADの方が優れていることを示す。
関連論文リスト
- Automatic Curriculum Expert Iteration for Reliable LLM Reasoning [60.60318625779015]
幻覚(すなわち、可塑性だが不正確な内容を生成する)と怠慢(すなわち過剰な拒絶や「私は知らない」のデフォルト)は、LLM推論における主要な課題として残る。
幻覚を減らそうとする現在の取り組みは、主に知識に基づくタスクにおける事実的誤りに焦点を当てており、しばしば欠陥推論に関連する幻覚を無視している。
本稿では,LLM推論を強化し,モデルの能力に応答する自動カリキュラムエキスパートイテレーション(Auto-CEI)を提案する。
論文 参考訳(メタデータ) (2024-10-10T05:43:07Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - A Probabilistic Framework for LLM Hallucination Detection via Belief Tree Propagation [72.93327642336078]
本稿では,幻覚検出のための確率的フレームワークであるBelief Tree Propagation (BTProp)を提案する。
BTPropは、親ステートメントを子ステートメントに分解することで、論理的に関連するステートメントの信念ツリーを導入する。
複数の幻覚検出ベンチマークにおいて,AUROCとAUC-PRにより評価された基準線を3%-9%改善する。
論文 参考訳(メタデータ) (2024-06-11T05:21:37Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [68.83624133567213]
そこで本研究では,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また, モデルに対して, 合成推論を積極的に行うための, 単純かつ効果的な手法であるアクティブ推論(AD)を提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Measuring and Reducing LLM Hallucination without Gold-Standard Answers [25.274254957260904]
幻覚は 事実的不正確で 説得力のある答えを生み出します
既存の幻覚測定には、ゴールド標準の回答を持つベンチマークデータセットが必要である。
FEWLは、ゴールドスタンダードの回答が欠落しているシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2024-02-16T02:32:06Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。