論文の概要: Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination?
- arxiv url: http://arxiv.org/abs/2311.09702v3
- Date: Fri, 5 Apr 2024 18:08:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 02:15:45.656615
- Title: Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination?
- Title(参考訳): 連鎖推論における知覚的セマンティックショートカット:モデルが幻覚なしでどこまで進むことができるか?
- Authors: Bangzheng Li, Ben Zhou, Fei Wang, Xingyu Fu, Dan Roth, Muhao Chen,
- Abstract要約: 本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
- 参考スコア(独自算出の注目度): 73.454943870226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent advancement in large language models (LLMs) and their high performances across numerous benchmarks, recent research has unveiled that LLMs suffer from hallucinations and unfaithful reasoning. This work studies a specific type of hallucination induced by semantic associations. Specifically, we investigate to what extent LLMs take shortcuts from certain keyword/entity biases in the prompt instead of following the correct reasoning path. To quantify this phenomenon, we propose a novel probing method and benchmark called EureQA. We start from questions that LLMs will answer correctly with utmost certainty, and mask the important entity with evidence sentence recursively, asking models to find masked entities according to a chain of evidence before answering the question. During the construction of the evidence, we purposefully replace semantic clues (entities) that may lead to the correct answer with distractor clues (evidence) that will not directly lead to the correct answer but require a chain-like reasoning process. We evaluate if models can follow the correct reasoning chain instead of short-cutting through distractor clues. We find that existing LLMs lack the necessary capabilities to follow correct reasoning paths and resist the attempt of greedy shortcuts. We show that the distractor semantic associations often lead to model hallucination, which is strong evidence that questions the validity of current LLM reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩と、多くのベンチマークにおける高いパフォーマンスにもかかわらず、最近の研究はLLMが幻覚や不誠実な推論に悩まされていることを明らかにしている。
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
具体的には、LLMが正しい推論経路に従うのではなく、プロンプト内の特定のキーワード/エンタリティバイアスからショートカットをどの程度取るかを検討する。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
まず LLM が完全確実性で正しく答える質問から始め、重要なエンティティを証拠文で再帰的に隠蔽し、モデルに質問に答える前に、一連の証拠に従ってマスクされたエンティティを見つけるよう求めます。
証拠を構築する際には、意図的な意味的手がかり (entities) を置き換えて、正しい答えに直結するのではなく、連鎖のような推論プロセスを必要とするような注意深い手がかり (evidence) で正しい答えを導き出す。
注意散らしの手掛かりを省略する代わりに、モデルが正しい推論チェーンに従うことができるかどうかを評価する。
既存のLSMは正しい推論経路を辿り、欲張りのショートカットに抵抗するために必要な能力が欠如していることが判明した。
注意散らしのセマンティック・アソシエーションは、しばしばモデル幻覚を引き起こすことが示され、これは現在のLSM推論の有効性に疑問を呈する強い証拠である。
関連論文リスト
- Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Toward Adaptive Reasoning in Large Language Models with Thought Rollback [33.714789952452094]
本稿では,Thought Rollback (TR) と呼ばれる新しい推論フレームワークを提案する。
TRにより、大規模言語モデル(LLM)は、幻覚下での問題解決に向けた効果的な推論を維持しつつ、思考構造を適応的に構築することができる」。
論文 参考訳(メタデータ) (2024-12-27T16:02:34Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Automatic Curriculum Expert Iteration for Reliable LLM Reasoning [60.60318625779015]
幻覚(すなわち、可塑性だが不正確な内容を生成する)と怠慢(すなわち過剰な拒絶や「私は知らない」のデフォルト)は、LLM推論における主要な課題として残る。
幻覚を減らそうとする現在の取り組みは、主に知識に基づくタスクにおける事実的誤りに焦点を当てており、しばしば欠陥推論に関連する幻覚を無視している。
本稿では,LLM推論を強化し,モデルの能力に応答する自動カリキュラムエキスパートイテレーション(Auto-CEI)を提案する。
論文 参考訳(メタデータ) (2024-10-10T05:43:07Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models [52.957842999317506]
オブジェクト幻覚(Object Hallucination)とは、LVLMが画像に存在しない物体を主張する現象である。
本稿では,物体の幻覚検出と緩和,すなわちLogicCheckGPTのための論理閉ループベースのフレームワークを提案する。
プラグアンドプレイ法として、既存のすべてのLVLMにシームレスに適用することができる。
論文 参考訳(メタデータ) (2024-02-18T15:28:39Z) - Assessing the Reasoning Capabilities of LLMs in the context of Evidence-based Claim Verification [22.92500697622486]
証拠と組み合わせた主張を原子推論タイプに分解するフレームワークを提案する。
私たちはこのフレームワークを使って、最初のクレーム検証ベンチマークであるRECV(Reasoning in Evidence-based Claim Verification)を作成します。
我々は、複数のプロンプト設定の下で、最先端のLLMを3つ評価する。
論文 参考訳(メタデータ) (2024-02-16T14:52:05Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Boosting Language Models Reasoning with Chain-of-Knowledge Prompting [18.326858925174605]
CoK(Chain-of-Knowledge)は、構造三重の形で明確な知識証拠を引き出すことを目的としている。
さらに, 推論チェーンの信頼性を推定するF2-Verification法を導入する。
広汎な実験により,本手法はコモンセンス,事実,記号,算術的推論タスクの性能をさらに向上させることができることが示された。
論文 参考訳(メタデータ) (2023-06-10T12:42:36Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。