論文の概要: Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go
without Hallucination?
- arxiv url: http://arxiv.org/abs/2311.09702v2
- Date: Wed, 13 Mar 2024 09:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:58:21.070790
- Title: Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go
without Hallucination?
- Title(参考訳): セマンティック・ショートカットの認識 - モデルがどこまで進むか
幻覚なし?
- Authors: Bangzheng Li, Ben Zhou, Fei Wang, Xingyu Fu, Dan Roth, Muhao Chen
- Abstract要約: 本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
- 参考スコア(独自算出の注目度): 77.834020679078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent advancement in large language models (LLMs) and their high
performances across numerous benchmarks, recent research has unveiled that LLMs
suffer from hallucinations and unfaithful reasoning. This work studies a
specific type of hallucination induced by semantic associations. Specifically,
we investigate to what extent LLMs take shortcuts from certain keyword/entity
biases in the prompt instead of following the correct reasoning path. To
quantify this phenomenon, we propose a novel probing method and benchmark
called EureQA. We start from questions that LLMs will answer correctly with
utmost certainty, and mask the important entity with evidence sentence
recursively, asking models to find masked entities according to a chain of
evidence before answering the question.
During the construction of the evidence, we purposefully replace semantic
clues (entities) that may lead to the correct answer with distractor clues
(evidence) that will not directly lead to the correct answer but require a
chain-like reasoning process. We evaluate if models can follow the correct
reasoning chain instead of short-cutting through distractor clues. We find that
existing LLMs lack the necessary capabilities to follow correct reasoning paths
and resist the attempt of greedy shortcuts. We show that the distractor
semantic associations often lead to model hallucination, which is strong
evidence that questions the validity of current LLM reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩と、多くのベンチマークにおける高いパフォーマンスにもかかわらず、最近の研究はLLMが幻覚や不誠実な推論に悩まされていることを明らかにしている。
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
具体的には、LLMが正しい推論経路に従うのではなく、プロンプト内の特定のキーワード/エンタリティバイアスからショートカットをどの程度取るかを検討する。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
まず LLM が完全確実性で正しく答える質問から始め、重要なエンティティを証拠文で再帰的に隠蔽し、モデルに質問に答える前に、一連の証拠に従ってマスクされたエンティティを見つけるよう求めます。
証拠を構築する際には、意図的な意味的手がかり (entities) を置き換えて、正しい答えに直結するのではなく、連鎖のような推論プロセスを必要とするような注意深い手がかり (evidence) で正しい答えを導き出す。
注意散らしの手掛かりを省略する代わりに、モデルが正しい推論チェーンに従うことができるかどうかを評価する。
既存のLSMは正しい推論経路を辿り、欲張りのショートカットに抵抗するために必要な能力が欠如していることが判明した。
注意散らしのセマンティック・アソシエーションは、しばしばモデル幻覚を引き起こすことが示され、これは現在のLSM推論の有効性に疑問を呈する強い証拠である。
関連論文リスト
- DecoPrompt : Decoding Prompts Reduces Hallucinations when Large Language Models Meet False Premises [28.72485319617863]
幻覚を緩和する新しいプロンプトアルゴリズムDecoPromptを提案する。
DecoPrompt は LLM を利用して偽前提のプロンプトを "デコード" する。
2つのデータセットで実験を行い、DecoPromptは異なるLLMから出力された幻覚を効果的に低減できることを示した。
論文 参考訳(メタデータ) (2024-11-12T00:48:01Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Automatic Curriculum Expert Iteration for Reliable LLM Reasoning [60.60318625779015]
幻覚(すなわち、可塑性だが不正確な内容を生成する)と怠慢(すなわち過剰な拒絶や「私は知らない」のデフォルト)は、LLM推論における主要な課題として残る。
幻覚を減らそうとする現在の取り組みは、主に知識に基づくタスクにおける事実的誤りに焦点を当てており、しばしば欠陥推論に関連する幻覚を無視している。
本稿では,LLM推論を強化し,モデルの能力に応答する自動カリキュラムエキスパートイテレーション(Auto-CEI)を提案する。
論文 参考訳(メタデータ) (2024-10-10T05:43:07Z) - Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? [6.525065859315515]
大規模言語モデル (LLM) がマルチホップ推論ベンチマークの簡易化に有効かどうかを検討する。
この発見に触発されて、我々は、もっともらしいマルチホップ推論連鎖を生成することで、挑戦的なマルチホップ推論ベンチマークを提案する。
その結果, マルチホップ推論の性能はF1スコアの45%まで低下していることがわかった。
論文 参考訳(メタデータ) (2024-09-08T19:22:58Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models [52.957842999317506]
オブジェクト幻覚(Object Hallucination)とは、LVLMが画像に存在しない物体を主張する現象である。
本稿では,物体の幻覚検出と緩和,すなわちLogicCheckGPTのための論理閉ループベースのフレームワークを提案する。
プラグアンドプレイ法として、既存のすべてのLVLMにシームレスに適用することができる。
論文 参考訳(メタデータ) (2024-02-18T15:28:39Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Boosting Language Models Reasoning with Chain-of-Knowledge Prompting [18.326858925174605]
CoK(Chain-of-Knowledge)は、構造三重の形で明確な知識証拠を引き出すことを目的としている。
さらに, 推論チェーンの信頼性を推定するF2-Verification法を導入する。
広汎な実験により,本手法はコモンセンス,事実,記号,算術的推論タスクの性能をさらに向上させることができることが示された。
論文 参考訳(メタデータ) (2023-06-10T12:42:36Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。