Fugu-MT 論文翻訳(概要): Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination?

論文の概要: Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination?

arxiv url: http://arxiv.org/abs/2311.09702v2
Date: Wed, 13 Mar 2024 09:11:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 17:58:21.070790
Title: Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination?
Title（参考訳）: セマンティック・ショートカットの認識 - モデルがどこまで進むか幻覚なし?
Authors: Bangzheng Li, Ben Zhou, Fei Wang, Xingyu Fu, Dan Roth, Muhao Chen
Abstract要約: 本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
参考スコア（独自算出の注目度）: 77.834020679078
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the recent advancement in large language models (LLMs) and their high performances across numerous benchmarks, recent research has unveiled that LLMs suffer from hallucinations and unfaithful reasoning. This work studies a specific type of hallucination induced by semantic associations. Specifically, we investigate to what extent LLMs take shortcuts from certain keyword/entity biases in the prompt instead of following the correct reasoning path. To quantify this phenomenon, we propose a novel probing method and benchmark called EureQA. We start from questions that LLMs will answer correctly with utmost certainty, and mask the important entity with evidence sentence recursively, asking models to find masked entities according to a chain of evidence before answering the question. During the construction of the evidence, we purposefully replace semantic clues (entities) that may lead to the correct answer with distractor clues (evidence) that will not directly lead to the correct answer but require a chain-like reasoning process. We evaluate if models can follow the correct reasoning chain instead of short-cutting through distractor clues. We find that existing LLMs lack the necessary capabilities to follow correct reasoning paths and resist the attempt of greedy shortcuts. We show that the distractor semantic associations often lead to model hallucination, which is strong evidence that questions the validity of current LLM reasoning.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩と、多くのベンチマークにおける高いパフォーマンスにもかかわらず、最近の研究はLLMが幻覚や不誠実な推論に悩まされていることを明らかにしている。本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。具体的には、LLMが正しい推論経路に従うのではなく、プロンプト内の特定のキーワード/エンタリティバイアスからショートカットをどの程度取るかを検討する。この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。まず LLM が完全確実性で正しく答える質問から始め、重要なエンティティを証拠文で再帰的に隠蔽し、モデルに質問に答える前に、一連の証拠に従ってマスクされたエンティティを見つけるよう求めます。証拠を構築する際には、意図的な意味的手がかり (entities) を置き換えて、正しい答えに直結するのではなく、連鎖のような推論プロセスを必要とするような注意深い手がかり (evidence) で正しい答えを導き出す。注意散らしの手掛かりを省略する代わりに、モデルが正しい推論チェーンに従うことができるかどうかを評価する。既存のLSMは正しい推論経路を辿り、欲張りのショートカットに抵抗するために必要な能力が欠如していることが判明した。注意散らしのセマンティック・アソシエーションは、しばしばモデル幻覚を引き起こすことが示され、これは現在のLSM推論の有効性に疑問を呈する強い証拠である。

関連論文リスト

Answer-Centric or Reasoning-Driven? Uncovering the Latent Memory Anchor in LLMs [28.556628696390767]
大きな言語モデル(LLM)は印象的な推論機能を示している。彼らの成功の多くは、真の推論よりも、暗記された回答推論パターンに起因している、とエビデンスは示唆している。本稿では, 応答キューを体系的に操作し, 間接的, 行動解析によるモデル行動の探索を行う5段階の応答可視プロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-21T08:15:45Z)
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文参考訳（メタデータ） (2025-05-30T05:54:36Z)
Reasoning LLMs are Wandering Solution Explorers [5.3795217858078805]
本稿では、系統的な問題解決を構成するものを定式化し、系統的な探検家ではなく、移動者である理由を明らかにする共通障害モードを特定する。以上の結果から,現在のモデルの性能は,複雑性が増大するにつれて著しく低下するが,単純なタスクに適していると考えられることが示唆された。
論文参考訳（メタデータ） (2025-05-26T17:59:53Z)
Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs [52.405085773954596]
大規模な言語モデル(LLM)は、単純な問題を克服し、不要に長いアウトプットを生成し、より難しいものを過小評価する傾向にある。これは、モデルが問題の難しさを誤認し、応答長を適切に調整できないことを示唆している。実験の結果, 許容精度を維持しつつ, 生成時間を大幅に短縮できることがわかった。
論文参考訳（メタデータ） (2025-04-30T18:48:06Z)
Can LLMs Detect Intrinsic Hallucinations in Paraphrasing and Machine Translation? [7.416552590139255]
本研究では,2つの条件生成タスクにおける内因性幻覚を検出する能力に基づいて,オープンアクセス LLM スイートの評価を行った。モデルの性能はタスクや言語によってどのように異なるかを研究する。パフォーマンスはモデルによって異なるが、プロンプト間で一貫性がある。
論文参考訳（メタデータ） (2025-04-29T12:30:05Z)
Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T10:39:58Z)
Toward Adaptive Reasoning in Large Language Models with Thought Rollback [33.714789952452094]
本稿では,Thought Rollback (TR) と呼ばれる新しい推論フレームワークを提案する。 TRにより、大規模言語モデル(LLM)は、幻覚下での問題解決に向けた効果的な推論を維持しつつ、思考構造を適応的に構築することができる」。
論文参考訳（メタデータ） (2024-12-27T16:02:34Z)
DecoPrompt : Decoding Prompts Reduces Hallucinations when Large Language Models Meet False Premises [28.72485319617863]
幻覚を緩和する新しいプロンプトアルゴリズムDecoPromptを提案する。 DecoPrompt は LLM を利用して偽前提のプロンプトを "デコード" する。 2つのデータセットで実験を行い、DecoPromptは異なるLLMから出力された幻覚を効果的に低減できることを示した。
論文参考訳（メタデータ） (2024-11-12T00:48:01Z)
Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文参考訳（メタデータ） (2024-10-31T12:48:58Z)
Automatic Curriculum Expert Iteration for Reliable LLM Reasoning [60.60318625779015]
幻覚(すなわち、可塑性だが不正確な内容を生成する)と怠慢(すなわち過剰な拒絶や「私は知らない」のデフォルト)は、LLM推論における主要な課題として残る。幻覚を減らそうとする現在の取り組みは、主に知識に基づくタスクにおける事実的誤りに焦点を当てており、しばしば欠陥推論に関連する幻覚を無視している。本稿では,LLM推論を強化し,モデルの能力に応答する自動カリキュラムエキスパートイテレーション(Auto-CEI)を提案する。
論文参考訳（メタデータ） (2024-10-10T05:43:07Z)
LaMsS: When Large Language Models Meet Self-Skepticism [3.1410859223862113]
本稿では,大規模言語モデルの意味理解能力と自己懐疑性を組み合わせたLaMsSを提案する。 LaMsSは、マルチ選択質問とオープンドメイン質問回答ベンチマークの両方のベースラインよりも優れたパフォーマンスを実現している。我々の研究は、さらなる人工知能の自己懐疑論モデルに光を当てている。
論文参考訳（メタデータ） (2024-09-10T15:51:15Z)
Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? [6.525065859315515]
大規模言語モデル (LLM) がマルチホップ推論ベンチマークの簡易化に有効かどうかを検討する。この発見に触発されて、我々は、もっともらしいマルチホップ推論連鎖を生成することで、挑戦的なマルチホップ推論ベンチマークを提案する。その結果, マルチホップ推論の性能はF1スコアの45%まで低下していることがわかった。
論文参考訳（メタデータ） (2024-09-08T19:22:58Z)
Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。 LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文参考訳（メタデータ） (2024-08-09T14:34:32Z)
Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models [52.957842999317506]
オブジェクト幻覚(Object Hallucination)とは、LVLMが画像に存在しない物体を主張する現象である。本稿では,物体の幻覚検出と緩和,すなわちLogicCheckGPTのための論理閉ループベースのフレームワークを提案する。プラグアンドプレイ法として、既存のすべてのLVLMにシームレスに適用することができる。
論文参考訳（メタデータ） (2024-02-18T15:28:39Z)
The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。 LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文参考訳（メタデータ） (2023-11-14T07:26:32Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Boosting Language Models Reasoning with Chain-of-Knowledge Prompting [18.326858925174605]
CoK(Chain-of-Knowledge)は、構造三重の形で明確な知識証拠を引き出すことを目的としている。さらに, 推論チェーンの信頼性を推定するF2-Verification法を導入する。広汎な実験により,本手法はコモンセンス,事実,記号,算術的推論タスクの性能をさらに向上させることができることが示された。
論文参考訳（メタデータ） (2023-06-10T12:42:36Z)
Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。この研究は、LLMの推論を議論のような会話で議論することで検証する。優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文参考訳（メタデータ） (2023-05-22T15:47:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。