論文の概要: CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection
- arxiv url: http://arxiv.org/abs/2506.05243v1
- Date: Thu, 05 Jun 2025 17:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.836735
- Title: CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection
- Title(参考訳): CLATTER:幻覚検出のための包括的拡張推論
- Authors: Ron Eliav, Arie Cattan, Eran Hirsch, Shahaf Bassan, Elias Stengel-Eskin, Mohit Bansal, Ido Dagan,
- Abstract要約: 我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 60.98964268961243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common approach to hallucination detection casts it as a natural language inference (NLI) task, often using LLMs to classify whether the generated text is entailed by corresponding reference texts. Since entailment classification is a complex reasoning task, one would expect that LLMs could benefit from generating an explicit reasoning process, as in CoT reasoning or the explicit ``thinking'' of recent reasoning models. In this work, we propose that guiding such models to perform a systematic and comprehensive reasoning process -- one that both decomposes the text into smaller facts and also finds evidence in the source for each fact -- allows models to execute much finer-grained and accurate entailment decisions, leading to increased performance. To that end, we define a 3-step reasoning process, consisting of (i) claim decomposition, (ii) sub-claim attribution and entailment classification, and (iii) aggregated classification, showing that such guided reasoning indeed yields improved hallucination detection. Following this reasoning framework, we introduce an analysis scheme, consisting of several metrics that measure the quality of the intermediate reasoning steps, which provided additional empirical evidence for the improved quality of our guided reasoning scheme.
- Abstract(参考訳): 幻覚検出に対する一般的なアプローチは、それを自然言語推論(NLI)タスクとして、しばしばLLMを使用して、生成されたテキストが対応する参照テキストによって関連づけられているかどうかを分類する。
包含分類は複雑な推論タスクであるため、最近の推論モデルのCoT推論や'thinking'のように、LCMが明示的な推論プロセスを生成することの恩恵を期待できる。
本研究では,このようなモデルを体系的かつ包括的な推論プロセス – テキストを小さな事実に分解し,各事実の情報源に証拠を見出す – に導くことによって,モデルがよりきめ細やかな包含決定を行えるようになり,性能が向上する,という提案を行う。
その目的のために、私たちは3段階の推論プロセスを定義します。
(i)分解を主張する
二 サブリフティングの属性及び含意分類及び
第三に、このようなガイド付き推論が幻覚検出を改善させることを示す総合分類。
本研究では,中間的推論ステップの質を計測するいくつかの指標からなる分析手法を導入し,ガイド付き推論手法の質向上に関する実証的な証拠を提供する。
関連論文リスト
- Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study [34.29839553042609]
本研究では,3次元にわたる論理的推論を評価するためのきめ細かい評価フレームワークであるFinalLogicを提案する。
微調整時の監督形式の効果について検討する。
この結果から, 自然言語指導は, アウト・オブ・ディストリビューションや長文タスクにも強い一般化をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2025-06-05T09:34:12Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [39.613595533503144]
CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおける推論能力を高める能力として広く認識されている。
CoTは、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを示す。
パターンベースICLにおけるCoTの性能を駆動する基本的明示的双対性を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement [92.61557711360652]
言語モデル(LM)は、しばしば帰納的推論に不足する。
我々は,反復的仮説修正を通じて,LMの帰納的推論能力を体系的に研究する。
本研究は, LMの誘導的推論過程と人間とのいくつかの相違点を明らかにし, 誘導的推論タスクにおけるLMの使用の可能性と限界に光を当てる。
論文 参考訳(メタデータ) (2023-10-12T17:51:10Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。
複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。
本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Rationale-Augmented Ensembles in Language Models [53.45015291520658]
我々は、数発のテキスト内学習のための合理化促進策を再考する。
我々は、出力空間における合理的サンプリングを、性能を確実に向上させるキーコンポーネントとして特定する。
有理拡張アンサンブルは既存のプロンプト手法よりも正確で解釈可能な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-07-02T06:20:57Z) - EviDR: Evidence-Emphasized Discrete Reasoning for Reasoning Machine
Reading Comprehension [39.970232108247394]
R-MRC(Reasoning Machine reading comprehension)は、テキストに基づく離散推論を必要とする複雑な質問に答えることを目的としている。
最先端のパフォーマンスを実現する従来のエンドツーエンドの手法は、証拠のモデリングに十分な注意を払うことで、この問題を解決することはめったにない。
文と節レベルの証拠を遠方からの監視に基づいて最初に検出するエビデンス強調離散推論手法(EviDR)を提案する。
論文 参考訳(メタデータ) (2021-08-18T06:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。