論文の概要: Compartmentalised Agentic Reasoning for Clinical NLI
- arxiv url: http://arxiv.org/abs/2509.10222v1
- Date: Fri, 12 Sep 2025 13:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.095749
- Title: Compartmentalised Agentic Reasoning for Clinical NLI
- Title(参考訳): 臨床用NLIのための比較的エージェント推論法
- Authors: Maël Jullien, Lei Xu, Marco Valentino, André Freitas,
- Abstract要約: 我々は,知識アクセスを原則推論から分離する臨床NLIのための比較的エージェント推論であるCARENLIを紹介する。
CARENLIは最大42ポイントの忠実度を向上し、Causal Attributionの98.0%、リスク状態抽象化の81.2%に達した。
- 参考スコア(独自算出の注目度): 34.03033779546207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common assumption holds that scaling data and parameters yields increasingly structured, generalisable internal representations. We interrogate this assumption in clinical natural language inference (NLI) by adopting a benchmark decomposed into four reasoning families, Causal Attribution, Compositional Grounding, Epistemic Verification, and Risk State Abstraction, and introducing CARENLI, a Compartmentalised Agentic Reasoning for Clinical NLI that separates knowledge access from principled inference. CARENLI routes each premise, statement pair to a family specific solver and enforces auditable procedures via a planner, verifier, and refiner. Across four LLMs, CARENLI improves fidelity by up to 42 points, reaching 98.0% in Causal Attribution and 81.2% in Risk State Abstraction. Verifiers flag violations with near-ceiling reliability, while refiners correct a substantial share of epistemic errors. Remaining failures cluster in routing, identifying family classification as the main bottleneck. These results show that LLMs often retain relevant facts but default to heuristics when inference is underspecified, a dissociation CARENLI makes explicit while offering a framework for safer, auditable reasoning.
- Abstract(参考訳): 一般的な仮定では、データとパラメータのスケーリングは、ますます構造化され、一般化可能な内部表現をもたらす。
本研究では, 臨床自然言語推論(NLI)におけるこの仮定を, 因果帰属, 構成的根拠, 疫学的検証, リスク状態抽象化の4つの因果関係に分解したベンチマークを用いて検討し, 知識アクセスを原則推論から分離した臨床NLIのための比較的エージェント推論であるCARENLIを紹介した。
CARENLIは、各前提、ステートメントペアを家族固有の解決器にルーティングし、プランナー、検証器、精製器を介して監査可能な手順を実行する。
4つのLCMで、CARENLIは最大42ポイントの忠実度を向上し、Causal Attributionの98.0%、リスク状態抽象化の81.2%に達した。
認証者はフラグ違反をほぼシーリングの信頼性で修正する一方、リファインダーは認識エラーのかなりの割合を補正する。
障害の残りはルーティングでクラスタ化され、家族分類が主なボトルネックとして特定される。
これらの結果から、LLMは関連する事実をしばしば保持するが、推論が不明確である場合にはヒューリスティックにデフォルトを課し、CARENLIはより安全で監査可能な推論のためのフレームワークを提供しながら明示する。
関連論文リスト
- The Knowledge-Reasoning Dissociation: Fundamental Limitations of LLMs in Clinical Natural Language Inference [13.59675117792588]
大規模言語モデルは、データとパラメータをスケーリングすることで、ますます構造化され、一般化可能な内部表現を取得すると仮定されることが多い。
本研究は,4つの理性家族からなる臨床トライアル自然言語帰属ベンチマークを導入することで,この仮定を疑問視する。
各項目は、ターゲットとなるグラウンド知識とメタレベル推論検証プローブと組み合わせて、推論の失敗から事実アクセスの失敗を解離させる。
論文 参考訳(メタデータ) (2025-08-14T16:01:10Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - Structured Thinking Matters: Improving LLMs Generalization in Causal Inference Tasks [0.7988085110283119]
Corr2Cause のデータセットによる最近の結果は、最先端の LLM がランダムベースラインをわずかに上回っていることを示している。
我々は、構造化知識グラフを構築するためのモデルを導くことによって、その思考を構造化する能力を備えたモデルを提供する。
Qwen3-32Bモデル(推論モデル)を用いたCorr2Causeデータセットベンチマークのテストサブセットの実験は、標準的なダイレクトプロンプトメソッドよりも大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-05-23T15:37:40Z) - On Reference (In-)Determinacy in Natural Language Inference [62.904689974282334]
我々は、自然言語推論(NLI)タスクにおける基準決定性(RD)仮定を再考する。
我々は、現在のNLIモデルは、入力前提と仮説が異なるコンテキストを参照できる事実検証のような下流アプリケーションでは失敗するのを観察する。
NLI例における参照曖昧性を特定するための診断ベンチマークであるRefNLIを紹介する。
論文 参考訳(メタデータ) (2025-02-09T06:58:13Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - A Versatile Causal Discovery Framework to Allow Causally-Related Hidden
Variables [28.51579090194802]
因果ネットワークの至る所で、因果関係の隠れ変数の存在を許容する因果発見のための新しい枠組みを提案する。
ランクに基づく潜在因果探索アルゴリズム(RLCD)を開発し、隠れ変数を効率よく探索し、その濃度を判定し、測定値と隠れ変数の両方に対して因果構造全体を発見する。
合成・実世界のパーソナリティデータセットを用いた実験結果から,有限サンプルケースにおける提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-12-18T07:57:39Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。