論文の概要: Disentangling Ambiguity from Instability in Large Language Models: A Clinical Text-to-SQL Case Study
- arxiv url: http://arxiv.org/abs/2602.12015v1
- Date: Thu, 12 Feb 2026 14:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.873788
- Title: Disentangling Ambiguity from Instability in Large Language Models: A Clinical Text-to-SQL Case Study
- Title(参考訳): 大規模言語モデルにおける不安定性から曖昧性への遠ざかる:臨床テキスト-SQLケーススタディ
- Authors: Angelo Ziletti, Leonardo D'Ambrosi,
- Abstract要約: テキストから言語までを2段階のプロセスとしてモデル化するフレームワークであるCLUESを提案する。
意味的不確実性を曖昧性スコアと不安定性スコアに分解する。
CLUESは最先端のカーネルエントロピー行列の故障予測を改善する。
- 参考スコア(独自算出の注目度): 0.3437656066916039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying large language models for clinical Text-to-SQL requires distinguishing two qualitatively different causes of output diversity: (i) input ambiguity that should trigger clarification, and (ii) model instability that should trigger human review. We propose CLUES, a framework that models Text-to-SQL as a two-stage process (interpretations --> answers) and decomposes semantic uncertainty into an ambiguity score and an instability score. The instability score is computed via the Schur complement of a bipartite semantic graph matrix. Across AmbigQA/SituatedQA (gold interpretations) and a clinical Text-to-SQL benchmark (known interpretations), CLUES improves failure prediction over state-of-the-art Kernel Language Entropy. In deployment settings, it remains competitive while providing a diagnostic decomposition unavailable from a single score. The resulting uncertainty regimes map to targeted interventions - query refinement for ambiguity, model improvement for instability. The high-ambiguity/high-instability regime contains 51% of errors while covering 25% of queries, enabling efficient triage.
- Abstract(参考訳): 臨床用テキストからSQLへの大規模言語モデルのデプロイには、出力多様性の質的に異なる2つの原因を区別する必要がある。
一 明確化を誘発すべきあいまいさ、及び
(ii)人間のレビューを誘発するモデル不安定性。
CLUESは、テキストからSQLまでを2段階のプロセス(解釈 -->回答)としてモデル化し、意味的不確実性をあいまいなスコアと不安定なスコアに分解するフレームワークである。
不安定性スコアは、2部意味グラフ行列のシュア補数を通して計算される。
AmbigQA/SituatedQA (ゴールドの解釈) と臨床テキストからSQLへのベンチマーク (既知の解釈) を通じて、CLUESは最先端のカーネル言語エントロピーにおける障害予測を改善している。
デプロイメント設定では、単一のスコアから利用できない診断分解を提供しながら、競争力を維持します。
結果として生じる不確実性は,対象とする介入 – あいまいさに対するクエリ改善,不安定性のモデル改善 – にマップされる。
高曖昧/高不安定なレギュレーションは、25%のクエリをカバーしながらエラーの51%を含み、効率的なトリアージを可能にする。
関連論文リスト
- LatentRefusal: Latent-Signal Refusal for Unanswerable Text-to-SQL Queries [6.5781226398371615]
問合せ不能なユーザクエリとユーザクエリは、テキストから特定システムへの安全なデプロイにおいて、大きな障壁となる。
LatentRefusalは、大きな言語モデルの隠れアクティベーションから応答可能性を予測する潜在信号の拒絶メカニズムである。
latentRefusalは、両方の背骨で平均F1から88.5%改善し、約2ミリ秒のプローブオーバヘッドを追加します。
論文 参考訳(メタデータ) (2026-01-15T13:48:22Z) - Node-Level Uncertainty Estimation in LLM-Generated SQL [13.436696325103147]
本稿では,構造コンテナやエイリアスの変化を過小評価することなく,ノードレベルの正しさを割り当てるセマンティックなラベリングアルゴリズムを提案する。
私たちは、識別子の妥当性、エイリアス解決、型互換性、スコープのあいまいさ、タイポ信号といった、スキーマ認識と語彙の豊富な機能で、各ノードを表現します。
これらの確率は不確実性であると解釈し、クエリの誤りを正確に特定するきめ細かい診断を可能にする。
論文 参考訳(メタデータ) (2025-11-17T23:31:45Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL
Robustness [115.66421993459663]
近年の研究では、テキスト・ツー・モデルはタスク固有の摂動に弱いことが示されている。
モデル診断のための包括的ロバスト性ベンチマークを提案する。
我々は、そのセット上の最先端モデルの診断研究を行う。
論文 参考訳(メタデータ) (2023-01-21T03:57:18Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。