論文の概要: A CAP-like Trilemma for Large Language Models: Correctness, Non-bias, and Utility under Semantic Underdetermination
- arxiv url: http://arxiv.org/abs/2605.11672v1
- Date: Tue, 12 May 2026 07:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.666052
- Title: A CAP-like Trilemma for Large Language Models: Correctness, Non-bias, and Utility under Semantic Underdetermination
- Title(参考訳): 大規模言語モデルのためのCAPライクなトリレンマ:意味的下決定の下での正確性、非バイアス、実用性
- Authors: Vinu Ellampallil Venugopal,
- Abstract要約: 本稿では,大言語モデル(LLM)に対するCAP様予想を定式化する。
提案されたトリレンマは、意味的下決定の下では、LLMは常に強い正当性、厳密な非バイアス、高ユーティリティを保証できない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The CAP theorem states that a distributed system cannot simultaneously guarantee consistency, availability, and partition tolerance under network partition. Inspired by this result, this paper formulates a CAP-like conjecture for Large Language Models (LLMs). The proposed trilemma states that, under semantic underdetermination, an LLM cannot always simultaneously guarantee strong correctness, strict non-bias, and high utility. A prompt is semantically underdetermined when the given premises do not determine a unique answer. In such cases, a useful and decisive response requires the model to introduce a selection criterion, preference, prior, or value ordering. If this criterion is not supplied by the user or justified by the available premises, the response becomes biased in a broad selection-theoretic sense. Conversely, if the model avoids unsupported preferences, it may preserve correctness and non-bias but may reduce utility through refusal, hedging, or clarification. The paper formalizes this correctness--non-bias--utility trilemma, develops examples, and argues that certain LLM failures arise not merely from model limitations but from the structure of underdetermined decision requests.
- Abstract(参考訳): CAP定理は、分散システムがネットワーク分割下での一貫性、可用性、パーティション耐性を同時に保証できないことを述べている。
この結果から着想を得た本論文は,Large Language Models (LLMs) に対するCAP様予想を定式化する。
提案されたトリレンマは、意味的下決定の下では、LLMは常に強い正当性、厳密な非バイアス、高ユーティリティを保証できない。
与えられた前提がユニークな答えを決定できない場合、プロンプトは意味的に過小評価される。
そのような場合、有用で決定的な応答は、選択基準、優先条件、事前条件、または値順序を導入する必要がある。
この基準がユーザによって提供されず、あるいは利用可能な前提によって正当化されていなければ、その応答は幅広い選択理論的な意味でバイアスを受けることになる。
逆に、モデルが支持できない好みを避ける場合、正当性や非バイアスを保ちつつ、拒絶、ヘッジ、明確化を通じて実用性を低下させる可能性がある。
論文は、この正当性-非バイアス効用トリレンマを定式化し、例を開発し、LLMのある種の失敗は、モデル制限からではなく、未決定決定要求の構造から生じると論じている。
関連論文リスト
- Semantic Self-Distillation for Language Model Uncertainty [19.97226069762587]
軽量な学生モデルでは,言語モデルが応答トークンを生成する前に,迅速な条件付き不確実性を推定できることを示す。
この分布のエントロピーは、幻覚予測のための効果的な不確実性信号を提供し、確率密度は、候補回答を信頼性のために評価することを可能にする。
TriviaQAでは,学生モデルが幻覚予測のための有限サンプルセマンティック分散に適合あるいは優れ,ドメイン外応答検出のための強い信号を提供する。
論文 参考訳(メタデータ) (2026-02-04T14:03:28Z) - Non-Resolution Reasoning (NRR): A Computational Framework for Contextual Identity and Ambiguity Preservation [0.0]
現在の人工知能システムは、曖昧さを早期に解決する、基本的なアーキテクチャ上の限界を示す。
この早期のセマンティック崩壊は、標準的なニューラルネットワークに埋め込まれた古典的なアイデンティティの仮定に由来する。
あいまいさ保持を有効な推論モードとして扱う計算フレームワークであるNon-Resolution Reasoning (NRR)を提案する。
論文 参考訳(メタデータ) (2025-12-15T16:14:32Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - The Illusion of Certainty: Uncertainty quantification for LLMs fails under ambiguity [48.899855816199484]
そこで本研究では,第1の曖昧な質問応答(QA)データセットであるMAQA*とAmbigQA*を紹介する。
予測分布とアンサンブルに基づく推定器は、あいまいさの下では基本的に限定的であることを示す。
論文 参考訳(メタデータ) (2025-11-06T14:46:35Z) - Efficient semantic uncertainty quantification in language models via diversity-steered sampling [46.23327887393273]
本稿では,デコード中に意味的に冗長な出力を回避できるダイバーシティステアリング・サンプリング手法を提案する。
主要なアイデアは、モデルの提案分布に連続的な意味-類似性ペナルティを注入することである。
モジュラーであり、ベースLSMへの勾配アクセスを必要としないため、このフレームワークは不確実性評価のためのドロップインエンハンスメントとして機能することを約束している。
論文 参考訳(メタデータ) (2025-10-24T10:06:21Z) - SCOPE: Stochastic and Counterbiased Option Placement for Evaluating Large Language Models [0.27309692684728604]
大規模言語モデル(LLM)は、選択肢の位置やラベルに固有のバイアスを生かして、複数の選択タスクの膨らませたスコアを達成できる。
本研究では,データセットに依存しない方法で選択バイアスを計測・緩和するSCOPEを提案する。
論文 参考訳(メタデータ) (2025-07-24T08:28:17Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。