論文の概要: Epistemic Filtering and Collective Hallucination: A Jury Theorem for Confidence-Calibrated Agents
- arxiv url: http://arxiv.org/abs/2602.22413v1
- Date: Wed, 25 Feb 2026 21:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.410521
- Title: Epistemic Filtering and Collective Hallucination: A Jury Theorem for Confidence-Calibrated Agents
- Title(参考訳): てんかん濾過と集団幻覚 : 信頼性評価剤の審査理論
- Authors: Jonas Karge,
- Abstract要約: 本研究では、時間とともに自己の信頼性を推定し、投票を選択的に控える異種エージェントの集合的精度について検討する。
古典的な投票結果は固定的な参加を前提としているが、現実の集約はしばしば、エージェントが私が知らないと言うことの恩恵を受ける。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the collective accuracy of heterogeneous agents who learn to estimate their own reliability over time and selectively abstain from voting. While classical epistemic voting results, such as the \textit{Condorcet Jury Theorem} (CJT), assume fixed participation, real-world aggregation often benefits from allowing agents to say ``I don't know.'' We propose a probabilistic framework where agents engage in a \textit{calibration} phase, updating beliefs about their own fixed competence, before facing a final confidence gate that determines whether to vote or abstain. We derive a non-asymptotic lower bound on the group's success probability and prove that this \textit{selective participation} generalizes the asymptotic guarantees of the CJT to a sequential, confidence-gated setting. Empirically, we validate these bounds via Monte Carlo simulations. While our results are general, we discuss their potential application to AI safety, outlining how this framework can mitigate \textit{hallucinations} in collective LLM decision-making.
- Abstract(参考訳): 本研究では、時間とともに自己の信頼性を推定し、投票を選択的に控える異種エージェントの集合的精度について検討する。
古典的な疫学投票の結果、例えば『textit{Condorcet Jury Theorem}』(CJT)は、一定の参加を前提としているが、現実世界の集約はエージェントが『私は知らない』と言うことの恩恵を受けることが多い。
そこで我々は,エージェントが‘textit{calibration} フェーズを遂行し,自身の一定の能力に関する信念を更新し,投票か棄権かを決定する最終的な信頼ゲートに直面する確率的枠組みを提案する。
我々は、群の成功確率の漸近的でない下界を導出し、この \textit{selective participation} が CJT の漸近的保証を逐次的かつ自信に満ちた設定に一般化することを証明する。
経験的に、これらの境界はモンテカルロシミュレーションを用いて検証する。
我々の結果は一般論であるが、AIの安全性に対する潜在的な応用について論じ、このフレームワークが全体的LCM意思決定においてtextit{hallucinations}を緩和する方法について概説する。
関連論文リスト
- Active Epistemic Control for Query-Efficient Verified Planning [1.8055130471307603]
モデルに基づく信念管理とカテゴリー的可能性チェックを統合した計画層である textbfActive Epistemic Control (AEC) を提案する。
AECは、コミットメントに使用されるアンフグラウンドのファクトストアと、候補プランの刈り取りにのみ使用されるエンフベーリフストアとを厳格に分離している。
論文 参考訳(メタデータ) (2026-02-03T19:51:10Z) - Chance-Constrained Inference for Hallucination Risk Control in Large Language Models [0.0]
大規模な言語モデルは、事実の幻覚を含む、流動的だが無効な応答を生成する。
デプロイメント時のリスク管理問題として推論を定式化する。
信頼性に基づく選択予測は一般に確率論的リスク保証を示唆しないことを示す。
論文 参考訳(メタデータ) (2026-02-02T04:51:47Z) - The Silent Scholar Problem: A Probabilistic Framework for Breaking Epistemic Asymmetry in LLM Agents [0.6117371161379209]
本稿では,エージェントに双方向知識交換のための非構造的動機を与える形式的確率的枠組みを提案する。
これらの蓄積された信念状態が、人間フィードバックからの強化学習(RLHF)と監視ファインチューニング(SFT)のための高品質データフィルタの検証可能な報酬信号としてどのように機能するかを示す。
シミュレーションの結果、この不確実性駆動型戦略が異種環境におけるランダムベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-12-24T02:02:25Z) - A Framework for Bounding Deterministic Risk with PAC-Bayes: Applications to Majority Votes [4.664367264604233]
PAC-Bayes は、非可算仮説空間における一般化保証を得るための一般的なフレームワークである。
本研究では,PAC-ベイジアン保証から単一仮説の保持する保証を抽出する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2025-10-29T14:38:35Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences
with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。
本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文 参考訳(メタデータ) (2022-12-29T18:37:08Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。