論文の概要: Towards Agents That Know When They Don't Know: Uncertainty as a Control Signal for Structured Reasoning
- arxiv url: http://arxiv.org/abs/2509.02401v1
- Date: Tue, 02 Sep 2025 15:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.07549
- Title: Towards Agents That Know When They Don't Know: Uncertainty as a Control Signal for Structured Reasoning
- Title(参考訳): 知らないときを知るエージェントに向けて:構造的推論のための制御信号としての不確かさ
- Authors: Josefa Lia Stoisser, Marc Boubnovski Martell, Lawrence Phillips, Gianluca Mazzoni, Lea Mørch Harder, Philip Torr, Jesper Ferkinghoff-Borg, Kaspar Martens, Julien Fauqueur,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、構造化されたバイオメディカルデータ環境にますますデプロイされる。
クエリ条件付きマルチテーブル要約のための不確実性認識エージェントを提案する。
- 参考スコア(独自算出の注目度): 19.099363114326355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents are increasingly deployed in structured biomedical data environments, yet they often produce fluent but overconfident outputs when reasoning over complex multi-table data. We introduce an uncertainty-aware agent for query-conditioned multi-table summarization that leverages two complementary signals: (i) retrieval uncertainty--entropy over multiple table-selection rollouts--and (ii) summary uncertainty--combining self-consistency and perplexity. Summary uncertainty is incorporated into reinforcement learning (RL) with Group Relative Policy Optimization (GRPO), while both retrieval and summary uncertainty guide inference-time filtering and support the construction of higher-quality synthetic datasets. On multi-omics benchmarks, our approach improves factuality and calibration, nearly tripling correct and useful claims per summary (3.0\(\rightarrow\)8.4 internal; 3.6\(\rightarrow\)9.9 cancer multi-omics) and substantially improving downstream survival prediction (C-index 0.32\(\rightarrow\)0.63). These results demonstrate that uncertainty can serve as a control signal--enabling agents to abstain, communicate confidence, and become more reliable tools for complex structured-data environments.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、構造化されたバイオメディカルデータ環境にますますデプロイされるが、複雑なマルチテーブルデータを引き合いに出すと、流動的だが過度に信頼される出力を生成することが多い。
本稿では,2つの補完信号を利用するクエリ条件付きマルチテーブル要約のための不確実性認識エージェントを提案する。
(i)検索の不確実性--複数のテーブル選択ロールアウトにおけるエントロピー-
(II) 要約の不確実性-自己整合性と難易度を組み合わせること。
グループ相対政策最適化 (GRPO) による強化学習 (RL) に, 検索および要約不確実性ガイドの推論時間フィルタリングを併用し, 高品質な合成データセットの構築を支援する。
マルチオミクスベンチマークでは,本手法は事実とキャリブレーションを向上し,要約毎のクレーム(3.0\(\rightarrow\)8.4内部,3.6\(\rightarrow\)9.9がんマルチオミクス)をほぼ3倍にし,下流生存予測(C-index 0.32\(\rightarrow\)0.63)を大幅に改善する。
これらの結果から、不確実性は複雑な構造化データ環境のための制御信号伝達エージェントとして機能し、信頼性を保ち、より信頼性の高いツールとなることが示唆された。
関連論文リスト
- Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - Online Robust Multi-Agent Reinforcement Learning under Model Uncertainties [10.054572105379425]
十分に訓練されたマルチエージェントシステムは、実環境にデプロイされた時にフェールする可能性がある。
DRMGは、定義された環境不確実性のセットに対して最悪のケースパフォーマンスを最適化することで、システムのレジリエンスを高める。
本稿では、DRMGにおけるオンライン学習の先駆者であり、エージェントは事前データなしで環境相互作用から直接学習する。
論文 参考訳(メタデータ) (2025-08-04T23:14:32Z) - Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG [51.120170062795566]
本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。
DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
論文 参考訳(メタデータ) (2025-05-27T08:21:21Z) - Geometric Median Matching for Robust k-Subset Selection from Noisy Data [75.86423267723728]
最適分解点1/2のロバストな推定器であるGeometric Medianを利用する新しいk-subset選択法を提案する。
提案手法は, k-subset を反復的に選択し,部分集合の平均が(潜在的に)ノイズデータセットの GM に近似し,任意の汚損の下でもロバスト性を確保する。
論文 参考訳(メタデータ) (2025-04-01T09:22:05Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Disentangling Uncertainties by Learning Compressed Data Representation [2.959687944707463]
本稿では、データ分布のニューラルネットワーク符号化を学習し、出力分布からの直接サンプリングを可能にするフレームワークを提案する。
提案手法では,ランジュバンの動的サンプリングに基づく新しい推論手法を導入し,任意の出力分布をCDRMで予測する。
論文 参考訳(メタデータ) (2025-03-20T02:37:48Z) - Collective Reasoning Among LLMs: A Framework for Answer Validation Without Ground Truth [0.0]
いくつかの先進的な大規模言語モデルが複雑で博士レベルの確率問題を生成・解き出す新しいアプローチを導入する。
本研究は, 多様なモデル間の合意が, アウトプットの信頼性を如何に示すかに焦点を当てる。
論文 参考訳(メタデータ) (2025-02-28T06:20:52Z) - Learning from Noisy Labels via Conditional Distributionally Robust Optimization [5.85767711644773]
クラウドソーシングは、大規模なデータセットをラベル付けするための実用的なソリューションとして現れました。
これは、様々なレベルの専門知識を持つアノテータからのノイズの多いラベルによって、正確なモデルを学習する上で大きな課題となる。
論文 参考訳(メタデータ) (2024-11-26T05:03:26Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。