論文の概要: Epistemic Uncertainty for Test-Time Discovery
- arxiv url: http://arxiv.org/abs/2605.11328v1
- Date: Mon, 11 May 2026 23:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.476985
- Title: Epistemic Uncertainty for Test-Time Discovery
- Title(参考訳): テスト時間発見のための疫学的不確実性
- Authors: Kainat Riaz, Muhammad Ahmed Mohsin, Ahsan Bilal, Muhammad Umer, Ayesha Mohsin, Aqib Riaz, Ali Subhan, John M. Cioffi,
- Abstract要約: 大規模言語モデルを用いた科学的発見の自動化は、真に新しい解決策を特定することに依存している。
この制限を克服するには、探索されていない領域を本質的に困難な問題と区別する信号が必要である。
UG-TTTはこの課題に対処し、冷凍ベースモデル上で低ランクアダプタの小さなアンサンブルを維持する。
- 参考スコア(独自算出の注目度): 7.45378003246326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated scientific discovery using large language models relies on identifying genuinely novel solutions. Standard reinforcement learning penalizes high-variance mutations, which leads the policy to prioritize familiar patterns. As a result, the maximum reward plateaus even as the average reward increases. Overcoming this limitation requires a signal that distinguishes unexplored regions from intrinsically difficult problems. This necessitates measuring disagreement across independently adapted weight hypotheses rather than relying on a single network's confidence. UG-TTT addresses this challenge by maintaining a small ensemble of low-rank adapters over a frozen base model. The per-token disagreement, quantified as the mutual information between ensemble predictions and weight hypotheses, isolates epistemic uncertainty and identifies positions where insufficient coverage leads to adapter divergence rather than intrinsic problem difficulty. This measure is incorporated as an exploration bonus into the policy gradient, directing the policy toward positions where persistent adapter disagreement signals low training coverage, the same frontier where genuine discovery is possible. A nuclear norm regularizer ensures the adapters remain distinct from one another, thereby preserving the exploration signal throughout training. Across four scientific discovery benchmarks, UG-TTT increases the maximum reward on three tasks, maintains substantially higher solution diversity, and an ablation study confirms that the regularizer is essential for sustaining this behavior.
- Abstract(参考訳): 大規模言語モデルを用いた科学的発見の自動化は、真に新しい解決策を特定することに依存している。
標準的な強化学習は、多変量変異を罰し、親しみやすいパターンを優先順位付けする方針を導いた。
その結果、平均報酬が増大しても最大報酬高原が増大する。
この制限を克服するには、探索されていない領域を本質的に困難な問題と区別する信号が必要である。
これは、単一のネットワークの信頼性に頼るのではなく、独立に適応した重み付け仮説間の不一致を測定する必要がある。
UG-TTTはこの課題に対処し、冷凍ベースモデル上で低ランクアダプタの小さなアンサンブルを維持する。
アンサンブル予測と重み仮説の相互情報として定量化され、疫学的な不確実性を分離し、カバー不足が本質的な問題よりもアダプタの発散につながる位置を特定する。
この措置は、ポリシー勾配への探索ボーナスとして組み込まれ、永続的なアダプタの不一致がトレーニングカバレッジの低い位置にポリシーを向ける。
核ノルム正規化器は、アダプタが互いに異なるままであることを保証する。
4つの科学的発見ベンチマークにおいて、UG-TTTは3つのタスクに対する最大報酬を増大させ、解の多様性を著しく高く維持する。
関連論文リスト
- Uncertainty Estimation via Hyperspherical Confidence Mapping [7.467483743345029]
ニューラルネットワークの予測の不確実性を定量化することは、自律運転、ヘルスケア、製造といった高度な領域にとって不可欠である。
本研究では,サンプリングフリーかつ分散フリーな不確実性推定のための原則的フレームワークである超球面信頼度マッピングを提案する。
多様なベンチマークや実世界の産業タスクによる実験は、HCMがアンサンブルや明白なアプローチと一致しているか、あるいは超えていることを示している。
論文 参考訳(メタデータ) (2026-05-07T10:11:01Z) - Towards Trustworthy Depression Estimation via Disentangled Evidential Learning [50.22167852149165]
EviDepはうつ病の重症度を共同で定量化する明らかな学習フレームワークである。
EviDepは、堅牢な証拠合成を保証するために厳密な情報整合性を強制する。
最先端の予測精度と優れた不確実性校正を実現し、信頼できる臨床スクリーニングのための堅牢なフェールセーフメカニズムを提供する。
論文 参考訳(メタデータ) (2026-04-17T13:27:11Z) - Probabilistic Feature Imputation and Uncertainty-Aware Multimodal Federated Aggregation [0.2283362795949404]
Probabilistic Feature Imputation Network は不確実性推定をインプット特徴とともに生成する。
CheXpert,NIH Open-I,PadChestを用いた人工胸部X線分類実験は決定論的基準線よりも一貫した改善を示した。
論文 参考訳(メタデータ) (2026-04-14T17:03:14Z) - Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination [60.197429875410286]
大規模言語モデルにおける視覚と幻覚の対立的脆弱性は、伝統的に別の問題と見なされている。
損失誘起状態下でのニューラル不確実性原理(NUP)の定式化により, ほぼバウンド状態においては, さらなる圧縮は感度分散の増大を伴うことが判明した。
視覚では、高度に結合したコンポーネントをマスキングすることで、コストのかかる敵の訓練なしに堅牢性を向上させる。
言語では、任意の応答トークンを生成する前に、同じプレフィルステージプローブが幻覚リスクを検出する。
論文 参考訳(メタデータ) (2026-03-20T02:07:10Z) - Discovering Causal Relationships using Proxy Variables under Unmeasured Confounding [42.70985072862832]
観測研究における変数ペア間の因果関係の推測は極めて重要であるが,困難である。
我々は,不測の共同設立者の下で因果仮説をテストするために,離散的かつ連続的な設定を両立する一般的な非パラメトリックアプローチを開発する。
Intensive Care Data and World Values Surveyの広範囲なシミュレーションと実世界データによるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-10-20T05:13:12Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Alpha-VI DeepONet: A prior-robust variational Bayesian approach for enhancing DeepONets with uncertainty quantification [0.0]
一般化変分推論(GVI)を組み込んだ新しいディープオペレータネットワーク(DeepONet)を提案する。
分岐ネットワークとトランクネットワークのビルディングブロックとしてベイズニューラルネットワークを組み込むことで,不確実な定量化が可能なDeepONetを実現する。
変動目的関数の修正は平均二乗誤差を最小化する点で優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-01T16:22:03Z) - Suppress and Rebalance: Towards Generalized Multi-Modal Face
Anti-Spoofing [26.901402236963374]
Face Anti-Spoofing (FAS) は、顔認証システムのプレゼンテーション攻撃に対する保護に不可欠である。
多くのマルチモーダルなFASアプローチが出現しているが、見当たらない攻撃や展開条件を一般化する上での課題に直面している。
論文 参考訳(メタデータ) (2024-02-29T16:06:36Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。