論文の概要: The Silent Scholar Problem: A Probabilistic Framework for Breaking Epistemic Asymmetry in LLM Agents
- arxiv url: http://arxiv.org/abs/2512.20884v1
- Date: Wed, 24 Dec 2025 02:02:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.65163
- Title: The Silent Scholar Problem: A Probabilistic Framework for Breaking Epistemic Asymmetry in LLM Agents
- Title(参考訳): サイレント・スコラー問題:LLM剤の非対称性を破る確率的枠組み
- Authors: Zan-Kai Chong, Hiroyuki Ohsaki, Bryan Ng,
- Abstract要約: 本稿では,エージェントに双方向知識交換のための非構造的動機を与える形式的確率的枠組みを提案する。
これらの蓄積された信念状態が、人間フィードバックからの強化学習(RLHF)と監視ファインチューニング(SFT)のための高品質データフィルタの検証可能な報酬信号としてどのように機能するかを示す。
シミュレーションの結果、この不確実性駆動型戦略が異種環境におけるランダムベースラインを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 0.6117371161379209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents powered by LLMs and Retrieval-Augmented Generation (RAG) are proficient consumers of digital content but remain unidirectional, a limitation we term epistemic asymmetry. This isolation leads to redundant reasoning and stagnates collective intelligence. Current self-reflection frameworks remain largely heuristic and private, lacking a probabilistic foundation to quantify certainty or justify external interaction.To bridge this gap, we propose a formal probabilistic framework that provides agents with a non-altruistic motive for bidirectional knowledge exchange. We model an agent's belief in a proposition using a Beta-Bernoulli distribution with a forgetting factor ($γ$). This allows us to isolate epistemic uncertainty as the variance of belief, establishing a dual drive for interaction: A homeostatic motive: The need to maintain certainty against the temporal decay introduced by $γ$. An optimal learning strategy: Targeting points of maximum ambiguity ($\mathbb{E}[θ]=0.5$) to maximize information gain. Under this framework, public contribution is reframed as optimal active learning: sharing solutions to elicit feedback is the most efficient method for an agent to reduce its own uncertainty. To ensure scalability, we introduce epistemic caching, which leverages the forgetting factor to dynamically prioritize resources for the active head of non-stationary knowledge distributions. Finally, we demonstrate how these accumulated belief states serve as verifiable reward signals for Reinforcement Learning from Human Feedback (RLHF) and high-quality data filters for Supervised Fine-Tuning (SFT). Simulation results validate that this uncertainty-driven strategy significantly outperforms random baselines in heterogeneous (Zipfian) environments, maintaining high adaptability to concept drift.
- Abstract(参考訳): LLM(Retrieval-Augmented Generation)とRAG(Retrieval-Augmented Generation)を動力とする自律型エージェントは、デジタルコンテンツの熟練した消費者であるが、一方向であり続ける。
この分離は冗長な推論をもたらし、集団的な知性を停滞させる。
このギャップを埋めるために,我々は,エージェントに双方向知識交換の非構造的動機を与える形式的確率的枠組みを提案する。
エージェントの命題に対する信念をBeta-Bernoulli分布を用いてモデル化する(γ$)。
これにより、認識の不確実性を信念の分散として分離し、相互作用のための二重駆動を確立することができる: ホメオスタティックモチベーション:$γ$によって導入された時間的崩壊に対する確実性を維持する必要性。
最適学習戦略:情報ゲインを最大化するために最大曖昧点($\mathbb{E}[θ]=0.5$)を目標とする。
この枠組みの下では、パブリックコントリビューションは最適なアクティブラーニングとして再編成される: フィードバックを引き出すソリューションを共有することは、エージェントが自身の不確実性を減少させる最も効率的な方法である。
拡張性を確保するため,非定常知識分布のアクティブなヘッドのリソースを動的に優先順位付けするために,記憶因子を活用するててんかんキャッシングを導入する。
最後に、これらの蓄積された信念状態が、人間フィードバックからの強化学習(RLHF)や、監視ファインチューニング(SFT)のための高品質なデータフィルタに対する検証可能な報酬信号としてどのように機能するかを示す。
シミュレーションの結果、この不確実性駆動型戦略が異種(Zipfian)環境におけるランダムベースラインを著しく上回り、コンセプトドリフトへの高い適応性を維持することが検証された。
関連論文リスト
- LLM-Based Agentic Negotiation for 6G: Addressing Uncertainty Neglect and Tail-Event Risk [25.00990717105066]
本稿では,6Gネットワークにおけるエージェント交渉のためのリスク対応フレームワークを提案する。
エージェントの目的を平均の推論から尾の推論へとシフトさせ、最悪の場合の結果に対して統計的に座屈したバッファを構築する。
この信頼性は、わずかに省エネする合理的で定量的なコストを17%に抑え、偏りのあるアプローチの誤った経済を露呈することを示している。
論文 参考訳(メタデータ) (2025-11-24T14:36:11Z) - Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation [7.3923284353934875]
本稿では,大規模言語モデル(LLM)出力の正しさと密接に一致したRAGシステムにおける信頼度推定手法を提案する。
提案手法は、生のフィードフォワードネットワーク(FFN)を自己回帰信号として活用することにより、事前の不確実性定量化手法を拡張した。
我々の結果は、アクティベーションに基づく信頼度モデリングが、信頼性の高いRAGデプロイメントへのスケーラブルでアーキテクチャを意識したパスを提供することを示した。
論文 参考訳(メタデータ) (2025-10-15T16:55:56Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning [12.490614705930676]
本稿では,ベルマン目標計算によって得られたモンテカルロ試料数に対する準最適性の強い依存性を示す理論的結果を示す。
我々の主な貢献は、進行モーメントマッチングを利用するベルマン目標に対する決定論的近似である。
我々は,既存のモンテカルロサンプリング手法よりもMOMBOの準最適性について,より厳密な保証を提供することが可能であることを示す。
論文 参考訳(メタデータ) (2024-06-06T13:58:41Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Achieving Fairness in Multi-Agent Markov Decision Processes Using
Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。
このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2023-06-01T03:43:53Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。