論文の概要: Bayesian Decision Making around Experts
- arxiv url: http://arxiv.org/abs/2510.08113v1
- Date: Thu, 09 Oct 2025 11:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.049858
- Title: Bayesian Decision Making around Experts
- Title(参考訳): 専門家を取り巻くベイズ的意思決定
- Authors: Daniel Jarne Ornia, Joel Dyer, Nicholas Bishop, Anisoara Calinescu, Michael Wooldridge,
- Abstract要約: 我々は、専門家データが学習者の後部に与える影響を定式化し、専門家の成果に対する事前学習が情報理論的後悔の境界を締め付けることを証明した。
専門家データの価値を定量化することにより、我々のフレームワークはエージェントがいつ他人から学ぶべきかをインテリジェントに決定するための実践的で情報理論的なアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 3.1764800782234297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex learning agents are increasingly deployed alongside existing experts, such as human operators or previously trained agents. However, it remains unclear how should learners optimally incorporate certain forms of expert data, which may differ in structure from the learner's own action-outcome experiences. We study this problem in the context of Bayesian multi-armed bandits, considering: (i) offline settings, where the learner receives a dataset of outcomes from the expert's optimal policy before interaction, and (ii) simultaneous settings, where the learner must choose at each step whether to update its beliefs based on its own experience, or based on the outcome simultaneously achieved by an expert. We formalize how expert data influences the learner's posterior, and prove that pretraining on expert outcomes tightens information-theoretic regret bounds by the mutual information between the expert data and the optimal action. For the simultaneous setting, we propose an information-directed rule where the learner processes the data source that maximizes their one-step information gain about the optimal action. Finally, we propose strategies for how the learner can infer when to trust the expert and when not to, safeguarding the learner for the cases where the expert is ineffective or compromised. By quantifying the value of expert data, our framework provides practical, information-theoretic algorithms for agents to intelligently decide when to learn from others.
- Abstract(参考訳): 複雑な学習エージェントは、人間のオペレータや以前に訓練されたエージェントなど、既存の専門家と共にデプロイされることが多い。
しかし,学習者は,学習者自身の行動アウトカム体験と構造が異なる可能性のある,ある種の専門家データをどのように最適に取り入れるべきかは定かではない。
ベイジアン多武装バンディットの文脈におけるこの問題について考察する。
(i)オフライン設定では、学習者が対話前に専門家の最適方針から結果のデータセットを受信し、
二 学習者は、自身の経験に基づいて信念を更新するか、専門家が同時に達成した結果に基づいて、各ステップで選択しなければならない。
専門家データがどのように学習者の後部に与える影響を定式化し、専門家データと最適な行動との相互情報による情報理論的後悔境界の強化を証明した。
同時に,学習者がデータソースを処理し,最適な行動に関する情報を最大化するための情報指向ルールを提案する。
最後に,学習者が専門家を信頼すべき時期とそうでない時期を推測し,専門家が効果がない場合や妥協した場合の学習者の保護策を提案する。
専門家データの価値を定量化することにより、我々のフレームワークはエージェントがいつ他人から学ぶべきかをインテリジェントに決定するための実践的で情報理論的なアルゴリズムを提供する。
関連論文リスト
- Learning to Defer for Causal Discovery with Imperfect Experts [59.071731337922664]
L2D-CDは、専門家の推薦の正しさを測り、データ駆動因果発見結果と最適に組み合わせる手法である。
我々は,標準T"ubingenペアデータセット上でL2D-CDを評価し,因果探索法と分離に用いる専門家の双方と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-02-18T18:55:53Z) - Learning More Generalized Experts by Merging Experts in Mixture-of-Experts [0.5221459608786241]
共有層をエキスパートの混合体に組み込むことで性能が低下する可能性があることを示す。
2つの最も頻度の高い専門家を合併し、最も頻度の低い専門家を専門家の組み合わせを使って更新します。
本アルゴリズムは,多領域タスクインクリメンタル学習に適用した場合に,伝達学習を強化し,破滅的な忘れを緩和する。
論文 参考訳(メタデータ) (2024-05-19T11:55:48Z) - Defining Expertise: Applications to Treatment Effect Estimation [58.7977683502207]
専門知識(特にドメインの意思決定者が持つであろう専門知識の種類)は、治療効果の推定方法の設計と選択において有益である、と我々は主張する。
予測的および予測的2種類の専門知識を定義し,(i)ドメインにおける顕著な専門知識のタイプが治療効果推定における異なる手法の性能に大きく影響し,(ii)データセットに存在する専門知識のタイプを予測することが可能であることを実証的に示す。
論文 参考訳(メタデータ) (2024-03-01T17:30:49Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Causal Discovery with Language Models as Imperfect Experts [119.22928856942292]
専門知識を用いて因果グラフの同定を改善する方法について検討する。
整合性に基づく専門家の知識を改良するための戦略を提案する。
本稿では,不完全な専門家として大規模言語モデルを用いる実データを用いたケーススタディについて報告する。
論文 参考訳(メタデータ) (2023-07-05T16:01:38Z) - A Machine Learning Framework Towards Transparency in Experts' Decision
Quality [0.0]
多くの重要な設定において、専門家の意思決定の質の透明性は、専門家の判断を評価するための根拠となる真理のデータがコストが高く、限られた一連の決定のためにのみ利用できるため、めったに不可能である。
まず、この設定で専門家の判断精度を推定し、それに対応するための機械学習ベースのフレームワークを開発するという問題を定式化する。
本手法は, 労働者の過去の意思決定に関する豊富な歴史的データと, 根拠となる真理情報による意思決定事例の不足を効果的に活用する。
論文 参考訳(メタデータ) (2021-10-21T18:50:40Z) - Online Learning with Uncertain Feedback Graphs [12.805267089186533]
専門家間の関係をフィードバックグラフで把握し、学習者の意思決定を支援する。
実際には、名目上のフィードバックグラフはしばしば不確実性を伴うため、専門家間の実際の関係を明らかにすることは不可能である。
本研究は、潜在的な不確実性の諸事例を考察し、それらを扱うための新しいオンライン学習アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-15T21:21:30Z) - Learning without Knowing: Unobserved Context in Continuous Transfer
Reinforcement Learning [16.814772057210366]
連続状態と行動空間における伝達強化学習問題を、観測不能な文脈情報の下で検討する。
我々のゴールは、コンテキスト認識の専門家データを使用して、学習者に最適なコンテキスト認識ポリシーを学習することである。
論文 参考訳(メタデータ) (2021-06-07T17:49:22Z) - Decision Rule Elicitation for Domain Adaptation [93.02675868486932]
ヒトインザループ機械学習は、専門家からラベルを引き出すために人工知能(AI)で広く使用されています。
この作業では、専門家が意思決定を説明する決定ルールを作成できるようにします。
決定規則の適用はアルゴリズムのドメイン適応を改善し、専門家の知識をAIモデルに広めるのに役立つことを示す。
論文 参考訳(メタデータ) (2021-02-23T08:07:22Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。