論文の概要: Modeling Boundedly Rational Agents with Latent Inference Budgets
- arxiv url: http://arxiv.org/abs/2312.04030v1
- Date: Thu, 7 Dec 2023 03:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:19:16.981595
- Title: Modeling Boundedly Rational Agents with Latent Inference Budgets
- Title(参考訳): 潜在推論予算を用いた有界有理エージェントのモデル化
- Authors: Athul Paul Jacob, Abhishek Gupta, Jacob Andreas
- Abstract要約: エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(L-IBM)を導入する。
L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。
我々は,L-IBMが不確実性の下での意思決定のボルツマンモデルに適合しているか,あるいは上回っていることを示す。
- 参考スコア(独自算出の注目度): 56.24971011281947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of modeling a population of agents pursuing unknown
goals subject to unknown computational constraints. In standard models of
bounded rationality, sub-optimal decision-making is simulated by adding
homoscedastic noise to optimal decisions rather than explicitly simulating
constrained inference. In this work, we introduce a latent inference budget
model (L-IBM) that models agents' computational constraints explicitly, via a
latent variable (inferred jointly with a model of agents' goals) that controls
the runtime of an iterative inference algorithm. L-IBMs make it possible to
learn agent models using data from diverse populations of suboptimal actors. In
three modeling tasks -- inferring navigation goals from routes, inferring
communicative intents from human utterances, and predicting next moves in human
chess games -- we show that L-IBMs match or outperform Boltzmann models of
decision-making under uncertainty. Inferred inference budgets are themselves
meaningful, efficient to compute, and correlated with measures of player skill,
partner skill and task difficulty.
- Abstract(参考訳): 本研究では,未知の目標を追求するエージェント集団のモデル化の問題について検討する。
有界合理性の標準モデルでは、制約付き推論を明示的にシミュレートするのではなく、最適な決定にホモシデスティックノイズを加えることで、準最適決定をシミュレートする。
本研究では,反復推論アルゴリズムのランタイムを制御する潜在変数(エージェントの目標のモデルと共同で推測される)を介して,エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(l-ibm)を提案する。
L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。
3つのモデリングタスク -- ルートからのナビゲーション目標の推測、人間の発話からのコミュニケーション意図の推測、人間のチェスゲームにおける次の動きの予測 -- では、L-IBMが不確実性の下でボルツマンの意思決定モデルにマッチするか、上回っていることを示す。
推測推論予算は、それ自体が意味があり、計算に効率的であり、プレイヤースキル、パートナースキル、タスクの難しさの尺度と相関している。
関連論文リスト
- Learning-to-Defer for Extractive Question Answering [3.6787328174619254]
質問応答の文脈で言語モデルを再訓練することなく、人間の専門家や大規模モデルへの選択的推論を可能にすることにより、意思決定を強化する2段階の学習・判断機構を適応的に導入する。
その結果,最小限のクエリを遅延させることで,計算効率を保ちながら,より大規模なクエリに匹敵する性能を実現することができた。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Kullback-Leibler Barycentre of Stochastic Processes [0.0]
エージェントが様々な専門家のモデルに対する見解と洞察を組み合わせることを目的とした問題を考える。
バリセントモデルの存在と特異性を示し、ラドン-ニコディム微分の明示的な表現を証明する。
合成モデルの最適ドリフトを求めるために,2つのディープラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-05T20:45:27Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Deciding What to Model: Value-Equivalent Sampling for Reinforcement
Learning [21.931580762349096]
本稿では,エージェントが真のモデルの代わりにターゲットにできるような,ほぼ等価でロッキーな環境圧縮を計算するアルゴリズムを提案する。
有限水平, エピソディックな逐次決定問題を解くアルゴリズムに対して, 情報理論的, ベイズ的後悔を証明した。
論文 参考訳(メタデータ) (2022-06-04T23:36:38Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - MASSIVE: Tractable and Robust Bayesian Learning of Many-Dimensional
Instrumental Variable Models [8.271859911016719]
モデル不確実性を考慮した汎用的かつ効率的な因果推論アルゴリズムを提案する。
いくつかの候補が(近い)有効である限り、どの候補が先験的かを知ることなく、それらの集団が目標との相互作用に十分な制限を課し、信頼できる因果効果の推定を得る。
論文 参考訳(メタデータ) (2020-12-18T10:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。