Fugu-MT 論文翻訳(概要): Bob and Alice Go to a Bar: Reasoning About Future With Probabilistic Programs

論文の概要: Bob and Alice Go to a Bar: Reasoning About Future With Probabilistic Programs

arxiv url: http://arxiv.org/abs/2108.03834v1
Date: Mon, 9 Aug 2021 06:37:35 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-11 01:44:34.969994
Title: Bob and Alice Go to a Bar: Reasoning About Future With Probabilistic Programs
Title（参考訳）: bobとaliceがバーに行く:確率的プログラムで未来を推論する
Authors: David Tolpin and Tomer Dobkin
Abstract要約: 好みによる推論としてのプランニングは、エージェントの振る舞いを自然に記述する。ベイズ統計の堅固な基礎を用いたエージェントに関する推論は、好みを持つエージェントの背後にある形式主義である。
参考スコア（独自算出の注目度）: 0.11421942894219898
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agent preferences should be specified stochastically rather than deterministically. Planning as inference with stochastic preferences naturally describes agent behaviors, does not require introducing rewards and exponential weighing of behaviors, and allows to reason about agents using the solid foundation of Bayesian statistics. Stochastic conditioning is the formalism behind agents with stochastic preferences.
Abstract（参考訳）: エージェントの好みは決定論的ではなく、確率的に指定すべきである。確率的嗜好による推論としてのプランニングは、エージェントの振る舞いを自然に記述し、報酬の導入や行動の指数的重み付けを必要とせず、ベイズ統計の確固たる基礎を用いてエージェントを推論することができる。確率条件付けは確率的嗜好を持つエージェントの背後にある形式主義である。

関連論文リスト

Robust Planning for Autonomous Driving via Mixed Adversarial Diffusion Predictions [51.88828388720111]
本稿では、通常と逆のエージェント予測を混合した自律運転のロバストな計画手法について述べる。本研究では,実験時の拡散モデルに偏りを生じさせ,候補計画と衝突する可能性のある予測を生成することにより,逆予測の分布を生成する。本手法が単エージェントおよび多エージェントジェイウォーキングシナリオおよび赤信号違反シナリオに与える影響について述べる。
論文参考訳（メタデータ） (2025-05-18T09:44:57Z)
Partial Identifiability in Inverse Reinforcement Learning For Agents With Non-Exponential Discounting [64.13583792391783]
逆強化学習は、エージェントの振る舞いを観察することから、エージェントの好みを推測することを目的としている。 IRLの主な課題の1つは、複数の選好が同じ観察行動を引き起こす可能性があることである。一般にIRLは、正しい最適ポリシーを特定するのに、$R$に関する十分な情報を推測できないことを示す。
論文参考訳（メタデータ） (2024-12-15T11:08:58Z)
Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文参考訳（メタデータ） (2024-08-09T16:03:44Z)
Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。 DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文参考訳（メタデータ） (2024-05-29T17:39:48Z)
Model Predictive Control with Gaussian-Process-Supported Dynamical Constraints for Autonomous Vehicles [82.65261980827594]
本研究では、学習したガウス過程を利用して人間の運転行動を予測する自動運転車のモデル予測制御手法を提案する。マルチモード予測制御アプローチは、人間のドライバーの意図を考察する。
論文参考訳（メタデータ） (2023-03-08T17:14:57Z)
Decision-Making Among Bounded Rational Agents [5.24482648010213]
本稿では,情報理論の観点からの有界合理性の概念をゲーム理論の枠組みに導入する。これにより、ロボットは他のエージェントの準最適動作を推論し、計算上の制約の下で行動することができる。その結果,ロボットが他のエージェントの理性行動の異なるレベルを推論し,その計算制約の下で合理的な戦略を計算できることが実証された。
論文参考訳（メタデータ） (2022-10-17T00:29:24Z)
Explaining Reinforcement Learning Policies through Counterfactual Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文参考訳（メタデータ） (2022-01-29T00:52:37Z)
On the estimation of discrete choice models to capture irrational customer behaviors [4.683806391173103]
我々は、部分的にランク付けされた好みを使って、トランザクションデータから合理的で不合理な顧客タイプを効率的にモデル化する方法を示す。提案手法の予測精度を評価する実験を幅広く行った。
論文参考訳（メタデータ） (2021-09-08T19:19:51Z)
Incentivizing Compliance with Algorithmic Instruments [31.11365977878446]
本稿では,時間とともに変化する動的行動としてコンプライアンスを研究するゲーム理論モデルを提案する。本研究では,エージェントの行動選択にのみ影響する機器変数(IV)の形式として,プランナーの推薦を反映する新しい推薦機構を開発する。
論文参考訳（メタデータ） (2021-07-21T14:10:08Z)
Heterogeneous-Agent Trajectory Forecasting Incorporating Class Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文参考訳（メタデータ） (2021-04-26T10:28:34Z)
A General Framework for Distributed Inference with Uncertain Models [14.8884251609335]
異種エージェントのネットワークを用いた分散分類の問題について検討する。我々は、エージェントの不確実性を可能性に組み込む不確実性モデルの概念に基づいて構築する。
論文参考訳（メタデータ） (2020-11-20T22:17:12Z)
Bounded Incentives in Manipulating the Probabilistic Serial Rule [8.309903898123526]
確率的シリアルはインセンティブ互換ではない。戦略行動による実質的な実用性の向上は、自己関心のエージェントがメカニズムを操作するきっかけとなる。このメカニズムのインセンティブ比が$frac32$であることを示す。
論文参考訳（メタデータ） (2020-01-28T23:53:37Z)
Incentivizing Exploration with Selective Data Disclosure [70.11902902106014]
効率的な探索を促すレコメンデーションシステムを提案し設計する。エージェントは順次到着し、固定されたが未知のアクション固有の分布から引き出されたアクションを選択し、報酬を受け取る。フレキシブル・頻繁な行動モデルを用いた探索において,最適な後悔率が得られる。
論文参考訳（メタデータ） (2018-11-14T19:29:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。