論文の概要: The Boltzmann Policy Distribution: Accounting for Systematic
Suboptimality in Human Models
- arxiv url: http://arxiv.org/abs/2204.10759v1
- Date: Fri, 22 Apr 2022 15:26:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 13:24:33.849594
- Title: The Boltzmann Policy Distribution: Accounting for Systematic
Suboptimality in Human Models
- Title(参考訳): ボルツマン政策分布:人間モデルにおける体系的準最適性の会計
- Authors: Cassidy Laidlaw and Anca Dragan
- Abstract要約: 本稿では,Boltzmann Policy Distribution(BPD)を紹介する。
BPDはベイズ推論を介して適応し、1回のエピソードで人間の行動を観察することで系統的な偏差を捉える。
我々は,BPDが人間行動の予測と人間-AI協調を可能にすると同時に,模倣学習に基づく人間モデルも可能であることを示す。
- 参考スコア(独自算出の注目度): 5.736353542430439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Models of human behavior for prediction and collaboration tend to fall into
two categories: ones that learn from large amounts of data via imitation
learning, and ones that assume human behavior to be noisily-optimal for some
reward function. The former are very useful, but only when it is possible to
gather a lot of human data in the target environment and distribution. The
advantage of the latter type, which includes Boltzmann rationality, is the
ability to make accurate predictions in new environments without extensive data
when humans are actually close to optimal. However, these models fail when
humans exhibit systematic suboptimality, i.e. when their deviations from
optimal behavior are not independent, but instead consistent over time. Our key
insight is that systematic suboptimality can be modeled by predicting policies,
which couple action choices over time, instead of trajectories. We introduce
the Boltzmann policy distribution (BPD), which serves as a prior over human
policies and adapts via Bayesian inference to capture systematic deviations by
observing human actions during a single episode. The BPD is difficult to
compute and represent because policies lie in a high-dimensional continuous
space, but we leverage tools from generative and sequence models to enable
efficient sampling and inference. We show that the BPD enables prediction of
human behavior and human-AI collaboration equally as well as imitation
learning-based human models while using far less data.
- Abstract(参考訳): 予測と協調のための人間の行動モデルは、模倣学習を通じて大量のデータから学習するモデルと、ある報酬関数に対して人間の行動が騒々しく最適であると仮定するモデルである。
前者は非常に有用だが、ターゲット環境と配信で大量の人間データを収集できる場合に限り、その前者は非常に有用である。
ボルツマン合理性を含む後者のタイプの利点は、人間が実際に最適に近いときに、広範囲のデータなしで新しい環境で正確な予測を行う能力である。
しかしながら、これらのモデルは、人間が体系的な準最適性を示す場合、すなわち、最適な行動からの逸脱が独立ではなく、時間とともに一貫したときに失敗する。
我々の重要な洞察は、系統的な準最適性は、軌跡ではなく、時間とともに行動選択を行うポリシーを予測することによってモデル化できるということです。
ボルツマン政策分布(boltzmann policy distribution,bpd)は、人間の政策を先取りし、ベイズ推論を通じて人間の行動を一つのエピソードで観察することで系統的偏差を捉える。
BPDは高次元連続空間にポリシーが存在するため計算が難しいが、生成モデルやシーケンスモデルからのツールを活用し、効率的なサンプリングと推論を可能にする。
我々は,BPDが人間行動の予測と人間とAIの協調を,はるかに少ないデータを用いて,模倣学習に基づく人間モデルと同等に行えることを示す。
関連論文リスト
- Inference-Time Policy Steering through Human Interactions [54.02655062969934]
推論中、人間はしばしばポリシー実行ループから取り除かれる。
本稿では,人間のインタラクションを活用して生成するサンプリングプロセスにバイアスを与える推論時ポリシーステアリングフレームワークを提案する。
提案手法は,アライメントと分布シフトの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-11-25T18:03:50Z) - How Aligned are Generative Models to Humans in High-Stakes Decision-Making? [10.225573060836478]
大規模生成モデル(LM)は、高い意思決定のためにますます検討されている。
この研究は、リシビズム予測の特定のケースにおいて、そのようなモデルが人間や予測AIモデルとどのように比較されるかを検討する。
論文 参考訳(メタデータ) (2024-10-20T19:00:59Z) - Ask Your Distribution Shift if Pre-Training is Right for You [74.18516460467019]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Human Trajectory Forecasting with Explainable Behavioral Uncertainty [63.62824628085961]
人間の軌道予測は人間の行動を理解し予測し、社会ロボットから自動運転車への応用を可能にする。
モデルフリー手法は予測精度が優れているが説明可能性に欠ける一方、モデルベース手法は説明可能性を提供するが、よく予測できない。
BNSP-SFMは,11種類の最先端手法と比較して,予測精度を最大50%向上することを示す。
論文 参考訳(メタデータ) (2023-07-04T16:45:21Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - Optimal Behavior Prior: Data-Efficient Human Models for Improved
Human-AI Collaboration [0.5524804393257919]
人間のモデルに最適な振る舞いを先行して使用すると、これらのモデルの方がはるかにデータ効率が良くなることを示す。
また、これらの改良された人間モデルを使用することで、人間とAIのコラボレーションのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-11-03T06:10:22Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - On complementing end-to-end human motion predictors with planning [31.025766804649464]
人間の運動予測のための高容量エンドツーエンドアプローチは、人間の行動における微妙なニュアンスを表現する能力を持つが、分布入力やテールイベントから外れた頑健さに苦しむ。
一方、計画ベースの予測は、適切な予測を確実に出力できます。
論文 参考訳(メタデータ) (2021-03-09T19:02:45Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。