論文の概要: IBCB: Efficient Inverse Batched Contextual Bandit for Behavioral Evolution History
- arxiv url: http://arxiv.org/abs/2403.16075v1
- Date: Sun, 24 Mar 2024 09:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 17:45:31.995346
- Title: IBCB: Efficient Inverse Batched Contextual Bandit for Behavioral Evolution History
- Title(参考訳): IBCB:行動進化史のための効率的な逆バッチ付きコンテキスト帯域
- Authors: Yi Xu, Weiran Shen, Xiao Zhang, Jun Xu,
- Abstract要約: 多くのストリーミングアプリケーションでは、オンライン意思決定者は意思決定プロセス中にオンライン学習に従事している。
これは、経験豊富な専門家からのデータしか利用できない既存の模倣学習アプローチに新たな課題をもたらす。
本稿では,環境報酬パラメータの推定を効率的に行うことができる逆バッチコンテキスト帯域幅フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.775976461724472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional imitation learning focuses on modeling the behavioral mechanisms of experts, which requires a large amount of interaction history generated by some fixed expert. However, in many streaming applications, such as streaming recommender systems, online decision-makers typically engage in online learning during the decision-making process, meaning that the interaction history generated by online decision-makers includes their behavioral evolution from novice expert to experienced expert. This poses a new challenge for existing imitation learning approaches that can only utilize data from experienced experts. To address this issue, this paper proposes an inverse batched contextual bandit (IBCB) framework that can efficiently perform estimations of environment reward parameters and learned policy based on the expert's behavioral evolution history. Specifically, IBCB formulates the inverse problem into a simple quadratic programming problem by utilizing the behavioral evolution history of the batched contextual bandit with inaccessible rewards. We demonstrate that IBCB is a unified framework for both deterministic and randomized bandit policies. The experimental results indicate that IBCB outperforms several existing imitation learning algorithms on synthetic and real-world data and significantly reduces running time. Additionally, empirical analyses reveal that IBCB exhibits better out-of-distribution generalization and is highly effective in learning the bandit policy from the interaction history of novice experts.
- Abstract(参考訳): 伝統的な模倣学習は、専門家の行動メカニズムをモデル化することに焦点を当てている。
しかし、ストリーミングレコメンデータシステムのような多くのストリーミングアプリケーションでは、オンライン意思決定者が意思決定プロセス中にオンライン学習を行うのが一般的である。
これは、経験豊富な専門家からのデータしか利用できない既存の模倣学習アプローチに新たな課題をもたらす。
本稿では,環境報酬パラメータの推定と,専門家の行動進化史に基づく学習方針を効率的に行うことができる逆バッチコンテキスト帯域(IBCB)フレームワークを提案する。
特に、IBCBは、バッチ化された文脈帯域の振る舞い進化履歴をアクセス不能な報酬で利用することにより、逆問題を単純な二次プログラミング問題に定式化する。
IBCBは決定主義とランダム化の両バンディット政策の統一的な枠組みであることを示す。
実験結果から,IBCBは合成および実世界のデータ上で既存の模倣学習アルゴリズムよりも優れており,実行時間を大幅に短縮することが示された。
さらに, 経験的分析により, IBCBは分布外一般化に優れており, 初心者専門家のインタラクション履歴からバンドイット政策の学習に極めて有効であることが明らかとなった。
関連論文リスト
- Overcoming Knowledge Barriers: Online Imitation Learning from Observation with Pretrained World Models [8.77288940968713]
本研究では,事前学習モデルによる観察からの模倣学習について検討し,BCOやAIMEといった既存手法が知識障壁に直面していることを明らかにする。
EKB(Embodiment Knowledge Barrier)とDKB(Demonstration Knowledge Barrier)は、その性能を大幅に制限している。
AIME-v2は、データ駆動型正規化システムとオンラインインタラクションを使用して、EKBを緩和し、ポリシートレーニングを強化するために代理報酬関数を導入することでDKBを緩和する。
論文 参考訳(メタデータ) (2024-04-29T17:33:52Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Exploring the Limits of Historical Information for Temporal Knowledge
Graph Extrapolation [59.417443739208146]
本稿では,歴史的コントラスト学習の新しい学習枠組みに基づくイベント予測モデルを提案する。
CENETは、最も潜在的なエンティティを識別するために、歴史的および非歴史的依存関係の両方を学ぶ。
提案したモデルを5つのベンチマークグラフで評価する。
論文 参考訳(メタデータ) (2023-08-29T03:26:38Z) - MEGA-DAgger: Imitation Learning with Multiple Imperfect Experts [7.4506213369860195]
MEGA-DAggerは、複数の不完全な専門家と対話的な学習に適した新しいDAgger亜種である。
我々は,MEGA-DAggerを用いて学習したポリシーが,最先端のインタラクティブな模倣学習アルゴリズムを用いて学習した専門家と政策の両方より優れていることを実証した。
論文 参考訳(メタデータ) (2023-03-01T16:40:54Z) - Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。
CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。
我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文 参考訳(メタデータ) (2021-11-26T10:57:47Z) - Causal Reinforcement Learning using Observational and Interventional
Data [14.856472820492364]
環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。
学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。
オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
論文 参考訳(メタデータ) (2021-06-28T06:58:20Z) - Online Learning with Uncertain Feedback Graphs [12.805267089186533]
専門家間の関係をフィードバックグラフで把握し、学習者の意思決定を支援する。
実際には、名目上のフィードバックグラフはしばしば不確実性を伴うため、専門家間の実際の関係を明らかにすることは不可能である。
本研究は、潜在的な不確実性の諸事例を考察し、それらを扱うための新しいオンライン学習アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-15T21:21:30Z) - Learning without Knowing: Unobserved Context in Continuous Transfer
Reinforcement Learning [16.814772057210366]
連続状態と行動空間における伝達強化学習問題を、観測不能な文脈情報の下で検討する。
我々のゴールは、コンテキスト認識の専門家データを使用して、学習者に最適なコンテキスト認識ポリシーを学習することである。
論文 参考訳(メタデータ) (2021-06-07T17:49:22Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [89.01584399789951]
歴史的専門家の意思決定を豊富な情報源として利用することを検討します。
観察されたラベルだけで学習する制限を緩和するために活用できることを示しています。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。