論文の概要: IBCB: Efficient Inverse Batched Contextual Bandit for Behavioral Evolution History
- arxiv url: http://arxiv.org/abs/2403.16075v1
- Date: Sun, 24 Mar 2024 09:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 17:45:31.995346
- Title: IBCB: Efficient Inverse Batched Contextual Bandit for Behavioral Evolution History
- Title(参考訳): IBCB:行動進化史のための効率的な逆バッチ付きコンテキスト帯域
- Authors: Yi Xu, Weiran Shen, Xiao Zhang, Jun Xu,
- Abstract要約: 多くのストリーミングアプリケーションでは、オンライン意思決定者は意思決定プロセス中にオンライン学習に従事している。
これは、経験豊富な専門家からのデータしか利用できない既存の模倣学習アプローチに新たな課題をもたらす。
本稿では,環境報酬パラメータの推定を効率的に行うことができる逆バッチコンテキスト帯域幅フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.775976461724472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional imitation learning focuses on modeling the behavioral mechanisms of experts, which requires a large amount of interaction history generated by some fixed expert. However, in many streaming applications, such as streaming recommender systems, online decision-makers typically engage in online learning during the decision-making process, meaning that the interaction history generated by online decision-makers includes their behavioral evolution from novice expert to experienced expert. This poses a new challenge for existing imitation learning approaches that can only utilize data from experienced experts. To address this issue, this paper proposes an inverse batched contextual bandit (IBCB) framework that can efficiently perform estimations of environment reward parameters and learned policy based on the expert's behavioral evolution history. Specifically, IBCB formulates the inverse problem into a simple quadratic programming problem by utilizing the behavioral evolution history of the batched contextual bandit with inaccessible rewards. We demonstrate that IBCB is a unified framework for both deterministic and randomized bandit policies. The experimental results indicate that IBCB outperforms several existing imitation learning algorithms on synthetic and real-world data and significantly reduces running time. Additionally, empirical analyses reveal that IBCB exhibits better out-of-distribution generalization and is highly effective in learning the bandit policy from the interaction history of novice experts.
- Abstract(参考訳): 伝統的な模倣学習は、専門家の行動メカニズムをモデル化することに焦点を当てている。
しかし、ストリーミングレコメンデータシステムのような多くのストリーミングアプリケーションでは、オンライン意思決定者が意思決定プロセス中にオンライン学習を行うのが一般的である。
これは、経験豊富な専門家からのデータしか利用できない既存の模倣学習アプローチに新たな課題をもたらす。
本稿では,環境報酬パラメータの推定と,専門家の行動進化史に基づく学習方針を効率的に行うことができる逆バッチコンテキスト帯域(IBCB)フレームワークを提案する。
特に、IBCBは、バッチ化された文脈帯域の振る舞い進化履歴をアクセス不能な報酬で利用することにより、逆問題を単純な二次プログラミング問題に定式化する。
IBCBは決定主義とランダム化の両バンディット政策の統一的な枠組みであることを示す。
実験結果から,IBCBは合成および実世界のデータ上で既存の模倣学習アルゴリズムよりも優れており,実行時間を大幅に短縮することが示された。
さらに, 経験的分析により, IBCBは分布外一般化に優れており, 初心者専門家のインタラクション履歴からバンドイット政策の学習に極めて有効であることが明らかとなった。
関連論文リスト
- PageRank Bandits for Link Prediction [72.61386754332776]
リンク予測は、リコメンダシステムやナレッジグラフ補完といった幅広いアプリケーションを用いたグラフ学習において重要な問題である。
本稿では,リンク予測を逐次的意思決定プロセスとして再構成し,各リンク予測インタラクションを逐次的に行う。
本稿では,PageRankとコンテキスト的帯域を結合した新しい融合アルゴリズム PRB (PageRank Bandits) を提案する。
論文 参考訳(メタデータ) (2024-11-03T02:39:28Z) - KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models [14.057527352653787]
本稿では,適応的な知識選択を実現することを目的とした,知識認識型参照最適化戦略であるKnowPOを提案する。
KnowPOは,従来の知識衝突処理手法を37%以上上回る性能を示した。
論文 参考訳(メタデータ) (2024-08-06T16:55:54Z) - Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。
提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2024-07-02T10:09:19Z) - Overcoming Knowledge Barriers: Online Imitation Learning from Observation with Pretrained World Models [8.77288940968713]
本研究では,事前学習モデルによる観察からの模倣学習について検討し,BCOやAIMEといった既存手法が知識障壁に直面していることを明らかにする。
EKB(Embodiment Knowledge Barrier)とDKB(Demonstration Knowledge Barrier)は、その性能を大幅に制限している。
AIME-v2は、データ駆動型正規化システムとオンラインインタラクションを使用して、EKBを緩和し、ポリシートレーニングを強化するために代理報酬関数を導入することでDKBを緩和する。
論文 参考訳(メタデータ) (2024-04-29T17:33:52Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Exploring the Limits of Historical Information for Temporal Knowledge
Graph Extrapolation [59.417443739208146]
本稿では,歴史的コントラスト学習の新しい学習枠組みに基づくイベント予測モデルを提案する。
CENETは、最も潜在的なエンティティを識別するために、歴史的および非歴史的依存関係の両方を学ぶ。
提案したモデルを5つのベンチマークグラフで評価する。
論文 参考訳(メタデータ) (2023-08-29T03:26:38Z) - MEGA-DAgger: Imitation Learning with Multiple Imperfect Experts [7.4506213369860195]
MEGA-DAggerは、複数の不完全な専門家と対話的な学習に適した新しいDAgger亜種である。
我々は,MEGA-DAggerを用いて学習したポリシーが,最先端のインタラクティブな模倣学習アルゴリズムを用いて学習した専門家と政策の両方より優れていることを実証した。
論文 参考訳(メタデータ) (2023-03-01T16:40:54Z) - Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。
CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。
我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文 参考訳(メタデータ) (2021-11-26T10:57:47Z) - Causal Reinforcement Learning using Observational and Interventional
Data [14.856472820492364]
環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。
学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。
オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
論文 参考訳(メタデータ) (2021-06-28T06:58:20Z) - Learning without Knowing: Unobserved Context in Continuous Transfer
Reinforcement Learning [16.814772057210366]
連続状態と行動空間における伝達強化学習問題を、観測不能な文脈情報の下で検討する。
我々のゴールは、コンテキスト認識の専門家データを使用して、学習者に最適なコンテキスト認識ポリシーを学習することである。
論文 参考訳(メタデータ) (2021-06-07T17:49:22Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。