Fugu-MT 論文翻訳(概要): IBCB: Efficient Inverse Batched Contextual Bandit for Behavioral Evolution History

論文の概要: IBCB: Efficient Inverse Batched Contextual Bandit for Behavioral Evolution History

arxiv url: http://arxiv.org/abs/2403.16075v1
Date: Sun, 24 Mar 2024 09:33:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 17:45:31.995346
Title: IBCB: Efficient Inverse Batched Contextual Bandit for Behavioral Evolution History
Title（参考訳）: IBCB:行動進化史のための効率的な逆バッチ付きコンテキスト帯域
Authors: Yi Xu, Weiran Shen, Xiao Zhang, Jun Xu,
Abstract要約: 多くのストリーミングアプリケーションでは、オンライン意思決定者は意思決定プロセス中にオンライン学習に従事している。これは、経験豊富な専門家からのデータしか利用できない既存の模倣学習アプローチに新たな課題をもたらす。本稿では,環境報酬パラメータの推定を効率的に行うことができる逆バッチコンテキスト帯域幅フレームワークを提案する。
参考スコア（独自算出の注目度）: 18.775976461724472
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traditional imitation learning focuses on modeling the behavioral mechanisms of experts, which requires a large amount of interaction history generated by some fixed expert. However, in many streaming applications, such as streaming recommender systems, online decision-makers typically engage in online learning during the decision-making process, meaning that the interaction history generated by online decision-makers includes their behavioral evolution from novice expert to experienced expert. This poses a new challenge for existing imitation learning approaches that can only utilize data from experienced experts. To address this issue, this paper proposes an inverse batched contextual bandit (IBCB) framework that can efficiently perform estimations of environment reward parameters and learned policy based on the expert's behavioral evolution history. Specifically, IBCB formulates the inverse problem into a simple quadratic programming problem by utilizing the behavioral evolution history of the batched contextual bandit with inaccessible rewards. We demonstrate that IBCB is a unified framework for both deterministic and randomized bandit policies. The experimental results indicate that IBCB outperforms several existing imitation learning algorithms on synthetic and real-world data and significantly reduces running time. Additionally, empirical analyses reveal that IBCB exhibits better out-of-distribution generalization and is highly effective in learning the bandit policy from the interaction history of novice experts.
Abstract（参考訳）: 伝統的な模倣学習は、専門家の行動メカニズムをモデル化することに焦点を当てている。しかし、ストリーミングレコメンデータシステムのような多くのストリーミングアプリケーションでは、オンライン意思決定者が意思決定プロセス中にオンライン学習を行うのが一般的である。これは、経験豊富な専門家からのデータしか利用できない既存の模倣学習アプローチに新たな課題をもたらす。本稿では,環境報酬パラメータの推定と,専門家の行動進化史に基づく学習方針を効率的に行うことができる逆バッチコンテキスト帯域(IBCB)フレームワークを提案する。特に、IBCBは、バッチ化された文脈帯域の振る舞い進化履歴をアクセス不能な報酬で利用することにより、逆問題を単純な二次プログラミング問題に定式化する。 IBCBは決定主義とランダム化の両バンディット政策の統一的な枠組みであることを示す。実験結果から,IBCBは合成および実世界のデータ上で既存の模倣学習アルゴリズムよりも優れており,実行時間を大幅に短縮することが示された。さらに, 経験的分析により, IBCBは分布外一般化に優れており, 初心者専門家のインタラクション履歴からバンドイット政策の学習に極めて有効であることが明らかとなった。

関連論文リスト

Exploitation Over Exploration: Unmasking the Bias in Linear Bandit Recommender Offline Evaluation [0.8213829427624406]
Multi-Armed Bandit (MAB)アルゴリズムは、継続的な漸進的な学習を必要とするレコメンデーションシステムで広く使われている。本研究は、複数の線形MABの大規模なオフライン実験比較を行う。興味深いことに、さまざまなデータセットの90%以上にわたって、厳密な線形モデルであり、探索のタイプがないため、一貫してトップレベルのパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-24T19:14:39Z)
Behavioral Exploration: Learning to Explore via In-Context Adaptation [53.92981562916783]
我々は、過去の観察の文脈で条件付けられた専門家の行動を予測し、専門家の行動がこの文脈とどのように関係しているかを測定するために、長期コンテキスト生成モデルを訓練する。これにより、モデルが専門家の振る舞いを模倣するだけでなく、過去の相互作用の歴史を文脈に反映することで、これまで選択されたものと異なる専門家の振る舞いを選択することができる。本手法は実環境におけるロボット操作作業だけでなく,シミュレーションロコモーションと操作設定の両方において有効であることを示す。
論文参考訳（メタデータ） (2025-07-11T21:36:19Z)
Accurate Forgetting for Heterogeneous Federated Continual Learning [89.08735771893608]
提案手法は,フェデレーションネットワークにおける従来の知識を選択的に活用する新しい生成再生手法である。我々は,従来の知識の信頼性を定量化するために,正規化フローモデルに基づく確率的フレームワークを用いる。
論文参考訳（メタデータ） (2025-02-20T02:35:17Z)
Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。 Off-CMABは悲観的な報酬推定と解法を組み合わせる。合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文参考訳（メタデータ） (2025-01-31T16:56:18Z)
PageRank Bandits for Link Prediction [72.61386754332776]
リンク予測は、リコメンダシステムやナレッジグラフ補完といった幅広いアプリケーションを用いたグラフ学習において重要な問題である。本稿では,リンク予測を逐次的意思決定プロセスとして再構成し,各リンク予測インタラクションを逐次的に行う。本稿では,PageRankとコンテキスト的帯域を結合した新しい融合アルゴリズム PRB (PageRank Bandits) を提案する。
論文参考訳（メタデータ） (2024-11-03T02:39:28Z)
KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models [14.057527352653787]
本稿では,適応的な知識選択を実現することを目的とした,知識認識型参照最適化戦略であるKnowPOを提案する。 KnowPOは,従来の知識衝突処理手法を37%以上上回る性能を示した。
論文参考訳（メタデータ） (2024-08-06T16:55:54Z)
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文参考訳（メタデータ） (2024-07-02T10:09:19Z)
Overcoming Knowledge Barriers: Online Imitation Learning from Observation with Pretrained World Models [8.77288940968713]
本研究では,事前学習モデルによる観察からの模倣学習について検討し,BCOやAIMEといった既存手法が知識障壁に直面していることを明らかにする。 EKB(Embodiment Knowledge Barrier)とDKB(Demonstration Knowledge Barrier)は、その性能を大幅に制限している。 AIME-v2は、データ駆動型正規化システムとオンラインインタラクションを使用して、EKBを緩和し、ポリシートレーニングを強化するために代理報酬関数を導入することでDKBを緩和する。
論文参考訳（メタデータ） (2024-04-29T17:33:52Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Exploring the Limits of Historical Information for Temporal Knowledge Graph Extrapolation [59.417443739208146]
本稿では,歴史的コントラスト学習の新しい学習枠組みに基づくイベント予測モデルを提案する。 CENETは、最も潜在的なエンティティを識別するために、歴史的および非歴史的依存関係の両方を学ぶ。提案したモデルを5つのベンチマークグラフで評価する。
論文参考訳（メタデータ） (2023-08-29T03:26:38Z)
MEGA-DAgger: Imitation Learning with Multiple Imperfect Experts [7.4506213369860195]
MEGA-DAggerは、複数の不完全な専門家と対話的な学習に適した新しいDAgger亜種である。我々は,MEGA-DAggerを用いて学習したポリシーが,最先端のインタラクティブな模倣学習アルゴリズムを用いて学習した専門家と政策の両方より優れていることを実証した。
論文参考訳（メタデータ） (2023-03-01T16:40:54Z)
Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。 CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文参考訳（メタデータ） (2021-11-26T10:57:47Z)
Causal Reinforcement Learning using Observational and Interventional Data [14.856472820492364]
環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
論文参考訳（メタデータ） (2021-06-28T06:58:20Z)
Learning without Knowing: Unobserved Context in Continuous Transfer Reinforcement Learning [16.814772057210366]
連続状態と行動空間における伝達強化学習問題を、観測不能な文脈情報の下で検討する。我々のゴールは、コンテキスト認識の専門家データを使用して、学習者に最適なコンテキスト認識ポリシーを学習することである。
論文参考訳（メタデータ） (2021-06-07T17:49:22Z)
Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。 MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文参考訳（メタデータ） (2021-04-26T15:12:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。