論文の概要: APC-RL: Exceeding Data-Driven Behavior Priors with Adaptive Policy Composition
- arxiv url: http://arxiv.org/abs/2601.19452v1
- Date: Tue, 27 Jan 2026 10:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.288481
- Title: APC-RL: Exceeding Data-Driven Behavior Priors with Adaptive Policy Composition
- Title(参考訳): APC-RL: 適応的ポリシー構成によるデータ駆動行動の事前実行
- Authors: Finn Rietz, Pedro Zuidberg dos Martires, Johannes Andreas Stork,
- Abstract要約: 本稿では,データ駆動型正規化フローを前提とした階層モデルを提案する。
事前の厳格な遵守を強制する代わりに、APCは、対象のタスクに対する各前の適用性を推定し、探索にそれらを活用する。
- 参考スコア(独自算出の注目度): 12.49418440326334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating demonstration data into reinforcement learning (RL) can greatly accelerate learning, but existing approaches often assume demonstrations are optimal and fully aligned with the target task. In practice, demonstrations are frequently sparse, suboptimal, or misaligned, which can degrade performance when these demonstrations are integrated into RL. We propose Adaptive Policy Composition (APC), a hierarchical model that adaptively composes multiple data-driven Normalizing Flow (NF) priors. Instead of enforcing strict adherence to the priors, APC estimates each prior's applicability to the target task while leveraging them for exploration. Moreover, APC either refines useful priors, or sidesteps misaligned ones when necessary to optimize downstream reward. Across diverse benchmarks, APC accelerates learning when demonstrations are aligned, remains robust under severe misalignment, and leverages suboptimal demonstrations to bootstrap exploration while avoiding performance degradation caused by overly strict adherence to suboptimal demonstrations.
- Abstract(参考訳): 実演データを強化学習(RL)に組み込むことは、学習を大幅に加速させるが、既存の手法では、実演が最適であり、目的のタスクと完全に整合していると仮定されることが多い。
実際には、デモはしばしばスパース、サブ最適、あるいはミスアライメントであり、これらのデモをRLに統合するとパフォーマンスが低下する可能性がある。
我々は、複数のデータ駆動正規化フロー(NF)を適応的に構成する階層モデルである適応ポリシー構成(APC)を提案する。
事前の厳格な遵守を強制する代わりに、APCは、対象のタスクに対する各前の適用性を推定し、探索にそれらを活用する。
さらに、APCは有用な事前処理を洗練させるか、下流の報酬を最適化するために必要な場合、ミスアライメントをサイドステップで行う。
さまざまなベンチマークを通じて、APCは、デモが整列された場合の学習を加速し、厳しい調整の下で頑健なままであり、最適化されたデモをブートストラップ探索に活用するとともに、最適化されたデモへの過度に厳格な固執によるパフォーマンス劣化を回避している。
関連論文リスト
- Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Fill in the Blanks: Accelerating Q-Learning with a Handful of Demonstrations in Sparse Reward Settings [4.446853669417819]
スパース・リワード環境における強化学習(RL)は、情報的フィードバックが欠如しているため、依然として重要な課題である。
本稿では,RLエージェントの値関数を初期化するために,少数の成功例を用いた簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-10-28T14:01:13Z) - Reinforcement Learning via Implicit Imitation Guidance [49.88208134736617]
自然なアプローチは、訓練中の正規化や参照ポリシーの取得など、模倣学習の目的を取り入れることである。
提案手法では,条件に付加されたノイズによる探索を導出するための先行データのみを用いて,明示的な行動クローニング制約の必要性を回避することを提案する。
提案手法は、7つの模擬連続制御タスクにまたがるオフライン手法による事前強化学習よりも最大2~3倍向上する。
論文 参考訳(メタデータ) (2025-06-09T07:32:52Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Aligning Diffusion Behaviors with Q-functions for Efficient Continuous Control [25.219524290912048]
オフライン強化学習を2段階最適化問題として定式化する。
まず、報酬のない行動データセットに関する表現的生成ポリシーを事前訓練し、次にこれらのポリシーを微調整して、Q値のようなタスク固有のアノテーションと整合させる。
この戦略により、多種多様な行動データを活用し、一般化を強化し、最小限のアノテーションを使って下流タスクへの迅速な適応を可能にする。
論文 参考訳(メタデータ) (2024-07-12T06:32:36Z) - Inverse Reinforcement Learning by Estimating Expertise of Demonstrators [15.662820454886205]
IRLEED(Inverse Reinforcement Learning by Estimating Expertise of Demonstrators)は、実証者の専門知識の事前知識なしにハードルを克服する新しいフレームワークである。
IRLEEDは既存の逆強化学習(IRL)アルゴリズムを強化し、報酬バイアスと行動分散に対処するために、実証者準最適性のための一般的なモデルを組み合わせる。
オンラインおよびオフラインのIL設定、シミュレーションと人為的なデータによる実験は、IRLEEDの適応性と有効性を示している。
論文 参考訳(メタデータ) (2024-02-02T20:21:09Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。