論文の概要: STAIR: Addressing Stage Misalignment through Temporal-Aligned Preference Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.23802v1
- Date: Sun, 28 Sep 2025 10:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.456023
- Title: STAIR: Addressing Stage Misalignment through Temporal-Aligned Preference Reinforcement Learning
- Title(参考訳): STAIR: 時間適応型選好強化学習による段階的ミスアライメント
- Authors: Yao Luan, Ni Mu, Yiqin Yang, Bo Xu, Qing-Shan Jia,
- Abstract要約: 嗜好に基づく強化学習(PbRL)は、人間の嗜好から直接報酬を学習することで、複雑な報酬工学をバイパスする。
エージェントが連続的にサブタスクを実行するマルチステージタスクの有効性は、ステージミスアライメントによって制限される。
本稿では、まず時間的距離に基づいて段階近似を学習し、同じ段階における比較を優先するStage-AlIgned Reward Learning(STAIR)を提案する。
- 参考スコア(独自算出の注目度): 16.149607057287092
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Preference-based reinforcement learning (PbRL) bypasses complex reward engineering by learning rewards directly from human preferences, enabling better alignment with human intentions. However, its effectiveness in multi-stage tasks, where agents sequentially perform sub-tasks (e.g., navigation, grasping), is limited by stage misalignment: Comparing segments from mismatched stages, such as movement versus manipulation, results in uninformative feedback, thus hindering policy learning. In this paper, we validate the stage misalignment issue through theoretical analysis and empirical experiments. To address this issue, we propose STage-AlIgned Reward learning (STAIR), which first learns a stage approximation based on temporal distance, then prioritizes comparisons within the same stage. Temporal distance is learned via contrastive learning, which groups temporally close states into coherent stages, without predefined task knowledge, and adapts dynamically to policy changes. Extensive experiments demonstrate STAIR's superiority in multi-stage tasks and competitive performance in single-stage tasks. Furthermore, human studies show that stages approximated by STAIR are consistent with human cognition, confirming its effectiveness in mitigating stage misalignment.
- Abstract(参考訳): 嗜好に基づく強化学習(PbRL)は、人間の嗜好から直接報酬を学習することで、複雑な報酬工学を回避し、人間の意図との整合性を高める。
しかし、エージェントが次々にサブタスク(例えばナビゲーション、把握)を行うマルチステージタスクの有効性は、段階的ミスアライメントによって制限される。
本稿では, 理論的解析と実証実験により, 段階的不整合問題を検証した。
この問題に対処するために、まず時間的距離に基づいて段階近似を学習し、次に同じ段階における比較を優先するStage-AlIgned Reward Learning (STAIR)を提案する。
時間的距離は対照的な学習を通じて学習され、時間的に状態が整合的な段階に閉ざされ、事前に定義されたタスク知識が無くなり、政策の変化に動的に適応する。
大規模な実験では、STAIRのマルチステージタスクにおける優位性と、シングルステージタスクにおける競合性能が示されている。
さらに、人間の研究では、STAIRによって近似された段階は人間の認知と一致しており、段階的不一致を緩和する効果が確認されている。
関連論文リスト
- SplitLoRA: Balancing Stability and Plasticity in Continual Learning Through Gradient Space Splitting [68.00007494819798]
継続的な学習には、安定性を保ちながら複数のタスクを連続的に学習するモデルが必要である。
グラディエント・プロジェクションはCLにおいて有効で一般的なパラダイムとして現れ、以前に学習したタスクの勾配空間を2つの部分空間に分割する。
新しいタスクは小部分空間内で効果的に学習され、これにより以前取得した知識との干渉が軽減される。
既存の勾配射影法は、勾配空間を適切に分割することが困難であるため、塑性と安定性の最適なバランスを達成するのに苦労する。
論文 参考訳(メタデータ) (2025-05-28T13:57:56Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.08416841005715]
両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文 参考訳(メタデータ) (2024-06-14T14:49:12Z) - On the Convergence of Continual Learning with Adaptive Methods [4.351356718501137]
適応型非連続学習法(NCCL)を提案する。
提案手法は,複数の画像分類タスクに対する継続学習既存手法の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2024-04-08T14:28:27Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - TempoRL: Temporal Priors for Exploration in Off-Policy Reinforcement
Learning [33.512849582347734]
より多様なタスクで共有されるオフラインデータから機能を学ぶことを提案する。
実演軌跡における時間的一貫性を直接モデル化する状態非依存の時間的先行性を導入する。
また、非政治強化学習における行動優先の新たな統合手法についても紹介する。
論文 参考訳(メタデータ) (2022-05-26T17:49:12Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。