論文の概要: Learning Human-Like RL Agents Through Trajectory Optimization With Action Quantization
- arxiv url: http://arxiv.org/abs/2511.15055v1
- Date: Wed, 19 Nov 2025 02:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.601926
- Title: Learning Human-Like RL Agents Through Trajectory Optimization With Action Quantization
- Title(参考訳): 行動量子化を用いた軌道最適化による人型RLエージェントの学習
- Authors: Jian-Ting Guo, Yu-Cheng Chen, Ping-Chun Hsieh, Kuo-Hao Ho, Po-Wei Huang, Ti-Rong Wu, I-Chen Wu,
- Abstract要約: マクロアクション量子化(Macro Action Quantization,MAQ)は、人間のデモをマクロアクションに蒸留する人間のような強化学習フレームワークである。
D4RL Adroitベンチマークの実験では、MAQは人間の類似性を大幅に改善し、軌道類似性スコアを増大させ、RLエージェントの中で最も高い人間類似性ランキングを達成している。
また,MAQは市販のRLアルゴリズムに容易に組み込むことができ,人間的なRLエージェントを学習する上で有望な方向を導出できることを示した。
- 参考スコア(独自算出の注目度): 20.732922711530527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-like agents have long been one of the goals in pursuing artificial intelligence. Although reinforcement learning (RL) has achieved superhuman performance in many domains, relatively little attention has been focused on designing human-like RL agents. As a result, many reward-driven RL agents often exhibit unnatural behaviors compared to humans, raising concerns for both interpretability and trustworthiness. To achieve human-like behavior in RL, this paper first formulates human-likeness as trajectory optimization, where the objective is to find an action sequence that closely aligns with human behavior while also maximizing rewards, and adapts the classic receding-horizon control to human-like learning as a tractable and efficient implementation. To achieve this, we introduce Macro Action Quantization (MAQ), a human-like RL framework that distills human demonstrations into macro actions via Vector-Quantized VAE. Experiments on D4RL Adroit benchmarks show that MAQ significantly improves human-likeness, increasing trajectory similarity scores, and achieving the highest human-likeness rankings among all RL agents in the human evaluation study. Our results also demonstrate that MAQ can be easily integrated into various off-the-shelf RL algorithms, opening a promising direction for learning human-like RL agents. Our code is available at https://rlg.iis.sinica.edu.tw/papers/MAQ.
- Abstract(参考訳): 人間のようなエージェントは、長い間人工知能を追求する目標の1つだった。
強化学習(RL)は多くの領域で超人的性能を達成したが、人間のようなRLエージェントの設計にはあまり注目されていない。
その結果、多くの報酬駆動型RLエージェントは人間に比べて不自然な行動を示し、解釈可能性と信頼性の両方への懸念を提起する。
RLにおける人間的な振る舞いを実現するために,まず,人間の行動に忠実に整合した行動列の探索と,報酬の最大化を目的とし,従来のリディング・ホライズン制御を,トラクタブルで効率的な実装として適用することを目的とした,軌道最適化として人間のような振る舞いを定式化する。
これを実現するために、人間に似たRLフレームワークであるMacro Action Quantization (MAQ)を導入し、Vector-Quantized VAEを介して人間のデモをマクロアクションに蒸留する。
D4RL Adroitベンチマークの実験では、MAQは人間の類似性を大幅に改善し、軌道類似性スコアを増大させ、ヒト評価研究において、すべてのRLエージェントの中で最高の人間類似性ランキングを達成している。
また,MAQは市販のRLアルゴリズムに容易に組み込むことができ,人間のようなRLエージェントを学習する上で有望な方向を導出できることを示した。
私たちのコードはhttps://rlg.iis.sinica.edu.tw/papers/MAQ.orgで公開されています。
関連論文リスト
- ResMimic: From General Motion Tracking to Humanoid Whole-body Loco-Manipulation via Residual Learning [59.64325421657381]
ヒューマノイド全体のロコ操作は、日々のサービスや倉庫のタスクにトランスフォーメーション機能を約束する。
ResMimicは、人間の動作データから正確に表現力のあるヒューマノイド制御のための2段階の残差学習フレームワークである。
結果は、強いベースラインよりもタスク成功、トレーニング効率、堅牢性が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-10-06T17:47:02Z) - Ego-Foresight: Self-supervised Learning of Agent-Aware Representations for Improved RL [26.169030913260084]
本研究では,移動と予測に基づくエージェントと環境の自己管理手法であるEgo-Foresightを提案する。
エージェントのビジュモータ予測による自己監督型エージェント認識は,RLアルゴリズムのサンプル効率と性能を向上させる。
論文 参考訳(メタデータ) (2024-05-27T13:32:43Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Int-HRL: Towards Intention-based Hierarchical Reinforcement Learning [23.062590084580542]
Int-HRL:人間の視線から推測される意図に基づくサブゴールを持つ階層的RL。
本評価の結果,手作りサブゴールを自動抽出した意図で置き換えることにより,従来の方法よりもはるかに効率のよいHRLエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2023-06-20T12:12:16Z) - Learning to Influence Human Behavior with Offline Reinforcement Learning [70.7884839812069]
人間の準最適性を捉える必要があるような環境での影響に焦点を当てる。
人間によるオンライン実験は安全ではない可能性があり、環境の高忠実度シミュレータを作成することは現実的ではないことが多い。
オフライン強化学習は、観察された人間・人間の行動の要素を拡張し、組み合わせることで、人間に効果的に影響を及ぼすことができることを示す。
論文 参考訳(メタデータ) (2023-03-03T23:41:55Z) - Humans are not Boltzmann Distributions: Challenges and Opportunities for
Modelling Human Feedback and Interaction in Reinforcement Learning [13.64577704565643]
これらのモデルは単純すぎるし、RLの研究者たちはアルゴリズムを設計し評価するために、より現実的な人間モデルを開発する必要がある、と我々は主張する。
本稿は、AIへのフィードバックの仕方や、より堅牢なループ内RLシステムの構築方法について、さまざまな分野からの研究を募集する。
論文 参考訳(メタデータ) (2022-06-27T13:58:51Z) - Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement
Learning [73.92475751508452]
Bimanual Dexterous Hands Benchmark (Bi-DexHands) は、数十のバイマニュアル操作タスクと数千のターゲットオブジェクトを備えた2つのデキスタラスハンドを含むシミュレータである。
Bi-DexHandsのタスクは、認知科学の文献によると、人間の運動能力のレベルが異なるように設計されている。
論文 参考訳(メタデータ) (2022-06-17T11:09:06Z) - Weak Human Preference Supervision For Deep Reinforcement Learning [48.03929962249475]
人間の好みによる現在の報酬学習は、報酬関数にアクセスせずに複雑な強化学習(RL)タスクを解決するために使用できる。
そこで我々は,人間の嗜好スケーリングモデルを開発した,弱い人間の嗜好監視フレームワークを提案する。
提案手法では,環境との相互作用の 0.01% 未満の人的フィードバックしか必要としない。
論文 参考訳(メタデータ) (2020-07-25T10:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。