論文の概要: Hierarchical Reward Design from Language: Enhancing Alignment of Agent Behavior with Human Specifications
- arxiv url: http://arxiv.org/abs/2602.18582v1
- Date: Fri, 20 Feb 2026 19:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.174211
- Title: Hierarchical Reward Design from Language: Enhancing Alignment of Agent Behavior with Human Specifications
- Title(参考訳): 言語からの階層的リワードデザイン:人間仕様によるエージェント行動のアライメントの強化
- Authors: Zhiqin Qian, Ryan Diaz, Sangwon Seo, Vaibhav Unhelkar,
- Abstract要約: 階層的強化学習エージェントのよりリッチな行動仕様を符号化するために、階層的言語設計(HRDL)を導入する。
実験によると、L2HRでデザインされた報酬で訓練されたAIエージェントは、タスクを効果的に完了させるだけでなく、人間の仕様に忠実に準拠する。
- 参考スコア(独自算出の注目度): 4.724825031148412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When training artificial intelligence (AI) to perform tasks, humans often care not only about whether a task is completed but also how it is performed. As AI agents tackle increasingly complex tasks, aligning their behavior with human-provided specifications becomes critical for responsible AI deployment. Reward design provides a direct channel for such alignment by translating human expectations into reward functions that guide reinforcement learning (RL). However, existing methods are often too limited to capture nuanced human preferences that arise in long-horizon tasks. Hence, we introduce Hierarchical Reward Design from Language (HRDL): a problem formulation that extends classical reward design to encode richer behavioral specifications for hierarchical RL agents. We further propose Language to Hierarchical Rewards (L2HR) as a solution to HRDL. Experiments show that AI agents trained with rewards designed via L2HR not only complete tasks effectively but also better adhere to human specifications. Together, HRDL and L2HR advance the research on human-aligned AI agents.
- Abstract(参考訳): 人工知能(AI)を訓練してタスクを実行する場合、人間はタスクが完了しただけでなく、その実行方法も気にすることが多い。
AIエージェントがますます複雑なタスクに取り組むにつれ、人間が提供する仕様と行動の整合性は、AIデプロイメントの責任を負う上で重要になる。
Rewardデザインは、人間の期待を報酬関数に変換することで、強化学習(RL)を導くことで、そのようなアライメントのための直接的なチャネルを提供する。
しかし、既存の手法は、長い水平なタスクで生じる微妙な人間の嗜好を捉えるには、しばしば限られている。
したがって、階層的RLエージェントのよりリッチな振る舞い仕様を符号化するために古典的報酬設計を拡張した問題定式化(HRDL: Hierarchical Reward Design from Language)を導入する。
さらに、HRDLの解決策としてL2HR(Language to Hierarchical Rewards)を提案する。
実験によると、L2HRでデザインされた報酬で訓練されたAIエージェントは、タスクを効果的に完了させるだけでなく、人間の仕様に忠実に準拠する。
HRDLとL2HRは共に、人間と協調するAIエージェントの研究を進めた。
関連論文リスト
- Direct Advantage Regression: Aligning LLMs with Online AI Reward [59.78549819431632]
オンラインAIフィードバック(OAIF)は、人間からの強化学習(RLHF)に代わる有望な代替手段を提供する
我々は,重み付き教師付き微調整による政策改善を最適化するダイレクトアドバンテージ・レグレッション(DAR)を提案する。
我々の経験的結果は、AI報酬はAIの好みとは対照的に、より高度な人間とAIの合意を一貫して達成するAI監督のより良い形態であることを示している。
論文 参考訳(メタデータ) (2025-04-19T04:44:32Z) - REvolve: Reward Evolution with Large Language Models using Human Feedback [6.4550546442058225]
大規模言語モデル(LLM)は、自然言語のタスク記述から報酬を生成するために使われてきた。
人間のフィードバックによって導かれるLLMは、人間の暗黙の知識を反映する報酬関数を定式化するのに用いられる。
強化学習における報酬設計にLLMを使用する,真に進化的なフレームワークであるRevolveを紹介する。
論文 参考訳(メタデータ) (2024-06-03T13:23:27Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Int-HRL: Towards Intention-based Hierarchical Reinforcement Learning [23.062590084580542]
Int-HRL:人間の視線から推測される意図に基づくサブゴールを持つ階層的RL。
本評価の結果,手作りサブゴールを自動抽出した意図で置き換えることにより,従来の方法よりもはるかに効率のよいHRLエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2023-06-20T12:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。