論文の概要: Hierarchical Reward Design from Language: Enhancing Alignment of Agent Behavior with Human Specifications
- arxiv url: http://arxiv.org/abs/2602.18582v1
- Date: Fri, 20 Feb 2026 19:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.174211
- Title: Hierarchical Reward Design from Language: Enhancing Alignment of Agent Behavior with Human Specifications
- Title(参考訳): 言語からの階層的リワードデザイン:人間仕様によるエージェント行動のアライメントの強化
- Authors: Zhiqin Qian, Ryan Diaz, Sangwon Seo, Vaibhav Unhelkar,
- Abstract要約: 階層的強化学習エージェントのよりリッチな行動仕様を符号化するために、階層的言語設計(HRDL)を導入する。
実験によると、L2HRでデザインされた報酬で訓練されたAIエージェントは、タスクを効果的に完了させるだけでなく、人間の仕様に忠実に準拠する。
- 参考スコア(独自算出の注目度): 4.724825031148412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When training artificial intelligence (AI) to perform tasks, humans often care not only about whether a task is completed but also how it is performed. As AI agents tackle increasingly complex tasks, aligning their behavior with human-provided specifications becomes critical for responsible AI deployment. Reward design provides a direct channel for such alignment by translating human expectations into reward functions that guide reinforcement learning (RL). However, existing methods are often too limited to capture nuanced human preferences that arise in long-horizon tasks. Hence, we introduce Hierarchical Reward Design from Language (HRDL): a problem formulation that extends classical reward design to encode richer behavioral specifications for hierarchical RL agents. We further propose Language to Hierarchical Rewards (L2HR) as a solution to HRDL. Experiments show that AI agents trained with rewards designed via L2HR not only complete tasks effectively but also better adhere to human specifications. Together, HRDL and L2HR advance the research on human-aligned AI agents.
- Abstract(参考訳): 人工知能(AI)を訓練してタスクを実行する場合、人間はタスクが完了しただけでなく、その実行方法も気にすることが多い。
AIエージェントがますます複雑なタスクに取り組むにつれ、人間が提供する仕様と行動の整合性は、AIデプロイメントの責任を負う上で重要になる。
Rewardデザインは、人間の期待を報酬関数に変換することで、強化学習(RL)を導くことで、そのようなアライメントのための直接的なチャネルを提供する。
しかし、既存の手法は、長い水平なタスクで生じる微妙な人間の嗜好を捉えるには、しばしば限られている。
したがって、階層的RLエージェントのよりリッチな振る舞い仕様を符号化するために古典的報酬設計を拡張した問題定式化(HRDL: Hierarchical Reward Design from Language)を導入する。
さらに、HRDLの解決策としてL2HR(Language to Hierarchical Rewards)を提案する。
実験によると、L2HRでデザインされた報酬で訓練されたAIエージェントは、タスクを効果的に完了させるだけでなく、人間の仕様に忠実に準拠する。
HRDLとL2HRは共に、人間と協調するAIエージェントの研究を進めた。
関連論文リスト
- Deep Reinforcement Learning Agents are not even close to Human Intelligence [25.836584192349907]
深部強化学習(RL)エージェントは、様々なタスクにおいて印象的な結果を得るが、ゼロショット適応能力は欠如している。
我々は、アーケード学習環境のタスクバリエーションのセットであるHackAtariを紹介する。
人間とは対照的に、RLエージェントは、トレーニングタスクのより単純なバージョンに対して、体系的に大きなパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2025-05-27T20:21:46Z) - LAMeTA: Intent-Aware Agentic Network Optimization via a Large AI Model-Empowered Two-Stage Approach [68.198383438396]
本稿では,大規模AIモデル(LAM)を用いたエージェントネットワーク最適化のための2段階アプローチであるLAMeTAを提案する。
まず,インテント指向の知識蒸留(IoKD)を提案する。
第2に、E-LAMをポリシーベースのDRLフレームワークに統合した共生強化学習(SRL)を開発する。
論文 参考訳(メタデータ) (2025-05-18T05:59:16Z) - Modeling AI-Human Collaboration as a Multi-Agent Adaptation [0.0]
タスクの関数としてAIと人間のコラボレーションを形式化するエージェントベースのシミュレーションを開発する。
モジュラータスクでは、AIが人間の代わりになることが多いことを示します。
また、記憶や構造が欠如している「幻覚的」AIでさえ、ローカルオプティマから逃れることによって、低能力な人間を増強することで、結果を改善することも示しています。
論文 参考訳(メタデータ) (2025-04-29T16:19:53Z) - Direct Advantage Regression: Aligning LLMs with Online AI Reward [59.78549819431632]
オンラインAIフィードバック(OAIF)は、人間からの強化学習(RLHF)に代わる有望な代替手段を提供する
我々は,重み付き教師付き微調整による政策改善を最適化するダイレクトアドバンテージ・レグレッション(DAR)を提案する。
我々の経験的結果は、AI報酬はAIの好みとは対照的に、より高度な人間とAIの合意を一貫して達成するAI監督のより良い形態であることを示している。
論文 参考訳(メタデータ) (2025-04-19T04:44:32Z) - REvolve: Reward Evolution with Large Language Models using Human Feedback [6.4550546442058225]
大規模言語モデル(LLM)は、自然言語のタスク記述から報酬を生成するために使われてきた。
人間のフィードバックによって導かれるLLMは、人間の暗黙の知識を反映する報酬関数を定式化するのに用いられる。
強化学習における報酬設計にLLMを使用する,真に進化的なフレームワークであるRevolveを紹介する。
論文 参考訳(メタデータ) (2024-06-03T13:23:27Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Int-HRL: Towards Intention-based Hierarchical Reinforcement Learning [23.062590084580542]
Int-HRL:人間の視線から推測される意図に基づくサブゴールを持つ階層的RL。
本評価の結果,手作りサブゴールを自動抽出した意図で置き換えることにより,従来の方法よりもはるかに効率のよいHRLエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2023-06-20T12:12:16Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Language Instructed Reinforcement Learning for Human-AI Coordination [23.694362407434753]
InstructRLという新しいフレームワークを提案し、自然言語でAIパートナーにどのような戦略を期待するかを、人間が指定できるようにする。
InstructRLは,概念実証環境とハナビベンチマークの課題において,与えられた指示を満足する人間的なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-04-13T04:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。