論文の概要: Misalignment from Treating Means as Ends
- arxiv url: http://arxiv.org/abs/2507.10995v1
- Date: Tue, 15 Jul 2025 05:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.989188
- Title: Misalignment from Treating Means as Ends
- Title(参考訳): 豆を終止符として扱う際の過失
- Authors: Henrik Marklund, Alex Infanger, Benjamin Van Roy,
- Abstract要約: 人間の目標を正確に表現する代わりに、報酬関数は、その目標を達成する最善の方法についての人間の信念によって歪められることが多い。
楽器の目標と終端の目標をわずかに一致させる単純な例を定式化する。
この例では、強化学習を楽器と端末の目標の融合に非常に敏感にする環境の本質的特性を蒸留する。
- 参考スコア(独自算出の注目度): 17.25302917075758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward functions, learned or manually specified, are rarely perfect. Instead of accurately expressing human goals, these reward functions are often distorted by human beliefs about how best to achieve those goals. Specifically, these reward functions often express a combination of the human's terminal goals -- those which are ends in themselves -- and the human's instrumental goals -- those which are means to an end. We formulate a simple example in which even slight conflation of instrumental and terminal goals results in severe misalignment: optimizing the misspecified reward function results in poor performance when measured by the true reward function. This example distills the essential properties of environments that make reinforcement learning highly sensitive to conflation of instrumental and terminal goals. We discuss how this issue can arise with a common approach to reward learning and how it can manifest in real environments.
- Abstract(参考訳): 学習されたり、手動で指定されたリワード関数は、ほとんど完璧ではない。
人間の目標を正確に表現する代わりに、これらの報酬関数は、その目標を達成する最善の方法についての人間の信念によって歪められることが多い。
特に、これらの報酬関数は、しばしば、人間の終末ゴール(自分自身で終わるもの)と、人類の楽器目標(終末を意味するもの)の組合せを表現する。
具体的目標と終端目標をわずかに折り畳むことで深刻なミスアライメントが生じるという単純な例を定式化し、不特定報酬関数を最適化すると、真の報酬関数によって測定された場合、性能が低下する。
この例では、強化学習を楽器と端末の目標の融合に非常に敏感にする環境の本質的特性を蒸留する。
我々は、学習に報いる共通のアプローチと、それが現実の環境でどのように現れるかについて議論する。
関連論文リスト
- Supervised Reward Inference [27.266579554754948]
教師付き学習は,任意の行動から報酬関数を推論する統一的なフレームワークを提供する。
ロボット操作のシミュレーション実験により, 任意の準最適実験から効率よく報酬を推測できることが示唆された。
論文 参考訳(メタデータ) (2025-02-25T18:42:05Z) - Learning to Assist Humans without Inferring Rewards [65.28156318196397]
我々は、エンパワーメントのレンズを通して支援を研究する先行研究に基づいて構築する。
補助剤は、人間の行動の影響を最大化することを目的としている。
これらの表現は、先行研究と類似したエンパワーメントの概念を推定する。
論文 参考訳(メタデータ) (2024-11-04T21:31:04Z) - Zero-Shot Offline Imitation Learning via Optimal Transport [21.548195072895517]
ゼロショットの模倣学習アルゴリズムは、テスト時にたった1つのデモから、目に見えない振る舞いを再現する。
既存の実践的なアプローチでは、専門家のデモンストレーションを一連の目標と見なし、ハイレベルなゴールセレクタと低レベルなゴール条件のポリシーで模倣を可能にする。
そこで本研究では,模倣学習に固有の占領目標を直接最適化することにより,この問題を緩和する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T12:10:51Z) - Infinite Ends from Finite Samples: Open-Ended Goal Inference as Top-Down Bayesian Filtering of Bottom-Up Proposals [48.437581268398866]
オープンエンドゴール推論のシーケンシャルなモンテカルロモデルを導入する。
我々はこのモデルをブロックワードと呼ばれるゴール推論タスクで検証する。
実験では,人間理論の速度,精度,一般性を説明する上で,トップダウンモデルとボトムアップモデルを組み合わせることの重要性を強調した。
論文 参考訳(メタデータ) (2024-07-23T18:04:40Z) - Rethinking Loss Functions for Fact Verification [1.2983290324156112]
FEVERに適した2つのタスク特化目標を策定する。
実験により,提案する目的関数が標準のクロスエントロピーより優れていることを確認した。
論文 参考訳(メタデータ) (2024-03-13T01:56:32Z) - ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - Generating Adversarial Examples with Task Oriented Multi-Objective
Optimization [21.220906842166425]
敵の訓練はモデルの堅牢性を改善する最も効率的な方法の1つである。
我々はこの問題に対処するためにemphTask Oriented MOOを提案する。
私たちの原則は、目標達成タスクのみを維持しながら、目標達成タスクの改善により多くの労力を費やすことです。
論文 参考訳(メタデータ) (2023-04-26T01:30:02Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。