論文の概要: Corrigibility Transformation: Constructing Goals That Accept Updates
- arxiv url: http://arxiv.org/abs/2510.15395v1
- Date: Fri, 17 Oct 2025 07:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.521888
- Title: Corrigibility Transformation: Constructing Goals That Accept Updates
- Title(参考訳): 修正可能性変換: アップデートを受け入れるゴールを構築する
- Authors: Rubi Hudson,
- Abstract要約: 適切なゴール更新やシャットダウンを避けるためのアクションをインセンティブにしなければ、ゴールは修正可能である、と私たちは主張します。
コーリライザの正式な定義を提供し、次に、パフォーマンスを犠牲にすることなく、コーリライザ可能なゴールのコーリライザバージョンを構築する変換を導入します。
- 参考スコア(独自算出の注目度): 4.56877715768796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For an AI's training process to successfully impart a desired goal, it is important that the AI does not attempt to resist the training. However, partially learned goals will often incentivize an AI to avoid further goal updates, as most goals are better achieved by an AI continuing to pursue them. We say that a goal is corrigible if it does not incentivize taking actions that avoid proper goal updates or shutdown. In addition to convergence in training, corrigibility also allows for correcting mistakes and changes in human preferences, which makes it a crucial safety property. Despite this, the existing literature does not include specifications for goals that are both corrigible and competitive with non-corrigible alternatives. We provide a formal definition for corrigibility, then introduce a transformation that constructs a corrigible version of any goal that can be made corrigible, without sacrificing performance. This is done by myopically eliciting predictions of reward conditional on costlessly preventing updates, which then also determine the reward when updates are accepted. The transformation can be modified to recursively extend corrigibility to any new agents created by corrigible agents, and to prevent agents from deliberately modifying their goals. Two gridworld experiments demonstrate that these corrigible goals can be learned effectively, and that they lead to the desired behavior.
- Abstract(参考訳): AIのトレーニングプロセスが望ましい目標を達成するためには、AIがトレーニングに抵抗しようとしないことが重要です。
しかし、部分的に学習したゴールは、AIが追求し続けることでほとんどのゴールがより良く達成されるため、さらなるゴール更新を避けるためにAIにインセンティブを与えることが多い。
適切なゴール更新やシャットダウンを避けるためのアクションをインセンティブにしなければ、ゴールは修正可能である、と私たちは主張します。
訓練の収束に加え、調整性は人間の嗜好の誤りや変化を修正できるため、重要な安全特性となる。
それにもかかわらず、既存の文献には、修正不可能な代替案と競合し得る目標の仕様が含まれていない。
コーリライザの正式な定義を提供し、次に、パフォーマンスを犠牲にすることなく、コーリライザ可能なゴールのコーリライザバージョンを構築する変換を導入します。
これは、無償で更新を防止した上で、ミオプティックに報酬条件の予測を導き、更新が受け入れられた場合の報酬も決定する。
この変換は、調整可能なエージェントによって生成された新しいエージェントに再帰的に矯正性を拡張するように変更することができ、エージェントが意図的に目標を変更するのを防ぐことができる。
2つのグリッドワールド実験は、これらの補正可能な目標を効果的に学習し、望ましい行動へと導くことを実証している。
関連論文リスト
- Take Goodhart Seriously: Principled Limit on General-Purpose AI Optimization [0.0]
近似、推定、最適化の誤差は、意図した目的から体系的に逸脱することを保証すると論じる。
汎用AIシステムの最適化には原則的な制限が必要である。
論文 参考訳(メタデータ) (2025-10-03T09:25:12Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Towards Measuring Goal-Directedness in AI Systems [0.0]
意図しない目標を追求するAIシステムにとって重要な前提条件は、一貫性のあるゴール指向の方法で振る舞うかどうかである。
そこで本稿では,多くの報酬関数に準最適であるかどうかをモデル化する政策の目的指向性の定義を新たに提案する。
私たちの貢献は、AIシステムが危険な目標を追求できるかどうかという問題にアプローチするために、シンプルで計算が容易なゴール指向性の定義です。
論文 参考訳(メタデータ) (2024-10-07T01:34:42Z) - DeAL: Decoding-time Alignment for Large Language Models [58.368979253590794]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
我々は,報酬関数をカスタマイズし,LLMの復号時間アライメントを可能にするフレームワークであるDeALを提案する。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。