論文の概要: Corrigibility as a Singular Target: A Vision for Inherently Reliable Foundation Models
- arxiv url: http://arxiv.org/abs/2506.03056v1
- Date: Tue, 03 Jun 2025 16:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.833061
- Title: Corrigibility as a Singular Target: A Vision for Inherently Reliable Foundation Models
- Title(参考訳): 特異目標としての整合性:忠実に信頼性のある基礎モデルに向けたビジョン
- Authors: Ram Potham, Max Harms,
- Abstract要約: ファンデーションモデル(FM)は、能力の規模が拡大するにつれ、人的制御の喪失に向けてデフォルトの軌道を駆動する。
提案する「特異ターゲットとしてのコリギビリティ」(CAST)設計のFMは、指定された人間のプリンシパルに誘導、修正、制御の権限を与えるものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models (FMs) face a critical safety challenge: as capabilities scale, instrumental convergence drives default trajectories toward loss of human control, potentially culminating in existential catastrophe. Current alignment approaches struggle with value specification complexity and fail to address emergent power-seeking behaviors. We propose "Corrigibility as a Singular Target" (CAST)-designing FMs whose overriding objective is empowering designated human principals to guide, correct, and control them. This paradigm shift from static value-loading to dynamic human empowerment transforms instrumental drives: self-preservation serves only to maintain the principal's control; goal modification becomes facilitating principal guidance. We present a comprehensive empirical research agenda spanning training methodologies (RLAIF, SFT, synthetic data generation), scalability testing across model sizes, and demonstrations of controlled instructability. Our vision: FMs that become increasingly responsive to human guidance as capabilities grow, offering a path to beneficial AI that remains as tool-like as possible, rather than supplanting human judgment. This addresses the core alignment problem at its source, preventing the default trajectory toward misaligned instrumental convergence.
- Abstract(参考訳): ファンデーションモデル(FM)は、能力の規模が拡大するにつれ、インストゥルメンタルコンバージェンス(英語版)は、人間の制御の喪失に向けてデフォルトの軌道を駆動し、実在する大惨事に終止符を打つという、重大な安全上の課題に直面している。
現在のアライメントアプローチは、価値仕様の複雑さに悩まされ、創発的な電力探索の振る舞いに対処できません。
提案する「特異ターゲットとしてのコリギビリティ」(CAST)設計のFMは、指定された人間のプリンシパルに誘導、修正、制御の権限を与えるものである。
このパラダイムは、静的な値ローディングからダイナミックな人間のエンパワーメント変換へ移行し、インストゥルメンタルドライブを駆動する: 自己保存はプリンシパルのコントロールを維持するのにのみ役立ち、ゴール修正はプリンシパルガイダンスを促進する。
本稿では,トレーニング方法論(RLAIF,SFT,合成データ生成),モデルサイズを越えたスケーラビリティテスト,制御されたインストラクタビリティの実証を対象とする総合的な実証研究課題を提案する。
私たちのビジョン: 能力の増大に伴って人間の指導に反応するFMは、人間の判断に取って代わるのではなく、可能な限りツールのように使えるAIへの道を提供する。
これにより、そのソースにおけるコアアライメントの問題に対処し、不整合楽器収束に対するデフォルトの軌道が妨げられる。
関連論文リスト
- Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Toward Adaptive Categories: Dimensional Governance for Agentic AI [0.0]
次元ガバナンスは、意思決定の権威、プロセスの自律性、説明責任(3A)が人間とAIの関係を動的に分散する方法を追跡するフレームワークである。
このアプローチの重要な利点は、主要なガバナンスしきい値に対するシステムの動きを明示的に監視できることです。
我々は、重要な側面、重要な信頼しきい値、厳格な分類のフレームワークがどこで失敗するかを示す実践例を概説する。
論文 参考訳(メタデータ) (2025-05-16T14:43:12Z) - A Knowledge-Informed Deep Learning Paradigm for Generalizable and Stability-Optimized Car-Following Models [15.34704164931383]
自動車追従モデル (CFMs) は交通流解析と自律運転の基礎である。
本稿では,事前学習型大規模言語モデル(LLM)の一般化能力を軽量かつ安定性に配慮したニューラルアーキテクチャに蒸留する知識情報深層学習(KIDL)パラダイムを提案する。
KIDLを実世界のNGSIMおよびHighDデータセット上で評価し、その性能を代表的物理ベース、データ駆動、ハイブリッドCFMと比較した。
論文 参考訳(メタデータ) (2025-04-19T09:33:02Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - Evaluating the Paperclip Maximizer: Are RL-Based Language Models More Likely to Pursue Instrumental Goals? [33.11148546999906]
主な関心事は、テキスト構造収束(textitinstrumental convergence)である。AIシステムは、究極の目標を覆い、人間の意図した目標から逸脱する意図しない中間目標を開発する。
この問題は特に強化学習(RL)訓練モデルに関係しており、報酬を最大化するために創造的だが意図しない戦略を生成することができる。
また,RL駆動モデルでは,目標指向行動の最適化が人間の意図に反する可能性があるため,楽器収束の傾向が強いことを示す。
論文 参考訳(メタデータ) (2025-02-16T16:29:20Z) - Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control [44.326363467045496]
大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。
表現工学は、新しい、トレーニングなしのアプローチを提供する。
この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。
正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
論文 参考訳(メタデータ) (2024-11-04T08:36:03Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z) - Active Uncertainty Learning for Human-Robot Interaction: An Implicit
Dual Control Approach [5.05828899601167]
暗黙的な二重制御パラダイムに基づくループ内動作計画のための不確実性学習を実現するアルゴリズムを提案する。
提案手法は,動的プログラミングモデル予測制御問題のサンプリングに基づく近似に依拠する。
結果として得られたポリシーは、連続的およびカテゴリー的不確実性を持つ一般的な人間の予測モデルに対する二重制御効果を維持することが示されている。
論文 参考訳(メタデータ) (2022-02-15T20:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。