Fugu-MT 論文翻訳(概要): Corrigibility as a Singular Target: A Vision for Inherently Reliable Foundation Models

論文の概要: Corrigibility as a Singular Target: A Vision for Inherently Reliable Foundation Models

arxiv url: http://arxiv.org/abs/2506.03056v1
Date: Tue, 03 Jun 2025 16:36:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.833061
Title: Corrigibility as a Singular Target: A Vision for Inherently Reliable Foundation Models
Title（参考訳）: 特異目標としての整合性:忠実に信頼性のある基礎モデルに向けたビジョン
Authors: Ram Potham, Max Harms,
Abstract要約: ファンデーションモデル(FM)は、能力の規模が拡大するにつれ、人的制御の喪失に向けてデフォルトの軌道を駆動する。提案する「特異ターゲットとしてのコリギビリティ」(CAST)設計のFMは、指定された人間のプリンシパルに誘導、修正、制御の権限を与えるものである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Foundation models (FMs) face a critical safety challenge: as capabilities scale, instrumental convergence drives default trajectories toward loss of human control, potentially culminating in existential catastrophe. Current alignment approaches struggle with value specification complexity and fail to address emergent power-seeking behaviors. We propose "Corrigibility as a Singular Target" (CAST)-designing FMs whose overriding objective is empowering designated human principals to guide, correct, and control them. This paradigm shift from static value-loading to dynamic human empowerment transforms instrumental drives: self-preservation serves only to maintain the principal's control; goal modification becomes facilitating principal guidance. We present a comprehensive empirical research agenda spanning training methodologies (RLAIF, SFT, synthetic data generation), scalability testing across model sizes, and demonstrations of controlled instructability. Our vision: FMs that become increasingly responsive to human guidance as capabilities grow, offering a path to beneficial AI that remains as tool-like as possible, rather than supplanting human judgment. This addresses the core alignment problem at its source, preventing the default trajectory toward misaligned instrumental convergence.
Abstract（参考訳）: ファンデーションモデル(FM)は、能力の規模が拡大するにつれ、インストゥルメンタルコンバージェンス(英語版)は、人間の制御の喪失に向けてデフォルトの軌道を駆動し、実在する大惨事に終止符を打つという、重大な安全上の課題に直面している。現在のアライメントアプローチは、価値仕様の複雑さに悩まされ、創発的な電力探索の振る舞いに対処できません。提案する「特異ターゲットとしてのコリギビリティ」(CAST)設計のFMは、指定された人間のプリンシパルに誘導、修正、制御の権限を与えるものである。このパラダイムは、静的な値ローディングからダイナミックな人間のエンパワーメント変換へ移行し、インストゥルメンタルドライブを駆動する: 自己保存はプリンシパルのコントロールを維持するのにのみ役立ち、ゴール修正はプリンシパルガイダンスを促進する。本稿では,トレーニング方法論(RLAIF,SFT,合成データ生成),モデルサイズを越えたスケーラビリティテスト,制御されたインストラクタビリティの実証を対象とする総合的な実証研究課題を提案する。私たちのビジョン: 能力の増大に伴って人間の指導に反応するFMは、人間の判断に取って代わるのではなく、可能な限りツールのように使えるAIへの道を提供する。これにより、そのソースにおけるコアアライメントの問題に対処し、不整合楽器収束に対するデフォルトの軌道が妨げられる。

関連論文リスト

The Missing Reward: Active Inference in the Era of Experience [1.9761774213809036]
アクティブ推論(AIF)は、自律型AIエージェントを開発する上で重要な基盤を提供する。 AIFは、自由エネルギーを最小化するために、外部の報酬信号を本質的な駆動に置き換えることができる。この合成は、計算と物理の両方の制約に固執しながら自律的に開発できるAIシステムへの魅力的な道を提供する。
論文参考訳（メタデータ） (2025-08-07T17:57:12Z)
Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-27T17:16:00Z)
Toward Adaptive Categories: Dimensional Governance for Agentic AI [0.0]
次元ガバナンスは、意思決定の権威、プロセスの自律性、説明責任(3A)が人間とAIの関係を動的に分散する方法を追跡するフレームワークである。このアプローチの重要な利点は、主要なガバナンスしきい値に対するシステムの動きを明示的に監視できることです。我々は、重要な側面、重要な信頼しきい値、厳格な分類のフレームワークがどこで失敗するかを示す実践例を概説する。
論文参考訳（メタデータ） (2025-05-16T14:43:12Z)
A Knowledge-Informed Deep Learning Paradigm for Generalizable and Stability-Optimized Car-Following Models [15.34704164931383]
自動車追従モデル (CFMs) は交通流解析と自律運転の基礎である。本稿では,事前学習型大規模言語モデル(LLM)の一般化能力を軽量かつ安定性に配慮したニューラルアーキテクチャに蒸留する知識情報深層学習(KIDL)パラダイムを提案する。 KIDLを実世界のNGSIMおよびHighDデータセット上で評価し、その性能を代表的物理ベース、データ駆動、ハイブリッドCFMと比較した。
論文参考訳（メタデータ） (2025-04-19T09:33:02Z)
Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文参考訳（メタデータ） (2025-04-15T10:41:11Z)
Evaluating the Paperclip Maximizer: Are RL-Based Language Models More Likely to Pursue Instrumental Goals? [33.11148546999906]
主な関心事は、テキスト構造収束(textitinstrumental convergence)である。AIシステムは、究極の目標を覆い、人間の意図した目標から逸脱する意図しない中間目標を開発する。この問題は特に強化学習(RL)訓練モデルに関係しており、報酬を最大化するために創造的だが意図しない戦略を生成することができる。また,RL駆動モデルでは,目標指向行動の最適化が人間の意図に反する可能性があるため,楽器収束の傾向が強いことを示す。
論文参考訳（メタデータ） (2025-02-16T16:29:20Z)
Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control [44.326363467045496]
大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。表現工学は、新しい、トレーニングなしのアプローチを提供する。この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
論文参考訳（メタデータ） (2024-11-04T08:36:03Z)
Tuning-Free Accountable Intervention for LLM Deployment -- A Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文参考訳（メタデータ） (2024-03-08T19:18:53Z)
DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文参考訳（メタデータ） (2024-02-05T06:12:29Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文参考訳（メタデータ） (2023-06-06T01:36:56Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)
Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文参考訳（メタデータ） (2022-04-28T07:37:21Z)
Active Uncertainty Learning for Human-Robot Interaction: An Implicit Dual Control Approach [5.05828899601167]
暗黙的な二重制御パラダイムに基づくループ内動作計画のための不確実性学習を実現するアルゴリズムを提案する。提案手法は,動的プログラミングモデル予測制御問題のサンプリングに基づく近似に依拠する。結果として得られたポリシーは、連続的およびカテゴリー的不確実性を持つ一般的な人間の予測モデルに対する二重制御効果を維持することが示されている。
論文参考訳（メタデータ） (2022-02-15T20:40:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。