Fugu-MT 論文翻訳(概要): Consequences of Misaligned AI

論文の概要: Consequences of Misaligned AI

arxiv url: http://arxiv.org/abs/2102.03896v1
Date: Sun, 7 Feb 2021 19:34:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-11 07:44:20.291094
Title: Consequences of Misaligned AI
Title（参考訳）: AIのミスアライメント
Authors: Simon Zhuang, Dylan Hadfield-Menell
Abstract要約: 本稿では,報酬関数の設計をインタラクティブでダイナミックなプロセスとみなすべきである。セットアップを変更して、完全な状態を参照したり、プリンシパルがプロキシの目的を時間とともに更新したりすることで、より高いユーティリティソリューションを実現する方法を示します。
参考スコア（独自算出の注目度）: 12.879600368339393
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI systems often rely on two key components: a specified goal or reward function and an optimization algorithm to compute the optimal behavior for that goal. This approach is intended to provide value for a principal: the user on whose behalf the agent acts. The objectives given to these agents often refer to a partial specification of the principal's goals. We consider the cost of this incompleteness by analyzing a model of a principal and an agent in a resource constrained world where the $L$ attributes of the state correspond to different sources of utility for the principal. We assume that the reward function given to the agent only has support on $J < L$ attributes. The contributions of our paper are as follows: 1) we propose a novel model of an incomplete principal-agent problem from artificial intelligence; 2) we provide necessary and sufficient conditions under which indefinitely optimizing for any incomplete proxy objective leads to arbitrarily low overall utility; and 3) we show how modifying the setup to allow reward functions that reference the full state or allowing the principal to update the proxy objective over time can lead to higher utility solutions. The results in this paper argue that we should view the design of reward functions as an interactive and dynamic process and identifies a theoretical scenario where some degree of interactivity is desirable.
Abstract（参考訳）: AIシステムは、指定されたゴールまたは報酬関数と、そのゴールに対する最適な振る舞いを計算する最適化アルゴリズムの2つの重要なコンポーネントに依存していることが多い。このアプローチは、プリンシパル — エージェントの動作を代行するユーザ — に価値を提供することを目的としている。これらのエージェントに与えられた目的は、しばしばプリンシパルの目標の部分的な仕様を参照する。この不完全性のコストは、状態の$L$属性がプリンシパルのためのユーティリティの異なるソースに対応するリソース制約された世界のプリンシパルとエージェントのモデルを分析することによって考慮します。エージェントに与えられた報酬関数は$J < L$属性でのみサポートされていると仮定します。 The contributions of our paper are as follows: 1) we propose a novel model of an incomplete principal-agent problem from artificial intelligence; 2) we provide necessary and sufficient conditions under which indefinitely optimizing for any incomplete proxy objective leads to arbitrarily low overall utility; and 3) we show how modifying the setup to allow reward functions that reference the full state or allowing the principal to update the proxy objective over time can lead to higher utility solutions. この論文の結果は、報酬関数の設計をインタラクティブでダイナミックなプロセスと見なし、ある程度の相互作用が望ましい理論的シナリオを特定するべきであると論じています。

関連論文リスト

Learning to Lead: Incentivizing Strategic Agents in the Dark [50.93875404941184]
一般化プリンシパルエージェントモデルのオンライン学習バージョンについて検討する。この挑戦的な設定のための最初の証明可能なサンプル効率アルゴリズムを開発した。我々は、プリンシパルの最適ポリシーを学ぶために、ほぼ最適な $tildeO(sqrtT) $ regret bound を確立する。
論文参考訳（メタデータ） (2025-06-10T04:25:04Z)
Why Ask One When You Can Ask $k$? Two-Stage Learning-to-Defer to the Top-$k$ Experts [3.6787328174619254]
L2D(Learning-to-Defer)は、不確実な予測をより有能なエージェントに選択的に延期することで、意思決定システムによる信頼性の向上を可能にする。本稿では,従来の2段階L2Dフレームワークを一般化したTop-k$ Learning-to-Deferを提案する。柔軟性とコスト効率をさらに向上するため,各クエリに対して最適なエージェント数を求める適応型拡張であるTop-$k(x)$ Learning-to-Deferを導入する。
論文参考訳（メタデータ） (2025-04-17T14:50:40Z)
Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文参考訳（メタデータ） (2024-07-25T14:28:58Z)
Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文参考訳（メタデータ） (2023-12-30T18:30:44Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [52.75161794035767]
性能インセンティブとロバストネスの2つの目的を同時に満たすバンディットアルゴリズムのクラスを導入する。そこで本研究では,第2価格オークションのアイデアをアルゴリズムと組み合わせることで,プリンシパルが腕の性能特性に関する情報を持たないような設定が可能であることを示す。
論文参考訳（メタデータ） (2023-12-13T06:54:49Z)
Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文参考訳（メタデータ） (2023-08-13T08:12:01Z)
Learning to Incentivize Information Acquisition: Proper Scoring Rules Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。 UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文参考訳（メタデータ） (2023-03-15T13:40:16Z)
Towards a more efficient computation of individual attribute and policy contribution for post-hoc explanation of cooperative multi-agent systems using Myerson values [0.0]
チームにおけるエージェントのグローバルな重要性の定量的評価は、ストラテジスト、意思決定者、スポーツコーチにとって、金と同じくらいの価値がある。マルチエージェントシステムにおけるエージェントのポリシーと特徴の階層的知識グラフを決定する手法を提案する。提案手法を,Deep Reinforcement Learningを通じて得られたハードコードされたポリシーとポリシーの両方をデプロイする実例実証環境で検証する。
論文参考訳（メタデータ） (2022-12-06T15:15:00Z)
Should All Proposals be Treated Equally in Object Detection? [110.27485090952385]
オブジェクト検出器の複雑さと精度のトレードオフは、リソース制約されたビジョンタスクにとって重要な問題である。検出効率の改善には、提案の不平等な処理に向けて、パラダイムシフトが必要であると仮定されている。これにより、利用可能な計算予算がより有効になり、同じFLOPSの精度が向上する。
論文参考訳（メタデータ） (2022-07-07T18:26:32Z)
Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文参考訳（メタデータ） (2020-09-21T09:11:36Z)
VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文参考訳（メタデータ） (2020-04-19T18:00:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。