Fugu-MT 論文翻訳(概要): Modeling Human Beliefs about AI Behavior for Scalable Oversight

論文の概要: Modeling Human Beliefs about AI Behavior for Scalable Oversight

arxiv url: http://arxiv.org/abs/2502.21262v1
Date: Fri, 28 Feb 2025 17:39:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:46.08195
Title: Modeling Human Beliefs about AI Behavior for Scalable Oversight
Title（参考訳）: スケーラブルな監視のためのAI行動に関する人間信念のモデル化
Authors: Leon Lang, Patrick Forré,
Abstract要約: AIシステムがより能力を持つようになると、人間のフィードバックはますます信頼できなくなる。これは、スケーラブルな監視の問題を提起する: 人間の能力を超えたAIシステムをどのように監視するか? 我々は、人間のフィードバックをよりよく解釈するために、AIシステムの振る舞いに対する人間の評価者の信念をモデル化することを提案する。
参考スコア（独自算出の注目度）: 15.535954576226207
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contemporary work in AI alignment often relies on human feedback to teach AI systems human preferences and values. Yet as AI systems grow more capable, human feedback becomes increasingly unreliable. This raises the problem of scalable oversight: How can we supervise AI systems that exceed human capabilities? In this work, we propose to model the human evaluator's beliefs about the AI system's behavior to better interpret the human's feedback. We formalize human belief models and theoretically analyze their role in inferring human values. We then characterize the remaining ambiguity in this inference and conditions for which the ambiguity disappears. To mitigate reliance on exact belief models, we then introduce the relaxation of human belief model covering. Finally, we propose using foundation models to construct covering belief models, providing a new potential approach to scalable oversight.
Abstract（参考訳）: AIアライメントにおける現代の仕事は、AIシステムに人間の好みと価値観を教えるために、人間のフィードバックに依存することが多い。しかし、AIシステムがより有能になるにつれて、人間のフィードバックはますます信頼できなくなる。これは、スケーラブルな監視の問題を提起する: 人間の能力を超えたAIシステムをどのように監視するか? 本研究では、人間のフィードバックをよりよく解釈するために、AIシステムの振る舞いに対する人間の評価者の信念をモデル化することを提案する。我々は、人間の信念モデルを定式化し、人間の価値を推測する上でのそれらの役割を理論的に分析する。そして、この推論における残りのあいまいさと、あいまいさが消える条件を特徴づける。正確な信念モデルへの依存を軽減するために,人間の信念モデル被覆の緩和を導入する。最後に,基礎モデルを用いて包括的信念モデルを構築し,スケーラブルな監視に対する新たな潜在的アプローチを提案する。

関連論文リスト

An Approach to Grounding AI Model Evaluations in Human-derived Criteria [0.0]
そこで本研究では,人為評価基準による既存ベンチマークを向上するための新しい手法を提案する。パーセプションテストとOpenEQAベンチマークで調査を行い、詳細なインタビューと大規模調査を行った。その結果、参加者はAIに解釈的・共感的スキルが欠如していると認識しているが、AIのパフォーマンスに対する高い期待は持たないことがわかった。
論文参考訳（メタデータ） (2025-09-04T21:40:32Z)
When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration [79.69935257008467]
我々は,人間とAIの知識伝達能力に関する概念的かつ実験的フレームワークである知識統合と伝達評価(KITE)を紹介する。最初の大規模人間実験(N=118)を行い,その測定を行った。 2段階のセットアップでは、まずAIを使って問題解決戦略を思いつき、その後独立してソリューションを実装し、モデル説明が人間の理解に与える影響を分離します。
論文参考訳（メタデータ） (2025-06-05T20:48:16Z)
Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。現在のLSMは、人間に対する信頼の欠如を示す。本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-03T06:22:19Z)
The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文参考訳（メタデータ） (2024-12-15T10:34:06Z)
Modelling Human Values for AI Reasoning [2.320648715016106]
我々は,その明示的な計算表現のために,人間の値の形式モデルを詳述する。我々は、このモデルが、価値に対するAIベースの推論の基礎となる装置をいかに提供できるかを示す。我々は、AIにおける人間の価値を統合し、学際的に研究するためのロードマップを提案する。
論文参考訳（メタデータ） (2024-02-09T12:08:49Z)
Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文参考訳（メタデータ） (2023-12-10T23:13:23Z)
Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-10-13T07:03:39Z)
Intent-aligned AI systems deplete human agency: the need for agency foundations research in AI safety [2.3572498744567127]
人間の意図の一致は、安全なAIシステムには不十分である、と我々は主張する。我々は、人類の長期的機関の保存がより堅牢な標準であると論じている。
論文参考訳（メタデータ） (2023-05-30T17:14:01Z)
Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2023-04-16T11:22:59Z)
A Review of the Role of Causality in Developing Trustworthy AI Systems [16.267806768096026]
最先端のAIモデルは、現実世界の人間の理解を支配する因果関係の理解がほとんどない。近年,AIモデルの信頼性を向上するための強力なツールとして因果モデリングや推論手法が登場している。
論文参考訳（メタデータ） (2023-02-14T11:08:26Z)
When to Make Exceptions: Exploring Language Models as Accounts of Human Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。 AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。ルール破りの質問応答からなる新しい課題セットを提案する。
論文参考訳（メタデータ） (2022-10-04T09:04:27Z)
Modeling Human Behavior Part I -- Learning and Belief Approaches [0.0]
探索とフィードバックを通じて行動のモデルや方針を学ぶ手法に焦点を当てる。次世代の自律的適応システムは、主にAIエージェントと人間がチームとして一緒に働く。
論文参考訳（メタデータ） (2022-05-13T07:33:49Z)
Best-Response Bayesian Reinforcement Learning with Bayes-adaptive POMDPs for Centaurs [22.52332536886295]
本稿では,人間とAIの相互作用を逐次ゲームとして新たに定式化する。このケースでは、有界人間によるより良い意思決定を支援するというAIの問題は、ベイズ対応のPOMDPに還元される。我々は、機械が自身の限界と人間の助けを借りて改善する方法について議論する。
論文参考訳（メタデータ） (2022-04-03T21:00:51Z)
The Response Shift Paradigm to Quantify Human Trust in AI Recommendations [6.652641137999891]
説明可能性、解釈可能性、そしてそれらがAIシステムに対する人間の信頼にどれほど影響するかは、究極的には機械学習と同じくらいの人間の認知の問題である。我々は,AIレコメンデーションが人的決定に与える影響を定量化する汎用のヒューマン・AIインタラクション・パラダイムを開発し,検証した。我々の実証・実証パラダイムは、急速に成長するXAI/IAIアプローチをエンドユーザーへの影響の観点から定量的に比較することができる。
論文参考訳（メタデータ） (2022-02-16T22:02:09Z)
Uncalibrated Models Can Improve Human-AI Collaboration [10.106324182884068]
私たちは、AIモデルを実際によりも自信を持って提示することで、人間-AIのパフォーマンスが向上することを示した。私たちはまず、何千もの人間のインタラクションのデータを使って、人間がAIアドバイスを組み込む方法のモデルを学びます。
論文参考訳（メタデータ） (2022-02-12T04:51:00Z)
Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文参考訳（メタデータ） (2022-01-26T18:53:09Z)
Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文参考訳（メタデータ） (2021-07-12T14:21:46Z)
Effect of Confidence and Explanation on Accuracy and Trust Calibration in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文参考訳（メタデータ） (2020-01-07T15:33:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。