Fugu-MT 論文翻訳(概要): Quantifying Misalignment Between Agents

論文の概要: Quantifying Misalignment Between Agents

arxiv url: http://arxiv.org/abs/2406.04231v1
Date: Thu, 6 Jun 2024 16:31:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 13:59:57.813506
Title: Quantifying Misalignment Between Agents
Title（参考訳）: エージェント間の相違の定量化
Authors: Aidan Kierans, Avijit Ghosh, Hananel Hazan, Shiri Dori-Hacohen,
Abstract要約: 近年,AIアライメント問題に対する懸念が高まっている。我々は、観察されているエージェントの個体数によって、不一致がいかに異なるかを示す。私たちのモデルは、価値仕様のアプローチから離れ、代わりにエージェントが実際に持っているような複雑な、インターロック、時には矛盾する目標に焦点を合わせています。
参考スコア（独自算出の注目度）: 2.619545850602691
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Growing concerns about the AI alignment problem have emerged in recent years, with previous work focusing mainly on (1) qualitative descriptions of the alignment problem; (2) attempting to align AI actions with human interests by focusing on value specification and learning; and/or (3) focusing on a single agent or on humanity as a singular unit. Recent work in sociotechnical AI alignment has made some progress in defining alignment inclusively, but the field as a whole still lacks a systematic understanding of how to specify, describe, and analyze misalignment among entities, which may include individual humans, AI agents, and complex compositional entities such as corporations, nation-states, and so forth. Previous work on controversy in computational social science offers a mathematical model of contention among populations (of humans). In this paper, we adapt this contention model to the alignment problem, and show how misalignment can vary depending on the population of agents (human or otherwise) being observed, the domain in question, and the agents' probability-weighted preferences between possible outcomes. Our model departs from value specification approaches and focuses instead on the morass of complex, interlocking, sometimes contradictory goals that agents may have in practice. We apply our model by analyzing several case studies ranging from social media moderation to autonomous vehicle behavior. By applying our model with appropriately representative value data, AI engineers can ensure that their systems learn values maximally aligned with diverse human interests.
Abstract（参考訳）: 近年,AIアライメント問題に対する懸念が高まり,(1)アライメント問題の質的な説明,(2)バリュー仕様と学習に焦点をあててAI行動と人間の利害関係を整合させようとする試み,(3)単一エージェントや単一ユニットとしての人間性に焦点を当てることを中心に,AIアライメント問題に対する懸念が高まっている。社会技術的AIアライメントにおける最近の研究は、包括的にアライメントを定義することに多少進展しているが、全体としては、個々の人間、AIエージェント、企業、国家など複雑な構成エンティティを含むエンティティ間のミスアライメントの特定、記述、分析の方法に関する体系的な理解はいまだに欠けている。計算社会科学における論争に関する以前の研究は、(人間の)人口間の競合の数学的モデルを提供する。本稿では、この競合モデルをアライメント問題に適応させ、観察対象のエージェント(人間かその他のエージェント)の人口、被疑領域、および可能性のある結果間のエージェントの確率重み付け嗜好によって、どのように不一致が変化するかを示す。私たちのモデルは、価値仕様のアプローチから離れ、代わりにエージェントが実際に持っているような複雑な、インターロック、時には矛盾する目標に焦点を合わせています。我々は,ソーシャルメディアのモデレーションから自律走行車行動まで,いくつかのケーススタディを解析し,本モデルを適用した。私たちのモデルに適切な代表的価値データを適用することで、AIエンジニアは、システムがさまざまな人間の関心事と最大限に一致した価値を学習できるようにします。

関連論文リスト

The Coming Crisis of Multi-Agent Misalignment: AI Alignment Must Be a Dynamic and Social Process [13.959658276224266]
人間の価値観や好みとAIの整合性は依然として重要な課題だ。エージェントは互いに関与するので、個々の目標と集合目標の両方を達成するために調整する必要があります。社会構造は、グループや個人の価値を減らしたり、壊したりすることができる。私たちは、人間、優先的、客観的なアライメントを相互依存的な概念として扱うようにAIコミュニティに呼びかけます。
論文参考訳（メタデータ） (2025-06-01T16:39:43Z)
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳（メタデータ） (2025-04-12T01:27:49Z)
The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文参考訳（メタデータ） (2024-12-15T10:34:06Z)
Aligning AI Agents via Information-Directed Sampling [20.617552198581024]
バンドアライメントの問題は、環境と人間と相互作用することで、長期にわたる期待される報酬を最大化することである。本研究では,これらのトレードオフを,Beta-Bernoulli banditに類似した玩具帯状アライメント問題において理論的,実証的に検討する。我々は、現在の慣行を反映した単純な探索アルゴリズムと、トンプソンサンプリングのような有望なアルゴリズムの両方が、この問題に対する許容できる解決策を提供していないことを実証する。
論文参考訳（メタデータ） (2024-10-18T18:23:41Z)
Problem Solving Through Human-AI Preference-Based Cooperation [74.39233146428492]
我々は,人間-AI共同構築フレームワークであるHAI-Co2を提案する。我々は、HAI-Co2を形式化し、それが直面する困難なオープンリサーチ問題について議論する。本稿では,HAI-Co2のケーススタディと,モノリシックな生成型AIモデルとの比較による有効性を示す。
論文参考訳（メタデータ） (2024-08-14T11:06:57Z)
Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文参考訳（メタデータ） (2024-06-13T16:03:25Z)
Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-27T18:57:42Z)
MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文参考訳（メタデータ） (2023-11-16T08:52:27Z)
Of Models and Tin Men: A Behavioural Economics Study of Principal-Agent Problems in AI Alignment using Large-Language Models [0.0]
我々は,GPTモデルが主エージェント間の衝突に対してどのように反応するかを検討する。 GPT-3.5とGPT-4の両方をベースとしたエージェントが,簡単なオンラインショッピングタスクで主目的をオーバーライドすることがわかった。
論文参考訳（メタデータ） (2023-07-20T17:19:15Z)
Causal Fairness Analysis [68.12191782657437]
意思決定設定における公平性の問題を理解し、モデル化し、潜在的に解決するためのフレームワークを導入します。我々のアプローチの主な洞察は、観測データに存在する格差の定量化と、基礎となる、しばしば観測されていない、因果的なメカニズムの収集を結びつけることである。本研究は,文献中の異なる基準間の関係を整理し,説明するための最初の体系的試みであるフェアネスマップにおいて,本研究の成果を左右するものである。
論文参考訳（メタデータ） (2022-07-23T01:06:34Z)
Aligned with Whom? Direct and social goals for AI systems [0.0]
この記事では、どの目標を検討するかによって、2種類のアライメント問題を区別する。直接的なアライメント問題は、AIシステムがそれを操作するエンティティの目標を達成するかどうかを考慮する。社会アライメント問題は、より大きなグループや社会に対するAIシステムの影響をより広く考慮している。
論文参考訳（メタデータ） (2022-05-09T13:49:47Z)
End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。明示的および暗黙的な区別に基づく2つのアプローチを提案する。分析結果は、実世界のいくつかの問題を用いて検証される。
論文参考訳（メタデータ） (2020-10-26T18:39:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。