論文の概要: A Statistical Case Against Empirical Human-AI Alignment
- arxiv url: http://arxiv.org/abs/2502.14581v1
- Date: Thu, 20 Feb 2025 14:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:30:10.008094
- Title: A Statistical Case Against Empirical Human-AI Alignment
- Title(参考訳): 経験的AIアライメントに対する統計的検討
- Authors: Julian Rodemann, Esteban Garces Arias, Christoph Luther, Christoph Jansen, Thomas Augustin,
- Abstract要約: 実証的な人間-AIアライメントは、AIシステムを観察された人間の行動に合わせて動作させることを目的としている。
経験的アライメントは、注意を喚起する統計的バイアスを必然的に導入する可能性があると我々は主張する。
- 参考スコア(独自算出の注目度): 0.873811641236639
- License:
- Abstract: Empirical human-AI alignment aims to make AI systems act in line with observed human behavior. While noble in its goals, we argue that empirical alignment can inadvertently introduce statistical biases that warrant caution. This position paper thus advocates against naive empirical alignment, offering prescriptive alignment and a posteriori empirical alignment as alternatives. We substantiate our principled argument by tangible examples like human-centric decoding of language models.
- Abstract(参考訳): 実証的な人間-AIアライメントは、AIシステムを観察された人間の行動に合わせて動作させることを目的としている。
その目的には敬意を払っているが、経験的アライメントは必然的に、注意を喚起する統計的バイアスをもたらす可能性があると論じる。
この位置紙は、説明的アライメントと後続的な経験アライメントを代替として提供し、ナイーブな経験アライメントに反対する。
我々は、言語モデルの人間中心の復号化のような具体的な例によって、原則的議論を裏付ける。
関連論文リスト
- Being Considerate as a Pathway Towards Pluralistic Alignment for Agentic AI [13.873798698461195]
複数のアライメントは、AIシステムの目的と行動が人間の価値観と視点の多様性と調和していることを保証することを目的としている。
我々は、将来の幸福を考慮し、他の(人間)エージェントのエージェントがいかに多元的アライメントを促進できるかを示す。
論文 参考訳(メタデータ) (2024-11-15T22:34:09Z) - An evidence-based methodology for human rights impact assessment (HRIA) in the development of AI data-intensive systems [49.1574468325115]
我々は、すでに人権がデータ利用の分野で決定を下していることを示している。
本研究は人権影響評価(HRIA)の方法論とモデルである。
提案手法は,具体的ケーススタディで検証し,その有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-07-30T16:27:52Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Measuring and Addressing Indexical Bias in Information Retrieval [69.7897730778898]
PAIRフレームワークは、ランキングドキュメンテーションやIRシステム全体の自動バイアス監査をサポートする。
DUOを導入した後、我々は32kの合成と4.7kの天然文書からなる新しいコーパスで8つのIRシステムの広範な評価を行った。
人間の行動学的研究は、私たちのアプローチを検証し、私たちのバイアスメトリクスが、いつ、どのように指標バイアスが読者の意見を変えるかを予測するのに役立ちます。
論文 参考訳(メタデータ) (2024-06-06T17:42:37Z) - Understanding the Learning Dynamics of Alignment with Human Feedback [17.420727709895736]
本稿では,人間の嗜好アライメントの学習力学を理論的に解析する試みについて述べる。
選好データセットの分布がモデル更新率にどのように影響するかを示し、トレーニング精度に厳密な保証を与える。
論文 参考訳(メタデータ) (2024-03-27T16:39:28Z) - AI Alignment: A Comprehensive Survey [70.35693485015659]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z) - Towards Understanding Sycophancy in Language Models [49.99654432561934]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - Why we need biased AI -- How including cognitive and ethical machine
biases can enhance AI systems [0.0]
学習アルゴリズムにおける人間の認知バイアスの構造的実装について論じる。
倫理的マシン動作を達成するには、フィルタ機構を適用する必要がある。
本論文は、機械バイアスの倫理的重要性を再評価するアイデアを明示的に追求する最初の仮段階である。
論文 参考訳(メタデータ) (2022-03-18T12:39:35Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Taking Principles Seriously: A Hybrid Approach to Value Alignment [7.75406296593749]
価値アライメント(VA)システムの設計者は,ハイブリッドアプローチを用いて倫理を取り入れることを提案する。
AIルールベースにおける任意の行動計画に対して、デオントロジー倫理から派生した原則が、特定の「テスト提案」を暗示する方法を示す。
これにより経験的vaは独立して正当化された倫理原則とシームレスに統合することができる。
論文 参考訳(メタデータ) (2020-12-21T22:05:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。