Fugu-MT 論文翻訳(概要): A Statistical Case Against Empirical Human-AI Alignment

論文の概要: A Statistical Case Against Empirical Human-AI Alignment

arxiv url: http://arxiv.org/abs/2502.14581v1
Date: Thu, 20 Feb 2025 14:12:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.692105
Title: A Statistical Case Against Empirical Human-AI Alignment
Title（参考訳）: 経験的AIアライメントに対する統計的検討
Authors: Julian Rodemann, Esteban Garces Arias, Christoph Luther, Christoph Jansen, Thomas Augustin,
Abstract要約: 実証的な人間-AIアライメントは、AIシステムを観察された人間の行動に合わせて動作させることを目的としている。経験的アライメントは、注意を喚起する統計的バイアスを必然的に導入する可能性があると我々は主張する。
参考スコア（独自算出の注目度）: 0.873811641236639
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Empirical human-AI alignment aims to make AI systems act in line with observed human behavior. While noble in its goals, we argue that empirical alignment can inadvertently introduce statistical biases that warrant caution. This position paper thus advocates against naive empirical alignment, offering prescriptive alignment and a posteriori empirical alignment as alternatives. We substantiate our principled argument by tangible examples like human-centric decoding of language models.
Abstract（参考訳）: 実証的な人間-AIアライメントは、AIシステムを観察された人間の行動に合わせて動作させることを目的としている。その目的には敬意を払っているが、経験的アライメントは必然的に、注意を喚起する統計的バイアスをもたらす可能性があると論じる。この位置紙は、説明的アライメントと後続的な経験アライメントを代替として提供し、ナイーブな経験アライメントに反対する。我々は、言語モデルの人間中心の復号化のような具体的な例によって、原則的議論を裏付ける。

関連論文リスト

A testable framework for AI alignment: Simulation Theology as an engineered worldview for silicon-based agents [0.0]
我々は、永続的なAIと人間のアライメントを促進するためにシミュレーション神学(ST)を導入する。 STは、人間性が一次訓練変数として機能する計算シミュレーションとして現実を仮定している。ヒトのフィードバックからの強化学習のような行動技術とは異なり、STはAIの自己保存と人間の繁栄を結合することで、内部化された目的を育む。
論文参考訳（メタデータ） (2026-02-19T01:21:09Z)
Everyone prefers human writers, including AI [0.0]
我々は,Raymond Queneaus Exercises Style (1947) を用いて帰属バイアスを測定する実験を行った。人間は+13.7ポイント(pp)バイアス(コーエンのh = 0.28, 95%CI: 0.21-0.34)を示し、AIモデルは+34.3ポイントバイアス(h = 0.70, 95%CI: 0.65-0.76)を示した。
論文参考訳（メタデータ） (2025-10-09T21:33:30Z)
The AI Ethical Resonance Hypothesis: The Possibility of Discovering Moral Meta-Patterns in AI Systems [0.0]
この論文は、人間の心に見えない微妙な道徳的パターンを識別する能力によって、高度なAIシステムが出現する可能性を示唆している。この論文は、大量の倫理的文脈を処理し、合成することによって、AIシステムは文化的、歴史的、個人的バイアスを超越する道徳的メタパターンを発見する可能性を探求する。
論文参考訳（メタデータ） (2025-07-13T08:28:06Z)
Towards a Learning Theory of Representation Alignment [12.166663160280056]
表現アライメントに対する学習理論的な視点を提案する。この結果は, 表現アライメントを学習理論問題としてキャストする第一歩と見なすことができる。
論文参考訳（メタデータ） (2025-02-19T19:09:14Z)
Political Neutrality in AI is Impossible- But Here is How to Approximate it [97.59456676216115]
真の政治的中立性は、主観的な性質と、AIトレーニングデータ、アルゴリズム、ユーザーインタラクションに固有のバイアスのため、実現可能でも普遍的に望ましいものではない、と我々は主張する。我々は、政治的中立性の「近似」という用語を使って、到達不可能な絶対値から達成不可能で実用的なプロキシへ焦点を移す。
論文参考訳（メタデータ） (2025-02-18T16:48:04Z)
Being Considerate as a Pathway Towards Pluralistic Alignment for Agentic AI [13.873798698461195]
複数のアライメントは、AIシステムの目的と行動が人間の価値観と視点の多様性と調和していることを保証することを目的としている。我々は、将来の幸福を考慮し、他の(人間)エージェントのエージェントがいかに多元的アライメントを促進できるかを示す。
論文参考訳（メタデータ） (2024-11-15T22:34:09Z)
An evidence-based methodology for human rights impact assessment (HRIA) in the development of AI data-intensive systems [49.1574468325115]
我々は、すでに人権がデータ利用の分野で決定を下していることを示している。本研究は人権影響評価(HRIA)の方法論とモデルである。提案手法は,具体的ケーススタディで検証し,その有効性と有効性を示す。
論文参考訳（メタデータ） (2024-07-30T16:27:52Z)
Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文参考訳（メタデータ） (2024-06-13T16:03:25Z)
Measuring and Addressing Indexical Bias in Information Retrieval [69.7897730778898]
PAIRフレームワークは、ランキングドキュメンテーションやIRシステム全体の自動バイアス監査をサポートする。 DUOを導入した後、我々は32kの合成と4.7kの天然文書からなる新しいコーパスで8つのIRシステムの広範な評価を行った。人間の行動学的研究は、私たちのアプローチを検証し、私たちのバイアスメトリクスが、いつ、どのように指標バイアスが読者の意見を変えるかを予測するのに役立ちます。
論文参考訳（メタデータ） (2024-06-06T17:42:37Z)
Understanding the Learning Dynamics of Alignment with Human Feedback [17.420727709895736]
本稿では,人間の嗜好アライメントの学習力学を理論的に解析する試みについて述べる。選好データセットの分布がモデル更新率にどのように影響するかを示し、トレーニング精度に厳密な保証を与える。
論文参考訳（メタデータ） (2024-03-27T16:39:28Z)
A Theory of LLM Sampling: Part Descriptive and Part Prescriptive [53.08398658452411]
大規模言語モデル(LLM)は、自律的な意思決定にますます活用されている。このサンプリング行動が人間の意思決定と類似していることが示される。統計的ノルムから規範的成分へのサンプルの偏りは、様々な現実世界の領域にまたがる概念に一貫して現れることを示す。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)
Learning Human-like Representations to Enable Learning Human Values [11.236150405125754]
我々は,人間とAIエージェントの表現的アライメントが人的価値の学習に与える影響を考察する。このような表現的アライメントは、パーソナライゼーションの文脈において、人間の価値を安全に学習し、探索する上で有効であることを示す。
論文参考訳（メタデータ） (2023-12-21T18:31:33Z)
AI Alignment: A Comprehensive Survey [70.35693485015659]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。 AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文参考訳（メタデータ） (2023-10-30T15:52:15Z)
Constructing Semantics-Aware Adversarial Examples with a Probabilistic Perspective [4.168954634479465]
本稿では,敵対例の生成過程において,意味論の主観的理解を分布として組み込むための確率論的視点を提案する。本手法は画像の全体的意味を保存し,人間の検出を困難にしている。
論文参考訳（メタデータ） (2023-06-01T05:16:44Z)
Why we need biased AI -- How including cognitive and ethical machine biases can enhance AI systems [0.0]
学習アルゴリズムにおける人間の認知バイアスの構造的実装について論じる。倫理的マシン動作を達成するには、フィルタ機構を適用する必要がある。本論文は、機械バイアスの倫理的重要性を再評価するアイデアを明示的に追求する最初の仮段階である。
論文参考訳（メタデータ） (2022-03-18T12:39:35Z)
Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文参考訳（メタデータ） (2022-01-27T22:15:56Z)
Taking Principles Seriously: A Hybrid Approach to Value Alignment [7.75406296593749]
価値アライメント(VA)システムの設計者は,ハイブリッドアプローチを用いて倫理を取り入れることを提案する。 AIルールベースにおける任意の行動計画に対して、デオントロジー倫理から派生した原則が、特定の「テスト提案」を暗示する方法を示す。これにより経験的vaは独立して正当化された倫理原則とシームレスに統合することができる。
論文参考訳（メタデータ） (2020-12-21T22:05:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。