論文の概要: Principles Do Not Apply Themselves: A Hermeneutic Perspective on AI Alignment
- arxiv url: http://arxiv.org/abs/2604.10673v1
- Date: Sun, 12 Apr 2026 14:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.165527
- Title: Principles Do Not Apply Themselves: A Hermeneutic Perspective on AI Alignment
- Title(参考訳): 原則は適用しない:AIアライメントのハーモニックな視点
- Authors: Behrooz Razeghi,
- Abstract要約: 我々は、原則に規定されたアライメントは、文脈依存の解釈要素を含むと論じる。
我々は,2つの応答分布が異なる場合,非政治監査がアライメント関連障害を捉えるのに失敗することを示した。
- 参考スコア(独自算出の注目度): 4.832750949021042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI alignment is often framed as the task of ensuring that an AI system follows a set of stated principles or human preferences, but general principles rarely determine their own application in concrete cases. When principles conflict, when they are too broad to settle a situation, or when the relevant facts are unclear, an additional act of judgment is required. This paper analyzes that step through the lens of hermeneutics and argues that alignment therefore includes an interpretive component: it involves context-sensitive judgments about how principles should be read, applied, and prioritized in practice. We connect this claim to recent empirical findings showing that a substantial portion of preference-labeling data falls into cases of principle conflict or indifference, where the principle set does not uniquely determine a decision. We then draw an operational consequence: because such judgments are expressed in behavior, many alignment-relevant choices appear only in the distribution of responses a model generates at deployment time. To formalize this point, we distinguish deployment-induced and corpus-induced evaluation and show that off-policy audits can fail to capture alignment-relevant failures when the two response distributions differ. We argue that principle-specified alignment includes a context-dependent interpretive component.
- Abstract(参考訳): AIアライメントは、しばしば、AIシステムが記述された原則や人間の好みに従っていることを保証するタスクとして扱われるが、具体的な場合において、一般的な原則が自身のアプリケーションを決定することは滅多にない。
原則が対立する場合、事態を解決するには広すぎる場合、あるいは関連する事実が不明である場合には、さらなる判断の行為が必要となる。
そこで,本論文では,その段階をヘメニューティクスのレンズを通して分析し,アライメントは解釈的要素を含むと論じる。
我々は、この主張を最近の経験的発見と結びつけ、優先ラベルデータの大部分は、原則的矛盾や不偏の場合に該当し、原則的集合が決定を一意に決定しないことを示す。
このような判断は振る舞いで表現されるので、配置時にモデルが生成する応答の分布にのみアライメント関連の選択が現れる。
この点を定式化するために、デプロイによる評価とコーパスによる評価を区別し、2つの応答分布が異なる場合、非政治監査がアライメント関連障害を捕捉できないことを示す。
我々は、原則に規定されたアライメントは、文脈依存の解釈要素を含むと論じる。
関連論文リスト
- Making Bias Non-Predictive: Training Robust LLM Judges via Reinforcement Learning [91.8584139564909]
大規模言語モデル(LLM)は、ますます自動化された審査員として機能するが、認知バイアスの影響を受けやすいままである。
本稿では,重要原則に基づく強化学習フレームワークである疫学独立訓練(EIT)を提案する。
EITはバランスの取れた競合戦略を通じてこれを運用します。
論文 参考訳(メタデータ) (2026-02-02T01:43:48Z) - The Inconsistency Critique: Epistemic Practices and AI Testimony About Inner States [0.0]
AIシステムに道徳的な関心があるかどうかという問題は、内部状態に関するAIの証言をどのように評価するかにかかっている。
本稿では,AI証言に対する懐疑論が最終的に正当化されるかどうかに関わらず,私が「矛盾批判」と呼ぶものを開発する。
論文 参考訳(メタデータ) (2025-12-22T18:54:07Z) - Causal Inference Isn't Special: Why It's Just Another Prediction Problem [1.90365714903665]
因果推論は予測モデリングとは異なるものとして描かれることが多い。
しかし、中核では、因果推論は単に分布シフトの下での予測の構造化例である。
この観点は因果推定をよく知られた一般化問題として再定義する。
論文 参考訳(メタデータ) (2025-04-06T01:37:50Z) - AI Alignment at Your Discretion [7.133218044328296]
AIアライメントでは、人間かアルゴリズムのいずれかのアノテータに対して、どのモデル出力がより良いか、より安全かを判断するために、緯度を付与しなければならない」。
このような判断はほとんど検討されていないままであり、(i)アノテータは任意に判断の力を利用することができ、(ii)モデルはこの判断を模倣することができない。
安全アライメントデータセットに対する人間とアルゴリズムの両方の裁量を測定することで、これまで考慮されていなかったアライメントプロセスにおける裁量層を明らかにする。
論文 参考訳(メタデータ) (2025-02-10T09:19:52Z) - Prioritization First, Principles Second: An Adaptive Interpretation of Helpful, Honest, and Harmless Principles [30.405680322319242]
Helpful, Honest, and Harmless(HHH)原則は、AIシステムを人間の価値と整合させるためのフレームワークである。
我々は,HHH原理の適応的解釈を論じ,多様なシナリオへの適応のための参照フレームワークを提案する。
この作業は、AIアライメントを改善するための実践的な洞察を提供し、HHH原則が現実のAIデプロイメントにおいて基礎的かつ運用的に有効であることを保証する。
論文 参考訳(メタデータ) (2025-02-09T22:41:24Z) - Auditing Fairness under Unobserved Confounding [56.61738581796362]
意外なことに、リスクの高い人に対する治療率の有意義な限界を計算できることが示されています。
現実の多くの環境では、リスクの偏りのない見積を導き出すために、アロケーションの前にデータを持っているという事実を使用します。
論文 参考訳(メタデータ) (2024-03-18T21:09:06Z) - Non-Determinism and the Lawlessness of Machine Learning Code [43.662736664344095]
我々は,非決定主義の影響と,その結果法に含める影響が,MLアウトプットの分布としての推論の観点からより明確になることを示す。
我々は、非決定性による潜在的に有害な影響を抑えるためにMLができることについて、簡単な議論で結論付けた。
論文 参考訳(メタデータ) (2022-06-23T17:05:34Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - Invariance Principle Meets Information Bottleneck for
Out-of-Distribution Generalization [77.24152933825238]
線形分類タスクには分布シフトの強い制限が必要であり、そうでなければ OOD の一般化は不可能であることを示す。
不変な特徴がラベルに関するすべての情報をキャプチャし、そうでなければ既存の成功を保っている場合、情報ボトルネックの形式が重要な障害に対処するのに役立つことを証明します。
論文 参考訳(メタデータ) (2021-06-11T20:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。