論文の概要: Via Negativa for AI Alignment: Why Negative Constraints Are Structurally Superior to Positive Preferences
- arxiv url: http://arxiv.org/abs/2603.16417v1
- Date: Tue, 17 Mar 2026 11:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.255269
- Title: Via Negativa for AI Alignment: Why Negative Constraints Are Structurally Superior to Positive Preferences
- Title(参考訳): AIアライメントのためのネガティヴァ - 否定的制約が肯定的優先よりも構造的に優れている理由
- Authors: Quan Cheng,
- Abstract要約: 負のフィードバックしか持たない大規模言語モデルのトレーニングは、人間のフィードバックから標準的な強化学習と一致したり、超えたりすることができる。
負の信号がこれほど効果的である理由を説明する統一的な理論的な説明は存在しない。
正の選好と負の制約は構造的に非対称である。
- 参考スコア(独自算出の注目度): 0.786119752211706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent empirical results have demonstrated that training large language models (LLMs) with negative-only feedback can match or exceed standard reinforcement learning from human feedback (RLHF). Negative Sample Reinforcement achieves parity with PPO on mathematical reasoning; Distributional Dispreference Optimization trains effectively using only dispreferred samples; and Constitutional AI outperforms pure RLHF on harmlessness benchmarks. Yet no unified theoretical account explains why negative signals are so effective. This paper proposes such an account: positive preferences and negative constraints are structurally asymmetric. Positive preferences ("which is better") encode continuously coupled, context-dependent human values that cannot be exhaustively specified -- leading models to learn surface correlates such as agreement with the user (sycophancy). Negative constraints ("what is wrong") encode discrete, finite, independently verifiable prohibitions that can converge to a stable boundary. This asymmetry -- rooted in Popper's falsification logic and the epistemology of negative knowledge -- explains both the sycophancy failure of preference-based RLHF and the surprising effectiveness of negative-signal methods. We argue that alignment research should shift its center of gravity from "learning what humans prefer" to "learning what humans reject," and offer testable predictions for this framework.
- Abstract(参考訳): 近年の実証実験の結果, 負のフィードバックによる大規模言語モデル(LLM)のトレーニングは, 人間のフィードバック(RLHF)からの標準的な強化学習と一致するか, あるいは超えることが示されている。
負のサンプル強化は、数学的推論においてPPOと同等であり、分散参照最適化は、非推奨サンプルのみを効果的に使用し、構成AIは、無害ベンチマークで純粋なRLHFより優れている。
しかし、なぜ負の信号がこれほど効果的であるかを説明する統一的な理論的な説明は存在しない。
本稿では,正の嗜好と負の制約は構造的に非対称であることを示す。
肯定的嗜好(よりよい)は、連続的に結合され、排他的に特定できない文脈依存の人間の値を符号化する -- ユーザとの合意(語彙)のような表面的相関を学習するモデルを導く。負の制約(何が間違っているのか)は、離散的で有限で、安定な境界に収束する検証可能な禁制を符号化する。この非対称性は、Popperのファルシフィフィケーション論理と負の知識の認識論に根ざしたもので、嗜好に基づくRLHFの梅毒の失敗と、負の信号法の驚くべき効果の両方を説明する。
我々は、アライメント研究は、その重心を「人間が何を好むかを学ぶ」から「人間が何を拒絶するかを学ぶ」へとシフトし、この枠組みの検証可能な予測を提供するべきだと論じている。
関連論文リスト
- ReNCE: Learning to Reason by Noise Contrastive Estimation [7.590073864595161]
GRPOは、事前訓練されたLLMに推論機能を持たせるための標準的なアプローチである。
優位性を推定する代わりに、正と負の集合に$K$の結果を二分する。
論文 参考訳(メタデータ) (2026-01-30T00:57:31Z) - Correct and Weight: A Simple Yet Effective Loss for Implicit Feedback Recommendation [36.820719132176315]
本稿では,CW損失(Corrected and Weighted, CW損失)という,新規で原則化された損失関数を提案する。
CW損失は訓練対象内の偽陰性の影響を体系的に補正する。
4つの大規模でスパースなベンチマークデータセットで実施された実験は、提案した損失の優越性を実証している。
論文 参考訳(メタデータ) (2026-01-07T15:20:27Z) - Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文 参考訳(メタデータ) (2025-12-31T12:08:29Z) - Negative-Prompt-driven Alignment for Generative Language Model [34.191590966148816]
本稿では,言語モデルが望ましくない行動から遠ざかるように,NEGative-prompt-driven AlignmenTを提案する。
NEATは有害なアウトプットを生成するためのモデルを明確に罰し、望ましい行動だけでなく、望ましくない偏見のある反応を発生させないよう仕向けている。
大規模な実験により、NEATは言語モデルと人間の価値観と嗜好との整合性を著しく向上させる効果を検証した。
論文 参考訳(メタデータ) (2024-10-16T03:30:09Z) - Negating Negatives: Alignment with Human Negative Samples via Distributional Dispreference Optimization [37.8788435790632]
大規模言語モデル(LLM)は、AIの役割に革命をもたらしたが、潜在的な社会的リスクをもたらしている。
既存の方法は高品質な正負の訓練ペアに依存しており、ノイズの多い正の反応に悩まされており、負の反応とほとんど区別できない。
本稿では,非参照応答と生成した非負応答との差を最大化する分散参照最適化(D$2$O)を提案する。
論文 参考訳(メタデータ) (2024-03-06T03:02:38Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z) - Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - NPCFace: Negative-Positive Collaborative Training for Large-scale Face
Recognition [78.21084529159577]
我々は、トレーニングを改善するために、ハードサンプルのより良い利用方法を研究する。
強正と強負の相関は見過ごされ、正と負のロジットのマージンの関係も見過ごされる。
我々はNPCFaceと呼ばれる新規な負の正の協調的損失を提案し、これは負のハードケースと正のハードケースの両方のトレーニングを強調している。
論文 参考訳(メタデータ) (2020-07-20T14:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。