論文の概要: Agency and Architectural Limits: Why Optimization-Based Systems Cannot Be Norm-Responsive
- arxiv url: http://arxiv.org/abs/2602.23239v1
- Date: Thu, 26 Feb 2026 17:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.81086
- Title: Agency and Architectural Limits: Why Optimization-Based Systems Cannot Be Norm-Responsive
- Title(参考訳): Agency and Architectural Limits:なぜ最適化ベースのシステムはノームレスポンシブでないのか
- Authors: Radha Sarma,
- Abstract要約: AIシステムは、標準によって管理されるという前提の下で、ハイステークな状況にますますデプロイされている。
本稿では、RLHF(Reinforcement Learning)を用いて学習した最適化に基づくシステムに対して、仮定が無効であることを実証する。
我々は、真の機関は2つの必要かつ共同で十分な建築条件を必要とすると断定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI systems are increasingly deployed in high-stakes contexts -- medical diagnosis, legal research, financial analysis -- under the assumption they can be governed by norms. This paper demonstrates that assumption is formally invalid for optimization-based systems, specifically Large Language Models trained via Reinforcement Learning from Human Feedback (RLHF). We establish that genuine agency requires two necessary and jointly sufficient architectural conditions: the capacity to maintain certain boundaries as non-negotiable constraints rather than tradeable weights (Incommensurability), and a non-inferential mechanism capable of suspending processing when those boundaries are threatened (Apophatic Responsiveness). These conditions apply across all normative domains. RLHF-based systems are constitutively incompatible with both conditions. The operations that make optimization powerful -- unifying all values on a scalar metric and always selecting the highest-scoring output -- are precisely the operations that preclude normative governance. This incompatibility is not a correctable training bug awaiting a technical fix; it is a formal constraint inherent to what optimization is. Consequently, documented failure modes - sycophancy, hallucination, and unfaithful reasoning - are not accidents but structural manifestations. Misaligned deployment triggers a second-order risk we term the Convergence Crisis: when humans are forced to verify AI outputs under metric pressure, they degrade from genuine agents into criteria-checking optimizers, eliminating the only component in the system capable of normative accountability. Beyond the incompatibility proof, the paper's primary positive contribution is a substrate-neutral architectural specification defining what any system -- biological, artificial, or institutional -- must satisfy to qualify as an agent rather than a sophisticated instrument.
- Abstract(参考訳): AIシステムは、医学診断、法学研究、財務分析といった高度な文脈において、標準によって管理できると仮定して、ますます展開されている。
本稿では、最適化に基づくシステム、特にReinforcement Learning from Human Feedback (RLHF) を用いて訓練された大規模言語モデルに対して、仮定が正式に無効であることを示す。
我々は、特定の境界を貿易可能な重みよりも非負の制約として維持する能力(非可観測性)と、それらの境界が脅かされたときに処理を停止できる非従属機構(無条件応答性)の2つの必要十分かつ共同的なアーキテクチャ条件が必要であることを確証する。
これらの条件はすべてのノルム領域に適用される。
RLHFベースのシステムは、両条件とも構成的に非互換である。
最適化を強力にする操作 -- スカラーメトリックのすべての値を統一し、常に最高スコアの出力を選択する -- は、まさに規範的なガバナンスを妨げる操作です。
この非互換性は、技術的修正を待っている修正可能なトレーニングバグではない。
その結果、ドキュメント化された障害モード – 梅毒、幻覚、不誠実な推論 – は、偶然ではなく構造的な表現である。
人間がメトリックプレッシャーの下でAI出力を検証せざるを得ない場合、真のエージェントから基準チェックオプティマイザに分解し、規範的な説明責任を持つシステムの中で唯一のコンポーネントを排除します。
不整合性の証明の他に、この論文の主な肯定的な貢献は、生物学的、人工、または制度的な、どんなシステムでも、洗練された道具ではなくエージェントとしての資格を満足しなければならないかを定義する、基質中立のアーキテクチャ仕様である。
関連論文リスト
- Decoding ML Decision: An Agentic Reasoning Framework for Large-Scale Ranking System [26.405948122941467]
本稿では、最適化を自律的な発見プロセスとして再編成するフレームワークであるGEARSを紹介する。
GEARSは、アルゴリズム信号と深いランク付けコンテキストを相乗化することにより、優れた、ほぼパレート効率のポリシーを一貫して識別する。
論文 参考訳(メタデータ) (2026-02-20T22:24:01Z) - FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight [21.731032636844237]
本稿では,双方向のフォーマル・オブ・サートアーキテクチャを用いたニューロシンボリック・フレームワークを提案する。
行動安全,マルチドメイン制約順守,エージェントによる上向き偽装検出の3つのベンチマークにまたがって検証を行った。
論文 参考訳(メタデータ) (2026-02-11T18:48:11Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence [60.202862987441684]
科学的妥当性を確立する制約に厳格に固執しながら、問題を解決する能力。
具体的には,大学レベルの問題と制約の固定されたカタログをペアにすることで,この能力を評価するマルチディシプリンのベンチマークであるSciIFを紹介する。
SciIFは、解の正当性と多拘束性の両方を測定することにより、構成的推論失敗のきめ細かい診断を可能にする。
論文 参考訳(メタデータ) (2026-01-08T09:45:58Z) - From Linear Risk to Emergent Harm: Complexity as the Missing Core of AI Governance [0.0]
リスクベースのAI規制は、予想される損害に対応する比例制御を約束する。
本稿では、そのようなフレームワークは構造上の理由から失敗することが多いと論じる。
我々は,規制を制御ではなく介入として扱う,AIガバナンスのための複雑性ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-14T14:19:21Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - Explainable AI Systems Must Be Contestable: Here's How to Make It Happen [2.5875936082584623]
本稿では、説明可能なAIにおける競合性の最初の厳密な形式的定義について述べる。
我々は、ヒューマン中心のインターフェース、技術プロセス、組織アーキテクチャにまたがる、設計やポストホックメカニズムのモジュール化されたフレームワークを紹介します。
私たちの作業は実践者に、真のリコースと説明責任をAIシステムに組み込むためのツールを提供しています。
論文 参考訳(メタデータ) (2025-06-02T13:32:05Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。