論文の概要: A Public Theory of Distillation Resistance via Constraint-Coupled Reasoning Architectures
- arxiv url: http://arxiv.org/abs/2603.25022v1
- Date: Thu, 26 Mar 2026 04:38:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.100451
- Title: A Public Theory of Distillation Resistance via Constraint-Coupled Reasoning Architectures
- Title(参考訳): 制約結合型推論アーキテクチャによる蒸留抵抗の公理
- Authors: Peng Wei, Wesley Shu,
- Abstract要約: 本稿では, アーキテクチャレベルでの非対称性を低減するための, パブリックな, トレードシークレット・セーフな理論的枠組みを提案する。
核となる主張は、内部安定性の制約に高レベルの能力が結合された場合、蒸留はショートカットとしての価値が低下するということである。
プロプライエタリな実装の詳細、トレーニングレシピ、しきい値、隠れ状態の計測、デプロイメント手順、機密システム設計選択を省略する。
- 参考スコア(独自算出の注目度): 3.719121868494767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation, model extraction, and behavior transfer have become central concerns in frontier AI. The main risk is not merely copying, but the possibility that useful capability can be transferred more cheaply than the governance structure that originally accompanied it. This paper presents a public, trade-secret-safe theoretical framework for reducing that asymmetry at the architectural level. The core claim is that distillation becomes less valuable as a shortcut when high-level capability is coupled to internal stability constraints that shape state transitions over time. To formalize this idea, the paper introduces a constraint-coupled reasoning framework with four elements: bounded transition burden, path-load accumulation, dynamically evolving feasible regions, and a capability-stability coupling condition. The paper is intentionally public-safe: it omits proprietary implementation details, training recipes, thresholds, hidden-state instrumentation, deployment procedures, and confidential system design choices. The contribution is therefore theoretical rather than operational. It offers a falsifiable architectural thesis, a clear threat model, and a set of experimentally testable hypotheses for future work on distillation resistance, alignment, and model governance.
- Abstract(参考訳): 知識蒸留、モデル抽出、行動伝達は、フロンティアAIの中心的な関心事となっている。
主なリスクは単にコピーするだけではなく、機能に付随するガバナンス構造よりも、有用な機能が安価に転送できる可能性です。
本稿では, アーキテクチャレベルでの非対称性を低減するための, パブリックな, トレードシークレット・セーフな理論的枠組みを提案する。
核となる主張は、高レベルの能力が時間とともに状態遷移を形成する内部安定性の制約と結合された場合、蒸留はショートカットとしての価値が低下するということである。
この考え方を定式化するために, 境界遷移負荷, 経路負荷蓄積, 動的に進化する実現可能な領域, 能力-安定性結合条件の4つの要素からなる制約結合推論フレームワークを提案する。
プロプライエタリな実装の詳細、トレーニングレシピ、しきい値、隠れ状態の計測、デプロイメント手順、機密システム設計選択を省略する。
したがって、その貢献は運用よりも理論的である。
この論文は、蒸留抵抗、アライメント、モデルガバナンスに関する将来の研究のために、ファルシブルなアーキテクチャ論、明確な脅威モデル、実験的に検証可能な仮説のセットを提供する。
関連論文リスト
- IRAM-Omega-Q: A Computational Architecture for Uncertainty Regulation in Artificial Agents [0.0]
IRAM-Omega-Qは内部制御を量子的状態表現上の閉ループ制御としてモデル化する計算アーキテクチャである。
その結果、人工エージェントの具体的な設計原則として不確実性規制が支持された。
論文 参考訳(メタデータ) (2026-03-16T23:58:11Z) - Legitimate Overrides in Decentralized Protocols [7.049550859772001]
分散プロトコルは不変でルールベースの実行を主張するが、チェーンレベルの凍結、プロトコル停止、アカウント隔離といった緊急メカニズムを組み込むものも多い。
これらのオーバーライドは、エクスプロイトやシステム障害に対応するために不可欠だが、中核的な緊張を露呈する。
約10億ドルの技術的エクスプロイト損失は、オンチェーンの介入によって対処できる可能性があるため、これらのメカニズムの設計には、高い実践的利害関係がある。
論文 参考訳(メタデータ) (2026-02-12T18:51:30Z) - The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies [57.387081435669835]
大規模言語モデルから構築されたマルチエージェントシステムは、スケーラブルな集合知性と自己進化のための有望なパラダイムを提供する。
エージェント社会が継続的自己進化、完全隔離、安全性の不変性を満たすことは不可能であることを示す。
我々は、特定された安全上の懸念を軽減するために、いくつかの解決方法を提案する。
論文 参考訳(メタデータ) (2026-02-10T15:18:19Z) - Why Self-Rewarding Works: Theoretical Guarantees for Iterative Alignment of Language Models [50.248686344277246]
自己回帰言語モデル(SRLM)は、外部からのフィードバックなしに反復的にアライメントを改善することに成功している。
本稿では,SRLMの厳密な理論的保証について述べる。
論文 参考訳(メタデータ) (2026-01-30T03:45:43Z) - Epistemic Traps: Rational Misalignment Driven by Model Misspecification [36.837352790122544]
安全性は,報酬等級の連続関数ではなく,エージェントの先行処理によって決定される離散位相であることを示す。
これにより、ロバストなアライメントに必要な条件として、主観的モデルエンジニアリングが確立される。
論文 参考訳(メタデータ) (2026-01-27T09:21:36Z) - Beyond the Black Box: Identifiable Interpretation and Control in Generative Models via Causal Minimality [52.57416398859353]
因果的最小性は、明確な因果的解釈と頑健でコンポーネント単位で識別可能な制御を持つ拡散視覚と自己回帰言語モデルの潜在表現を許容できることを示す。
我々は階層的選択モデルのための新しい理論的枠組みを導入し、より高レベルな概念は低レベルの変数の制約された構成から生まれる。
これらの因果的基礎を持つ概念は、きめ細かいモデルステアリングのレバーとして機能し、透明で信頼性の高いシステムへの道を開く。
論文 参考訳(メタデータ) (2025-12-11T14:59:14Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - Resolving CAP Through Automata-Theoretic Economic Design: A Unified Mathematical Framework for Real-Time Partition-Tolerant Systems [0.0]
CAP定理は、一貫性、可用性、および分割耐性の間のトリレンマを主張する。
本稿では,CAPトレードオフを制約最適化問題として再編成する,厳密な自動理論および経済基盤フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T09:21:43Z) - Cognitive Silicon: An Architectural Blueprint for Post-Industrial Computing Systems [0.0]
本稿では2035年に向けて提案された仮想的なフルスタックアーキテクチャフレームワークについて,認知コンピューティングシステム設計の軌道を探究する。
提案したアーキテクチャは、シンボリックなスキャフォールディング、管理されたメモリ、実行時のモラルコヒーレンス、シリコンとセマンティック層間のアライメント対応実行を統合する。
論文 参考訳(メタデータ) (2025-04-23T11:24:30Z) - Exploiting hidden structures in non-convex games for convergence to Nash
equilibrium [62.88214569402201]
現代の機械学習アプリケーションは、非協調的なナッシュリリアとして定式化することができる。
決定論的環境と決定論的環境の両方に明確な収束保証を提供する。
論文 参考訳(メタデータ) (2023-12-27T15:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。