論文の概要: Quantifying Model Uniqueness in Heterogeneous AI Ecosystems
- arxiv url: http://arxiv.org/abs/2601.22977v1
- Date: Fri, 30 Jan 2026 13:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.476301
- Title: Quantifying Model Uniqueness in Heterogeneous AI Ecosystems
- Title(参考訳): 異種AIエコシステムにおけるモデル特異性の定量化
- Authors: Lei You,
- Abstract要約: In-Silico Quasi-Experimental Design に基づく監査モデル一意性に関する統計的枠組みを提案する。
モデル間で一致した介入を強制することにより、本質的なモデルのアイデンティティを分離し、一意性を Peer-Inpresentible Residual (PIER) として定量化する。
これらの結果は、信頼できるAIを単一のモデルの説明以上のものにする。
- 参考スコア(独自算出の注目度): 1.1162481475388237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems evolve from isolated predictors into complex, heterogeneous ecosystems of foundation models and specialized adapters, distinguishing genuine behavioral novelty from functional redundancy becomes a critical governance challenge. Here, we introduce a statistical framework for auditing model uniqueness based on In-Silico Quasi-Experimental Design (ISQED). By enforcing matched interventions across models, we isolate intrinsic model identity and quantify uniqueness as the Peer-Inexpressible Residual (PIER), i.e. the component of a target's behavior strictly irreducible to any stochastic convex combination of its peers, with vanishing PIER characterizing when such a routing-based substitution becomes possible. We establish the theoretical foundations of ecosystem auditing through three key contributions. First, we prove a fundamental limitation of observational logs: uniqueness is mathematically non-identifiable without intervention control. Second, we derive a scaling law for active auditing, showing that our adaptive query protocol achieves minimax-optimal sample efficiency ($dσ^2γ^{-2}\log(Nd/δ)$). Third, we demonstrate that cooperative game-theoretic methods, such as Shapley values, fundamentally fail to detect redundancy. We implement this framework via the DISCO (Design-Integrated Synthetic Control) estimator and deploy it across diverse ecosystems, including computer vision models (ResNet/ConvNeXt/ViT), large language models (BERT/RoBERTa), and city-scale traffic forecasters. These results move trustworthy AI beyond explaining single models: they establish a principled, intervention-based science of auditing and governing heterogeneous model ecosystems.
- Abstract(参考訳): AIシステムは、独立した予測器から、基礎モデルと特殊なアダプタの複雑な異種エコシステムへと進化するにつれて、真の振る舞いの新規性と機能的冗長性を区別することが、重要なガバナンス課題となる。
本稿では,In-Silico Quasi-Experimental Design (ISQED)に基づく,モデルユニーク性監査のための統計フレームワークを提案する。
モデル間で一致した介入を強制することにより、本質的なモデルのアイデンティティを分離し、Pier-Inpresentible Residual (PIER) として一意性を定量化する。
我々は,3つの重要な貢献を通じて生態系監査の理論的基礎を確立する。
まず、観察ログの基本的な制限を証明し、数学的には介入制御なしでは識別できない。
第2に、能動監査のスケーリング法則を導出し、我々の適応型クエリプロトコルが最小最適サンプル効率(dσ^2γ^{-2}\log(Nd/δ)$)を達成することを示す。
第3に,Shapley値のような協調的なゲーム理論手法が,冗長性を根本的に検出できないことを示す。
このフレームワークは,disCO (Design-Integrated Synthetic Control) 推定器を用いて実装し,コンピュータビジョンモデル (ResNet/ConvNeXt/ViT) や大規模言語モデル (BERT/RoBERTa) ,都市規模の交通予測器など,多様なエコシステムに展開する。
これらの結果は、信頼できるAIを単一のモデルを説明することを超えて、不均一なモデルエコシステムを監査し、管理する、原則化された介入に基づく科学を確立する。
関連論文リスト
- AI-NativeBench: An Open-Source White-Box Agentic Benchmark Suite for AI-Native Systems [52.65695508605237]
我々は、Model Context Protocol(MCP)とAgent-to-Agent(A2A)標準に基づいて、アプリケーション中心でホワイトボックスのAI-NativeベンチマークスイートであるAI-NativeBenchを紹介する。
エージェントスパンを分散トレース内の第一級市民として扱うことにより,本手法は,単純な機能以上の工学的特性の粒度解析を可能にする。
この研究は、モデル能力の測定から信頼性の高いAI-Nativeシステムへの移行を導く最初の体系的な証拠を提供する。
論文 参考訳(メタデータ) (2026-01-14T11:32:07Z) - On the Limits of Self-Improving in LLMs and Why AGI, ASI and the Singularity Are Not Near Without Symbolic Model Synthesis [0.01269104766024433]
我々は,大規模言語モデル(LLM)における自己学習と生成AIを離散時間力学系として定式化する。
1) 有限サンプリング効果が分布多様性の単調な損失(モード崩壊)を引き起こすエントロピー減衰と,(2) 外部グラウンドの損失がモデルの真理表現をランダムウォークとして漂流させる変数増幅の2つの基本的障害モードを導出する。
論文 参考訳(メタデータ) (2026-01-05T19:50:49Z) - STORE: Semantic Tokenization, Orthogonal Rotation and Efficient Attention for Scaling Up Ranking Models [11.965535230928372]
Storeは,3つのコアイノベーションに基づいて構築された,統一的でスケーラブルなトークンベースのランキングフレームワークである。
我々のフレームワークは、予測精度(オンラインCTR 2.71%、AUC 1.195%)とトレーニング効率(1.84スループット)を継続的に改善します。
論文 参考訳(メタデータ) (2025-11-24T06:20:02Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - A2R: An Asymmetric Two-Stage Reasoning Framework for Parallel Reasoning [57.727084580884075]
モデルポテンシャルと実際の性能の間のギャップを埋めるために設計された非対称な2段階推論フレームワーク。
A2R-Efficientは、Qwen3-4BとQwen3-8Bシンセサイザーを組み合わせた「小型から大型」の派生型である。
その結果、A2Rはパフォーマンス・ブートスティングのフレームワークであるだけでなく、現実世界のアプリケーションに対して効率的かつ実用的なソリューションであることがわかった。
論文 参考訳(メタデータ) (2025-09-26T08:27:03Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - Identifiable Representation and Model Learning for Latent Dynamic Systems [0.0]
本稿では,潜在力学系における表現とモデル学習の問題について検討する。
線形およびアフィン非線形潜時力学系にスパース入力行列を持つ場合、潜時変数をスケーリングまで同定できることを証明した。
論文 参考訳(メタデータ) (2024-10-23T13:55:42Z) - Correct-by-Construction Control for Stochastic and Uncertain Dynamical
Models via Formal Abstractions [44.99833362998488]
我々は、様々なモデリングの前提の下でこの問題を解決するために使用できる抽象フレームワークを開発する。
我々は、与えられた仕様を満たすための保証とともに、iMDPの最適ポリシーを計算するために最先端の検証技術を使用します。
そして、このポリシーを構築によって、これらの保証が動的モデルに受け継がれるフィードバックコントローラに改良できることを示します。
論文 参考訳(メタデータ) (2023-11-16T11:03:54Z) - Explaining a Series of Models by Propagating Local Feature Attributions [9.66840768820136]
複数の機械学習モデルを含むパイプラインは、多くの領域でパフォーマンスが向上するが、理解が難しい。
Shapley値への接続に基づいて、モデルの複雑なパイプラインを通じてローカル機能属性を伝播させるフレームワークを紹介します。
本フレームワークにより,アルツハイマー病および乳癌の組織学的診断における遺伝子発現特徴群に基づく高次結論の導出が可能となった。
論文 参考訳(メタデータ) (2021-04-30T22:20:58Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。