論文の概要: ML Compass: Navigating Capability, Cost, and Compliance Trade-offs in AI Model Deployment
- arxiv url: http://arxiv.org/abs/2512.23487v1
- Date: Mon, 29 Dec 2025 14:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.532768
- Title: ML Compass: Navigating Capability, Cost, and Compliance Trade-offs in AI Model Deployment
- Title(参考訳): ML Compass:AIモデルデプロイメントにおける機能、コスト、コンプライアンスのトレードオフをナビゲートする
- Authors: Vassilis Digalakis, Ramayya Krishnan, Gonzalo Martin Fernandez, Agni Orfanoudaki,
- Abstract要約: 我々は、ユーザユーティリティ、デプロイメントコスト、コンプライアンス要件が共同で重要である場合に、組織が競合するAIモデルをどのように選択すべきかを調査する。
ML Compassは,モデル選択を機能コストフロンティア上の制約付き最適化として扱うフレームワークである。
- 参考スコア(独自算出の注目度): 1.570530789849319
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study how organizations should select among competing AI models when user utility, deployment costs, and compliance requirements jointly matter. Widely used capability leaderboards do not translate directly into deployment decisions, creating a capability--deployment gap; to bridge it, we take a systems-level view in which model choice is tied to application outcomes, operating constraints, and a capability--cost frontier. We develop ML Compass, a framework that treats model selection as constrained optimization over this frontier. On the theory side, we characterize optimal model configurations under a parametric frontier and show a three-regime structure in optimal internal measures: some dimensions are pinned at compliance minima, some saturate at maximum levels, and the remainder take interior values governed by frontier curvature. We derive comparative statics that quantify how budget changes, regulatory tightening, and technological progress propagate across capability dimensions and costs. On the implementation side, we propose a pipeline that (i) extracts low-dimensional internal measures from heterogeneous model descriptors, (ii) estimates an empirical frontier from capability and cost data, (iii) learns a user- or task-specific utility function from interaction outcome data, and (iv) uses these components to target capability--cost profiles and recommend models. We validate ML Compass with two case studies: a general-purpose conversational setting using the PRISM Alignment dataset and a healthcare setting using a custom dataset we build using HealthBench. In both environments, our framework produces recommendations -- and deployment-aware leaderboards based on predicted deployment value under constraints -- that can differ materially from capability-only rankings, and clarifies how trade-offs between capability, cost, and safety shape optimal model choice.
- Abstract(参考訳): 我々は、ユーザユーティリティ、デプロイメントコスト、コンプライアンス要件が共同で重要である場合に、組織が競合するAIモデルをどのように選択すべきかを調査する。
広く使われている機能リーダーボードは、配置決定に直接変換せず、機能デプロイのギャップを生じさせます。それを埋めるために、私たちは、モデル選択がアプリケーションの結果、運用上の制約、そして能力コストのフロンティアに結びついているシステムレベルの視点を取ります。
このフロンティア上でモデル選択を制約付き最適化として扱うフレームワークであるML Compassを開発した。
理論面では、パラメトリックフロンティアの下での最適モデル構成を特徴付け、最適内部測度で3つのレジム構造を示す:ある次元はコンプライアンスミニマで固定され、ある次元は最大レベルで飽和し、残りはフロンティア曲率で支配される内部値を取る。
我々は、予算の変化、規制強化、技術進歩が能力の次元とコストをまたいでどのように伝播するかを定量化する比較スタティックスを導出します。
実装面では,パイプラインを提案する。
一 異種モデル記述子から低次元内部測度を抽出すること。
二 能力及び費用データから経験的フロンティアを推定すること。
三 インタラクション結果データからユーザまたはタスク固有のユーティリティ関数を学習し、
(iv) これらのコンポーネントを使用して、コストのかかるプロファイルをターゲットとし、モデルを推奨する。
PRISMアライメントデータセットを用いた汎用会話設定と、HealthBenchを使って構築したカスタムデータセットを使用したヘルスケア設定の2つのケーススタディでML Compassを検証する。
どちらの環境でも、当社のフレームワークは -- 制約下でのデプロイメントの予測値に基づいたデプロイメント対応のリーダボード -- を生成します -- は、能力のみのランキングと大きく異なり、能力、コスト、安全形状のモデル選択のトレードオフがどのように明確化されます。
関連論文リスト
- A General and Streamlined Differentiable Optimization Framework [10.851559133306196]
本稿では,Julia最適化フレームワークのためのDiffOptlインタフェースを提案する。
ファーストクラスのJuMPネイティブAPIでは、ユーザが名前付きパラメータのデリバティブを直接取得することができる。
その結果、ルーチンの区別は、標準のJuMPモデリングプラクティスから逸脱することなく、実験、学習、設計を行うためのトレーニングツールになり得ることが示される。
論文 参考訳(メタデータ) (2025-10-29T21:42:36Z) - LLM-guided Chemical Process Optimization with a Multi-Agent Approach [8.714038047141202]
本稿では,最小限のプロセス記述から動作制約を自律的に推論するマルチエージェントLLMフレームワークを提案する。
当社のAutoGenベースのフレームワークは、制約生成、パラメータ検証、シミュレーション、最適化ガイダンスのための特別なエージェントを備えたOpenAIのo3モデルを採用しています。
論文 参考訳(メタデータ) (2025-06-26T01:03:44Z) - Conformal Arbitrage: Risk-Controlled Balancing of Competing Objectives in Language Models [5.294604210205507]
Conformal Arbitrageは、データ駆動しきい値を学び、主目的のために最適化されたプライマリモデルとより保守的なGuardianの間を仲介するフレームワークです。
提案手法は,精度において,モデル間のランダムなルーティングに一致したコストで優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-01T08:55:10Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - MoSH: Modeling Multi-Objective Tradeoffs with Soft and Hard Bounds [29.347695311801864]
本稿では,ソフトハード関数 SHF を運用する新しい概念フレームワークを提案する。
SHFフレームワークに適合する多くの実践的問題を示し、多様なドメインに対する広範な実証的検証を提供する。
具体的には、ブラキセラピーでは、次の最良アプローチよりも3%以上のSHF定義ユーティリティを持つコンパクトな点集合を返す。
論文 参考訳(メタデータ) (2024-12-09T02:32:20Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Risk-Controlling Model Selection via Guided Bayesian Optimization [35.53469358591976]
他の競合するメトリクスに対して有用でありながら、特定のリスクに対するユーザ指定の制限に固執する構成を見つけます。
提案手法は,指定された関心領域に属する最適構成の集合を同定する。
提案手法は,低誤差率,等式予測,スプリアス相関処理,生成モデルにおける速度と歪みの管理,計算コストの削減など,複数のデシダラタを用いたタスクに対する有効性を示す。
論文 参考訳(メタデータ) (2023-12-04T07:29:44Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。