論文の概要: ModelLens: Finding the Best for Your Task from Myriads of Models
- arxiv url: http://arxiv.org/abs/2605.07075v1
- Date: Fri, 08 May 2026 00:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.702189
- Title: ModelLens: Finding the Best for Your Task from Myriads of Models
- Title(参考訳): ModelLens: モデルの無数からタスクに最適なものを見つける
- Authors: Rui Cai, Weijie Jacky Mo, Xiaofei Wen, Qiyao Ma, Wenhui Zhu, Xiwen Chen, Muhao Chen, Zhe Zhao,
- Abstract要約: モデルレコメンデーションのための統一フレームワークであるModelLensを紹介します。
パブリックなリーダーボードのインタラクションは散らばっていてうるさいが、集合的にモデル能力の暗黙のアトラスを追求している。
ModelLensは、ターゲットデータセットの候補を実行せずに、目に見えないデータセットに未確認のモデルをランク付けする。
- 参考スコア(独自算出の注目度): 25.958674884209557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The open-source model ecosystem now contains hundreds of thousands of pretrained models, yet picking the best model for a new dataset is increasingly infeasible: new models and unbenchmarked datasets emerge continuously, leaving practitioners with no prior records on either side. Existing approaches handle only fragments of this in-the-wild setting: AutoML and transferability estimation select models from small predefined pools or require expensive per-model forward passes on the target dataset, while model routing presupposes a given candidate pool. We introduce ModelLens, a unified framework for model recommendation in the wild. Our key insight is that public leaderboard interactions, though scattered and noisy, collectively trace out an implicit atlas of model capabilities across heterogeneous evaluation settings, a signal rich enough to learn from directly. By learning a performance-aware latent space over model--dataset--metric tuples, ModelLens ranks unseen models on unseen datasets without running candidates on the target dataset. On a new benchmark of 1.62M evaluation records spanning 47K models and 9.6K datasets, ModelLens surpasses baselines that either rely on metadata alone or require running each candidate on the target dataset. Its recommended Top-K pools further improve multiple representative routing methods by up to 81% across diverse QA benchmarks. Case studies on recently released benchmarks further confirm generalization to both text and vision-language tasks.
- Abstract(参考訳): オープンソースのモデルエコシステムには、数十万の事前トレーニング済みモデルが含まれているが、新しいデータセットに最適なモデルを選択することは、ますます実現不可能になっている。
モデルルーティングが所定の候補プールを前提としているのに対して、AutoMLとTransferabilityの推定では、小さな事前定義されたプールからモデルを選択するか、ターゲットデータセットに高価なモデルごとのフォワードパスを必要とする。
モデルレコメンデーションのための統一フレームワークであるModelLensを紹介します。
私たちの重要な洞察は、公共のリーダーボードの相互作用は散らばって騒々しいものだが、不均一な評価設定にまたがって、暗黙のモデル能力のアトラスを辿り、直接から学ぶのに十分な信号である、ということです。
ModelLensは、モデル-データセット-メトリックタプルよりもパフォーマンスを意識した潜在空間を学習することで、ターゲットデータセットの候補を実行することなく、目に見えないデータセット上の未知のモデルをランク付けする。
47Kモデルと9.6Kデータセットにまたがる1.62M評価レコードの新たなベンチマークで、ModelLensはメタデータのみに依存するベースラインを超え、ターゲットデータセット上で各候補を実行する必要がある。
推奨されているTop-Kプールは、様々なQAベンチマークで最大81%の複数の代表的ルーティング方法を改善する。
最近リリースされたベンチマークのケーススタディでは、テキストと視覚言語の両方のタスクへの一般化がさらに確認されている。
関連論文リスト
- Consensus-Driven Active Model Selection [29.150990754584978]
本稿では,候補モデルからの予測を用いたアクティブモデル選択手法を提案し,テストデータポイントのラベル付けを優先する。
提案手法は,カテゴリとデータポイントの関係をモデル化し,コンセンサス駆動のアクティブモデル選択を行う。
モデル選択シナリオをキャプチャする26のベンチマークタスクの集合をキュレートすることで、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-07-31T17:56:28Z) - All models are wrong, some are useful: Model Selection with Limited Labels [49.62984196182567]
本稿では,事前学習した分類器をラベル効率で選択するフレームワークであるMODEL SELECTORを紹介する。
MODEL SELECTOR はラベル付きデータの必要性を劇的に減らし,最良あるいは最良に近い性能のモデルを選択することを示す。
モデル選択におけるMODEL SELECTORのロバスト性をさらに強調し, 最良モデルを選択する場合, ラベル付けコストを最大72.41%削減する。
論文 参考訳(メタデータ) (2024-10-17T14:45:56Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Large Language Model Routing with Benchmark Datasets [40.42044096089315]
通常、単一のモデルがすべてのタスクやユースケースで最高の精度を達成することはない。
そこで我々は,この選択のための"ルータ"モデルを学習するために,ベンチマークデータセットを再利用した新しい定式化を提案する。
本稿では,この問題をバイナリ分類タスクの集合に還元できることを示す。
論文 参考訳(メタデータ) (2023-09-27T17:08:40Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - A linearized framework and a new benchmark for model selection for
fine-tuning [112.20527122513668]
異なるドメインで事前訓練されたモデルの集合からの微調整は、低データ体制におけるテストの精度を向上させる技術として現れている。
モデル選択のための2つの新しいベースライン - Label-Gradient と Label-Feature correlation を導入する。
我々のベンチマークでは、微調整されたイメージネットモデルと比較して、モデル動物園での精度向上が強調されている。
論文 参考訳(メタデータ) (2021-01-29T21:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。