論文の概要: Discovering Hidden Gems in Model Repositories
- arxiv url: http://arxiv.org/abs/2601.22157v1
- Date: Thu, 29 Jan 2026 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.112435
- Title: Discovering Hidden Gems in Model Repositories
- Title(参考訳): モデルリポジトリにおける隠れたgemの発見
- Authors: Jonathan Kahana, Eliahu Horwitz, Yedid Hoshen,
- Abstract要約: 人気を博した「隠された宝石」の流行は,その人気を著しく上回る,不人気なファインチューンである。
提案手法では,候補候補あたり50クエリの上位モデルを検索し,発見を50倍以上高速化する。
- 参考スコア(独自算出の注目度): 36.214473146129116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public repositories host millions of fine-tuned models, yet community usage remains disproportionately concentrated on a small number of foundation checkpoints. We investigate whether this concentration reflects efficient market selection or if superior models are systematically overlooked. Through an extensive evaluation of over 2,000 models, we show the prevalence of "hidden gems", unpopular fine-tunes that significantly outperform their popular counterparts. Notably, within the Llama-3.1-8B family, we find rarely downloaded checkpoints that improve math performance from 83.2% to 96.0% without increasing inference costs. However, discovering these models through exhaustive evaluation of every uploaded model is computationally infeasible. We therefore formulate model discovery as a Multi-Armed Bandit problem and accelerate the Sequential Halving search algorithm by using shared query sets and aggressive elimination schedules. Our method retrieves top models with as few as 50 queries per candidate, accelerating discovery by over 50x.
- Abstract(参考訳): 公共リポジトリは何百万もの微調整されたモデルをホストしているが、コミュニティの利用は少数の基礎チェックポイントに集中している。
この濃度が効率的な市場選択を反映しているか、あるいは優れたモデルが体系的に見過ごされているかを検討する。
2,000モデル以上のモデルを広範囲に評価することにより,人気の高い「隠された宝石」をはるかに上回る「不人気なファインチューン」の出現率を示す。
特に、Llama-3.1-8Bファミリーでは、推論コストを増大させることなく、数学のパフォーマンスを83.2%から96.0%に改善するチェックポイントがほとんどダウンロードされない。
しかし、アップロードされた全てのモデルの徹底的な評価を通じてこれらのモデルを発見することは、計算的に不可能である。
そこで我々は,マルチアーマッド・バンドイット問題としてモデル発見を定式化し,共有クエリセットとアグレッシブ・エミッション・スケジュールを用いて逐次ハルヴィング探索アルゴリズムを高速化する。
提案手法では,候補候補あたり50クエリの上位モデルを検索し,発見を50倍以上高速化する。
関連論文リスト
- Statistical Guarantees in the Search for Less Discriminatory Algorithms [4.8750736477712815]
モデル乗法によるLDA探索を最適停止問題として定式化する。
我々は、開発者がモデルの配布に関してより強い仮定を課すことができるフレームワークを提供する。
論文 参考訳(メタデータ) (2025-12-30T02:20:52Z) - Scalable branch-and-bound model selection with non-monotonic criteria including AIC, BIC and Mallows's $\mathit{C_p}$ [1.3592625530347717]
非単調関数に適した分岐とバウンドのアルゴリズムの開発を可能にする,単純だが斬新なバウンドを導入する。
提案手法は,多様なモデルクラス,サイズ,アプリケーションにまたがる最適モデルの同定を保証する。
論文 参考訳(メタデータ) (2025-12-13T07:16:10Z) - The NazoNazo Benchmark: A Cost-Effective and Extensible Test of Insight-Based Reasoning in LLMs [3.9977256267361754]
そこで本研究では,日本人児童のライドルから構築した費用効果評価指標であるNazonazoについて紹介する。
GPT-5以外のモデルは人間の性能に匹敵せず、平均精度は52.9%である。
論文 参考訳(メタデータ) (2025-09-18T07:50:04Z) - Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。
そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。
真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文 参考訳(メタデータ) (2025-06-18T15:26:43Z) - Model Hubs and Beyond: Analyzing Model Popularity, Performance, and Documentation [1.2888930658406668]
我々はHugging Face上で500Sentiment Analysisモデルを総合的に評価した。
以上の結果から,モデルの人気度は必ずしも性能と相関しないことが明らかとなった。
モデル作成者の約88%がモデルカードでモデルのパフォーマンスを誇張している。
論文 参考訳(メタデータ) (2025-03-19T14:01:33Z) - Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。
複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。
コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
論文 参考訳(メタデータ) (2024-07-31T17:57:25Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Residual Overfit Method of Exploration [78.07532520582313]
提案手法は,2点推定値の調整と1点オーバーフィットに基づく近似探索手法を提案する。
このアプローチは、調整されたモデルと比較して、オーバーフィットモデルが最も過度な適合を示すアクションへの探索を促進する。
ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
論文 参考訳(メタデータ) (2021-10-06T17:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。