論文の概要: Mirror, Mirror on the Wall -- Which is the Best Model of Them All?
- arxiv url: http://arxiv.org/abs/2512.02043v1
- Date: Tue, 25 Nov 2025 20:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.522404
- Title: Mirror, Mirror on the Wall -- Which is the Best Model of Them All?
- Title(参考訳): 壁の鏡と鏡 - Them Allのベストモデルとは何だろう?
- Authors: Dina Sayed, Heiko Schuldt,
- Abstract要約: 大規模言語モデル(LLM)は多くのアプリケーションで最もトランスフォーメーションの高いツールの1つになっている。
我々は、さらなるトレーニングのためにモデルを選択する際に考慮すべき2つの主要な次元があると主張している。
- 参考スコア(独自算出の注目度): 2.2022484178680877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become one of the most transformative tools across many applications, as they have significantly boosted productivity and achieved impressive results in various domains such as finance, healthcare, education, telecommunications, and law, among others. Typically, state-of-the-art (SOTA) foundation models are developed by large corporations based on large data collections and substantial computational and financial resources required to pretrain such models from scratch. These foundation models then serve as the basis for further development and domain adaptation for specific use cases or tasks. However, given the dynamic and fast-paced nature of launching new foundation models, the process of selecting the most suitable model for a particular use case, application, or domain becomes increasingly complex. We argue that there are two main dimensions that need to be taken into consideration when selecting a model for further training: a qualitative dimension (which model is best suited for a task based on information, for instance, taken from model cards) and a quantitative dimension (which is the best performing model). The quantitative performance of models is assessed through leaderboards, which rank models based on standardized benchmarks and provide a consistent framework for comparing different LLMs. In this work, we address the analysis of the quantitative dimension by exploring the current leaderboards and benchmarks. To illustrate this analysis, we focus on the medical domain as a case study, demonstrating the evolution, current landscape, and practical significance of this quantitative evaluation dimension. Finally, we propose a Model Selection Methodology (MSM), a systematic approach designed to guide the navigation, prioritization, and selection of the model that best aligns with a given use case.
- Abstract(参考訳): 大規模言語モデル(LLM)は、生産性を大幅に向上させ、金融、医療、教育、電気通信、法律など様々な分野において印象的な成果を上げているため、多くのアプリケーションにおいて最も革新的なツールの1つとなっている。
一般に、最先端の基盤モデル(SOTA)は、大規模なデータ収集と、そのようなモデルをゼロから事前訓練するために必要な相当な計算および財務資源に基づいて、大企業によって開発される。
これらの基礎モデルは、特定のユースケースやタスクに対するさらなる開発とドメイン適応の基盤となる。
しかし、新しい基礎モデルをローンチする動的で急激な性質を考えると、特定のユースケース、アプリケーション、ドメインに最も適したモデルを選択するプロセスはますます複雑になる。
我々は、さらなるトレーニングのためにモデルを選択する際に考慮すべき主な次元として、定性的次元(例えば、モデルカードから取られた情報に基づくタスクに最適なモデル)と量的次元(最高のパフォーマンスモデル)の2つがあると主張している。
モデルの定量的性能は、標準化されたベンチマークに基づいてモデルをランク付けし、異なるLLMを比較するための一貫したフレームワークを提供するリーダーボードを通じて評価される。
本研究では,現在のリーダボードとベンチマークを探索することで,定量的次元の分析に対処する。
この分析を実証するために,我々は医学領域を事例研究として,この定量的評価次元の進化,現在の景観,実践的意義の実証に焦点をあてた。
最後に,モデル選択手法 (MSM) を提案する。これは,ナビゲーション,優先順位付け,モデルの選択を,与えられたユースケースに最もよく適合するように誘導する体系的なアプローチである。
関連論文リスト
- OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - MOSLIM:Align with diverse preferences in prompts through reward classification [6.6431471703308915]
そこで本研究では,単一報酬モデルとポリシーモデルを用いて多目的アライメント手法MOSLIMを提案する。
MOSLIMは、これらの目的をプロンプトすることで柔軟に制御し、SFTフェーズ中に好みのトレーニングを必要としない。
提案手法の有効性を複数の多目的ベンチマークで実証し,様々な報酬モデルサイズと政策最適化手法に関するアブレーション研究を行う。
論文 参考訳(メタデータ) (2025-05-24T12:22:21Z) - Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions [65.89403417819764]
設計選択が言語モデル能力に与える影響を定量化する。
モデルサイズとトレーニングトークンの数以外の機能を組み込むことで、下流のパフォーマンスを予測する能力が3~28%向上する。
論文 参考訳(メタデータ) (2025-03-05T19:46:04Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
OLMESは、再現可能な言語モデル評価のための文書化された、実用的な、オープンな標準である。
これは、複数の質問の非自然的な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
OLMESには、既存の文献の結果によってガイドされた、よく考えられたドキュメント化されたレコメンデーションと、オープンな質問を解決する新しい実験が含まれている。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - The Role of Model Architecture and Scale in Predicting Molecular Properties: Insights from Fine-Tuning RoBERTa, BART, and LLaMA [0.0]
本研究では,各種ケミノフォマティクスタスクの微調整におけるLarge Language Models(LLMs)の有効性を比較するための体系的枠組みを提案する。
分子特性を予測するために,RoBERTa,BART,LLaMAの3つのモデルを評価した。
LLaMAベースのモデルは、一般的に最低限のバリデーション損失を提供しており、タスクやスケールの順応性が優れていることを示唆している。
論文 参考訳(メタデータ) (2024-05-02T02:20:12Z) - Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - Modeling Choice via Self-Attention [8.394221523847325]
注意に基づく選択モデルはHalo Multinomial Logit(Halo-MNL)モデルの低最適一般化であることを示す。
また、実データから選択を推定するための最初の現実的な尺度を確立し、既存のモデルの評価を行う。
論文 参考訳(メタデータ) (2023-11-11T11:13:07Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。