論文の概要: Automated Capability Evaluation of Foundation Models
- arxiv url: http://arxiv.org/abs/2505.17228v2
- Date: Thu, 09 Oct 2025 18:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:45.404125
- Title: Automated Capability Evaluation of Foundation Models
- Title(参考訳): 基礎モデルの自動能力評価
- Authors: Arash Afkanpour, Omkar Dige, Fatemeh Tavakoli, Negin Baghbanzadeh, Farnaz Kohankhaki, Elham Dolatabadi,
- Abstract要約: 本稿では,基盤モデルのスケーラブルで自動化された,きめ細かな評価のための新しいフレームワークである能動学習能力評価(ACE)を紹介する。
ACEは多様な評価タスクを生成し、人間の労力を大幅に削減する。
0.01 RMSEの範囲に到達し、半分未満の能力を評価する。
- 参考スコア(独自算出の注目度): 1.8134225428247934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current evaluation frameworks for foundation models rely heavily on static, manually curated benchmarks, limiting their ability to capture the full breadth of model capabilities. This paper introduces Active learning for Capability Evaluation (ACE), a novel framework for scalable, automated, and fine-grained evaluation of foundation models. ACE leverages the knowledge embedded in powerful frontier models to decompose a domain into semantically meaningful capabilities and generates diverse evaluation tasks, significantly reducing human effort. In Mathematics, ACE generated 433 capabilities and 11,800 tasks, covering 94% of Wikipedia-defined skills in the domain while introducing novel, coherent ones. To maximize efficiency, ACE fits a capability model in latent semantic space, allowing reliable approximation of a subject model's performance by evaluating only a subset of capabilities via active learning. It reaches within 0.01 RMSE of exhaustive evaluation by evaluating less than half of capabilities. Compared to static datasets, ACE provides more balanced coverage and uncovers fine-grained differences that aggregate metrics fail to capture. Our results demonstrate that ACE provides a more complete and informative picture of model capabilities, which is essential for safe and well-informed deployment of foundation models.
- Abstract(参考訳): 基礎モデルの現在の評価フレームワークは、静的で手動でキュレートされたベンチマークに大きく依存しており、モデル機能の全範囲をキャプチャする能力を制限する。
本稿では,基盤モデルのスケーラブルで自動化された,きめ細かな評価のための新しいフレームワークである能動学習能力評価(ACE)を紹介する。
ACEは強力なフロンティアモデルに埋め込まれた知識を活用して、ドメインを意味的に意味のある能力に分解し、多様な評価タスクを生成する。
数学では、ACEは433の能力と11,800のタスクを生成し、ドメイン内でウィキペディアが定義したスキルの94%をカバーし、新しい一貫性のあるタスクを導入した。
効率を最大化するために、ACEは潜在意味空間の能力モデルに適合し、アクティブラーニングによる能力のサブセットのみを評価することにより、被写体モデルの性能の信頼性の高い近似を可能にする。
0.01 RMSEの範囲に到達し、半分未満の能力を評価する。
静的データセットと比較して、ACEはよりバランスの取れたカバレッジを提供し、集約されたメトリクスがキャプチャーできない細かい違いを明らかにする。
我々の結果は、ACEがモデル機能のより完全でインフォメーションな図を提供しており、ファンデーションモデルの安全でインフォームドな展開に不可欠であることを示している。
関連論文リスト
- Forgetting: A New Mechanism Towards Better Large Language Model Fine-tuning [53.398270878295754]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) において重要な役割を果たす。
各コーパス内のトークンを、モデルパフォーマンスを改善するのに有用かどうかに基づいて、正と負の2つの部分に分類することを提案する。
我々は、よく確立されたベンチマークで実験を行い、この忘れるメカニズムが全体のモデル性能を向上するだけでなく、より多様なモデル応答を促進することを発見した。
論文 参考訳(メタデータ) (2025-08-06T11:22:23Z) - AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - Idempotent Unsupervised Representation Learning for Skeleton-Based Action Recognition [13.593511876719367]
教師なし表現学習のための新しい骨格ベース等等化生成モデル(IGM)を提案する。
ベンチマークデータセットであるNTU RGB+DとPKUMMDに関する実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-27T06:29:04Z) - SOLD: Slot Object-Centric Latent Dynamics Models for Relational Manipulation Learning from Pixels [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、新しいモデルに基づく強化学習アルゴリズムである。
画素入力から教師なしの方法でオブジェクト中心のダイナミックスモデルを学習する。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - A Retention-Centric Framework for Continual Learning with Guaranteed Model Developmental Safety [75.8161094916476]
現実世界のアプリケーションでは、学習可能なシステムは、しばしば課題や新しいタスクに対処するために反復的なモデル開発を行う。
既存の能力の新規または改善は、必然的に旧モデルの優れた能力を失う可能性がある。
本稿では,データ依存制約を伴う保持中心のフレームワークを提案し,既存の画像分類能力の獲得や改善を目的とした事前学習型CLIPモデルを継続的に開発する方法について検討する。
論文 参考訳(メタデータ) (2024-10-04T22:34:58Z) - Erasing Conceptual Knowledge from Language Models [24.63143961814566]
言語記憶の消去(英語: Erasure of Language Memory, ELM)とは、イントロスペクティブな分類器によって定義された分布をマッチングする原理に基づいて構築された概念レベルのアンラーニングのアプローチである。
ELMはこのフレームワークを適用して、コンセプト固有のコンテンツの生成確率を低下させるローランクな更新をターゲットとする。
ELMのバイオセキュリティ、サイバーセキュリティ、および文学ドメイン消去タスクに対する効果を実証する。
論文 参考訳(メタデータ) (2024-10-03T17:59:30Z) - Data Quality Aware Approaches for Addressing Model Drift of Semantic
Segmentation Models [1.6385815610837167]
本研究では,戦闘モデルドリフトに対する2つの顕著な品質意識戦略について検討した。
前者は画像品質評価の指標を活用して、厳密に高品質なトレーニングデータを選択し、モデルの堅牢性を向上させる。
後者は、既存のモデルから学んだベクトル機能を利用して、将来のデータの選択をガイドし、モデルの以前の知識と整合させる。
論文 参考訳(メタデータ) (2024-02-11T18:01:52Z) - Unifying Self-Supervised Clustering and Energy-Based Models [9.3176264568834]
自己教師付き学習と生成モデルとの間には,原則的な関連性を確立する。
シンボル接地問題の単純かつ非自明なインスタンス化に対処するために,我々の解法をニューロシンボリックな枠組みに統合できることが示される。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。