論文の概要: Automated Capability Evaluation of Foundation Models
- arxiv url: http://arxiv.org/abs/2505.17228v1
- Date: Thu, 22 May 2025 19:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.662268
- Title: Automated Capability Evaluation of Foundation Models
- Title(参考訳): 基礎モデルの自動能力評価
- Authors: Arash Afkanpour, Omkar Dige, Fatemeh Tavakoli,
- Abstract要約: Active Learning for Capability Evaluation (ACE)は、基盤モデルのスケーラブルで自動化された、きめ細かい評価のための新しいフレームワークである。
カバレッジと効率を最大化するために、ACEは被写体モデルの性能を潜在意味空間上の機能関数としてモデル化する。
この適応評価戦略は、静的ベンチマークが見逃す可能性のある強度、弱点、障害モードのコスト効率の良い発見を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current evaluation frameworks for foundation models rely heavily on fixed, manually curated benchmarks, limiting their ability to capture the full breadth of model capabilities. This paper introduces Active learning for Capability Evaluation (ACE), a novel framework for scalable, automated, and fine-grained evaluation of foundation models. ACE leverages the knowledge embedded in powerful language models to decompose a domain into semantically meaningful capabilities and generate diverse evaluation tasks, significantly reducing human effort. To maximize coverage and efficiency, ACE models a subject model's performance as a capability function over a latent semantic space and uses active learning to prioritize the evaluation of the most informative capabilities. This adaptive evaluation strategy enables cost-effective discovery of strengths, weaknesses, and failure modes that static benchmarks may miss. Our results suggest that ACE provides a more complete and informative picture of model capabilities, which is essential for safe and well-informed deployment of foundation models.
- Abstract(参考訳): 基礎モデルの現在の評価フレームワークは、固定された手作業によるベンチマークに大きく依存しており、モデル機能の全範囲をキャプチャする能力を制限する。
本稿では,基盤モデルのスケーラブルで自動化された,きめ細かな評価のための新しいフレームワークである能動学習能力評価(ACE)を紹介する。
ACEは、強力な言語モデルに埋め込まれた知識を活用して、ドメインを意味論的に意味のある能力に分解し、多様な評価タスクを生成する。
ACEは、被写体モデルの性能を潜在意味空間上の機能関数としてモデル化し、アクティブラーニングを用いて最も情報性の高い能力の評価を優先順位付けする。
この適応評価戦略は、静的ベンチマークが見逃す可能性のある強度、弱点、障害モードのコスト効率の良い発見を可能にする。
我々の結果は、ACEがモデル機能のより完全でインフォメーションな図を提供し、ファンデーションモデルの安全でインフォームドな展開に不可欠であることを示唆している。
関連論文リスト
- AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - Idempotent Unsupervised Representation Learning for Skeleton-Based Action Recognition [13.593511876719367]
教師なし表現学習のための新しい骨格ベース等等化生成モデル(IGM)を提案する。
ベンチマークデータセットであるNTU RGB+DとPKUMMDに関する実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-27T06:29:04Z) - SOLD: Slot Object-Centric Latent Dynamics Models for Relational Manipulation Learning from Pixels [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、新しいモデルに基づく強化学習アルゴリズムである。
画素入力から教師なしの方法でオブジェクト中心のダイナミックスモデルを学習する。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - A Retention-Centric Framework for Continual Learning with Guaranteed Model Developmental Safety [75.8161094916476]
現実世界のアプリケーションでは、学習可能なシステムは、しばしば課題や新しいタスクに対処するために反復的なモデル開発を行う。
既存の能力の新規または改善は、必然的に旧モデルの優れた能力を失う可能性がある。
本稿では,データ依存制約を伴う保持中心のフレームワークを提案し,既存の画像分類能力の獲得や改善を目的とした事前学習型CLIPモデルを継続的に開発する方法について検討する。
論文 参考訳(メタデータ) (2024-10-04T22:34:58Z) - Erasing Conceptual Knowledge from Language Models [24.63143961814566]
言語記憶の消去(英語: Erasure of Language Memory, ELM)とは、イントロスペクティブな分類器によって定義された分布をマッチングする原理に基づいて構築された概念レベルのアンラーニングのアプローチである。
ELMはこのフレームワークを適用して、コンセプト固有のコンテンツの生成確率を低下させるローランクな更新をターゲットとする。
ELMのバイオセキュリティ、サイバーセキュリティ、および文学ドメイン消去タスクに対する効果を実証する。
論文 参考訳(メタデータ) (2024-10-03T17:59:30Z) - Data Quality Aware Approaches for Addressing Model Drift of Semantic
Segmentation Models [1.6385815610837167]
本研究では,戦闘モデルドリフトに対する2つの顕著な品質意識戦略について検討した。
前者は画像品質評価の指標を活用して、厳密に高品質なトレーニングデータを選択し、モデルの堅牢性を向上させる。
後者は、既存のモデルから学んだベクトル機能を利用して、将来のデータの選択をガイドし、モデルの以前の知識と整合させる。
論文 参考訳(メタデータ) (2024-02-11T18:01:52Z) - Unifying Self-Supervised Clustering and Energy-Based Models [9.3176264568834]
自己教師付き学習と生成モデルとの間には,原則的な関連性を確立する。
シンボル接地問題の単純かつ非自明なインスタンス化に対処するために,我々の解法をニューロシンボリックな枠組みに統合できることが示される。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。