Fugu-MT 論文翻訳(概要): Energy-based Automated Model Evaluation

論文の概要: Energy-based Automated Model Evaluation

arxiv url: http://arxiv.org/abs/2401.12689v3
Date: Fri, 15 Mar 2024 06:51:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 22:23:54.629127
Title: Energy-based Automated Model Evaluation
Title（参考訳）: エネルギーを用いた自動モデル評価
Authors: Ru Peng, Heming Zou, Haobo Wang, Yawen Zeng, Zenan Huang, Junbo Zhao,
Abstract要約: 本稿では,AutoEvalフレームワークをより効率的かつ効果的にするための新しい手段として,Meta-Distribution Energy(MDE)を提案する。 MDEは、個々のサンプルに関連する情報(エネルギー)に基づいて、メタ分布統計を確立し、エネルギーベースの学習によってよりスムーズな表現を提供する。我々は、MDEの有効性を検証するために、モダリティ、データセット、異なるアーキテクチャのバックボーンにわたる広範な実験を提供する。
参考スコア（独自算出の注目度）: 19.90797626200033
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The conventional evaluation protocols on machine learning models rely heavily on a labeled, i.i.d-assumed testing dataset, which is not often present in real world applications. The Automated Model Evaluation (AutoEval) shows an alternative to this traditional workflow, by forming a proximal prediction pipeline of the testing performance without the presence of ground-truth labels. Despite its recent successes, the AutoEval frameworks still suffer from an overconfidence issue, substantial storage and computational cost. In that regard, we propose a novel measure -- Meta-Distribution Energy (MDE) -- that allows the AutoEval framework to be both more efficient and effective. The core of the MDE is to establish a meta-distribution statistic, on the information (energy) associated with individual samples, then offer a smoother representation enabled by energy-based learning. We further provide our theoretical insights by connecting the MDE with the classification loss. We provide extensive experiments across modalities, datasets and different architectural backbones to validate MDE's validity, together with its superiority compared with prior approaches. We also prove MDE's versatility by showing its seamless integration with large-scale models, and easy adaption to learning scenarios with noisy- or imbalanced- labels. Code and data are available: https://github.com/pengr/Energy_AutoEval
Abstract（参考訳）: 機械学習モデルに対する従来の評価プロトコルは、ラベル付き、すなわち、想定されるテストデータセットに大きく依存している。 Automated Model Evaluation (AutoEval)は、地平線ラベルなしでテストパフォーマンスの近位予測パイプラインを構築することで、この従来のワークフローに代わるものを示している。最近の成功にもかかわらず、AutoEvalフレームワークはいまだに自信過剰な問題、かなりのストレージと計算コストに悩まされている。そこで我々は,AutoEvalフレームワークをより効率的かつ効果的にするための新しい手段であるメタ・ディストリビューション・エナジー(MDE)を提案する。 MDEの中核は、個々のサンプルに関連する情報(エネルギー)に基づいて、メタ分配統計を定式化し、エネルギーベースの学習によってよりスムーズな表現を提供することである。我々は、MDEと分類損失を結びつけることによって、理論的な洞察を提供する。我々は、MDEの有効性を検証するために、モーダル性、データセット、異なるアーキテクチャのバックボーンをまたいだ広範囲な実験を行い、従来のアプローチと比較してその優位性を示している。また,大規模モデルとのシームレスな統合と,ノイズやバランスの取れないラベルによる学習シナリオへの適応性を示すことで,MDEの汎用性を証明する。コードとデータが利用可能だ。 https://github.com/pengr/Energy_AutoEval

関連論文リスト

Adaptive Prediction-Powered AutoEval with Reliability and Efficiency Guarantees [36.407171992845456]
モデル評価における有限サンプル信頼性を保証する新しいフレームワークである textttR-AutoEval+ を提案する。 textttR-AutoEval+の重要な革新は、モデル評価変数の適応的な構成であり、合成データへの依存を動的に調整する。
論文参考訳（メタデータ） (2025-05-24T11:53:29Z)
On Large-scale Evaluation of Embedding Models for Knowledge Graph Completion [1.2703808802607108]
知識グラフ埋め込み(KGE)モデルは知識グラフ補完のために広く研究されているが、その評価は非現実的なベンチマークによって制限されている。標準的な評価基準は、欠落した三重項を正確に予測するためのモデルを罰するクローズドワールドの仮定に依存している。本稿では,大規模データセットFB-CVT-REVとFB+CVT-REVの4つの代表的なKGEモデルを包括的に評価する。
論文参考訳（メタデータ） (2025-04-11T20:49:02Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文参考訳（メタデータ） (2023-02-19T14:08:01Z)
Exploring validation metrics for offline model-based optimisation with diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文参考訳（メタデータ） (2022-11-19T16:57:37Z)
MACE: An Efficient Model-Agnostic Framework for Counterfactual Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。 MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文参考訳（メタデータ） (2022-05-31T04:57:06Z)
Energy-Efficient and Federated Meta-Learning via Projected Stochastic Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文参考訳（メタデータ） (2021-05-31T08:15:44Z)
Probabilistic Case-based Reasoning for Open-World Knowledge Graph Completion [59.549664231655726]
ケースベース推論(CBR)システムは,与えられた問題に類似した事例を検索することで,新たな問題を解決する。本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。
論文参考訳（メタデータ） (2020-10-07T17:48:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。