論文の概要: Can We Predict Performance of Large Models across Vision-Language Tasks?
- arxiv url: http://arxiv.org/abs/2410.10112v1
- Date: Mon, 14 Oct 2024 03:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 03:04:18.080440
- Title: Can We Predict Performance of Large Models across Vision-Language Tasks?
- Title(参考訳): 視覚領域における大規模モデルの性能予測は可能か?
- Authors: Qinyu Zhao, Ming Xu, Kartik Gupta, Akshay Asthana, Liang Zheng, Stephen Gould,
- Abstract要約: 本稿では,他のLVLMやタスクの観測結果に基づいて,未知のパフォーマンススコアを予測する新しいフレームワークを提案する。
スパースなパフォーマンスマトリックス$boldsymbolR$を使用します。各エントリ$R_mn$は、$n$-thデータセット上の$m$-thモデルのパフォーマンススコアを表します。
本研究では,未知のスコアの予測におけるPMFの精度,評価の順序付けにおける不確実性推定の信頼性,スパースデータ処理における拡張の有効性を示す。
- 参考スコア(独自算出の注目度): 34.27319941609499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating large vision-language models (LVLMs) is very expensive, due to the high computational costs and the wide variety of tasks. The good news is that if we already have some observed performance scores, we may be able to infer unknown ones. In this study, we propose a new framework for predicting unknown performance scores based on observed ones from other LVLMs or tasks. We first formulate the performance prediction as a matrix completion task. Specifically, we construct a sparse performance matrix $\boldsymbol{R}$, where each entry $R_{mn}$ represents the performance score of the $m$-th model on the $n$-th dataset. By applying probabilistic matrix factorization (PMF) with Markov chain Monte Carlo (MCMC), we can complete the performance matrix, that is, predict unknown scores. Additionally, we estimate the uncertainty of performance prediction based on MCMC. Practitioners can evaluate their models on untested tasks with higher uncertainty first, quickly reducing errors in performance prediction. We further introduce several improvements to enhance PMF for scenarios with sparse observed performance scores. In experiments, we systematically evaluate 108 LVLMs on 176 datasets from 36 benchmarks, constructing training and testing sets for validating our framework. Our experiments demonstrate the accuracy of PMF in predicting unknown scores, the reliability of uncertainty estimates in ordering evaluations, and the effectiveness of our enhancements for handling sparse data.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の評価は非常に高価である。
良いニュースは、すでに観測されたパフォーマンススコアがあれば、未知のパフォーマンススコアを推測できるかもしれないということです。
本研究では,他のLVLMやタスクの観測結果に基づいて,未知のパフォーマンススコアを予測するための新しいフレームワークを提案する。
まず、行列完了タスクとして性能予測を定式化する。
具体的には、スパース性能行列$\boldsymbol{R}$を構築し、各エントリ$R_{mn}$は、$n$-thデータセット上の$m$-thモデルのパフォーマンススコアを表す。
マルコフ連鎖モンテカルロ(MCMC)による確率行列分解(PMF)を適用することにより、未知のスコアを予測できる。
さらに,MCMCに基づく性能予測の不確かさを推定する。
実践者は、まず不確実性の高い未テストタスクでモデルを評価でき、パフォーマンス予測のエラーを迅速に低減できる。
さらに,観測性能の低いシナリオに対するPMF向上のための改良点をいくつか紹介する。
実験では,36のベンチマークから176のデータセットに対して108のLVLMを体系的に評価し,フレームワークを検証するためのトレーニングセットとテストセットを構築した。
実験では,未知のスコアの予測におけるPMFの精度,オーダリング評価における不確実性推定の信頼性,スパースデータ処理における拡張の有効性を実証した。
関連論文リスト
- Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。
これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。
本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Automated Efficient Estimation using Monte Carlo Efficient Influence
Functions [5.1689445482852765]
本稿では,MC-EIF(TextitMonte Carlo Efficient Influence Function)を紹介する。
MC-EIFは効率的な影響関数を近似する完全自動化技術である。
我々は,MC-EIF が一貫したものであり,MC-EIF を用いた推定器が最適$sqrtN$収束率を達成することを証明した。
論文 参考訳(メタデータ) (2024-02-29T22:19:46Z) - Measuring the Driving Forces of Predictive Performance: Application to
Credit Scoring [0.0]
信用スコアでは、機械学習モデルは標準パラメトリックモデルを上回ることが知られている。
本稿では、モデルに関連するコントリビューションにパフォーマンスメトリックを分解するXPER手法を紹介する。
モデル性能の驚くほど大きな部分を、少数の機能が説明できることを示す。
論文 参考訳(メタデータ) (2022-12-12T13:09:46Z) - Useful Confidence Measures: Beyond the Max Score [9.189382034558657]
最大スコアを超える情報に依存するいくつかの信頼度尺度を導出します。
アウト・オブ・ディストリビューション・データに基づいてモデルを評価する場合,信頼度測定値の最大値のみを用いて,信頼度を推定する手法が極めて最適であることを示す。
論文 参考訳(メタデータ) (2022-10-25T14:54:44Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic
Regression [51.770998056563094]
PGBM(Probabilistic Gradient Boosting Machines)は、確率的予測を生成する手法である。
既存の最先端手法と比較してPGBMの利点を実証的に示す。
論文 参考訳(メタデータ) (2021-06-03T08:32:13Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。