Fugu-MT 論文翻訳(概要): Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels

論文の概要: Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels

arxiv url: http://arxiv.org/abs/2412.06461v1
Date: Mon, 09 Dec 2024 13:05:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.353807
Title: Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels
Title（参考訳）: 内部からランク付け:ラベルなしの視覚質問応答のための大規模マルチモーダルモデル
Authors: Weijie Tu, Weijian Deng, Dylan Campbell, Yu Yao, Jiyang Zheng, Tom Gedeon, Tongliang Liu,
Abstract要約: 大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
参考スコア（独自算出の注目度）: 64.94853276821992
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large multimodal models (LMMs) are increasingly deployed across diverse applications, the need for adaptable, real-world model ranking has become paramount. Traditional evaluation methods are largely dataset-centric, relying on fixed, labeled datasets and supervised metrics, which are resource-intensive and may lack generalizability to novel scenarios, highlighting the importance of unsupervised ranking. In this work, we explore unsupervised model ranking for LMMs by leveraging their uncertainty signals, such as softmax probabilities. We evaluate state-of-the-art LMMs (e.g., LLaVA) across visual question answering benchmarks, analyzing how uncertainty-based metrics can reflect model performance. Our findings show that uncertainty scores derived from softmax distributions provide a robust, consistent basis for ranking models across varied tasks. This finding enables the ranking of LMMs on real-world, unlabeled data for visual question answering, providing a practical approach for selecting models across diverse domains without requiring manual annotation.
Abstract（参考訳）: 大規模マルチモーダルモデル (LMM) が多種多様なアプリケーションにまたがって展開されるにつれて、適応可能な実世界のモデルランキングの必要性が高まっている。従来の評価手法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存しており、リソース集約であり、新しいシナリオへの一般化性が欠如しており、教師なしランキングの重要性を強調している。本研究では,ソフトマックス確率などの不確実性信号を活用することで,LMMの教師なしモデルランキングについて検討する。我々は、視覚的質問応答ベンチマークを用いて最先端のLMM(例えばLLaVA)を評価し、不確実性に基づくメトリクスがモデルの性能をどのように反映するかを分析した。その結果,ソフトマックス分布から得られる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,頑健で一貫した基礎となることがわかった。この発見により、視覚的質問応答のためのラベルのない実世界におけるLMMのランク付けが可能となり、手動のアノテーションを必要とせず、様々な領域にまたがるモデルを選択するための実践的なアプローチが提供される。

関連論文リスト

Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
On Large Multimodal Models as Open-World Image Classifiers [71.78089106671581]
大規模マルチモーダルモデル(LMM)は、自然言語を使って画像を分類することができる。原型,非原型,きめ細かな粒度,そして非常にきめ細かいクラスを含む10のベンチマークで13のモデルを評価した。
論文参考訳（メタデータ） (2025-03-27T17:03:18Z)
SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。 SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文参考訳（メタデータ） (2025-02-28T19:27:29Z)
PairBench: A Systematic Framework for Selecting Reliable Judge VLMs [16.49586486795478]
PairBenchは、大規模視覚言語モデル(VLM)をカスタマイズ可能な類似性ツールとして体系的に評価するフレームワークである。 PairBenchを通じて、類似度スコアのキーデシラタを表す4つのメトリクスを紹介します。我々の分析では、クローズドあるいはオープンソースを問わず、どのモデルもすべての指標より優れていることが示されています。
論文参考訳（メタデータ） (2025-02-21T04:53:11Z)
REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文参考訳（メタデータ） (2025-02-17T22:10:47Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文参考訳（メタデータ） (2024-02-18T03:40:06Z)
Learning Rich Rankings [7.940293148084844]
文脈的反復選択(CRS)モデルを構築し、自然の多モード性とリッチネスをランキング空間にもたらす。構造に依存したテールリスクと予測されるリスクバウンダリによるモデルの下での最大推定の理論的保証を提供する。また,MNL選択モデルとPlackett-Luce(PL)ランキングモデルに対する最大極大推定器の予測リスクに,最初の厳密な境界を設けた。
論文参考訳（メタデータ） (2023-12-22T21:40:57Z)
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文参考訳（メタデータ） (2023-08-04T17:59:47Z)
Rethinking Uncertainly Missing and Ambiguous Visual Modality in Multi-Modal Entity Alignment [38.574204922793626]
提案するデータセットMMEA-UMVM上で,最新のMMEAモデルをベンチマークすることで,視覚的モダリティの不完全性のさらなる解析を行う。我々の研究は、モダリティの不完全性に直面して、モデルがモダリティノイズを過度に適合させ、モダリティを欠く高い速度で性能の振動や低下を示すことを示唆している。 UMAEAは、不確実で曖昧な視覚的モダリティに対処するために設計された、堅牢なマルチモーダルエンティティアライメントアプローチである。
論文参考訳（メタデータ） (2023-07-30T12:16:49Z)
Feature Likelihood Divergence: Evaluating the Generalization of Generative Models Using Samples [25.657798631897908]
Feature Likelihood Divergenceは、生成モデルの包括的なトリコトミック評価を提供する。我々は,以前に提案された指標が失敗した場合でも,FLDが過度に適合する問題を識別できることを実証的に示す。
論文参考訳（メタデータ） (2023-02-09T04:57:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。