論文の概要: On Large Multimodal Models as Open-World Image Classifiers
- arxiv url: http://arxiv.org/abs/2503.21851v1
- Date: Thu, 27 Mar 2025 17:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:53.652896
- Title: On Large Multimodal Models as Open-World Image Classifiers
- Title(参考訳): オープンワールド画像分類器としての大規模マルチモーダルモデルについて
- Authors: Alessandro Conti, Massimiliano Mancini, Enrico Fini, Yiming Wang, Paolo Rota, Elisa Ricci,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、自然言語を使って画像を分類することができる。
原型,非原型,きめ細かな粒度,そして非常にきめ細かいクラスを含む10のベンチマークで13のモデルを評価した。
- 参考スコア(独自算出の注目度): 71.78089106671581
- License:
- Abstract: Traditional image classification requires a predefined list of semantic categories. In contrast, Large Multimodal Models (LMMs) can sidestep this requirement by classifying images directly using natural language (e.g., answering the prompt "What is the main object in the image?"). Despite this remarkable capability, most existing studies on LMM classification performance are surprisingly limited in scope, often assuming a closed-world setting with a predefined set of categories. In this work, we address this gap by thoroughly evaluating LMM classification performance in a truly open-world setting. We first formalize the task and introduce an evaluation protocol, defining various metrics to assess the alignment between predicted and ground truth classes. We then evaluate 13 models across 10 benchmarks, encompassing prototypical, non-prototypical, fine-grained, and very fine-grained classes, demonstrating the challenges LMMs face in this task. Further analyses based on the proposed metrics reveal the types of errors LMMs make, highlighting challenges related to granularity and fine-grained capabilities, showing how tailored prompting and reasoning can alleviate them.
- Abstract(参考訳): 伝統的な画像分類には、予め定義された意味圏のリストが必要である。
対照的に、LMM(Large Multimodal Models)は、自然言語を使って画像を直接分類することで、この要件を回避できる。
この顕著な能力にもかかわらず、LMM分類性能に関する既存の研究のほとんどは驚くほど範囲が限られており、しばしば事前に定義されたカテゴリの集合を持つ閉世界設定を仮定する。
本研究では,LMM分類性能を真にオープンな環境で徹底的に評価することにより,このギャップに対処する。
まずタスクを形式化し,評価プロトコルを導入し,予測された真理クラスと基礎的真理クラスとの整合性を評価するための様々な指標を定義した。
次に、10のベンチマークで13のモデルを評価し、プロトタイプ、非プロトタイプ、きめ細かい粒度、そして非常にきめ細かいクラスを包含し、LMMが直面している課題を実証した。
提案手法に基づくさらなる分析により,LMMの誤差の種類が明らかになり,粒度や粒度に関する課題が浮き彫りになり,プロンプトや推論がいかに緩和されるかが明らかになった。
関連論文リスト
- Large Language Models For Text Classification: Case Study And Comprehensive Review [0.3428444467046467]
各種言語モデル(LLM)の性能を,最先端のディープラーニングモデルや機械学習モデルと比較して評価する。
本研究は,提案手法に基づくモデル応答の有意な変動を明らかにした。
論文 参考訳(メタデータ) (2025-01-14T22:02:38Z) - Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。
従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。
ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - ROSE: Revolutionizing Open-Set Dense Segmentation with Patch-Wise Perceptual Large Multimodal Model [75.750699619993]
本稿では,高密度マスク予測とオープンカテゴリ生成が可能な,革命的オープンセット高密度セグメンテーションLMMであるROSEを提案する。
本手法は,各画像パッチを関心領域の独立領域として扱い,密集マスクとスパースマスクを同時に予測する。
論文 参考訳(メタデータ) (2024-11-29T07:00:18Z) - An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases [0.0]
大規模言語モデル(LLM)は、様々な方法でバイアスを示すことができる。
特定のユースケースで使用するバイアスと公平度の測定値を決定するための,意思決定フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-15T16:04:44Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z) - See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文 参考訳(メタデータ) (2023-12-13T18:58:04Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。
まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。
提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。