論文の概要: BenchLMM: Benchmarking Cross-style Visual Capability of Large Multimodal
Models
- arxiv url: http://arxiv.org/abs/2312.02896v1
- Date: Tue, 5 Dec 2023 17:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:55:17.975244
- Title: BenchLMM: Benchmarking Cross-style Visual Capability of Large Multimodal
Models
- Title(参考訳): BenchLMM: 大規模マルチモーダルモデルのクロススタイル視覚能力のベンチマーク
- Authors: Rizhao Cai, Zirui Song, Dayan Guan, Zhenhao Chen, Xing Luo, Chenyu Yi,
Alex Kot
- Abstract要約: 我々は3つの異なるスタイルに対してLMMの堅牢性を評価するため,新しいベンチマークであるBenchLMMを提案する。
知的LMMは、スタイル変化に直面した際の誤りの原因を解釈することが期待される。
- 参考スコア(独自算出の注目度): 16.863846351932402
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Multimodal Models (LMMs) such as GPT-4V and LLaVA have shown remarkable
capabilities in visual reasoning with common image styles. However, their
robustness against diverse style shifts, crucial for practical applications,
remains largely unexplored. In this paper, we propose a new benchmark,
BenchLMM, to assess the robustness of LMMs against three different styles:
artistic image style, imaging sensor style, and application style, where each
style has five sub-styles. Utilizing BenchLMM, we comprehensively evaluate
state-of-the-art LMMs and reveal: 1) LMMs generally suffer performance
degradation when working with other styles; 2) An LMM performs better than
another model in common style does not guarantee its superior performance in
other styles; 3) LMMs' reasoning capability can be enhanced by prompting LMMs
to predict the style first, based on which we propose a versatile and
training-free method for improving LMMs; 4) An intelligent LMM is expected to
interpret the causes of its errors when facing stylistic variations. We hope
that our benchmark and analysis can shed new light on developing more
intelligent and versatile LMMs.
- Abstract(参考訳): GPT-4VやLLaVAのような大型マルチモーダルモデル(LMM)は、一般的な画像スタイルによる視覚的推論において顕著な能力を示している。
しかし、その多様なスタイルシフトに対する強固さは、実用的用途に欠かせないものであり、ほとんど未調査のままである。
本稿では,芸術的なイメージスタイル,イメージセンサスタイル,アプリケーションスタイルの3つのスタイルに対して,LMMの堅牢性を評価するベンチマークであるBenchLMMを提案する。
BenchLMMを用いて、最先端のLMMを包括的に評価し、次のように明らかにする。
1 LMMは、通常、他のスタイルで作業する際に性能劣化を被る。
2) LMMは,共通のスタイルで他のモデルよりも優れており,その優れた性能を他のスタイルで保証しない。
3) LMM の推論能力は LMM に対して,LMM の改善のための多目的かつ訓練不要な手法を提案することによって向上することができる。
4)知的LMMは,形式的変化に直面した際の誤りの原因を解釈することが期待される。
ベンチマークと分析により、よりインテリジェントで汎用的なLMMの開発に新たな光が当てられることを期待しています。
関連論文リスト
- SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation [92.73405185996315]
大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。
マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。
モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
論文 参考訳(メタデータ) (2024-12-08T05:28:08Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。
我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z) - Imp: Highly Capable Large Multimodal Models for Mobile Devices [19.328141787433704]
大規模言語モデル(LLM)は、オープンワールドのマルチモーダル理解において顕著な汎用性を示している。
それらは通常パラメータ重で計算集約的であり、リソース制約のあるシナリオにおける適用性を妨げます。
本稿では,モデルアーキテクチャ,トレーニング戦略,トレーニングデータの観点から,軽量LMMの体系的研究を行う。
その結果,2B-4Bスケールで高い能力を有するLMMのファミリーであるImpが得られた。
論文 参考訳(メタデータ) (2024-05-20T15:23:19Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal
Models [19.32035955420203]
我々は,様々な視覚的参照促進戦略を用いて,LMM(Large Multimodal Models)の最初の包括的解析を行う。
人間の介入や手動ラベリングを必要とせずにLMMの精度を評価するための自動評価フレームワークを開発した。
現在のプロプライエタリモデルは一般的にオープンソースモデルよりも優れており、平均精度は22.70%向上している。
論文 参考訳(メタデータ) (2023-12-07T06:53:55Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。