論文の概要: R-Bench: Are your Large Multimodal Model Robust to Real-world Corruptions?
- arxiv url: http://arxiv.org/abs/2410.05474v1
- Date: Mon, 7 Oct 2024 20:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 18:28:00.608135
- Title: R-Bench: Are your Large Multimodal Model Robust to Real-world Corruptions?
- Title(参考訳): R-Bench: 大規模なマルチモーダルモデルは、現実世界の崩壊に頑丈か?
- Authors: Chunyi Li, Jianbo Zhang, Zicheng Zhang, Haoning Wu, Yuan Tian, Wei Sun, Guo Lu, Xiaohong Liu, Xiongkuo Min, Weisi Lin, Guangtao Zhai,
- Abstract要約: R-Benchは、LMMs*の**実世界のロバストネスに焦点を当てたベンチマークである。
LMMは元の参照画像を正しく扱えるが、歪んだ画像に直面すると、その性能は安定しない。
我々は、R-BenchがLMMの堅牢性を改善し、*実験シミュレーションから*実世界のアプリケーションへ拡張することを願っている。
- 参考スコア(独自算出の注目度): 86.94616033250068
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The outstanding performance of Large Multimodal Models (LMMs) has made them widely applied in vision-related tasks. However, various corruptions in the real world mean that images will not be as ideal as in simulations, presenting significant challenges for the practical application of LMMs. To address this issue, we introduce R-Bench, a benchmark focused on the **Real-world Robustness of LMMs**. Specifically, we: (a) model the complete link from user capture to LMMs reception, comprising 33 corruption dimensions, including 7 steps according to the corruption sequence, and 7 groups based on low-level attributes; (b) collect reference/distorted image dataset before/after corruption, including 2,970 question-answer pairs with human labeling; (c) propose comprehensive evaluation for absolute/relative robustness and benchmark 20 mainstream LMMs. Results show that while LMMs can correctly handle the original reference images, their performance is not stable when faced with distorted images, and there is a significant gap in robustness compared to the human visual system. We hope that R-Bench will inspire improving the robustness of LMMs, **extending them from experimental simulations to the real-world application**. Check https://q-future.github.io/R-Bench for details.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の卓越した性能は、視覚関連タスクに広く応用されている。
しかし、実世界の様々な汚職は、画像がシミュレーションほど理想的ではないことを意味し、LMMの実践的な応用には重大な課題が提示される。
この問題に対処するため、LMMの**実世界のロバストネスに焦点をあてたベンチマークであるR-Benchを紹介する。
具体的には
(a) ユーザキャプチャーからLMMへの完全リンクをモデル化し、汚職シーケンスに応じた7ステップを含む33の汚職次元と、低レベル属性に基づく7つのグループからなる。
b) 人のラベル付き質問応答対2,970件を含む,腐敗の前後の参照・歪んだ画像データセットを収集すること。
(c) 絶対相対ロバスト性の評価とベンチマーク20の主流LMMを提案する。
その結果、LMMは元の参照画像を正しく扱えるが、歪んだ画像に直面すると、その性能は安定せず、人間の視覚システムと比較して、頑健さには大きなギャップがあることがわかった。
我々は、R-BenchがLMMの堅牢性を改善し、*実験シミュレーションから*実世界のアプリケーションへ拡張することを願っている。
詳細はhttps://q-future.github.io/R-Benchを参照してください。
関連論文リスト
- MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective [32.55432949789787]
大規模マルチモーダルモデル(LMM)は目覚ましい機能を示している。
入力画像から画像のプロンプトを生成するためにLMMを必要とする簡易な自動評価パイプラインを提案する。
次に、テキストから画像への生成モデルを用いて、生成したプロンプトに基づいて新しい画像を生成する。
最後に,元の画像と生成された画像を比較し,LMMの性能を評価する。
論文 参考訳(メタデータ) (2024-11-21T12:16:16Z) - HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks [25.959032350818795]
HumanEval-Vは、コード生成による大規模言語モデルの視覚的理解と推論能力を評価するために設計されたベンチマークである。
HumanEval-Vには、CodeForcesやStack Overflowといったプラットフォームから派生した、108の慎重に構築されたエントリーレベルのPythonコーディングタスクが含まれている。
我々はHumanEval-Vを用いて19の最先端LMMを評価し、重要な課題を明らかにした。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models [57.280853324896306]
マルチモーダル大言語モデル(MLLM)は、高解像度(HR)画像の複雑な詳細を認識し解釈するのに苦労する。
HR-Benchは、4K&8K画像上でMLLMの性能を厳格に評価する最初の意図的に設計されたベンチマークである。
HR画像のMLLM知覚を高めるための新しいトレーニングフリーフレームワークであるDivide, Conquer and Combine (DC$2$)を提案する。
論文 参考訳(メタデータ) (2024-08-28T06:09:02Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。
我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z) - Benchmarking Large Multimodal Models against Common Corruptions [45.26424202601339]
大規模マルチモーダルモデル(LMM)の評価における欠陥を補うことを目的とした技術報告
テキスト,画像,音声間の相互モーダルな相互作用について検討し,本質的な4つのタスクを包含する。
MMCBenchという名前のベンチマークを作成し、100以上のLMMをカバーしています。
論文 参考訳(メタデータ) (2024-01-22T13:33:53Z) - Lightweight high-resolution Subject Matting in the Real World [43.56357473163735]
本研究では,サリエンシオブジェクトマッチングデータセットHRSOMと軽量ネットワークPSUNetを構築した。
モバイルデポライメントフレームワークの効率的な推定を考慮し、対称画素シャッフルモジュールと軽量モジュールTRSUを設計する。
13のSOD手法と比較して、提案したPSUNetは高解像度のベンチマークデータセット上で最高の目標性能を持つ。
論文 参考訳(メタデータ) (2023-12-12T09:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。