論文の概要: R-Bench: Are your Large Multimodal Model Robust to Real-world Corruptions?
- arxiv url: http://arxiv.org/abs/2410.05474v1
- Date: Mon, 07 Oct 2024 20:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:31:37.081400
- Title: R-Bench: Are your Large Multimodal Model Robust to Real-world Corruptions?
- Title(参考訳): R-Bench: 大規模なマルチモーダルモデルは、現実世界の崩壊に頑丈か?
- Authors: Chunyi Li, Jianbo Zhang, Zicheng Zhang, Haoning Wu, Yuan Tian, Wei Sun, Guo Lu, Xiaohong Liu, Xiongkuo Min, Weisi Lin, Guangtao Zhai,
- Abstract要約: R-Benchは、LMMs*の**実世界のロバストネスに焦点を当てたベンチマークである。
LMMは元の参照画像を正しく扱えるが、歪んだ画像に直面すると、その性能は安定しない。
我々は、R-BenchがLMMの堅牢性を改善し、*実験シミュレーションから*実世界のアプリケーションへ拡張することを願っている。
- 参考スコア(独自算出の注目度): 86.94616033250068
- License:
- Abstract: The outstanding performance of Large Multimodal Models (LMMs) has made them widely applied in vision-related tasks. However, various corruptions in the real world mean that images will not be as ideal as in simulations, presenting significant challenges for the practical application of LMMs. To address this issue, we introduce R-Bench, a benchmark focused on the **Real-world Robustness of LMMs**. Specifically, we: (a) model the complete link from user capture to LMMs reception, comprising 33 corruption dimensions, including 7 steps according to the corruption sequence, and 7 groups based on low-level attributes; (b) collect reference/distorted image dataset before/after corruption, including 2,970 question-answer pairs with human labeling; (c) propose comprehensive evaluation for absolute/relative robustness and benchmark 20 mainstream LMMs. Results show that while LMMs can correctly handle the original reference images, their performance is not stable when faced with distorted images, and there is a significant gap in robustness compared to the human visual system. We hope that R-Bench will inspire improving the robustness of LMMs, **extending them from experimental simulations to the real-world application**. Check https://q-future.github.io/R-Bench for details.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の卓越した性能は、視覚関連タスクに広く応用されている。
しかし、実世界の様々な汚職は、画像がシミュレーションほど理想的ではないことを意味し、LMMの実践的な応用には重大な課題が提示される。
この問題に対処するため、LMMの**実世界のロバストネスに焦点をあてたベンチマークであるR-Benchを紹介する。
具体的には
(a) ユーザキャプチャーからLMMへの完全リンクをモデル化し、汚職シーケンスに応じた7ステップを含む33の汚職次元と、低レベル属性に基づく7つのグループからなる。
b) 人のラベル付き質問応答対2,970件を含む,腐敗の前後の参照・歪んだ画像データセットを収集すること。
(c) 絶対相対ロバスト性の評価とベンチマーク20の主流LMMを提案する。
その結果、LMMは元の参照画像を正しく扱えるが、歪んだ画像に直面すると、その性能は安定せず、人間の視覚システムと比較して、頑健さには大きなギャップがあることがわかった。
我々は、R-BenchがLMMの堅牢性を改善し、*実験シミュレーションから*実世界のアプリケーションへ拡張することを願っている。
詳細はhttps://q-future.github.io/R-Benchを参照してください。
関連論文リスト
- A New Dataset and Framework for Real-World Blurred Images Super-Resolution [9.122275433854062]
我々は,Real-world Blur-kept Super-Resolution (ReBlurSR) データセットという,ぼやけた画像に適した新しい超解像データセットを開発した。
本稿では,Cross Disentanglement Module (CDM) とCross Fusion Module (CFM) の2つの主要モジュールからなるPerceptual-Blur-adaptive Super-Resolution (PBaSR)を提案する。
これら2つのモジュールを統合することで、PBaSRは、追加の推論やデプロイメントコストを伴わずに、一般的なデータと曖昧なデータの両方でコメンタブルなパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-07-20T14:07:03Z) - Visual Haystacks: Answering Harder Questions About Sets of Images [63.296342841358815]
本稿では,Multi-Image Visual Question Answering(MIQA)の課題について検討する。
大量の画像と自然言語クエリが与えられたら、そのタスクは関連性があり、接地された応答を生成することだ。
大規模マルチモーダルモデル(LMM)に適した新しい検索/QAフレームワークであるMIRAGEを紹介する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。
我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z) - A-Bench: Are LMMs Masters at Evaluating AI-generated Images? [78.3699767628502]
A-Benchは、マルチモーダルモデル(LMM)がAI生成画像(AIGI)を評価するマスターであるかどうかを診断するために設計されたベンチマークである。
最終的に、16のテキスト・ツー・イメージモデルの2,864のAIGIがサンプリングされ、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
論文 参考訳(メタデータ) (2024-06-05T08:55:02Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Benchmarking Large Multimodal Models against Common Corruptions [45.26424202601339]
大規模マルチモーダルモデル(LMM)の評価における欠陥を補うことを目的とした技術報告
テキスト,画像,音声間の相互モーダルな相互作用について検討し,本質的な4つのタスクを包含する。
MMCBenchという名前のベンチマークを作成し、100以上のLMMをカバーしています。
論文 参考訳(メタデータ) (2024-01-22T13:33:53Z) - Lightweight high-resolution Subject Matting in the Real World [43.56357473163735]
本研究では,サリエンシオブジェクトマッチングデータセットHRSOMと軽量ネットワークPSUNetを構築した。
モバイルデポライメントフレームワークの効率的な推定を考慮し、対称画素シャッフルモジュールと軽量モジュールTRSUを設計する。
13のSOD手法と比較して、提案したPSUNetは高解像度のベンチマークデータセット上で最高の目標性能を持つ。
論文 参考訳(メタデータ) (2023-12-12T09:27:57Z) - MLIC++: Linear Complexity Multi-Reference Entropy Modeling for Learned
Image Compression [30.71965784982577]
我々はMEM++を導入し、潜在表現に固有の様々な相関関係をキャプチャする。
MEM++は最先端のパフォーマンスを実現し、PSNRのVTM-17.0と比較して、KodakデータセットのBDレートを13.39%削減した。
MLIC++はリニアGPUメモリを解像度で表示し、高解像度の画像符号化に非常に適している。
論文 参考訳(メタデータ) (2023-07-28T09:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。