論文の概要: Exploring Perceptual Limitation of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2402.07384v1
- Date: Mon, 12 Feb 2024 03:04:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 15:41:03.551313
- Title: Exploring Perceptual Limitation of Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルの知覚限界の検討
- Authors: Jiarui Zhang, Jinyi Hu, Mahyar Khayatkhoei, Filip Ilievski, Maosong
Sun
- Abstract要約: 我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。
この制限に寄与できる4つの独立した要因を特定します。
オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
- 参考スコア(独自算出の注目度): 57.567868157293994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have recently shown remarkable
perceptual capability in answering visual questions, however, little is known
about the limits of their perception. In particular, while prior works have
provided anecdotal evidence of MLLMs' sensitivity to object size, this
phenomenon and its underlying causes have not been explored comprehensively. In
this work, we quantitatively study the perception of small visual objects in
several state-of-the-art MLLMs and reveal a pervasive limitation in answering
questions about small objects in images. Next, we identify four independent
factors that can contribute to this limitation -- object quality, size,
distractors, and location -- and conduct controlled intervention studies to
measure the effect of each factor on MLLMs' perception. In particular, we find
that lower object quality and smaller object size can both independently reduce
MLLMs' ability to answer visual questions. More surprisingly, we find that the
location of the object in the image and the presence of visual distractors can
also significantly reduce MLLMs' question answering accuracy. Our study
provides a better understanding of the perceptual limitation of MLLMs and
contributes new evaluation protocols for analyzing the perception of future
MLLMs. To facilitate further investigations, we release our code and data.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は近年、視覚的疑問に答える際、目立った知覚能力を示したが、その知覚の限界についてはほとんど分かっていない。
特に、先行研究はMLLMの物体サイズに対する感受性の逸話的な証拠を提供しているが、この現象とその根本原因は包括的に調査されていない。
本研究では,最先端mllmにおける小型視覚物体の知覚を定量的に検討し,画像中の小物体に関する質問に回答する際の広汎な限界を明らかにする。
次に、この制限に寄与する4つの独立した要因(物体の質、大きさ、距離、位置)を特定し、各因子がMLLMの知覚に与える影響を測定するための制御された介入研究を行う。
特に、より低いオブジェクト品質とより小さなオブジェクトサイズは、独立してmllmsの視覚的な質問に答える能力を減らすことができることが分かりました。
より驚くべきことに、画像中の物体の位置と視覚障害の存在は、MLLMの質問応答精度を著しく低下させる可能性がある。
本研究は,MLLMの知覚的限界をよりよく理解し,今後のMLLMの知覚を解析するための新しい評価プロトコルを提供する。
さらなる調査を容易にするために、コードとデータをリリースします。
関連論文リスト
- Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - Hallucination of Multimodal Large Language Models: A Survey [40.73148186369018]
マルチモーダル大規模言語モデル(MLLM)は,多モーダルタスクにおいて顕著な進歩と顕著な能力を示した。
これらの有望な発展にもかかわらず、MLLMは視覚的内容と矛盾する出力をしばしば生成する。
本調査は,MLLMにおける幻覚の理解を深め,この分野のさらなる進歩を促すことを目的としている。
論文 参考訳(メタデータ) (2024-04-29T17:59:41Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception [21.60103376506254]
MLLM(Multimodal Large Language Models)は視覚的知覚と理解において例外的な能力を示す。
これらのモデルも幻覚に悩まされ、AIシステムとしての信頼性が制限される。
本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。
論文 参考訳(メタデータ) (2024-01-15T08:19:22Z) - Towards Perceiving Small Visual Details in Zero-shot Visual Question
Answering with Multimodal LLMs [12.598351373932234]
MLLMは画像の細部だけでなく細部までも知覚できるかどうかを検討する。
視覚的質問に対する回答におけるゼロショット精度は,視覚的対象の大きさに非常に敏感であることを示す。
MLLMのゼロショット性能を改善するために,5つの視覚的トリミング法を提案する。
論文 参考訳(メタデータ) (2023-10-24T17:48:04Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。