Fugu-MT 論文翻訳(概要): Exploring Perceptual Limitation of Multimodal Large Language Models

論文の概要: Exploring Perceptual Limitation of Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2402.07384v1
Date: Mon, 12 Feb 2024 03:04:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 15:41:03.551313
Title: Exploring Perceptual Limitation of Multimodal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルの知覚限界の検討
Authors: Jiarui Zhang, Jinyi Hu, Mahyar Khayatkhoei, Filip Ilievski, Maosong Sun
Abstract要約: 我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。この制限に寄与できる4つの独立した要因を特定します。オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
参考スコア（独自算出の注目度）: 57.567868157293994
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have recently shown remarkable perceptual capability in answering visual questions, however, little is known about the limits of their perception. In particular, while prior works have provided anecdotal evidence of MLLMs' sensitivity to object size, this phenomenon and its underlying causes have not been explored comprehensively. In this work, we quantitatively study the perception of small visual objects in several state-of-the-art MLLMs and reveal a pervasive limitation in answering questions about small objects in images. Next, we identify four independent factors that can contribute to this limitation -- object quality, size, distractors, and location -- and conduct controlled intervention studies to measure the effect of each factor on MLLMs' perception. In particular, we find that lower object quality and smaller object size can both independently reduce MLLMs' ability to answer visual questions. More surprisingly, we find that the location of the object in the image and the presence of visual distractors can also significantly reduce MLLMs' question answering accuracy. Our study provides a better understanding of the perceptual limitation of MLLMs and contributes new evaluation protocols for analyzing the perception of future MLLMs. To facilitate further investigations, we release our code and data.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は近年、視覚的疑問に答える際、目立った知覚能力を示したが、その知覚の限界についてはほとんど分かっていない。特に、先行研究はMLLMの物体サイズに対する感受性の逸話的な証拠を提供しているが、この現象とその根本原因は包括的に調査されていない。本研究では,最先端mllmにおける小型視覚物体の知覚を定量的に検討し,画像中の小物体に関する質問に回答する際の広汎な限界を明らかにする。次に、この制限に寄与する4つの独立した要因(物体の質、大きさ、距離、位置)を特定し、各因子がMLLMの知覚に与える影響を測定するための制御された介入研究を行う。特に、より低いオブジェクト品質とより小さなオブジェクトサイズは、独立してmllmsの視覚的な質問に答える能力を減らすことができることが分かりました。より驚くべきことに、画像中の物体の位置と視覚障害の存在は、MLLMの質問応答精度を著しく低下させる可能性がある。本研究は,MLLMの知覚的限界をよりよく理解し,今後のMLLMの知覚を解析するための新しい評価プロトコルを提供する。さらなる調査を容易にするために、コードとデータをリリースします。

関連論文リスト

Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。 GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文参考訳（メタデータ） (2025-03-17T04:07:47Z)
MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs [11.532430076027554]
我々はMLLMが画像に関する質問に答える際に、小さな視覚的詳細を大きなものと同じくらい効果的に知覚できるかどうかを検討する。本研究では,MLLM自体の内部知識を活用する学習自由な視覚介入手法を提案する。
論文参考訳（メタデータ） (2025-02-24T18:54:40Z)
Benchmarking Large and Small MLLMs [71.78055760441256]
大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。 LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
論文参考訳（メタデータ） (2025-01-04T07:44:49Z)
Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文参考訳（メタデータ） (2024-12-15T09:10:46Z)
NEMO: Can Multimodal LLMs Identify Attribute-Modified Objects? [19.525612393979777]
我々は,オリギナル果実とそれに対応するアトリビュート修飾果実の900枚の画像からなる新しいベンチマークNEMOを紹介する。ベンチマークを用いて26の最近のオープンソースおよび商用モデルを評価した。本研究は,NEMOにおける物体認識における性能差を明らかにするとともに,異なるモデル間で異なる解の選好を明らかにすることを目的とした。
論文参考訳（メタデータ） (2024-11-26T17:47:34Z)
Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文参考訳（メタデータ） (2024-09-15T14:38:29Z)
Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文参考訳（メタデータ） (2024-06-06T16:35:36Z)
Hallucination of Multimodal Large Language Models: A Survey [40.73148186369018]
マルチモーダル大規模言語モデル(MLLM)は,多モーダルタスクにおいて顕著な進歩と顕著な能力を示した。これらの有望な発展にもかかわらず、MLLMは視覚的内容と矛盾する出力をしばしば生成する。本調査は,MLLMにおける幻覚の理解を深め,この分野のさらなる進歩を促すことを目的としている。
論文参考訳（メタデータ） (2024-04-29T17:59:41Z)
Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文参考訳（メタデータ） (2024-01-30T17:38:54Z)
Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。 MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文参考訳（メタデータ） (2024-01-19T07:10:13Z)
MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception [21.60103376506254]
MLLM(Multimodal Large Language Models)は視覚的知覚と理解において例外的な能力を示す。これらのモデルも幻覚に悩まされ、AIシステムとしての信頼性が制限される。本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。
論文参考訳（メタデータ） (2024-01-15T08:19:22Z)
Towards Perceiving Small Visual Details in Zero-shot Visual Question Answering with Multimodal LLMs [12.598351373932234]
MLLMは画像の細部だけでなく細部までも知覚できるかどうかを検討する。視覚的質問に対する回答におけるゼロショット精度は,視覚的対象の大きさに非常に敏感であることを示す。 MLLMのゼロショット性能を改善するために,5つの視覚的トリミング法を提案する。
論文参考訳（メタデータ） (2023-10-24T17:48:04Z)
Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。 Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文参考訳（メタデータ） (2023-09-25T14:43:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。