論文の概要: Finding Needles in Images: Can Multimodal LLMs Locate Fine Details?
- arxiv url: http://arxiv.org/abs/2508.05053v1
- Date: Thu, 07 Aug 2025 06:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.658073
- Title: Finding Needles in Images: Can Multimodal LLMs Locate Fine Details?
- Title(参考訳): 画像中の針を見つける:マルチモーダルLLMは細部を隠せるか?
- Authors: Parth Thakkar, Ankush Agarwal, Prasad Kasu, Pulkit Bansal, Chaitanya Devaguptapu,
- Abstract要約: Finding Needles in Images (NiM)は、新聞、メニュー、講義画像を含む様々な現実世界の文書にまたがるベンチマークである。
我々は,知的パッチ選択とガウス的注意を通してMLLMの能力を高める,シンプルで効果的なアプローチであるSpot-ITを提案する。
提案手法の有効性を実証しながら,文書理解タスクのきめ細かい処理における現在のMLLMの機能と限界を明らかにした。
- 参考スコア(独自算出の注目度): 3.4690322157094573
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Multi-modal Large Language Models (MLLMs) have shown impressive capabilities in document understanding tasks, their ability to locate and reason about fine-grained details within complex documents remains understudied. Consider searching a restaurant menu for a specific nutritional detail or identifying a disclaimer in a lengthy newspaper article tasks that demand careful attention to small but significant details within a broader narrative, akin to Finding Needles in Images (NiM). To address this gap, we introduce NiM, a carefully curated benchmark spanning diverse real-world documents including newspapers, menus, and lecture images, specifically designed to evaluate MLLMs' capability in these intricate tasks. Building on this, we further propose Spot-IT, a simple yet effective approach that enhances MLLMs capability through intelligent patch selection and Gaussian attention, motivated from how humans zoom and focus when searching documents. Our extensive experiments reveal both the capabilities and limitations of current MLLMs in handling fine-grained document understanding tasks, while demonstrating the effectiveness of our approach. Spot-IT achieves significant improvements over baseline methods, particularly in scenarios requiring precise detail extraction from complex layouts.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は文書理解タスクにおいて顕著な能力を示してきたが、複雑な文書の詳細な詳細を見つける能力はいまだ検討されていない。
特定の栄養的詳細のためにレストランメニューを検索するか、より広い物語の中ではNiM(Finding Needles in Images)に似た、小さなが重要な詳細に注意を要する長い新聞記事のタスクで、ディスラプターを識別するかを検討する。
このギャップに対処するために、新聞、メニュー、講義画像など、様々な現実世界の文書にまたがる慎重にキュレートされたベンチマークであるNiMを導入し、これらの複雑なタスクにおけるMLLMの能力を評価するために特別に設計した。
これに基づいて,文書検索における人間のズームとフォーカスの仕方から,知的パッチ選択とガウス的注意を通してMLLMの能力を高める,シンプルで効果的なアプローチであるSpot-ITを提案する。
提案手法の有効性を実証しながら,文書理解タスクのきめ細かい処理における現在のMLLMの機能と限界を明らかにした。
Spot-ITは、特に複雑なレイアウトから正確な詳細を抽出する必要があるシナリオにおいて、ベースラインメソッドよりも大幅に改善されている。
関連論文リスト
- Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs [7.03771340666549]
MLLM(Multimodal Large Language Models)における視覚言語ミスアライメントは重要な課題である。
本稿では,MMA(Modality-mutual attention)に因果的注意を開放し,画像トークンがテキストトークンに参加することを可能にする新しいMLLMであるMapleLeaf AKIを提案する。
我々のMMA設計は汎用的であり、様々なモダリティにまたがるアプリケーションを可能にし、多様なマルチモーダルシナリオに対応できるようにスケーラブルである。
論文 参考訳(メタデータ) (2025-03-04T13:18:33Z) - MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs [11.532430076027554]
我々はMLLMが画像に関する質問に答える際に、小さな視覚的詳細を大きなものと同じくらい効果的に知覚できるかどうかを検討する。
本研究では,MLLM自体の内部知識を活用する学習自由な視覚介入手法を提案する。
論文 参考訳(メタデータ) (2025-02-24T18:54:40Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。