論文の概要: Visual Instruction Tuning with Chain of Region-of-Interest
- arxiv url: http://arxiv.org/abs/2505.06840v1
- Date: Sun, 11 May 2025 04:44:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.066581
- Title: Visual Instruction Tuning with Chain of Region-of-Interest
- Title(参考訳): 関心領域の連鎖を考慮した視覚インストラクションチューニング
- Authors: Yixin Chen, Shuai Zhang, Boran Han, Bernie Wang,
- Abstract要約: 視覚インストラクションチューニングのためのChain of Region-of-Interest(CoRoI)という手法を提案する。
CoRoIは、最も情報性の高い領域を特定し、優先順位付けし、マルチモーダルな視覚的理解と認識を強化する。
私たちのモデルは、多様なマルチモーダルベンチマークやタスクにおいて、常に優れたパフォーマンスを示しています。
- 参考スコア(独自算出の注目度): 9.111425648646229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-resolution (HR) images are pivotal for enhancing the recognition and understanding capabilities of multimodal large language models (MLLMs). However, directly increasing image resolution can significantly escalate computational demands. In this study, we propose a method called Chain of Region-of-Interest (CoRoI) for Visual Instruction Tuning, aimed at alleviating the computational burden associated with high-resolution images for MLLMs. Drawing inspiration from the selective nature of the human visual system, we recognize that not all regions within high-resolution images carry equal importance. CoRoI seeks to identify and prioritize the most informative regions, thereby enhancing multimodal visual comprehension and recognition while circumventing the need for processing lengthy HR image tokens. Through extensive experiments on 11 benchmarks, we validate the efficacy of CoRoI across varying sizes, ranging from 7B to 34B in parameters. Our models consistently demonstrate superior performance across diverse multimodal benchmarks and tasks. Notably, our method outperforms LLaVA-NeXT on almost all benchmarks and our finetuned 34B model surpasses proprietary methods like Gemini Pro 1.0 on six benchmarks, as well as outperforming GPT-4V on MMB, SEED-I, and MME.
- Abstract(参考訳): 高解像度(HR)画像は、マルチモーダル大言語モデル(MLLM)の認識と理解能力を高めるために重要である。
しかし、画像解像度の直接増加は、計算要求を著しく増大させる可能性がある。
本研究では,MLLMの高分解能画像に付随する計算負担を軽減することを目的とした,視覚インストラクションチューニングのためのChain of Region-of-Interest(CoRoI)手法を提案する。
人間の視覚系の選択的な性質からインスピレーションを得て、高解像度画像内のすべての領域が等しく重要であるわけではないことを認識した。
CoRoIは、最も情報性の高い領域を特定し、優先順位付けし、長いHR画像トークンの処理を回避しつつ、マルチモーダルな視覚的理解と認識を高めることを目指している。
11のベンチマークで広範な実験を行い、パラメータの7Bから34Bの範囲でCoRoIの有効性を検証した。
私たちのモデルは、多様なマルチモーダルベンチマークやタスクにおいて、常に優れたパフォーマンスを示しています。
特に,提案手法は,ほぼすべてのベンチマークにおいてLLaVA-NeXTより優れており,細かな34Bモデルは6つのベンチマークでGemini Pro 1.0などの独自手法を上回り,MBM,SEED-I,MMEではGPT-4Vより優れている。
関連論文リスト
- Search is All You Need for Few-shot Anomaly Detection [39.737510049667556]
産業検査において, FSAD (Few-shot Anomaly Detection) が重要な課題となっている。
本稿では,最も近い検索フレームワークが,単一クラスとマルチクラスの両方のFSADシナリオにおいて,最先端の性能を上回ることができることを示す。
画像レベルのAUROCスコアは97.4%,94.8%,70.8%であった。
論文 参考訳(メタデータ) (2025-04-16T09:21:34Z) - Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-01-24T06:42:06Z) - Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。
本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。
PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-09-04T13:05:00Z) - Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models [57.280853324896306]
マルチモーダル大言語モデル(MLLM)は、高解像度(HR)画像の複雑な詳細を認識し解釈するのに苦労する。
HR-Benchは、4K&8K画像上でMLLMの性能を厳格に評価する最初の意図的に設計されたベンチマークである。
HR画像のMLLM知覚を高めるための新しいトレーニングフリーフレームワークであるDivide, Conquer and Combine (DC$2$)を提案する。
論文 参考訳(メタデータ) (2024-08-28T06:09:02Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。