論文の概要: Proximity QA: Unleashing the Power of Multi-Modal Large Language Models
for Spatial Proximity Analysis
- arxiv url: http://arxiv.org/abs/2401.17862v1
- Date: Wed, 31 Jan 2024 14:21:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:29:50.638937
- Title: Proximity QA: Unleashing the Power of Multi-Modal Large Language Models
for Spatial Proximity Analysis
- Title(参考訳): 近接qa:空間近接解析のためのマルチモーダル大言語モデルのパワーを解き放つ
- Authors: Jianing Li, Xi Nan, Ming Lu, Li Du, Shanghang Zhang
- Abstract要約: MLLM(Multi-modal large language model)は、目覚しい視覚言語能力を示す。
Proximity QAはMLLMが画像内のオブジェクト間の近接関係を推測できるように設計された新しいフレームワークである。
我々は,深度知覚と近接解析における近接性QAの優れた能力を評価するための広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 45.62657605766754
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modal large language models (MLLMs) have demonstrated remarkable
vision-language capabilities, primarily due to the exceptional in-context
understanding and multi-task learning strengths of large language models
(LLMs). The advent of visual instruction tuning has further enhanced MLLMs'
performance in vision-language understanding. However, while existing MLLMs
adeptly recognize \textit{what} objects are in an image, they still face
challenges in effectively discerning \textit{where} these objects are,
particularly along the distance (scene depth) axis. To overcome this limitation
in MLLMs, we introduce Proximity Question Answering (Proximity QA), a novel
framework designed to enable MLLMs to infer the proximity relationship between
objects in images. The framework operates in two phases: the first phase
focuses on guiding the models to understand the relative depth of objects, and
the second phase further encourages the models to infer the proximity
relationships between objects based on their depth perceptions. We also propose
a VQA dataset called Proximity-110K, containing additional instructions that
incorporate depth information and the proximity relationships of objects. We
have conducted extensive experiments to validate Proximity QA's superior
ability in depth perception and proximity analysis, outperforming other
state-of-the-art MLLMs. Code and dataset will be released at
\textcolor{magenta}{https://github.com/NorthSummer/ProximityQA.git}.
- Abstract(参考訳): MLLM(Multi-modal large language model)は、大言語モデル(LLM)の特別な文脈内理解とマルチタスク学習能力によって、目覚しい視覚言語能力を示している。
視覚インストラクションチューニングの出現は、視覚言語理解におけるMLLMのパフォーマンスをさらに向上させた。
しかしながら、既存のMLLMは、画像中の \textit{what} オブジェクトを十分に認識しているが、これらのオブジェクトは、特に距離(シーン深度)軸に沿って、効果的に \textit{where} を識別する際の課題に直面している。
MLLMにおけるこの制限を克服するために,画像内のオブジェクト間の近接関係を推定できる新しいフレームワークである Proximity Question Answering (Proximity QA) を導入する。
第1フェーズはモデルに物体の相対的な深さを理解するよう導くことに焦点を当て、第2フェーズはモデルが物体の深さ知覚に基づいて物体間の近接関係を推測することをさらに奨励する。
また,物体の深度情報と近接関係を組み込んだVQAデータセットProximity-110Kを提案する。
深度知覚および近接解析における近接性QAの優れた能力を検証し、他の最先端MLLMよりも優れた性能を示すための広範な実験を行った。
コードとデータセットは \textcolor{magenta}{https://github.com/northsummer/proximityqa.git}でリリースされる。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Enhancing the Spatial Awareness Capability of Multi-Modal Large Language
Model [25.86351431223383]
MLLM(Multi-Modal Large Language Model)は、マルチモーダルデータの受信と推論機能を備えたLarge Language Model (LLM)の拡張である。
本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。
論文 参考訳(メタデータ) (2023-10-31T10:57:35Z) - Multi-modal Large Language Model Enhanced Pseudo 3D Perception Framework
for Visual Commonsense Reasoning [24.29849761674329]
代表作は、まず画像中のオブジェクトを認識し、それからテキスト中のキーワードと関連付ける。
MLLM拡張擬似3次元認識フレームワークは、視覚的コモンセンス推論のために設計されている。
VCRデータセットの実験は、最先端のアプローチよりも提案されたフレームワークの方が優れていることを示している。
論文 参考訳(メタデータ) (2023-01-30T23:43:28Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。