論文の概要: Proximity QA: Unleashing the Power of Multi-Modal Large Language Models
for Spatial Proximity Analysis
- arxiv url: http://arxiv.org/abs/2401.17862v1
- Date: Wed, 31 Jan 2024 14:21:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:29:50.638937
- Title: Proximity QA: Unleashing the Power of Multi-Modal Large Language Models
for Spatial Proximity Analysis
- Title(参考訳): 近接qa:空間近接解析のためのマルチモーダル大言語モデルのパワーを解き放つ
- Authors: Jianing Li, Xi Nan, Ming Lu, Li Du, Shanghang Zhang
- Abstract要約: MLLM(Multi-modal large language model)は、目覚しい視覚言語能力を示す。
Proximity QAはMLLMが画像内のオブジェクト間の近接関係を推測できるように設計された新しいフレームワークである。
我々は,深度知覚と近接解析における近接性QAの優れた能力を評価するための広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 45.62657605766754
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modal large language models (MLLMs) have demonstrated remarkable
vision-language capabilities, primarily due to the exceptional in-context
understanding and multi-task learning strengths of large language models
(LLMs). The advent of visual instruction tuning has further enhanced MLLMs'
performance in vision-language understanding. However, while existing MLLMs
adeptly recognize \textit{what} objects are in an image, they still face
challenges in effectively discerning \textit{where} these objects are,
particularly along the distance (scene depth) axis. To overcome this limitation
in MLLMs, we introduce Proximity Question Answering (Proximity QA), a novel
framework designed to enable MLLMs to infer the proximity relationship between
objects in images. The framework operates in two phases: the first phase
focuses on guiding the models to understand the relative depth of objects, and
the second phase further encourages the models to infer the proximity
relationships between objects based on their depth perceptions. We also propose
a VQA dataset called Proximity-110K, containing additional instructions that
incorporate depth information and the proximity relationships of objects. We
have conducted extensive experiments to validate Proximity QA's superior
ability in depth perception and proximity analysis, outperforming other
state-of-the-art MLLMs. Code and dataset will be released at
\textcolor{magenta}{https://github.com/NorthSummer/ProximityQA.git}.
- Abstract(参考訳): MLLM(Multi-modal large language model)は、大言語モデル(LLM)の特別な文脈内理解とマルチタスク学習能力によって、目覚しい視覚言語能力を示している。
視覚インストラクションチューニングの出現は、視覚言語理解におけるMLLMのパフォーマンスをさらに向上させた。
しかしながら、既存のMLLMは、画像中の \textit{what} オブジェクトを十分に認識しているが、これらのオブジェクトは、特に距離(シーン深度)軸に沿って、効果的に \textit{where} を識別する際の課題に直面している。
MLLMにおけるこの制限を克服するために,画像内のオブジェクト間の近接関係を推定できる新しいフレームワークである Proximity Question Answering (Proximity QA) を導入する。
第1フェーズはモデルに物体の相対的な深さを理解するよう導くことに焦点を当て、第2フェーズはモデルが物体の深さ知覚に基づいて物体間の近接関係を推測することをさらに奨励する。
また,物体の深度情報と近接関係を組み込んだVQAデータセットProximity-110Kを提案する。
深度知覚および近接解析における近接性QAの優れた能力を検証し、他の最先端MLLMよりも優れた性能を示すための広範な実験を行った。
コードとデータセットは \textcolor{magenta}{https://github.com/northsummer/proximityqa.git}でリリースされる。
関連論文リスト
- MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models [6.695747085909927]
MLLMにおけるプラグ・アンド・プレイグラウンドのための新しいフレームワークであるP2Gを紹介する。
P2Gは、画像内の重要な視覚的およびテキスト的要素への推論のオンザフライグラウンド化に専門家エージェントを使用している。
高解像度画像におけるオブジェクト間関係とテキスト内容の理解におけるMLLMの習熟度を評価するためのベンチマークであるP2GBを開発する。
論文 参考訳(メタデータ) (2024-03-28T11:26:30Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。