Fugu-MT 論文翻訳(概要): Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis

論文の概要: Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis

arxiv url: http://arxiv.org/abs/2401.17862v1
Date: Wed, 31 Jan 2024 14:21:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 14:29:50.638937
Title: Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis
Title（参考訳）: 近接qa:空間近接解析のためのマルチモーダル大言語モデルのパワーを解き放つ
Authors: Jianing Li, Xi Nan, Ming Lu, Li Du, Shanghang Zhang
Abstract要約: MLLM(Multi-modal large language model)は、目覚しい視覚言語能力を示す。 Proximity QAはMLLMが画像内のオブジェクト間の近接関係を推測できるように設計された新しいフレームワークである。我々は,深度知覚と近接解析における近接性QAの優れた能力を評価するための広範囲な実験を行った。
参考スコア（独自算出の注目度）: 45.62657605766754
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multi-modal large language models (MLLMs) have demonstrated remarkable vision-language capabilities, primarily due to the exceptional in-context understanding and multi-task learning strengths of large language models (LLMs). The advent of visual instruction tuning has further enhanced MLLMs' performance in vision-language understanding. However, while existing MLLMs adeptly recognize \textit{what} objects are in an image, they still face challenges in effectively discerning \textit{where} these objects are, particularly along the distance (scene depth) axis. To overcome this limitation in MLLMs, we introduce Proximity Question Answering (Proximity QA), a novel framework designed to enable MLLMs to infer the proximity relationship between objects in images. The framework operates in two phases: the first phase focuses on guiding the models to understand the relative depth of objects, and the second phase further encourages the models to infer the proximity relationships between objects based on their depth perceptions. We also propose a VQA dataset called Proximity-110K, containing additional instructions that incorporate depth information and the proximity relationships of objects. We have conducted extensive experiments to validate Proximity QA's superior ability in depth perception and proximity analysis, outperforming other state-of-the-art MLLMs. Code and dataset will be released at \textcolor{magenta}{https://github.com/NorthSummer/ProximityQA.git}.
Abstract（参考訳）: MLLM(Multi-modal large language model)は、大言語モデル(LLM)の特別な文脈内理解とマルチタスク学習能力によって、目覚しい視覚言語能力を示している。視覚インストラクションチューニングの出現は、視覚言語理解におけるMLLMのパフォーマンスをさらに向上させた。しかしながら、既存のMLLMは、画像中の \textit{what} オブジェクトを十分に認識しているが、これらのオブジェクトは、特に距離(シーン深度)軸に沿って、効果的に \textit{where} を識別する際の課題に直面している。 MLLMにおけるこの制限を克服するために,画像内のオブジェクト間の近接関係を推定できる新しいフレームワークである Proximity Question Answering (Proximity QA) を導入する。第1フェーズはモデルに物体の相対的な深さを理解するよう導くことに焦点を当て、第2フェーズはモデルが物体の深さ知覚に基づいて物体間の近接関係を推測することをさらに奨励する。また,物体の深度情報と近接関係を組み込んだVQAデータセットProximity-110Kを提案する。深度知覚および近接解析における近接性QAの優れた能力を検証し、他の最先端MLLMよりも優れた性能を示すための広範な実験を行った。コードとデータセットは \textcolor{magenta}{https://github.com/northsummer/proximityqa.git}でリリースされる。

関連論文リスト

Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs [41.072699990427374]
マルチビュー理解は、マルチモーダル大言語モデル(MLLM)において、エンボディエージェントとして使用されるための基本的な課題である。我々は、90の現実世界のシーンに2,100人以上の注意深い注釈付き質問応答対のベンチマークであるAll-Angles Benchを提案する。 Gemini-2.0-Flash, Claude-3.7-Sonnet, GPT-4o など27のMLLMを人体評価器に対してベンチマークした結果, 性能差は顕著であった。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
CameraBench: Benchmarking Visual Reasoning in MLLMs via Photography [12.305953690308085]
大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)は、非常に高度な人工知能を備えている。 OpenAI o1やGemini 2.0 Flash Thinkingのような推論モデルを含む最近の進歩は、この機能を開放した。写真は、物理がカメラパラメータと相互作用する物理世界の視覚的なスナップショットであるため、写真関連のタスクに特に焦点をあてる。
論文参考訳（メタデータ） (2025-04-14T10:53:44Z)
EagleVision: Object-level Attribute Multimodal LLM for Remote Sensing [3.3072144045024396]
EagleVisionは、オブジェクトの検出と属性の理解に優れるリモートセンシング用に設計されたMLLMである。 EVAttrs-95Kは、命令チューニングのためのRSにおいて、最初の大規模オブジェクト属性理解データセットである。 EagleVisionは、細粒度オブジェクト検出とオブジェクト属性理解タスクの両方で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-03-30T06:13:13Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
MOSABench: Multi-Object Sentiment Analysis Benchmark for Evaluating Multimodal Large Language Models Understanding of Complex Image [16.040813949620958]
マルチオブジェクト感情分析に特化して設計された新しい評価データセットMOSABenchを紹介する。 MOSABenchの主なイノベーションは、距離ベースのターゲットアノテーション、出力を標準化するための評価のための後処理、改良されたスコアリング機構である。本研究は、複雑な多目的感情分析タスクにおける精度を高めるためのMLLMの必要性を浮き彫りにするものである。
論文参考訳（メタデータ） (2024-11-25T09:00:36Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文参考訳（メタデータ） (2024-06-02T21:36:31Z)
Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models [6.695747085909927]
MLLMにおけるプラグ・アンド・プレイグラウンドのための新しいフレームワークであるP2Gを紹介する。 P2Gは、画像内の重要な視覚的およびテキスト的要素への推論のオンザフライグラウンド化に専門家エージェントを使用している。高解像度画像におけるオブジェクト間関係とテキスト内容の理解におけるMLLMの習熟度を評価するためのベンチマークであるP2GBを開発する。
論文参考訳（メタデータ） (2024-03-28T11:26:30Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文参考訳（メタデータ） (2023-11-20T15:56:44Z)
SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文参考訳（メタデータ） (2023-11-13T18:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。