論文の概要: Enhancing the Spatial Awareness Capability of Multi-Modal Large Language
Model
- arxiv url: http://arxiv.org/abs/2310.20357v2
- Date: Wed, 1 Nov 2023 02:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 10:35:48.840562
- Title: Enhancing the Spatial Awareness Capability of Multi-Modal Large Language
Model
- Title(参考訳): マルチモーダル大言語モデルの空間認識能力の向上
- Authors: Yongqiang Zhao, Zhenyu Li, Zhi Jin, Feng Zhang, Haiyan Zhao, Chengfeng
Dou, Zhengwei Tao, Xinhai Xu, Donghong Liu
- Abstract要約: MLLM(Multi-Modal Large Language Model)は、マルチモーダルデータの受信と推論機能を備えたLarge Language Model (LLM)の拡張である。
本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。
- 参考スコア(独自算出の注目度): 25.86351431223383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Multi-Modal Large Language Model (MLLM) refers to an extension of the
Large Language Model (LLM) equipped with the capability to receive and infer
multi-modal data. Spatial awareness stands as one of the crucial abilities of
MLLM, encompassing diverse skills related to understanding spatial
relationships among objects and between objects and the scene area. Industries
such as autonomous driving, smart healthcare, robotics, virtual, and augmented
reality heavily demand MLLM's spatial awareness capabilities. However, there
exists a noticeable gap between the current spatial awareness capabilities of
MLLM and the requirements set by human needs. To address this issue, this paper
proposes using more precise spatial position information between objects to
guide MLLM in providing more accurate responses to user-related inquiries.
Specifically, for a particular multi-modal task, we utilize algorithms for
acquiring geometric spatial information and scene graphs to obtain relevant
geometric spatial information and scene details of objects involved in the
query. Subsequently, based on this information, we direct MLLM to address
spatial awareness-related queries posed by the user. Extensive experiments were
conducted in benchmarks such as MME, MM-Vet, and other multi-modal large
language models. The experimental results thoroughly confirm the efficacy of
the proposed method in enhancing the spatial awareness tasks and associated
tasks of MLLM.
- Abstract(参考訳): マルチモーダル大言語モデル(multi-modal large language model, mllm)は、マルチモーダルデータの受信と推論機能を備えた大規模言語モデル(llm)の拡張である。
空間認識はMLLMの重要な能力の1つであり、物体とシーン領域の間の空間的関係を理解するための多様なスキルを含んでいる。
自動運転、スマートヘルスケア、ロボティクス、バーチャル、拡張現実といった産業はMLLMの空間認識能力を強く要求している。
しかし、MLLMの現在の空間認識能力と、人間の要求によって設定された要件との間には、顕著なギャップがある。
そこで本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。
具体的には、特定のマルチモーダルタスクに対して、幾何学的空間情報とシーングラフを取得するアルゴリズムを用いて、関連する幾何学的空間情報とクエリに関連するオブジェクトのシーン詳細を取得する。
そして,この情報に基づいて,ユーザが提示する空間認識関連クエリに,MLLMに対処するよう指示する。
MME、MM-Vet、その他のマルチモーダルな大規模言語モデルなどのベンチマークで大規模な実験を行った。
実験結果は,MLLMの空間認識タスクと関連するタスクの強化における提案手法の有効性を徹底的に検証した。
関連論文リスト
- The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMの性能向上には,大規模かつ高品質なデータが寄与する一方,MLLMはデータの開発を促進することができる。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - MMRel: A Relation Understanding Dataset and Benchmark in the MLLM Era [72.95901753186227]
MMRel(Multi-Modal Relation Understanding)は、Multi-Modal Large Language Models (MLLM)とのオブジェクト間関係を研究するための包括的データセットである。
MMRelには3つの特徴がある: (i) 大規模かつ高い多様性を保証する3つの異なるドメインから得られる15K以上の質問応答ペア; (ii) MLLMが幻覚によってしばしば失敗する非常に珍しい関係を持つサブセットを含む; (iii) オブジェクト間関係のために手作業で検証された高品質なラベルを提供する。
論文 参考訳(メタデータ) (2024-06-13T13:51:59Z) - Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。
モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文 参考訳(メタデータ) (2024-05-17T12:37:10Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - OVEL: Large Language Model as Memory Manager for Online Video Entity
Linking [57.70595589893391]
我々は,オンラインビデオにおける言及と,高精度かつ時系列の知識ベースとの接続を確立することを目的とした,オンラインビデオエンティティリンクOVELというタスクを提案する。
OVEL タスクを効果的に処理するために,Large Language Model が管理するメモリブロックを活用し,知識ベースからエンティティ候補を抽出し,メモリ管理における LLM 性能を向上させる。
論文 参考訳(メタデータ) (2024-03-03T06:47:51Z) - How to Bridge the Gap between Modalities: A Comprehensive Survey on
Multimodal Large Language Model [12.890344377484759]
本稿では,MLLM(Multimodal Large Language Models)について概説する。
MLLMはGPT-4のような大規模言語モデル(LLM)を統合し、テキストやビジョンなどのマルチモーダルデータを処理する。
適切なモダリティアライメント法を選択することは重要である。
論文 参考訳(メタデータ) (2023-11-10T09:51:24Z) - HiLM-D: Towards High-Resolution Understanding in Multimodal Large
Language Models for Autonomous Driving [47.274696401306514]
HiLM-D は ROLISP タスクのための MLLM に HR 情報を組み込む効率的な手法である。
実験の結果,HiLM-DはMLLMよりも顕著な優位性を示し,キャプションではBLEU-4が4.8%,検出ではmIoUが17.2%改善した。
論文 参考訳(メタデータ) (2023-09-11T01:24:13Z) - ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring
Instruction Tuning [24.87615615489849]
本稿では,ポイントやボックスなどの多様な参照表現を参照プロンプトとして用いて,特定の領域を参照するための正確な参照命令を提案する。
マウスクリックやドラッグアンドドロップ,描画ボックスなど,さまざまな形式の対話性をサポートする,エンドツーエンドの多モーダルな大規模言語モデルであるChatSpotを提案する。
論文 参考訳(メタデータ) (2023-07-18T17:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。