Fugu-MT 論文翻訳(概要): Enhancing the Spatial Awareness Capability of Multi-Modal Large Language Model

論文の概要: Enhancing the Spatial Awareness Capability of Multi-Modal Large Language Model

arxiv url: http://arxiv.org/abs/2310.20357v1
Date: Tue, 31 Oct 2023 10:57:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 15:32:25.875350
Title: Enhancing the Spatial Awareness Capability of Multi-Modal Large Language Model
Title（参考訳）: マルチモーダル大言語モデルの空間認識能力の向上
Authors: Yongqiang Zhao, Zhenyu Li, Zhi Jin, Feng Zhang, Haiyan Zhao, Chengfeng Dou, Zhengwei Tao, Xinhai Xu, Donghong Liu
Abstract要約: MLLM(Multi-Modal Large Language Model)は、マルチモーダルデータの受信と推論機能を備えたLarge Language Model (LLM)の拡張である。本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。
参考スコア（独自算出の注目度）: 25.86351431223383
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Multi-Modal Large Language Model (MLLM) refers to an extension of the Large Language Model (LLM) equipped with the capability to receive and infer multi-modal data. Spatial awareness stands as one of the crucial abilities of MLLM, encompassing diverse skills related to understanding spatial relationships among objects and between objects and the scene area. Industries such as autonomous driving, smart healthcare, robotics, virtual, and augmented reality heavily demand MLLM's spatial awareness capabilities. However, there exists a noticeable gap between the current spatial awareness capabilities of MLLM and the requirements set by human needs. To address this issue, this paper proposes using more precise spatial position information between objects to guide MLLM in providing more accurate responses to user-related inquiries. Specifically, for a particular multi-modal task, we utilize algorithms for acquiring geometric spatial information and scene graphs to obtain relevant geometric spatial information and scene details of objects involved in the query. Subsequently, based on this information, we direct MLLM to address spatial awareness-related queries posed by the user. Extensive experiments were conducted in benchmarks such as MME, MM-Vet, and other multi-modal large language models. The experimental results thoroughly confirm the efficacy of the proposed method in enhancing the spatial awareness tasks and associated tasks of MLLM.
Abstract（参考訳）: マルチモーダル大言語モデル(multi-modal large language model, mllm)は、マルチモーダルデータの受信と推論機能を備えた大規模言語モデル(llm)の拡張である。空間認識はMLLMの重要な能力の1つであり、物体とシーン領域の間の空間的関係を理解するための多様なスキルを含んでいる。自動運転、スマートヘルスケア、ロボティクス、バーチャル、拡張現実といった産業はMLLMの空間認識能力を強く要求している。しかし、MLLMの現在の空間認識能力と、人間の要求によって設定された要件との間には、顕著なギャップがある。そこで本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。具体的には、特定のマルチモーダルタスクに対して、幾何学的空間情報とシーングラフを取得するアルゴリズムを用いて、関連する幾何学的空間情報とクエリに関連するオブジェクトのシーン詳細を取得する。そして,この情報に基づいて,ユーザが提示する空間認識関連クエリに,MLLMに対処するよう指示する。 MME、MM-Vet、その他のマルチモーダルな大規模言語モデルなどのベンチマークで大規模な実験を行った。実験結果は,MLLMの空間認識タスクと関連するタスクの強化における提案手法の有効性を徹底的に検証した。

関連論文リスト

Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文参考訳（メタデータ） (2025-11-03T14:27:00Z)
Warehouse Spatial Question Answering with LLM Agent [18.821295196340383]
本研究では,強い空間推論能力を有するLLMエージェントシステムを提案する。本システムでは,LLMエージェントが空間推論やAPIツールのインタラクションを行うための複数のツールを統合している。本システムでは,オブジェクト検索,カウント,距離推定などのタスクにおいて高い精度と効率を実現する。
論文参考訳（メタデータ） (2025-07-14T20:05:55Z)
Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models [70.41727912081463]
マルチモーダル大言語モデル(MLLM)は視覚タスクにおいて急速に進歩しているが、空間的理解は単一画像に限られている。本研究では, 深度知覚, 視覚対応, 動的知覚を統合することで, MLLMを頑健なマルチフレーム空間理解と組み合わせる枠組みを提案する。我々のモデルであるMulti-SpatialMLLMは、ベースラインやプロプライエタリシステムよりも大幅に向上し、スケーラブルで一般化可能なマルチフレーム推論を実証する。
論文参考訳（メタデータ） (2025-05-22T17:59:39Z)
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。既存のMLLMは3次元空間認識と理解能力を持っているか?
論文参考訳（メタデータ） (2025-05-22T17:59:03Z)
STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding? [15.419733591210514]
MLLM(Multimodal Large Language Models)は、Embodied AIとAutonomous Drivingのためのエンドツーエンドソリューションである。 MLLMの時空間的理解を評価するためのベンチマークであるSTI-Benchを紹介する。私たちのベンチマークでは、デスクトップ、屋内、屋外のシナリオにまたがる幅広いロボットと車両の操作を網羅しています。
論文参考訳（メタデータ） (2025-03-31T06:30:35Z)
From Text to Space: Mapping Abstract Spatial Models in LLMs during a Grid-World Navigation Task [0.0]
グリッドワールドナビゲーションタスクにおける大規模言語モデル(LLM)の性能と内部アクティベーションに及ぼすテキストベース空間表現の影響について検討する。実験の結果, 空間のカルデシアン表現は, モデルサイズに比例して高い成功率と経路効率が得られることがわかった。この研究は、LLMが空間情報をどのように処理するかの理解を深め、より解釈可能で堅牢なエージェントAIシステムの開発に有用な洞察を提供する。
論文参考訳（メタデータ） (2025-02-23T19:09:01Z)
Benchmarking Large and Small MLLMs [71.78055760441256]
大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。 LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
論文参考訳（メタデータ） (2025-01-04T07:44:49Z)
DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving [13.115027801151484]
自律運転におけるマルチモーダル大言語モデル(MLLM)の空間的理解能力を評価するためのベンチマークであるDriveMLLMを紹介する。 DriveMLLMには、880の前面カメライメージが含まれており、言語学的に多様な自然言語問題を伴う絶対的および相対的空間推論タスクが導入されている。我々は,DriveMLLMにおける最先端MLLMの評価を行い,運転環境における複雑な空間的関係を理解する上での現在のモデルの限界を明らかにした。
論文参考訳（メタデータ） (2024-11-20T08:14:01Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文参考訳（メタデータ） (2024-09-25T08:22:00Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。 MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文参考訳（メタデータ） (2024-07-11T15:08:11Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文参考訳（メタデータ） (2024-06-19T06:15:26Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model [12.890344377484759]
本稿では,MLLM(Multimodal Large Language Models)について概説する。 MLLMはGPT-4のような大規模言語モデル(LLM)を統合し、テキストやビジョンなどのマルチモーダルデータを処理する。適切なモダリティアライメント法を選択することは重要である。
論文参考訳（メタデータ） (2023-11-10T09:51:24Z)
HiLM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving [47.274696401306514]
HiLM-D は ROLISP タスクのための MLLM に HR 情報を組み込む効率的な手法である。実験の結果,HiLM-DはMLLMよりも顕著な優位性を示し,キャプションではBLEU-4が4.8%,検出ではmIoUが17.2%改善した。
論文参考訳（メタデータ） (2023-09-11T01:24:13Z)
ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning [24.87615615489849]
本稿では,ポイントやボックスなどの多様な参照表現を参照プロンプトとして用いて,特定の領域を参照するための正確な参照命令を提案する。マウスクリックやドラッグアンドドロップ,描画ボックスなど,さまざまな形式の対話性をサポートする,エンドツーエンドの多モーダルな大規模言語モデルであるChatSpotを提案する。
論文参考訳（メタデータ） (2023-07-18T17:56:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。