論文の概要: 3DAxiesPrompts: Unleashing the 3D Spatial Task Capabilities of GPT-4V
- arxiv url: http://arxiv.org/abs/2312.09738v1
- Date: Fri, 15 Dec 2023 12:24:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:07:15.716863
- Title: 3DAxiesPrompts: Unleashing the 3D Spatial Task Capabilities of GPT-4V
- Title(参考訳): 3DAxies Prompts: GPT-4Vの3次元空間タスク能力の展開
- Authors: Dingning Liu, Xiaomeng Dong, Renrui Zhang, Xu Luo, Peng Gao, Xiaoshui
Huang, Yongshun Gong, Zhihui Wang
- Abstract要約: 本稿では,3次元空間タスクにおけるGPT-4Vの能力を解き放つために,3DAxiesPrompts (3DAP) と呼ばれる新しい視覚的プロンプト法を提案する。
3DAP法,すなわち2Dから3Dポイント再構成,2Dから3Dポイントマッチング,3Dオブジェクト検出の3つのタスクを安定的に完了させる。
- 参考スコア(独自算出の注目度): 39.1303269963293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a new visual prompting method called 3DAxiesPrompts
(3DAP) to unleash the capabilities of GPT-4V in performing 3D spatial tasks.
Our investigation reveals that while GPT-4V exhibits proficiency in discerning
the position and interrelations of 2D entities through current visual prompting
techniques, its abilities in handling 3D spatial tasks have yet to be explored.
In our approach, we create a 3D coordinate system tailored to 3D imagery,
complete with annotated scale information. By presenting images infused with
the 3DAP visual prompt as inputs, we empower GPT-4V to ascertain the spatial
positioning information of the given 3D target image with a high degree of
precision. Through experiments, We identified three tasks that could be stably
completed using the 3DAP method, namely, 2D to 3D Point Reconstruction, 2D to
3D point matching, and 3D Object Detection. We perform experiments on our
proposed dataset 3DAP-Data, the results from these experiments validate the
efficacy of 3DAP-enhanced GPT-4V inputs, marking a significant stride in 3D
spatial task execution.
- Abstract(参考訳): 本研究では,3次元空間タスクにおけるGPT-4Vの能力を解き放つために,3DAxiesPrompts (3DAP) と呼ばれる新しい視覚的プロンプト法を提案する。
GPT-4Vは、現在の視覚的プロンプト技術による2次元実体の位置と相互関係を識別する能力を示すが、3次元空間タスクの処理能力はまだ検討されていない。
提案手法では,3次元画像に適した3次元座標系を作成し,注釈付きスケール情報で完結する。
3dap視覚プロンプトを入力としてイメージを提示することにより、gpt-4vに、所定の3dターゲット画像の空間位置情報を高精度に確認する権限を与える。
実験により,3DAP法を用いて安定的に完了可能な3つのタスク,すなわち2Dから3Dポイント再構成,2Dから3Dポイントマッチング,3Dオブジェクト検出を同定した。
提案した3DAPデータを用いて実験を行い, これらの実験結果から, 3DAPによるGPT-4V入力の有効性を検証した。
関連論文リスト
- ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。
最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。
画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文 参考訳(メタデータ) (2024-10-31T15:02:05Z) - Unifying 3D Vision-Language Understanding via Promptable Queries [39.55438547712157]
3次元視覚言語(3D-VL)理解のための統一モデル。
PQ3DはPromptable Queriesを使用して、幅広い3D-VLタスクに取り組むことができる。
10の多様な3D-VLデータセットでテストされたPQ3Dは、これらのタスクにおける印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-19T04:35:05Z) - Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization [51.33923845954759]
3Dビジュアルグラウンド(3DVG)と3Dキャプション(3DDC)は、様々な3Dアプリケーションにおいて2つの重要なタスクである。
本稿では,これら2つの異なる,しかし密接に関連するタスクを協調的に解決する統合フレームワークである3DGCTRを提案する。
実装面では、Lightweight Caption Headを既存の3DVGネットワークに統合し、Caption Text Promptを接続として使用する。
論文 参考訳(メタデータ) (2024-04-17T04:46:27Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - Label-Guided Auxiliary Training Improves 3D Object Detector [32.96310946612949]
3次元物体検出(LG3D)のためのラベル誘導補助訓練法を提案する。
提案したLG3Dは,SUN RGB-DおよびScanNetV2データセット上でVoteNetを2.5%,3.1%改善する。
論文 参考訳(メタデータ) (2022-07-24T14:22:21Z) - 4DContrast: Contrastive Learning with Dynamic Correspondences for 3D
Scene Understanding [22.896937940702642]
教師なし事前学習により学習した3次元表現に4次元動的対象を組み込む新しい手法を提案する。
本研究では,静的な3次元環境に移動する合成3次元形状を利用した新しいデータ拡張手法を提案する。
実験により、教師なし表現学習は、下流3次元セマンティックセマンティックセマンティックセマンティクス、オブジェクト検出、インスタンスセマンティクスタスクの改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-12-06T13:09:07Z) - 4D-Net for Learned Multi-Modal Alignment [87.58354992455891]
本稿では,3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。
様々な特徴表現や抽象化レベルにまたがる新しい接続学習を行い、また幾何学的制約を観察することで、4D情報を組み込むことができる。
論文 参考訳(メタデータ) (2021-09-02T16:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。