論文の概要: When ChatGPT for Computer Vision Will Come? From 2D to 3D
- arxiv url: http://arxiv.org/abs/2305.06133v1
- Date: Wed, 10 May 2023 13:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 13:02:00.117875
- Title: When ChatGPT for Computer Vision Will Come? From 2D to 3D
- Title(参考訳): コンピュータビジョンのためのChatGPTはいつ登場するのか?
2dから3dへ
- Authors: Chenghao Li, Chaoning Zhang
- Abstract要約: ChatGPTとその改良版GPT4は、ほとんどすべてのテキスト関連タスクを1つのモデルで解決し、NLPフィールドに革命をもたらした。
この記事では、まず、モデルの観点から、テキスト、画像、および3Dフィールドにおけるディープラーニングの進展について、簡単な見解を提供する。
- 参考スコア(独自算出の注目度): 9.613468602635082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ChatGPT and its improved variant GPT4 have revolutionized the NLP field with
a single model solving almost all text related tasks. However, such a model for
computer vision does not exist, especially for 3D vision. This article first
provides a brief view on the progress of deep learning in text, image and 3D
fields from the model perspective. Moreover, this work further discusses how
AIGC evolves from the data perspective. On top of that, this work presents an
outlook on the development of AIGC in 3D from the data perspective.
- Abstract(参考訳): ChatGPTとその改良版GPT4は、ほとんどすべてのテキスト関連タスクを1つのモデルで解決し、NLPフィールドに革命をもたらした。
しかし、そのようなコンピュータビジョンのモデルは、特に3Dビジョンでは存在しない。
この記事では、まず、モデルの観点から、テキスト、画像、および3dフィールドにおけるディープラーニングの進歩について、簡単なビューを提供します。
さらに、この研究はAIGCがデータの観点からどのように進化するかをさらに議論する。
それに加えて、この研究はデータの観点から、AIGCを3Dで開発する際の展望を示す。
関連論文リスト
- Towards Foundation Models for 3D Vision: How Close Are We? [21.50293166371202]
3Dビジョンのための基礎モデルを構築することは、未解決の複雑な課題である。
我々は,視覚質問回答形式の基本的な3次元視覚タスクを網羅する新しい3次元視覚理解ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-14T17:57:23Z) - VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding [47.58359136198136]
VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。
様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択に自動化をもたらす。
2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、多様なマルチモーダル入力に基づいて最適な結果を生成する。
論文 参考訳(メタデータ) (2024-03-14T16:13:00Z) - Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - JM3D & JM3D-LLM: Elevating 3D Understanding with Joint Multi-modal Cues [68.76032126906743]
私たちは、ポイントクラウド、テキスト、イメージを統合する包括的なアプローチであるJM3Dを紹介します。
SMO(Structured Multimodal Organizer)は、複数のビューと階層的なテキストによる視覚言語表現の強化である。
我々の高度なモデルであるJM3D-LLMは、効率的な微調整により、大規模言語モデルと3D表現を結合する。
論文 参考訳(メタデータ) (2023-10-14T06:13:20Z) - ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance [48.748738590964216]
視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。
3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
論文 参考訳(メタデータ) (2023-03-29T17:59:10Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文 参考訳(メタデータ) (2022-12-29T07:03:29Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。