論文の概要: Towers of Babel: Combining Images, Language, and 3D Geometry for
Learning Multimodal Vision
- arxiv url: http://arxiv.org/abs/2108.05863v1
- Date: Thu, 12 Aug 2021 17:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:31:01.358843
- Title: Towers of Babel: Combining Images, Language, and 3D Geometry for
Learning Multimodal Vision
- Title(参考訳): Babelのタワー:マルチモーダルビジョン学習のための画像・言語・3次元形状の組み合わせ
- Authors: Xiaoshi Wu, Hadar Averbuch-Elor, Jin Sun and Noah Snavely
- Abstract要約: 本稿では,字幕と階層的カテゴリ名という形で記述テキストを含む,ランドマーク写真コレクションの大規模データセットを提案する。
WikiScenesは、画像、テキスト、および3D幾何学を含むマルチモーダル推論のための新しいテストベッドを形成する。
- 参考スコア(独自算出の注目度): 50.07532560364523
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The abundance and richness of Internet photos of landmarks and cities has led
to significant progress in 3D vision over the past two decades, including
automated 3D reconstructions of the world's landmarks from tourist photos.
However, a major source of information available for these 3D-augmented
collections---namely language, e.g., from image captions---has been virtually
untapped. In this work, we present WikiScenes, a new, large-scale dataset of
landmark photo collections that contains descriptive text in the form of
captions and hierarchical category names. WikiScenes forms a new testbed for
multimodal reasoning involving images, text, and 3D geometry. We demonstrate
the utility of WikiScenes for learning semantic concepts over images and 3D
models. Our weakly-supervised framework connects images, 3D structure, and
semantics---utilizing the strong constraints provided by 3D geometry---to
associate semantic concepts to image pixels and 3D points.
- Abstract(参考訳): ランドマークや都市のインターネット写真が豊富で豊富であることは、観光写真から世界のランドマークを自動3d再構成するなど、過去20年間で3dビジョンの大幅な進歩をもたらした。
しかし、これらの3d表示されたコレクションで利用可能な主要な情報源は、画像キャプションから名付けられた言語である。
本研究はWikiScenesを,字幕と階層的カテゴリ名という形で記述文を含むランドマーク写真コレクションの大規模データセットとして紹介する。
WikiScenesは、画像、テキスト、および3D幾何学を含むマルチモーダル推論のための新しいテストベッドを形成する。
画像と3Dモデルを用いたセマンティック概念学習におけるWikiScenesの有用性を実証する。
弱教師付きフレームワークは,イメージと3d構造,セマンティクスをつなぐ。3dジオメトリが提供する強い制約を利用して,意味概念を画像画素と3dポイントに関連付ける。
関連論文リスト
- ImageNet3D: Towards General-Purpose Object-Level 3D Understanding [20.837297477080945]
汎用オブジェクトレベルの3D理解のための大規模データセットであるImageNet3Dを提案する。
ImageNet3Dは、ImageNetデータセットから2Dバウンディングボックス、3Dポーズ、3D位置アノテーション、3D情報でインターリーブされた画像キャプションを含む200のカテゴリを追加している。
我々は,標準分類とポーズ推定に加えて,オブジェクトレベルの3D認識とオープン語彙のポーズ推定という2つの新しいタスクを検討する。
論文 参考訳(メタデータ) (2024-06-13T22:44:26Z) - HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections [19.05215193265488]
本稿では,大規模ランドマークを描写したシーンのニューラル表現と,シーン内の意味領域を記述したテキストを結合するローカライズシステムを提案する。
我々のアプローチは、宇宙空間に物理的に接地した画像が、新しい概念をローカライズするための強力な監視信号を提供するという前提に基づいている。
以上の結果から,HaLo-NeRFはアーキテクチャのランドマークに関連するさまざまな意味概念を正確にローカライズできることがわかった。
論文 参考訳(メタデータ) (2024-02-14T14:02:04Z) - Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z) - Disentangling 3D Prototypical Networks For Few-Shot Concept Learning [29.02523358573336]
本稿では,RGB-D画像をオブジェクトの形状やスタイルや背景シーンの地図に分解するニューラルネットワークアーキテクチャを提案する。
我々のネットワークには、画像形成過程、世界シーンの3次元幾何学、形状スタイルの相互作用を反映したアーキテクチャバイアスが組み込まれています。
論文 参考訳(メタデータ) (2020-11-06T14:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。