論文の概要: Paparazzi: A Deep Dive into the Capabilities of Language and Vision
Models for Grounding Viewpoint Descriptions
- arxiv url: http://arxiv.org/abs/2302.10282v1
- Date: Mon, 13 Feb 2023 15:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 14:27:23.422389
- Title: Paparazzi: A Deep Dive into the Capabilities of Language and Vision
Models for Grounding Viewpoint Descriptions
- Title(参考訳): paparazzi: 視点記述の接地のための言語と視覚モデルの能力について
- Authors: Henrik Voigt, Jan Hombeck, Monique Meuschke, Kai Lawonn, Sina
Zarrie{\ss}
- Abstract要約: 現状の言語とビジョンモデルであるCLIPが、3Dオブジェクトの視点記述を基盤として利用できるかどうかを考察する。
本稿では,3次元物体の周囲に回転するカメラを用いて異なる視点から画像を生成する評価フレームワークを提案する。
事前訓練されたCLIPモデルは、ほとんどの標準ビューでは性能が良くないことがわかった。
- 参考スコア(独自算出の注目度): 4.026600887656479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing language and vision models achieve impressive performance in
image-text understanding. Yet, it is an open question to what extent they can
be used for language understanding in 3D environments and whether they
implicitly acquire 3D object knowledge, e.g. about different views of an
object. In this paper, we investigate whether a state-of-the-art language and
vision model, CLIP, is able to ground perspective descriptions of a 3D object
and identify canonical views of common objects based on text queries. We
present an evaluation framework that uses a circling camera around a 3D object
to generate images from different viewpoints and evaluate them in terms of
their similarity to natural language descriptions. We find that a pre-trained
CLIP model performs poorly on most canonical views and that fine-tuning using
hard negative sampling and random contrasting yields good results even under
conditions with little available training data.
- Abstract(参考訳): 既存の言語と視覚モデルは、画像テキスト理解において印象的な性能を達成する。
しかし、3D環境における言語理解にどの程度使えるのか、オブジェクトの異なる視点など、暗黙的に3Dオブジェクトの知識を取得するのかは、オープンな疑問である。
本稿では,最先端の言語とビジョンモデルであるCLIPが3次元オブジェクトの視点記述を基盤として,テキストクエリに基づく共通オブジェクトの標準ビューを識別できるかどうかを検討する。
本稿では,3次元物体の周囲にカメラを配置し,異なる視点から画像を生成し,それらの自然言語記述との類似性の観点から評価する。
事前学習したCLIPモデルはほとんどの標準的ビューでは性能が悪く、ハードネガティブサンプリングとランダムコントラストを用いた微調整により、トレーニングデータが少ない条件下でも良好な結果が得られることがわかった。
関連論文リスト
- SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene
Understanding [39.085879587406694]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。
約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。
このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文 参考訳(メタデータ) (2024-01-17T17:04:35Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - 3D Concept Grounding on Neural Fields [99.33215488324238]
既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。
人間は、画像の3D表現の基盤となる概念を基盤にすることができる。
我々は,ニューラルネットワークの連続的,微分可能な性質を利用して概念をセグメント化し,学習することを提案する。
論文 参考訳(メタデータ) (2022-07-13T17:59:33Z) - Looking Outside the Box to Ground Language in 3D Scenes [27.126171549887232]
本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。
言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。
3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。
マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
論文 参考訳(メタデータ) (2021-12-16T13:50:23Z) - Language Grounding with 3D Objects [60.67796160959387]
本稿では,3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新たな推論タスクを提案する。
オブジェクトを識別するためのCLIPベースのモデルをいくつか紹介する。
言語接地モデルにビュー推定を追加することで、SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-07-26T23:35:58Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - ROOTS: Object-Centric Representation and Rendering of 3D Scenes [28.24758046060324]
人間の知能の重要な能力は、部分的なシーンの観察から個々の3Dオブジェクトのモデルを構築することである。
最近の研究は、オブジェクト中心の生成を実現するが、表現を推測する能力がない。
本稿では,モジュール型および構成型3Dオブジェクトモデル構築学習のための確率論的生成モデルを提案する。
論文 参考訳(メタデータ) (2020-06-11T00:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。