論文の概要: PartGlot: Learning Shape Part Segmentation from Language Reference Games
- arxiv url: http://arxiv.org/abs/2112.06390v1
- Date: Mon, 13 Dec 2021 02:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 17:07:56.548202
- Title: PartGlot: Learning Shape Part Segmentation from Language Reference Games
- Title(参考訳): PartGlot: 言語参照ゲームから形状を学習する部分のセグメンテーション
- Authors: Juil Koo, Ian Huang, Panos Achlioptas, Leonidas Guibas, Minhyuk Sung
- Abstract要約: 本稿では3次元形状のセグメンテーションを学習するためのニューラルネットワークであるPartGlotを紹介する。
形状の言語的記述が形状の部品に先行を与えることができるという事実を生かしている。
学習部情報は、学習中に見えないクラスを形作るのに一般化可能であることを示す。
- 参考スコア(独自算出の注目度): 14.12547690793703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce PartGlot, a neural framework and associated architectures for
learning semantic part segmentation of 3D shape geometry, based solely on part
referential language. We exploit the fact that linguistic descriptions of a
shape can provide priors on the shape's parts -- as natural language has
evolved to reflect human perception of the compositional structure of objects,
essential to their recognition and use. For training, we use the paired
geometry / language data collected in the ShapeGlot work for their reference
game, where a speaker creates an utterance to differentiate a target shape from
two distractors and the listener has to find the target based on this
utterance. Our network is designed to solve this target discrimination problem,
carefully incorporating a Transformer-based attention module so that the output
attention can precisely highlight the semantic part or parts described in the
language. Furthermore, the network operates without any direct supervision on
the 3D geometry itself. Surprisingly, we further demonstrate that the learned
part information is generalizable to shape classes unseen during training. Our
approach opens the possibility of learning 3D shape parts from language alone,
without the need for large-scale part geometry annotations, thus facilitating
annotation acquisition.
- Abstract(参考訳): 本稿では,部分参照言語のみに基づく3次元形状のセグメンテーションを学習するためのニューラルネットワークと関連するアーキテクチャであるPartGlotを紹介する。
自然言語は、物体の構成要素構造に対する人間の認識を反映し、その認識と使用に不可欠なものとして進化してきた。
学習には,シェープグロット作業で収集した一対の幾何・言語データを用いて,話者が2つの気晴らしとターゲット形状を区別する発話を作成し,聞き手はこの発話に基づいてターゲットを見つけなければならない。
本ネットワークは, 言語に記述された意味的部分や部分を正確に強調できるように, トランスベースアテンションモジュールを慎重に組み込んで, ターゲット識別問題を解決するために設計されている。
さらに、ネットワークは3dジオメトリ自体を直接監視することなく動作する。
驚いたことに、我々はさらに学習した部分情報がトレーニング中に目に見えないクラスを形成するために一般化可能であることを実証する。
提案手法は,大規模部分幾何アノテーションを必要とせずに,言語単独で3次元形状を学習し,アノテーションの取得を容易にする。
関連論文リスト
- RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - Zero-Shot 3D Shape Correspondence [67.18775201037732]
本稿では,3次元形状間の対応性を計算するためのゼロショット手法を提案する。
我々は、最近の基礎モデルの言語と視覚における例外的な推論能力を活用している。
提案手法は, 強い非等尺形状の間において, ゼロショット方式で高確率な結果をもたらす。
論文 参考訳(メタデータ) (2023-06-05T21:14:23Z) - Attention-based Part Assembly for 3D Volumetric Shape Modeling [0.0]
本稿では、注意に基づく部分集合のためのVoxAttention Networkアーキテクチャを提案する。
実験結果から,本手法は部分関係を考慮した3次元形状モデリングタスクにおいて,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-17T16:53:27Z) - Zero-shot point cloud segmentation by transferring geometric primitives [68.18710039217336]
ゼロショットポイントクラウドセマンティックセマンティックセマンティックセマンティクスについて検討し、そこではネットワークが見えないオブジェクトに対してトレーニングされ、見えないオブジェクトをセマンティクスできる。
本研究では,視覚的および視覚的カテゴリーのオブジェクトで共有される幾何学的プリミティブを学習し,言語と学習された幾何学的プリミティブとの微粒なアライメントを利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T15:06:54Z) - iSeg3D: An Interactive 3D Shape Segmentation Tool [48.784624011210475]
3次元形状のための効果的なアノテーションツールiSegを提案する。
我々の観察では、ほとんどの対象は有限原始形状の合成とみなすことができる。
構築したプリミティブな形状データに基づいてiSeg3Dモデルをトレーニングし、幾何学的事前知識を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-12-24T08:15:52Z) - Discovering 3D Parts from Image Collections [98.16987919686709]
本稿では,2次元画像収集のみによる3次元部分発見の問題に対処する。
そこで我々は,手動で注釈付部品を監督する代わりに,自己監督型アプローチを提案する。
私たちのキーとなる洞察は、前もって新しい部分の形状を学習することで、各部分は、単純な幾何学を持つように制約されたまま、忠実にオブジェクトの形状に適合できるようにします。
論文 参考訳(メタデータ) (2021-07-28T20:29:16Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Shape-Oriented Convolution Neural Network for Point Cloud Analysis [59.405388577930616]
ポイントクラウドは3次元幾何学情報符号化に採用されている主要なデータ構造である。
形状指向型メッセージパッシング方式であるShapeConvを提案する。
論文 参考訳(メタデータ) (2020-04-20T16:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。