論文の概要: Part2Word: Learning Joint Embedding of Point Clouds and Text by Matching
Parts to Words
- arxiv url: http://arxiv.org/abs/2107.01872v1
- Date: Mon, 5 Jul 2021 08:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 14:58:59.842034
- Title: Part2Word: Learning Joint Embedding of Point Clouds and Text by Matching
Parts to Words
- Title(参考訳): part2word: 部分と単語のマッチングによる点雲とテキストの埋め込み学習
- Authors: Chuan Tang, Xi Yang, Bojian Wu, Zhizhong Han, Yi Chang
- Abstract要約: そこで本研究では,文の形から文への部品のマッチングにより,点雲とテキストの結合埋め込みを学習する手法を提案する。
提案手法は, マルチモーダル検索における最先端性能を, 広く利用されているベンチマークで比較した。
- 参考スコア(独自算出の注目度): 31.505100670017356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is important to learn joint embedding for 3D shapes and text in different
shape understanding tasks, such as shape-text matching, retrieval, and shape
captioning. Current multi-view based methods learn a mapping from multiple
rendered views to text. However, these methods can not analyze 3D shapes well
due to the self-occlusion and limitation of learning manifolds. To resolve this
issue, we propose a method to learn joint embedding of point clouds and text by
matching parts from shapes to words from sentences in a common space.
Specifically, we first learn segmentation prior to segment point clouds into
parts. Then, we map parts and words into an optimized space, where the parts
and words can be matched with each other. In the optimized space, we represent
a part by aggregating features of all points within the part, while
representing each word with its context information, where we train our network
to minimize the triplet ranking loss. Moreover, we also introduce cross-modal
attention to capture the relationship of part-word in this matching procedure,
which enhances joint embedding learning. Our experimental results outperform
the state-of-the-art in multi-modal retrieval under the widely used benchmark.
- Abstract(参考訳): 形状テキストマッチング,検索,形状キャプションなど,異なる形状理解タスクにおける3次元形状とテキストの結合埋め込みを学習することが重要である。
現在のマルチビューベースメソッドは、複数のレンダリングビューからテキストへのマッピングを学習する。
しかし、これらの手法は学習多様体の自己閉塞と制限のため、よく3次元形状を解析できない。
この問題を解決するために,共通空間における文の形状から単語へ部品をマッチングすることにより,点雲とテキストの同時埋め込みを学習する手法を提案する。
具体的には、セグメントポイントの雲を部品に分割する前に、まずセグメンテーションを学習する。
そして、パーツとワードを最適化した空間にマップし、パーツとワードをマッチさせることができる。
最適化された空間では、各単語をコンテキスト情報で表現しながら、部分内のすべてのポイントの特徴を集約し、ネットワークをトレーニングして三重項ランキングの損失を最小限に抑えます。
さらに,このマッチング手法におけるパートワードの関係を捉えるために,クロスモーダル・アテンションを導入し,共同埋め込み学習を強化した。
実験結果は,マルチモーダル検索において,広く用いられているベンチマークで最先端を上回っている。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts [48.28000728061778]
本稿では,オープンな語彙シーンエンコーダをアーキテクチャに統合し,テキストとシーン間の堅牢な接続を確立する手法を提案する。
提案手法は,従来の最先端ベースラインモデルと比較すると,目標目標距離距離を最大30%削減する。
論文 参考訳(メタデータ) (2024-04-08T18:24:12Z) - Looking at words and points with attention: a benchmark for
text-to-shape coherence [17.340484439401894]
生成した3次元形状と入力テキスト記述とのコヒーレンスの評価には明確なベンチマークが欠如している。
我々は、形状に関連する記述を自動的に洗練するために、大きな言語モデルを使用します。
アプローチを検証するために,ユーザスタディを実施し,既存のメトリクスと定量的に比較する。
改良されたデータセット、新しいメトリック、およびユーザスタディによって検証されたテキスト-形状のペアは、新しくてきめ細かいベンチマークを構成する。
論文 参考訳(メタデータ) (2023-09-14T17:59:48Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual
Grounding [4.447173454116189]
3Dビジュアルグラウンドティングは、リッチなセマンティックキューを備えた自由形式の自然言語記述によって言及されているポイントクラウド内のオブジェクトを見つけることを目的としている。
文中のテキスト属性を明示的に分離するEDAを提案する。
さらに、オブジェクト名を含まないオブジェクトを位置決めする新しい視覚的接地タスクを導入し、モデルの高密度アライメント能力を徹底的に評価する。
論文 参考訳(メタデータ) (2022-09-29T17:00:22Z) - ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文 参考訳(メタデータ) (2022-09-09T06:54:21Z) - Towards Implicit Text-Guided 3D Shape Generation [81.22491096132507]
本研究は,テキストから3次元形状を生成するという課題について考察する。
テキスト記述にマッチする色で高忠実な形状を生成できるテキスト誘導型3次元形状生成のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-28T10:20:03Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - PuzzleNet: Scene Text Detection by Segment Context Graph Learning [9.701699882807251]
そこで本研究では,Puzzle Networks (PuzzleNets) と呼ばれる新しい分解手法を提案する。
セグメントをコンテキストグラフとして構築することで、MSGCNはセグメントの組み合わせを予測するためにセグメントコンテキストを効果的に利用する。
提案手法は,セグメントコンテキストグラフの活用により,現在の最先端技術よりも優れた,あるいは同等の性能を実現することができる。
論文 参考訳(メタデータ) (2020-02-26T09:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。