Fugu-MT 論文翻訳(概要): Parts2Words: Learning Joint Embedding of Point Clouds and Texts by Bidirectional Matching between Parts and Words

論文の概要: Parts2Words: Learning Joint Embedding of Point Clouds and Texts by Bidirectional Matching between Parts and Words

arxiv url: http://arxiv.org/abs/2107.01872v2
Date: Sun, 2 Apr 2023 02:12:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-05 02:01:23.077752
Title: Parts2Words: Learning Joint Embedding of Point Clouds and Texts by Bidirectional Matching between Parts and Words
Title（参考訳）: part2words: 部分と単語の双方向マッチングによる点雲とテキストの埋め込み学習
Authors: Chuan Tang, Xi Yang, Bojian Wu, Zhizhong Han, Yi Chang
Abstract要約: テキストからの形状と単語の双方向マッチングにより,点雲とテキストの結合埋め込みを学習することを提案する。具体的には、まず点雲を部品に分割し、次に最適化された特徴空間内の部品と単語を一致させるために最適な輸送手法を利用する。実験により,本手法はマルチモーダル検索タスクにおけるSOTAの精度を大幅に向上することを示した。
参考スコア（独自算出の注目度）: 32.47815081044594
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Shape-Text matching is an important task of high-level shape understanding. Current methods mainly represent a 3D shape as multiple 2D rendered views, which obviously can not be understood well due to the structural ambiguity caused by self-occlusion in the limited number of views. To resolve this issue, we directly represent 3D shapes as point clouds, and propose to learn joint embedding of point clouds and texts by bidirectional matching between parts from shapes and words from texts. Specifically, we first segment the point clouds into parts, and then leverage optimal transport method to match parts and words in an optimized feature space, where each part is represented by aggregating features of all points within it and each word is abstracted by its contextual information. We optimize the feature space in order to enlarge the similarities between the paired training samples, while simultaneously maximizing the margin between the unpaired ones. Experiments demonstrate that our method achieves a significant improvement in accuracy over the SOTAs on multi-modal retrieval tasks under the Text2Shape dataset. Codes are available at https://github.com/JLUtangchuan/Parts2Words.
Abstract（参考訳）: 形状テキストマッチングは高レベルの形状理解の重要な課題である。現在の方法は、主に3次元形状を複数の2次元レンダリングビューとして表現しているが、限られた数のビューにおける自己排他による構造的曖昧さのため、明らかによく理解できない。この問題を解決するために,3次元形状を点雲として直接表現し,形状と単語の双方向マッチングにより点雲とテキストの結合埋め込みを学習することを提案する。具体的には、まず点雲を分割し、次に最適な移動法を用いて、最適化された特徴空間内の部分と単語をマッチングし、各部分はその中のすべての点の特徴を集約して表現し、各単語は文脈情報によって抽象化される。ペアのトレーニングサンプル間の類似度を最大化するとともに,非ペアのサンプル間のマージンを最大化するために,特徴空間を最適化する。実験により,Text2Shapeデータセットに基づくマルチモーダル検索タスクにおいて,SOTAの精度を大幅に向上することを確認した。コードはhttps://github.com/JLUtangchuan/Parts2Wordsで入手できる。

関連論文リスト

PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文参考訳（メタデータ） (2025-06-30T08:13:07Z)
LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。 ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文参考訳（メタデータ） (2024-10-17T07:47:41Z)
GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts [48.28000728061778]
本稿では,オープンな語彙シーンエンコーダをアーキテクチャに統合し,テキストとシーン間の堅牢な接続を確立する手法を提案する。提案手法は,従来の最先端ベースラインモデルと比較すると,目標目標距離距離を最大30%削減する。
論文参考訳（メタデータ） (2024-04-08T18:24:12Z)
Looking at words and points with attention: a benchmark for text-to-shape coherence [17.340484439401894]
生成した3次元形状と入力テキスト記述とのコヒーレンスの評価には明確なベンチマークが欠如している。我々は、形状に関連する記述を自動的に洗練するために、大きな言語モデルを使用します。アプローチを検証するために,ユーザスタディを実施し,既存のメトリクスと定量的に比較する。改良されたデータセット、新しいメトリック、およびユーザスタディによって検証されたテキスト-形状のペアは、新しくてきめ細かいベンチマークを構成する。
論文参考訳（メタデータ） (2023-09-14T17:59:48Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual Grounding [4.447173454116189]
3Dビジュアルグラウンドティングは、リッチなセマンティックキューを備えた自由形式の自然言語記述によって言及されているポイントクラウド内のオブジェクトを見つけることを目的としている。文中のテキスト属性を明示的に分離するEDAを提案する。さらに、オブジェクト名を含まないオブジェクトを位置決めする新しい視覚的接地タスクを導入し、モデルの高密度アライメント能力を徹底的に評価する。
論文参考訳（メタデータ） (2022-09-29T17:00:22Z)
ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文参考訳（メタデータ） (2022-09-09T06:54:21Z)
Towards Implicit Text-Guided 3D Shape Generation [81.22491096132507]
本研究は,テキストから3次元形状を生成するという課題について考察する。テキスト記述にマッチする色で高忠実な形状を生成できるテキスト誘導型3次元形状生成のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2022-03-28T10:20:03Z)
ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。 1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文参考訳（メタデータ） (2021-05-08T07:46:55Z)
PuzzleNet: Scene Text Detection by Segment Context Graph Learning [9.701699882807251]
そこで本研究では,Puzzle Networks (PuzzleNets) と呼ばれる新しい分解手法を提案する。セグメントをコンテキストグラフとして構築することで、MSGCNはセグメントの組み合わせを予測するためにセグメントコンテキストを効果的に利用する。提案手法は,セグメントコンテキストグラフの活用により,現在の最先端技術よりも優れた,あるいは同等の性能を実現することができる。
論文参考訳（メタデータ） (2020-02-26T09:21:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。