論文の概要: TriCoLo: Trimodal Contrastive Loss for Text to Shape Retrieval
- arxiv url: http://arxiv.org/abs/2201.07366v2
- Date: Wed, 27 Dec 2023 15:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 23:51:00.365993
- Title: TriCoLo: Trimodal Contrastive Loss for Text to Shape Retrieval
- Title(参考訳): TriCoLo: テキスト検索のための3モーダルなコントラスト損失
- Authors: Yue Ruan, Han-Hung Lee, Yiming Zhang, Ke Zhang, Angel X. Chang
- Abstract要約: テキスト・ツー・シェイプ検索は3次元形状データの成長にますます関連する問題である。
マルチモーダルデータを用いた共同埋め込み学習における比較的損失に関する最近の研究は,検索や分類などのタスクで成功を収めている。
テキスト, 多視点画像, 3次元形状ボクセルの3次元学習方式を提案し, 大規模なバッチコントラスト学習を行うことで, 複雑な注意機構や損失を伴わずに, テキスト・ツー・シェイプ検索の性能が向上することを示す。
- 参考スコア(独自算出の注目度): 15.692019545368844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-shape retrieval is an increasingly relevant problem with the growth
of 3D shape data. Recent work on contrastive losses for learning joint
embeddings over multimodal data has been successful at tasks such as retrieval
and classification. Thus far, work on joint representation learning for 3D
shapes and text has focused on improving embeddings through modeling of complex
attention between representations, or multi-task learning. We propose a
trimodal learning scheme over text, multi-view images and 3D shape voxels, and
show that with large batch contrastive learning we achieve good performance on
text-to-shape retrieval without complex attention mechanisms or losses. Our
experiments serve as a foundation for follow-up work on building trimodal
embeddings for text-image-shape.
- Abstract(参考訳): テキスト・ツー・シェイプ検索は3次元形状データの成長にますます関連する問題である。
マルチモーダルデータに対する統合埋め込み学習のためのコントラスト損失に関する最近の研究は、検索や分類などのタスクで成功している。
これまで,3次元形状とテキストの連立表現学習は,表現間の複雑な注意のモデリングやマルチタスク学習による埋め込みの改善に重点を置いてきた。
テキスト, 多視点画像, 3次元形状ボクセルの3次元学習方式を提案し, 大規模なバッチコントラスト学習を行うことで, 複雑な注意機構や損失を伴わずに, テキスト・ツー・シェイプ検索の性能が向上することを示す。
本実験は, テキスト画像形成のための3モーダル埋め込み構築のための基礎となる。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - COM3D: Leveraging Cross-View Correspondence and Cross-Modal Mining for 3D Retrieval [21.070154402838906]
本稿では,クロスビュー対応とクロスモーダルマイニングを活用して検索性能を向上させるCOM3Dを提案する。
特に、シーン表現変換器によって3次元特徴を増強し、3次元形状のクロスビュー対応特徴を生成する。
さらに,セミハードな負のサンプルマイニング法に基づいて,クロスモーダルマッチングプロセスの最適化を提案する。
論文 参考訳(メタデータ) (2024-05-07T08:16:13Z) - TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [28.112402580426174]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。
TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文 参考訳(メタデータ) (2024-02-28T17:18:38Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation [89.47132156950194]
本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。
提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。
私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
論文 参考訳(メタデータ) (2022-12-08T18:59:05Z) - 3D Shape Knowledge Graph for Cross-domain 3D Shape Retrieval [20.880210749809642]
幾何学語」は、組み合わせによって実体を表現する要素成分として機能する。
各3Dまたは2Dエンティティは、その幾何学用語を知識グラフ内に固定することができ、ドメイン間のデータ間のリンクとして機能する。
提案手法の性能をモデルNet40とShapeNetCore55のデータセットで評価した。
論文 参考訳(メタデータ) (2022-10-27T02:51:24Z) - Hard Example Generation by Texture Synthesis for Cross-domain Shape
Similarity Learning [97.56893524594703]
画像に基づく3次元形状検索(IBSR)は、与えられた2次元画像の対応する3次元形状を、大きな3次元形状データベースから見つけることを目的としている。
いくつかの適応技法によるメートル法学習は、類似性学習を形作るための自然な解決策のようです。
テクスチャ合成を応用した幾何中心の多視点メトリック学習フレームワークを開発した。
論文 参考訳(メタデータ) (2020-10-23T08:52:00Z) - Info3D: Representation Learning on 3D Objects using Mutual Information
Maximization and Contrastive Learning [8.448611728105513]
本稿では,3次元形状に関するInfoMaxと対照的な学習原理を拡張することを提案する。
我々は3Dオブジェクトとその「チャンク」間の相互情報を最大化して、整列したデータセットにおける表現を改善することができることを示す。
論文 参考訳(メタデータ) (2020-06-04T00:30:26Z) - Self-Supervised 2D Image to 3D Shape Translation with Disentangled
Representations [92.89846887298852]
本稿では,2次元画像ビューと3次元オブジェクト形状を翻訳するフレームワークを提案する。
形状変換のための自己教師型画像変換フレームワークであるSISTを提案する。
論文 参考訳(メタデータ) (2020-03-22T22:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。