論文の概要: TriCoLo: Trimodal Contrastive Loss for Fine-grained Text to Shape
Retrieval
- arxiv url: http://arxiv.org/abs/2201.07366v1
- Date: Wed, 19 Jan 2022 00:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 14:49:38.730354
- Title: TriCoLo: Trimodal Contrastive Loss for Fine-grained Text to Shape
Retrieval
- Title(参考訳): TriCoLo: 微細なテキストと形状検索のための3モーダルコントラスト損失
- Authors: Yue Ruan, Han-Hung Lee, Ke Zhang, Angel X. Chang
- Abstract要約: 大規模なバッチコントラスト学習では,複雑な注意機構や損失を伴わずに,テキスト形状検索においてSoTAを実現できることを示す。
そこで本研究では,全てのモダリティに対して,より高い性能と優れた表現を実現するための3モーダル学習手法を提案する。
- 参考スコア(独自算出の注目度): 13.097865160059268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on contrastive losses for learning joint embeddings over
multimodal data has been successful at downstream tasks such as retrieval and
classification. On the other hand, work on joint representation learning for 3D
shapes and text has thus far mostly focused on improving embeddings through
modeling of complex attention between representations , or multi-task learning
. We show that with large batch contrastive learning we achieve SoTA on
text-shape retrieval without complex attention mechanisms or losses. Prior work
in 3D and text representations has also focused on bimodal representation
learning using either voxels or multi-view images with text. To this end, we
propose a trimodal learning scheme to achieve even higher performance and
better representations for all modalities.
- Abstract(参考訳): マルチモーダルデータに対する統合埋め込み学習のためのコントラスト損失に関する最近の研究は、検索や分類などの下流タスクで成功している。
一方,3次元形状とテキストに対する共同表現学習の研究は,表現間の複雑な注意のモデリングやマルチタスク学習による埋め込みの改善に重点を置いている。
大規模なバッチコントラスト学習では,複雑な注意機構や損失を伴わずに,テキスト形状検索においてSoTAを実現できることを示す。
3dおよびテキスト表現の先行研究は、voxelまたはテキストによるマルチビュー画像を用いたバイモーダル表現学習にも重点を置いている。
そこで本研究では,すべてのモダリティに対して,さらに高いパフォーマンスとより良い表現を実現するための三角学習方式を提案する。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - COM3D: Leveraging Cross-View Correspondence and Cross-Modal Mining for 3D Retrieval [21.070154402838906]
本稿では,クロスビュー対応とクロスモーダルマイニングを活用して検索性能を向上させるCOM3Dを提案する。
特に、シーン表現変換器によって3次元特徴を増強し、3次元形状のクロスビュー対応特徴を生成する。
さらに,セミハードな負のサンプルマイニング法に基づいて,クロスモーダルマッチングプロセスの最適化を提案する。
論文 参考訳(メタデータ) (2024-05-07T08:16:13Z) - TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [28.112402580426174]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。
TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文 参考訳(メタデータ) (2024-02-28T17:18:38Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation [89.47132156950194]
本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。
提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。
私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
論文 参考訳(メタデータ) (2022-12-08T18:59:05Z) - 3D Shape Knowledge Graph for Cross-domain 3D Shape Retrieval [20.880210749809642]
幾何学語」は、組み合わせによって実体を表現する要素成分として機能する。
各3Dまたは2Dエンティティは、その幾何学用語を知識グラフ内に固定することができ、ドメイン間のデータ間のリンクとして機能する。
提案手法の性能をモデルNet40とShapeNetCore55のデータセットで評価した。
論文 参考訳(メタデータ) (2022-10-27T02:51:24Z) - Hard Example Generation by Texture Synthesis for Cross-domain Shape
Similarity Learning [97.56893524594703]
画像に基づく3次元形状検索(IBSR)は、与えられた2次元画像の対応する3次元形状を、大きな3次元形状データベースから見つけることを目的としている。
いくつかの適応技法によるメートル法学習は、類似性学習を形作るための自然な解決策のようです。
テクスチャ合成を応用した幾何中心の多視点メトリック学習フレームワークを開発した。
論文 参考訳(メタデータ) (2020-10-23T08:52:00Z) - Info3D: Representation Learning on 3D Objects using Mutual Information
Maximization and Contrastive Learning [8.448611728105513]
本稿では,3次元形状に関するInfoMaxと対照的な学習原理を拡張することを提案する。
我々は3Dオブジェクトとその「チャンク」間の相互情報を最大化して、整列したデータセットにおける表現を改善することができることを示す。
論文 参考訳(メタデータ) (2020-06-04T00:30:26Z) - Self-Supervised 2D Image to 3D Shape Translation with Disentangled
Representations [92.89846887298852]
本稿では,2次元画像ビューと3次元オブジェクト形状を翻訳するフレームワークを提案する。
形状変換のための自己教師型画像変換フレームワークであるSISTを提案する。
論文 参考訳(メタデータ) (2020-03-22T22:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。