論文の概要: TripletMix: Triplet Data Augmentation for 3D Understanding
- arxiv url: http://arxiv.org/abs/2405.18523v1
- Date: Tue, 28 May 2024 18:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 22:03:07.116736
- Title: TripletMix: Triplet Data Augmentation for 3D Understanding
- Title(参考訳): TripletMix: 3D理解のためのトリプルトデータ拡張
- Authors: Jiaze Wang, Yi Wang, Ziyu Guo, Renrui Zhang, Donghao Zhou, Guangyong Chen, Anfeng Liu, Pheng-Ann Heng,
- Abstract要約: TripletMixは、3次元理解におけるマルチモーダルデータ拡張の未解決問題に対処するための新しいアプローチである。
本研究は,3次元物体認識と理解を著しく向上させるマルチモーダルデータ拡張の可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 64.65145700121442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation has proven to be a vital tool for enhancing the generalization capabilities of deep learning models, especially in the context of 3D vision where traditional datasets are often limited. Despite previous advancements, existing methods primarily cater to unimodal data scenarios, leaving a gap in the augmentation of multimodal triplet data, which integrates text, images, and point clouds. Simultaneously augmenting all three modalities enhances diversity and improves alignment across modalities, resulting in more comprehensive and robust 3D representations. To address this gap, we propose TripletMix, a novel approach to address the previously unexplored issue of multimodal data augmentation in 3D understanding. TripletMix innovatively applies the principles of mixed-based augmentation to multimodal triplet data, allowing for the preservation and optimization of cross-modal connections. Our proposed TripletMix combines feature-level and input-level augmentations to achieve dual enhancement between raw data and latent features, significantly improving the model's cross-modal understanding and generalization capabilities by ensuring feature consistency and providing diverse and realistic training samples. We demonstrate that TripletMix not only improves the baseline performance of models in various learning scenarios including zero-shot and linear probing classification but also significantly enhances model generalizability. Notably, we improved the zero-shot classification accuracy on ScanObjectNN from 51.3 percent to 61.9 percent, and on Objaverse-LVIS from 46.8 percent to 51.4 percent. Our findings highlight the potential of multimodal data augmentation to significantly advance 3D object recognition and understanding.
- Abstract(参考訳): データ拡張は、特に従来のデータセットが制限される3Dビジョンにおいて、ディープラーニングモデルの一般化能力を向上するための重要なツールであることが証明されている。
これまでの進歩にもかかわらず、既存のメソッドは、主に、テキスト、イメージ、ポイントクラウドを統合したマルチモーダルトリプルデータの増大にギャップを残した、ユニモーダルなデータシナリオに対応している。
3つのモダリティを同時に増強することで多様性が向上し、モダリティ間のアライメントが向上し、より包括的で堅牢な3D表現が得られる。
このギャップに対処するために,3次元理解におけるマルチモーダルデータ拡張の未検討問題に対処する新しいアプローチであるTripletMixを提案する。
TripletMixは、マルチモーダル三重項データに対する混合ベースの拡張の原理を革新的に応用し、クロスモーダル接続の保存と最適化を可能にした。
提案するTripletMixは,特徴レベルと入力レベルを組み合わせ,生データと潜時特徴の二重化を実現し,特徴整合性の確保と多彩で現実的なトレーニングサンプルの提供により,モデルのクロスモーダル理解と一般化能力を大幅に向上させる。
我々は,TripletMixが,ゼロショットや線形探索などの学習シナリオにおけるモデルのベースライン性能を向上するだけでなく,モデルの一般化可能性を大幅に向上させることを示した。
特に、ScanObjectNNのゼロショット分類精度を51.3%から61.9%に改善し、Objaverse-LVISは46.8%から51.4%に改善しました。
本研究は,3次元物体認識と理解を著しく向上させるマルチモーダルデータ拡張の可能性を明らかにするものである。
関連論文リスト
- Adaptive Mix for Semi-Supervised Medical Image Segmentation [22.69909762038458]
本稿では,画像混合のための適応混合アルゴリズム(AdaMix)を提案する。
AdaMix-ST, AdaMix-MT, AdaMix-CTの3つのフレームワークを半教師付き医用画像分割用として開発した。
論文 参考訳(メタデータ) (2024-07-31T13:19:39Z) - Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - Multiway Point Cloud Mosaicking with Diffusion and Global Optimization [74.3802812773891]
マルチウェイポイントクラウドモザイクのための新しいフレームワーク(水曜日)を紹介する。
我々のアプローチの核心は、重複を識別し、注意点を洗練する学習されたペアワイズ登録アルゴリズムODINである。
4つの多種多様な大規模データセットを用いて、我々の手法は、全てのベンチマークにおいて大きなマージンで、最先端のペアとローテーションの登録結果を比較した。
論文 参考訳(メタデータ) (2024-03-30T17:29:13Z) - PowMix: A Versatile Regularizer for Multimodal Sentiment Analysis [71.8946280170493]
本稿では,単相混合型正規化手法の強みを生かした汎用な埋め込み空間正規化器であるPowMixを紹介する。
PowMixはマルチモーダルアーキテクチャの融合段階の前に統合され、テキストとテキストを混合するなどのモダル内混合を容易にし、レギュレータとして機能する。
論文 参考訳(メタデータ) (2023-12-19T17:01:58Z) - Connecting Multi-modal Contrastive Representations [50.26161419616139]
マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に共有された空間に符号化することを目的としている。
本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習するための,新たな学習効率向上手法を提案する。
C-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のオーディオ映像のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-22T09:44:39Z) - MixupE: Understanding and Improving Mixup from Directional Derivative
Perspective [86.06981860668424]
理論上は、バニラ・ミックスアップよりも優れた一般化性能を実現するために、Mixupの改良版を提案する。
提案手法は,様々なアーキテクチャを用いて,複数のデータセットにまたがるMixupを改善した。
論文 参考訳(メタデータ) (2022-12-27T07:03:52Z) - SageMix: Saliency-Guided Mixup for Point Clouds [14.94694648742664]
SageMixは、局所的な局所構造を保存するために、点雲のための塩分誘導ミキサである。
PointNet++では、3D Warehouse データセット (MN40) と ScanObjectNN の標準トレーニングよりも精度が 2.6% と 4.0% 向上した。
論文 参考訳(メタデータ) (2022-10-13T12:19:58Z) - Pose Adaptive Dual Mixup for Few-Shot Single-View 3D Reconstruction [35.30827580375749]
単像3D再構成のためのポーズ適応型数ショット学習法と2段階データ正規化法を提案する。
PADMixは、ShapeNetデータセットよりも数ショット設定で過去の文献を著しく上回り、より困難な現実世界のPix3Dデータセットで新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2021-12-23T12:22:08Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。