論文の概要: TripletMix: Triplet Data Augmentation for 3D Understanding
- arxiv url: http://arxiv.org/abs/2405.18523v1
- Date: Tue, 28 May 2024 18:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 22:03:07.116736
- Title: TripletMix: Triplet Data Augmentation for 3D Understanding
- Title(参考訳): TripletMix: 3D理解のためのトリプルトデータ拡張
- Authors: Jiaze Wang, Yi Wang, Ziyu Guo, Renrui Zhang, Donghao Zhou, Guangyong Chen, Anfeng Liu, Pheng-Ann Heng,
- Abstract要約: TripletMixは、3次元理解におけるマルチモーダルデータ拡張の未解決問題に対処するための新しいアプローチである。
本研究は,3次元物体認識と理解を著しく向上させるマルチモーダルデータ拡張の可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 64.65145700121442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation has proven to be a vital tool for enhancing the generalization capabilities of deep learning models, especially in the context of 3D vision where traditional datasets are often limited. Despite previous advancements, existing methods primarily cater to unimodal data scenarios, leaving a gap in the augmentation of multimodal triplet data, which integrates text, images, and point clouds. Simultaneously augmenting all three modalities enhances diversity and improves alignment across modalities, resulting in more comprehensive and robust 3D representations. To address this gap, we propose TripletMix, a novel approach to address the previously unexplored issue of multimodal data augmentation in 3D understanding. TripletMix innovatively applies the principles of mixed-based augmentation to multimodal triplet data, allowing for the preservation and optimization of cross-modal connections. Our proposed TripletMix combines feature-level and input-level augmentations to achieve dual enhancement between raw data and latent features, significantly improving the model's cross-modal understanding and generalization capabilities by ensuring feature consistency and providing diverse and realistic training samples. We demonstrate that TripletMix not only improves the baseline performance of models in various learning scenarios including zero-shot and linear probing classification but also significantly enhances model generalizability. Notably, we improved the zero-shot classification accuracy on ScanObjectNN from 51.3 percent to 61.9 percent, and on Objaverse-LVIS from 46.8 percent to 51.4 percent. Our findings highlight the potential of multimodal data augmentation to significantly advance 3D object recognition and understanding.
- Abstract(参考訳): データ拡張は、特に従来のデータセットが制限される3Dビジョンにおいて、ディープラーニングモデルの一般化能力を向上するための重要なツールであることが証明されている。
これまでの進歩にもかかわらず、既存のメソッドは、主に、テキスト、イメージ、ポイントクラウドを統合したマルチモーダルトリプルデータの増大にギャップを残した、ユニモーダルなデータシナリオに対応している。
3つのモダリティを同時に増強することで多様性が向上し、モダリティ間のアライメントが向上し、より包括的で堅牢な3D表現が得られる。
このギャップに対処するために,3次元理解におけるマルチモーダルデータ拡張の未検討問題に対処する新しいアプローチであるTripletMixを提案する。
TripletMixは、マルチモーダル三重項データに対する混合ベースの拡張の原理を革新的に応用し、クロスモーダル接続の保存と最適化を可能にした。
提案するTripletMixは,特徴レベルと入力レベルを組み合わせ,生データと潜時特徴の二重化を実現し,特徴整合性の確保と多彩で現実的なトレーニングサンプルの提供により,モデルのクロスモーダル理解と一般化能力を大幅に向上させる。
我々は,TripletMixが,ゼロショットや線形探索などの学習シナリオにおけるモデルのベースライン性能を向上するだけでなく,モデルの一般化可能性を大幅に向上させることを示した。
特に、ScanObjectNNのゼロショット分類精度を51.3%から61.9%に改善し、Objaverse-LVISは46.8%から51.4%に改善しました。
本研究は,3次元物体認識と理解を著しく向上させるマルチモーダルデータ拡張の可能性を明らかにするものである。
関連論文リスト
- Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - DiTMoS: Delving into Diverse Tiny-Model Selection on Microcontrollers [34.282971510732736]
我々は、セレクタ分類器アーキテクチャを備えた新しいDNNトレーニングおよび推論フレームワークであるDiTMoSを紹介する。
弱いモデルの合成は高い多様性を示すことができ、それらの結合は精度の上限を大幅に高めることができる。
我々は,Nucleo STM32F767ZIボード上にDiTMoSをデプロイし,人間の活動認識,キーワードスポッティング,感情認識のための時系列データセットに基づいて評価する。
論文 参考訳(メタデータ) (2024-03-14T02:11:38Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - HyCubE: Efficient Knowledge Hypergraph 3D Circular Convolutional Embedding [21.479738859698344]
本稿では,HyCubE を用いた エンドツーエンドの知識ハイパーグラフ埋め込みモデルを提案する。
提案モデルでは, 3次元円形畳み込み層構造を適応的に調整することにより, 有効性と効率のトレードオフを向上する。
すべてのデータセットに対する実験結果から,提案モデルが常に最先端のベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-02-14T06:05:37Z) - ViT-Lens: Initiating Omni-Modal Exploration through 3D Insights [61.36309876889977]
ViT-Lensは、事前訓練されたViTで新しいモダリティを知覚し、予め定義された空間に整列することで、効率的なOmni-Modal表現学習を可能にする。
ゼロショット3D分類では、ViT-Lensは従来の最先端技術よりも大幅に改善されている。
近い将来、さらなるモダリティに関するViT-Lensの結果を公表します。
論文 参考訳(メタデータ) (2023-08-20T07:26:51Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Multimodal Semi-Supervised Learning for 3D Objects [19.409295848915388]
本稿では,3次元の分類処理と検索処理の両方において,異なる3次元データのモデルのコヒーレンスを用いてデータ効率を向上させる方法について検討する。
本稿では、インスタンスレベルの一貫性制約を導入し、新しいマルチモーダル・コントラッシブ・プロトタイプ(M2CP)の損失を減らし、新しいマルチモーダル・セミ教師付き学習フレームワークを提案する。
提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
論文 参考訳(メタデータ) (2021-10-22T05:33:16Z) - Consistency and Monotonicity Regularization for Neural Knowledge Tracing [50.92661409499299]
人間の知識獲得を追跡する知識追跡(KT)は、オンライン学習と教育におけるAIの中心的なコンポーネントです。
本稿では, 新たなデータ拡張, 代替, 挿入, 削除の3種類と, 対応する正規化損失を提案する。
さまざまなKTベンチマークに関する広範な実験は、私たちの正規化スキームがモデルのパフォーマンスを一貫して改善することを示しています。
論文 参考訳(メタデータ) (2021-05-03T02:36:29Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。