論文の概要: MCA: 2D-3D Retrieval with Noisy Labels via Multi-level Adaptive Correction and Alignment
- arxiv url: http://arxiv.org/abs/2508.06104v1
- Date: Fri, 08 Aug 2025 08:06:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.131847
- Title: MCA: 2D-3D Retrieval with Noisy Labels via Multi-level Adaptive Correction and Alignment
- Title(参考訳): MCA:多レベル適応補正とアライメントによる雑音ラベル付き2D-3D検索
- Authors: Gui Zou, Chaofan Gan, Chern Hong Lim, Supavadee Aramvith, Weiyao Lin,
- Abstract要約: 頑健な2D-3D textbfMulti-level cross-modal adapt textbfCorrection and textbfAlignment framework (MCA)を提案する。
MCAは従来の3Dベンチマークと現実的な3Dベンチマークの両方で最先端のパフォーマンスを達成している。
- 参考スコア(独自算出の注目度): 15.028422887133972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing availability of 2D and 3D data, significant advancements have been made in the field of cross-modal retrieval. Nevertheless, the existence of imperfect annotations presents considerable challenges, demanding robust solutions for 2D-3D cross-modal retrieval in the presence of noisy label conditions. Existing methods generally address the issue of noise by dividing samples independently within each modality, making them susceptible to overfitting on corrupted labels. To address these issues, we propose a robust 2D-3D \textbf{M}ulti-level cross-modal adaptive \textbf{C}orrection and \textbf{A}lignment framework (MCA). Specifically, we introduce a Multimodal Joint label Correction (MJC) mechanism that leverages multimodal historical self-predictions to jointly model the modality prediction consistency, enabling reliable label refinement. Additionally, we propose a Multi-level Adaptive Alignment (MAA) strategy to effectively enhance cross-modal feature semantics and discrimination across different levels. Extensive experiments demonstrate the superiority of our method, MCA, which achieves state-of-the-art performance on both conventional and realistic noisy 3D benchmarks, highlighting its generality and effectiveness.
- Abstract(参考訳): 2Dデータと3Dデータの利用が増加し、クロスモーダル検索の分野で大きな進歩を遂げた。
しかしながら、不完全なアノテーションの存在は、ノイズのあるラベル条件の存在下で2D-3Dのクロスモーダル検索のための堅牢なソリューションを要求する、かなりの課題を呈している。
既存の手法は一般に、各モード内でサンプルを独立に分割することでノイズの問題に対処し、破損したラベルに過度に適合するおそれがある。
これらの問題に対処するために、ロバストな2D-3D \textbf{M}ulti-level cross-modal adapt \textbf{C}orrection と \textbf{A}lignment framework (MCA)を提案する。
具体的には,MJC(Multimodal Joint label Correction)機構を導入し,モーダリティ予測の一貫性をモデル化し,信頼性の高いラベルリファインメントを実現する。
さらに,マルチレベル適応アライメント(MAA)戦略を提案する。
従来の3Dベンチマークと現実的な3Dベンチマークの両方で最先端の性能を達成し,その汎用性と有効性を強調した。
関連論文リスト
- GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - DAC: 2D-3D Retrieval with Noisy Labels via Divide-and-Conquer Alignment and Correction [26.164120380820307]
マルチモーダル・ダイナミックディビジョン(MDD)とアダプティブ・アライメント・アンド・コレクション(AAC)を組み合わせたディバイド・アンド・コンカー2D-3Dクロスモーダル・アライメント・アンド・コレクション・フレームワークを提案する。
AACでは、異なるサブセットのサンプルを異なるアライメント戦略で利用し、セマンティックなコンパクト性を完全に強化し、一方、ノイズの多いラベルに過度に適合させる。
実世界のシナリオにおける有効性を評価するため,我々は,挑戦的なノイズベンチマークを導入する。
N200は200kレベルのサンプルを1156個の現実的なノイズラベルでアノテートした。
論文 参考訳(メタデータ) (2024-07-25T05:18:18Z) - Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。
以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。
以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:36:45Z) - Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。
不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。
本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文 参考訳(メタデータ) (2023-12-08T08:18:12Z) - Revisiting Domain-Adaptive 3D Object Detection by Reliable, Diverse and
Class-balanced Pseudo-Labeling [38.07637524378327]
ドメイン適応型3Dオブジェクト検出において,疑似ラベリング技術を用いた教師なしドメイン適応(DA)が重要なアプローチとして浮上している。
既存のDAメソッドは、マルチクラスのトレーニング環境に適用した場合、パフォーマンスが大幅に低下する。
本稿では,すべてのクラスを一度に検出する学習に適した新しいReDBフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-16T04:34:11Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Out-of-Domain Human Mesh Reconstruction via Dynamic Bilevel Online
Adaptation [87.85851771425325]
我々は、人間のメッシュ再構成モデルをドメイン外ストリーミングビデオに適用する際の新しい問題を考える。
オンライン適応によってこの問題に対処し、テスト中のモデルのバイアスを徐々に修正します。
動的バイレベルオンライン適応アルゴリズム(DynaBOA)を提案する。
論文 参考訳(メタデータ) (2021-11-07T07:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。