論文の概要: DAC: 2D-3D Retrieval with Noisy Labels via Divide-and-Conquer Alignment and Correction
- arxiv url: http://arxiv.org/abs/2407.17779v1
- Date: Thu, 25 Jul 2024 05:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 15:08:06.907251
- Title: DAC: 2D-3D Retrieval with Noisy Labels via Divide-and-Conquer Alignment and Correction
- Title(参考訳): DAC: 2D-3D Retrieval with Noisy Labels via Divide-and-Conqueralignment and Correction
- Authors: Chaofan Gan, Yuanpeng Tu, Yuxi Li, Weiyao Lin,
- Abstract要約: マルチモーダル・ダイナミックディビジョン(MDD)とアダプティブ・アライメント・アンド・コレクション(AAC)を組み合わせたディバイド・アンド・コンカー2D-3Dクロスモーダル・アライメント・アンド・コレクション・フレームワークを提案する。
AACでは、異なるサブセットのサンプルを異なるアライメント戦略で利用し、セマンティックなコンパクト性を完全に強化し、一方、ノイズの多いラベルに過度に適合させる。
実世界のシナリオにおける有効性を評価するため,我々は,挑戦的なノイズベンチマークを導入する。
N200は200kレベルのサンプルを1156個の現実的なノイズラベルでアノテートした。
- 参考スコア(独自算出の注目度): 26.164120380820307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the recent burst of 2D and 3D data, cross-modal retrieval has attracted increasing attention recently. However, manual labeling by non-experts will inevitably introduce corrupted annotations given ambiguous 2D/3D content. Though previous works have addressed this issue by designing a naive division strategy with hand-crafted thresholds, their performance generally exhibits great sensitivity to the threshold value. Besides, they fail to fully utilize the valuable supervisory signals within each divided subset. To tackle this problem, we propose a Divide-and-conquer 2D-3D cross-modal Alignment and Correction framework (DAC), which comprises Multimodal Dynamic Division (MDD) and Adaptive Alignment and Correction (AAC). Specifically, the former performs accurate sample division by adaptive credibility modeling for each sample based on the compensation information within multimodal loss distribution. Then in AAC, samples in distinct subsets are exploited with different alignment strategies to fully enhance the semantic compactness and meanwhile alleviate over-fitting to noisy labels, where a self-correction strategy is introduced to improve the quality of representation. Moreover. To evaluate the effectiveness in real-world scenarios, we introduce a challenging noisy benchmark, namely Objaverse-N200, which comprises 200k-level samples annotated with 1156 realistic noisy labels. Extensive experiments on both traditional and the newly proposed benchmarks demonstrate the generality and superiority of our DAC, where DAC outperforms state-of-the-art models by a large margin. (i.e., with +5.9% gain on ModelNet40 and +5.8% on Objaverse-N200).
- Abstract(参考訳): 近年の2Dおよび3Dデータのバーストにより、クロスモーダル検索が注目されている。
しかし、非専門家による手作業によるラベリングは、あいまいな2D/3Dコンテンツに対して、必然的に破損したアノテーションを導入する。
従来の研究は、手作りの閾値を持つ単純分割戦略を設計することでこの問題に対処してきたが、その性能は一般に閾値に対して非常に敏感である。
さらに、各分割されたサブセット内の貴重な監視信号を完全に活用することができない。
この問題に対処するため,多モード動的分割(MDD)と適応配向補正(AAC)を組み合わせた2D-3Dクロスモーダル配向補正フレームワーク(DAC)を提案する。
具体的には、前者は、多モード損失分布内の補償情報に基づいて、各サンプルに対する適応的信頼度モデリングにより、正確なサンプル分割を行う。
次に、AACでは、異なるサブセットのサンプルを異なるアライメント戦略を用いて、意味的コンパクト性を完全に向上させ、一方、自己補正戦略を導入して表現の質を向上させるため、ノイズラベルへの過度な適合を緩和する。
さらに。
実世界のシナリオにおける有効性を評価するため,1156個の実雑音ラベルを付加した200kレベルのサンプルを含む,難易度の高いObjaverse-N200を提案する。
従来のベンチマークと新たに提案されたベンチマークの両方に対する大規模な実験は、DACが最先端モデルよりも大きなマージンで優れているという、DACの汎用性と優位性を示している。
(つまり、ModelNet40は+5.9%、Objaverse-N200は+5.8%)。
関連論文リスト
- Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。
以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。
以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:36:45Z) - Noisy-ArcMix: Additive Noisy Angular Margin Loss Combined With Mixup
Anomalous Sound Detection [5.1308092683559225]
非教師付き異常音検出(ASD)は、正常な操作音の特徴を学習し、その偏差を感知することで、異常音を識別することを目的としている。
近年, 正規データの分類を利用した自己教師型タスクに焦点が当てられ, 高度なモデルでは, 異常データの表現空間の確保が重要であることが示されている。
本研究では,クラス内コンパクト性を確保し,正常試料と異常試料との角度ギャップを増大させる訓練手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:04:36Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal
Retrieval [7.459223771397159]
クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。
オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。
ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-07T10:37:14Z) - Scaling Multimodal Pre-Training via Cross-Modality Gradient
Harmonization [68.49738668084693]
自己教師付き事前学習は、最近、大規模マルチモーダルデータで成功している。
クロスモダリティアライメント(CMA)は、弱くノイズの多い監視である。
CMAは、モダリティ間の衝突や偏見を引き起こす可能性がある。
論文 参考訳(メタデータ) (2022-11-03T18:12:32Z) - Self-supervised Human Mesh Recovery with Cross-Representation Alignment [20.69546341109787]
自己教師付きヒューマンメッシュリカバリ手法は、3Dアノテーション付きベンチマークデータセットの可用性と多様性が制限されているため、一般化性が低い。
頑健だがスパースな表現(2Dキーポイント)からの相補的情報を利用した相互表現アライメントを提案する。
この適応的相互表現アライメントは、偏差から明示的に学習し、相補的な情報(疎表現からの豊かさと密表現からの堅牢さ)をキャプチャする。
論文 参考訳(メタデータ) (2022-09-10T04:47:20Z) - Label Distributionally Robust Losses for Multi-class Classification:
Consistency, Robustness and Adaptivity [55.29408396918968]
多クラス分類のためのラベル分布ロバスト(LDR)損失という損失関数群について検討した。
我々の貢献は、多クラス分類のためのLDR損失のトップ$kの一貫性を確立することによって、一貫性と堅牢性の両方を含んでいる。
本稿では,各インスタンスのクラスラベルの雑音度に個別化温度パラメータを自動的に適応させる適応型LDR損失を提案する。
論文 参考訳(メタデータ) (2021-12-30T00:27:30Z) - Out-of-Domain Human Mesh Reconstruction via Dynamic Bilevel Online
Adaptation [87.85851771425325]
我々は、人間のメッシュ再構成モデルをドメイン外ストリーミングビデオに適用する際の新しい問題を考える。
オンライン適応によってこの問題に対処し、テスト中のモデルのバイアスを徐々に修正します。
動的バイレベルオンライン適応アルゴリズム(DynaBOA)を提案する。
論文 参考訳(メタデータ) (2021-11-07T07:23:24Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。