論文の概要: VDC: Versatile Data Cleanser for Detecting Dirty Samples via
Visual-Linguistic Inconsistency
- arxiv url: http://arxiv.org/abs/2309.16211v1
- Date: Thu, 28 Sep 2023 07:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 15:51:06.634086
- Title: VDC: Versatile Data Cleanser for Detecting Dirty Samples via
Visual-Linguistic Inconsistency
- Title(参考訳): VDC:視覚言語的不整合による汚れサンプル検出用ヴァーサタイルデータクリーニング装置
- Authors: Zihao Zhu, Mingda Zhang, Shaokui Wei, Bingzhe Wu, Baoyuan Wu
- Abstract要約: 現実の世界では、データセットには、バックドア攻撃による毒サンプル、クラウドソーシングにおけるノイズの多いラベル、さらにはそれらのハイブリッドなど、汚れたサンプルが含まれている。
既存の検出器は、他のドメインの汚れたサンプルを扱う場合、しばしば一般化が弱くなるような、有毒なサンプルやノイズのあるラベルを検出することのみに焦点を当てている。
マルチモーダル大規模言語モデル(MLLM)の超越した機能を利用した多目的データクリーニング(VDC)を提案する。
- 参考スコア(独自算出の注目度): 50.129230147605185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The role of data in building AI systems has recently been emphasized by the
emerging concept of data-centric AI. Unfortunately, in the real-world, datasets
may contain dirty samples, such as poisoned samples from backdoor attack, noisy
labels in crowdsourcing, and even hybrids of them. The presence of such dirty
samples makes the DNNs vunerable and unreliable.Hence, it is critical to detect
dirty samples to improve the quality and realiability of dataset. Existing
detectors only focus on detecting poisoned samples or noisy labels, that are
often prone to weak generalization when dealing with dirty samples from other
domains.In this paper, we find a commonality of various dirty samples is
visual-linguistic inconsistency between images and associated labels. To
capture the semantic inconsistency between modalities, we propose versatile
data cleanser (VDC) leveraging the surpassing capabilities of multimodal large
language models (MLLM) in cross-modal alignment and reasoning.It consists of
three consecutive modules: the visual question generation module to generate
insightful questions about the image; the visual question answering module to
acquire the semantics of the visual content by answering the questions with
MLLM; followed by the visual answer evaluation module to evaluate the
inconsistency.Extensive experiments demonstrate its superior performance and
generalization to various categories and types of dirty samples.
- Abstract(参考訳): AIシステム構築におけるデータの役割は、最近、データ中心AIという新たな概念によって強調されている。
残念ながら、現実のデータセットには、バックドア攻撃による毒サンプル、クラウドソーシングにおけるノイズの多いラベル、さらにはそれらのハイブリッドなど、汚れたサンプルが含まれている可能性がある。
このような汚いサンプルが存在するため、DNNは不安定で信頼性が低いため、汚いサンプルを検出してデータセットの品質と現実性を改善することが重要である。
既存の検出器は汚染されたサンプルやノイズのラベルの検出にのみ焦点を合わせており、他のドメインからの汚れたサンプルを扱う場合、しばしば弱い一般化になりがちである。
To capture the semantic inconsistency between modalities, we propose versatile data cleanser (VDC) leveraging the surpassing capabilities of multimodal large language models (MLLM) in cross-modal alignment and reasoning.It consists of three consecutive modules: the visual question generation module to generate insightful questions about the image; the visual question answering module to acquire the semantics of the visual content by answering the questions with MLLM; followed by the visual answer evaluation module to evaluate the inconsistency.Extensive experiments demonstrate its superior performance and generalization to various categories and types of dirty samples.
関連論文リスト
- Dual-View Data Hallucination with Semantic Relation Guidance for
Few-Shot Image Recognition [52.19737194653999]
本稿では、意味的関係を利用して、画像認識のための二重視点データ幻覚を導出するフレームワークを提案する。
インスタンスビューデータ幻覚モジュールは、新規クラスの各サンプルを幻覚して新しいデータを生成する。
プロトタイプビューデータ幻覚モジュールは、意味認識尺度を利用して、新しいクラスのプロトタイプを推定する。
論文 参考訳(メタデータ) (2024-01-13T12:32:29Z) - ProbMCL: Simple Probabilistic Contrastive Learning for Multi-label
Visual Classification [17.932844678349216]
マルチラベル画像分類は、コンピュータビジョンや医用画像など、多くの領域において難しい課題である。
最近の進歩は、グラフベースとトランスフォーマーベースのメソッドを導入し、パフォーマンスを改善し、ラベルの依存関係をキャプチャしている。
本稿では,これらの課題に対処する新しいフレームワークである確率的多ラベルコントラスト学習(ProbMCL)を提案する。
論文 参考訳(メタデータ) (2024-01-02T22:15:20Z) - Deep Incomplete Multi-view Clustering with Cross-view Partial Sample and
Prototype Alignment [50.82982601256481]
深層不完全なマルチビュークラスタリングのためのクロスビュー部分サンプルとプロトタイプアライメントネットワーク(CPSPAN)を提案する。
従来のコントラストベースの手法とは異なり、インスタンスとインスタンスの対応構築を導くために、ペア観測データアライメントを「プロキシ監視信号」として採用する。
論文 参考訳(メタデータ) (2023-03-28T02:31:57Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z) - Uncertainty-Aware Multi-View Representation Learning [53.06828186507994]
動的不確実性認識ネットワーク(DUA-Nets)と呼ばれる新しい教師なし多視点学習手法を考案する。
生成視点から推定されるデータの不確実性により、複数の視点からの固有情報が統合され、ノイズのない表現が得られる。
本モデルでは, 広範囲な実験において優れた性能を示し, ノイズの多いデータに対するロバスト性を示す。
論文 参考訳(メタデータ) (2022-01-15T07:16:20Z) - Assessing the Quality of the Datasets by Identifying Mislabeled Samples [14.881597737762316]
本稿では,各データ点の品質を測る指標として,新しい統計値(ノイズスコア)を提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
我々は、MNIST、FashionMNIST、CIFAR10/100データセットを破損させることにより、提案した統計データを検証した。
論文 参考訳(メタデータ) (2021-09-10T17:14:09Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。