Fugu-MT 論文翻訳(概要): Learning from Imperfect Text Guidance: Robust Long-Tail Visual Recognition with High-Noise Label

論文の概要: Learning from Imperfect Text Guidance: Robust Long-Tail Visual Recognition with High-Noise Label

arxiv url: http://arxiv.org/abs/2604.23125v1
Date: Sat, 25 Apr 2026 03:40:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:07.168808
Title: Learning from Imperfect Text Guidance: Robust Long-Tail Visual Recognition with High-Noise Label
Title（参考訳）: 不完全なテキストガイダンスから学ぶ:高雑音ラベルを用いたロバストなロングテール視覚認識
Authors: Mengke Li, Haiquan Ling, Yiqun Zhang, Yang Lu, Hui Huang,
Abstract要約: 本稿では,ラベルからの補助的なテキスト情報を用いて,雑音データ中のラベル画像の不整合に対処することを提案する。我々は、事前学習された視覚言語モデルにおける本質的なクロスモーダルアライメントを活用して、ラベルと画像の不整合を補正する。実験は、合成および実世界のデータセット間でのWTSの優れた性能を示す。
参考スコア（独自算出の注目度）: 21.882779398481514
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Real-world data often exhibit long-tailed distributions with numerous noisy labels, substantially degrading the performance of deep models. While prior research has made progress in addressing this combined challenge, it overlooks the severe label-image mismatch inherent to high-noise settings, thereby limiting their effectiveness. Given that observed labels, though mismatched with images, still retain category information, we propose employing auxiliary text information from labels to address label-image inconsistencies in long-tailed noisy data. Specifically, we leverage the intrinsic cross-modal alignment in pre-trained visual-language models to correct the label-image inconsistencies. This supervisory signal, referred to as Weak Teacher Supervision (WTS), is unaffected by label noise and data distribution biases, albeit exhibits limited accuracy. Therefore, the activation of WTS is determined by evaluating the discrepancy between text-predicted labels and observed labels. Extensive experiments demonstrate the superior performance of WTS across synthetic and real-world datasets, particularly under high-noise conditions. The source code is available at https://anonymous.4open.science/r/WTS-0F3C.
Abstract（参考訳）: 実世界のデータは、多くのノイズラベルを持つ長い尾の分布を示し、ディープモデルの性能を著しく低下させる。以前の研究では、この組み合わせの課題に対処する研究が進んでいるが、ハイノイズ設定に固有の重度のラベルと画像のミスマッチを見落とし、その効果を制限している。観測されたラベルは画像と一致しないものの、カテゴリ情報を保持しているため、長い尾の雑音データにラベルと画像の不整合に対処するためにラベルからの補助的なテキスト情報を活用することを提案する。具体的には、事前学習された視覚言語モデルにおける本質的なクロスモーダルアライメントを活用して、ラベルと画像の不整合を補正する。この監視信号は、Wak Teacher Supervision (WTS)と呼ばれ、ラベルノイズやデータ分散バイアスの影響を受けないが、精度は限られている。したがって、WTSの活性化は、テキスト予測ラベルと観測ラベルとの相違を評価することによって決定される。大規模な実験は、特に高雑音条件下で、合成データセットと実世界のデータセット間でのWTSの優れた性能を示す。ソースコードはhttps://anonymous.4open.science/r/WTS-0F3Cで公開されている。

関連論文リスト

When VLMs Meet Image Classification: Test Sets Renovation via Missing Label Identification [11.49089004019603]
本稿では,画像分類テストセットにおけるノイズラベルと欠落ラベルの両方に対処するため,REVEALという包括的フレームワークを提案する。 REVEALは潜在的なノイズのあるラベルや欠落を検出し、様々な方法から予測を集約し、信頼性インフォームド予測とコンセンサスに基づくフィルタリングによってラベルの精度を向上する。提案手法は,公開データセットから欠落したラベルを効果的に明らかにし,ソフトラベルによる結果に可能性が示唆された。
論文参考訳（メタデータ） (2025-05-22T02:47:36Z)
Learning under Label Noise through Few-Shot Human-in-the-Loop Refinement [37.4838454216137]
FHLR(Few-Shot Human-in-the-Loop Refinement)は、雑音ラベル学習のための新しいソリューションである。雑音ラベルから学習するとFHLRの性能が著しく向上することを示す。我々の研究は、ハイテイクなヘルスセンシングベンチマークでより良い一般化を達成するだけでなく、ノイズが一般的に使われているモデルにどのように影響するかにも光を当てています。
論文参考訳（メタデータ） (2024-01-25T11:43:35Z)
ERASE: Error-Resilient Representation Learning on Graphs for Label Noise Tolerance [53.73316938815873]
本稿では, ERASE (Error-Resilient representation learning on graphs for lAbel noiSe tolerancE) という手法を提案する。 ERASEは、プロトタイプの擬似ラベルとプロパゲーションされた識別ラベルを組み合わせて、表現をエラーレジリエンスで更新する。提案手法は, 広い雑音レベルにおいて, 複数のベースラインをクリアマージンで上回り, 高いスケーラビリティを享受できる。
論文参考訳（メタデータ） (2023-12-13T17:59:07Z)
Label Noise-Resistant Mean Teaching for Weakly Supervised Fake News Detection [93.6222609806278]
本稿では,弱い教師付き偽ニュース検出のためのラベル雑音耐性平均教育手法 (LNMT) を提案する。 LNMTは、未ラベルのニュースとユーザのフィードバックコメントを活用して、トレーニングデータの量を増やす。 LNMTはラベル伝搬とラベル信頼性推定を備えた平均教師フレームワークを確立する。
論文参考訳（メタデータ） (2022-06-10T16:01:58Z)
SELC: Self-Ensemble Label Correction Improves Learning with Noisy Labels [4.876988315151037]
ディープニューラルネットワークはノイズラベルを過度に適合させる傾向があり、結果として一般化性能は低下する。ノイズラベルを段階的に補正し,モデルを改良する自己アンサンブルラベル補正法(SELC)を提案する。 SELCは、クラス条件、インスタンス依存、および実世界のラベルノイズの存在において、より有望で安定した結果を得る。
論文参考訳（メタデータ） (2022-05-02T18:42:47Z)
S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文参考訳（メタデータ） (2021-11-22T15:49:20Z)
Learning to Aggregate and Refine Noisy Labels for Visual Sentiment Analysis [69.48582264712854]
本研究では,頑健な視覚的感情分析を行うための頑健な学習手法を提案する。本手法は,トレーニング中にノイズラベルを集約・フィルタリングするために外部メモリに依存している。公開データセットを用いたラベルノイズを用いた視覚的感情分析のベンチマークを構築した。
論文参考訳（メタデータ） (2021-09-15T18:18:28Z)
Beyond Categorical Label Representations for Image Classification [17.538038034601005]
データラベルの表現方法を選択することで、トレーニングされたモデルの品質に大きな影響を与えることが分かっています。実験の結果,高次元高エントロピーラベルはテキスト(カテゴリー)ラベルに匹敵する精度が得られることがわかった。これらの結果はラベル表現が以前考えられていたよりも重要な役割を担っていることを示唆している。
論文参考訳（メタデータ） (2021-04-06T01:31:04Z)
Attention-Aware Noisy Label Learning for Image Classification [97.26664962498887]
大規模ラベル付きサンプルで学習した深層畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおいて顕著な進歩を遂げている。大量のラベル付きビジュアルデータを取得する最も安価な方法は、Flickrのようなユーザーが提供するラベルでウェブサイトからクロールすることである。本稿では,潜在的なラベルノイズのあるデータセットに基づいて学習したネットワークの識別能力を向上させるために,注目に敏感なラベル学習手法を提案する。
論文参考訳（メタデータ） (2020-09-30T15:45:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。