論文の概要: Concept Drift and Long-Tailed Distribution in Fine-Grained Visual Categorization: Benchmark and Method
- arxiv url: http://arxiv.org/abs/2306.02346v2
- Date: Mon, 11 Nov 2024 12:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 17:14:36.948206
- Title: Concept Drift and Long-Tailed Distribution in Fine-Grained Visual Categorization: Benchmark and Method
- Title(参考訳): 細粒度視覚カテゴリー化におけるコンセプトドリフトと長めの分布:ベンチマークと方法
- Authors: Shuo Ye, Shiming Chen, Ruxin Wang, Tianxu Wu, Jiamiao Xu, Salman Khan, Fahad Shahbaz Khan, Ling Shao,
- Abstract要約: コンセプションドリフトとLong-Tailed Distributionデータセットを提案する。
インスタンスの特徴は時間によって異なり、長い尾の分布を示す傾向がある。
本稿ではCDLTに関連する学習課題に対処する機能組換えフレームワークを提案する。
- 参考スコア(独自算出の注目度): 84.68818879525568
- License:
- Abstract: Data is the foundation for the development of computer vision, and the establishment of datasets plays an important role in advancing the techniques of fine-grained visual categorization~(FGVC). In the existing FGVC datasets used in computer vision, it is generally assumed that each collected instance has fixed characteristics and the distribution of different categories is relatively balanced. In contrast, the real world scenario reveals the fact that the characteristics of instances tend to vary with time and exhibit a long-tailed distribution. Hence, the collected datasets may mislead the optimization of the fine-grained classifiers, resulting in unpleasant performance in real applications. Starting from the real-world conditions and to promote the practical progress of fine-grained visual categorization, we present a Concept Drift and Long-Tailed Distribution dataset. Specifically, the dataset is collected by gathering 11195 images of 250 instances in different species for 47 consecutive months in their natural contexts. The collection process involves dozens of crowd workers for photographing and domain experts for labeling. Meanwhile, we propose a feature recombination framework to address the learning challenges associated with CDLT. Experimental results validate the efficacy of our method while also highlighting the limitations of popular large vision-language models (e.g., CLIP) in the context of long-tailed distributions. This emphasizes the significance of CDLT as a benchmark for investigating these challenges.
- Abstract(参考訳): データはコンピュータビジョンの発展の基盤であり、データセットの確立はきめ細かい視覚分類技術(FGVC)の進展に重要な役割を果たしている。
コンピュータビジョンで使用される既存のFGVCデータセットでは、各収集されたインスタンスは固定特性を持ち、異なるカテゴリの分布は比較的バランスが取れていると一般的に仮定される。
対照的に、実世界のシナリオは、インスタンスの特徴が時間によって変化し、長い尾の分布を示す傾向があるという事実を明らかにしている。
したがって、収集されたデータセットは、粒度の細かい分類器の最適化を誤解させ、実際のアプリケーションでは不愉快なパフォーマンスをもたらす可能性がある。
実世界の状況から始まり、細粒度の視覚分類の実践的進歩を促進するために、コンセプションドリフトとLong-Tailed Distributionデータセットを提案する。
具体的には、データセットは、異なる種で47ヶ月連続して、250のインスタンスの11195の画像を収集することで収集される。
収集プロセスには、写真撮影のための数十人の群衆労働者と、ラベル付けのためのドメインエキスパートが含まれる。
一方,CDLTに関連する学習課題に対処する機能組換えフレームワークを提案する。
提案手法の有効性を実験的に検証するとともに,長期分布の文脈における一般的な大規模視覚言語モデル(例えばCLIP)の限界を強調した。
このことは、これらの課題を調査するためのベンチマークとしてCDLTの重要性を強調している。
関連論文リスト
- Dataset Awareness is not Enough: Implementing Sample-level Tail Encouragement in Long-tailed Self-supervised Learning [16.110763554788445]
擬似ラベル情報を利用して動的温度と再重み付け戦略を推進し、自己教師付き長期学習に擬似ラベルを導入する。
我々は,温度パラメータにおける量認識の欠如を分析し,この不足を補うために再重み付けを用いて,サンプルレベルで最適なトレーニングパターンを実現する。
論文 参考訳(メタデータ) (2024-10-30T10:25:22Z) - Semi-Supervised Fine-Tuning of Vision Foundation Models with Content-Style Decomposition [4.192370959537781]
本稿では,ラベル付きデータに制限のある下流タスクにおいて,事前学習した基礎モデルの性能向上を目的とした半教師付き微調整手法を提案する。
我々は、MNIST、その拡張されたバリエーション、CIFAR-10、SVHN、GalaxyMNISTを含む複数のデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-10-02T22:36:12Z) - Visual Data Diagnosis and Debiasing with Concept Graphs [50.84781894621378]
視覚データセットにおける概念共起バイアスの診断と緩和のためのフレームワークであるConBiasを提案する。
このような不均衡を緩和し,下流タスクの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:59:01Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Generalized Representations Learning for Time Series Classification [28.230863650758447]
時間的複雑性は時系列分類における未知の潜在分布に起因していると主張する。
本研究では,ジェスチャー認識,音声コマンド認識,ウェアラブルストレスと感情検出,センサによる人間の活動認識に関する実験を行う。
論文 参考訳(メタデータ) (2022-09-15T03:36:31Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Input-Output Balanced Framework for Long-tailed LiDAR Semantic
Segmentation [12.639524717464509]
本稿では,ロングテール分布の問題を扱うための入出力バランスフレームワークを提案する。
入力空間に対して、メッシュモデルからこれらのテールインスタンスを合成し、LiDARスキャンの位置と密度分布をうまくシミュレートする。
出力空間に対して, 形状と実例量に基づいて, 異なるカテゴリをグループ化するマルチヘッドブロックを提案する。
論文 参考訳(メタデータ) (2021-03-26T05:42:11Z) - Domain Adaptive Transfer Learning on Visual Attention Aware Data
Augmentation for Fine-grained Visual Categorization [3.5788754401889014]
ベースネットワークモデルに基づく微調整によるドメイン適応型知識伝達を行う。
我々は、注意認識データ拡張技術を用いて、アキュラシーの競争力の向上を示す。
提案手法は,複数の細粒度分類データセットにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2020-10-06T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。