論文の概要: Leveraging Perceptual Scores for Dataset Pruning in Computer Vision Tasks
- arxiv url: http://arxiv.org/abs/2408.07243v1
- Date: Wed, 14 Aug 2024 00:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:35:46.739880
- Title: Leveraging Perceptual Scores for Dataset Pruning in Computer Vision Tasks
- Title(参考訳): コンピュータビジョンタスクにおけるデータセットプルーニングのための知覚スコアの活用
- Authors: Raghavendra Singh,
- Abstract要約: 画像分類とセマンティックセグメンテーションタスクにおいて,コアセット選択に使用する画像のスコアを提案する。
スコアは画像のエントロピーであり、圧縮されたバージョンのビット単位のピクセルによって近似される。
この単純なスコアは、特にセマンティックセグメンテーションタスクにおいて良い結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we propose a score of an image to use for coreset selection in image classification and semantic segmentation tasks. The score is the entropy of an image as approximated by the bits-per-pixel of its compressed version. Thus the score is intrinsic to an image and does not require supervision or training. It is very simple to compute and readily available as all images are stored in a compressed format. The motivation behind our choice of score is that most other scores proposed in literature are expensive to compute. More importantly, we want a score that captures the perceptual complexity of an image. Entropy is one such measure, images with clutter tend to have a higher entropy. However sampling only low entropy iconic images, for example, leads to biased learning and an overall decrease in test performance with current deep learning models. To mitigate the bias we use a graph based method that increases the spatial diversity of the selected samples. We show that this simple score yields good results, particularly for semantic segmentation tasks.
- Abstract(参考訳): 本稿では,画像分類とセマンティックセグメンテーションタスクにおいて,コアセット選択に使用する画像のスコアを提案する。
スコアは画像のエントロピーであり、圧縮されたバージョンのビット単位のピクセルによって近似される。
したがって、スコアは画像に固有のものであり、監督や訓練を必要としない。
すべての画像が圧縮されたフォーマットに格納されているため、計算は非常に簡単で、容易に利用できる。
私たちのスコアの選択の背後にある動機は、文献で提案されている他のほとんどのスコアは計算に費用がかかることです。
さらに重要なのは、画像の知覚的複雑さを捉えるスコアが欲しいということです。
エントロピーはそのような尺度の一つであり、クラッタを持つ画像はより高いエントロピーを持つ傾向がある。
しかし、例えば、低エントロピーのアイコン画像のみをサンプリングすると、バイアス学習や、現在のディープラーニングモデルによるテスト性能の全体的な低下につながる。
バイアスを軽減するために、選択したサンプルの空間的多様性を高めるグラフベースの手法を用いる。
この単純なスコアは、特にセマンティックセグメンテーションタスクにおいて良い結果をもたらすことを示す。
関連論文リスト
- Beyond MOS: Subjective Image Quality Score Preprocessing Method Based on Perceptual Similarity [2.290956583394892]
ITU-R BT.500、ITU-T P.910、ITU-T P.913は、当初の世論点をクリアするために標準化されている。
PSPは画像間の知覚的類似性を利用して、より注釈の少ないシナリオにおける主観的バイアスを軽減する。
論文 参考訳(メタデータ) (2024-04-30T16:01:14Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Which Pixel to Annotate: a Label-Efficient Nuclei Segmentation Framework [70.18084425770091]
ディープニューラルネットワークは、H&E染色病理像の核インスタンスセグメンテーションに広く応用されている。
通常、類似したパターンと冗長なパターンを含む核画像のデータセットに全てのピクセルをラベル付けするのは非効率で不要である。
そこで本研究では,アノテートするイメージパッチを数個だけ選択し,選択したサンプルからトレーニングセットを増強し,半教師付きで核分割を実現する,新しいフル核分割フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-20T14:53:26Z) - Knowing What to Label for Few Shot Microscopy Image Cell Segmentation [15.510258960276083]
顕微鏡画像セルセグメンテーションでは、異なる種類の顕微鏡画像を含む、ソースデータに基づいてディープニューラルネットワークを訓練することが一般的である。
注釈付きトレーニング対象画像のランダムな選択は、効果的な微調整プロセスを可能にしないのではないか、と我々は主張する。
提案手法では, 新たなスコアリング機能を用いて, 意図しない対象画像の探索を行う。
論文 参考訳(メタデータ) (2022-11-18T14:03:49Z) - Learning to Annotate Part Segmentation with Gradient Matching [58.100715754135685]
本稿では,事前学習したGANを用いて,高品質な画像を生成することで,半教師付き部分分割タスクに対処することに焦点を当てる。
特に、アノテータ学習を学習から学習までの問題として定式化する。
提案手法は,実画像,生成された画像,さらには解析的に描画された画像を含む,幅広いラベル付き画像からアノテータを学習可能であることを示す。
論文 参考訳(メタデータ) (2022-11-06T01:29:22Z) - Few-Shot Learning with Part Discovery and Augmentation from Unlabeled
Images [79.34600869202373]
帰納的バイアスは、ラベルなし画像の平坦な集合から学習でき、目に見えるクラスと目に見えないクラスの間で伝達可能な表現としてインスタンス化されることを示す。
具体的には、トランスファー可能な表現を学習するための、新しいパートベース自己教師型表現学習手法を提案する。
我々の手法は印象的な結果をもたらし、それまでの最高の教師なし手法を7.74%、9.24%上回った。
論文 参考訳(メタデータ) (2021-05-25T12:22:11Z) - Sample selection for efficient image annotation [14.695979686066066]
監視対象検出は、人間レベルのパフォーマンスを達成する多くのベンチマークデータセットで成功したことが証明されている。
ラベルなしデータセットから最も有益な画像をサンプリングする効率的な画像選択手法を提案する。
本手法は,完全な手動ラベリング設定と比較して,手動アノテーション作業の最大80%を削減でき,ランダムサンプリングよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-05-10T21:25:10Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。