論文の概要: On the Informativeness of Supervision Signals
- arxiv url: http://arxiv.org/abs/2211.01407v2
- Date: Thu, 22 Jun 2023 19:04:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 14:55:21.078700
- Title: On the Informativeness of Supervision Signals
- Title(参考訳): 監督信号のインフォメーション性について
- Authors: Ilia Sucholutsky and Ruairidh M. Battleday and Katherine M. Collins
and Raja Marjieh and Joshua C. Peterson and Pulkit Singh and Umang Bhatt and
Nori Jacoby and Adrian Weller and Thomas L. Griffiths
- Abstract要約: 我々は情報理論を用いて、多くの一般的な監視信号が表現学習のパフォーマンスにどのように貢献するかを比較する。
我々のフレームワークは、ビッグデータシステムにおいてハードラベルを使用するための理論的正当性を提供するが、よりリッチな監視信号により、数発の学習とアウト・オブ・ディストリビューションの一般化を実現している。
- 参考スコア(独自算出の注目度): 31.418827619510036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised learning typically focuses on learning transferable
representations from training examples annotated by humans. While rich
annotations (like soft labels) carry more information than sparse annotations
(like hard labels), they are also more expensive to collect. For example, while
hard labels only provide information about the closest class an object belongs
to (e.g., "this is a dog"), soft labels provide information about the object's
relationship with multiple classes (e.g., "this is most likely a dog, but it
could also be a wolf or a coyote"). We use information theory to compare how a
number of commonly-used supervision signals contribute to
representation-learning performance, as well as how their capacity is affected
by factors such as the number of labels, classes, dimensions, and noise. Our
framework provides theoretical justification for using hard labels in the
big-data regime, but richer supervision signals for few-shot learning and
out-of-distribution generalization. We validate these results empirically in a
series of experiments with over 1 million crowdsourced image annotations and
conduct a cost-benefit analysis to establish a tradeoff curve that enables
users to optimize the cost of supervising representation learning on their own
datasets.
- Abstract(参考訳): 教師付き学習は通常、人間が注釈を付けたトレーニング例から転送可能な表現を学ぶことに焦点を当てる。
リッチアノテーション(ソフトラベルなど)は(ハードラベルのような)スパースアノテーションよりも多くの情報を持っているが、収集するコストも高い。
例えば、ハードラベルは、オブジェクトが属する最も近いクラスに関する情報のみを提供する(例:「犬である」)が、ソフトラベルは、オブジェクトと複数のクラスとの関係に関する情報を提供する(例:「これは犬である可能性が高いが、オオカミやコヨーテでもある」)。
我々は情報理論を用いて、多くの一般的な監視信号が表現学習のパフォーマンスにどのように寄与するか、また、ラベル数、クラス数、寸法数、ノイズなどの要因によってその能力がどのように影響を受けるかを比較する。
当社のフレームワークは,ビッグデータ環境においてハードラベルを使用するための理論的正当化を提供するが,少ない学習と分散一般化のためのよりリッチな監督信号を提供する。
我々は,100万以上のクラウドソース画像アノテーションを用いた一連の実験において,これらの結果を実証的に検証し,コスト便益分析を行い,ユーザが自身のデータセットで表現学習を監督するコストを最適化できるトレードオフ曲線を確立する。
関連論文リスト
- How many labelers do you have? A closer look at gold-standard labels [10.637125300701795]
我々は、非集約ラベル情報へのアクセスによって、ゴールドスタンダードラベルよりも、トレーニングの適格化がより実現可能であることを示す。
我々は,非アグリゲートラベルが学習性能を改善することを含む,実世界のデータセットの予測を行う。
論文 参考訳(メタデータ) (2022-06-24T02:33:50Z) - Active Learning with Label Comparisons [41.82179028046654]
我々は、$k-1$のアクティブクエリで、$k$ラベルのベストを見つけることができることを示した。
我々の分析の鍵となる要素は、真の分布の「ラベル近傍グラフ」である。
論文 参考訳(メタデータ) (2022-04-10T12:13:46Z) - Investigating Power laws in Deep Representation Learning [4.996066540156903]
本研究では,非ラベルデータセットにおける表現の質を評価するためのフレームワークを提案する。
表現学習に影響を与える3つの重要な属性に対して、電力法則の係数$alpha$を推定する。
特に$alpha$はラベルの知識のない表現から計算可能であり、非ラベル付きデータセットにおける表現の質を評価するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2022-02-11T18:11:32Z) - Data Consistency for Weakly Supervised Learning [15.365232702938677]
機械学習モデルのトレーニングには、大量の人間が注釈付けしたデータを使用する。
本稿では、雑音ラベル、すなわち弱い信号を処理する新しい弱監督アルゴリズムを提案する。
本研究では,テキストと画像の分類作業において,最先端の弱い監督手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-02-08T16:48:19Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Self-Supervised Learning for Fine-Grained Image Classification [0.0]
きめ細かいデータセットは通常、分類プロセスを支援するために、クラスラベルとともにバウンディングボックスアノテーションを提供する。
一方、自己教師付き学習では、自由に利用可能なデータを利用してラベルとして機能する監視信号を生成する。
我々の考えは、モデルが微細な画像クラスの有用な表現を学習できるように、自己スーパービジョンを活用することである。
論文 参考訳(メタデータ) (2021-07-29T14:01:31Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Noisy Labels Can Induce Good Representations [53.47668632785373]
アーキテクチャがノイズラベルによる学習に与える影響について検討する。
ノイズラベルを用いたトレーニングは,モデルが一般化に乏しい場合でも,有用な隠れ表現を誘導できることを示す。
この発見は、騒々しいラベルで訓練されたモデルを改善する簡単な方法につながります。
論文 参考訳(メタデータ) (2020-12-23T18:58:05Z) - Are Fewer Labels Possible for Few-shot Learning? [81.89996465197392]
ごく限られたデータとラベルのため、わずかなショット学習は難しい。
近年のBiT (Big Transfer) 研究は、異なる領域における大規模ラベル付きデータセットの事前トレーニングによって、少数ショット学習が大きな恩恵を受けることを示した。
本稿では,ファインチューニングにおけるクラスタリングと固有サンプルの共進化を活かし,ショット学習の削減を図る。
論文 参考訳(メタデータ) (2020-12-10T18:59:29Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。