論文の概要: Train and You'll Miss It: Interactive Model Iteration with Weak
Supervision and Pre-Trained Embeddings
- arxiv url: http://arxiv.org/abs/2006.15168v1
- Date: Fri, 26 Jun 2020 18:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 21:13:33.941416
- Title: Train and You'll Miss It: Interactive Model Iteration with Weak
Supervision and Pre-Trained Embeddings
- Title(参考訳): トレインと見逃す - 弱い監督と事前学習された埋め込みを備えたインタラクティブなモデルイテレーション
- Authors: Mayee F. Chen, Daniel Y. Fu, Frederic Sala, Sen Wu, Ravi Teja
Mullapudi, Fait Poms, Kayvon Fatahalian, Christopher R\'e
- Abstract要約: 私たちの目標は、機械学習システムをインタラクティブにトレーニングできるようにすることです。
これは、大量の手書きデータなしで、よく動作し、迅速にトレーニングするモデルを必要とする。
我々は、手書きデータの代わりにノイズの多い信号源でモデルを訓練することができる、弱い監督(WS)から一歩前進する。
- 参考スコア(独自算出の注目度): 28.20013356310693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our goal is to enable machine learning systems to be trained interactively.
This requires models that perform well and train quickly, without large amounts
of hand-labeled data. We take a step forward in this direction by borrowing
from weak supervision (WS), wherein models can be trained with noisy sources of
signal instead of hand-labeled data. But WS relies on training downstream deep
networks to extrapolate to unseen data points, which can take hours or days.
Pre-trained embeddings can remove this requirement. We do not use the
embeddings as features as in transfer learning (TL), which requires fine-tuning
for high performance, but instead use them to define a distance function on the
data and extend WS source votes to nearby points. Theoretically, we provide a
series of results studying how performance scales with changes in source
coverage, source accuracy, and the Lipschitzness of label distributions in the
embedding space, and compare this rate to standard WS without extension and TL
without fine-tuning. On six benchmark NLP and video tasks, our method
outperforms WS without extension by 4.1 points, TL without fine-tuning by 12.8
points, and traditionally-supervised deep networks by 13.1 points, and comes
within 0.7 points of state-of-the-art weakly-supervised deep networks-all while
training in less than half a second.
- Abstract(参考訳): 私たちの目標は、機械学習システムをインタラクティブにトレーニングできるようにすることです。
これは、大量の手書きデータなしで、よく動作し、迅速にトレーニングするモデルを必要とする。
我々は、弱い監督(WS)から借用して、手書きデータの代わりにノイズの多い信号源でモデルを訓練することで、この方向に一歩前進する。
しかしWSは、ダウンストリームのディープネットワークをトレーニングして、見当たらないデータポイントを外挿し、何時間も何日もかかる可能性がある。
事前トレーニングされた埋め込みは、この要件を取り除くことができる。
組み込みを転送学習(tl)のような機能として使用せず、ハイパフォーマンスには微調整が必要で、代わりにデータの距離関数を定義し、ws source voteを近くのポイントに拡張するために使用します。
理論的には、ソースカバレッジ、ソース精度、埋め込み空間におけるラベル分布のリプシッツ性の変化によってパフォーマンスがどのようにスケールするかを調査し、このレートを拡張なし標準wsと、微調整なしtlと比較する。
6つのベンチマークNLPとビデオタスクにおいて、当社の手法はWSを4.1ポイント、TLを12.8ポイント、従来は13.1ポイント、最先端の弱教師付きディープネットワークの0.7ポイント以内で、トレーニングを半秒未満で行う。
関連論文リスト
- Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - AD-PT: Autonomous Driving Pre-Training with Large-scale Point Cloud
Dataset [25.935496432142976]
知覚モデルが大規模なクラウドデータセットから学ぶことは、Autonomous Driving (AD)コミュニティの長期的なビジョンである。
我々は、ポイントクラウド事前トレーニングタスクを半教師付き問題として定式化し、少数のラベル付きおよび大規模ラベルなしのポイントクラウドデータを活用する。
我々は、異なるベースラインモデルの下で、nuScenesやKITTIを含む一連の下流認識ベンチマークにおいて、大幅な性能向上を達成する。
論文 参考訳(メタデータ) (2023-06-01T12:32:52Z) - Convolutional Neural Networks for the classification of glitches in
gravitational-wave data streams [52.77024349608834]
我々は、高度LIGO検出器のデータから過渡ノイズ信号(グリッチ)と重力波を分類する。
どちらも、Gravity Spyデータセットを使用して、スクラッチからトレーニングされた、教師付き学習アプローチのモデルを使用します。
また、擬似ラベルの自動生成による事前学習モデルの自己教師型アプローチについても検討する。
論文 参考訳(メタデータ) (2023-03-24T11:12:37Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - CaSP: Class-agnostic Semi-Supervised Pretraining for Detection and
Segmentation [60.28924281991539]
本稿では,タスク固有性バランスを向上するために,クラス非依存型半教師付き事前学習(CaSP)フレームワークを提案する。
我々は3.6Mの未ラベルデータを用いて、ImageNetで規定されたオブジェクト検出のベースラインよりも4.7%の顕著なパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2021-12-09T14:54:59Z) - Don't Wait, Just Weight: Improving Unsupervised Representations by
Learning Goal-Driven Instance Weights [92.16372657233394]
自己教師付き学習技術は、役に立たないデータから有用な表現を学習することで、パフォーマンスを向上させることができる。
ベイジアンのインスタンスの重み付けを学習することで、下流の分類精度を向上させることができることを示す。
本研究では,STL-10 と Visual Decathlon の自己教師型回転予測タスクを用いて,BetaDataWeighter の評価を行った。
論文 参考訳(メタデータ) (2020-06-22T15:59:32Z) - Learning across label confidence distributions using Filtered Transfer
Learning [0.44040106718326594]
本稿では,大きな可変信頼度データセットを持つノイズの多いデータシステムにおいて,予測能力を向上させるための伝達学習手法を提案する。
本稿では、複数の階層のデータ信頼度を個別のタスクとして定義する、FTL(Filted Transfer Learning)と呼ばれるディープニューラルネットワーク手法を提案する。
FTLを用いてラベル信頼度分布を段階的に学習すると、単一の信頼範囲でトレーニングされたディープニューラルネットワークモデルよりも高いパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2020-06-03T21:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。