論文の概要: Randomized Quantization for Data Agnostic Representation Learning
- arxiv url: http://arxiv.org/abs/2212.08663v1
- Date: Mon, 19 Dec 2022 18:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:14:59.307061
- Title: Randomized Quantization for Data Agnostic Representation Learning
- Title(参考訳): データ非依存表現学習のためのランダム化量子化
- Authors: Huimin Wu, Chenyang Lei, Xiao Sun, Peng-Shuai Wang, Qifeng Chen,
Kwang-Ting Cheng, Stephen Lin, Zhirong Wu
- Abstract要約: 汎用データ拡張のためのチャネル次元を探索する。
自己教師付きコントラストモデル上での逐次増強と合わせてランダム化量子化を適用する。
このジェネリックアプローチは、視覚タスクにおけるモダリティ固有の拡張と、3Dポイントクラウドとオーディオの最先端結果とを同等に達成する。
- 参考スコア(独自算出の注目度): 95.234003455854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised representation learning follows a paradigm of withholding
some part of the data and tasking the network to predict it from the remaining
part. Towards this end, masking has emerged as a generic and powerful tool
where content is withheld along the sequential dimension, e.g., spatial in
images, temporal in audio, and syntactic in language. In this paper, we explore
the orthogonal channel dimension for generic data augmentation. The data for
each channel is quantized through a non-uniform quantizer, with the quantized
value sampled randomly within randomly sampled quantization bins. From another
perspective, quantization is analogous to channel-wise masking, as it removes
the information within each bin, but preserves the information across bins. We
apply the randomized quantization in conjunction with sequential augmentations
on self-supervised contrastive models. This generic approach achieves results
on par with modality-specific augmentation on vision tasks, and
state-of-the-art results on 3D point clouds as well as on audio. We also
demonstrate this method to be applicable for augmenting intermediate embeddings
in a deep neural network on the comprehensive DABS benchmark which is comprised
of various data modalities. Code is availabel at
http://www.github.com/microsoft/random_quantize.
- Abstract(参考訳): 自己監督型表現学習は、データの一部を保持し、残りの部分から予測するようにネットワークに指示するパラダイムに従う。
この目的に向けて、マスキングは汎用的で強力なツールとして登場し、コンテンツは連続的な次元(例えば、画像の空間、音声の時間的、言語における構文)に沿って保持されない。
本稿では,汎用データ拡張のための直交チャネル次元について検討する。
各チャネルのデータは、ランダムにサンプリングされた量子化ビン内でランダムにサンプリングされた量子化値を持つ非一様量子化器を介して量子化される。
別の観点からは、量子化は各ビン内の情報を削除するが、ビン間で情報を保存するため、チャネル毎のマスキングと類似している。
自己教師付きコントラストモデルに対する逐次増強と合わせてランダム化量子化を適用する。
このジェネリックアプローチは、視覚タスクにおけるモダリティ固有の拡張と、3Dポイントクラウドとオーディオの最先端結果とを同等に達成する。
また,様々なデータモダリティからなる包括的dabsベンチマークを用いて,ディープニューラルネットワークにおける中間埋め込みの強化に適用できることを示す。
コードはhttp://www.github.com/microsoft/random_quantizeで利用可能です。
関連論文リスト
- Robust estimation of the intrinsic dimension of data sets with quantum cognition machine learning [31.347602507204847]
本稿では,量子認知機械学習に基づく新しいデータ表現法を提案し,それを多様体学習に適用する。
我々は各点を量子状態として表現し、点の局所的性質とデータ全体との関係を符号化する。
量子幾何学のアイデアに触発され、量子状態から量子計量を備えた点雲を構築する。
提案手法は,このスペクトルギャップの検出に基づく。
論文 参考訳(メタデータ) (2024-09-19T14:24:35Z) - Scaling and Masking: A New Paradigm of Data Sampling for Image and Video
Quality Assessment [24.545341041444797]
画像とビデオの品質評価は局所的な詳細とグローバルな意味の両方を強調するが、一般的なデータサンプリング手法はそれらを同時にキャッチできない。
本研究では,局所的および大域的コンテンツの両方を通常の入力サイズで圧縮する,よりエレガントなデータサンプリング手法を提案する。
実験により,本手法は,現在の単一ブランチモデルの性能を著しく向上し,余分なモデル複雑性を伴わないマルチブランチモデルに対する競合性能を実現することができることを示した。
論文 参考訳(メタデータ) (2024-01-05T03:12:03Z) - SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network [1.4732811715354455]
SpATr(Spiral Auto-Encoder and Transformer Network)と呼ばれる3次元動作認識のための新しいアプローチを提案する。
スパイラル畳み込みに基づく軽量オートエンコーダを用いて,各3次元メッシュから空間幾何学的特徴を抽出する。
提案手法は,Babel,MoVi,BMLrubの3つの顕著な3次元行動データセットを用いて評価した。
論文 参考訳(メタデータ) (2023-06-30T11:49:00Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Qimera: Data-free Quantization with Synthetic Boundary Supporting
Samples [8.975667614727652]
人工境界支持試料を生成するために重ね合わせの潜伏埋め込みを用いたQimeraを提案する。
実験結果から,Qimeraはデータフリー量子化における各種設定に対して,最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2021-11-04T04:52:50Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Scribble-Supervised Semantic Segmentation by Random Walk on Neural
Representation and Self-Supervision on Neural Eigenspace [10.603823180750446]
本研究の目的は, 補助情報や中間操作を使わずに, ラベルを直接スクリブルすることで, セマンティックセグメンテーションを実現することである。
我々は、ランダムウォークによる神経表現への拡散と、自己スーパービジョンによる神経固有空間への一貫性を課す。
その結果,提案手法の優位性が示され,フルラベルの教師付き手法に匹敵する結果が得られた。
論文 参考訳(メタデータ) (2020-11-11T08:22:25Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。