論文の概要: SimEx: Express Prediction of Inter-dataset Similarity by a Fleet of
Autoencoders
- arxiv url: http://arxiv.org/abs/2001.04893v1
- Date: Tue, 14 Jan 2020 16:52:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 12:17:17.763243
- Title: SimEx: Express Prediction of Inter-dataset Similarity by a Fleet of
Autoencoders
- Title(参考訳): SimEx: オートエンコーダのフリートによるデータセット間類似性の高速予測
- Authors: Inseok Hwang, Jinho Lee, Frank Liu, Minsik Cho
- Abstract要約: データの集合間の類似性を知ることは、効果的なモデルのトレーニングに多くの肯定的な意味を持つ。
事前訓練されたオートエンコーダのセットを用いて,データセット間の類似性を早期に予測する手法であるSimExを提案する。
本手法は,共通類似度推定手法と比較して,データセット間類似度予測において10倍以上の高速化を実現する。
- 参考スコア(独自算出の注目度): 13.55607978839719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowing the similarity between sets of data has a number of positive
implications in training an effective model, such as assisting an informed
selection out of known datasets favorable to model transfer or data
augmentation problems with an unknown dataset. Common practices to estimate the
similarity between data include comparing in the original sample space,
comparing in the embedding space from a model performing a certain task, or
fine-tuning a pretrained model with different datasets and evaluating the
performance changes therefrom. However, these practices would suffer from
shallow comparisons, task-specific biases, or extensive time and computations
required to perform comparisons. We present SimEx, a new method for early
prediction of inter-dataset similarity using a set of pretrained autoencoders
each of which is dedicated to reconstructing a specific part of known data.
Specifically, our method takes unknown data samples as input to those
pretrained autoencoders, and evaluate the difference between the reconstructed
output samples against their original input samples. Our intuition is that, the
more similarity exists between the unknown data samples and the part of known
data that an autoencoder was trained with, the better chances there could be
that this autoencoder makes use of its trained knowledge, reconstructing output
samples closer to the originals. We demonstrate that our method achieves more
than 10x speed-up in predicting inter-dataset similarity compared to common
similarity-estimating practices. We also demonstrate that the inter-dataset
similarity estimated by our method is well-correlated with common practices and
outperforms the baselines approaches of comparing at sample- or
embedding-spaces, without newly training anything at the comparison time.
- Abstract(参考訳): データのセット間の類似性を知ることは、モデル転送に好適な既知のデータセットのインフォームド選択の支援や、未知のデータセットによるデータ拡張問題など、効果的なモデルのトレーニングにおいて多くのポジティブな意味を持つ。
データ間の類似性を見積もる一般的なプラクティスとしては、元のサンプル空間の比較、特定のタスクを実行するモデルからの埋め込み空間の比較、異なるデータセットで事前トレーニングされたモデルを微調整、パフォーマンス変化の評価などがある。
しかしながら、これらのプラクティスは、浅い比較、タスク固有のバイアス、あるいは比較を行うのに必要な広範な時間と計算に悩まされる。
我々は,事前訓練されたオートエンコーダのセットを用いて,データセット間の類似性を早期に予測する手法であるSimExを提案する。
具体的には,事前学習したオートエンコーダに対して未知のデータサンプルを入力とし,再構成した出力サンプルと元の入力サンプルとの差を評価する。
私たちの直感では、未知のデータサンプルと、オートエンコーダがトレーニングした既知のデータの一部との間には、より多くの類似性が存在します。
本手法は,一般的な類似度推定手法と比較して,データセット間類似度予測において10倍以上の高速化を実現する。
また,本手法により推定されるデータセット間の類似性は,一般的なプラクティスとよく相関し,サンプル空間や埋め込み空間で比較するベースラインアプローチよりも優れていることを示した。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Data Similarity is Not Enough to Explain Language Model Performance [6.364065652816667]
類似度は言語モデルの性能と相関する。
類似度指標は正確性や相互に相関しない。
これは、事前学習データと下流タスクの関係が、しばしば想定されるよりも複雑であることを示している。
論文 参考訳(メタデータ) (2023-11-15T14:48:08Z) - Sample and Predict Your Latent: Modality-free Sequential Disentanglement
via Contrastive Estimation [2.7759072740347017]
外部信号のないコントラスト推定に基づく自己教師付きシーケンシャル・アンタングルメント・フレームワークを提案する。
実際に,データのセマンティックに類似し,異種なビューに対して,統一的で効率的かつ容易にサンプリングできる手法を提案する。
提案手法は,既存の手法と比較して最先端の結果を示す。
論文 参考訳(メタデータ) (2023-05-25T10:50:30Z) - Multi-Task Self-Supervised Time-Series Representation Learning [3.31490164885582]
時系列表現学習は、時間的ダイナミクスとスパースラベルを持つデータから表現を抽出することができる。
自己教師型タスクの利点を組み合わせた時系列表現学習手法を提案する。
本稿では,時系列分類,予測,異常検出という3つのダウンストリームタスクの枠組みについて検討する。
論文 参考訳(メタデータ) (2023-03-02T07:44:06Z) - Dataset Condensation with Latent Space Knowledge Factorization and
Sharing [73.31614936678571]
与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。
データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。
提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
論文 参考訳(メタデータ) (2022-08-21T18:14:08Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Approximate Bayesian Computation with Path Signatures [0.5156484100374059]
本稿では,時系列データ間の距離を構築するための自然候補としてパスシグネチャを導入する。
実験により, 従来の時系列モデルよりも高精度なベイズ後方推定が可能であることが示された。
論文 参考訳(メタデータ) (2021-06-23T17:25:43Z) - Learning from Incomplete Features by Simultaneous Training of Neural
Networks and Sparse Coding [24.3769047873156]
本稿では,不完全な特徴を持つデータセット上で分類器を訓練する問題に対処する。
私たちは、各データインスタンスで異なる機能のサブセット(ランダムまたは構造化)が利用できると仮定します。
新しい教師付き学習法が開発され、サンプルあたりの機能のサブセットのみを使用して、一般的な分類器を訓練する。
論文 参考訳(メタデータ) (2020-11-28T02:20:39Z) - Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。
両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文 参考訳(メタデータ) (2020-07-23T14:00:34Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。