論文の概要: Out-of-Manifold Regularization in Contextual Embedding Space for Text
Classification
- arxiv url: http://arxiv.org/abs/2105.06750v1
- Date: Fri, 14 May 2021 10:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:54:50.921406
- Title: Out-of-Manifold Regularization in Contextual Embedding Space for Text
Classification
- Title(参考訳): テキスト分類のための文脈埋め込み空間の外部正規化
- Authors: Seonghyeon Lee, Dongha Lee and Hwanjo Yu
- Abstract要約: 空間の残りの部分を見つけ、正規化するための新しいアプローチを提案します。
実際に観察された単語から得られた2つの埋め込みに基づいて, アウトオブマニフォールド埋め込みを合成する。
判別器は、入力埋め込みがマニホールド内に位置するかどうかを検出するように訓練され、同時に、ジェネレーターは、容易にマニホールド外として識別できる新しい埋め込みを生成するように最適化される。
- 参考スコア(独自算出の注目度): 22.931314501371805
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent studies on neural networks with pre-trained weights (i.e., BERT) have
mainly focused on a low-dimensional subspace, where the embedding vectors
computed from input words (or their contexts) are located. In this work, we
propose a new approach to finding and regularizing the remainder of the space,
referred to as out-of-manifold, which cannot be accessed through the words.
Specifically, we synthesize the out-of-manifold embeddings based on two
embeddings obtained from actually-observed words, to utilize them for
fine-tuning the network. A discriminator is trained to detect whether an input
embedding is located inside the manifold or not, and simultaneously, a
generator is optimized to produce new embeddings that can be easily identified
as out-of-manifold by the discriminator. These two modules successfully
collaborate in a unified and end-to-end manner for regularizing the
out-of-manifold. Our extensive evaluation on various text classification
benchmarks demonstrates the effectiveness of our approach, as well as its good
compatibility with existing data augmentation techniques which aim to enhance
the manifold.
- Abstract(参考訳): トレーニング済みの重みを持つニューラルネットワーク(BERT)に関する最近の研究は、入力語(またはそれらの文脈)から計算された埋め込みベクトルが位置する低次元の部分空間に主に焦点を当てている。
本研究では,単語を通してアクセスできない「アウト・オブ・マニフォールド(out-of-manifold)」と呼ばれる空間の残りの部分の探索と規則化のための新しいアプローチを提案する。
具体的には,実際に観測された単語から得られた2つの埋め込みに基づいて,ネットワークの微調整に利用する。
判別器は、入力埋め込みが多様体内にあるか否かを検出するように訓練され、同時に、ジェネレータは、判別器によって容易に外形として識別できる新しい埋め込みを生成するように最適化される。
これら2つのモジュールは、統一されたエンドツーエンドの方法で協調して、アウトオブマニフォールドを定式化することに成功した。
各種テキスト分類ベンチマークの広範な評価は,本手法の有効性と,その拡張を目的とした既存のデータ拡張手法との整合性を示すものである。
関連論文リスト
- Local Topology Measures of Contextual Language Model Latent Spaces With Applications to Dialogue Term Extraction [4.887047578768969]
本稿では,文脈言語モデルの潜在空間の局所位相の複雑性尺度を導入する。
我々の研究は、単語埋め込みの多様体仮説を探求する一連の研究を継続している。
論文 参考訳(メタデータ) (2024-08-07T11:44:32Z) - Transcending Forgery Specificity with Latent Space Augmentation for Generalizable Deepfake Detection [57.646582245834324]
LSDAと呼ばれる簡易で効果的なディープフェイク検出器を提案する。
より多様な偽の表現は、より一般化可能な決定境界を学べるべきである。
提案手法は驚くほど有効であり, 広く使用されている複数のベンチマークで最先端の検出器を超越することを示す。
論文 参考訳(メタデータ) (2023-11-19T09:41:10Z) - Understanding Imbalanced Semantic Segmentation Through Neural Collapse [81.89121711426951]
セマンティックセグメンテーションは自然に文脈的相関とクラス間の不均衡分布をもたらすことを示す。
機能中心にレギュレータを導入し、ネットワークが魅力ある構造に近い機能を学ぶことを奨励する。
我々の手法は、ScanNet200テストリーダーボードで1位にランクインし、新しい記録を樹立する。
論文 参考訳(メタデータ) (2023-01-03T13:51:51Z) - Learning Classifiers of Prototypes and Reciprocal Points for Universal
Domain Adaptation [79.62038105814658]
Universal Domainは、ドメインシフトとカテゴリシフトという2つのシフトを処理して、データセット間で知識を転送することを目的としている。
主な課題は、既知のクラス知識の分布をソースからターゲットに適応させながら、未知のターゲットサンプルを正しく識別することである。
既存のほとんどの手法は、まずターゲットが適応した既知の知識を訓練し、次に未知のターゲットサンプルを識別するために単一のしきい値に依存することでこの問題に対処する。
論文 参考訳(メタデータ) (2022-12-16T09:01:57Z) - Task-Specific Embeddings for Ante-Hoc Explainable Text Classification [6.671252951387647]
テキストのタスク固有の埋め込みを学習する学習目標を提案する。
提案する目的は,同一のクラスラベルを共有するすべてのテキストが近接しているように埋め込みを学習することである。
本研究は, 総合的な分類精度において, アンテホックな説明可能性と漸進的な学習の利点が無コストで得られることを示す広範囲な実験である。
論文 参考訳(メタデータ) (2022-11-30T19:56:25Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - Cross-Lingual BERT Contextual Embedding Space Mapping with Isotropic and
Isometric Conditions [7.615096161060399]
並列コーパスを利用した文脈認識・辞書フリーマッピング手法について検討する。
本研究は, 正規化文脈埋め込み空間における等方性, 等方性, 等方性の間の密接な関係を解明するものである。
論文 参考訳(メタデータ) (2021-07-19T22:57:36Z) - Unsupervised Sentence-embeddings by Manifold Approximation and
Projection [3.04585143845864]
本研究では, 文を固定次元多様体に投影することにより, 文埋め込みを教師なしで生成する手法を提案する。
我々は,EMAP(Embedddings by Manifold Approximation and Projection)と呼ばれるアプローチを,サイズと複雑さの異なる6つの公開テキスト分類データセット上で検証する。
論文 参考訳(メタデータ) (2021-02-07T13:27:58Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - Filtered Inner Product Projection for Crosslingual Embedding Alignment [28.72288652451881]
フィルタ内積投影(FIPP)は、埋め込みを共通表現空間にマッピングする手法である。
FIPPは、ソースとターゲットの埋め込みが異なる次元である場合でも適用可能である。
提案手法は,MUSEデータセット上の既存の手法よりも,様々な言語ペアに対して優れていることを示す。
論文 参考訳(メタデータ) (2020-06-05T19:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。