論文の概要: Group-Sparse Matrix Factorization for Transfer Learning of Word
Embeddings
- arxiv url: http://arxiv.org/abs/2104.08928v1
- Date: Sun, 18 Apr 2021 18:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 08:05:47.317663
- Title: Group-Sparse Matrix Factorization for Transfer Learning of Word
Embeddings
- Title(参考訳): 単語埋め込みの伝達学習のためのグループスパース行列分解
- Authors: Kan Xu, Xuanyi Zhao, Hamsa Bastani, Osbert Bastani
- Abstract要約: 本研究では,非教師なし学習,特に非構造化テキストコーパスからの単語埋め込み学習へのアプローチの拡張について検討する。
本稿では,このスパースを生かして,テキストデータが少ない場合に転送学習を行う,新たなグループスパースペナルティを提案する。
- 参考スコア(独自算出の注目度): 17.67983988254856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse regression has recently been applied to enable transfer learning from
very limited data. We study an extension of this approach to unsupervised
learning -- in particular, learning word embeddings from unstructured text
corpora using low-rank matrix factorization. Intuitively, when transferring
word embeddings to a new domain, we expect that the embeddings change for only
a small number of words -- e.g., the ones with novel meanings in that domain.
We propose a novel group-sparse penalty that exploits this sparsity to perform
transfer learning when there is very little text data available in the target
domain -- e.g., a single article of text. We prove generalization bounds for
our algorithm. Furthermore, we empirically evaluate its effectiveness, both in
terms of prediction accuracy in downstream tasks as well as the
interpretability of the results.
- Abstract(参考訳): スパース回帰は、非常に限られたデータからの伝達学習を可能にするために最近適用された。
本研究では,非教師なし学習へのアプローチの拡張について検討し,特に低ランク行列分解を用いた非構造化テキストコーパスからの単語埋め込みを学習する。
直観的には、単語埋め込みを新しいドメインに移すとき、埋め込みは少数の単語(例えば、そのドメインに新しい意味を持つ単語)に対してのみ変化すると期待します。
我々は、この疎結合を利用して、ターゲットドメインで利用可能なテキストデータが少ない場合(例えば、単一のテキスト記事など)、転送学習を行う新しいグループスパースペナルティを提案する。
アルゴリズムの一般化境界を証明します。
さらに,下流課題における予測精度と結果の解釈可能性の両面から,その効果を実証的に評価した。
関連論文リスト
- Unsupervised Domain Adaptation for Sparse Retrieval by Filling
Vocabulary and Word Frequency Gaps [12.573927420408365]
事前訓練された言語モデルを用いたIRモデルはBM25のような語彙的アプローチよりも大幅に優れていた。
本稿では,語彙と単語周波数のギャップを埋めることによる教師なし領域適応手法を提案する。
提案手法は,現在最先端の領域適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-08T03:58:26Z) - Domain Adaptive Semantic Segmentation without Source Data [50.18389578589789]
モデルがソースドメイン上で事前学習されていることを前提として、ソースデータのないドメイン適応セマンティックセマンティックセマンティックセマンティクスについて検討する。
本稿では,この課題に対して,肯定的学習と否定的学習という2つの要素を用いた効果的な枠組みを提案する。
私たちのフレームワークは、パフォーマンスをさらに向上するために、他のメソッドに簡単に実装および組み込むことができます。
論文 参考訳(メタデータ) (2021-10-13T04:12:27Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - A comprehensive empirical analysis on cross-domain semantic enrichment
for detection of depressive language [0.9749560288448115]
まず、大規模な汎用データセットから事前トレーニングされたリッチな単語の埋め込みから始め、シンプルな非線形マッピングメカニズムを通じて、はるかに小さく、より特定のドメインデータセットから学んだ埋め込みで拡張します。
単語の埋め込み表現は,高品質なデータセットに適用した場合に,他よりもはるかに優れたF1スコアが得られることを示す。
論文 参考訳(メタデータ) (2021-06-24T07:15:09Z) - Quantifying and Improving Transferability in Domain Generalization [53.16289325326505]
アウト・オブ・ディストリビューションの一般化は、実験室から現実世界にモデルを移す際の重要な課題の1つである。
我々は、領域一般化において量子化と計算が可能な転送可能性を正式に定義する。
転送可能な特徴を学習し、様々なベンチマークデータセット上でテストするための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-07T14:04:32Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Domain Adaptation for Semantic Parsing [68.81787666086554]
本稿では,ドメイン適応のための新しいセマンティクスを提案する。このセマンティクスでは,ソースドメインと比較して,対象ドメインのアノテーション付きデータがはるかに少ない。
我々のセマンティックな利点は、2段階の粗大なフレームワークから得ており、2段階の異なる正確な処理を提供できる。
ベンチマークデータセットの実験により、我々の手法はいくつかの一般的なドメイン適応戦略より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-06-23T14:47:41Z) - Evaluating Sparse Interpretable Word Embeddings for Biomedical Domain [1.3526604206343171]
解釈可能性(英: Interpretability)は、生体医学的応用において不可欠な部分である正当化の鍵となる手段である。
医療領域における単語埋め込みの解釈可能性に関する包括的研究を行い,スパース法の役割に着目した。
実験結果から, 下流タスクにおける元のベクトルの性能を保ちながら, 疎単語ベクトルの方がはるかに解釈可能性が高いことがわかった。
論文 参考訳(メタデータ) (2020-05-11T13:56:58Z) - Pseudo Labeling and Negative Feedback Learning for Large-scale
Multi-label Domain Classification [18.18754040189615]
大規模ドメイン分類では、発話は重複する複数のドメインで処理できる。
本稿では,訓練発話毎に1つの基礎構造ドメインが与えられた場合,最も信頼度の高い領域をトレーニングのための追加の擬似ラベルとして常に予測する。
誤った擬似ラベルによる予測誤差を低減するために、負のシステム応答による発話を利用して、誤った予測領域の信頼度を下げる。
論文 参考訳(メタデータ) (2020-03-08T06:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。