論文の概要: Heavy-tailed Representations, Text Polarity Classification & Data
Augmentation
- arxiv url: http://arxiv.org/abs/2003.11593v2
- Date: Thu, 25 Mar 2021 15:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 02:31:12.898792
- Title: Heavy-tailed Representations, Text Polarity Classification & Data
Augmentation
- Title(参考訳): 重み付き表現, テキスト極性分類とデータ拡張
- Authors: Hamid Jalalzai, Pierre Colombo, Chlo\'e Clavel, Eric Gaussier,
Giovanna Varni, Emmanuel Vignon, Anne Sabourin
- Abstract要約: 所望の正則性を持つ重み付き埋め込みを学習するための新しい手法を開発した。
提案した埋め込みの尾部専用の分類器が得られ、性能がベースラインを上回っている。
合成および実テキストデータに関する数値実験により,提案手法の妥当性が示された。
- 参考スコア(独自算出の注目度): 11.624944730002298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominant approaches to text representation in natural language rely on
learning embeddings on massive corpora which have convenient properties such as
compositionality and distance preservation. In this paper, we develop a novel
method to learn a heavy-tailed embedding with desirable regularity properties
regarding the distributional tails, which allows to analyze the points far away
from the distribution bulk using the framework of multivariate extreme value
theory. In particular, a classifier dedicated to the tails of the proposed
embedding is obtained which performance outperforms the baseline. This
classifier exhibits a scale invariance property which we leverage by
introducing a novel text generation method for label preserving dataset
augmentation. Numerical experiments on synthetic and real text data demonstrate
the relevance of the proposed framework and confirm that this method generates
meaningful sentences with controllable attribute, e.g. positive or negative
sentiment.
- Abstract(参考訳): 自然言語におけるテキスト表現の主流のアプローチは、構成性や距離保存といった便利な性質を持つ巨大なコーパスへの埋め込み学習に依存している。
本稿では,多変量極値理論の枠組みを用いて分布バルクから遠く離れた地点を解析できる分布的テールについて,所望の正則性を持つ重み付き埋め込みを学習する新しい手法を提案する。
特に、提案する埋め込みの尾部に特化した分類器が得られ、その性能がベースラインを上回る。
この分類器は,ラベル保存データセット拡張のための新しいテキスト生成手法を導入することにより,スケール不変性を示す。
合成および実テキストデータに関する数値実験により,提案手法の妥当性を実証し,肯定的・否定的感情などの制御可能な属性を持つ有意義な文を生成することを確認した。
関連論文リスト
- Robust Generalization Strategies for Morpheme Glossing in an Endangered
Language Documentation Context [2.2783452228152923]
本研究では,形態素ラベリングモデルが不明瞭なジャンルのテキストに対して,その性能を評価することによって一般化する能力について検討する。
すべての実験は、マヤ語のウスパンテコで書かれたテキストを使って行われる。
論文 参考訳(メタデータ) (2023-11-05T21:45:57Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - Semantic Text Compression for Classification [17.259824817932294]
本研究では,テキストに含まれる意味をソースデコーダに伝達するテキストのセマンティック圧縮について検討する。
そこで,文の埋め込みと意味的歪み量を用いて意味を保存したテキストに対する意味量化と圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-09-19T17:50:57Z) - Controllable Data Augmentation for Few-Shot Text Mining with Chain-of-Thought Attribute Manipulation [35.33340453046864]
Chain-of-Thought Attribute Manipulation (CoTAM)は、既存の例から新しいデータを生成する新しいアプローチである。
我々は,(1)属性分解,(2)操作提案,(3)文の再構築という3つのステップで,テキストを直接編集するよう促すチェーン・オブ・シントを利用する。
論文 参考訳(メタデータ) (2023-07-14T00:10:03Z) - Reprint: a randomized extrapolation based on principal components for
data augmentation [11.449992652644577]
本稿では,不均衡なデータ分類のための,シンプルで効果的な隠れ空間データ拡張手法を提案する。
各クラス内のサンプルの隠れスペース表現を与えられたREPRINTは、ランダムな方法で、ターゲットクラスの拡張例を外挿する。
この方法は、拡張例のために新しい軟質ラベルを合成できるラベル改質成分を含む。
論文 参考訳(メタデータ) (2022-04-26T01:38:47Z) - Discriminative Attribution from Counterfactuals [64.94009515033984]
本稿では,特徴属性と反実的説明を組み合わせたニューラルネットワークの解釈可能性について述べる。
本手法は,特徴属性法の性能を客観的に評価するために有効であることを示す。
論文 参考訳(メタデータ) (2021-09-28T00:53:34Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - A Framework to Learn with Interpretation [2.3741312212138896]
本稿では,予測モデルとその関連解釈モデルを共同で学習する新しい枠組みを提案する。
我々は,選択した隠れ層の出力を入力として取り込む,高レベル属性関数の小型辞書を求める。
学習した機能を視覚化する詳細なパイプラインも開発されている。
論文 参考訳(メタデータ) (2020-10-19T09:26:28Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Building powerful and equivariant graph neural networks with structural
message-passing [74.93169425144755]
本稿では,2つのアイデアに基づいた,強力かつ同変なメッセージパッシングフレームワークを提案する。
まず、各ノードの周囲の局所的コンテキスト行列を学習するために、特徴に加えてノードの1ホット符号化を伝搬する。
次に,メッセージのパラメトリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-06-26T17:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。