論文の概要: Text Classification through Glyph-aware Disentangled Character Embedding
and Semantic Sub-character Augmentation
- arxiv url: http://arxiv.org/abs/2011.04184v1
- Date: Mon, 9 Nov 2020 04:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 23:59:33.871017
- Title: Text Classification through Glyph-aware Disentangled Character Embedding
and Semantic Sub-character Augmentation
- Title(参考訳): Glyph-aware Disentangled Character EmbeddingとSemantic Sub-character Augmentationによるテキスト分類
- Authors: Takumi Aoki and Shunsuke Kitada and Hitoshi Iyatomi
- Abstract要約: 中国語や日本語などの非言語言語を対象とした文字ベースのテキスト分類フレームワークを提案する。
我々のフレームワークは変分文字エンコーダ(VCE)と文字レベルのテキスト分類器で構成されている。
- 参考スコア(独自算出の注目度): 6.0158981171030685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new character-based text classification framework for
non-alphabetic languages, such as Chinese and Japanese. Our framework consists
of a variational character encoder (VCE) and character-level text classifier.
The VCE is composed of a $\beta$-variational auto-encoder ($\beta$-VAE) that
learns the proposed glyph-aware disentangled character embedding (GDCE). Since
our GDCE provides zero-mean unit-variance character embeddings that are
dimensionally independent, it is applicable for our interpretable data
augmentation, namely, semantic sub-character augmentation (SSA). In this paper,
we evaluated our framework using Japanese text classification tasks at the
document- and sentence-level. We confirmed that our GDCE and SSA not only
provided embedding interpretability but also improved the classification
performance. Our proposal achieved a competitive result to the state-of-the-art
model while also providing model interpretability. Our code is available on
https://github.com/IyatomiLab/GDCE-SSA
- Abstract(参考訳): 中国語や日本語などの非言語言語を対象とした文字ベーステキスト分類フレームワークを提案する。
我々のフレームワークは変分文字エンコーダ(VCE)と文字レベルのテキスト分類器で構成される。
VCE は$\beta$-variational auto-encoder (\beta$-VAE) で構成されており、提案されているグリフ対応のアンタングル文字埋め込み (GDCE) を学習する。
我々のGDCEは、次元的に独立なゼロ平均単位分散文字埋め込みを提供するので、解釈可能なデータ拡張、すなわちセマンティックサブ文字拡張(SSA)に適用できる。
本稿では,日本語のテキスト分類タスクを文書・文レベルで評価した。
我々は,GDCEとSSAが組込み解釈性を提供するだけでなく,分類性能も向上したことを確認した。
提案手法は,最先端モデルと競合する結果を得た一方で,モデル解釈性も提供した。
私たちのコードはhttps://github.com/IyatomiLab/GDCE-SSAで利用可能です。
関連論文リスト
- Gen-Z: Generative Zero-Shot Text Classification with Contextualized
Label Descriptions [50.92702206798324]
ゼロショットテキスト分類のための生成的プロンプトフレームワークを提案する。
GEN-Zはラベルの自然言語記述に基づく入力テキストのLM可能性を測定する。
データソースの文脈化によるゼロショット分類は、ゼロショットベースラインと少数ショットベースラインの両方を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-11-13T07:12:57Z) - Measuring vagueness and subjectivity in texts: from symbolic to neural
VAGO [1.9701992579697072]
テキストにおける曖昧さと主観性の自動測定に対するハイブリッド手法を提案する。
まず、専門家システムVAGOを紹介し、それを事実対意見文の小さなベンチマークで説明し、次に、より大きいフランスのプレスコーパスFreSaDaでテストし、風刺と通常のテキストにおける主観的マーカーの高頻度性を確認する。
VAGO のニューラルクローンを BERT のようなアーキテクチャで構築し,FreSaDa 上で得られた記号的VAGO スコアに基づいて学習する。
論文 参考訳(メタデータ) (2023-09-12T11:18:29Z) - Feature-aware conditional GAN for category text generation [6.609628372021442]
カテゴリーテキスト生成は様々な自然言語処理タスクに有用である。
テキストGANには、離散性、トレーニング不安定性、モード崩壊、多様性の欠如、コントロール容易性など、いくつかの問題がある。
本稿では,制御可能なカテゴリテキスト生成のための新しいGANフレームワークであるFA-GANを提案する。
論文 参考訳(メタデータ) (2023-08-02T04:43:54Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - GENIUS: Sketch-based Language Model Pre-training via Extreme and
Selective Masking for Text Generation and Augmentation [76.7772833556714]
本稿では,スケッチを入力として用いた条件付きテキスト生成モデルGENIUSを紹介する。
genIUSは、スケッチの目的から新しく再構築された大規模なテキストコーパスで事前訓練されている。
様々な自然言語処理(NLP)タスクに対して, GENIUS は強力かつ使いやすいデータ拡張ツールとして利用できることを示す。
論文 参考訳(メタデータ) (2022-11-18T16:39:45Z) - InfoCSE: Information-aggregated Contrastive Learning of Sentence
Embeddings [61.77760317554826]
本稿では,教師なし文の埋め込みを学習するための情報型コントラスト学習フレームワーク InfoCSE を提案する。
提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。
実験の結果, InfoCSE は BERT ベースでは2.60%, BERT 大規模では1.77% でSimCSE より優れていた。
論文 参考訳(メタデータ) (2022-10-08T15:53:19Z) - PreQuEL: Quality Estimation of Machine Translation Outputs in Advance [32.922128367314194]
PreQuELシステムは、実際の翻訳とは無関係に、ある文がどの程度翻訳されるかを予測する。
タスクのベースラインモデルを開発し,その性能を解析する。
本手法は,品質評価タスクの性能向上にも有効であることを示す。
論文 参考訳(メタデータ) (2022-05-18T18:55:05Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Incorporating Visual Layout Structures for Scientific Text
Classification [31.15058113053433]
本研究では,VILA(Visual LAyout Structure)の新たな手法として,ページテキストをテキスト行やテキストブロックにグループ化する手法を言語モデルに導入する。
モデル入力にレイアウト構造の境界を示す特別なトークンを追加するI-VILAアプローチは、トークン分類タスクにおいて+14.5 F1のスコア改善をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2021-06-01T17:59:00Z) - Image-to-image Translation via Hierarchical Style Disentanglement [115.81148219591387]
この問題に対処するために,HiSD(Hierarchical Style Disentanglement)を提案する。
具体的には,ラベルを階層的な木構造に整理し,独立タグ,排他属性,不規則なスタイルを上下に割り当てる。
CelebA-HQデータセットの定性的および定量的結果の両方が提案されたHiSDの能力を検証する。
論文 参考訳(メタデータ) (2021-03-02T03:43:18Z) - AraDIC: Arabic Document Classification using Image-Based Character
Embeddings and Class-Balanced Loss [7.734726150561088]
本稿では,アラビア文書イメージベース分類器 (AraDIC) を新たに提案する。
AraDICは画像ベースの文字エンコーダと分類器から構成される。長期データ分散問題に対処するために、クラスバランス損失を用いてエンドツーエンドで訓練される。
我々の知る限りでは、アラビア文字分類の問題に対処する最初の画像ベースの文字埋め込みフレームワークである。
論文 参考訳(メタデータ) (2020-06-20T14:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。