論文の概要: Sent2Matrix: Folding Character Sequences in Serpentine Manifolds for
Two-Dimensional Sentence
- arxiv url: http://arxiv.org/abs/2103.08387v1
- Date: Mon, 15 Mar 2021 13:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 14:29:32.296549
- Title: Sent2Matrix: Folding Character Sequences in Serpentine Manifolds for
Two-Dimensional Sentence
- Title(参考訳): Sent2Matrix:2次元文のためのSerpentine ManifoldsにおけるFolding Character Sequences
- Authors: Hongyang Gao, Yi Liu, Xuan Zhang, Shuiwang Ji
- Abstract要約: テキストを2次元表現に変換し、Sent2Matrix法を開発する。
この手法は単語形態と境界の両方を明示的に組み込むことができる。
特に,本手法は,テキストを2次元フォーマットで表現する最初の試みである。
- 参考スコア(独自算出の注目度): 54.6266741821988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study text representation methods using deep models. Current methods, such
as word-level embedding and character-level embedding schemes, treat texts as
either a sequence of atomic words or a sequence of characters. These methods
either ignore word morphologies or word boundaries. To overcome these
limitations, we propose to convert texts into 2-D representations and develop
the Sent2Matrix method. Our method allows for the explicit incorporation of
both word morphologies and boundaries. When coupled with a novel serpentine
padding method, our Sent2Matrix method leads to an interesting visualization in
which 1-D character sequences are folded into 2-D serpentine manifolds.
Notably, our method is the first attempt to represent texts in 2-D formats.
Experimental results on text classification tasks shown that our method
consistently outperforms prior embedding methods.
- Abstract(参考訳): 深層モデルを用いたテキスト表現手法の研究を行う。
現在のメソッド、例えば単語レベルの埋め込みや文字レベルの埋め込みスキームは、テキストをアトミックワードのシーケンスまたは文字のシーケンスとして扱う。
これらの手法は単語形態や単語境界を無視する。
これらの制限を克服するために、テキストを2次元表現に変換し、Sent2Matrix法を開発する。
この手法は単語形態と境界の両方を明示的に組み込むことができる。
新しいサーペンタインパディング法と組み合わせると、Sent2Matrix法は、1-D文字配列を2-Dサーペンタイン多様体に折り畳む興味深い視覚化につながります。
特に,本手法は,テキストを2次元フォーマットで表現する最初の試みである。
テキスト分類タスクにおける実験結果から,本手法は従来手法よりも優れていた。
関連論文リスト
- Greed is All You Need: An Evaluation of Tokenizer Inference Methods [4.300681074103876]
4つの異なるアルゴリズムと3つの語彙サイズにまたがる7つのトークン化手法の制御解析を行う。
我々は,最もよく使われているトークン化剤に対して,グリーディ推論が驚くほどよく機能し,最近導入された文脈的にインフォームドされたトークン化剤であるSaGeが,形態的アライメントにおいて他の全てより優れていることを示す。
論文 参考訳(メタデータ) (2024-03-02T19:01:40Z) - Unsupervised Text Style Transfer via LLMs and Attention Masking with
Multi-way Interactions [18.64326057581588]
非教師付きテキストスタイル転送(UTST)が自然言語処理(NLP)分野における重要な課題として浮上している。
本稿では,命令を調整したパイプライン・フレームワークであるLarge Language Models (LLMs) から注目マスキング・モデルへの知識蒸留,構築された並列例を用いたコンテキスト内学習の4つの方法を提案する。
これらのマルチウェイインタラクションは、スタイルの強さ、コンテンツ保存、テキストの流布といった観点から、ベースラインを改善することを実証的に示しています。
論文 参考訳(メタデータ) (2024-02-21T09:28:02Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Integrating Bidirectional Long Short-Term Memory with Subword Embedding
for Authorship Attribution [2.3429306644730854]
マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。
提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
論文 参考訳(メタデータ) (2023-06-26T11:35:47Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Text Detoxification using Large Pre-trained Neural Models [57.72086777177844]
テキスト中の毒性を除去する2つの新しい教師なし手法を提案する。
最初の方法は、生成プロセスのガイダンスと、小さなスタイル条件言語モデルを組み合わせることである。
第2の方法は、BERTを使用して有害な単語を非攻撃的同義語に置き換える。
論文 参考訳(メタデータ) (2021-09-18T11:55:32Z) - Transductive Learning for Unsupervised Text Style Transfer [60.65782243927698]
教師なしスタイル転送モデルは、主に帰納的学習アプローチに基づいている。
本稿では,検索に基づく文脈認識スタイルの表現に基づく新しいトランスダクティブ学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-16T08:57:20Z) - TextStyleBrush: Transfer of Text Aesthetics from a Single Example [16.29689649632619]
本稿では,その外観のあらゆる面からテキスト画像の内容を切り離すための新しいアプローチを提案する。
我々はこの混乱を自己管理的に学ぶ。
以前は特殊な手法で処理されていた異なるテキスト領域で結果を示す。
論文 参考訳(メタデータ) (2021-06-15T19:28:49Z) - Unsupervised learning of text line segmentation by differentiating
coarse patterns [0.0]
距離が粗いテキスト行パターンに類似するコンパクトユークリッド空間に文書イメージパッチを埋め込む教師なしのディープラーニング手法を提案する。
テキスト行のセグメンテーションは、埋め込み特徴ベクトルを使って標準技術を使って容易に実装できる。
本手法は,テキスト行分割データセットのいくつかの変種に対して定性的かつ定量的に評価し,その効果を実証する。
論文 参考訳(メタデータ) (2021-05-19T21:21:30Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。