論文の概要: Tweet to News Conversion: An Investigation into Unsupervised
Controllable Text Generation
- arxiv url: http://arxiv.org/abs/2008.09333v1
- Date: Fri, 21 Aug 2020 06:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 20:52:14.515720
- Title: Tweet to News Conversion: An Investigation into Unsupervised
Controllable Text Generation
- Title(参考訳): ツイートからニュースへの変換:教師なしのテキスト生成に関する調査
- Authors: Zishan Ahmad, Mukuntha N S, Asif Ekbal, Pushpak Bhattacharyya
- Abstract要約: 本稿では,災害領域のツイートの集合からコヒーレントな段落を構築するタスクを定義する。
パイプライン内に2つのシステムを構築することでこの問題に対処する。最初のシステムは教師なしスタイル転送に焦点を当て、個々のつぶやきをニュース文に変換する。
第2のシステムは、第1のシステムからの出力を縫合してコヒーレントニュース段落を形成する。
- 参考スコア(独自算出の注目度): 46.74654716230366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text generator systems have become extremely popular with the advent of
recent deep learning models such as encoder-decoder. Controlling the
information and style of the generated output without supervision is an
important and challenging Natural Language Processing (NLP) task. In this
paper, we define the task of constructing a coherent paragraph from a set of
disaster domain tweets, without any parallel data. We tackle the problem by
building two systems in pipeline. The first system focuses on unsupervised
style transfer and converts the individual tweets into news sentences. The
second system stitches together the outputs from the first system to form a
coherent news paragraph. We also propose a novel training mechanism, by
splitting the sentences into propositions and training the second system to
merge the sentences. We create a validation and test set consisting of
tweet-sets and their equivalent news paragraphs to perform empirical
evaluation. In a completely unsupervised setting, our model was able to achieve
a BLEU score of 19.32, while successfully transferring styles and joining
tweets to form a meaningful news paragraph.
- Abstract(参考訳): テキストジェネレータシステムは、エンコーダデコーダのような最近のディープラーニングモデルの出現によって、非常に人気が高まっている。
生成した出力の情報やスタイルを管理せずに制御することは、重要かつ困難な自然言語処理(NLP)タスクである。
本稿では,災害ドメインのツイートの集合から,並列データなしでコヒーレントな段落を構築するタスクを定義する。
パイプラインに2つのシステムを構築することで、この問題に対処します。
最初のシステムは教師なしのスタイル転送に焦点を当て、個々のツイートをニュース文に変換する。
第2のシステムは、第1のシステムからの出力を縫合してコヒーレントニュース段落を形成する。
また,文を命題に分割し,第2体系を訓練して文をマージする新しい訓練機構を提案する。
我々は、ツイートセットとその等価ニュース段落からなる検証とテストセットを作成し、経験的評価を行う。
完全に教師なしの環境で、我々のモデルはBLEUスコア19.32を達成し、スタイルを転送し、ツイートを結合して意味のあるニュース段落を形成することに成功した。
関連論文リスト
- Unsupervised Text Style Transfer via LLMs and Attention Masking with
Multi-way Interactions [18.64326057581588]
非教師付きテキストスタイル転送(UTST)が自然言語処理(NLP)分野における重要な課題として浮上している。
本稿では,命令を調整したパイプライン・フレームワークであるLarge Language Models (LLMs) から注目マスキング・モデルへの知識蒸留,構築された並列例を用いたコンテキスト内学習の4つの方法を提案する。
これらのマルチウェイインタラクションは、スタイルの強さ、コンテンツ保存、テキストの流布といった観点から、ベースラインを改善することを実証的に示しています。
論文 参考訳(メタデータ) (2024-02-21T09:28:02Z) - Improving Cascaded Unsupervised Speech Translation with Denoising
Back-translation [70.33052952571884]
我々は,任意のペアデータを活用することなく,カスケード音声翻訳システムを構築することを提案する。
教師なしのシステムをトレーニングし、CoVoST 2 と CVSS で結果を評価するために、完全にペア化されたデータを使用します。
論文 参考訳(メタデータ) (2023-05-12T13:07:51Z) - R2D2: Robust Data-to-Text with Replacement Detection [16.53137103104244]
R2D2は不誠実なData-to-Text生成に対処するトレーニングフレームワークです。
我々は、D2Tシステムのエンティティ検索能力が貧弱であることが、不信の原因の1つだと論じている。
実験の結果,R2D2システムは不信なテキスト生成を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2022-05-25T03:29:25Z) - Using BERT Encoding and Sentence-Level Language Model for Sentence
Ordering [0.9134244356393667]
本稿では,短い記事のコーパスにおける文順序付けのアルゴリズムを提案する。
提案手法では,アテンション機構を用いて文の依存関係をキャプチャするUniversal Transformer (UT) に基づく言語モデルを用いる。
提案モデルには文、言語モデル、Brute Force Searchによる文配列の3つのコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-08-24T23:03:36Z) - AGGGEN: Ordering and Aggregating while Generating [12.845842212733695]
本稿では,2つの明示的な文計画段階をニューラルデータ・トゥ・テキストシステムに再導入するデータ・ツー・テキスト・モデルAGGGENを提案する。
AGGGENは、入力表現とターゲットテキスト間の遅延アライメントを学習してテキストを生成すると同時に、文計画を実行する。
論文 参考訳(メタデータ) (2021-06-10T08:14:59Z) - Conditioned Text Generation with Transfer for Closed-Domain Dialogue
Systems [65.48663492703557]
条件付き変分オートエンコーダを用いて,意図特化文の生成を最適に学習し,制御する方法を示す。
クエリ転送と呼ばれる新しいプロトコルを導入し、大規模で遅延のないデータセットを活用できるようにします。
論文 参考訳(メタデータ) (2020-11-03T14:06:10Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Unsupervised Extractive Summarization by Pre-training Hierarchical
Transformers [107.12125265675483]
教師なし抽出文書要約は、訓練中にラベル付き要約を用いることなく、文書から重要な文章を選択することを目的としている。
既存の手法は主にグラフベースで、文をノードとして、エッジの重みは文の類似性によって測定される。
教師なし抽出要約のための文のランク付けにはトランスフォーマーの注意が利用できることがわかった。
論文 参考訳(メタデータ) (2020-10-16T08:44:09Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z) - Stacked DeBERT: All Attention in Incomplete Data for Text Classification [8.900866276512364]
変換器から双方向表現を重畳するスタックドデノナイズ(Stacked Denoising Bidirectional Representations)を提案する。
本モデルでは, 感情や意図の分類作業において, 音声テキスト誤りのあるツイートやテキストに現れる非公式/不正テキストにおいて, F1スコアが向上し, 堅牢性が向上したことを示す。
論文 参考訳(メタデータ) (2020-01-01T04:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。