論文の概要: Learning to Simplify with Data Hopelessly Out of Alignment
- arxiv url: http://arxiv.org/abs/2204.00741v1
- Date: Sat, 2 Apr 2022 02:09:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 12:35:41.704851
- Title: Learning to Simplify with Data Hopelessly Out of Alignment
- Title(参考訳): データのアライメントを望まない方法で単純化する学習
- Authors: Tadashi Nomoto
- Abstract要約: 並列」コーパスに頼ることなく、テキストの単純化が可能かどうかを検討する。
Conjoined Twin Networks、Flip-Flop Auto-Encoders (FFA)、Adversarial Networks (GAN)など、いくつかの新しいコンセプトを紹介します。
ウィキペディアから派生した大規模なデータセットを用いて行った実験では、現在の最高のパフォーマンスシステムよりも、FFAとJS-GANを備えたツインネットワークの強固な優位性が確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We consider whether it is possible to do text simplification without relying
on a "parallel" corpus, one that is made up of sentence-by-sentence alignments
of complex and ground truth simple sentences. To this end, we introduce a
number of concepts, some new and some not, including what we call Conjoined
Twin Networks, Flip-Flop Auto-Encoders (FFA) and Adversarial Networks (GAN). A
comparison is made between Jensen-Shannon (JS-GAN) and Wasserstein GAN, to see
how they impact performance, with stronger results for the former. An
experiment we conducted with a large dataset derived from Wikipedia found the
solid superiority of Twin Networks equipped with FFA and JS-GAN, over the
current best performing system. Furthermore, we discuss where we stand in a
relation to fully supervised methods in the past literature, and highlight with
examples qualitative differences that exist among simplified sentences
generated by supervision-free systems.
- Abstract(参考訳): 複雑な真理文と基底的真理文の文別アライメントからなる「並列」コーパスを頼らずに、テキスト簡易化が可能かどうかを検討する。
そこで我々は,Conjoined Twin Networks, Flip-Flop Auto-Encoders (FFA), Adversarial Networks (GAN) など,いくつかの新しい概念を紹介した。
Jensen-Shannon氏(JS-GAN)とWasserstein GAN氏(リンク)の比較を行い、パフォーマンスにどのように影響するかを確認した。
wikipediaから派生した大規模データセットを用いて実験を行ったところ、現在のベストパフォーマンスシステムよりも、ffaとjs-ganを備えたツインネットワークが優れていることがわかった。
さらに,過去文献における完全教師付き手法との関連について検討し,教師なしシステムによって生成された簡素な文間に存在する質的差異を例示して強調する。
関連論文リスト
- RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Syntactic Complexity Identification, Measurement, and Reduction Through
Controlled Syntactic Simplification [0.0]
本稿では,複合文と複合文を簡易文の集合に分割・言い換える,古典的な構文的依存性に基づく手法を提案する。
また,文の構文的複雑さを同定し,測定するアルゴリズムも導入した。
この研究は、WSDM-2023 Conferenceにおいて、Learning with Knowledge Graphs (IWLKG) に関する国際ワークショップで受け入れられ、発表された。
論文 参考訳(メタデータ) (2023-04-16T13:13:58Z) - SimpLex: a lexical text simplification architecture [0.5156484100374059]
簡単な英文を生成するための新しい単純化アーキテクチャである textscSimpLex を提案する。
提案アーキテクチャでは、ワード埋め込み(Word2Vec)とパープレキシティ(perplexity)、文変換(BERT、RoBERTa、GPT2)、コサイン類似(cosine similarity)のいずれかを使用する。
このソリューションはユーザフレンドリーで使いやすいソフトウェアに組み込まれている。
論文 参考訳(メタデータ) (2023-04-14T08:52:31Z) - Exploiting Summarization Data to Help Text Simplification [50.0624778757462]
テキスト要約とテキスト単純化の類似性を解析し,要約データを利用して単純化を行った。
我々はこれらのペアをSum4Simp (S4S) と命名し,S4Sが高品質であることを示す人間評価を行った。
論文 参考訳(メタデータ) (2023-02-14T15:32:04Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Generate, Discriminate and Contrast: A Semi-Supervised Sentence
Representation Learning Framework [68.04940365847543]
本稿では,大規模未ラベルデータを効果的に活用する半教師付き文埋め込みフレームワークGenSEを提案する。
1) 生成: 生成: 生成/識別器モデルはオープンドメインの未ラベルコーパスから文ペアを合成するために共同で訓練される; 2) 識別: ノイズのある文ペアは識別器によってフィルタリングされ、高品質な正と負の文ペアを取得する; 3) コントラスト: 注釈付きデータと合成されたデータの両方を用いて文表現を学習するために、プロンプトベースのコントラクティブアプローチが提示される。
論文 参考訳(メタデータ) (2022-10-30T10:15:21Z) - Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。
SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。
その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文 参考訳(メタデータ) (2021-12-15T09:50:25Z) - AGGGEN: Ordering and Aggregating while Generating [12.845842212733695]
本稿では,2つの明示的な文計画段階をニューラルデータ・トゥ・テキストシステムに再導入するデータ・ツー・テキスト・モデルAGGGENを提案する。
AGGGENは、入力表現とターゲットテキスト間の遅延アライメントを学習してテキストを生成すると同時に、文計画を実行する。
論文 参考訳(メタデータ) (2021-06-10T08:14:59Z) - Neural CRF Model for Sentence Alignment in Text Simplification [31.62648025127563]
我々は、通常使われている2つのテキスト単純化コーパス、Newsela、Wikipediaから、手動で注釈付き文整列データセットを作成する。
実験により, 提案手法はF1の5点以上の単言語文アライメントタスクにおいて, これまでの作業よりも優れていたことがわかった。
データセットに基づいてトレーニングされたTransformerベースのseq2seqモデルは、自動評価と人的評価の両方において、テキストの簡略化のための新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2020-05-05T16:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。