論文の概要: Syntactically Look-Ahead Attention Network for Sentence Compression
- arxiv url: http://arxiv.org/abs/2002.01145v2
- Date: Sun, 17 May 2020 13:33:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 03:10:18.953119
- Title: Syntactically Look-Ahead Attention Network for Sentence Compression
- Title(参考訳): 文圧縮のための構文的ルックアヘッド注意ネットワーク
- Authors: Hidetaka Kamigaito, Manabu Okumura
- Abstract要約: 文圧縮は、冗長な単語を削除することで、長い文を短い文に圧縮するタスクである。
シーケンシャル・ツー・シーケンス(Seq2Seq)ベースのモデルでは、デコーダは一方向で単語の保持または削除を決定する。
本稿では,情報要約を生成できる新しいSeq2Seqモデル(SLAHAN)を提案する。
- 参考スコア(独自算出の注目度): 36.6256383447417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentence compression is the task of compressing a long sentence into a short
one by deleting redundant words. In sequence-to-sequence (Seq2Seq) based
models, the decoder unidirectionally decides to retain or delete words. Thus,
it cannot usually explicitly capture the relationships between decoded words
and unseen words that will be decoded in the future time steps. Therefore, to
avoid generating ungrammatical sentences, the decoder sometimes drops important
words in compressing sentences. To solve this problem, we propose a novel
Seq2Seq model, syntactically look-ahead attention network (SLAHAN), that can
generate informative summaries by explicitly tracking both dependency parent
and child words during decoding and capturing important words that will be
decoded in the future. The results of the automatic evaluation on the Google
sentence compression dataset showed that SLAHAN achieved the best
kept-token-based-F1, ROUGE-1, ROUGE-2 and ROUGE-L scores of 85.5, 79.3, 71.3
and 79.1, respectively. SLAHAN also improved the summarization performance on
longer sentences. Furthermore, in the human evaluation, SLAHAN improved
informativeness without losing readability.
- Abstract(参考訳): 文圧縮は、冗長な単語を削除して長い文を短い文に圧縮する作業である。
シーケンシャル・ツー・シーケンス(Seq2Seq)ベースのモデルでは、デコーダは一方向で単語の保持または削除を決定する。
したがって、通常は、復号された単語と将来の時間ステップで復号される未知の単語の関係を明示的に捉えることはできない。
したがって、非文法的な文を生成するのを避けるために、デコーダは時に重要な単語を圧縮文にドロップする。
そこで本研究では,将来復号化される重要な単語の抽出と復号化において,依存親語と子語の両方を明示的に追跡することにより,情報的要約を生成できる新しいSeq2Seqモデルを提案する。
Googleの文圧縮データセットの自動評価の結果、SLAHANは、それぞれ85.5, 79.3, 71.3, 79.1の最高保持型F1, ROUGE-1, ROUGE-2, ROUGE-Lスコアを達成した。
SLAHANは長文の要約性能も改善した。
さらに,人間の評価において,SLAHANは可読性を損なうことなく情報性が向上した。
関連論文リスト
- VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers [119.89284877061779]
本稿では,ゼロショット音声合成(TTS)の節目となる,ニューラルネットワークモデルの最新の進歩であるVALL-E 2を紹介する。
VALL-E 2は、その複雑さや反復句によって伝統的に困難な文であっても、高品質な音声を一貫して合成する。
この研究の利点は、失語症のある人や筋萎縮性側索硬化症を持つ人のためのスピーチを生成するなど、貴重な努力に寄与する可能性がある。
論文 参考訳(メタデータ) (2024-06-08T06:31:03Z) - Crossword: A Semantic Approach to Data Compression via Masking [38.107509264270924]
本研究は、英語のテキストに注意を払って、その意味的側面を活用して、圧縮効率をさらに高めている。
提案したマスキングベースの戦略は上記のゲームに類似している。
簡単に言えば、エンコーダは意味的損失に応じて各単語の意味的重要性を評価し、その後、マイナーな単語をマスキングし、デコーダは意味的文脈から意味的文脈でマスクされた単語を復元する。
論文 参考訳(メタデータ) (2023-04-03T16:04:06Z) - Inflected Forms Are Redundant in Question Generation Models [27.49894653349779]
本稿では,エンコーダ・デコーダ・フレームワークを用いた質問生成の性能向上手法を提案する。
まず,エンコーダの入力から入力された単語を識別し,根語に置き換える。
次に,エンコード・デコーダ・フレームワークにおける以下の動作の組合せとしてQGを適用することを提案する。質問語の生成,ソースシーケンスからの単語のコピー,単語変換型の生成である。
論文 参考訳(メタデータ) (2023-01-01T13:08:11Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Using BERT Encoding and Sentence-Level Language Model for Sentence
Ordering [0.9134244356393667]
本稿では,短い記事のコーパスにおける文順序付けのアルゴリズムを提案する。
提案手法では,アテンション機構を用いて文の依存関係をキャプチャするUniversal Transformer (UT) に基づく言語モデルを用いる。
提案モデルには文、言語モデル、Brute Force Searchによる文配列の3つのコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-08-24T23:03:36Z) - Span Pointer Networks for Non-Autoregressive Task-Oriented Semantic
Parsing [55.97957664897004]
seq2seq、非自動回帰的、タスク指向を構築するための効果的なレシピは、3つのステップで発話とセマンティックフレームをマッピングする。
これらのモデルは通常、長さ予測によってボトルネックとなる。
本研究では,デコードタスクをテキスト生成からスパン予測へシフトさせる非自己回帰手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T07:02:35Z) - An Iterative Contextualization Algorithm with Second-Order Attention [0.40611352512781856]
文を構成する単語の表現をまとまりのある全体にまとめる方法について説明します。
私たちのアルゴリズムは、おそらくコンテキストの誤った値から始まり、手元のトークンに関してこの値を調整します。
私たちのモデルは、よく知られたテキスト分類タスクで強い結果を報告します。
論文 参考訳(メタデータ) (2021-03-03T05:34:50Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Attentional Speech Recognition Models Misbehave on Out-of-domain
Utterances [16.639133822656458]
我々は、LibriSpeechコーパスのみで訓練された注目エンコーダデコーダモデルを用いて、British National Corpusからオーディオをデコードする。
我々は,500文字以上の復号出力を生成する5秒録音が多数存在することを観察した。
同じデータに基づいてトレーニングされたフレーム同期ハイブリッド(DNN-HMM)モデルは、これらの異常に長い書き起こしを生成しない。
論文 参考訳(メタデータ) (2020-02-12T18:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。