論文の概要: Hierarchical Learning for Generation with Long Source Sequences
- arxiv url: http://arxiv.org/abs/2104.07545v1
- Date: Thu, 15 Apr 2021 15:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 15:00:32.134693
- Title: Hierarchical Learning for Generation with Long Source Sequences
- Title(参考訳): 長ソースシーケンス生成のための階層学習
- Authors: Tobias Rohde, Xiaoxia Wu, Yinhan Liu
- Abstract要約: 我々は,複数のシーケンスから逐次タスクへ標準トランスフォーマーを上回る階層的アテンション・トランスフォーマティブ・ベース・アーキテクチャ(hat)を設計し,検討する。
本モデルでは,ArXiv,CNN/DM,SAMSum,AMIの4つの要約タスクに対して,最先端の成果を達成し,PubMed R1およびR2 SOTAをさらに推し進める。
- 参考スコア(独自算出の注目度): 4.851392124435261
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One of the challenges for current sequence to sequence (seq2seq) models is
processing long sequences, such as those in summarization and document level
machine translation tasks. These tasks require the model to reason at the token
level as well as the sentence and paragraph level. We design and study a new
Hierarchical Attention Transformer-based architecture (HAT) that outperforms
standard Transformers on several sequence to sequence tasks. In particular, our
model achieves stateof-the-art results on four summarization tasks, including
ArXiv, CNN/DM, SAMSum, and AMI, and we push PubMed R1 & R2 SOTA further. Our
model significantly outperforms our document-level machine translation baseline
by 28 BLEU on the WMT19 EN-DE document translation task. We also investigate
what the hierarchical layers learn by visualizing the hierarchical
encoder-decoder attention. Finally, we study hierarchical learning on
encoder-only pre-training and analyze its performance on classification
downstream tasks.
- Abstract(参考訳): current sequence to sequence (seq2seq)モデルの課題の一つは、要約や文書レベルの機械翻訳タスクのような長いシーケンスを処理することである。
これらのタスクは、モデルがトークンレベルと文と段落レベルを推論する必要がある。
我々は,複数のシーケンスから逐次タスクへ標準トランスフォーマーを上回る階層的アテンション・トランスフォーマティブ・ベース・アーキテクチャ(hat)を設計し,検討する。
特に,本モデルでは,ArXiv,CNN/DM,SAMSum,AMIの4つの要約タスクに対して最先端の結果が得られ,PubMed R1 & R2 SOTAをさらに推し進める。
本モデルは,wmt19エンデ文書翻訳タスクにおいて,28 bleuで文書レベルの機械翻訳ベースラインを著しく上回っている。
また,階層型エンコーダ・デコーダの注意を可視化することで階層型層がどのように学習するかを検討する。
最後に,エンコーダのみの事前学習における階層学習について検討し,下流タスクの分類に基づく性能解析を行った。
関連論文リスト
- Implant Global and Local Hierarchy Information to Sequence based Code
Representation Models [25.776540440893257]
完全な階層構造がコードシーケンスのトークンに与える影響を分析し、階層埋め込みと呼ばれるコードトークンの特性として、この影響を抽象化する。
ソースコードの完全な階層化をトランスフォーマーモデルに組み込むための,単純かつ効果的なシーケンスモデルである階層変換器(HiT)を提案する。
論文 参考訳(メタデータ) (2023-03-14T12:01:39Z) - Hierarchical Decision Transformer [0.0]
本稿では,実演からシーケンスモデルを学習するための階層的アルゴリズムを提案する。
高レベルメカニズムは、タスクを通して低レベルコントローラをガイドし、後者に到達するためのサブゴールを選択する。
提案手法をOpenAIGym, D4RL, RoboMimicベンチマークの複数のタスクで検証する。
論文 参考訳(メタデータ) (2022-09-21T15:48:40Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Efficient Long Sequence Encoding via Synchronization [29.075962393432857]
階層符号化のための同期機構を提案する。
我々のアプローチはまずセグメント間でアンカートークンを識別し、元の入力シーケンスでの役割によってグループ化する。
我々のアプローチは、効率を保ちながらセグメント間のグローバル情報交換を改善することができる。
論文 参考訳(メタデータ) (2022-03-15T04:37:02Z) - Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文 参考訳(メタデータ) (2022-02-07T10:38:21Z) - Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing [110.4684789199555]
シナリオベースのセマンティックパーシングを導入し、最初に発話の「scenario」を曖昧にする必要がある元のタスクの変種を紹介します。
この定式化により、タスクの粗くきめ細かな側面を分離することが可能となり、それぞれがオフザシェルフニューラルネットワークモジュールで解決される。
私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を得られるようになります。
論文 参考訳(メタデータ) (2022-02-02T08:00:21Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Conversational Question Reformulation via Sequence-to-Sequence
Architectures and Pretrained Language Models [56.268862325167575]
本稿では、列列列構造と事前学習言語モデル(PLM)を用いた会話型質問修正(CQR)の実証的研究について述べる。
我々はPLMを利用して、CQRタスクの目的である最大推定におけるトークン・トークン・トークン・トークンの独立性の強い仮定に対処する。
我々は、最近導入されたCANARDデータセットの微調整PLMをドメイン内タスクとして評価し、TREC 2019 CAsT Trackのデータからドメイン外タスクとしてモデルを検証する。
論文 参考訳(メタデータ) (2020-04-04T11:07:54Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。