論文の概要: DynE: Dynamic Ensemble Decoding for Multi-Document Summarization
- arxiv url: http://arxiv.org/abs/2006.08748v1
- Date: Mon, 15 Jun 2020 20:40:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 04:16:51.370882
- Title: DynE: Dynamic Ensemble Decoding for Multi-Document Summarization
- Title(参考訳): DynE:マルチドキュメント要約のための動的アンサンブルデコーディング
- Authors: Chris Hokamp, Demian Gholipour Ghalandari, Nghia The Pham, John Glover
- Abstract要約: 異なる入力に対して同一モデルの複数のインスタンスの出力をアンサンブルする単純な復号法を提案する。
我々は,複数の文書要約データセットの最先端結果を得る。
- 参考スコア(独自算出の注目度): 5.197307534263253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence-to-sequence (s2s) models are the basis for extensive work in natural
language processing. However, some applications, such as multi-document
summarization, multi-modal machine translation, and the automatic post-editing
of machine translation, require mapping a set of multiple distinct inputs into
a single output sequence. Recent work has introduced bespoke architectures for
these multi-input settings, and developed models which can handle increasingly
longer inputs; however, the performance of special model architectures is
limited by the available in-domain training data. In this work we propose a
simple decoding methodology which ensembles the output of multiple instances of
the same model on different inputs. Our proposed approach allows models trained
for vanilla s2s tasks to be directly used in multi-input settings. This works
particularly well when each of the inputs has significant overlap with the
others, as when compressing a cluster of news articles about the same event
into a single coherent summary, and we obtain state-of-the-art results on
several multi-document summarization datasets.
- Abstract(参考訳): sequence-to-sequence(s2s)モデルは、自然言語処理における広範な作業の基礎である。
しかし、マルチドキュメント要約、マルチモーダル機械翻訳、機械翻訳の自動後編集といった応用では、複数の異なる入力の集合を単一の出力シーケンスにマッピングする必要がある。
最近の研究は、これらのマルチインプット設定のためのbespokeアーキテクチャを導入し、より長い入力を処理できるモデルを開発したが、特別なモデルアーキテクチャの性能は、利用可能なドメイン内のトレーニングデータによって制限されている。
本研究では,異なる入力に対して同一モデルの複数のインスタンスの出力をアンサンブルする単純な復号手法を提案する。
提案手法により,バニラs2sタスクのために訓練されたモデルを直接マルチ入力設定で使用することができる。
同一イベントに関するニュース記事の集合を1つの一貫性のある要約に圧縮する場合など、各入力が他と大きく重なり合う場合に特に有効であり、複数の文書要約データセットに対して最先端の結果が得られる。
関連論文リスト
- VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - Task-Based MoE for Multitask Multilingual Machine Translation [58.20896429151824]
Mixture-of-experts (MoE)アーキテクチャは、多くのアプリケーションで深層モデルのトレーニングにおいて、多様なタスクのための強力な手法であることが証明されている。
本研究では,タスク情報を異なる粒度レベルでMoEモデルに組み込む新しい手法を,動的タスクベースアダプタの共有により設計する。
論文 参考訳(メタデータ) (2023-08-30T05:41:29Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - VUT: Versatile UI Transformer for Multi-Modal Multi-Task User Interface
Modeling [11.569380762858815]
VUTはVersatile UI Transformerで、マルチモーダル入力と5つの異なるタスクを同じモデルで同時に実行します。
本モデルは,UIイメージと構造を共同で符号化するマルチモーダルトランスフォーマーエンコーダと,UI構造が存在しない場合にUIオブジェクト検出を行う。
論文 参考訳(メタデータ) (2021-12-10T17:37:26Z) - PRIMER: Pyramid-based Masked Sentence Pre-training for Multi-document
Summarization [16.830963601598242]
要約に着目した多文書表現のための事前学習モデルであるPRIMERを提案する。
具体的には,マルチドキュメント入力に適した適切な入力変換とグローバルアテンションを備えたLongformerアーキテクチャを採用する。
私たちのモデルであるPRIMERは、これらのほとんどの設定において、現在の最先端モデルよりも大きなマージンでパフォーマンスします。
論文 参考訳(メタデータ) (2021-10-16T07:22:24Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - Representing Unordered Data Using Complex-Weighted Multiset Automata [23.68657135308002]
我々は、既存のニューラルネットワークアーキテクチャのマルチセット表現を、我々の特別なケースとみなすことができることを示す。
すなわち、正弦波関数を用いたトランスフォーマーモデルの位置表現に対して、新しい理論的、直感的な正当性を与える。
私たちはDeepSetsモデルを複雑な数に拡張し、既存のモデルをそのタスクの1つの拡張で上回るようにします。
論文 参考訳(メタデータ) (2020-01-02T20:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。