論文の概要: DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text
Diffusion
- arxiv url: http://arxiv.org/abs/2305.11517v1
- Date: Fri, 19 May 2023 08:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 15:25:06.743905
- Title: DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text
Diffusion
- Title(参考訳): DiffuSIA:エンコーダ-デコーダテキスト拡散のためのスパイラルインタラクションアーキテクチャ
- Authors: Chao-Hong Tan, Jia-Chen Gu, Zhen-Hua Ling
- Abstract要約: エンコーダ-デコーダテキスト拡散(DiffuSIA)のためのスパイラル相互作用アーキテクチャを提案する。
DiffuSIAは、パラフレーズ、テキスト単純化、質問生成、オープンドメイン対話生成を含む4つのテキスト生成タスクで評価される。
- 参考スコア(独自算出の注目度): 40.246665336996934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have emerged as the new state-of-the-art family of deep
generative models, and their promising potentials for text generation have
recently attracted increasing attention. Existing studies mostly adopt a single
encoder architecture with partially noising processes for conditional text
generation, but its degree of flexibility for conditional modeling is limited.
In fact, the encoder-decoder architecture is naturally more flexible for its
detachable encoder and decoder modules, which is extensible to multilingual and
multimodal generation tasks for conditions and target texts. However, the
encoding process of conditional texts lacks the understanding of target texts.
To this end, a spiral interaction architecture for encoder-decoder text
diffusion (DiffuSIA) is proposed. Concretely, the conditional information from
encoder is designed to be captured by the diffusion decoder, while the target
information from decoder is designed to be captured by the conditional encoder.
These two types of information flow run through multilayer interaction spirally
for deep fusion and understanding. DiffuSIA is evaluated on four text
generation tasks, including paraphrase, text simplification, question
generation, and open-domain dialogue generation. Experimental results show that
DiffuSIA achieves competitive performance among previous methods on all four
tasks, demonstrating the effectiveness and generalization ability of the
proposed method.
- Abstract(参考訳): 拡散モデルが、深層生成モデルの新たな最先端ファミリーとして登場し、テキスト生成の有望なポテンシャルが最近注目を集めている。
既存の研究では、条件付きテキスト生成のために部分的にノーミングプロセスを持つ単一のエンコーダアーキテクチャを採用することが多いが、条件付きモデリングの柔軟性は限られている。
実際、エンコーダ-デコーダアーキテクチャは、条件や対象テキストに対する多言語およびマルチモーダル生成タスクに拡張可能な、分離可能なエンコーダとデコーダモジュールに対して、自然に柔軟である。
しかし、条件付きテキストの符号化プロセスは、ターゲットテキストの理解に欠ける。
この目的のために、エンコーダ-デコーダテキスト拡散(DiffuSIA)のためのスパイラル相互作用アーキテクチャを提案する。
具体的には、エンコーダの条件情報は拡散復号器によってキャプチャされるように設計され、デコーダの目標情報は条件エンコーダによってキャプチャされるように設計されている。
これら2種類の情報フローは、深い融合と理解のために多層的な相互作用をスパイラルに流れる。
diffusiaは、パラフレーズ、テキスト単純化、質問生成、オープンドメイン対話生成を含む4つのテキスト生成タスクで評価される。
実験結果から,DiffuSIAは従来の4つの課題すべてにおいて競合性能を達成し,提案手法の有効性と一般化能力を実証した。
関連論文リスト
- A multimodal LLM for the non-invasive decoding of spoken text from brain recordings [0.4187344935012482]
fMRI信号から音声テキストを復号するためのマルチモーダルLLMを提案する。
提案アーキテクチャは, (i) 特定のトランスフォーマーから派生したエンコーダ上に構築され, エンコーダに付加された埋め込み層と, 最先端のアテンション機構が組み込まれている。
fMRIと会話信号が同期的に記録される、人間-ロボット相互作用と人間-ロボット相互作用のセットからなるコーパス上で行われたベンチマーク。
論文 参考訳(メタデータ) (2024-09-29T14:03:39Z) - TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition [5.525052547053668]
多様な応用により、シーンテキスト認識がますます注目を集めている。
最先端のほとんどのメソッドは、アテンション機構を備えたエンコーダ・デコーダフレームワークを採用しており、左から右へ自動回帰的にテキストを生成する。
本稿では,並列かつ反復的なデコーダを用いて,簡単なデコード戦略を採用する方法を提案する。
論文 参考訳(メタデータ) (2023-12-19T08:03:19Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Deep Latent-Variable Models for Text Generation [7.119436003155924]
ディープニューラルネットワークベースのエンドツーエンドアーキテクチャが広く採用されている。
エンドツーエンドのアプローチは、以前は複雑な手作りのルールで設計されていたすべてのサブモジュールを、全体的なエンコード・デコードアーキテクチャに融合させる。
この論文は、テキスト生成のための標準エンコーダデコーダモデルよりも、潜伏変数の深いモデルがいかに改善できるかを示す。
論文 参考訳(メタデータ) (2022-03-03T23:06:39Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。