Fugu-MT 論文翻訳(概要): Segment-Level Diffusion: A Framework for Controllable Long-Form Generation with Diffusion Language Models

論文の概要: Segment-Level Diffusion: A Framework for Controllable Long-Form Generation with Diffusion Language Models

arxiv url: http://arxiv.org/abs/2412.11333v1
Date: Sun, 15 Dec 2024 22:47:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.135111
Title: Segment-Level Diffusion: A Framework for Controllable Long-Form Generation with Diffusion Language Models
Title（参考訳）: Segment-Level Diffusion: 拡散言語モデルによる制御可能な長期生成のためのフレームワーク
Authors: Xiaochen Zhu, Georgi Karadzhov, Chenxi Whitehouse, Andreas Vlachos,
Abstract要約: トークンレベルの拡散は語順依存性を見落とし、短い出力ウィンドウを強制する一方、パスレベルの拡散は長文の堅牢な表現を学習するのに苦労する。テキストセグメンテーションによる拡散に基づくテキスト生成を促進するフレームワークであるSegment-Level Diffusion (SLD)を提案する。
参考スコア（独自算出の注目度）: 12.446047799880587
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have shown promise in text generation but often struggle with generating long, coherent, and contextually accurate text. Token-level diffusion overlooks word-order dependencies and enforces short output windows, while passage-level diffusion struggles with learning robust representation for long-form text. To address these challenges, we propose Segment-Level Diffusion (SLD), a framework that enhances diffusion-based text generation through text segmentation, robust representation training with adversarial and contrastive learning, and improved latent-space guidance. By segmenting long-form outputs into separate latent representations and decoding them with an autoregressive decoder, SLD simplifies diffusion predictions and improves scalability. Experiments on XSum, ROCStories, DialogSum, and DeliData demonstrate that SLD achieves competitive or superior performance in fluency, coherence, and contextual compatibility across automatic and human evaluation metrics comparing with other diffusion and autoregressive baselines. Ablation studies further validate the effectiveness of our segmentation and representation learning strategies.
Abstract（参考訳）: 拡散モデルはテキスト生成において有望であるが、長く、一貫性があり、文脈的に正確なテキストを生成するのにしばしば苦労する。トークンレベルの拡散は語順依存性を見落とし、短い出力ウィンドウを強制する一方、パスレベルの拡散は長文の堅牢な表現を学習するのに苦労する。これらの課題に対処するために,テキストセグメンテーションによる拡散に基づくテキスト生成を促進するフレームワークであるSegment-Level Diffusion (SLD)を提案する。長期出力を別々の潜在表現に分割し、自己回帰デコーダでデコードすることで、SLDは拡散予測を単純化し、スケーラビリティを向上させる。 XSum、ROCStories、DialogSum、DeliDataの実験では、SLDは、他の拡散や自己回帰ベースラインと比較して、自動評価指標と人的評価指標の間で、流速、コヒーレンス、コンテキスト整合性において、競争力または優れたパフォーマンスを達成することを示した。アブレーション研究は、セグメンテーションと表現学習戦略の有効性をさらに検証する。

関連論文リスト

Hierarchical Vision-Language Alignment for Text-to-Image Generation via Diffusion Models [0.7366405857677226]
Vision-Language Aligned Diffusion(VLAD)モデルは、デュアルストリーム戦略を通じて課題に対処する生成フレームワークである。 VLADはテキストプロンプトをグローバルおよびローカルな表現に分解し、視覚的特徴と正確に一致させる。高忠実度画像を生成するための階層的ガイダンスを備えた多段階拡散プロセスが組み込まれている。
論文参考訳（メタデータ） (2025-01-01T18:27:13Z)
Mind the Gap: A Generalized Approach for Cross-Modal Embedding Alignment [0.0]
Retrieval-Augmented Generation (RAG) システムは、意味的ギャップによって異なるテキストモダリティ間でコンテキストを検索する。本稿では,これらのギャップを効率的に埋める汎用投影法を提案する。私たちのアプローチでは、トレーニングや推論に最小限のリソースを必要とするため、スピード、正確性、データ効率を重視しています。
論文参考訳（メタデータ） (2024-10-30T20:28:10Z)
LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。 LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-04-16T17:47:16Z)
Enforcing Paraphrase Generation via Controllable Latent Diffusion [60.82512050963046]
textitLatent textitDiffusion textitParaphraser(LDP)を提案する。実験により, LDPはベースラインに比べて改良され, 多様なパラフレーズ生成を達成できることが示された。
論文参考訳（メタデータ） (2024-04-13T09:24:32Z)
Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文参考訳（メタデータ） (2024-02-26T15:01:16Z)
Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-18T16:34:18Z)
TESS: Text-to-Text Self-Conditioned Simplex Diffusion [56.881170312435444]
テキストからテキストへの自己条件付きSimplex Diffusionは、新しい形式のセルフコンディショニングを採用し、学習された埋め込み空間ではなく、ロジット単純空間に拡散プロセスを適用する。我々は、TESSが最先端の非自己回帰モデルより優れており、性能の低下を最小限に抑えた拡散ステップを少なくし、事前訓練された自己回帰列列列列モデルと競合することを示した。
論文参考訳（メタデータ） (2023-05-15T06:33:45Z)
Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文参考訳（メタデータ） (2023-03-03T18:59:47Z)
DiscoDVT: Generating Long Text with Discourse-Aware Discrete Variational Transformer [40.10695204278747]
本稿では,不整合問題に対処する談話対応離散変分変換器DiscoDVTを提案する。本研究では、2つのオープンなストーリー生成データセットについて広範な実験を行い、より長い範囲のコヒーレンスを持つ長文を生成するためにモデルを導く談話構造に対して有意義な対応を学習していることを示す。
論文参考訳（メタデータ） (2021-10-12T13:41:06Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。