論文の概要: Stylized Data-to-Text Generation: A Case Study in the E-Commerce Domain
- arxiv url: http://arxiv.org/abs/2305.03256v1
- Date: Fri, 5 May 2023 03:02:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 15:26:34.035690
- Title: Stylized Data-to-Text Generation: A Case Study in the E-Commerce Domain
- Title(参考訳): スティル化データ・テキスト・ジェネレーション : 電子商取引分野を事例として
- Authors: Liqiang Jing and Xuemeng Song and Xuming Lin and Zhongzhou Zhao and
Wei Zhou and Liqiang Nie
- Abstract要約: 本稿では,特定のスタイルに従ってコヒーレントテキストを生成することを目的とした新しいタスク,すなわちスタイル化されたデータ・テキスト生成を提案する。
このタスクは、生成されたテキストのロジック、構造化されていないスタイル参照、バイアスのあるトレーニングサンプルという3つの課題のため、簡単ではない。
本稿では,論理計画型データ埋め込み,マスク型スタイル埋め込み,非バイアス型スタイリングテキスト生成の3つのコンポーネントからなる,新しいスタイル付きデータ・テキスト生成モデルであるStyleD2Tを提案する。
- 参考スコア(独自算出の注目度): 53.22419717434372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing data-to-text generation efforts mainly focus on generating a
coherent text from non-linguistic input data, such as tables and
attribute-value pairs, but overlook that different application scenarios may
require texts of different styles. Inspired by this, we define a new task,
namely stylized data-to-text generation, whose aim is to generate coherent text
for the given non-linguistic data according to a specific style. This task is
non-trivial, due to three challenges: the logic of the generated text,
unstructured style reference, and biased training samples. To address these
challenges, we propose a novel stylized data-to-text generation model, named
StyleD2T, comprising three components: logic planning-enhanced data embedding,
mask-based style embedding, and unbiased stylized text generation. In the first
component, we introduce a graph-guided logic planner for attribute organization
to ensure the logic of generated text. In the second component, we devise
feature-level mask-based style embedding to extract the essential style signal
from the given unstructured style reference. In the last one, pseudo triplet
augmentation is utilized to achieve unbiased text generation, and a
multi-condition based confidence assignment function is designed to ensure the
quality of pseudo samples. Extensive experiments on a newly collected dataset
from Taobao have been conducted, and the results show the superiority of our
model over existing methods.
- Abstract(参考訳): 既存のデータ-テキスト生成の取り組みは、主にテーブルや属性-値ペアのような非言語的な入力データから一貫性のあるテキストを生成することに重点を置いていますが、異なるアプリケーションシナリオは異なるスタイルのテキストを必要とするかもしれません。
そこで我々は,与えられた非言語データに対して,特定のスタイルに従ってコヒーレントなテキストを生成することを目的とした,スタイリズド・データ・ツー・テキスト生成という新しいタスクを定義した。
生成したテキストのロジック、構造化されていないスタイル参照、バイアスのあるトレーニングサンプルという3つの課題がある。
そこで,これらの課題に対処するために,論理計画エンハンスドデータ埋め込み,マスクベーススタイル埋め込み,非バイアススタイリッシュテキスト生成という3つのコンポーネントからなる,新しいスタイリッシュなデータ対テキスト生成モデルstyled2tを提案する。
第1のコンポーネントでは,属性整理のためのグラフ誘導論理プランナを導入し,生成したテキストの論理を確実にする。
第2のコンポーネントでは、与えられた非構造化スタイル参照から必須のスタイル信号を抽出するために、特徴レベルマスクベースのスタイル埋め込みを考案する。
最後に、疑似三重項拡張を利用して偏りのないテキスト生成を行い、疑似サンプルの品質を保証するために多条件信頼割当関数を設計する。
タオバオから新たに収集したデータセットを広範囲に実験した結果,既存の手法よりも優れたモデルが得られた。
関連論文リスト
- Layout Agnostic Scene Text Image Synthesis with Diffusion Models [42.37340959594495]
SceneTextGenは、事前に定義されたレイアウトステージの必要性を回避するために特別に設計された、拡散ベースの新しいモデルである。
SceneTextGenの新規性は、3つの重要なコンポーネントを統合している: 詳細なタイポグラフィ特性をキャプチャする文字レベルエンコーダと、不要なテキスト生成とマイナーな文字不正確な問題に対処する文字レベルインスタンスセグメンテーションモデルと、ワードレベルスポッティングモデルである。
論文 参考訳(メタデータ) (2024-06-03T07:20:34Z) - PixT3: Pixel-based Table-To-Text Generation [66.96636025277536]
本稿では,線形化と入力サイズ制限の課題を克服するマルチモーダルテーブル・トゥ・テキスト・モデルPixT3を提案する。
ToTToとLogic2Textベンチマークの実験では、PixT3はテキストのみで動作するジェネレータよりも競争力があり、優れていることが示されている。
論文 参考訳(メタデータ) (2023-11-16T11:32:47Z) - Specializing Small Language Models towards Complex Style Transfer via
Latent Attribute Pre-Training [29.143887057933327]
複雑なテキストスタイルの転送タスクの概念を導入し、2つの広く適用可能なシナリオに基づいて複雑なテキストデータセットを構築した。
我々のデータセットは、ゲームGenshin Impactの700文と1000文からなる、この種の最初の大規模データセットである。
論文 参考訳(メタデータ) (2023-09-19T21:01:40Z) - Style Generation: Image Synthesis based on Coarsely Matched Texts [10.939482612568433]
テキストベースのスタイル生成と呼ばれる新しいタスクを導入し、2段階の生成対角ネットワークを提案する。
第1ステージは、文特徴付き全体画像スタイルを生成し、第2ステージは、合成特徴付きで生成されたスタイルを洗練する。
本研究は,テキスト・イメージアライメントやストーリー・ビジュアライゼーションといった様々な応用によって実証された。
論文 参考訳(メタデータ) (2023-09-08T21:51:11Z) - Informative Text Generation from Knowledge Triples [56.939571343797304]
本稿では,トレーニング中に学習した有用な知識を記憶するために,メモリネットワークを利用した新しいメモリ拡張ジェネレータを提案する。
我々は、新しい設定のためのWebNLGからデータセットを導き、我々のモデルの有効性を調べるための広範な実験を行う。
論文 参考訳(メタデータ) (2022-09-26T14:35:57Z) - Data-to-text Generation with Variational Sequential Planning [74.3955521225497]
非言語的な入力からテキスト出力を生成することを目的としたデータ・ツー・テキスト生成の課題について考察する。
協調的かつ有意義な方法で高レベルの情報を整理する責任を負う計画要素を付加したニューラルモデルを提案する。
我々は、計画と生成のステップをインターリーブしながら、構造化された変動モデルで逐次、潜在計画を推測する。
論文 参考訳(メタデータ) (2022-02-28T13:17:59Z) - Towards Faithful Neural Table-to-Text Generation with Content-Matching
Constraints [63.84063384518667]
そこで本研究では,トランスフォーマーをベースとした新たな生成フレームワークを提案する。
忠実度を強制する手法の中核となる技術は、テーブル-テキストの最適トランスポート・マッチング・ロスである。
忠実度を評価するため,テーブル・ツー・テキスト生成問題に特化した新しい自動尺度を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:54:26Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。