論文の概要: Style Equalization: Unsupervised Learning of Controllable Generative
Sequence Models
- arxiv url: http://arxiv.org/abs/2110.02891v1
- Date: Wed, 6 Oct 2021 16:17:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 18:46:45.103378
- Title: Style Equalization: Unsupervised Learning of Controllable Generative
Sequence Models
- Title(参考訳): スタイル等化:制御可能な生成系列モデルの教師なし学習
- Authors: Jen-Hao Rick Chang, Ashish Shrivastava, Hema Swetha Koppula, Xiaoshuai
Zhang, Oncel Tuzel
- Abstract要約: 制御可能な生成系列モデルの教師なし学習において発生するトレーニング-推論ミスマッチに対処する。
スタイル等化と呼ばれるスタイル変換モジュールを導入することで、異なるコンテンツとスタイルサンプルを使用したトレーニングを可能にします。
我々のモデルは、実際のデータと類似した平均的な意見スコアを持つ最先端スタイルの複製を実現する。
- 参考スコア(独自算出の注目度): 23.649790871960644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controllable generative sequence models with the capability to extract and
replicate the style of specific examples enable many applications, including
narrating audiobooks in different voices, auto-completing and auto-correcting
written handwriting, and generating missing training samples for downstream
recognition tasks. However, typical training algorithms for these controllable
sequence generative models suffer from the training-inference mismatch, where
the same sample is used as content and style input during training but
different samples are given during inference. In this paper, we tackle the
training-inference mismatch encountered during unsupervised learning of
controllable generative sequence models. By introducing a style transformation
module that we call style equalization, we enable training using different
content and style samples and thereby mitigate the training-inference mismatch.
To demonstrate its generality, we applied style equalization to text-to-speech
and text-to-handwriting synthesis on three datasets. Our models achieve
state-of-the-art style replication with a similar mean style opinion score as
the real data. Moreover, the proposed method enables style interpolation
between sequences and generates novel styles.
- Abstract(参考訳): 特定の例のスタイルを抽出して複製する機能を備えた制御可能な生成シーケンスモデルは、さまざまな音声でオーディオブックをナレーションしたり、手書きによる自動補完や自動修正、下流認識タスクのトレーニングサンプルの欠如など、多くのアプリケーションを可能にする。
しかし、これらの制御可能なシーケンス生成モデルの典型的なトレーニングアルゴリズムは、トレーニング中に同じサンプルがコンテンツやスタイル入力として使用されるが、推論中に異なるサンプルが与えられるトレーニング推論ミスマッチに悩まされる。
本稿では,制御可能な生成系列モデルの教師なし学習において発生する学習ミスマッチに対処する。
スタイル等化と呼ばれるスタイル変換モジュールを導入することで、異なるコンテンツとスタイルサンプルを用いたトレーニングを可能にし、トレーニング参照ミスマッチを緩和します。
汎用性を示すために,3つのデータセットに対してテキスト音声合成とテキスト音声合成にスタイル等化を適用した。
我々のモデルは、実際のデータと似た平均的な意見スコアを持つ最先端スタイルの複製を実現する。
さらに,提案手法はシーケンス間のスタイル補間を可能にし,新しいスタイルを生成する。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens [31.568675300434816]
言語モデルは、トレーニングデータセットで過去のトークンが与えられた次のトークンの可能性を最大化するためにしばしば訓練される。
推論時間の間は、前述したトークンを入力として次のトークンを予測することによって、テキストを逐次かつ自動回帰的に生成する。
本稿では、モデル自己生成に基づく2つの簡単なアプローチを提案し、この訓練時間と推論時間との相違に対処する。
論文 参考訳(メタデータ) (2024-10-18T17:48:27Z) - Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - Prompt-Based Editing for Text Style Transfer [25.863546922455498]
テキストスタイル転送のためのプロンプトベースの編集手法を提案する。
我々は,プロンプトベースの生成問題を,学習自由なプロセスである分類問題に変換する。
我々のアプローチは、20倍のパラメータを持つ最先端のシステムよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-01-27T21:31:14Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Inference Time Style Control for Summarization [6.017006996402699]
本稿では,事前学習されたトランスフォーマライズモデル上で,サマリデコード中にデプロイ可能な2つの新しい手法を提案する。
単純さ制御による要約実験では、自動評価と人間の判断が共に、よりシンプルな言語で出力を生成するモデルを見つけました。
論文 参考訳(メタデータ) (2021-04-05T00:27:18Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Exploring Contextual Word-level Style Relevance for Unsupervised Style
Transfer [60.07283363509065]
教師なしのスタイル転送は、元のコンテンツを保持しながら入力文のスタイルを変更することを目的としている。
本稿では,各出力語がターゲットスタイルに関連性があることを活かした,新たな注目シーケンス・ツー・シーケンスモデルを提案する。
実験結果から,提案手法は転送精度とコンテンツ保存の両面から,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-05T10:24:28Z) - Vector Quantized Contrastive Predictive Coding for Template-based Music
Generation [0.0]
本稿では,トークンを基本単位に分類できる離散列の変種を生成するフレキシブルな手法を提案する。
本稿では,これらの圧縮表現を用いてテンプレートシーケンスの変動を,Transformerアーキテクチャの適切な注意パターンを用いて生成する方法を示す。
論文 参考訳(メタデータ) (2020-04-21T15:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。