論文の概要: Improving Emotional Expression and Cohesion in Image-Based Playlist
Description and Music Topics: A Continuous Parameterization Approach
- arxiv url: http://arxiv.org/abs/2310.01248v1
- Date: Mon, 2 Oct 2023 14:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 21:19:28.782276
- Title: Improving Emotional Expression and Cohesion in Image-Based Playlist
Description and Music Topics: A Continuous Parameterization Approach
- Title(参考訳): 画像に基づくプレイリスト記述と音楽トピックにおける感情表現と凝集の改善:連続パラメータ化アプローチ
- Authors: Yuelyu Ji, Yuheng Song, Wei Wang, Ruoyi Xu, Zhongqian Xie, Huiyun Liu
- Abstract要約: 画像ベースプラットフォームにおけるテキスト生成には、テキストスタイルの精密な制御と感情表現の導入が必要である。
既存のアプローチは、しばしば生成されたテキストの外部要素の割合を制御するのに役立ちます。
本研究は,これらの制約を克服するために,制御されたテキスト生成のための連続化を提案する。
- 参考スコア(独自算出の注目度): 3.4846615790979025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text generation in image-based platforms, particularly for music-related
content, requires precise control over text styles and the incorporation of
emotional expression. However, existing approaches often need help to control
the proportion of external factors in generated text and rely on discrete
inputs, lacking continuous control conditions for desired text generation. This
study proposes Continuous Parameterization for Controlled Text Generation
(CPCTG) to overcome these limitations. Our approach leverages a Language Model
(LM) as a style learner, integrating Semantic Cohesion (SC) and Emotional
Expression Proportion (EEP) considerations. By enhancing the reward method and
manipulating the CPCTG level, our experiments on playlist description and music
topic generation tasks demonstrate significant improvements in ROUGE scores,
indicating enhanced relevance and coherence in the generated text.
- Abstract(参考訳): 画像ベースのプラットフォーム、特に音楽関連コンテンツにおけるテキスト生成には、テキストスタイルの精密な制御と感情表現の取り込みが必要である。
しかしながら、既存のアプローチでは、生成されたテキストにおける外部要因の比率を制御し、望ましいテキスト生成のための連続制御条件を欠いた離散入力に依存することがしばしば必要となる。
本研究では,これらの制約を克服するためのCPCTG(Continuous Parameterization for Controled Text Generation)を提案する。
本稿では,言語モデル(LM)をスタイル学習の手段として活用し,セマンティック・コヒージョン(SC)と感情表現抽出(EEP)を統合した。
報酬法の強化とCPCTGレベルの操作により,プレイリスト記述と音楽トピック生成タスクの実験により,ROUGEスコアの大幅な改善が示され,生成したテキストの関連性と一貫性が向上した。
関連論文リスト
- EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文 参考訳(メタデータ) (2024-11-23T04:38:51Z) - Semantic Token Reweighting for Interpretable and Controllable Text Embeddings in CLIP [46.53595526049201]
CLIPのようなVision-Language Models (VLM)内のテキストエンコーダは、画像と共有する埋め込み空間へのテキスト入力の変換において重要な役割を果たす。
解釈可能なテキスト埋め込み(SToRI)を構築するためのセマンティックトークン再重み付けフレームワークを提案する。
SToRIは文脈的重要性に基づいて意味的要素を差分重み付けすることでCLIPのテキスト符号化プロセスを洗練する。
論文 参考訳(メタデータ) (2024-10-11T02:42:13Z) - Harnessing the Plug-and-Play Controller by Prompting [12.705251690623495]
本稿では,事前学習言語モデル(PLM)を用いたテキスト生成におけるフレキシブル属性制御手法を提案する。
提案手法は、生成過程をPPCで導くことにより、生成したテキストの流布率を高めることを目的としている。
論文 参考訳(メタデータ) (2024-02-06T17:18:25Z) - Dynamic Relation Transformer for Contextual Text Block Detection [9.644204545582742]
コンテキストテキストブロック検出は、自然シーンの複雑さの中でコヒーレントテキストブロックを識別するタスクである。
従来の手法では、CTBDはコンピュータビジョンにおける視覚的関係抽出の課題であったり、シーケンスモデリングの問題であったりしていた。
グラフ生成問題として CTBD をフレーム化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-17T14:17:59Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - PLANET: Dynamic Content Planning in Autoregressive Transformers for
Long-form Text Generation [47.97523895218194]
本稿では,自己回帰型自己認識機構を利用してコンテンツ計画と表面実現を動的に行う新しい生成フレームワークを提案する。
本フレームワークは,単語のバッグをベースとした文レベルのセマンティックプランを維持するために,トランスフォーマーデコーダを潜在表現で強化する。
論文 参考訳(メタデータ) (2022-03-17T05:52:35Z) - COLD Decoding: Energy-based Constrained Text Generation with Langevin
Dynamics [69.8062252611486]
コールドデコーディングは、既製の左から右の言語モデルに直接適用可能なフレキシブルなフレームワークである。
制約付き生成タスクの実験は、自動評価と人的評価の両方の観点から、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2022-02-23T18:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。