論文の概要: Factor-Conditioned Speaking-Style Captioning
- arxiv url: http://arxiv.org/abs/2406.18910v1
- Date: Thu, 27 Jun 2024 05:52:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:06:48.878098
- Title: Factor-Conditioned Speaking-Style Captioning
- Title(参考訳): 因子依存型話し方キャプション
- Authors: Atsushi Ando, Takafumi Moriya, Shota Horiguchi, Ryo Masumura,
- Abstract要約: 本稿では、まず、話し方を表すフレーズを出力する因子条件付きキャプション(FCC)を紹介する。
FCCは、モデルが話し方的な要素を明示的に学習することを保証するキャプションを生成する。
また、まず、意味的正確性を保証するために、言語的要因を決定的に予測するgreedy-then-sampling (GtS)デコーディングを提案する。
- 参考スコア(独自算出の注目度): 32.67274840212351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel speaking-style captioning method that generates diverse descriptions while accurately predicting speaking-style information. Conventional learning criteria directly use original captions that contain not only speaking-style factor terms but also syntax words, which disturbs learning speaking-style information. To solve this problem, we introduce factor-conditioned captioning (FCC), which first outputs a phrase representing speaking-style factors (e.g., gender, pitch, etc.), and then generates a caption to ensure the model explicitly learns speaking-style factors. We also propose greedy-then-sampling (GtS) decoding, which first predicts speaking-style factors deterministically to guarantee semantic accuracy, and then generates a caption based on factor-conditioned sampling to ensure diversity. Experiments show that FCC outperforms the original caption-based training, and with GtS, it generates more diverse captions while keeping style prediction performance.
- Abstract(参考訳): 本稿では,話し方情報を正確に予測しながら,多様な記述を生成する新しい話し方キャプション手法を提案する。
従来の学習基準では、話し方だけでなく、構文語も含んでいるオリジナルの字幕を直接使用しており、これは話し方に関する情報の学習を妨げている。
この問題を解決するために、まず、話し方的要因(例えば、性別、ピッチなど)を表すフレーズを出力し、次にキャプションを生成し、モデルが話し方的要因を明示的に学習することを保証する因子条件付きキャプション(FCC)を導入する。
また、まず、意味的正確性を保証するために言語スタイルの因子を確定的に予測し、次に、因子条件によるサンプリングに基づいてキャプションを生成し、多様性を保証する。
実験によると、FCCはオリジナルのキャプションベースのトレーニングよりも優れており、GtSでは、スタイル予測のパフォーマンスを維持しながら、より多様なキャプションを生成する。
関連論文リスト
- StyleCap: Automatic Speaking-Style Captioning from Speech Based on
Speech and Language Self-supervised Learning Models [17.945821635380614]
StyleCapは、音声に現れる話し方の自然言語記述を生成する方法である。
StyleCapは、音声と自然言語の記述のペアデータで訓練される。
論文 参考訳(メタデータ) (2023-11-28T04:49:17Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Pragmatic Inference with a CLIP Listener for Contrastive Captioning [10.669625017690658]
そこで本研究では、ターゲット画像と、非常に類似した代替画像とを区別する識別キャプションを生成する手法を提案する。
提案手法は,話者とリスナ間の参照ゲームとしてキャプションを定式化する実用的な推論手法に基づいている。
論文 参考訳(メタデータ) (2023-06-15T02:22:28Z) - Towards Generating Diverse Audio Captions via Adversarial Training [33.76154801580643]
音声キャプションシステムの多様性を向上させるために,条件付き生成対向ネットワーク(C-GAN)を提案する。
キャプションジェネレータと2つのハイブリッドディスクリミネータが競合し、共同で学習し、キャプションジェネレータは、キャプションを生成するのに使用される標準エンコーダデコーダキャプションモデルとなることができる。
その結果,提案モデルでは,最先端手法と比較して,より多様性の高いキャプションを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T05:06:19Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Diverse Image Captioning with Grounded Style [19.434931809979282]
我々はCOCOアノテーションから多種多様な字幕を抽出するためのCOCOベースの拡張を提案する。
本研究では,変分オートエンコーダの潜時空間におけるスタイリング情報を符号化する。
SenticapとCOCOデータセットの実験は、正確なキャプションを生成するためのアプローチの能力を示している。
論文 参考訳(メタデータ) (2022-05-03T22:57:59Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。
SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。
本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文 参考訳(メタデータ) (2021-12-02T09:08:09Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Structural and Functional Decomposition for Personality Image Captioning
in a Communication Game [53.74847926974122]
パーソナリティ画像キャプション(PIC)は、性格特性が与えられた自然言語キャプションを持つ画像を記述することを目的としている。
本稿では,話者とリスナーのコミュニケーションゲームに基づくPICの新しい定式化を提案する。
論文 参考訳(メタデータ) (2020-11-17T10:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。