論文の概要: VScript: Controllable Script Generation with Audio-Visual Presentation
- arxiv url: http://arxiv.org/abs/2203.00314v1
- Date: Tue, 1 Mar 2022 09:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 20:33:19.487808
- Title: VScript: Controllable Script Generation with Audio-Visual Presentation
- Title(参考訳): VScript: オーディオ映像提示による制御可能なスクリプト生成
- Authors: Ziwei Ji, Yan Xu, I-Tsun Cheng, Samuel Cahyawijaya, Rita Frieske,
Etsuko Ishii, Min Zeng, Andrea Madotto, Pascale Fung
- Abstract要約: VScriptは、対話やシーン記述を含む完全なスクリプトを生成するコントロール可能なパイプラインである。
我々は階層構造を採用し、プロットを生成し、次にスクリプトとその音声視覚提示を行う。
実験の結果,本手法は,自動評価と人的評価の両方において,ベースラインよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 56.17400243061659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic script generation could save a considerable amount of resources and
offer inspiration to professional scriptwriters. We present VScript, a
controllable pipeline that generates complete scripts including dialogues and
scene descriptions, and presents visually using video retrieval and aurally
using text-to-speech for spoken dialogue. With an interactive interface, our
system allows users to select genres and input starting words that control the
theme and development of the generated script. We adopt a hierarchical
structure, which generates the plot, then the script and its audio-visual
presentation. We also introduce a novel approach to plot-guided dialogue
generation by treating it as an inverse dialogue summarization. Experiment
results show that our approach outperforms the baselines on both automatic and
human evaluations, especially in terms of genre control.
- Abstract(参考訳): 自動スクリプト生成は大量のリソースを節約し、プロの脚本家にインスピレーションを与える。
本稿では,対話やシーン記述を含む完全なスクリプトを生成する制御可能なパイプラインであるVScriptについて述べる。
対話型インタフェースにより,ユーザはジャンルを選択でき,テーマや生成したスクリプトの開発を制御できる単語を入力できる。
我々は階層構造を採用し、プロットを生成し、スクリプトとその音声視覚提示を行う。
また、逆対話要約として扱うことにより、プロット誘導対話生成に対する新しいアプローチを導入する。
実験の結果,本手法は,特にジャンル制御の観点から,自動評価と人間評価の両方において,ベースラインを上回っていることがわかった。
関連論文リスト
- Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling [62.25533750469467]
そこで本稿では,正確な音声タイムスタンプと話者識別機能を備えた,対話の完全な書き起こしを生成する音声-視覚的手法を提案する。
本手法は,Seinfeld,Fraiser,Scrubsなど,様々なテレビシットコムに対して評価を行った。
このシステムは,最新のストリーミングサービスで利用可能なビデオのアクセシビリティを向上させるために,字幕の自動生成に有用であると考えられる。
論文 参考訳(メタデータ) (2024-01-22T15:26:01Z) - Attribute Controlled Dialogue Prompting [31.09791656949115]
本稿では,対話生成のための新しいインスタンス固有のプロンプトチューニングアルゴリズムを提案する。
本手法はベースラインの促進に優れ,全パラメータの5%~6%の微調整に匹敵する。
論文 参考訳(メタデータ) (2023-07-11T12:48:55Z) - Contextual Dynamic Prompting for Response Generation in Task-oriented
Dialog Systems [8.419582942080927]
応答生成はタスク指向対話システムにおいて重要なコンポーネントの1つである。
本稿では,対話コンテキストからプロンプトを学習するテキスト動的プロンプトを実現する手法を提案する。
文脈的動的プロンプトは,3つの絶対点で構造化されたテキスト合成スコア citemehri-etal 2019 を用いて応答生成を改善することを示す。
論文 参考訳(メタデータ) (2023-01-30T20:26:02Z) - Dialog2API: Task-Oriented Dialogue with API Description and Example
Programs [57.336201096903466]
タスク指向対話のための新しいパラダイム、Dialog2APIを導入し、機能を大幅に拡張し、シームレスな対話体験を提供する。
また、対話ポリシーを管理し、適切な自然言語応答を生成することでユーザと対話する。
Dialog2APIは、ソフトウェア自動化やカスタマーサービスなど、多くのアプリケーションシナリオで動作する。
論文 参考訳(メタデータ) (2022-12-20T01:52:46Z) - A Benchmark for Understanding and Generating Dialogue between Characters
in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。
マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。
DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文 参考訳(メタデータ) (2022-09-18T10:19:04Z) - DialogueScript: Using Dialogue Agents to Produce a Script [2.897111293806727]
そこで本研究では,人格の異なるエージェントを用いてスクリプトを生成する手法を提案する。
スクリプト内の文字インタラクションを管理するために,シミュレートされたドラマティックネットワークを採用している。
論文 参考訳(メタデータ) (2022-06-16T19:57:01Z) - Controlled Cue Generation for Play Scripts [0.02578242050187029]
大規模な脚本データセットを用いて対話から演劇キュー生成の新しいタスクを提案する。
本稿では,対話/手がかり判別器に条件付き言語モデルを用いて,対話の効果を高めるためにキューをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2021-12-13T19:00:17Z) - Conversation Learner -- A Machine Teaching Tool for Building Dialog
Managers for Task-Oriented Dialog Systems [57.082447660944965]
Conversation Learnerは、ダイアログマネージャを構築するための機械学習ツールである。
ダイアログ作成者が慣れ親しんだツールを使ってダイアログフローを作成し、ダイアログフローをパラメトリックモデルに変換することができる。
ユーザシステムダイアログをトレーニングデータとして活用することで、ダイアログ作成者が時間とともにダイアログマネージャを改善することができる。
論文 参考訳(メタデータ) (2020-04-09T00:10:54Z) - Multimodal Transformer with Pointer Network for the DSTC8 AVSD Challenge [48.905496060794114]
第8回対話システム技術チャレンジのAVSDトラックへの提出について述べる。
入力ビデオのテキスト機能と非テキスト機能を組み合わせるために,ドット商品の注意を取り入れた。
自動測定では高い性能を達成し, 人的評価では5位, 6位となった。
論文 参考訳(メタデータ) (2020-02-25T06:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。