Fugu-MT 論文翻訳(概要): VScript: Controllable Script Generation with Audio-Visual Presentation

論文の概要: VScript: Controllable Script Generation with Audio-Visual Presentation

arxiv url: http://arxiv.org/abs/2203.00314v1
Date: Tue, 1 Mar 2022 09:43:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-02 20:33:19.487808
Title: VScript: Controllable Script Generation with Audio-Visual Presentation
Title（参考訳）: VScript: オーディオ映像提示による制御可能なスクリプト生成
Authors: Ziwei Ji, Yan Xu, I-Tsun Cheng, Samuel Cahyawijaya, Rita Frieske, Etsuko Ishii, Min Zeng, Andrea Madotto, Pascale Fung
Abstract要約: VScriptは、対話やシーン記述を含む完全なスクリプトを生成するコントロール可能なパイプラインである。我々は階層構造を採用し、プロットを生成し、次にスクリプトとその音声視覚提示を行う。実験の結果,本手法は,自動評価と人的評価の両方において,ベースラインよりも優れていることがわかった。
参考スコア（独自算出の注目度）: 56.17400243061659
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic script generation could save a considerable amount of resources and offer inspiration to professional scriptwriters. We present VScript, a controllable pipeline that generates complete scripts including dialogues and scene descriptions, and presents visually using video retrieval and aurally using text-to-speech for spoken dialogue. With an interactive interface, our system allows users to select genres and input starting words that control the theme and development of the generated script. We adopt a hierarchical structure, which generates the plot, then the script and its audio-visual presentation. We also introduce a novel approach to plot-guided dialogue generation by treating it as an inverse dialogue summarization. Experiment results show that our approach outperforms the baselines on both automatic and human evaluations, especially in terms of genre control.
Abstract（参考訳）: 自動スクリプト生成は大量のリソースを節約し、プロの脚本家にインスピレーションを与える。本稿では,対話やシーン記述を含む完全なスクリプトを生成する制御可能なパイプラインであるVScriptについて述べる。対話型インタフェースにより,ユーザはジャンルを選択でき,テーマや生成したスクリプトの開発を制御できる単語を入力できる。我々は階層構造を採用し、プロットを生成し、スクリプトとその音声視覚提示を行う。また、逆対話要約として扱うことにより、プロット誘導対話生成に対する新しいアプローチを導入する。実験の結果,本手法は,特にジャンル制御の観点から,自動評価と人間評価の両方において,ベースラインを上回っていることがわかった。

関連論文リスト

The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation [95.18045807704284]
対話・シネマティック・ビデオ生成のためのエンドツーエンドのエージェント・フレームワークを提案する。 ScripterAgentは粗い対話を微粒で実行可能なシネマティックスクリプトに変換するように訓練されている。本フレームワークは,テスト対象のすべてのビデオモデルに対して,スクリプトの忠実度と時間的忠実度を大幅に向上させる。
論文参考訳（メタデータ） (2026-01-25T08:10:28Z)
Linear Script Representations in Speech Foundation Models Enable Zero-Shot Transliteration [70.84108518476744]
我々は,スクリプトが多言語音声モデルのアクティベーション空間に線形に符号化されていることを示し,推論時にアクティベーションを変更することで,出力スクリプトを直接制御できることを示した。本稿では,Whisperの全モデルサイズにまたがる競合性能を観測し,音声認識出力のスクリプトに対するポストホック制御を実現する手法を提案する。
論文参考訳（メタデータ） (2026-01-06T10:45:04Z)
ScreenWriter: Automatic Screenplay Generation and Movie Summarisation [55.20132267309382]
ビデオコンテンツは、ユーザーがキープロットポイントをリコールしたり、見ずに概要を見ることができるようなテキスト記述や要約の需要を駆り立ててきた。本稿では,映像のみを操作し,対話,話者名,シーンブレーク,視覚的記述を含む出力を生成するScreenWriterを提案する。 ScreenWriterは、映像を視覚ベクトルのシーケンスに基づいてシーンに分割する新しいアルゴリズムを導入し、アクターの顔のデータベースに基づく文字名決定の難しい問題に対する新しい方法を提案する。
論文参考訳（メタデータ） (2024-10-17T07:59:54Z)
Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文参考訳（メタデータ） (2024-06-12T04:48:36Z)
Contextual Dynamic Prompting for Response Generation in Task-oriented Dialog Systems [8.419582942080927]
応答生成はタスク指向対話システムにおいて重要なコンポーネントの1つである。本稿では,対話コンテキストからプロンプトを学習するテキスト動的プロンプトを実現する手法を提案する。文脈的動的プロンプトは,3つの絶対点で構造化されたテキスト合成スコア citemehri-etal 2019 を用いて応答生成を改善することを示す。
論文参考訳（メタデータ） (2023-01-30T20:26:02Z)
A Benchmark for Understanding and Generating Dialogue between Characters in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。 DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文参考訳（メタデータ） (2022-09-18T10:19:04Z)
DialogueScript: Using Dialogue Agents to Produce a Script [2.897111293806727]
そこで本研究では,人格の異なるエージェントを用いてスクリプトを生成する手法を提案する。スクリプト内の文字インタラクションを管理するために,シミュレートされたドラマティックネットワークを採用している。
論文参考訳（メタデータ） (2022-06-16T19:57:01Z)
Controlled Cue Generation for Play Scripts [0.02578242050187029]
大規模な脚本データセットを用いて対話から演劇キュー生成の新しいタスクを提案する。本稿では,対話/手がかり判別器に条件付き言語モデルを用いて,対話の効果を高めるためにキューをどのように利用できるかを示す。
論文参考訳（メタデータ） (2021-12-13T19:00:17Z)
Conversation Learner -- A Machine Teaching Tool for Building Dialog Managers for Task-Oriented Dialog Systems [57.082447660944965]
Conversation Learnerは、ダイアログマネージャを構築するための機械学習ツールである。ダイアログ作成者が慣れ親しんだツールを使ってダイアログフローを作成し、ダイアログフローをパラメトリックモデルに変換することができる。ユーザシステムダイアログをトレーニングデータとして活用することで、ダイアログ作成者が時間とともにダイアログマネージャを改善することができる。
論文参考訳（メタデータ） (2020-04-09T00:10:54Z)
Multimodal Transformer with Pointer Network for the DSTC8 AVSD Challenge [48.905496060794114]
第8回対話システム技術チャレンジのAVSDトラックへの提出について述べる。入力ビデオのテキスト機能と非テキスト機能を組み合わせるために,ドット商品の注意を取り入れた。自動測定では高い性能を達成し, 人的評価では5位, 6位となった。
論文参考訳（メタデータ） (2020-02-25T06:41:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。