論文の概要: A Multi-Agent Framework for Automated Qinqiang Opera Script Generation Using Large Language Models
- arxiv url: http://arxiv.org/abs/2504.15552v1
- Date: Tue, 22 Apr 2025 03:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 22:37:04.080423
- Title: A Multi-Agent Framework for Automated Qinqiang Opera Script Generation Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたQinqiang Opera Scriptの自動生成のためのマルチエージェントフレームワーク
- Authors: Gengxian Cao, Fengyuan Li, Hong Duan, Ye Yang, Bofeng Wang, Donghe Li,
- Abstract要約: 本稿では,大規模言語モデル,視覚生成,テキストを音声合成に統合することにより,チンカングオペラの終末制作を自動化する新しいマルチエージェントフレームワークを提案する。
Dou E Yuanのケーススタディでは、スクリプトの忠実度が3.8、ビジュアルコヒーレンスが3.5、音声の精度が3.6、シングルエージェントベースラインが0.3ポイント向上した。
- 参考スコア(独自算出の注目度): 2.919625687404969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel multi-Agent framework that automates the end to end production of Qinqiang opera by integrating Large Language Models , visual generation, and Text to Speech synthesis. Three specialized agents collaborate in sequence: Agent1 uses an LLM to craft coherent, culturally grounded scripts;Agent2 employs visual generation models to render contextually accurate stage scenes; and Agent3 leverages TTS to produce synchronized, emotionally expressive vocal performances. In a case study on Dou E Yuan, the system achieved expert ratings of 3.8 for script fidelity, 3.5 for visual coherence, and 3.8 for speech accuracy-culminating in an overall score of 3.6, a 0.3 point improvement over a Single Agent baseline. Ablation experiments demonstrate that removing Agent2 or Agent3 leads to drops of 0.4 and 0.5 points, respectively, underscoring the value of modular collaboration. This work showcases how AI driven pipelines can streamline and scale the preservation of traditional performing arts, and points toward future enhancements in cross modal alignment, richer emotional nuance, and support for additional opera genres.
- Abstract(参考訳): 本稿では,大規模言語モデル,視覚生成,テキストを音声合成に統合することにより,チンカングオペラの終端生産を自動化する新しいマルチエージェントフレームワークを提案する。
Agent1は、コヒーレントで文化的に根ざしたスクリプトを作成するためにLLMを使用し、Agent2は視覚生成モデルを使用して、文脈的に正確なステージシーンを描画し、Agent3はTSを活用して、同期的で感情的に表現されたボーカルパフォーマンスを生成する。
Dou E Yuanのケーススタディでは、スクリプトの忠実度が3.8、ビジュアルコヒーレンスが3.5、音声の精度が3.6、シングルエージェントベースラインが0.3ポイント向上した。
アブレーション実験では、Agent2とAgent3を削除することで、それぞれ0.4と0.5ポイントのドロップが発生し、モジュラーコラボレーションの価値が強調される。
この研究は、AI駆動パイプラインが従来の芸能の保存を合理化し、スケールする方法を示し、クロスモーダルなアライメント、より豊かな感情的なニュアンス、追加のオペラジャンルのサポートの今後の強化を指している。
関連論文リスト
- MM-StoryAgent: Immersive Narrated Storybook Video Generation with a Multi-Agent Paradigm across Text, Image and Audio [48.820808691986805]
MM-StoryAgentは、洗練されたプロット、ロール一貫性のあるイメージ、マルチチャンネルオーディオを備えた没入型ナレーションビデオストーリーブックを作成する。
このフレームワークは、多段階の書き込みパイプラインを通じてストーリーの魅力を高める。
MM-StoryAgentは、さらなる開発のための柔軟なオープンソースプラットフォームを提供する。
論文 参考訳(メタデータ) (2025-03-07T08:53:10Z) - nvAgent: Automated Data Visualization from Natural Language via Collaborative Agent Workflow [9.676697360425196]
自然言語から可視化へ(NL2Vis)は、自然言語記述を与えられたテーブルの視覚表現に変換する。
我々はNL2Visのための協調エージェントワークフローであるnvAgentを提案する。
新しいVisEvalベンチマークに関する総合的な評価は、nvAgentが最先端のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-07T16:03:08Z) - FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces [42.3549764892671]
FilmAgentは、エンドツーエンドのフィルム自動化のための新しいマルチエージェント協調フレームワークである。
FilmAgentは、映画監督、脚本家、俳優、撮影監督など、様々なクルーの役割をシミュレートしている。
エージェントのチームは反復的なフィードバックと修正を通じて協力し、中間スクリプトの検証と幻覚の低減を行う。
論文 参考訳(メタデータ) (2025-01-22T14:36:30Z) - GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration [20.988801611785522]
コンポジションテキスト・ビデオ生成を可能にする反復型マルチエージェントフレームワークであるGenMACを提案する。
コラボレーションワークフローには、Design、Generation、Redesignの3つのステージが含まれている。
コンポジションテキスト・ビデオ生成の多様なシナリオに対処するために,各シナリオに特化している修正エージェントのコレクションから適切な修正エージェントを適応的に選択するセルフルーティング機構を設計する。
論文 参考訳(メタデータ) (2024-12-05T18:56:05Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - SpeechAgents: Human-Communication Simulation with Multi-Modal
Multi-Agent Systems [53.94772445896213]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。
本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
論文 参考訳(メタデータ) (2024-01-08T15:01:08Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。