論文の概要: Facilitating Video Story Interaction with Multi-Agent Collaborative System
- arxiv url: http://arxiv.org/abs/2505.03807v1
- Date: Fri, 02 May 2025 09:08:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.82884
- Title: Facilitating Video Story Interaction with Multi-Agent Collaborative System
- Title(参考訳): マルチエージェント協調システムによる映像ストーリーインタラクションの実現
- Authors: Yiwen Zhang, Jianing Hao, Zhan Wang, Hongling Sheng, Wei Zeng,
- Abstract要約: 我々のシステムは視覚言語モデル(VLM)を用いて、機械がビデオストーリーを理解できるようにする。
Retrieval-Augmented Generation (RAG)とMulti-Agent System (MAS)を組み合わせて、キャラクターやシーン体験を進化させる。
- 参考スコア(独自算出の注目度): 7.7519050921867825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video story interaction enables viewers to engage with and explore narrative content for personalized experiences. However, existing methods are limited to user selection, specially designed narratives, and lack customization. To address this, we propose an interactive system based on user intent. Our system uses a Vision Language Model (VLM) to enable machines to understand video stories, combining Retrieval-Augmented Generation (RAG) and a Multi-Agent System (MAS) to create evolving characters and scene experiences. It includes three stages: 1) Video story processing, utilizing VLM and prior knowledge to simulate human understanding of stories across three modalities. 2) Multi-space chat, creating growth-oriented characters through MAS interactions based on user queries and story stages. 3) Scene customization, expanding and visualizing various story scenes mentioned in dialogue. Applied to the Harry Potter series, our study shows the system effectively portrays emergent character social behavior and growth, enhancing the interactive experience in the video story world.
- Abstract(参考訳): ビデオストーリーの対話により、視聴者はパーソナライズされた体験のために物語の内容に関わり、探求することができる。
しかし、既存の手法はユーザー選択に限られており、特別にデザインされた物語、カスタマイズの欠如がある。
そこで本研究では,ユーザ意図に基づく対話型システムを提案する。
我々のシステムでは、視覚言語モデル(VLM)を用いて、機械が映像を理解できるようにし、レトリーバル拡張生成(RAG)とマルチエージェントシステム(MAS)を組み合わせて、キャラクターやシーン体験を進化させる。
ステージは3つある。
1)VLMと事前知識を利用して,3つのモダリティにまたがる物語の人間の理解をシミュレートする。
2)マルチスペースチャットでは,ユーザクエリとストーリーステージに基づいたMASインタラクションにより,成長指向の文字を生成する。
3)対話で言及された様々なストーリーシーンをカスタマイズし,拡張し,可視化する。
本研究は,ハリー・ポッターシリーズに応用し,創発的性格の社会的行動と成長を効果的に表現し,映像ストーリーの世界におけるインタラクティブな体験を向上させることを目的とした。
関連論文リスト
- Towards Enhanced Immersion and Agency for LLM-based Interactive Drama [55.770617779283064]
本論文は,対話型ドラマを2つの側面から理解することから始まる:没入感,プレイヤーの物語への参加感,エージェンシーである。
これら2つの側面を強化するために,我々はまず,LLMが劇的なストーリーを製作し,構造と物語の質を大幅に向上させる新しい手法であるPlaywriting-Guided Generationを提案する。
論文 参考訳(メタデータ) (2025-02-25T06:06:16Z) - SIMS: Simulating Stylized Human-Scene Interactions with Retrieval-Augmented Script Generation [38.96874874208242]
我々は,ハイレベルなスクリプト駆動の意図を低レベルな制御ポリシーでシームレスにブリッジするSIMSという新しい階層型フレームワークを導入する。
具体的には,Large Language Models with Retrieval-Augmented Generationを用いて,一貫性のある多種多様な長文スクリプトを生成する。
生成したスクリプトからテキストを埋め込み、スタイリスティックな手順をエンコードする多用途多条件物理ベースの制御ポリシーも開発されている。
論文 参考訳(メタデータ) (2024-11-29T18:36:15Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - A Character-Centric Creative Story Generation via Imagination [15.345466372805516]
我々はCCI(Character-centric Creative Story Generation via Imagination)と呼ばれる新しいストーリー生成フレームワークを紹介する。
CCIは創造的ストーリー生成のための2つのモジュール、IG(Image-Guided Imagination)とMW(Multi-Writer model)を備えている。
IGモジュールでは,文字や背景,メインプロットといった重要なストーリー要素を視覚的に表現するために,テキスト・ツー・イメージモデルを利用する。
MWモジュールはこれらのストーリー要素を使用して複数のペルソナ記述候補を生成し、ストーリーに挿入する最適なストーリーを選択することにより、物語の豊かさと深さを高める。
論文 参考訳(メタデータ) (2024-09-25T06:54:29Z) - Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models [57.30913211264333]
提案するStory3D-Agentは、提供された物語を3Dレンダリングの可視化に変換する先駆的なアプローチである。
プロシージャモデリングを統合することで,複数文字の動作や動きを正確に制御できるだけでなく,多様な装飾的要素も利用できる。
我々は,ストーリー3D-Agentを徹底的に評価し,その有効性を検証し,3Dストーリー表現を前進させるための基本的な枠組みを提供した。
論文 参考訳(メタデータ) (2024-08-21T17:43:15Z) - NarrativePlay: Interactive Narrative Understanding [27.440721435864194]
本研究では,ユーザが架空のキャラクターをロールプレイし,没入感のある環境で他のキャラクターと対話できる新しいシステムであるNarrativePlayを紹介する。
我々はLarge Language Models(LLMs)を利用して、物語から抽出された性格特性によって導かれる人間的な応答を生成する。
ナラティブプレイは2種類の物語、探偵と冒険の物語で評価されており、ユーザーは世界を探索したり、会話を通じて物語のキャラクターと親しみやすくしたりすることができる。
論文 参考訳(メタデータ) (2023-10-02T13:24:00Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。