論文の概要: Narrative Studio: Visual narrative exploration using LLMs and Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2504.02426v1
- Date: Thu, 03 Apr 2025 09:31:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:51.141726
- Title: Narrative Studio: Visual narrative exploration using LLMs and Monte Carlo Tree Search
- Title(参考訳): Narrative Studio: LLMとMonte Carlo Tree Searchを用いたビジュアルな物語探索
- Authors: Parsa Ghaffari, Chris Hokamp,
- Abstract要約: 木のようなインタフェースを備えたブラウザ内物語探索環境を提案する。
各ブランチは、システムとユーザ定義のプロンプトによってガイドされた反復LDM推論によって拡張される。
また、生成したテキストをエンティティグラフにグラウンドすることで、ユーザによる物語コヒーレンスの向上を可能にします。
- 参考スコア(独自算出の注目度): 1.795561427808824
- License:
- Abstract: Interactive storytelling benefits from planning and exploring multiple 'what if' scenarios. Modern LLMs are useful tools for ideation and exploration, but current chat-based user interfaces restrict users to a single linear flow. To address this limitation, we propose Narrative Studio -- a novel in-browser narrative exploration environment featuring a tree-like interface that allows branching exploration from user-defined points in a story. Each branch is extended via iterative LLM inference guided by system and user-defined prompts. Additionally, we employ Monte Carlo Tree Search (MCTS) to automatically expand promising narrative paths based on user-specified criteria, enabling more diverse and robust story development. We also allow users to enhance narrative coherence by grounding the generated text in an entity graph that represents the actors and environment of the story.
- Abstract(参考訳): インタラクティブなストーリーテリングは、複数の'What if'シナリオの計画と探索の恩恵を受ける。
現代のLLMはアイデアや探索に有用なツールだが、チャットベースのユーザインターフェースはユーザを1つの線形フローに制限している。
この制限に対処するため、Narrative Studio - ストーリー内のユーザ定義ポイントからの分岐探索を可能にするツリーのようなインターフェースを備えた、ブラウザ内での新たな物語探索環境を提案する。
各ブランチは、システムとユーザ定義のプロンプトによってガイドされた反復LDM推論によって拡張される。
さらに,MCTS(Monte Carlo Tree Search)を用いて,ユーザ特定基準に基づく有望なストーリーパスを自動的に拡張し,より多様で堅牢なストーリー開発を可能にする。
また,物語のアクタと環境を表すエンティティグラフに生成したテキストを接地することで,物語のコヒーレンスを高めることができる。
関連論文リスト
- Agents' Room: Narrative Generation through Multi-step Collaboration [54.98886593802834]
本稿では,物語の執筆を特殊エージェントが取り組んだサブタスクに分解する,物語理論に触発された世代フレームワークを提案する。
エージェントの部屋は,専門的評価者が好むストーリーをベースラインシステムより生成することを示す。
論文 参考訳(メタデータ) (2024-10-03T15:44:42Z) - Guiding and Diversifying LLM-Based Story Generation via Answer Set Programming [1.7889842797216124]
大規模言語モデル(LLM)は、オープンエンドのユーザ要求に応じてストーリーを生成することができる。
本稿では,高レベルかつ抽象的な高レベルなストーリー構造仕様を用いて,ストーリー生成のガイドと多様化を提案する。
論文 参考訳(メタデータ) (2024-06-01T21:14:25Z) - StoryVerse: Towards Co-authoring Dynamic Plot with LLM-based Character Simulation via Narrative Planning [8.851718319632973]
大きな言語モデル(LLM)は仮想文字の振る舞いを駆動し、プロットは文字と環境間の相互作用から現れる。
著者の著作意図と LLM によるキャラクタシミュレーションの創発的行動とを仲介するプロット作成ワークフローを提案する。
このプロセスは「生きた物語」を作り、様々なゲーム世界の状態に動的に適応し、著者、キャラクターシミュレーション、プレイヤーが共同で物語を作る。
論文 参考訳(メタデータ) (2024-05-17T23:04:51Z) - LLM Attributor: Interactive Visual Attribution for LLM Generation [29.116016627864095]
Pythonライブラリは、大規模な言語モデルのデータ属性をトレーニングするためのインタラクティブな視覚化を提供する。
我々のライブラリは、LCMのテキスト生成をデータポイントのトレーニングに素早く対応させる新しい方法を提供する。
論文 参考訳(メタデータ) (2024-04-01T13:16:34Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - GENEVA: GENErating and Visualizing branching narratives using LLMs [15.43734266732214]
textbfGENEVAはプロトタイプツールで、ストーリーラインの分岐と再収束を伴うリッチな物語グラフを生成する。
textbfGENEVAはゲーム開発、シミュレーション、その他のゲームライクな特性を持つアプリケーションを支援する可能性がある。
論文 参考訳(メタデータ) (2023-11-15T18:55:45Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文 参考訳(メタデータ) (2023-10-08T06:18:14Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。