論文の概要: MapStory: LLM-Powered Text-Driven Map Animation Prototyping with Human-in-the-Loop Editing
- arxiv url: http://arxiv.org/abs/2505.21966v1
- Date: Wed, 28 May 2025 04:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.415051
- Title: MapStory: LLM-Powered Text-Driven Map Animation Prototyping with Human-in-the-Loop Editing
- Title(参考訳): MapStory: LLMベースのテキスト駆動マップアニメーションプロトタイピング
- Authors: Aditya Gunturu, Ben Pearman, Keiichi Ihara, Morteza Faraji, Bryan Wang, Rubaiat Habib Kazi, Ryo Suzuki,
- Abstract要約: 本研究では,自然言語テキストから直接地図アニメーションシーケンスを生成するアニメーションツールであるMapStoryを紹介する。
ユーザ記述のスクリプトが与えられた場合、MapStoryはエージェントアーキテクチャを活用してシーンのブレークダウンを自動的に生成し、スクリプトを主要なアニメーションビルディングブロックに分解する。
システムの設計とアーキテクチャについて詳述し、プロのアニメーターとの形式的なインタビューと200本の既存の地図アニメーションビデオの分析から情報を得た。
- 参考スコア(独自算出の注目度): 14.744157602667466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MapStory, an LLM-powered animation authoring tool that generates editable map animation sequences directly from natural language text. Given a user-written script, MapStory leverages an agentic architecture to automatically produce a scene breakdown, which decomposes the script into key animation building blocks such as camera movements, visual highlights, and animated elements. Our system includes a researcher component that accurately queries geospatial information by leveraging an LLM with web search, enabling the automatic extraction of relevant regions, paths, and coordinates while allowing users to edit and query for changes or additional information to refine the results. Additionally, users can fine-tune parameters of these blocks through an interactive timeline editor. We detail the system's design and architecture, informed by formative interviews with professional animators and an analysis of 200 existing map animation videos. Our evaluation, which includes expert interviews (N=5) and a usability study (N=12), demonstrates that MapStory enables users to create map animations with ease, facilitates faster iteration, encourages creative exploration, and lowers barriers to creating map-centric stories.
- Abstract(参考訳): 自然言語テキストから直接編集可能な地図アニメーションシーケンスを生成するLLMアニメーションオーサリングツールであるMapStoryを紹介する。
ユーザ記述のスクリプトが与えられた後、MapStoryはエージェントアーキテクチャを活用してシーンのブレークダウンを自動的に生成し、スクリプトをカメラの動き、ビジュアルハイライト、アニメーション要素などの重要なアニメーションビルディングブロックに分解する。
本システムでは,LLMとWeb検索を利用して地理空間情報を正確にクエリし,関連する領域や経路,座標の自動抽出を可能にするとともに,ユーザが変更や追加情報を編集・クエリして結果を洗練することを可能にする。
さらに、対話的なタイムラインエディタを通じて、これらのブロックのパラメータを微調整することができる。
システムの設計とアーキテクチャについて詳述し、プロのアニメーターとの形式的なインタビューと200本の既存の地図アニメーションビデオの分析から情報を得た。
専門家インタビュー (N=5) とユーザビリティスタディ (N=12) を含む評価では,MapStory が地図アニメーションを容易に作成でき,イテレーションの迅速化,創造的探索の促進,地図中心のストーリー作成の障壁の低減を実現している。
関連論文リスト
- Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models [15.454856838083511]
大言語モデル(LLM)は、ロボットが共通感覚推論を用いてタスクプランを生成するためのツールとして登場した。
最近の研究は、固定された意味クラスを持つ明示的な写像から暗黙的なオープンな語彙マップへと移行している。
LLMと簡単に統合しながら、数千のセマンティッククラスを表現できる明示的なテキストベースのマップを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:26:19Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code [76.22337677728109]
SceneCraftはLarge Language Model (LLM)エージェントで、テキスト記述をBlender-executable Pythonスクリプトに変換する。
SceneCraftは、100個の3Dアセットで複雑なシーンをレンダリングする。
高度な抽象化、戦略的計画、ライブラリ学習を組み合わせることで、これらの課題に取り組みます。
論文 参考訳(メタデータ) (2024-03-02T16:16:26Z) - Iterative Motion Editing with Natural Language [23.836693717924845]
テキスト間拡散モデルはテキストプロンプトからリアルなアニメーションを生成することができるが、微粒なモーション編集制御はサポートしていない。
本稿では,既存の文字アニメーションに局所的な編集を反復的に指定するために自然言語を用いる手法を提案する。
本システムは,アニメーターの編集意図を尊重する動作編集を行い,オリジナルアニメーションに忠実であり,リアルなキャラクターアニメーション結果が得られる。
論文 参考訳(メタデータ) (2023-12-15T22:38:24Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - The Animation Transformer: Visual Correspondence via Segment Matching [2.8387322144750726]
AnT(Animation Transformer)は、トランスフォーマーベースのアーキテクチャを使用して、画像列間のセグメント間の空間的および視覚的関係を学習する。
AnTは、プロのアニメーションのための実用的なMLアシストカラー化を可能にし、カドミウムのクリエイティブツールとして一般に公開されている。
論文 参考訳(メタデータ) (2021-09-06T17:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。