論文の概要: MapStory: Prototyping Editable Map Animations with LLM Agents
- arxiv url: http://arxiv.org/abs/2505.21966v2
- Date: Wed, 13 Aug 2025 08:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 16:17:42.554986
- Title: MapStory: Prototyping Editable Map Animations with LLM Agents
- Title(参考訳): MapStory: LLMエージェントによる編集可能なマップアニメーションのプロトタイピング
- Authors: Aditya Gunturu, Ben Pearman, Keiichi Ihara, Morteza Faraji, Bryan Wang, Rubaiat Habib Kazi, Ryo Suzuki,
- Abstract要約: MapStoryは、自然言語テキストから直接マップアニメーションシーケンスを生成するアニメーションプロトタイピングツールである。
ユーザがスクリプトを書くと、MapStoryは自動的にシーン分解を生成し、テキストをキーマップアニメーションプリミティブに分解する。
- 参考スコア(独自算出の注目度): 14.744157602667466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MapStory, an LLM-powered animation prototyping tool that generates editable map animation sequences directly from natural language text by leveraging a dual-agent LLM architecture. Given a user written script, MapStory automatically produces a scene breakdown, which decomposes the text into key map animation primitives such as camera movements, visual highlights, and animated elements. Our system includes a researcher agent that accurately queries geospatial information by leveraging an LLM with web search, enabling automatic extraction of relevant regions, paths, and coordinates while allowing users to edit and query for changes or additional information to refine the results. Additionally, users can fine-tune parameters of these primitive blocks through an interactive timeline editor. We detail the system's design and architecture, informed by formative interviews with professional animators and by an analysis of 200 existing map animation videos. Our evaluation, which includes expert interviews (N=5) and a usability study (N=12), demonstrates that MapStory enables users to create map animations with ease, facilitates faster iteration, encourages creative exploration, and lowers barriers to creating map-centric stories.
- Abstract(参考訳): そこで本研究では,LLMをベースとしたアニメーションプロトタイピングツールであるMapStoryを紹介した。
ユーザーがスクリプトを書くと、MapStoryは自動的にシーン分解を生成し、テキストをカメラの動き、ビジュアルハイライト、アニメーション要素などのキーマップアニメーションプリミティブに分解する。
本システムでは,LLMをWeb検索に活用して地理空間情報を正確にクエリし,関連する領域や経路,座標の自動抽出を可能にするとともに,ユーザが変更や追加情報を編集・クエリして結果を洗練することを可能にする研究者エージェントを備えている。
さらに、対話型タイムラインエディタを通じて、これらのプリミティブブロックのパラメータを微調整できる。
システムの設計とアーキテクチャについて詳述し、プロのアニメーターとの形式的なインタビューや、既存の200本の地図アニメーションビデオの分析により報告する。
専門家インタビュー (N=5) とユーザビリティスタディ (N=12) を含む評価では,MapStory が地図アニメーションを容易に作成でき,イテレーションの迅速化,創造的探索の促進,地図中心のストーリー作成の障壁の低減を実現している。
関連論文リスト
- Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models [15.454856838083511]
大言語モデル(LLM)は、ロボットが共通感覚推論を用いてタスクプランを生成するためのツールとして登場した。
最近の研究は、固定された意味クラスを持つ明示的な写像から暗黙的なオープンな語彙マップへと移行している。
LLMと簡単に統合しながら、数千のセマンティッククラスを表現できる明示的なテキストベースのマップを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:26:19Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code [76.22337677728109]
SceneCraftはLarge Language Model (LLM)エージェントで、テキスト記述をBlender-executable Pythonスクリプトに変換する。
SceneCraftは、100個の3Dアセットで複雑なシーンをレンダリングする。
高度な抽象化、戦略的計画、ライブラリ学習を組み合わせることで、これらの課題に取り組みます。
論文 参考訳(メタデータ) (2024-03-02T16:16:26Z) - Iterative Motion Editing with Natural Language [23.836693717924845]
テキスト間拡散モデルはテキストプロンプトからリアルなアニメーションを生成することができるが、微粒なモーション編集制御はサポートしていない。
本稿では,既存の文字アニメーションに局所的な編集を反復的に指定するために自然言語を用いる手法を提案する。
本システムは,アニメーターの編集意図を尊重する動作編集を行い,オリジナルアニメーションに忠実であり,リアルなキャラクターアニメーション結果が得られる。
論文 参考訳(メタデータ) (2023-12-15T22:38:24Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - The Animation Transformer: Visual Correspondence via Segment Matching [2.8387322144750726]
AnT(Animation Transformer)は、トランスフォーマーベースのアーキテクチャを使用して、画像列間のセグメント間の空間的および視覚的関係を学習する。
AnTは、プロのアニメーションのための実用的なMLアシストカラー化を可能にし、カドミウムのクリエイティブツールとして一般に公開されている。
論文 参考訳(メタデータ) (2021-09-06T17:23:40Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z) - Transformed ROIs for Capturing Visual Transformations in Videos [31.88528313257094]
我々は、CNNのプラグイン・アンド・プレイモジュールであるTROIを紹介し、それ以外は空間と時間で区切られている中レベルの特徴表現を推論する。
我々は,大規模データセットである something-Something-V2 と Epic-Kitchens-100 の動作認識結果を得た。
論文 参考訳(メタデータ) (2021-06-06T15:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。