論文の概要: From Prompts to Worlds: How Users Iterate, Explore, and Make Sense of AI-Generated 3D Environments
- arxiv url: http://arxiv.org/abs/2603.13233v1
- Date: Sat, 24 Jan 2026 06:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.211832
- Title: From Prompts to Worlds: How Users Iterate, Explore, and Make Sense of AI-Generated 3D Environments
- Title(参考訳): プロンプトから世界へ:AI生成した3D環境をユーザーが反復し、探索し、理解する方法
- Authors: Aung Pyae,
- Abstract要約: 商業用テキスト・ツー・3Dプラットフォームの最初の実証的研究について述べる。
我々は、思考情報プロトコル、行動観察、およびユーザビリティ、プレゼンス、エンゲージメントの検証された尺度を組み合わせる。
効果的なシステムには、ハイブリッドな入力モダリティ、透過的なフィードバック、低コストなイテレーションが必要です。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-3D generative AI systems create navigable environments from natural language prompts, but unlike text-to-image generation, evaluation requires embodied exploration of spatial coherence, scale, and navigability. We present the first empirical study of a commercial text-to-3D platform, combining think-aloud protocols, behavioral observation, and validated measures of usability, presence, and engagement. We report three findings. First, asymmetric expressibility: users readily convey semantic intent (themes, atmosphere) but struggle to specify spatial structure (layout, scale), reflecting a language-to-space limitation rather than a skill deficit. Second, episodic presence: immersion arises when expectations align with outputs but does not accumulate into sustained place illusion. Third, structural iteration breakdowns: refinement fails due to interaction barriers - poor discoverability, opaque feedback, and high temporal costs - rather than user limitations. Together, these dynamics form a reinforcing cycle in which spatial mismatches persist, producing episodic presence and ongoing sensemaking. We reframe text-to-3D interaction as negotiated meaning-making rather than linear prompting, and argue that effective systems require hybrid input modalities, transparent feedback, and low-cost iteration.
- Abstract(参考訳): テキストから3D生成するAIシステムは、自然言語のプロンプトからナビゲート可能な環境を生成するが、テキストから画像の生成とは異なり、評価には空間コヒーレンス、スケール、ナビゲート性の具体的探索が必要である。
本研究は,思考情報プロトコル,行動観察,ユーザビリティ,プレゼンス,エンゲージメントの検証を併用した,商業用テキスト・ツー・3Dプラットフォームに関する最初の実証的研究である。
我々は3つの発見を報告した。
第一に、非対称表現性: ユーザーは意味的意図(テーマ、雰囲気)を容易に伝達するが、空間構造(レイアウト、スケール)を特定するのに苦労し、スキル不足よりも言語から空間への制限を反映する。
第二に、エピソードの存在: 没入は期待が出力と一致した時に起こるが、持続的な場所錯覚に蓄積しない。
第3に,構造的なイテレーションのブレークダウン – ユーザ制限ではなく,インタラクションの障壁 – 発見可能性の低さ,不透明なフィードバック,時間的コストの高 – によって,改善が失敗する。
これらのダイナミクスは、空間的ミスマッチが持続する強化サイクルを形成し、エピソード的な存在と継続的なセンスメイキングを生み出している。
我々は,テキストと3Dのインタラクションを線形なプロンプトではなく交渉された意味作りとして再構成し,効果的なシステムにはハイブリッドな入力モダリティ,透過的なフィードバック,低コストなイテレーションが必要であると主張した。
関連論文リスト
- Beyond Pixel Histories: World Models with Persistent 3D State [50.4601060508243]
PERSISTは、潜伏した3Dシーンの進化をシミュレートする世界モデルの新たなパラダイムである。
既存の手法に比べて空間記憶,3次元整合性,長期安定性が大幅に向上した。
論文 参考訳(メタデータ) (2026-03-03T19:58:31Z) - NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control [59.6128550986024]
ナラスコア(NarraScore)は、感情が物語論理の高密度圧縮として働くという中心的な洞察に基づく階層的なフレームワークである。
NarraScoreは、グローバルな構造とローカルなダイナミズムを調和させるために、Dual-Branch Injection戦略を採用している。
NarraScoreは、無視可能な計算オーバーヘッドを伴う最先端の一貫性と物語のアライメントを実現している。
論文 参考訳(メタデータ) (2026-02-09T09:39:42Z) - SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。
Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。
データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文 参考訳(メタデータ) (2025-07-10T14:01:24Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation [10.067978300536486]
我々は,GPUで加速した幾何再構成をオープン語彙の視覚言語モデルとシームレスに統合するゼロショットフレームワークを開発した。
トレーニングフリーシステムは、インクリメンタル処理と統合幾何系列更新により、優れた性能を実現する。
論文 参考訳(メタデータ) (2025-05-21T11:07:25Z) - DenseGrounding: Improving Dense Language-Vision Semantics for Ego-Centric 3D Visual Grounding [44.81427860963744]
この分野での基本課題はエゴ中心の3次元視覚グラウンド(英語版)であり、エージェントは言葉による記述に基づいて現実世界の3次元空間内の対象物を特定する。
視覚的意味論とテキスト的意味論を両立させる新しいアプローチであるDenseGroundingを提案する。
視覚的特徴として,細粒度のグローバルなシーンの特徴を捉えることで,密接なセマンティックなセマンティックなセマンティック・エンハンサーを導入する。
テキスト記述のための言語セマンティックエンハンサー(Language Semantic Enhancer)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:49:06Z) - Open-Vocabulary Semantic Segmentation with Uncertainty Alignment for Robotic Scene Understanding in Indoor Building Environments [6.295098866364597]
視覚言語モデル(VLM)と大規模言語モデル(LLM)を利用したオープン語彙シーンセマンティックセマンティックセマンティクスと検出パイプラインを提案する。
提案手法は,オープンボキャブラリシーン分類のための「セグメント検出選択」フレームワークに従い,構築環境における補助ロボットの適応的・直感的なナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-03-29T14:46:45Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。