論文の概要: Yume-1.5: A Text-Controlled Interactive World Generation Model
- arxiv url: http://arxiv.org/abs/2512.22096v1
- Date: Fri, 26 Dec 2025 17:52:49 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:03:43.371719
- Title: Yume-1.5: A Text-Controlled Interactive World Generation Model
- Title(参考訳): Yume-1.5: テキストによる対話型世界生成モデル
- Authors: Xiaofeng Mao, Zhen Li, Chuanhao Li, Xiaojie Xu, Kaining Ying, Tong He, Jiangmiao Pang, Yu Qiao, Kaipeng Zhang,
- Abstract要約: Methodは、単一の画像やテキストプロンプトから現実的でインタラクティブで連続的な世界を生成するように設計された新しいフレームワークである。
メソッドは、キーボードベースの生成世界を探索するフレームワークを慎重に設計し、これを実現している。
- 参考スコア(独自算出の注目度): 78.93049063633084
- License:
- Abstract: Recent approaches have demonstrated the promise of using diffusion models to generate interactive and explorable worlds. However, most of these methods face critical challenges such as excessively large parameter sizes, reliance on lengthy inference steps, and rapidly growing historical context, which severely limit real-time performance and lack text-controlled generation capabilities. To address these challenges, we propose \method, a novel framework designed to generate realistic, interactive, and continuous worlds from a single image or text prompt. \method achieves this through a carefully designed framework that supports keyboard-based exploration of the generated worlds. The framework comprises three core components: (1) a long-video generation framework integrating unified context compression with linear attention; (2) a real-time streaming acceleration strategy powered by bidirectional attention distillation and an enhanced text embedding scheme; (3) a text-controlled method for generating world events. We have provided the codebase in the supplementary material.
- Abstract(参考訳): 近年のアプローチは、対話的で探索可能な世界を生成するために拡散モデルを使用することの可能性を実証している。
しかし、これらの手法の多くは、過大なパラメータサイズ、長大な推論ステップへの依存、そして、リアルタイムのパフォーマンスを著しく制限し、テキスト制御された生成能力の欠如など、重要な課題に直面している。
これらの課題に対処するために,1つの画像やテキストプロンプトから現実的でインタラクティブで連続的な世界を生成するように設計された,新しいフレームワークであるShamethodを提案する。
\methodはこれを、キーボードによる生成世界の探索をサポートする、慎重に設計されたフレームワークによって実現している。
本フレームワークは,(1)統合文脈圧縮と線形注意を融合した長ビデオ生成フレームワーク,(2)双方向注意蒸留と拡張テキスト埋め込み方式を利用したリアルタイムストリーミング促進戦略,(3)世界イベントを生成するためのテキスト制御方式の3つのコアコンポーネントから構成される。
補足資料にコードベースを提供しました。
関連論文リスト
- Any4D: Open-Prompt 4D Generation from Natural Language and Images [7.541641344819342]
bfPrimitive Embodied World Models (PEWM) を提案する。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-11-24T04:17:26Z) - Text-guided Visual Prompt DINO for Generic Segmentation [31.33676182634522]
テキスト誘導型ビジュアルプロンプトDINOフレームワークであるPrompt-DINOを提案する。
まず、テキスト/視覚的プロンプトとバックボーン機能を統一する早期融合機構を導入する。
第二に、DreTRアーキテクチャの順序整合クエリ選択を設計する。
第3に,PR(Prompting, Prompting, Prompting, RAP)モデルによる認識情報を利用した生成データエンジンを開発する。
論文 参考訳(メタデータ) (2025-08-08T09:09:30Z) - STRICT: Stress Test of Rendering Images Containing Text [14.124910427202273]
$textbfSTRICT$は、画像内のコヒーレントで命令に沿ったテキストをレンダリングする拡散モデルの能力を強調テストするために設計されたベンチマークである。
プロプライエタリ版やオープンソース版など,いくつかの最先端モデルを評価し,長距離整合性と命令追従能力の持続的制限を明らかにする。
論文 参考訳(メタデータ) (2025-05-25T05:37:08Z) - RAPID: Efficient Retrieval-Augmented Long Text Generation with Writing Planning and Information Discovery [69.41989381702858]
直接生成やマルチエージェントの議論といった既存の手法は、幻覚、トピックの不整合、重大な遅延といった問題に悩まされることが多い。
本稿では,効率的な検索拡張長文生成フレームワークRAPIDを提案する。
私たちの仕事は、自動化された長文生成の課題に対して、堅牢で効率的なソリューションを提供します。
論文 参考訳(メタデータ) (2025-03-02T06:11:29Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Event Transition Planning for Open-ended Text Generation [55.729259805477376]
オープンエンドテキスト生成タスクは、事前コンテキストに制限されたコヒーレントな継続を生成するためにモデルを必要とする。
オープンエンドテキスト生成におけるイベントを明示的にアレンジする新しい2段階手法を提案する。
我々のアプローチは、特別に訓練された粗大なアルゴリズムとして理解することができる。
論文 参考訳(メタデータ) (2022-04-20T13:37:51Z) - PLANET: Dynamic Content Planning in Autoregressive Transformers for
Long-form Text Generation [47.97523895218194]
本稿では,自己回帰型自己認識機構を利用してコンテンツ計画と表面実現を動的に行う新しい生成フレームワークを提案する。
本フレームワークは,単語のバッグをベースとした文レベルのセマンティックプランを維持するために,トランスフォーマーデコーダを潜在表現で強化する。
論文 参考訳(メタデータ) (2022-03-17T05:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。