論文の概要: GenEscape: Hierarchical Multi-Agent Generation of Escape Room Puzzles
- arxiv url: http://arxiv.org/abs/2506.21839v1
- Date: Fri, 27 Jun 2025 01:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.041941
- Title: GenEscape: Hierarchical Multi-Agent Generation of Escape Room Puzzles
- Title(参考訳): GenEscape: 階層的なマルチエージェント生成によるエスケープルームパズル
- Authors: Mengyi Shan, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz,
- Abstract要約: 我々は,視覚的,論理的,知的刺激的な,脱出室パズル画像を生成することによって,テキスト・ツー・イメージモデルに挑戦する。
本稿では,このタスクを機能設計,象徴的なシーングラフ推論,レイアウト合成,局所画像編集など,構造化段階に分解する階層型マルチエージェントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.001531516689035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We challenge text-to-image models with generating escape room puzzle images that are visually appealing, logically solid, and intellectually stimulating. While base image models struggle with spatial relationships and affordance reasoning, we propose a hierarchical multi-agent framework that decomposes this task into structured stages: functional design, symbolic scene graph reasoning, layout synthesis, and local image editing. Specialized agents collaborate through iterative feedback to ensure the scene is visually coherent and functionally solvable. Experiments show that agent collaboration improves output quality in terms of solvability, shortcut avoidance, and affordance clarity, while maintaining visual quality.
- Abstract(参考訳): 我々は,視覚的,論理的,知的刺激的な,脱出室パズル画像を生成することによって,テキスト・ツー・イメージモデルに挑戦する。
基本画像モデルは空間的関係やアベイランス推論に苦慮する一方で,機能設計,象徴的なシーングラフ推論,レイアウト合成,局所的な画像編集といった階層的なマルチエージェントフレームワークを提案する。
特殊エージェントは反復的なフィードバックを通じて協調し、シーンが視覚的に一貫性があり、機能的に解決可能であることを保証する。
実験により, エージェントコラボレーションは, 視覚的品質を維持しつつ, 可溶性, ショートカット回避性, 余裕の明確さの観点から, 出力品質を向上することが示された。
関連論文リスト
- Thinking with Generated Images [30.28526622443551]
我々は,大規模マルチモーダルモデル(LMM)が視覚的推論にどのように関与するかを変換する,新しいパラダイムであるThinking with Generated Imagesを紹介する。
我々のアプローチは、AIモデルが人間の創造的、分析的、戦略的思考を特徴づける視覚的想像力や反復的な洗練に関わり得ることを可能にする。
論文 参考訳(メタデータ) (2025-05-28T16:12:45Z) - VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。
VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。
グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文 参考訳(メタデータ) (2025-04-10T17:59:42Z) - Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。
我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。
実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - Emergent Language Symbolic Autoencoder (ELSA) with Weak Supervision to Model Hierarchical Brain Networks [0.12075823996747355]
脳ネットワークには階層的な組織があり、既存のディープラーニングモデルに課題をもたらす複雑性がある。
本稿では,弱い監督と創発的言語(EL)フレームワークによって情報を得るシンボリックオートエンコーダを提案する。
私たちの革新には、文と画像の両方が機能的脳ネットワークの階層構造を正確に反映するように設計された一般化階層的損失関数が含まれています。
論文 参考訳(メタデータ) (2024-04-15T13:51:05Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - Perspective Plane Program Induction from a Single Image [85.28956922100305]
本研究では,自然画像の全体像を推定する逆グラフ問題について検討する。
我々は、この問題を、入力画像の最もよく記述されたカメラポーズとシーン構造を共同で発見するものとして定式化する。
提案するフレームワークであるP3Iは,探索に基づくアルゴリズムと勾配に基づくアルゴリズムを組み合わせて効率よく問題を解く。
論文 参考訳(メタデータ) (2020-06-25T21:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。