論文の概要: GenClaw: Code-Driven Agentic Image Generation
- arxiv url: http://arxiv.org/abs/2605.30248v1
- Date: Thu, 28 May 2026 17:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.576772
- Title: GenClaw: Code-Driven Agentic Image Generation
- Title(参考訳): GenClaw: コード駆動のエージェントイメージ生成
- Authors: Junyan Ye, Jun He, Zilong Huang, Dongzhi Jiang, Xuan Yang, Rui Chen, Weijia Li,
- Abstract要約: 我々は、エージェントが人間のアーティストのように作成できるようにするための、コード駆動画像生成パラダイムであるGenClawを提案する。
具体的には、エージェントはまず、探索と推論を通じて概念的知識とコンテキストを構築する。
次に、コード(SVG、HTML、Three.jsなど)を使って実行可能なビジュアルスケッチを描画する。
- 参考スコア(独自算出の注目度): 40.94073553092702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image generation models have evolved from text-conditioned pixel synthesis toward multimodal agents endowed with visual comprehension and tool invocation capabilities. Yet, existing agents remain at the mercy of underlying black-box image models. Their workflow is trapped in a repetitive cycle of prompt rewriting for generation refinement, leaving them with no mechanism to directly manipulate the canvas. In essence, the potential of LLMs to serve as a genuine "brush" for precise visual construction remains largely untapped. In this paper, we propose GenClaw, a code-driven agentic image generation paradigm that empowers the agent to create like a human artist: first conceptualizing, then sketching, and finally coloring. Specifically, the agent first constructs the conceptual knowledge and context through search and reasoning. It then utilizes code (e.g., SVG, HTML, Three.js) to render executable visual sketches. Finally, it employs an image generation model to supplement textures, materials, and photorealism. In this workflow, code serves as a controllable intermediate canvas bridging linguistic reasoning and pixel synthesis, seamlessly integrating programmatic logic with the visual expressiveness of generative models. By transforming image generation from a black-box paradigm into a staged process akin to authentic human creation, GenClaw offers a step toward for highly controllable and interpretable visual generation systems.
- Abstract(参考訳): 画像生成モデルは、テキスト条件のピクセル合成から、視覚的理解とツールの実行能力を備えたマルチモーダルエージェントへと進化してきた。
しかし、既存のエージェントはブラックボックスの画像モデルに頼っている。
彼らのワークフローは、世代改良のためのプロンプトリライトの繰り返しサイクルに閉じ込められており、キャンバスを直接操作するメカニズムが残っていない。
本質的に、正確な視覚構成のための真の「ブラシ」として機能するLLMの可能性は、ほとんど未解決のままである。
本稿では,コード駆動型エージェント画像生成パラダイムであるGenClawを提案する。
具体的には、エージェントはまず、探索と推論を通じて概念的知識とコンテキストを構築する。
次に、コード(SVG、HTML、Three.jsなど)を使って実行可能なビジュアルスケッチを描画する。
最後に、テクスチャ、材料、フォトリアリズムを補うために、画像生成モデルを使用する。
このワークフローでは、コードは制御可能な中間キャンバスとして機能し、言語推論とピクセル合成を行い、プログラム論理と生成モデルの視覚的表現性をシームレスに統合する。
画像生成をブラックボックスのパラダイムから、真の人間の創造に似た段階的なプロセスに変換することで、GenClawは、高度に制御可能で解釈可能な視覚生成システムに向けたステップを提供する。
関連論文リスト
- Unified Thinker: A General Reasoning Modular Core for Image Generation [57.665309753609144]
汎用画像生成のためのタスクに依存しない推論アーキテクチャであるUnified Thinkerを提案する。
Unified Thinkerはイメージジェネレータから専用のThinkerを分離し、生成モデル全体をトレーニングすることなく、推論のモジュラーアップグレードを可能にする。
テキスト・画像生成と画像編集の実験により、Unified Thinkerは画像の推論と生成品質を大幅に改善することが示された。
論文 参考訳(メタデータ) (2026-01-06T15:59:33Z) - RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards [53.25632969696776]
フォトリアリスティック画像生成のためのテキスト・ツー・イメージ・フレームワークであるRealGenを提案する。
敵対的生成にインスパイアされたRealGenは、アーティファクトを定量化し、リアリズムを評価する"Detector Reward"メカニズムを導入した。
実験によると、RealGenはGPT-Image-1やQwen-Imageといった一般的なモデルやFLUX-Kreaのような特殊なフォトリアリスティックモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-11-29T12:52:26Z) - Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning [92.57052246970254]
視覚的理解と生成の協調的共進化を可能にすることを提案する。
教師付き微調整は、真のCoTを生成する基礎的な能力を持つMLLMを指導する。
画像生成におけるAhaモーメントを解き、テキスト・ツー・イメージタスクから統合画像生成へMLLMを前進させる。
論文 参考訳(メタデータ) (2025-06-02T09:39:28Z) - Iterative Flow Matching -- Path Correction and Gradual Refinement for Enhanced Generative Modeling [6.343872515377999]
本稿では,フローマッチングが幻覚を発生させる理由を説明し,生成プロセスを改善するための反復的プロセスを提案する。
我々の反復的プロセスは、事実上$textitany$生成モデリング技術に統合することができ、それによって合成画像システムの性能と堅牢性を向上させることができる。
論文 参考訳(メタデータ) (2025-02-23T05:08:06Z) - Alfie: Democratising RGBA Image Generation With No $$$ [33.334956022229846]
本稿では,事前学習した拡散変圧器モデルの推論時挙動を変化させ,RGBA図形の完全自動生成手法を提案する。
我々は、デザインプロジェクトや芸術シーンへのシームレスな統合のために、背景が容易に取り除かれるシャープな刈り取りを行なわずに、被験者全体の生成を強制する。
論文 参考訳(メタデータ) (2024-08-27T07:13:44Z) - SMPLpix: Neural Avatars from 3D Human Models [56.85115800735619]
従来のレンダリングと画素空間で動作する最新の生成ネットワークのギャップを埋める。
我々は、スパースな3Dメッシュ頂点をフォトリアリスティックな画像に変換するネットワークを訓練する。
我々は,フォトリアリズムのレベルとレンダリング効率の両面で,従来の微分可能よりも優位性を示す。
論文 参考訳(メタデータ) (2020-08-16T10:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。