論文の概要: 3DrawAgent: Teaching LLM to Draw in 3D with Early Contrastive Experience
- arxiv url: http://arxiv.org/abs/2604.08042v1
- Date: Thu, 09 Apr 2026 09:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.850117
- Title: 3DrawAgent: Teaching LLM to Draw in 3D with Early Contrastive Experience
- Title(参考訳): 3DrawAgent: 初期のコントラスト体験による3Dの描画をLLMに教える
- Authors: Hongcan Xiao, Xinyue Xiao, Yilin Wang, Yue Zhang, Yonggang Qi,
- Abstract要約: 我々は3Dスケッチ生成のためのトレーニングフリーで言語駆動のフレームワークである3DrawAgentを紹介する。
従来の2Dスケッチエージェントとは異なり,本手法は相対的経験最適化戦略を導入する。
3DrawAgentは多種多様なテキストプロンプトから複雑で一貫性のある3Dベジエスケッチを生成することができることを示す。
- 参考スコア(独自算出の注目度): 17.17661155254756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sketching in 3D space enables expressive reasoning about shape, structure, and spatial relationships, yet generating 3D sketches through natural language remains a major challenge. In this work, we introduce 3DrawAgent, a training-free, language-driven framework for 3D sketch generation that leverages large language models (LLMs) to sequentially draw 3D Bezier curves under geometric feedback. Unlike prior 2D sketch agents, our method introduces a relative experience optimization strategy that adapts the recently proposed Group Reward Policy Optimization (GRPO) paradigm. Instead of relying on explicit ground-truth supervision, we construct pairwise comparisons among generated sketches, with each pair consisting of a relatively better and a worse result based on CLIP-based perceptual rewards and LLM-based fine-grained qualitative assessment. These experiences are then used to iteratively refine the prior knowledge of 3D drawing, enabling black-box reinforcement of the model's 3D awareness. This design allows our model to self-improve its spatial understanding and drawing quality without parameter updates. Experiments show that 3DrawAgent can generate complex and coherent 3D Bezier sketches from diverse textual prompts, exhibit emergent geometric reasoning, and generalize to novel shapes, establishing a new paradigm for advancing the field of training-free 3D sketch intelligence.
- Abstract(参考訳): 3D空間でのスケッチは、形状、構造、空間的関係に関する表現的推論を可能にするが、自然言語による3Dスケッチを生成することは大きな課題である。
本研究では,大規模言語モデル(LLM)を利用して幾何学的フィードバックの下で3Dベジエ曲線を逐次描画する3DrawAgentを提案する。
従来の2Dスケッチエージェントとは異なり,本手法では,最近提案されたグループリワードポリシー最適化(GRPO)パラダイムに適応した相対経験最適化戦略を導入する。
CLIPに基づく知覚的報酬とLLMに基づくきめ細かな定性評価に基づく比較的良い結果と悪い結果からなる、生成したスケッチ間のペアワイズ比較を構築する。
これらの経験は、3D描画の以前の知識を反復的に洗練するために使用され、モデルの3D認識のブラックボックス強化を可能にする。
この設計により,パラメータを更新することなく,空間的理解と描画品質を自己改善することができる。
実験により、3DrawAgentは、多様なテキストプロンプトから複雑で一貫性のある3Dベジエスケッチを生成し、創発的な幾何学的推論を示し、新しい形状に一般化し、トレーニング不要な3Dスケッチインテリジェンス分野を前進させる新しいパラダイムを確立することができることが示された。
関連論文リスト
- 4-Doodle: Text to 3D Sketches that Move! [60.89021458068987]
4-Doodleは、テキストから動的3Dスケッチを生成するための、最初のトレーニング不要のフレームワークである。
提案手法は時間的にリアルかつ構造的に安定な3次元スケッチアニメーションを生成し,忠実度と可制御性の両方において既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-29T09:33:29Z) - Sketch3D: Style-Consistent Guidance for Sketch-to-3D Generation [55.73399465968594]
本稿では,テキスト記述と一致する色と入力スケッチに整合した形状のリアルな3Dアセットを生成するための,新しい生成パラダイムSketch3Dを提案する。
3つの戦略は、3次元ガウスの最適化、すなわち分布伝達機構による構造最適化、直感的なMSE損失による色最適化、CLIPに基づく幾何学的類似性損失によるスケッチ類似性最適化である。
論文 参考訳(メタデータ) (2024-04-02T11:03:24Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z) - Sketch-A-Shape: Zero-Shot Sketch-to-3D Shape Generation [13.47191379827792]
そこで本研究では,スケッチから3次元形状を生成するために,事前学習モデルの大きさについて検討する。
トレーニング中の合成レンダリングの特徴を3次元生成モデルに条件付けすることで,推論時にスケッチから3次元形状を効果的に生成できることがわかった。
これは、事前訓練された大きな視覚モデルの特徴が、ドメインシフトに耐性を持つ意味的な信号を持っていることを示唆している。
論文 参考訳(メタデータ) (2023-07-08T00:45:01Z) - Make Your Brief Stroke Real and Stereoscopic: 3D-Aware Simplified Sketch
to Portrait Generation [51.64832538714455]
既存の研究は2次元平面の像のみを固定ビューで生成し、その結果を鮮明にしない。
本稿では立体視による簡易スケッチ・トゥ・ポートレート(SSSP)について述べる。
我々の重要な洞察は、三面体ベースの3D認識生成モデルの事前知識を十分に活用できるスケッチ認識制約を設計することである。
論文 参考訳(メタデータ) (2023-02-14T06:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。