論文の概要: ScribbleSense: Generative Scribble-Based Texture Editing with Intent Prediction
- arxiv url: http://arxiv.org/abs/2601.22455v1
- Date: Fri, 30 Jan 2026 01:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.158825
- Title: ScribbleSense: Generative Scribble-Based Texture Editing with Intent Prediction
- Title(参考訳): ScribbleSense: インテント予測による生成スクリブルベースのテクスチャ編集
- Authors: Yudi Zhang, Yeming Geng, Lei Zhang,
- Abstract要約: ScribbleSenseは、マルチモーダル大言語モデル(MLLM)と画像生成モデルを組み合わせた編集方法である。
我々はMLLMの視覚的能力を活用し、スクリブルの背後にある編集意図を予測する。
局所的なテクスチャの詳細を抽出するために,グローバルに生成された画像を用いる。
- 参考スコア(独自算出の注目度): 5.109590115201006
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Interactive 3D model texture editing presents enhanced opportunities for creating 3D assets, with freehand drawing style offering the most intuitive experience. However, existing methods primarily support sketch-based interactions for outlining, while the utilization of coarse-grained scribble-based interaction remains limited. Furthermore, current methodologies often encounter challenges due to the abstract nature of scribble instructions, which can result in ambiguous editing intentions and unclear target semantic locations. To address these issues, we propose ScribbleSense, an editing method that combines multimodal large language models (MLLMs) and image generation models to effectively resolve these challenges. We leverage the visual capabilities of MLLMs to predict the editing intent behind the scribbles. Once the semantic intent of the scribble is discerned, we employ globally generated images to extract local texture details, thereby anchoring local semantics and alleviating ambiguities concerning the target semantic locations. Experimental results indicate that our method effectively leverages the strengths of MLLMs, achieving state-of-the-art interactive editing performance for scribble-based texture editing.
- Abstract(参考訳): インタラクティブな3Dモデルテクスチャ編集は、3Dアセットを作成する機会を高め、フリーハンドドローイングスタイルは最も直感的な体験を提供する。
しかし、既存の手法は主にアウトライン化のためのスケッチベースインタラクションをサポートし、粗粒度スクリブルベースのインタラクションの利用は限定的である。
さらに、現在の方法論は、スクリブル命令の抽象的な性質により、曖昧な編集意図や、ターゲットのセマンティックな位置が不明確になる可能性があるため、しばしば課題に直面する。
これらの課題に対処するために,マルチモーダル大言語モデル(MLLM)と画像生成モデルを組み合わせた編集手法であるScribbleSenseを提案する。
我々はMLLMの視覚的能力を活用し、スクリブルの背後にある編集意図を予測する。
スクリブルのセマンティックインテントが認識されると、グローバルに生成された画像を用いて局所的なテクスチャの詳細を抽出し、局所的なセマンティクスを固定し、ターゲットのセマンティクス位置に関する曖昧さを緩和する。
実験結果から,本手法はMLLMの強度を有効活用し,スクリブルベースのテクスチャ編集のための対話的編集性能を実現することが示唆された。
関連論文リスト
- DreamOmni3: Scribble-based Editing and Generation [72.52583595391944]
私たちはDream Omni3を紹介し、データ生成とフレームワーク設計という2つの課題に取り組みます。
スクリブル・インストラクション・ベースの編集、スクリブル・マルチモーダル・インストラクション・ベース・ジェネレーション、およびドゥードル生成の4つのタスクを定義する。
フレームワークでは,バイナリマスクの代わりに,オリジナル画像とスクリブル画像の両方をモデルに入力するジョイント入力方式を提案する。
論文 参考訳(メタデータ) (2025-12-27T09:07:12Z) - SmartFreeEdit: Mask-Free Spatial-Aware Image Editing with Complex Instruction Understanding [46.767486063775266]
SmartFreeEditは、マルチモーダルな大規模言語モデル(MLLM)とハイパーグラフ強化のインペイントアーキテクチャを統合するエンドツーエンドフレームワークである。
SmartFreeEditの主なイノベーションは、リージョン認識トークンとマスク埋め込みパラダイムである。
Reason-Editベンチマークの実験では、SmartFreeEditが現在の最先端メソッドを上回ることが示されている。
論文 参考訳(メタデータ) (2025-04-17T07:17:49Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - TexSliders: Diffusion-Based Texture Editing in CLIP Space [17.449209402077276]
既存の編集手法を分析し,テクスチャに直接適用できないことを示す。
拡散生成を条件にCLIP画像埋め込みを操作する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T17:57:21Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。
拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文 参考訳(メタデータ) (2023-09-26T12:01:13Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - Blended Diffusion for Text-driven Editing of Natural Images [18.664733153082146]
本稿では,局所的な(地域をベースとした)編集を自然言語で行うための最初のソリューションを提案する。
我々は、事前訓練された言語画像モデル(CLIP)を活用し、組み合わせることで、目標を達成する。
画像の異なる部分で編集された領域をシームレスに融合させるため、入力画像のノイズバージョンと局所テキスト誘導拡散潜時を空間的にブレンドする。
論文 参考訳(メタデータ) (2021-11-29T18:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。