論文の概要: AbracADDbra: Touch-Guided Object Addition by Decoupling Placement and Editing Subtasks
- arxiv url: http://arxiv.org/abs/2602.14237v1
- Date: Sun, 15 Feb 2026 17:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.829371
- Title: AbracADDbra: Touch-Guided Object Addition by Decoupling Placement and Editing Subtasks
- Title(参考訳): AbracADDbra: 配置の分離とサブタスクの編集によるタッチガイドオブジェクトの追加
- Authors: Kunal Swami, Raghu Chittersu, Yuvraj Rathore, Rajeev Irny, Shashavali Doodekula, Alok Shukla,
- Abstract要約: AbracADDbraはユーザフレンドリーなフレームワークで、直感的なタッチ先を利用して空間的に簡潔な指示を正確に配置する。
評価の結果,フレームワークの高忠実度編集能力が確認された。
- 参考スコア(独自算出の注目度): 2.6696296813423737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based object addition is often hindered by the ambiguity of text-only prompts or the tedious nature of mask-based inputs. To address this usability gap, we introduce AbracADDbra, a user-friendly framework that leverages intuitive touch priors to spatially ground succinct instructions for precise placement. Our efficient, decoupled architecture uses a vision-language transformer for touch-guided placement, followed by a diffusion model that jointly generates the object and an instance mask for high-fidelity blending. To facilitate standardized evaluation, we contribute the Touch2Add benchmark for this interactive task. Our extensive evaluations, where our placement model significantly outperforms both random placement and general-purpose VLM baselines, confirm the framework's ability to produce high-fidelity edits. Furthermore, our analysis reveals a strong correlation between initial placement accuracy and final edit quality, validating our decoupled approach. This work thus paves the way for more accessible and efficient creative tools.
- Abstract(参考訳): 命令に基づくオブジェクトの追加は、テキストのみのプロンプトの曖昧さや、マスクベースの入力の退屈な性質によって、しばしば妨げられる。
このようなユーザビリティのギャップに対処するために,直感的なタッチ先行情報を活用するユーザフレンドリーなフレームワークであるAbracADDbraを導入し,正確な配置のための空間的簡潔な指示を行う。
我々の効率的で分離されたアーキテクチャは、タッチ誘導配置に視覚言語変換器を使用し、続いてオブジェクトを共同生成する拡散モデルと高忠実度ブレンディングのためのインスタンスマスクを用いる。
標準化された評価を容易にするため、この対話的なタスクにTouch2Addベンチマークをコントリビュートする。
我々の配置モデルがランダム配置と汎用VLMベースラインの両方を著しく上回る大規模な評価を行い、高忠実度編集を行うフレームワークの能力を確認した。
さらに,本分析では,初期配置精度と最終編集品質の相関が強く,分離されたアプローチを検証している。
この作業は、よりアクセシブルで効率的な創造ツールの道を開く。
関連論文リスト
- RoomEditor++: A Parameter-Sharing Diffusion Architecture for High-Fidelity Furniture Synthesis [89.26382925677301]
仮想家具の合成は、ホームデザインと電子商取引の応用を大いに約束する。
RoomEditor++は、パラメータ共有デュアル拡散バックボーンを備えた多用途拡散ベースアーキテクチャである。
RoomEditor++は、定量的メトリクス、質的評価、そして人間の嗜好研究の観点から、最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-12-19T13:39:43Z) - ACD-CLIP: Decoupling Representation and Dynamic Fusion for Zero-Shot Anomaly Detection [21.26826497960086]
ゼロショット異常検出(ZSAD)によるVLMの事前訓練
パラメータ効率のよい畳み込み型低ランク適応 (Conv-LoRA) アダプタを提案する。
また、テキストプロンプトを適応的に変調するために視覚的コンテキストを活用する動的フュージョンゲートウェイ(DFG)を導入する。
論文 参考訳(メタデータ) (2025-08-11T10:03:45Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - BOOTPLACE: Bootstrapped Object Placement with Detection Transformers [23.300369070771836]
本稿では,オブジェクト配置を位置検出問題として定式化する新しいパラダイムであるBOOTPLACEを紹介する。
確立されたベンチマークの実験結果は、BOOTPLACEのオブジェクト再配置における優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-27T21:21:20Z) - RADA: Robust and Accurate Feature Learning with Domain Adaptation [7.905594146253435]
本稿では、2つの重要な要素を組み込んだ多層機能集約ネットワークを導入し、堅牢で正確な特徴の学習を容易にする。
提案手法は,画像マッチング,カメラポーズ推定,視覚的ローカライゼーションタスクにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2024-07-22T16:49:58Z) - Interfacing Foundation Models' Embeddings [131.0352288172788]
ファウンデーションモデルの埋め込みと、モダリティと粒度にまたがる統合イメージとデータセットレベルの理解を整合させる汎用インターフェースであるFINDを提案する。
インターリーブド埋め込み空間を考慮したFIND-Benchでは,インターリーブドセグメンテーションと検索のためのCOCOデータセットに新たなトレーニングと評価アノテーションを導入している。
論文 参考訳(メタデータ) (2023-12-12T18:58:02Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。