論文の概要: GarmentPile++: Affordance-Driven Cluttered Garments Retrieval with Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2603.04158v1
- Date: Wed, 04 Mar 2026 15:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.365618
- Title: GarmentPile++: Affordance-Driven Cluttered Garments Retrieval with Vision-Language Reasoning
- Title(参考訳): GarmentPile++: 視覚言語推論によるアクダクタンス駆動クレーター型ガーメント検索
- Authors: Mingleyang Li, Yuran Wang, Yue Chen, Tianxing Chen, Jiaqi Liang, Zishun Shen, Haoran Lu, Ruihai Wu, Hao Dong,
- Abstract要約: ガーメント操作は、ホームアシストロボティクスにおいて重要な役割を担っているため、注目を集めている。
本稿では,安全かつクリーンな検索を行うための言語命令に従うだけでなく,試行ごとに1つの衣服が正確に検索されることを保証する新しい衣服検索パイプラインを提案する。
我々のパイプラインは視覚言語推論と視覚的アベイランス認識をシームレスに統合し、VLMの高レベル推論と計画能力を完全に活用する。
- 参考スコア(独自算出の注目度): 27.756766557197746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Garment manipulation has attracted increasing attention due to its critical role in home-assistant robotics. However, the majority of existing garment manipulation works assume an initial state consisting of only one garment, while piled garments are far more common in real-world settings. To bridge this gap, we propose a novel garment retrieval pipeline that can not only follow language instruction to execute safe and clean retrieval but also guarantee exactly one garment is retrieved per attempt, establishing a robust foundation for the execution of downstream tasks (e.g., folding, hanging, wearing). Our pipeline seamlessly integrates vision-language reasoning with visual affordance perception, fully leveraging the high-level reasoning and planning capabilities of VLMs alongside the generalization power of visual affordance for low-level actions. To enhance the VLM's comprehensive awareness of each garment's state within a garment pile, we employ visual segmentation model (SAM2) to execute object segmentation on the garment pile for aiding VLM-based reasoning with sufficient visual cues. A mask fine-tuning mechanism is further integrated to address scenarios where the initial segmentation results are suboptimal. In addition, a dual-arm cooperation framework is deployed to address cases involving large or long garments, as well as excessive garment sagging caused by incorrect grasping point determination, both of which are strenuous for a single arm to handle. The effectiveness of our pipeline are consistently demonstrated across diverse tasks and varying scenarios in both real-world and simulation environments. Project page: https://garmentpile2.github.io/.
- Abstract(参考訳): ガーメント操作は、ホームアシストロボティクスにおいて重要な役割を担っているため、注目を集めている。
しかし、現存する衣料品のほとんどが1着のみからなる初期状態を前提としているのに対し、積み重ねられた衣料は現実世界でははるかに一般的である。
このギャップを埋めるために,安全かつクリーンな検索を行うための言語命令に従うだけでなく,試行錯誤によって1つの衣服が正確に回収されることを保証し,下流タスク(例えば,折りたたみ,ハング,着用など)を実行するための堅牢な基盤を確立した,新しい衣服検索パイプラインを提案する。
我々のパイプラインは視覚的アベイランスの認識と視覚言語推論をシームレスに統合し、低レベルのアクションに対する視覚的アベイランスの一般化力と並行して、VLMの高レベルな推論と計画能力を完全に活用する。
本研究は,VLMの衣服状態に対する包括的認識を高めるために,VLMに基づく推論を支援するために,被服容積のオブジェクトセグメンテーションを行う視覚セグメンテーションモデル(SAM2)を用いた。
マスクの微調整機構がさらに統合され、初期セグメンテーション結果が最適でないシナリオに対処する。
また、大きな衣服や長い衣服が絡んだ場合や、不正な把握ポイント決定による過度な衣服のサギングに対処するために、両腕協調フレームワークを配置する。
パイプラインの有効性は、実環境とシミュレーション環境の両方において、さまざまなタスクとさまざまなシナリオで一貫して実証されます。
プロジェクトページ: https://garmentpile2.github.io/.com
関連論文リスト
- NGL-Prompter: Training-Free Sewing Pattern Estimation from a Single Image [4.620470560214746]
画像から縫製パターンを推定することは、高品質な3D衣服を作るための実践的なアプローチである。
NGL(Natural Garment Language)は、GarmentCodeを言語モデルにより理解しやすい表現に再構成する新しい中間言語である。
我々は,Dress4D,CloSe,新たに収集した約5,000のイン・ザ・ワイルド・ファッション・イメージのデータセットについて検討した。
論文 参考訳(メタデータ) (2026-02-24T09:01:11Z) - CLASP: General-Purpose Clothes Manipulation with Semantic Keypoints [26.793986224605977]
本稿では,CLothes mAnipulation with Semantic KeyPoints (CLASP)について述べる。
CLASPの中核となる考え方はセマンティックキーポイント(例えば ''left sleeve'' や ''right shoulder' など)である。
CLASPはセマンティックキーポイントを中間表現として使用し、ハイレベルなタスク計画と低レベルなアクション実行を接続する。
論文 参考訳(メタデータ) (2025-07-26T15:43:25Z) - Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On [89.9123806553489]
拡散モデルは仮想試行(VTON)タスクで成功している。
この問題は、拡散モデルの本質性により、与えられた衣服の形状や細部を保存することは依然として困難である。
本稿では,視力の拡散前処理として視覚的対応を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2025-05-22T17:52:13Z) - DexGarmentLab: Dexterous Garment Manipulation Environment with Generalizable Policy [88.65584817043676]
衣料品の操作は、衣服カテゴリー、ジオメトリー、変形の多様性のために重要な課題である。
DexGarmentLabは,デキスタラスな(特にバイマニュアルな)衣料品の操作に特化して設計された最初の環境である。
15のタスクシナリオのための大規模な高品質な3Dアセットを備え、服のモデリングに適したシミュレーション技術を洗練し、シム・トゥ・リアルのギャップを減らす。
論文 参考訳(メタデータ) (2025-05-16T09:26:59Z) - GarmentPile: Point-Level Visual Affordance Guided Retrieval and Adaptation for Cluttered Garments Manipulation [14.604134812602044]
単衣の操作とは異なり、散らかったシナリオは複雑な衣服の絡み合いと相互作用を管理する必要がある。
我々は、点レベルの可測性、複素空間をモデル化した密度表現、およびマルチモーダルな操作候補を学習する。
本研究では,高度に絡み合った衣服を操作可能な状態に再構成するための適応モジュールを提案する。
論文 参考訳(メタデータ) (2025-03-12T10:39:12Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - Magic Clothing: Controllable Garment-Driven Image Synthesis [7.46772222515689]
我々は,未探索の衣服駆動画像合成タスクのための潜在拡散モデル(LDM)に基づくネットワークアーキテクチャであるMagic Clothingを提案する。
多様なテキストプロンプトを持つ対象の衣服を装着したカスタマイズされた文字を生成することを目指して、画像制御性が最も重要な問題である。
衣料品の特徴を捉えるために衣服抽出装置を導入し, 自覚融合を用いて予め訓練したLCDに組み込む。
論文 参考訳(メタデータ) (2024-04-15T07:15:39Z) - GarmentTracking: Category-Level Garment Pose Tracking [47.219348193140775]
カテゴリーレベルのポーズトラッキングタスクに対処するための完全なパッケージを提示する。
仮想衣料モデルをVRインターフェースを通じてシミュレーションで操作できる、記録システムVR-Garment。
大規模なデータセットであるVR-Foldingは、フラット化や折りたたみのような操作で複雑な服装が設定される。
エンドツーエンドのオンライントラッキングフレームワークであるGarmentTrackingは、標準的な空間と、ポイントクラウドシーケンスが与えられたタスク空間の両方で、完全な衣服のポーズを予測する。
論文 参考訳(メタデータ) (2023-03-24T10:59:17Z) - UIGR: Unified Interactive Garment Retrieval [105.56179829647142]
対話型衣服検索(IGR)は、基準衣服画像に基づいて対象衣服画像を検索することを目的としている。
テキスト誘導衣料検索(TGR)と視覚互換衣料検索(VCR)の2つのタスクが広く研究されている。
本稿では,TGRとVCRを統合するためのUIGR(Unified Interactive Garment Retrieval)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-06T21:54:14Z) - Towards Scalable Unpaired Virtual Try-On via Patch-Routed
Spatially-Adaptive GAN [66.3650689395967]
本稿では,現実世界の仮想試行を支援するテクスチャ保存型終末ネットワークであるPAtch-routed SpaTially-Adaptive GAN (PASTA-GAN)を提案する。
PASTA-GANは、各衣服のスタイルと空間情報をアンタングルするために、革新的なパッチを外したアンタングルモジュールで構成されている。
論文 参考訳(メタデータ) (2021-11-20T08:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。