Fugu-MT 論文翻訳(概要): Synthetic Data Generation and Vision-based Wrinkle and Keypoint Detection for Bimanual Cloth Manipulation

論文の概要: Synthetic Data Generation and Vision-based Wrinkle and Keypoint Detection for Bimanual Cloth Manipulation

arxiv url: http://arxiv.org/abs/2606.06292v1
Date: Thu, 04 Jun 2026 15:30:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 22:39:44.904552
Title: Synthetic Data Generation and Vision-based Wrinkle and Keypoint Detection for Bimanual Cloth Manipulation
Title（参考訳）: 合成データ生成と視覚に基づくクリンクルと2次元衣服操作のためのキーポイント検出
Authors: Ariel Herrera, Xueyang Kang, Atal Anil Kumar,
Abstract要約: 置換不変キーポイント検出のためのCNNとYOLOv8-OpenCVパイプラインを統合し,構造的なしわから把握点を抽出する。提案されたバイマニュアルアルゴリズムは、このシステムを使用して、完全に折り畳まれた衣服をしわで伸ばし、一度コーナーが現れるとキーポイントベースのアイロンに遷移する。
参考スコア（独自算出の注目度）: 1.873444918172383
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robotic manipulation of textiles remains challenging because continuous deformation and self-occlusions hinder the robust visual perception required to estimate the cloth's state. To address the lack of annotated real-world data, we developed a Blender-based synthetic pipeline exporting auto-annotated keypoints, and combined manually labeled renders with real-world data to train a wrinkle detector. We present a perception framework integrating a CNN for permutation-invariant keypoint detection and a YOLOv8-OpenCV pipeline to extract grasping points from structural wrinkles. A proposed bimanual algorithm uses this system to stretch fully folded garments via wrinkles, transitioning to keypoint-based ironing once corners emerge. The keypoint model achieves a Mean Position Error (MPE) of 1.7615 pixels. The perception system transfers to physical fabrics without fine-tuning, outperforming baselines that fail in high-occlusion states or yield false positives on severe folds.
Abstract（参考訳）: 繊維のロボット操作は、連続的な変形と自己閉塞が、布の状態を推定するために必要な頑丈な視覚的知覚を妨げるため、依然として困難である。注釈付き実世界のデータの欠如に対処するため,自動注釈付きキーポイントをエクスポートするBlenderベースの合成パイプラインを開発し,手動でラベル付けされたレンダリングと実世界のデータを組み合わせて,輪郭検出装置の訓練を行った。置換不変キーポイント検出のためのCNNとYOLOv8-OpenCVパイプラインを統合し,構造的なしわから把握点を抽出する。提案されたバイマニュアルアルゴリズムは、このシステムを使用して、完全に折り畳まれた衣服をしわで伸ばし、一度コーナーが現れるとキーポイントベースのアイロンに遷移する。キーポイントモデルは1.7615ピクセルの平均位置誤差(MPE)を達成する。知覚システムは、高い閉塞状態に失敗したり、重厚な折りたたみに偽陽性を生じるような、微調整、優れたベースラインを伴わずに物理織物に伝達する。

関連論文リスト

RoboHitch: Learning Visual Affordance from Disordered Keypoints for Hitch Knots Tying [4.437059562306781]
既存のロボットノットタイリング手法は、順序付けられたキーポイントと明示的なエッジ接続を備えた正確なトポロジカルな状態追跡に依存している。本稿では,不規則な3DキーポイントとRGB画像のみを用いて,人間のデモからヒッチ結び付けを学習する新しいフレームワークRoboHitchを紹介する。
論文参考訳（メタデータ） (2026-05-23T04:38:58Z)
ChartZero: Synthetic Priors Enable Zero Shot Chart Data Extraction [2.825872203744638]
合成先行情報を活用する解析フレームワークであるChartZeroを導入し,ロバストなゼロショットチャートデータ抽出を実現する。我々は,Global Orthogonal Instance (GOI) の損失によって曲線の断片化を克服し,不安定な空間ルールをオープン語彙であるVLM(Vision-Language Model)に置き換える。
論文参考訳（メタデータ） (2026-05-07T07:57:48Z)
Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。 SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。 Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文参考訳（メタデータ） (2024-05-10T15:27:43Z)
Anomaly Detection in Automated Fibre Placement: Learning with Data Limitations [3.103778949672542]
自動繊維配置における欠陥検出と局所化のための包括的枠組みを提案する。我々のアプローチは教師なしのディープラーニングと古典的なコンピュータビジョンアルゴリズムを組み合わせる。様々な表面の問題を効率よく検出し、訓練のために複合部品のイメージを少なくする。
論文参考訳（メタデータ） (2023-07-15T22:13:36Z)
Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文参考訳（メタデータ） (2022-12-17T15:05:25Z)
UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文参考訳（メタデータ） (2022-10-23T15:24:47Z)
VIBUS: Data-efficient 3D Scene Parsing with VIewpoint Bottleneck and Uncertainty-Spectrum Modeling [2.0624279915507047]
3Dシーン解析モデルの訓練は、興味深い代替手段だ。このタスクをデータ効率のよい3Dシーン解析と呼ぶ。そこで本研究では,VIBUSという2段階の有効なフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-20T17:59:57Z)
Leveraging Deepfakes to Close the Domain Gap between Real and Synthetic Images in Facial Capture Pipelines [8.366597450893456]
我々は、パーソナライズされたアプリ内ビデオデータから3次元顔モデルを構築し、追跡するためのエンドツーエンドパイプラインを提案する。本稿では,従来のコンピュータグラフィックスパイプラインにおける衝突アルゴリズムに典型的な階層的クラスタリングフレームワークに基づく自動データキュレーションと検索手法を提案する。我々は、前述の技術を活用して、現実の地上真実データの必要性を回避するために、モーションキャプチャ回帰器のトレーニング方法を概説する。
論文参考訳（メタデータ） (2022-04-22T15:09:49Z)
Point Set Self-Embedding [63.23565826873297]
この研究は、高密度な点の情報を視覚的だが知覚不可能な形でスペーサーバージョンにエンコードする、点集合自己埋め込みの革新的な方法を示す。自己埋め込みポイントセットは、通常のダウンサンプルとして機能し、モバイルデバイス上で効率的に視覚化することができる。リモートサーバ上で詳細な分析を行うために,自己埋め込み情報を活用して,元のポイントセットを完全に復元する。
論文参考訳（メタデータ） (2022-02-28T07:03:33Z)
Data Augmentation for Object Detection via Differentiable Neural Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文参考訳（メタデータ） (2021-03-04T06:31:06Z)
SPU-Net: Self-Supervised Point Cloud Upsampling by Coarse-to-Fine Reconstruction with Self-Projection Optimization [52.20602782690776]
実際のスキャンされたスパースデータからトレーニング用の大規模なペアリングスパーススキャンポイントセットを得るのは高価で面倒です。本研究では,SPU-Net と呼ばれる自己監視型点群アップサンプリングネットワークを提案する。本研究では,合成データと実データの両方について様々な実験を行い,最先端の教師付き手法と同等の性能が得られることを示す。
論文参考訳（メタデータ） (2020-12-08T14:14:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。