論文の概要: FCBV-Net: Category-Level Robotic Garment Smoothing via Feature-Conditioned Bimanual Value Prediction
- arxiv url: http://arxiv.org/abs/2508.05153v1
- Date: Thu, 07 Aug 2025 08:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.767851
- Title: FCBV-Net: Category-Level Robotic Garment Smoothing via Feature-Conditioned Bimanual Value Prediction
- Title(参考訳): FCBV-Net:特徴量予測によるカテゴリーレベルロボットガーメントの平滑化
- Authors: Mohammed Daba, Jing Qiu,
- Abstract要約: ロボット服用操作のカテゴリーレベルの一般化は、高次元性、複雑な力学、カテゴリー内変異による重要なハードルである。
衣服のスムース化のためのカテゴリーレベルポリシーの一般化を特に強化する特徴定義二元的価値ネットワーク(FCBV-Net)を提案する。
FCBV-Net条件は、事前訓練された、凍結された密集した幾何学的特徴に対するバイマニュアルアクション値の予測であり、カテゴリー内衣服の変動に対する堅牢性を保証する。
- 参考スコア(独自算出の注目度): 2.054920300714543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Category-level generalization for robotic garment manipulation, such as bimanual smoothing, remains a significant hurdle due to high dimensionality, complex dynamics, and intra-category variations. Current approaches often struggle, either overfitting with concurrently learned visual features for a specific instance or, despite category-level perceptual generalization, failing to predict the value of synergistic bimanual actions. We propose the Feature-Conditioned Bimanual Value Network (FCBV-Net), operating on 3D point clouds to specifically enhance category-level policy generalization for garment smoothing. FCBV-Net conditions bimanual action value prediction on pre-trained, frozen dense geometric features, ensuring robustness to intra-category garment variations. Trainable downstream components then learn a task-specific policy using these static features. In simulated GarmentLab experiments with the CLOTH3D dataset, FCBV-Net demonstrated superior category-level generalization. It exhibited only an 11.5% efficiency drop (Steps80) on unseen garments compared to 96.2% for a 2D image-based baseline, and achieved 89% final coverage, outperforming an 83% coverage from a 3D correspondence-based baseline that uses identical per-point geometric features but a fixed primitive. These results highlight that the decoupling of geometric understanding from bimanual action value learning enables better category-level generalization.
- Abstract(参考訳): 双対スムースメントのようなロボット服用操作のカテゴリーレベルの一般化は、高次元性、複雑な力学、カテゴリー内変動のために大きなハードルを保っている。
現在のアプローチは、特定のケースで同時に学習された視覚的特徴に過度に適合するか、カテゴリーレベルの知覚的一般化にもかかわらず、相乗的双対作用の価値を予測できないか、しばしば苦労している。
本稿では,3Dポイントクラウド上で動作し,衣料品のスムース化のためのカテゴリレベルポリシーの一般化を特に強化する特徴定義二元的価値ネットワーク(FCBV-Net)を提案する。
FCBV-Net条件は、事前訓練された、凍結された密集した幾何学的特徴に対するバイマニュアルアクション値の予測であり、カテゴリー内衣服の変動に対する堅牢性を保証する。
トレーニング可能なダウンストリームコンポーネントは、静的機能を使ってタスク固有のポリシーを学ぶ。
CLOTH3Dデータセットを用いたGarmentLabのシミュレーション実験において、FCBV-Netはより優れたカテゴリレベルの一般化を示した。
2D画像ベースラインの96.2%に比べて11.5%の効率低下(Steps80)しか見られず、最終カバレッジは89%で、3D対応ベースラインの83%を上回った。
これらの結果は,2次元行動価値学習からの幾何学的理解の分離が,より優れたカテゴリレベルの一般化を可能にすることを示唆している。
関連論文リスト
- Disentangling Instance and Scene Contexts for 3D Semantic Scene Completion [23.76697700853566]
3Dセマンティックシーンコンプリート(SSC)は3D知覚において重要な役割を担っているため注目されている。
最近の進歩は、主に3Dシーンを構築するために、ボクセルレベルの特徴を精錬することに焦点を当てている。
我々は、インスタンスとシーンの両方のカテゴリでの学習を強化するために、textbfDisentangling InstanceとScene Contexts(DISC)を提案する。
論文 参考訳(メタデータ) (2025-07-11T12:57:14Z) - Improving Open-Set Semantic Segmentation in 3D Point Clouds by Conditional Channel Capacity Maximization: Preliminary Results [1.1328543389752008]
オープンセットセマンティック(O3S)のためのプラグアンドプレイフレームワークを提案する。
セグメンテーションパイプラインを条件付きマルコフ連鎖としてモデル化することにより、条件付きチャネル容量最大化(3CM)と呼ばれる新しい正規化器項を導出する。
3CMは,エンコーダがよりリッチでラベルに依存した機能を維持することを奨励し,従来見つからなかったカテゴリを識別・分割するネットワークの能力を向上することを示す。
論文 参考訳(メタデータ) (2025-05-09T04:12:26Z) - 3DAffordSplat: Efficient Affordance Reasoning with 3D Gaussians [82.67236400004826]
人間の指示を3Dオブジェクトの機能領域に関連付けるためには,3D割当推論が不可欠である。
3DAffordSplatは3DGSベースの価格推論に適した,最初の大規模マルチモーダルデータセットである。
AffordSplatNetは,3DGS表現を用いた割当推論に特化して設計された新しいモデルである。
論文 参考訳(メタデータ) (2025-04-15T14:21:47Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - 3D Open-Vocabulary Panoptic Segmentation with 2D-3D Vision-Language Distillation [40.49322398635262]
本稿では,3次元オープンボキャブラリパノプタセグメンテーションのための最初の手法を提案する。
我々のモデルは、学習可能なLiDAR機能と密集した凍結視覚CLIP機能との融合を利用する。
本稿では,オブジェクトレベルの蒸留損失とボクセルレベルの蒸留損失の2つの新しい損失関数を提案する。
論文 参考訳(メタデータ) (2024-01-04T18:39:32Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose
Estimation with Decoupled Rotation Mechanism [49.89268018642999]
6次元ポーズ推定のための効率的なカテゴリレベルの特徴抽出が可能な高速形状ベースネットワーク(FS-Net)を提案する。
提案手法は,カテゴリレベルおよびインスタンスレベルの6Dオブジェクトのポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-12T03:07:24Z) - Using Company Specific Headlines and Convolutional Neural Networks to
Predict Stock Fluctuations [0.0]
本研究は、企業固有のニュース見出しを用いて、次の株価変動を予測するための畳み込みニューラルネットワーク(CNN)を提案する。
使用する畳み込みフィルタの総数は、通常よりもはるかに少なく、精度を損なうことなくタスクの次元性を低下させる。
61.7%の分類精度は、事前学習した埋め込みを用いて達成され、このタスクの特定のコンテキストを表現するために訓練中に微調整される。
論文 参考訳(メタデータ) (2020-06-22T16:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。