論文の概要: Spacetime Optimal-Transport Attention for Visuo-Haptic Imitation Learning of Contact-Rich Manipulation
- arxiv url: http://arxiv.org/abs/2605.20433v1
- Date: Tue, 19 May 2026 19:29:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.344623
- Title: Spacetime Optimal-Transport Attention for Visuo-Haptic Imitation Learning of Contact-Rich Manipulation
- Title(参考訳): 接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点・接点
- Authors: Yue Feng, Weicheng Huang, I-Ming Chen,
- Abstract要約: 軟質マックス正規化パッチアテンションに代わる3モーダル核融合バックボーンであるSpacetime Optimal-Transport Attention (SO-TA)を提案する。
明示的な限界制約は、接触に富むタスクに対する構造的帰納バイアスとして機能し、条件付き空間選択を奨励する。
我々は,3つの実ロボット上でのSO-TAの評価を行い,穴内密組立,BCM配線コネクタ挿入,曲面マーク消去を行った。
- 参考スコア(独自算出の注目度): 8.276456155150138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contact-rich manipulation tasks such as tight-clearance insertion, connector mating, polishing, and surface-conforming wiping remain difficult for data-driven controllers because they couple discontinuous contact dynamics, partial observability, and strict safety constraints. No single sensing modality suffices: vision supplies global context before contact, force/torque (F/T) feedback governs interaction after contact, and proprioceptive pose provides a consistent kinematic backbone. Most prior imitation-learning policies for contact-rich tasks operate on uni- or bi-modal signals, and the few that fuse three modalities typically adopt off-the-shelf attention modules with no explicit prior on how attention mass should be distributed across task-relevant regions. We present Spacetime Optimal-Transport Attention (SO-TA), a tri-modal fusion backbone that replaces softmax-normalized patch attention by an entropy-regularized Optimal Transport (OT) alignment between force-pose-derived sub-queries and visual patches. Explicit marginal constraints act as a structured inductive bias for contact-rich tasks, encouraging conditioning-aware spatial selection that is stable across illumination, distractors, and partial occlusion. SO-TA is paired with a diffusion-based sequence policy mapping observation windows to pose-action chunks. We evaluate SO-TA on three real-robot tasks: tight peg-in-hole assembly, BCM wiring-connector insertion, and curved-surface mark erasing. With ~200 rollouts per condition, SO-TA reaches 100% success on tight peg-in-hole versus 93% for cross-attention at matched capacity, and retains 82.5% success under illumination, distractor, and partial-occlusion perturbations where a concatenation baseline drops to 43.5%. OT-derived patch heatmaps and leave-one-out modality-influence ratios provide interpretable, phase-dependent diagnostics.
- Abstract(参考訳): 不連続な接触ダイナミクス、部分的可観測性、厳密な安全制約が混在しているため、タイトクリアランス挿入、コネクタマット、研磨、表面コンフォーミングといったコンタクトリッチな操作作業は、データ駆動型コントローラでは難しいままである。
視覚は接触前のグローバルコンテキストを供給し、力/トルク(F/T)フィードバックは接触後の相互作用を制御し、受容的なポーズは一貫したキネマティックなバックボーンを提供する。
コンタクトリッチなタスクに対する事前の模倣学習ポリシーは、ユニモーダル信号やバイモーダル信号で動作しており、3つのモダリティを融合させるものは、通常、タスク関連領域にどのように注目質量を分散すべきかを明示せずに、市販のアテンションモジュールを採用する。
本研究では,3次元融合バックボーンであるSpacetime Optimal-Transport Attention (SO-TA)を提案する。
明示的な限界制約は、接触に富むタスクに対する構造的帰納バイアスとして機能し、照明、イントラクタ、部分閉塞に対して安定な条件付き空間選択を奨励する。
SO-TAは拡散型シーケンスポリシーマッピング観測ウィンドウと組み合わせて、ポーズ・アクション・チャンクを形成する。
我々は,3つの実ロボット上でのSO-TAの評価を行い,穴内密組立,BCM配線コネクタ挿入,曲面マーク消去を行った。
条件当たり200回程度のロールアウトでは、SO-TAは密なペグ・イン・ホールで100%成功し、整合容量で93%成功し、照明、イントラクタ、部分閉塞摂動の下で82.5%成功し、連結基線は43.5%減少する。
OT由来のパッチヒートマップとLeave-out-out modality-influence ratioは、解釈可能な位相依存性の診断を提供する。
関連論文リスト
- SECOND-Grasp: Semantic Contact-guided Dexterous Grasping [60.1519218638742]
Second-Grasp (Semantic Contact-guided Dexterous Grasping) は、ロボットハンドが意味論的推論に基づいて把握戦略を調整できる統合されたフレームワークである。
我々のアプローチは、目に見えるカテゴリーと目に見えないカテゴリの両方で成功率を上げるために、一貫してベースラインを上回ります。
論文 参考訳(メタデータ) (2026-05-13T07:37:00Z) - ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly [10.687495099840659]
精密な組み立てには、接触に富んだ「ラストミリ」領域でサブミリ秒の補正が必要である。
ReTac-ACTは3つのメカニズムを通じてこの問題に対処する。
90%のホール成功を達成し、視覚のみの手法と一般的な手法を大きく上回り、0.1mmペグで成功を維持する。
論文 参考訳(メタデータ) (2026-03-10T12:09:22Z) - Symmetry-Aware Fusion of Vision and Tactile Sensing via Bilateral Force Priors for Robotic Manipulation [7.104060092661104]
本稿では,バイスオ触覚融合のためのクロスモーダルトランス (CMT) を提案する。
CMTは、構造化された自己および横断的注意を通して触覚信号と手首カメラ観測を統合する。
TacSLベンチマークの実験では、対称性の正則化を持つCMTが96.59%の挿入成功率を達成した。
論文 参考訳(メタデータ) (2026-02-14T09:19:48Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - A Unified Complementarity-based Approach for Rigid-Body Manipulation and Motion Prediction [12.241353619398899]
本稿では,単一形式(Unicomp)における自由運動と摩擦接触を連続的に捉えるロボット操作の数学的モデルを提案する。
実験結果から,提案手法は,接触に富む全身操作の操作から,タスク間の対話的な動作において,物理的に一貫した動作を可能にすることが示唆された。
論文 参考訳(メタデータ) (2026-02-04T13:10:57Z) - Towards Efficient 3D Object Detection for Vehicle-Infrastructure Collaboration via Risk-Intent Selection [23.186947629238233]
リスクインテリジェント選択検出(RiSe)は、パラダイムを可視領域の識別からリスククリティカル領域の優先順位付けに移行する、インタラクション対応のフレームワークである。
RiSeは、高信頼度特徴を高相互作用領域からのみ伝達する意味選択的融合スキームを実装している。
本手法は,最先端検出精度を維持しつつ,通信量を全特徴共有の0.71%に削減する。
論文 参考訳(メタデータ) (2026-01-06T13:25:23Z) - ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning [52.86018040861575]
本稿では,単一のネットワークに視覚計画と反応力制御を統合した,一貫したエンドツーエンドの視覚力拡散政策を提案する。
本稿では,非同期な視覚と力のトークンを同時に処理するための因果的注意力を利用した構造的スローフォールストラーニングを紹介する。
コンタクトリッチタスクの実験では、ImplicitRDPは視覚のみのベースラインと階層的なベースラインの両方で著しく優れていた。
論文 参考訳(メタデータ) (2025-12-11T18:59:46Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-05-20T08:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。