Fugu-MT 論文翻訳(概要): Learning When to See and When to Feel: Adaptive Vision-Torque Fusion for Contact-Aware Manipulation

論文の概要: Learning When to See and When to Feel: Adaptive Vision-Torque Fusion for Contact-Aware Manipulation

arxiv url: http://arxiv.org/abs/2604.01414v1
Date: Wed, 01 Apr 2026 21:23:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-03 14:21:10.06807
Title: Learning When to See and When to Feel: Adaptive Vision-Torque Fusion for Contact-Aware Manipulation
Title（参考訳）: コンタクト認識操作のための適応型視触覚融合(Adaptive Vision-Torque Fusion)
Authors: Jiuzhou Lei, Chang Liu, Yu She, Xiao Liang, Minghui Zheng,
Abstract要約: フォース/トルク(F/T)信号は、接触ダイナミクス、アライメント、相互作用品質に関する重要な情報を提供する。視覚とF/T信号を統合するための様々な戦略が提案されている。本研究では,非接触位相におけるF/T信号を無視しつつ,接触時の視覚情報とトルク情報の両方を適応的に活用する適応型統合戦略を提案する。
参考スコア（独自算出の注目度）: 7.496866504034156
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-based policies have achieved a good performance in robotic manipulation due to the accessibility and richness of visual observations. However, purely visual sensing becomes insufficient in contact-rich and force-sensitive tasks where force/torque (F/T) signals provide critical information about contact dynamics, alignment, and interaction quality. Although various strategies have been proposed to integrate vision and F/T signals, including auxiliary prediction objectives, mixture-of-experts architectures, and contact-aware gating mechanisms, a comparison of these approaches remains lacking. In this work, we provide a comparison study of different F/T-vision integration strategies within diffusion-based manipulation policies. In addition, we propose an adaptive integration strategy that ignores F/T signals during non-contact phases while adaptively leveraging both vision and torque information during contact. Experimental results demonstrate that our method outperforms the strongest baseline by 14% in success rate, highlighting the importance of contact-aware multimodal fusion for robotic manipulation.
Abstract（参考訳）: 視覚に基づくポリシーは、視覚観察のアクセシビリティと豊かさのために、ロボット操作において優れたパフォーマンスを達成した。しかし、力/トルク(F/T)信号が接触ダイナミクス、アライメント、相互作用品質に関する重要な情報を提供するような、接触に富んだ、力に敏感なタスクでは、純粋に視覚的な感覚は不十分である。視覚とF/T信号を統合するための様々な戦略が提案されているが、その中には補助的な予測目標、Mix-of-expertsアーキテクチャ、接触認識ゲーティング機構などが含まれる。本研究では,拡散型操作ポリシーにおける異なるF/Tビジョン統合戦略の比較研究を行う。さらに,非接触位相におけるF/T信号を無視し,接触時の視覚情報とトルク情報の両方を適応的に活用する適応型統合戦略を提案する。実験結果から,ロボット操作における接触型マルチモーダル融合の重要性が示された。

関連論文リスト

Tactile Modality Fusion for Vision-Language-Action Models [22.788833830429766]
本稿では,視覚触覚信号と視覚言語アクション(VLA)モデルを統合する軽量なモーダルフュージョンアプローチであるTacFiLMを提案する。その結果, 成功率, 直接挿入性能, 完了時間, 負荷安定性の両面において一貫した改善が見られた。
論文参考訳（メタデータ） (2026-03-15T20:57:51Z)
TacVLA: Contact-Aware Tactile Fusion for Robust Vision-Language-Action Manipulation [27.000763540977506]
VLA(Vision-Language-Action)モデルは、ロボット操作において大きな優位性を示している。本稿では,触覚モーダルを変換器のポリシーに組み込んだ微調整VLAモデルTacVLAを提案する。本稿では,接触検出時にのみ触覚トークンを選択的に活性化する接触認識ゲーティング機構を提案する。
論文参考訳（メタデータ） (2026-03-13T05:20:41Z)
Symmetry-Aware Fusion of Vision and Tactile Sensing via Bilateral Force Priors for Robotic Manipulation [7.104060092661104]
本稿では,バイスオ触覚融合のためのクロスモーダルトランス (CMT) を提案する。 CMTは、構造化された自己および横断的注意を通して触覚信号と手首カメラ観測を統合する。 TacSLベンチマークの実験では、対称性の正則化を持つCMTが96.59%の挿入成功率を達成した。
論文参考訳（メタデータ） (2026-02-14T09:19:48Z)
ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning [52.86018040861575]
本稿では,単一のネットワークに視覚計画と反応力制御を統合した,一貫したエンドツーエンドの視覚力拡散政策を提案する。本稿では,非同期な視覚と力のトークンを同時に処理するための因果的注意力を利用した構造的スローフォールストラーニングを紹介する。コンタクトリッチタスクの実験では、ImplicitRDPは視覚のみのベースラインと階層的なベースラインの両方で著しく優れていた。
論文参考訳（メタデータ） (2025-12-11T18:59:46Z)
Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation [21.78866976181311]
See-through-skin (STS) センサーは触覚と視覚を結合する。既存のSTSの設計では、同時的なマルチモーダル認識が欠如し、信頼性の低い触覚追跡に悩まされている。 STSセンサであるTacThruを導入し,視覚認識と触覚信号抽出を同時に行う。
論文参考訳（メタデータ） (2025-12-10T17:35:13Z)
Multi-Modal Manipulation via Multi-Modal Policy Consensus [62.49978559936122]
本稿では,ロボット操作のための多様な感覚モダリティを統合するための新しいアプローチを提案する。提案手法は,それぞれが単一の表現に特化している拡散モデルの集合にポリシーを分解する。我々は、RLBenchにおけるシミュレーション操作タスクと、隠蔽対象のピック、手作業のスプーン再配向、パズル挿入といった実世界のタスクについて評価した。
論文参考訳（メタデータ） (2025-09-27T19:43:04Z)
ConViTac: Aligning Visual-Tactile Fusion with Contrastive Representations [7.870120920732663]
本研究では,融合時の特徴のアライメントを高めるために,視覚触覚表現学習ネットワークであるConViTacを提案する。我々の重要な貢献はコントラストエンコーダ機構であり、コントラストエンコーダを利用して視覚的および触覚的な入力を統一された潜伏埋め込みに投影する。我々は,ConViTacが現在最先端の手法よりも現実的に優れていることを示すために,広範囲な実験を行った。
論文参考訳（メタデータ） (2025-06-25T18:43:35Z)
ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文参考訳（メタデータ） (2025-05-28T09:24:25Z)
Semantic Communication for Cooperative Perception using HARQ [51.148203799109304]
我々は重要セマンティック情報を抽出するために重要地図を活用し、協調的な知覚セマンティックコミュニケーションフレームワークを導入する。周波数分割多重化(OFDM)とチャネル推定と等化戦略を併用して,時間変化によるマルチパスフェーディングによる課題に対処する。我々は,ハイブリッド自動繰り返し要求(HARQ)の精神において,我々の意味コミュニケーションフレームワークと統合された新しい意味エラー検出手法を提案する。
論文参考訳（メタデータ） (2024-08-29T08:53:26Z)
Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-25T14:20:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。