Fugu-MT 論文翻訳(概要): MSACT: Multistage Spatial Alignment for Stable Low-Latency Fine Manipulation

論文の概要: MSACT: Multistage Spatial Alignment for Stable Low-Latency Fine Manipulation

arxiv url: http://arxiv.org/abs/2605.00475v1
Date: Fri, 01 May 2026 07:35:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-04 17:43:28.893625
Title: MSACT: Multistage Spatial Alignment for Stable Low-Latency Fine Manipulation
Title（参考訳）: MSACT: 安定低遅延微細マニピュレーションのための多段空間アライメント
Authors: Xianbo Cai, Hideyuki Ichiwara, Masaki Yoshikawa, Tetsuya Ogata,
Abstract要約: 実世界の微視的操作、特に双方向操作では、低レイテンシ制御と安定した視覚的位置決めが必要となる。 ACTのようなアクションチャンキングポリシーは、低レイテンシの実行とデータ効率を可能にするが、空間的一貫性を明示することなく、密集した視覚的特徴に依存している。安定な2次元アテンションポイントを抽出し,時間的アライメントロスを伴う将来のアテンションシーケンスを共同で予測する多段階空間アテンションモジュールを提案する。
参考スコア（独自算出の注目度）: 4.439585594082787
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Real-world fine manipulation, particularly in bimanual manipulation, typically requires low-latency control and stable visual localization, while collecting large-scale data is costly and limited demonstrations may lead to localization drift. Existing approaches make different trade-offs: action-chunking policies such as ACT enable low-latency execution and data efficiency but rely on dense visual features without explicit spatial consistency, generative methods such as Diffusion Policy improve expressiveness but can incur iterative sampling latency, vision-language-action and voxel-based methods enhance generalization and geometric grounding but require higher computational cost and system complexity. We introduce a multistage spatial attention module that extracts stable 2D attention points and jointly predicts future attention sequences with a temporal alignment loss. Built upon ACT with a pretrained ResNet visual prior, a multistage attention module extracts task-relevant 2D attention points as a local spatial modality for action prediction. To maintain consistent object tracking, we introduce a self-supervised objective that aligns predicted attention sequences with visual features from future frames, suppressing drift without keypoint annotations and improving stability of the vision-to-action mapping under limited data. Experiments on simulated and real-world fine manipulation tasks, conducted on the ALOHA bimanual platform, evaluate task success, attention drift, inference latency, and robustness to visual disturbances. Results indicate improvements in localization stability and task performance while maintaining low-latency inference under the tested conditions.
Abstract（参考訳）: 実世界の微視的操作、特に双方向操作では、通常は低レイテンシ制御と安定した視覚的局所化を必要とするが、大規模なデータ収集はコストがかかり、限られたデモは局所化のドリフトにつながる可能性がある。 ACTのようなアクションチャンキングポリシーは低レイテンシの実行とデータ効率を実現するが、空間的一貫性を明示せずに高密度な視覚的特徴に依存する。安定な2次元アテンションポイントを抽出し,時間的アライメントロスを伴う将来のアテンションシーケンスを共同で予測する多段階空間アテンションモジュールを提案する。 ACT上に構築されたマルチステージアテンションモジュールは,タスク関連2次元アテンションポイントを動作予測のための局所的空間的モダリティとして抽出する。オブジェクト追跡の一貫性を維持するために、予測されたアテンションシーケンスを将来のフレームからの視覚的特徴と整合させ、キーポイントアノテーションを使わずにドリフトを抑え、限られたデータの下でのビジョン・ツー・アクションマッピングの安定性を向上する自己教師対象を導入する。 ALOHA双対プラットフォーム上で実施されたシミュレーションおよび実世界の微調整タスクの実験は、タスクの成功、注目の漂流、推論遅延、視覚障害に対する堅牢性を評価する。その結果, 試験条件下での低遅延推論を維持しつつ, ローカライゼーション安定性とタスク性能の向上が示唆された。

関連論文リスト

Low-latency Event-based Object Detection with Spatially-Sparse Linear Attention [20.653155039432463]
イベントカメラは、空間空間の間隔と高時間分解能を備えたシーケンシャルな視覚データを提供するため、低遅延物体検出には魅力的である。既存の非同期イベントベースのニューラルネットワークは、イベント単位の予測を更新することで、この低レイテンシの利点を実現するが、それでも2つのボトルネックに悩まされている。空間分割型状態分解とスキャッタ・コンピュテート・ガザの訓練手順を導入し,状態レベルの疎性も可能とした空間分割線形注意(SSLA)を提案する。
論文参考訳（メタデータ） (2026-03-06T12:44:00Z)
\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。 textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文参考訳（メタデータ） (2026-01-26T06:16:17Z)
PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文参考訳（メタデータ） (2025-12-03T12:14:29Z)
UTAL-GNN: Unsupervised Temporal Action Localization using Graph Neural Networks [0.0]
非トリミングスポーツビデオにおける微粒なアクションローカライゼーションは、迅速かつ微妙な動き遷移のために重大な課題を呈している。既存の教師付きおよび弱教師付きソリューションは、しばしば広範なデータセットと高容量モデルに依存し、計算集約的で現実世界のシナリオに適応できない。提案手法では,ブロックワイドパーティションを付加したポーズ列を付加したアテンションベースの時空間グラフ畳み込みネットワーク(ASTGCN)を事前学習する。 DSVダイビングデータセット上で平均平均平均精度(mAP)82.66%、平均遅延局所化29.09msを達成する。
論文参考訳（メタデータ） (2025-08-27T07:51:02Z)
Inference-Time Gaze Refinement for Micro-Expression Recognition: Enhancing Event-Based Eye Tracking with Motion-Aware Post-Processing [2.5465367830324905]
イベントベースの視線追跡は、きめ細かい認知状態の推測に重要な可能性を秘めている。本稿では、既存の事象に基づく視線推定モデルの出力を高めるために、モデルに依存しない推論時間改善フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-14T14:48:11Z)
SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。 SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-03-25T17:59:57Z)
Layout Sequence Prediction From Noisy Mobile Modality [53.49649231056857]
軌道予測は、自律運転やロボット工学などの応用における歩行者運動を理解する上で重要な役割を担っている。現在の軌道予測モデルは、視覚的モダリティからの長い、完全な、正確に観察されたシーケンスに依存する。本稿では,物体の障害物や視界外を,完全に視認できる軌跡を持つものと同等に扱う新しいアプローチであるLTrajDiffを提案する。
論文参考訳（メタデータ） (2023-10-09T20:32:49Z)
Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文参考訳（メタデータ） (2021-01-07T07:33:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。