Fugu-MT 論文翻訳(概要): Stereo Multistage Spatial Attention for Real-Time Mobile Manipulation Under Visual Scale Variation and Disturbances

論文の概要: Stereo Multistage Spatial Attention for Real-Time Mobile Manipulation Under Visual Scale Variation and Disturbances

arxiv url: http://arxiv.org/abs/2605.00471v1
Date: Fri, 01 May 2026 07:18:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-04 17:43:28.890026
Title: Stereo Multistage Spatial Attention for Real-Time Mobile Manipulation Under Visual Scale Variation and Disturbances
Title（参考訳）: 視覚的スケール変動と外乱を考慮したリアルタイム移動操作のためのステレオ多段階空間アテンション
Authors: Xianbo Cai, Hideyuki Ichiwara, Hyogo Hiruma, Masaki Yoshikawa, Hiroshi Ito, Tetsuya Ogata,
Abstract要約: リアルタイム移動操作のための立体多段階空間注意に基づく深層予測学習法を提案する。提案手法は,ステレオ画像からタスク関連空間的注意点を抽出し,それらをロボットの状態と統合する。移動マニピュレータを用いた実世界の4つの移動操作タスクにおけるシステム評価を行った。
参考スコア（独自算出の注目度）: 5.013648961622839
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robots operating in open, unstructured real-world environments must rely on onboard visual perception while autonomously moving across different locations. Continuous changes in onboard camera viewpoints cause significant visual scale variations in target objects, affecting vision-based motion generation. In this work, we present a stereo multistage spatial attention-based deep predictive learning method for real-time mobile manipulation. The proposed methods extracts task-relevant spatial attention points from stereo images and integrates them with robot states through a hierarchical recurrent architecture for closed-loop action prediction. We evaluate the system on four real-world mobile manipulation tasks using a mobile manipulator, including rigid placement, articulated object manipulation, and deformable object interaction. Experiments under randomized initial positions and visual disturbance conditions demonstrate improved robustness and task success rates compared to representative imitation learning and vision-language-action baselines under identical control settings. The results indicate that structured stereo spatial attention combined with predictive temporal modeling provides an effective solution within the evaluated mobile manipulation scenarios.
Abstract（参考訳）: オープンで非構造的な現実世界環境で動くロボットは、異なる場所を自律的に移動しながら、車載の視覚的知覚に依存する必要がある。搭載カメラの視点の連続的な変化は、ターゲットオブジェクトの視覚的スケールの変化を著しく引き起こし、視覚ベースのモーション生成に影響を及ぼす。本研究では,リアルタイム移動操作のための立体多段階空間注意に基づく深層予測学習手法を提案する。提案手法は,ステレオ画像からタスク関連空間的注意点を抽出し,閉ループ動作予測のための階層的リカレントアーキテクチャを用いてロボットの状態と統合する。本研究では,移動マニピュレータを用いた4つの実世界の移動操作タスクにおいて,剛体配置,明瞭な物体操作,変形可能な物体相互作用を含むシステムの評価を行った。ランダム化初期位置と視覚障害条件下での実験は、同じ制御条件下での模擬学習や視覚-言語-行動ベースラインと比較して、頑健さとタスク成功率が改善された。その結果,構造化された空間的注意と予測的時間的モデリングが組み合わさって,評価された移動操作シナリオにおいて効果的に解決できることが示唆された。

関連論文リスト

ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration [51.69384671495837]
ActiveGlassesは、エゴ中心の人間のデモからロボット操作を学習するシステムである。スマートグラスに装着されたステレオカメラは、データ収集とポリシー推論の両方のための唯一の認識装置として機能する。ゼロ・トランスファーを可能にするために,デモからオブジェクト・トラジェクトリを抽出し,オブジェクト中心のポイント・クラウド・ポリシーを用いて操作と頭部運動を協調的に予測する。
論文参考訳（メタデータ） (2026-04-09T17:59:08Z)
Cortical Policy: A Dual-Stream View Transformer for Robotic Manipulation [57.28703268044067]
ロボット操作のための新しいデュアルストリームビュー変換器であるCortical Policyを提案する。われわれのフレームワークは、ロボット操作の新しい視点を提供し、視覚に基づくロボット制御の幅広い応用の可能性を秘めている。
論文参考訳（メタデータ） (2026-03-22T04:18:54Z)
I-Perceive: A Foundation Model for Active Perception with Language Instructions [41.67607728608853]
I-Perceiveは,自然言語命令に基づく能動的知覚の基礎モデルである。 I-Perceiveは、画像ベースのシーンコンテキストに基づいて、オープンな言語命令に従うカメラビューを予測する。実験により、I-Perceiveは、生成したカメラビューの予測精度とインストラクションの両方において、最先端のVLMを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2026-02-28T11:38:56Z)
Mash, Spread, Slice! Learning to Manipulate Object States via Visual Spatial Progress [53.723881111373736]
SPARTAは、オブジェクトの状態変化操作タスクのファミリーで最初に統合されたフレームワークである。 SPARTAは、空間的に進行するオブジェクト変化のセグメンテーションマップ、実行可能領域と変換可能領域を知覚する視覚的スキル、時間とともに漸進的な進歩を捉える高密度報酬を統合している。 SPARTAを現実のロボットで検証し、10種類の現実世界のオブジェクトにまたがる3つの課題について検討する。
論文参考訳（メタデータ） (2025-09-28T23:56:07Z)
Towards an Accurate and Effective Robot Vision (The Problem of Topological Localization for Mobile Robots) [0.43064121494080315]
本研究は,ロボットプラットフォームに搭載された視点カラーカメラで取得した画像のみを用いて,オフィス環境におけるトポロジカルローカライゼーションに対処する。テキスト検索にヒントを得たColor Histograms, SIFT, ASIFT, RGB-SIFT, Bag-of-Visual-Wordsアプローチなど,最先端のビジュアル記述子の評価を行った。
論文参考訳（メタデータ） (2025-09-05T09:14:59Z)
AC-DiT: Adaptive Coordination Diffusion Transformer for Mobile Manipulation [31.314066269767057]
移動操作は、家庭作業において言語条件のロボット制御を可能にすることで注目を集めている。既存の手法では、移動体ベースがマニピュレータ制御に与える影響を明示的にモデル化することができない。本稿では,適応座標拡散変換器 (AC-DiT) を提案する。
論文参考訳（メタデータ） (2025-07-02T17:59:54Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文参考訳（メタデータ） (2024-10-21T12:43:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。