Fugu-MT 論文翻訳(概要): Enhancing Vision-Based Policies with Omni-View and Cross-Modality Knowledge Distillation for Mobile Robots

論文の概要: Enhancing Vision-Based Policies with Omni-View and Cross-Modality Knowledge Distillation for Mobile Robots

arxiv url: http://arxiv.org/abs/2603.20679v1
Date: Sat, 21 Mar 2026 06:38:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:39.034087
Title: Enhancing Vision-Based Policies with Omni-View and Cross-Modality Knowledge Distillation for Mobile Robots
Title（参考訳）: 移動ロボットのオムニビューとクロスモーダル知識蒸留によるビジョンベースポリシーの強化
Authors: Kai Li, Shiyu Zhao,
Abstract要約: 視覚ベースのポリシーは、操作や移動といったタスクのためにロボット工学に広く適用されている。しかし、軽量な移動ロボットでは、シーンの移動性が制限され、計算リソースが制限され、センサーのハードウェアコストが削減される。本稿では,知識を情報豊かで外観の不変なオムニビュー深度ポリシーから軽量な単分子ポリシーへ伝達する知識蒸留手法を提案する。
参考スコア（独自算出の注目度）: 18.940326743352315
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-based policies are widely applied in robotics for tasks such as manipulation and locomotion. On lightweight mobile robots, however, they face a trilemma of limited scene transferability, restricted onboard computation resources, and sensor hardware cost. To address these issues, we propose a knowledge distillation approach that transfers knowledge from an information-rich, appearance invariant omniview depth policy to a lightweight monocular policy. The key idea is to train the student not only to mimic the expert actions but also to align with the latent embeddings of the omni view depth teacher. Experiments demonstrate that omni-view and depth inputs improve the scene transfer and navigation performance, and that the proposed distillation method enhances the performance of a singleview monocular policy, compared with policies solely imitating actions. Real world experiments further validate the effectiveness and practicality of our approach. Code will be released publicly.
Abstract（参考訳）: 視覚ベースのポリシーは、操作や移動といったタスクのためにロボット工学に広く適用されている。しかし、軽量な移動ロボットでは、シーンの移動性が制限され、計算リソースが制限され、センサーのハードウェアコストが削減される。これらの問題に対処するために,知識を情報豊かで外観が不均一なオムニビュー深度ポリシーから軽量な単分子ポリシーへ伝達する知識蒸留手法を提案する。鍵となる考え方は、学生に専門家の行動を模倣するだけでなく、オムニビューの奥行き教師の潜伏した埋め込みと整合させることである。実験により,オムニビューと深度入力によりシーンの移動とナビゲーション性能が向上し,単一ビュー単分子法の性能が,アクションのみを模倣する政策と比較して向上することが確認された。実世界の実験は、我々のアプローチの有効性と実用性をさらに検証する。コードは公開されます。

関連論文リスト

ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos [81.99559944822752]
我々は人間のビデオから視覚に基づくポリシー学習を改善するためにViViDexを提案する。最初は強化学習と軌道誘導報酬を使って、各ビデオに対する州ベースのポリシーを訓練する。次に、州ベースのポリシーから成功したエピソードをロールアウトし、特権情報を使用しずに統一された視覚ポリシーをトレーニングします。
論文参考訳（メタデータ） (2024-04-24T07:58:28Z)
MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文参考訳（メタデータ） (2024-03-05T18:08:45Z)
The Power of the Senses: Generalizable Manipulation from Vision and Touch through Masked Multimodal Learning [60.91637862768949]
強化学習環境における視覚的・触覚的情報を融合するためのマスク付きマルチモーダル学習(M3L)を提案する。 M3Lは、マスク付きオートエンコーディングに基づいて、ポリシーと視覚触覚表現を学習する。視覚と触覚の両方の観察を行い、3つの模擬環境におけるM3Lの評価を行った。
論文参考訳（メタデータ） (2023-11-02T01:33:00Z)
Contrastive Learning for Enhancing Robust Scene Transfer in Vision-based Agile Flight [21.728935597793473]
本研究では、ゼロショットシーン転送と実世界展開を可能にする視覚表現学習のための適応型マルチペアコントラスト学習戦略を提案する。私たちは、アジャイルでビジョンベースの4倍体飛行のタスクに対して、私たちのアプローチのパフォーマンスを実演します。
論文参考訳（メタデータ） (2023-09-18T15:25:59Z)
Visual-Policy Learning through Multi-Camera View to Single-Camera View Knowledge Distillation for Robot Manipulation Tasks [4.820787231200527]
本稿では,ロボット操作タスクのための視覚に基づく強化学習(RL)アルゴリズムの一般化性能を高めるための新しい手法を提案する。提案手法は,複数のカメラ視点で訓練された教師の政策が,一台のカメラ視点から学習する際の生徒の方針を導出する知識蒸留と呼ばれる手法を活用することである。その結果、単一視点の視覚的学生政策は、単一視点の政策だけでは不可能な課題を把握し、持ち上げることをうまく学べることを示した。
論文参考訳（メタデータ） (2023-03-13T11:42:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。