論文の概要: Learning Visuomotor Policy for Multi-Robot Laser Tag Game
- arxiv url: http://arxiv.org/abs/2603.11980v1
- Date: Thu, 12 Mar 2026 14:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.724325
- Title: Learning Visuomotor Policy for Multi-Robot Laser Tag Game
- Title(参考訳): マルチロボットレーザータグゲームにおける学習ビジュモータ政策
- Authors: Kai Li, Shiyu Zhao,
- Abstract要約: 本稿では,画像を直接ロボット行動にマッピングするエンド・ツー・エンドのビジュモータポリシーを提案する。
我々は,多エージェント強化学習による高機能教員政策を訓練し,その知識を視覚に基づく学生政策に抽出する。
- 参考スコア(独自算出の注目度): 18.940326743352315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study multi robot laser tag, a simplified yet practical shooting-game-style task. Classic modular approaches on these tasks face challenges such as limited observability and reliance on depth mapping and inter robot communication. To overcome these issues, we present an end-to-end visuomotor policy that maps images directly to robot actions. We train a high performing teacher policy with multi agent reinforcement learning and distill its knowledge into a vision-based student policy. Technical designs, including a permutation-invariant feature extractor and depth heatmap input, improve performance over standard architectures. Our policy outperforms classic methods by 16.7% in hitting accuracy and 6% in collision avoidance, and is successfully deployed on real robots. Code will be released publicly.
- Abstract(参考訳): 本稿では,マルチロボット・レーザータグについて検討する。
これらのタスクに対する古典的なモジュラーアプローチは、観測可能性の制限や深さマッピングへの依存、ロボット間通信といった課題に直面している。
これらの課題を克服するために、画像を直接ロボット行動にマッピングするエンドツーエンドのビズモータポリシーを提案する。
我々は,多エージェント強化学習による高機能教員政策を訓練し,その知識を視覚に基づく学生政策に抽出する。
置換不変の特徴抽出器や深度ヒートマップ入力などの技術設計により、標準アーキテクチャよりも性能が向上した。
我々の政策は古典的手法を16.7%上回り、衝突回避率6%を達成し、実際のロボットへの展開に成功した。
コードは公開されます。
関連論文リスト
- Flow Policy Gradients for Robot Control [67.61978635211048]
フローマッチングポリシ勾配は、より表現力のあるポリシのトレーニングと微調整に有効である。
我々は、スクラッチからトレーニングを行う際に、フロー表現をどのように活用するかを示し、ベースラインよりもきめ細やかな堅牢性を改善する。
論文 参考訳(メタデータ) (2026-02-02T18:56:49Z) - Scalable Multi-Robot Informative Path Planning for Target Mapping via Deep Reinforcement Learning [11.134855513221359]
マルチロボットインフォーマティブパス計画問題に対する深層強化学習手法を提案する。
ここでは、各ロボットが発見した目標を最大化し、未知の静的障害物を回避し、ロボット同士の衝突を防ぐ。
提案手法は、発見対象数において、最先端のアプローチを少なくとも26.2%上回っている。
論文 参考訳(メタデータ) (2024-09-25T14:27:37Z) - Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-12T17:59:23Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Polybot: Training One Policy Across Robots While Embracing Variability [70.74462430582163]
複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
論文 参考訳(メタデータ) (2023-07-07T17:21:16Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - Bi-Manual Manipulation and Attachment via Sim-to-Real Reinforcement
Learning [23.164743388342803]
シミュレーションで訓練された強化学習を用いて,両手作業の解法について検討する。
また、RLポリシーの効果的なトレーニングにつながるシミュレーション環境の変更についても検討する。
本研究では,2つのロボットアームが磁気的接続点を持つ2つのブロックを拾い上げるための接続タスクを設計する。
論文 参考訳(メタデータ) (2022-03-15T21:49:20Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Reinforcement Learning Experiments and Benchmark for Solving Robotic
Reaching Tasks [0.0]
強化学習はロボットアームによる到達タスクの解決に成功している。
ハイドサイト体験再生探索技術により報奨信号の増大が, オフ・ポリティクス・エージェントの平均リターンを増加させることが示されている。
論文 参考訳(メタデータ) (2020-11-11T14:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。