Fugu-MT 論文翻訳(概要): Co-training with Ego-centric Video and Demonstration for Robot Navigation Task

論文の概要: Co-training with Ego-centric Video and Demonstration for Robot Navigation Task

arxiv url: http://arxiv.org/abs/2606.01951v1
Date: Mon, 01 Jun 2026 09:12:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:31.687573
Title: Co-training with Ego-centric Video and Demonstration for Robot Navigation Task
Title（参考訳）: ロボットナビゲーションタスクにおけるエゴ中心映像とデモによる協調学習
Authors: Shoya Kuno, Yumo Ouchi, Kanata Suzuki,
Abstract要約: 本研究では,エゴセントリックな歩行映像を移動ロボット模倣学習のためのデータセットに変換するフレームワークを提案する。提案手法は,人間の映像からカメラの動きを推定し,地上移動ロボットと互換性のある動作表現に変換する。フルーツ検索ナビゲーションタスクの実験は、人間の自我中心のビデオがモバイルロボット学習に効果的でスケーラブルなデータソースを提供することを示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language-action (VLA) models are promising for diverse robotic tasks, but their performance heavily depends on large-scale high-quality training data, whose collection on real robots is costly and time-consuming. While prior work has explored augmenting manipulation datasets with egocentric human videos, applying such approaches to mobile robot navigation remains challenging due to viewpoint changes during locomotion. In this paper, we propose a framework that converts egocentric walking videos into datasets for mobile robot imitation learning. The proposed method estimates camera motion from human videos and transforms it into action representations compatible with ground mobile robots. By jointly training a VLA model on human-derived and robot-collected datasets, the model achieves improved language understanding and more robust action generation than training with either data source alone. Experiments on a fruit-search navigation task demonstrate that human egocentric videos provide an effective and scalable data source for mobile robot learning.
Abstract（参考訳）: ビジョン言語アクション(VLA)モデルは、多様なロボットタスクに期待できるが、そのパフォーマンスは、実際のロボットのコレクションが高価で時間を要する、大規模で高品質なトレーニングデータに大きく依存している。従来の研究では、エゴセントリックな人間ビデオによる操作データセットの強化が検討されてきたが、移動ロボットナビゲーションにそのようなアプローチを適用することは、移動中の視点変化のために難しいままである。本稿では,エゴセントリックな歩行映像を,移動ロボット模倣学習のためのデータセットに変換するフレームワークを提案する。提案手法は,人間の映像からカメラの動きを推定し,地上移動ロボットと互換性のある動作表現に変換する。 VLAモデルを人間由来およびロボットコンパイルデータセット上で共同でトレーニングすることにより、このモデルは、データソース単独でのトレーニングよりも、言語理解の改善と堅牢なアクション生成を実現する。フルーツ検索ナビゲーションタスクの実験は、人間の自我中心のビデオがモバイルロボット学習に効果的でスケーラブルなデータソースを提供することを示した。

関連論文リスト

H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos [58.006918399913665]
本稿では,通常の人間と物体のインタラクションビデオからモーション一貫性のあるロボット操作ビデオに変換するビデオ間翻訳フレームワークを提案する。私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。
論文参考訳（メタデータ） (2025-12-10T07:59:45Z)
Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos [42.86535655563404]
我々は、任意の手動ビデオのための完全自動化された総合的人間活動分析手法を開発した。大量のエゴセントリックなビデオを処理し、100Mエピソードと26Mフレームを含む手動VLAトレーニングデータセットを作成します。我々は手動VLAモデルアーキテクチャを設計し、このデータセット上でモデルを事前訓練する。
論文参考訳（メタデータ） (2025-10-24T15:39:31Z)
MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training [40.45924128424013]
低コストな人間によるデモンストレーションをロボットで使用可能な監視に変換するフレームワークであるMimicDreamerを提案する。視覚的アライメントのために,高忠実度ロボットデモビデオを生成するビデオ拡散モデルH2R Alignerを提案する。視点安定化のためにEgoStabilizerを提案する。動作アライメントのために,人間の手の動きをロボットフレームにマッピングし,制約付き逆運動学解法を適用する。
論文参考訳（メタデータ） (2025-09-26T11:05:10Z)
EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos [49.820119587446655]
本稿では,エゴセントリックな人間ビデオを用いたVLA(Vision-Language-Action)モデルのトレーニングについて検討する。人間の手首と手の動きを予測する人間のビデオに基づいて訓練されたVLAによって、私たちはInverse Kinematicsを実行し、人間のアクションをロボットアクションに変換することができる。シミュレーションベンチマークであるEgo Humanoid Manipulation Benchmarkを提案する。
論文参考訳（メタデータ） (2025-07-16T17:27:44Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文参考訳（メタデータ） (2019-12-30T01:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。