論文の概要: Learning Semantic Traversability with Egocentric Video and Automated Annotation Strategy
- arxiv url: http://arxiv.org/abs/2406.02989v2
- Date: Sat, 28 Sep 2024 16:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:59:12.607922
- Title: Learning Semantic Traversability with Egocentric Video and Automated Annotation Strategy
- Title(参考訳): Egocentric Video と Automated Annotation Strategy を用いた意味的トラバータビリティの学習
- Authors: Yunho Kim, Jeong Hyun Lee, Choongin Lee, Juhyeok Mun, Donghoon Youm, Jeongsoo Park, Jemin Hwangbo,
- Abstract要約: ロボットは、シーンのセマンティック理解に基づいて、画像内のセマンティック・トラバース可能な地形を識別する能力を持つ必要がある。
この推論能力はセマンティックトラバーサビリティに基づいており、テストドメイン上で微調整されたセマンティックセグメンテーションモデルを使用して頻繁に達成される。
本稿では,エゴセントリックなビデオと自動アノテーションプロセスを用いて,セマンティック・トラバーサビリティ推定器を訓練するための効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 3.713586225621126
- License:
- Abstract: For reliable autonomous robot navigation in urban settings, the robot must have the ability to identify semantically traversable terrains in the image based on the semantic understanding of the scene. This reasoning ability is based on semantic traversability, which is frequently achieved using semantic segmentation models fine-tuned on the testing domain. This fine-tuning process often involves manual data collection with the target robot and annotation by human labelers which is prohibitively expensive and unscalable. In this work, we present an effective methodology for training a semantic traversability estimator using egocentric videos and an automated annotation process. Egocentric videos are collected from a camera mounted on a pedestrian's chest. The dataset for training the semantic traversability estimator is then automatically generated by extracting semantically traversable regions in each video frame using a recent foundation model in image segmentation and its prompting technique. Extensive experiments with videos taken across several countries and cities, covering diverse urban scenarios, demonstrate the high scalability and generalizability of the proposed annotation method. Furthermore, performance analysis and real-world deployment for autonomous robot navigation showcase that the trained semantic traversability estimator is highly accurate, able to handle diverse camera viewpoints, computationally light, and real-world applicable. The summary video is available at https://youtu.be/EUVoH-wA-lA.
- Abstract(参考訳): 都市環境における信頼性の高い自律型ロボットナビゲーションには、シーンのセマンティック理解に基づいて、画像内のセマンティック・トラバース可能な地形を識別する能力が必要である。
この推論能力はセマンティックトラバーサビリティに基づいており、テストドメイン上で微調整されたセマンティックセグメンテーションモデルを使用して頻繁に達成される。
この微調整プロセスでは、ターゲットとなるロボットによる手動のデータ収集や、高額で計算不能な人間ラベル作成者によるアノテーションが伴うことが多い。
本研究では,エゴセントリックなビデオと自動アノテーションプロセスを用いて,セマンティック・トラバーサビリティ・エデュメータをトレーニングするための効果的な手法を提案する。
エゴセントリックなビデオは、歩行者の胸に装着されたカメラから収集される。
次に、画像セグメンテーションにおける最近の基礎モデルとプロンプト技術を用いて、各ビデオフレームのセマンティックトラバーサビリティ領域を抽出し、セマンティックトラバーサビリティ推定器を訓練するためのデータセットを自動生成する。
様々な都市シナリオを網羅した複数の国や都市で撮影されたビデオによる大規模な実験により,提案手法のスケーラビリティと一般化性を実証した。
さらに、自律型ロボットナビゲーションの性能解析と実世界展開は、訓練されたセマンティック・トラバーサビリティ推定器が高度に正確であることを示し、多様なカメラ視点、計算学的軽量、実世界に適用できることを示した。
要約ビデオはhttps://youtu.be/EUVoH-wA-lA.comで公開されている。
関連論文リスト
- Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - Object Goal Navigation Based on Semantics and RGB Ego View [9.702784248870522]
本稿では,RGBエゴビューを前提として,サービスロボットが屋内環境のセマンティックな意思決定を行えるようにするためのアーキテクチャと方法論を提案する。
ロボットはジオセムマップ(幾何マップと意味マップのリレーショナル組み合わせ)に基づいてナビゲートする。
提案手法は, 平均完了時間に対するゲーミフィケーション評価において, 人間のユーザよりも優れていた。
論文 参考訳(メタデータ) (2022-10-20T19:23:08Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Navigation-Oriented Scene Understanding for Robotic Autonomy: Learning
to Segment Driveability in Egocentric Images [25.350677396144075]
この研究は、屋外ロボットナビゲーションのシーン理解に取り組み、オンボードカメラで撮影された画像にのみ依存する。
我々は、ロボットがどのようにナビゲートするかという点で、自我中心の画像を直接分類し、学習問題を自律的なナビゲーションタスクに合わせる。
任意のシーンに適用可能な3つの駆動性レベルからなる汎用的かつスケーラブルなアベイランスベースの定義を提案する。
論文 参考訳(メタデータ) (2021-09-15T12:25:56Z) - Batteries, camera, action! Learning a semantic control space for
expressive robot cinematography [15.895161373307378]
我々は,意味空間における複雑なカメラ位置決めパラメータの編集を可能にする,データ駆動型フレームワークを開発した。
まず,写真実写シミュレータにおいて,多様な撮影範囲を持つ映像クリップのデータベースを作成する。
クラウドソーシングフレームワークには何百人もの参加者が参加して,各クリップのセマンティック記述子セットのスコアを取得しています。
論文 参考訳(メタデータ) (2020-11-19T21:56:53Z) - Stillleben: Realistic Scene Synthesis for Deep Learning in Robotics [33.30312206728974]
本稿では,シーン認識タスクの学習データを生成するための合成パイプラインについて述べる。
本手法は,物理シミュレーションを用いて,物体メッシュを物理的に現実的で密集したシーンに配置する。
私たちのパイプラインは、ディープニューラルネットワークのトレーニング中にオンラインで実行できます。
論文 参考訳(メタデータ) (2020-05-12T10:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。