論文の概要: UniTeam: Open Vocabulary Mobile Manipulation Challenge
- arxiv url: http://arxiv.org/abs/2312.08611v1
- Date: Thu, 14 Dec 2023 02:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:07:58.159195
- Title: UniTeam: Open Vocabulary Mobile Manipulation Challenge
- Title(参考訳): UniTeam:オープン語彙モバイル操作チャレンジ
- Authors: Andrew Melnik, Michael B\"uttner, Leon Harz, Lyon Brown, Gora Chand
Nandi, Arjun PS, Gaurav Kumar Yadav, Rahul Kala, Robert Haschke
- Abstract要約: このレポートでは、"HomeRobot: Open Vocabulary Mobile Manipulation"チャレンジのベースラインを改良したUniTeamエージェントを紹介します。
この課題は、慣れない環境でのナビゲーション、新しいオブジェクトの操作、オープン語彙オブジェクトクラスの認識の問題を引き起こす。
この課題は、機械学習、コンピュータビジョン、自然言語、ロボット工学の最近の進歩を利用して、AIを具現化した横断的な研究を促進することを目的としている。
- 参考スコア(独自算出の注目度): 4.523096223190858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report introduces our UniTeam agent - an improved baseline for the
"HomeRobot: Open Vocabulary Mobile Manipulation" challenge. The challenge poses
problems of navigation in unfamiliar environments, manipulation of novel
objects, and recognition of open-vocabulary object classes. This challenge aims
to facilitate cross-cutting research in embodied AI using recent advances in
machine learning, computer vision, natural language, and robotics. In this
work, we conducted an exhaustive evaluation of the provided baseline agent;
identified deficiencies in perception, navigation, and manipulation skills; and
improved the baseline agent's performance. Notably, enhancements were made in
perception - minimizing misclassifications; navigation - preventing infinite
loop commitments; picking - addressing failures due to changing object
visibility; and placing - ensuring accurate positioning for successful object
placement.
- Abstract(参考訳): このレポートでは、"HomeRobot: Open Vocabulary Mobile Manipulation"チャレンジのベースラインを改良したUniTeamエージェントを紹介します。
この課題は、慣れない環境でのナビゲーション、新しいオブジェクトの操作、オープン語彙オブジェクトクラスの認識の問題を引き起こす。
この課題は、機械学習、コンピュータビジョン、自然言語、ロボット工学の最近の進歩を利用して、AIを具現化した横断的な研究を促進することを目的としている。
本研究では,提供されたベースラインエージェントを徹底的に評価し,知覚,ナビゲーション,操作スキルの欠陥を特定し,ベースラインエージェントの性能を改善した。
特に、誤分類の最小化、ナビゲーション、無限ループのコミットメントの防止、オブジェクトの可視性の変化による障害への対処、オブジェクトの配置成功のための正確な位置決めの確保といった拡張が行われた。
関連論文リスト
- LEAP:D - A Novel Prompt-based Approach for Domain-Generalized Aerial Object Detection [2.1233286062376497]
学習可能なプロンプトを用いた革新的な視覚言語アプローチを提案する。
この手動プロンプトからのシフトは、ドメイン固有の知識干渉を減らすことを目的としている。
トレーニングプロセスを一段階のアプローチで合理化し、学習可能なプロンプトとモデルトレーニングを同時に更新する。
論文 参考訳(メタデータ) (2024-11-14T04:39:10Z) - Latent Object Characteristics Recognition with Visual to Haptic-Audio Cross-modal Transfer Learning [9.178588671620963]
この研究は、潜伏する観測不可能なオブジェクトの特性を認識することを目的としている。
視覚は一般的にロボットによる物体認識に使われるが、隠された物体を検出するには効果がない。
本稿では,視覚から触覚へのクロスモーダル・トランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T21:18:14Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Lifelong Change Detection: Continuous Domain Adaptation for Small Object
Change Detection in Every Robot Navigation [5.8010446129208155]
地表面の視界変化検出は, 複雑な非線形視点投影と相まって, 視界の不確かさに悩まされる。
正規化のためには,手動で注釈付けされた高品質なオブジェクトクラス固有の先行手法が一般的である。
本手法は,日常のロボットナビゲーションにおいて検出される物体の変化を,将来的な変化検出タスクを改善するために,追加の事前として再利用できるという,強力で汎用的な考え方を採用する。
論文 参考訳(メタデータ) (2023-06-28T10:34:59Z) - HomeRobot: Open-Vocabulary Mobile Manipulation [107.05702777141178]
Open-Vocabulary Mobile Manipulation (OVMM) は、目に見えない環境で任意のオブジェクトを選択し、命令された場所に配置する問題である。
HomeRobotには2つのコンポーネントがある。シミュレーションコンポーネントは、新しい高品質のマルチルームホーム環境に、大規模で多様なキュレートされたオブジェクトセットを使用する。
論文 参考訳(メタデータ) (2023-06-20T14:30:32Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - ManipulaTHOR: A Framework for Visual Object Manipulation [27.17908758246059]
物理対応で視覚的に豊かなAI2-THORフレームワーク上に構築されたオブジェクト操作のためのフレームワークを提案する。
このタスクは、一般的なポイントナビゲーションタスクをオブジェクト操作に拡張し、3D障害物回避を含む新しい課題を提供する。
論文 参考訳(メタデータ) (2021-04-22T17:49:04Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - Vision-Based Mobile Robotics Obstacle Avoidance With Deep Reinforcement
Learning [49.04274612323564]
障害物回避は、移動ロボットの自律ナビゲーションのための根本的かつ困難な問題です。
本稿では,ロボットが単一眼カメラにのみ依存しなければならない単純な3D環境における障害物回避の問題を検討する。
データ駆動型エンドツーエンドディープラーニングアプローチとして,障害回避問題に取り組む。
論文 参考訳(メタデータ) (2021-03-08T13:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。