論文の概要: DoRO: Disambiguation of referred object for embodied agents
- arxiv url: http://arxiv.org/abs/2207.14205v1
- Date: Thu, 28 Jul 2022 16:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:52:30.012947
- Title: DoRO: Disambiguation of referred object for embodied agents
- Title(参考訳): DoRO:エンボディエージェントの参照オブジェクトの曖昧化
- Authors: Pradip Pramanick, Chayan Sarkar, Sayan Paul, Ruddra dev Roychoudhury,
Brojeshwar Bhowmick
- Abstract要約: 既存の作業では、固定ビューと静的ロボットに適した視覚ベースのタスクグラウンドとあいまいさ検出が使用されている。
DoROは、インボダイドされたエージェントが、必要に応じて適切なクエリを上げることで、参照オブジェクトを曖昧にするのに役立つ。
AI2Thorシミュレータで行った実験によると、DoROはあいまいさをより正確に検出するだけでなく、より正確な情報でクエリを上げる。
- 参考スコア(独自算出の注目度): 6.27526761544378
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Robotic task instructions often involve a referred object that the robot must
locate (ground) within the environment. While task intent understanding is an
essential part of natural language understanding, less effort is made to
resolve ambiguity that may arise while grounding the task. Existing works use
vision-based task grounding and ambiguity detection, suitable for a fixed view
and a static robot. However, the problem magnifies for a mobile robot, where
the ideal view is not known beforehand. Moreover, a single view may not be
sufficient to locate all the object instances in the given area, which leads to
inaccurate ambiguity detection. Human intervention is helpful only if the robot
can convey the kind of ambiguity it is facing. In this article, we present DoRO
(Disambiguation of Referred Object), a system that can help an embodied agent
to disambiguate the referred object by raising a suitable query whenever
required. Given an area where the intended object is, DoRO finds all the
instances of the object by aggregating observations from multiple views while
exploring & scanning the area. It then raises a suitable query using the
information from the grounded object instances. Experiments conducted with the
AI2Thor simulator show that DoRO not only detects the ambiguity more accurately
but also raises verbose queries with more accurate information from the
visual-language grounding.
- Abstract(参考訳): ロボットのタスク命令は、しばしば、ロボットが環境中(地上)に配置しなければならない参照対象を含む。
タスク意図の理解は自然言語理解の不可欠な部分であるが、タスクを基礎にしながら生じる曖昧さを解決する努力は少ない。
既存の作業では、固定ビューと静的ロボットに適した視覚ベースのタスクグラウンドとあいまいさ検出を使用する。
しかし、理想の視点が事前に分かっていない移動ロボットの場合、この問題は拡大する。
さらに、単一のビューが与えられた領域のすべてのオブジェクトインスタンスを見つけるのに十分でない場合もあり、不正確な曖昧性検出につながる。
人間の介入は、ロボットが直面しているあいまいさを伝達できる場合にのみ役立つ。
本稿では,インボディードエージェントが必要に応じて適切なクエリを発行することで,参照対象の曖昧化を支援するシステムであるDoRO(Disambiguation of Referred Object)を提案する。
対象物がどこにあるかを考えると、DoROは対象物のすべてのインスタンスを複数のビューから集約し、その領域を探索および走査する。
すると、接地されたオブジェクトインスタンスから情報を使って適切なクエリを上げる。
AI2Thorシミュレータで行った実験によると、DoROはあいまいさをより正確に検出するだけでなく、視覚的な接地からより正確な情報で冗長なクエリを発生させる。
関連論文リスト
- One Map to Find Them All: Real-time Open-Vocabulary Mapping for Zero-shot Multi-Object Navigation [2.022249798290507]
ゼロショットマルチオブジェクトナビゲーションのための新しいベンチマークを導入する。
リアルタイムオブジェクト検索に適した,再利用可能なオープン語彙機能マップを構築した。
単一目的と多目的のナビゲーションタスクにおいて,既存の最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-18T07:44:08Z) - ICGNet: A Unified Approach for Instance-Centric Grasping [42.92991092305974]
オブジェクト中心の把握のためのエンドツーエンドアーキテクチャを導入する。
提案手法の有効性を,合成データセット上での最先端手法に対して広範囲に評価することにより示す。
論文 参考訳(メタデータ) (2024-01-18T12:41:41Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Challenges in Visual Anomaly Detection for Mobile Robots [65.53820325712455]
視覚に基づく自律移動ロボットの異常検出作業について考察する。
関連した視覚異常の種類を分類し,教師なしの深層学習手法で検出する方法について議論する。
論文 参考訳(メタデータ) (2022-09-22T13:26:46Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - Semantically Grounded Object Matching for Robust Robotic Scene
Rearrangement [21.736603698556042]
そこで本研究では,大規模な事前学習型視覚言語モデルを用いて,オブジェクトをクロスインスタンス設定でマッチングするオブジェクトマッチング手法を提案する。
これにより、クロスインスタンス環境でのマッチング性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-11-15T18:39:43Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Simultaneous Multi-View Object Recognition and Grasping in Open-Ended
Domains [0.0]
オープンなオブジェクト認識と把握を同時に行うために,メモリ容量を増強したディープラーニングアーキテクチャを提案する。
シミュレーションと実世界設定の両方において,本手法が未確認のオブジェクトを把握し,現場でのごくわずかな例を用いて,新たなオブジェクトカテゴリを迅速に学習できることを実証する。
論文 参考訳(メタデータ) (2021-06-03T14:12:11Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Object Detection and Pose Estimation from RGB and Depth Data for
Real-time, Adaptive Robotic Grasping [0.0]
動的ロボットの把握を目的として,リアルタイム物体検出とポーズ推定を行うシステムを提案する。
提案されたアプローチは、ロボットが物体のアイデンティティとその実際のポーズを検出し、新しいポーズで使用するために正準の把握を適応させることを可能にする。
訓練のためのシステムは、ロボットの手首に取り付けられたグリッパーに対する対象の相対的な姿勢を捉えることで、標準的な把握を定義する。
テスト中、新しいポーズが検出されると、物体の正準的な把握が識別され、ロボットアームの関節角度を調整して動的に適応されます。
論文 参考訳(メタデータ) (2021-01-18T22:22:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。