論文の概要: Language-Conditioned Observation Models for Visual Object Search
- arxiv url: http://arxiv.org/abs/2309.07276v1
- Date: Wed, 13 Sep 2023 19:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 17:00:33.412385
- Title: Language-Conditioned Observation Models for Visual Object Search
- Title(参考訳): ビジュアルオブジェクト探索のための言語記述型観察モデル
- Authors: Thao Nguyen, Vladislav Hrosinkov, Eric Rosen, Stefanie Tellex
- Abstract要約: 我々は、部分的に観測可能なマルコフ決定過程(POMDP)として問題に反応することで、現実的な対象探索のギャップを埋める。
ニューラルネットワークの出力を言語条件観測モデル(LCOM)に組み込んで,動的に変化するセンサノイズを表現する。
本稿では,Boston Dynamics Spotロボットを用いて,複雑な自然言語オブジェクト記述を処理し,室内環境におけるオブジェクトの効率的な発見を可能にする。
- 参考スコア(独自算出の注目度): 12.498575839909334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object search is a challenging task because when given complex language
descriptions (e.g., "find the white cup on the table"), the robot must move its
camera through the environment and recognize the described object. Previous
works map language descriptions to a set of fixed object detectors with
predetermined noise models, but these approaches are challenging to scale
because new detectors need to be made for each object. In this work, we bridge
the gap in realistic object search by posing the search problem as a partially
observable Markov decision process (POMDP) where the object detector and visual
sensor noise in the observation model is determined by a single Deep Neural
Network conditioned on complex language descriptions. We incorporate the neural
network's outputs into our language-conditioned observation model (LCOM) to
represent dynamically changing sensor noise. With an LCOM, any language
description of an object can be used to generate an appropriate object detector
and noise model, and training an LCOM only requires readily available
supervised image-caption datasets. We empirically evaluate our method by
comparing against a state-of-the-art object search algorithm in simulation, and
demonstrate that planning with our observation model yields a significantly
higher average task completion rate (from 0.46 to 0.66) and more efficient and
quicker object search than with a fixed-noise model. We demonstrate our method
on a Boston Dynamics Spot robot, enabling it to handle complex natural language
object descriptions and efficiently find objects in a room-scale environment.
- Abstract(参考訳): 複雑な言語記述(例えば「テーブルの上の白いカップを探す」)が与えられた場合、ロボットはカメラを環境に移動させ、記述された物体を認識する必要があるため、オブジェクト検索は難しい課題である。
従来の作業では、言語記述を所定のノイズモデルを持つ固定オブジェクト検出器の集合にマッピングするが、これらのアプローチは、各オブジェクトに対して新しい検出器を作成する必要があるため、スケールアップが困難である。
本研究では,複雑な言語記述を条件とした1つの深層ニューラルネットワークを用いて,観測モデルにおける物体検出と視覚センサノイズを決定する部分可観測マルコフ決定過程(pomdp)として探索問題を構成することで,現実的物体探索のギャップを埋める。
ニューラルネットワークの出力を言語条件観測モデル(LCOM)に組み込んで,動的に変化するセンサノイズを表現する。
LCOMでは、オブジェクトの任意の言語記述を使用して、適切なオブジェクト検出器とノイズモデルを生成することができ、LCOMのトレーニングは、容易に管理可能なイメージキャプチャデータセットのみを必要とする。
シミュレーションにおいて,最先端のオブジェクト探索アルゴリズムと比較し,提案手法を実証的に評価し,観測モデルによる計画により,平均タスク完了率 (0.46から0.66) が有意に高く,固定ノイズモデルよりも効率的かつ高速に探索できることを示す。
本稿では,Boston Dynamics Spotロボットを用いて,複雑な自然言語オブジェクト記述を処理し,室内環境におけるオブジェクトの効率的な発見を可能にする。
関連論文リスト
- ICGNet: A Unified Approach for Instance-Centric Grasping [42.92991092305974]
オブジェクト中心の把握のためのエンドツーエンドアーキテクチャを導入する。
提案手法の有効性を,合成データセット上での最先端手法に対して広範囲に評価することにより示す。
論文 参考訳(メタデータ) (2024-01-18T12:41:41Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。
変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。
本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - IFOR: Iterative Flow Minimization for Robotic Object Rearrangement [92.97142696891727]
IFOR(Iterative Flow Minimization for Robotic Object Rearrangement)は、未知物体の物体再構成問題に対するエンドツーエンドの手法である。
本手法は,合成データのみを訓練しながら,散在するシーンや実世界に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-01T20:03:56Z) - Towards Optimal Correlational Object Search [25.355936023640506]
相関オブジェクト探索POMDPは相関情報を用いた探索戦略を作成することができる。
我々は,家庭環境の現実的なシミュレータであるAI2-THORと,広く使用されている物体検出器であるYOLOv5を用いて実験を行った。
論文 参考訳(メタデータ) (2021-10-19T14:03:43Z) - Pix2seq: A Language Modeling Framework for Object Detection [12.788663431798588]
Pix2Seqはオブジェクト検出のためのシンプルで汎用的なフレームワークである。
我々はニューラルネットをトレーニングし、画像を認識し、所望のシーケンスを生成する。
私たちのアプローチは主に、ニューラルネットワークがオブジェクトの場所と場所を知っていれば、その読み方を教える必要がある、という直感に基づいています。
論文 参考訳(メタデータ) (2021-09-22T17:26:36Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Real-Time Object Detection and Recognition on Low-Compute Humanoid
Robots using Deep Learning [0.12599533416395764]
本稿では、複数の低計算NAOロボットがカメラビューにおける物体のリアルタイム検出、認識、位置決めを行うことを可能にする新しいアーキテクチャについて述べる。
オブジェクト検出と局所化のためのアルゴリズムは,複数のシナリオにおける屋内実験に基づくYOLOv3の実証的な修正である。
このアーキテクチャは、カメラフィードからニューラルネットにリアルタイムフレームを供給し、その結果を使ってロボットを誘導する効果的なエンドツーエンドパイプラインも備えている。
論文 参考訳(メタデータ) (2020-01-20T05:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。