論文の概要: Compositional Zero-Shot Learning for Attribute-Based Object Reference in
Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2312.13655v1
- Date: Thu, 21 Dec 2023 08:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:43:02.809243
- Title: Compositional Zero-Shot Learning for Attribute-Based Object Reference in
Human-Robot Interaction
- Title(参考訳): 人間-ロボットインタラクションにおける属性ベースオブジェクト参照のための合成ゼロショット学習
- Authors: Peng Gao (1), Ahmed Jaafar (1), Brian Reily (2), Christopher Reardon
(3), Hao Zhang (1) ((1) University of Massachusetts Amherst, (2) DEVCOM Army
Research Laboratory, (3) University of Denver)
- Abstract要約: 言語対応ロボットは、特定の物体を視覚的知覚から識別するために、参照表現を理解できなければならない。
オブジェクトの視覚的な観察は、参照されたときに利用できなくなり、オブジェクトと属性の数は、オープンな世界でも非有界である可能性がある。
本研究では,属性のリストを用いて,オープンワールドにおける参照表現理解を行う属性ベースのゼロショット学習手法を実装した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language-enabled robots have been widely studied over the past years to
enable natural human-robot interaction and teaming in various real-world
applications. Language-enabled robots must be able to comprehend referring
expressions to identify a particular object from visual perception using a set
of referring attributes extracted from natural language. However, visual
observations of an object may not be available when it is referred to, and the
number of objects and attributes may also be unbounded in open worlds. To
address the challenges, we implement an attribute-based compositional zero-shot
learning method that uses a list of attributes to perform referring expression
comprehension in open worlds. We evaluate the approach on two datasets
including the MIT-States and the Clothing 16K. The preliminary experimental
results show that our implemented approach allows a robot to correctly identify
the objects referred to by human commands.
- Abstract(参考訳): 言語対応ロボットは、人間とロボットの自然なインタラクションと、様々な現実世界のアプリケーションでのコラボレーションを可能にするために、ここ数年にわたって広く研究されてきた。
言語対応ロボットは、自然言語から抽出された一連の参照属性を使用して、視覚知覚から特定の物体を識別するために参照表現を理解できなければならない。
しかし、オブジェクトの視覚的な観察は、参照されたときに利用できなくなり、オブジェクトや属性の数は、オープンな世界でも非有界である可能性がある。
この課題に対処するために,属性のリストを用いてオープンワールドにおける参照表現理解を行う属性ベース合成ゼロショット学習手法を実装した。
MIT-States と Clothing 16K を含む2つのデータセットに対するアプローチを評価する。
予備実験の結果,ロボットは人間の指示によって参照される物体を正確に識別できることがわかった。
関連論文リスト
- Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。
音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。
システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文 参考訳(メタデータ) (2024-10-08T20:46:39Z) - Learning Object Properties Using Robot Proprioception via Differentiable Robot-Object Interaction [52.12746368727368]
微分可能シミュレーションは、システム識別の強力なツールとなっている。
本手法は,オブジェクト自体のデータに頼ることなく,ロボットからの情報を用いてオブジェクト特性を校正する。
低コストなロボットプラットフォームにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-04T20:48:38Z) - Robo-ABC: Affordance Generalization Beyond Categories via Semantic
Correspondence for Robot Manipulation [20.69293648286978]
本稿では,ロボット操作のためのフレームワークであるRobo-ABCについて紹介する。
本稿では,Robo-ABCが視覚的可視性検索の精度を大幅に向上させることを示す。
Robo-ABCは85.7%の成功率を達成した。
論文 参考訳(メタデータ) (2024-01-15T06:02:30Z) - Teaching Unknown Objects by Leveraging Human Gaze and Augmented Reality
in Human-Robot Interaction [3.1473798197405953]
この論文は、人間-ロボットインタラクション(HRI)の文脈で未知の物体を教えることを目的としている。
視線追跡と拡張現実(Augmented Reality)を組み合わせることで、人間の教師がロボットとコミュニケーションできる強力なシナジーが生まれました。
ロボットの物体検出能力は、広範囲なデータセットで訓練された最先端の物体検出器に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-12T11:34:43Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Language Grounding with 3D Objects [60.67796160959387]
本稿では,3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新たな推論タスクを提案する。
オブジェクトを識別するためのCLIPベースのモデルをいくつか紹介する。
言語接地モデルにビュー推定を追加することで、SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-07-26T23:35:58Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Joint Inference of States, Robot Knowledge, and Human (False-)Beliefs [90.20235972293801]
本稿では,人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)の認知能力が,ロボットとの相互作用にどのように影響するかを理解するために,対象状態,ロボット知識,人間(時間的)の認知能力の表現にグラフィカルモデルを採用することを提案する。
推論アルゴリズムは、複数のビューにまたがる全てのロボットから個別のpgを融合し、単一のビューから発生したエラーを克服するより効果的な推論能力を得る。
論文 参考訳(メタデータ) (2020-04-25T23:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。