論文の概要: Naming Objects for Vision-and-Language Manipulation
- arxiv url: http://arxiv.org/abs/2303.02871v1
- Date: Mon, 6 Mar 2023 03:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 17:20:36.711157
- Title: Naming Objects for Vision-and-Language Manipulation
- Title(参考訳): 視覚・言語操作のための命名対象
- Authors: Tokuhiro Nishikawa, Kazumi Aoyama, Shunichi Sekiguchi, Takayoshi
Takayanagi, Jianing Wu, Yu Ishihara, Tamaki Kojima, and Jerry Jun Yokono
- Abstract要約: は、自然言語命令のあいまいさを減らす。
対象オブジェクトの命名が対象オブジェクトの検出を容易にし,操作命令の成功率を向上させることを示す。
- 参考スコア(独自算出の注目度): 0.6323908398583082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robot manipulation tasks by natural language instructions need common
understanding of the target object between human and the robot. However, the
instructions often have an interpretation ambiguity, because the instruction
lacks important information, or does not express the target object correctly to
complete the task. To solve this ambiguity problem, we hypothesize that
"naming" the target objects in advance will reduce the ambiguity of natural
language instructions. We propose a robot system and method that incorporates
naming with appearance of the objects in advance, so that in the later
manipulation task, instruction can be performed with its unique name to
disambiguate the objects easily. To demonstrate the effectiveness of our
approach, we build a system that can memorize the target objects, and show that
naming the objects facilitates detection of the target objects and improves the
success rate of manipulation instructions. With this method, the success rate
of object manipulation task increases by 31% in ambiguous instructions.
- Abstract(参考訳): 自然言語命令によるロボット操作タスクは、人間とロボットの間の対象オブジェクトの共通理解を必要とする。
しかし、命令は重要な情報を欠いているか、目的のオブジェクトを正しく表現していないため、解釈の曖昧さがしばしばある。
この曖昧さ問題を解決するために、対象のオブジェクトを事前に“ナミング”することで、自然言語命令の曖昧さを低減できると仮定する。
本稿では,物体の外観に予め命名を組み込んだロボットシステムと手法を提案し,後続の操作タスクでは,その固有名称で指示を行うことで,物体の曖昧さを解消することができる。
提案手法の有効性を示すために,対象オブジェクトを記憶するシステムを構築し,対象オブジェクトの命名が対象オブジェクトの検出を容易にし,操作命令の成功率を向上させることを示す。
この方法では、あいまいな指示でオブジェクト操作タスクの成功率が31%増加する。
関連論文リスト
- Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - NaturalVLM: Leveraging Fine-grained Natural Language for
Affordance-Guided Visual Manipulation [21.02437461550044]
多くの実世界のタスクは複雑な多段階推論を必要とする。
15個の異なる操作タスクからなるベンチマークであるNrVLMを導入する。
そこで本研究では,操作タスクをステップバイステップで完了させる新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T09:12:16Z) - ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Switching Head-Tail Funnel UNITER for Dual Referring Expression
Comprehension with Fetch-and-Carry Tasks [3.248019437833647]
本稿では,日常的な対象物を収集し,自由形式の自然言語指示に従って特定の目的地へ搬送するホームサービスロボットについて述べる。
既存の多モーダル言語理解手法のほとんどは、計算複雑性の観点からは実用的ではない。
対象物と宛先を1つのモデルで個別に予測することでタスクを解決できるスイッチングヘッドタイルファンネルUNITERを提案する。
論文 参考訳(メタデータ) (2023-07-14T05:27:56Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - A Persistent Spatial Semantic Representation for High-level Natural
Language Instruction Execution [54.385344986265714]
本稿では,言語行動とロボット行動のギャップを埋めるために,永続的な空間意味表現法を提案する。
一般的なステップバイステップ命令を完全に回避しながら、ALFREDベンチマークに対する我々のアプローチを評価し、最先端の結果を得る。
論文 参考訳(メタデータ) (2021-07-12T17:47:19Z) - Composing Pick-and-Place Tasks By Grounding Language [41.075844857146805]
制約のない言語指示に従って任意の物体を選定・配置するロボットシステムを提案する。
提案手法は,入力画像と言語表現からオブジェクトとその関係を推定する。
実世界のpr2ロボットを用いて得られた結果は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-02-16T11:29:09Z) - Few-shot Object Grounding and Mapping for Natural Language Robot
Instruction Following [15.896892723068932]
本稿では,ロボットのポリシーを学習して自然言語の指示に従うという課題について考察する。
本稿では,拡張現実データから学習した数発の言語条件オブジェクトグラウンドティング手法を提案する。
オブジェクトの位置とその指示された使用を符号化した学習地図表現を提示し、この数発のグラウンドアウトプットから構築する。
論文 参考訳(メタデータ) (2020-11-14T20:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。