論文の概要: Language-Conditioned Change-point Detection to Identify Sub-Tasks in
Robotics Domains
- arxiv url: http://arxiv.org/abs/2309.00743v1
- Date: Fri, 1 Sep 2023 21:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 01:25:55.383171
- Title: Language-Conditioned Change-point Detection to Identify Sub-Tasks in
Robotics Domains
- Title(参考訳): ロボット領域におけるサブタスク識別のための言語条件付変更点検出
- Authors: Divyanshu Raj, Chitta Baral, Nakul Gopalan
- Abstract要約: 言語命令を用いて,実証されたロボット軌道内のサブタスクを同定する。
本稿では,問題のサブタスクを識別する言語条件の変更点検出手法を提案する。
- 参考スコア(独自算出の注目度): 43.96051384180866
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we present an approach to identify sub-tasks within a
demonstrated robot trajectory using language instructions. We identify these
sub-tasks using language provided during demonstrations as guidance to identify
sub-segments of a longer robot trajectory. Given a sequence of natural language
instructions and a long trajectory consisting of image frames and discrete
actions, we want to map an instruction to a smaller fragment of the trajectory.
Unlike previous instruction following works which directly learn the mapping
from language to a policy, we propose a language-conditioned change-point
detection method to identify sub-tasks in a problem. Our approach learns the
relationship between constituent segments of a long language command and
corresponding constituent segments of a trajectory. These constituent
trajectory segments can be used to learn subtasks or sub-goals for planning or
options as demonstrated by previous related work. Our insight in this work is
that the language-conditioned robot change-point detection problem is similar
to the existing video moment retrieval works used to identify sub-segments
within online videos. Through extensive experimentation, we demonstrate a
$1.78_{\pm 0.82}\%$ improvement over a baseline approach in accurately
identifying sub-tasks within a trajectory using our proposed method. Moreover,
we present a comprehensive study investigating sample complexity requirements
on learning this mapping, between language and trajectory sub-segments, to
understand if the video retrieval-based methods are realistic in real robot
scenarios.
- Abstract(参考訳): 本研究では,言語命令を用いたロボット軌道内のサブタスクを同定する手法を提案する。
これらのサブタスクを、デモ中に提供された言語を用いて識別し、より長いロボット軌道のサブセグメントを特定する。
自然言語命令のシーケンスと、画像フレームと離散的なアクションからなる長い軌道が与えられたとき、我々は命令を軌道のより小さな断片にマッピングしたい。
言語からポリシーへのマッピングを直接学習する従来の命令とは違って,問題のサブタスクを識別する言語条件の変更点検出手法を提案する。
本手法は,長い言語コマンドの構成セグメントと対応する軌道の構成セグメントとの関係を学習する。
これらの構成軌道セグメントは、以前の関連作業で示されたように、計画やオプションのためにサブタスクやサブゴールを学ぶのに使うことができる。
本研究の知見は,オンラインビデオ内のサブセグメントを識別するための既存のビデオモーメント検索に類似した言語条件付きロボット変化点検出問題である。
広範な実験を通じて、提案手法を用いて軌道内のサブタスクを正確に識別する上で、ベースラインアプローチよりも1.78_{\pm 0.82}\%$の改善を示す。
さらに,本手法が実際のロボットのシナリオにおいて現実的であるかどうかを理解するために,言語とトラジェクティブのサブセグメント間のマッピングを学習する際のサンプルの複雑さ要件を総合的に検討する。
関連論文リスト
- MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - Contrastive Language, Action, and State Pre-training for Robot Learning [1.1000499414131326]
本稿では,ロボット学習における下流作業を支援するために,言語,行動,状態情報を共有埋め込み空間に統一する手法を提案する。
提案手法であるCLASP(Contrastive Language, Action, and State Pre-training)は,CLIPの定式化を拡張し,分散学習を取り入れ,振る舞いテキストアライメントにおける固有の複雑さと一対多の関係を捉える。
本手法は,ゼロショットテキストビヘイビア検索,未知のロボット動作のキャプション,言語条件の強化学習に先立って動作を学習する,といった下流作業に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-21T07:19:33Z) - Remote Task-oriented Grasp Area Teaching By Non-Experts through
Interactive Segmentation and Few-Shot Learning [0.0]
ロボットは、将来的な操作タスクに応じて、異なる把握スタイルを区別できなければならない。
この目的に向けて,新しい2段階の枠組みを提案する。
対話型セグメンテーションによる新しいタスクの把握領域のデモンストレーションを受信する。
これらのいくつかの実演から学習し、与えられたタスクの目に見えないシーンにおいて、必要な把握領域を推定する。
論文 参考訳(メタデータ) (2023-03-17T18:09:01Z) - Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z) - Find a Way Forward: a Language-Guided Semantic Map Navigator [53.69229615952205]
本稿では,新たな視点で言語誘導ナビゲーションの問題に対処する。
ロボットが自然言語の指示を実行し、地図観測に基づいて目標位置へ移動できるようにする。
提案手法は特に長距離ナビゲーションの場合において顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2022-03-07T07:40:33Z) - A Persistent Spatial Semantic Representation for High-level Natural
Language Instruction Execution [54.385344986265714]
本稿では,言語行動とロボット行動のギャップを埋めるために,永続的な空間意味表現法を提案する。
一般的なステップバイステップ命令を完全に回避しながら、ALFREDベンチマークに対する我々のアプローチを評価し、最先端の結果を得る。
論文 参考訳(メタデータ) (2021-07-12T17:47:19Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。