Fugu-MT 論文翻訳(概要): Language-Conditioned Change-point Detection to Identify Sub-Tasks in Robotics Domains

論文の概要: Language-Conditioned Change-point Detection to Identify Sub-Tasks in Robotics Domains

arxiv url: http://arxiv.org/abs/2309.00743v1
Date: Fri, 1 Sep 2023 21:40:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 01:25:55.383171
Title: Language-Conditioned Change-point Detection to Identify Sub-Tasks in Robotics Domains
Title（参考訳）: ロボット領域におけるサブタスク識別のための言語条件付変更点検出
Authors: Divyanshu Raj, Chitta Baral, Nakul Gopalan
Abstract要約: 言語命令を用いて,実証されたロボット軌道内のサブタスクを同定する。本稿では,問題のサブタスクを識別する言語条件の変更点検出手法を提案する。
参考スコア（独自算出の注目度）: 43.96051384180866
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this work, we present an approach to identify sub-tasks within a demonstrated robot trajectory using language instructions. We identify these sub-tasks using language provided during demonstrations as guidance to identify sub-segments of a longer robot trajectory. Given a sequence of natural language instructions and a long trajectory consisting of image frames and discrete actions, we want to map an instruction to a smaller fragment of the trajectory. Unlike previous instruction following works which directly learn the mapping from language to a policy, we propose a language-conditioned change-point detection method to identify sub-tasks in a problem. Our approach learns the relationship between constituent segments of a long language command and corresponding constituent segments of a trajectory. These constituent trajectory segments can be used to learn subtasks or sub-goals for planning or options as demonstrated by previous related work. Our insight in this work is that the language-conditioned robot change-point detection problem is similar to the existing video moment retrieval works used to identify sub-segments within online videos. Through extensive experimentation, we demonstrate a $1.78_{\pm 0.82}\%$ improvement over a baseline approach in accurately identifying sub-tasks within a trajectory using our proposed method. Moreover, we present a comprehensive study investigating sample complexity requirements on learning this mapping, between language and trajectory sub-segments, to understand if the video retrieval-based methods are realistic in real robot scenarios.
Abstract（参考訳）: 本研究では,言語命令を用いたロボット軌道内のサブタスクを同定する手法を提案する。これらのサブタスクを、デモ中に提供された言語を用いて識別し、より長いロボット軌道のサブセグメントを特定する。自然言語命令のシーケンスと、画像フレームと離散的なアクションからなる長い軌道が与えられたとき、我々は命令を軌道のより小さな断片にマッピングしたい。言語からポリシーへのマッピングを直接学習する従来の命令とは違って,問題のサブタスクを識別する言語条件の変更点検出手法を提案する。本手法は,長い言語コマンドの構成セグメントと対応する軌道の構成セグメントとの関係を学習する。これらの構成軌道セグメントは、以前の関連作業で示されたように、計画やオプションのためにサブタスクやサブゴールを学ぶのに使うことができる。本研究の知見は,オンラインビデオ内のサブセグメントを識別するための既存のビデオモーメント検索に類似した言語条件付きロボット変化点検出問題である。広範な実験を通じて、提案手法を用いて軌道内のサブタスクを正確に識別する上で、ベースラインアプローチよりも1.78_{\pm 0.82}\%$の改善を示す。さらに,本手法が実際のロボットのシナリオにおいて現実的であるかどうかを理解するために,言語とトラジェクティブのサブセグメント間のマッピングを学習する際のサンプルの複雑さ要件を総合的に検討する。

関連論文リスト

LIAM: Multimodal Transformer for Language Instructions, Images, Actions and Semantic Maps [18.602777449136738]
言語,イメージ,アクション,マップの入力に基づいて,アクションの書き起こしを予測するエンド・ツー・エンドのモデルであるLIAMを提案する。国内タスクのシミュレータ生成ベンチマークであるALFREDデータセットを用いて,本手法の評価を行った。
論文参考訳（メタデータ） (2025-03-15T18:54:06Z)
Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文参考訳（メタデータ） (2024-08-28T17:59:05Z)
Language-driven Grasp Detection with Mask-guided Attention [10.231956034184265]
マスク誘導型注目を用いた言語駆動型グリップ検出手法を提案する。提案手法では,視覚データ,セグメンテーションマスク機能,自然言語命令を統合した。我々の研究は、言語駆動型把握検出のための新しいフレームワークを導入し、言語駆動型ロボットアプリケーションへの道を開いた。
論文参考訳（メタデータ） (2024-07-29T10:55:17Z)
Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文参考訳（メタデータ） (2024-07-14T15:02:54Z)
MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。 mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文参考訳（メタデータ） (2024-03-12T03:35:17Z)
Remote Task-oriented Grasp Area Teaching By Non-Experts through Interactive Segmentation and Few-Shot Learning [0.0]
ロボットは、将来的な操作タスクに応じて、異なる把握スタイルを区別できなければならない。この目的に向けて,新しい2段階の枠組みを提案する。対話型セグメンテーションによる新しいタスクの把握領域のデモンストレーションを受信する。これらのいくつかの実演から学習し、与えられたタスクの目に見えないシーンにおいて、必要な把握領域を推定する。
論文参考訳（メタデータ） (2023-03-17T18:09:01Z)
Find a Way Forward: a Language-Guided Semantic Map Navigator [53.69229615952205]
本稿では,新たな視点で言語誘導ナビゲーションの問題に対処する。ロボットが自然言語の指示を実行し、地図観測に基づいて目標位置へ移動できるようにする。提案手法は特に長距離ナビゲーションの場合において顕著な性能向上をもたらす。
論文参考訳（メタデータ） (2022-03-07T07:40:33Z)
A Persistent Spatial Semantic Representation for High-level Natural Language Instruction Execution [54.385344986265714]
本稿では,言語行動とロボット行動のギャップを埋めるために,永続的な空間意味表現法を提案する。一般的なステップバイステップ命令を完全に回避しながら、ALFREDベンチマークに対する我々のアプローチを評価し、最先端の結果を得る。
論文参考訳（メタデータ） (2021-07-12T17:47:19Z)
Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文参考訳（メタデータ） (2021-01-09T21:49:41Z)
DORi: Discovering Object Relationship for Moment Localization of a Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文参考訳（メタデータ） (2020-10-13T09:50:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。