論文の概要: Caption Generation of Robot Behaviors based on Unsupervised Learning of
Action Segments
- arxiv url: http://arxiv.org/abs/2003.10066v1
- Date: Mon, 23 Mar 2020 03:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 00:34:12.422451
- Title: Caption Generation of Robot Behaviors based on Unsupervised Learning of
Action Segments
- Title(参考訳): 動作セグメントの教師なし学習に基づくロボット行動のキャプション生成
- Authors: Koichiro Yoshino, Kohei Wakimoto, Yuta Nishimura, Satoshi Nakamura
- Abstract要約: ロボットの行動シーケンスとその自然言語キャプションをブリッジすることは、人間のアシストロボットの説明可能性を高める重要な課題である。
本稿では,人間支援ロボットの動作を記述した自然言語キャプションを生成するシステムを提案する。
- 参考スコア(独自算出の注目度): 10.356412004005767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bridging robot action sequences and their natural language captions is an
important task to increase explainability of human assisting robots in their
recently evolving field. In this paper, we propose a system for generating
natural language captions that describe behaviors of human assisting robots.
The system describes robot actions by using robot observations; histories from
actuator systems and cameras, toward end-to-end bridging between robot actions
and natural language captions. Two reasons make it challenging to apply
existing sequence-to-sequence models to this mapping: 1) it is hard to prepare
a large-scale dataset for any kind of robots and their environment, and 2)
there is a gap between the number of samples obtained from robot action
observations and generated word sequences of captions. We introduced
unsupervised segmentation based on K-means clustering to unify typical robot
observation patterns into a class. This method makes it possible for the
network to learn the relationship from a small amount of data. Moreover, we
utilized a chunking method based on byte-pair encoding (BPE) to fill in the gap
between the number of samples of robot action observations and words in a
caption. We also applied an attention mechanism to the segmentation task.
Experimental results show that the proposed model based on unsupervised
learning can generate better descriptions than other methods. We also show that
the attention mechanism did not work well in our low-resource setting.
- Abstract(参考訳): ロボットのアクションシーケンスとその自然言語キャプションをブリッジすることは、近年進化している分野における人間のアシストロボットの説明可能性を高める重要な課題である。
本稿では,人間支援ロボットの動作を記述した自然言語キャプションを生成するシステムを提案する。
このシステムは、ロボットの観察、アクチュエータシステムとカメラの履歴、ロボットアクションと自然言語キャプションの間のエンドツーエンドのブリッジへのロボットアクションを記述する。
2つの理由により、このマッピングに既存のシーケンシャル・ツー・シーケンスモデルを適用するのは困難である。
1)どんな種類のロボットや環境に対しても大規模なデータセットを作成するのは難しい。
2) ロボット行動観測から得られたサンプル数とキャプションの生成した単語列との間にはギャップがある。
k-meansクラスタリングに基づく教師なしセグメンテーションを導入し,一般的なロボット観察パターンをクラスに統一した。
この手法により、ネットワークは少量のデータから関係を学習することができる。
さらに,バイトペア符号化(BPE)に基づくチャンキング手法を用いて,ロボット行動観測のサンプル数とキャプション中の単語とのギャップを埋めた。
また,セグメンテーションタスクに注意機構を適用した。
実験の結果,教師なし学習に基づく提案モデルは,他の手法よりも優れた記述を生成できることがわかった。
また,低リソース環境では注意機構がうまく機能しないことを示した。
関連論文リスト
- Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts [21.249837293326497]
一般的な報酬機能は、ロボットの強化学習と計画の中心である。
本稿では,ロバストな一般化を伴う映像言語モデルを言語条件の報酬関数に変換する。
本モデルは,ロボット計画と強化学習のための新しい環境と新しい指示に対する優れた一般化を示す。
論文 参考訳(メタデータ) (2024-07-20T13:22:59Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Summarizing a virtual robot's past actions in natural language [0.3553493344868413]
本稿では,ロボット行動と自然言語記述とを一致させた一般的なデータセットを,ロボット行動要約作業のトレーニング場として活用する方法について述べる。
自動プランナーが使用する動作の中間テキスト表現や、ロボットの自我中心の映像フレームから、このような要約を生成するためのいくつかの方法を提案し、テストする。
論文 参考訳(メタデータ) (2022-03-13T15:00:46Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Learning a generative model for robot control using visual feedback [7.171234436165255]
本稿では,ロボット制御に視覚フィードバックを取り入れた新しい定式化を提案する。
モデルにおける推論により,特徴のターゲット位置に対応するロボット状態を推測することができる。
本研究では,不正確な制御を行うロボットに対して,握りとタイトな挿入を実行することで,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-03-10T00:34:01Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。