論文の概要: Learning Neuro-symbolic Programs for Language Guided Robot Manipulation
- arxiv url: http://arxiv.org/abs/2211.06652v1
- Date: Sat, 12 Nov 2022 12:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 16:54:13.441295
- Title: Learning Neuro-symbolic Programs for Language Guided Robot Manipulation
- Title(参考訳): 言語指導型ロボットマニピュレーションのためのニューロシンボリックプログラムの学習
- Authors: Namasivayam Kalithasan, Himanshu Singh, Vishal Bindal, Arnav Tuli,
Vishwajeet Agrawal, Rahul Jain, Parag Singla, Rohan Paul
- Abstract要約: 自然言語命令と入力と出力シーンが与えられた場合、我々の目標は、操作プログラムを出力できるニューロシンボリックモデルを訓練することである。
i) トレーニング中に見られる以上の一般化を制限するが、密集したサブゴールの監督を必要とする概念に対して、手書きのシンボルに依存する。
我々のアプローチはニューロシンボリックであり、言語的および知覚的バリエーションを扱うことができ、中間的な監督を必要としないエンドツーエンドの差別化が可能であり、潜伏したニューラルオブジェクト中心の表現で機能するシンボリック推論構造を利用する。
- 参考スコア(独自算出の注目度): 10.287265801542999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a natural language instruction, and an input and an output scene, our
goal is to train a neuro-symbolic model which can output a manipulation program
that can be executed by the robot on the input scene resulting in the desired
output scene. Prior approaches for this task possess one of the following
limitations: (i) rely on hand-coded symbols for concepts limiting
generalization beyond those seen during training [1] (ii) infer action
sequences from instructions but require dense sub-goal supervision [2] or (iii)
lack semantics required for deeper object-centric reasoning inherent in
interpreting complex instructions [3]. In contrast, our approach is
neuro-symbolic and can handle linguistic as well as perceptual variations, is
end-to-end differentiable requiring no intermediate supervision, and makes use
of symbolic reasoning constructs which operate on a latent neural
object-centric representation, allowing for deeper reasoning over the input
scene. Central to our approach is a modular structure, consisting of a
hierarchical instruction parser, and a manipulation module to learn
disentangled action representations, both trained via RL. Our experiments on a
simulated environment with a 7-DOF manipulator, consisting of instructions with
varying number of steps, as well as scenes with different number of objects,
and objects with unseen attribute combinations, demonstrate that our model is
robust to such variations, and significantly outperforms existing baselines,
particularly in generalization settings.
- Abstract(参考訳): 自然言語命令と入力および出力シーンが与えられた場合、所望の出力シーンとなる入力シーン上でロボットが実行可能な操作プログラムを出力できるニューロシンボリックモデルをトレーニングすることを目的としている。
このタスクの以前のアプローチには、以下の制限がある。
(i)訓練中に見られるもの以上の一般化を制限する概念を手書き記号に頼る([1])
二 指示からアクションシーケンスを推測するが、密集したサブゴールの監督が必要 [2] 又は
(iii)複雑な命令の解釈に固有のより深いオブジェクト中心の推論に必要な意味論の欠如 [3]。
対照的に、我々のアプローチはニューロシンボリックであり、言語的および知覚的バリエーションを扱うことができ、中間的な監視を必要としないエンドツーエンドの差別化が可能であり、潜在神経オブジェクト中心の表現で機能するシンボリック推論構造を利用し、入力シーンの深い推論を可能にする。
我々のアプローチの中心はモジュラー構造であり、階層的な命令パーサと、RLで訓練された非絡み合った動作表現を学習するための操作モジュールで構成されています。
実験では,7-DOFマニピュレータを用いたシミュレーション環境において,異なるステップ数を持つ命令と異なるオブジェクト数を持つシーン,未知の属性の組み合わせを持つオブジェクトのシミュレーション実験を行い,モデルがこのような変動に頑健であり,特に一般化設定において,既存のベースラインよりもはるかに優れていることを示す。
関連論文リスト
- A Pattern Language for Machine Learning Tasks [0.0]
我々は客観的関数を学習者の行動に関する制約と見なしている。
動作の中核となるタスクと実装の詳細を分離できる形式的なグラフィカル言語を開発する。
概念実証として、「マニピュレータ」と呼ぶ生成モデルに分類器を変換できる新しいタスクを設計する。
論文 参考訳(メタデータ) (2024-07-02T16:50:27Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Programmatically Grounded, Compositionally Generalizable Robotic
Manipulation [35.12811184353626]
意味表現を統合化するための従来の事前学習ファインタニングパイプラインは、ドメイン固有の行動情報の学習に絡み合っていることを示す。
本稿では,言語命令の統語的構造と意味的構造を利用して,事前学習モデルを活用するモジュール方式を提案する。
我々のモデルは、様々な操作行動において、ゼロショットと合成の一般化を改善するために、動作と知覚をうまく切り離すことに成功している。
論文 参考訳(メタデータ) (2023-04-26T20:56:40Z) - Join-Chain Network: A Logical Reasoning View of the Multi-head Attention
in Transformer [59.73454783958702]
本稿では,多くの結合演算子を連結して出力論理式をモデル化するシンボリック推論アーキテクチャを提案する。
特に,このような結合鎖のアンサンブルが'ツリー構造'の1次論理式であるFOETの広い部分集合を表現できることを実証する。
変圧器における多頭部自己保持モジュールは,確率的述語空間における結合作用素の結合境界を実装する特別なニューラル演算子として理解することができる。
論文 参考訳(メタデータ) (2022-10-06T07:39:58Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - LogiGAN: Learning Logical Reasoning via Adversarial Pre-training [58.11043285534766]
本稿では,言語モデルの論理的推論能力を向上させるために,教師なしの対人事前学習フレームワークLogiGANを提案する。
人間の学習におけるリフレクティブ思考の促進効果に着想を得て,逆生成検証アーキテクチャを用いて学習思考過程をシミュレートする。
LogiGANで事前トレーニングされたベースモデルと大規模言語モデルの両方で、12のデータセットで明らかなパフォーマンス改善が示されている。
論文 参考訳(メタデータ) (2022-05-18T08:46:49Z) - Language Model-Based Paired Variational Autoencoders for Robotic Language Learning [18.851256771007748]
人間の幼児と同様、人工エージェントは環境と対話しながら言語を学ぶことができる。
本稿では,ロボットの動作と言語記述を双方向に結合するニューラルモデルを提案する。
次に, PVAE-BERTを導入し, 事前訓練された大規模言語モデルとモデルを同調する。
論文 参考訳(メタデータ) (2022-01-17T10:05:26Z) - Improving the Robustness to Variations of Objects and Instructions with
a Neuro-Symbolic Approach for Interactive Instruction Following [23.197640949226756]
自然言語命令と1対1の視覚を行動列にマッピングする学習のためのベンチマークとして,対話型命令追従タスクが提案されている。
このタスクのための既存のエンドツーエンドニューラルネットワークは、オブジェクトや言語命令のバリエーションに対して堅牢ではないことが分かりました。
本稿では,入力の小さな変化に対して頑健な高レベルなシンボル表現に対する推論を行うニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-13T21:00:00Z) - Skill Induction and Planning with Latent Language [94.55783888325165]
我々は、ゴールがハイレベルなサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを定式化する。
本稿では、このモデルを、主に注釈のないデモを用いて、名前付きハイレベルなサブタスクのシーケンスに解析する方法について述べる。
訓練されたモデルでは、自然言語コマンドの空間はスキルのライブラリを索引付けする;エージェントはこれらのスキルを使って、新しい目標に適した高いレベルの命令シーケンスを生成する。
論文 参考訳(メタデータ) (2021-10-04T15:36:32Z) - Semantics-Aware Inferential Network for Natural Language Understanding [79.70497178043368]
このようなモチベーションを満たすために,セマンティックス対応推論ネットワーク(SAIN)を提案する。
SAINの推論モジュールは、明示的な文脈的セマンティクスを補完的な入力として、セマンティクス上の一連の推論ステップを可能にする。
本モデルでは,機械読解や自然言語推論など11タスクの大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-04-28T07:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。