論文の概要: A Survey of Robotic Language Grounding: Tradeoffs Between Symbols and Embeddings
- arxiv url: http://arxiv.org/abs/2405.13245v1
- Date: Tue, 21 May 2024 23:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 01:43:54.137079
- Title: A Survey of Robotic Language Grounding: Tradeoffs Between Symbols and Embeddings
- Title(参考訳): ロボット言語接地に関する調査:シンボルと埋め込みのトレードオフ
- Authors: Vanya Cohen, Jason Xinyu Liu, Raymond Mooney, Stefanie Tellex, David Watkins,
- Abstract要約: 大きな言語モデルでは、ロボットは言語をより柔軟に理解し、これまで以上に能力を高めることができる。
本研究では,1) 言語といくつかの手作業による意味の形式的表現のマッピング,2) 言語と高次元のベクトル空間のマッピングを,低レベルロボットのポリシーに直接変換する。
- 参考スコア(独自算出の注目度): 7.135795522807318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With large language models, robots can understand language more flexibly and more capable than ever before. This survey reviews recent literature and situates it into a spectrum with two poles: 1) mapping between language and some manually defined formal representation of meaning, and 2) mapping between language and high-dimensional vector spaces that translate directly to low-level robot policy. Using a formal representation allows the meaning of the language to be precisely represented, limits the size of the learning problem, and leads to a framework for interpretability and formal safety guarantees. Methods that embed language and perceptual data into high-dimensional spaces avoid this manually specified symbolic structure and thus have the potential to be more general when fed enough data but require more data and computing to train. We discuss the benefits and tradeoffs of each approach and finish by providing directions for future work that achieves the best of both worlds.
- Abstract(参考訳): 大きな言語モデルでは、ロボットは言語をより柔軟に理解し、これまで以上に能力を高めることができる。
この調査は最近の文献をレビューし、2つの極を持つスペクトルに分類する。
1)言語といくつかの手作業で定義された意味の形式表現のマッピング
2)低レベルロボットポリシーに直接変換する言語と高次元ベクトル空間のマッピング。
形式表現を使用することで、言語の意味を正確に表現することができ、学習の問題のサイズを制限し、解釈可能性と形式的安全性を保証するためのフレームワークにつながる。
言語や知覚データを高次元空間に埋め込む手法は、手動で指定した記号構造を回避し、十分なデータを供給するとより一般的な可能性を持つが、訓練により多くのデータや計算を必要とする。
我々は、それぞれのアプローチの利点とトレードオフについて議論し、両方の世界のベストを達成するための今後の仕事の方向性を提供することで、仕上げる。
関連論文リスト
- Navigation with Large Language Models: Semantic Guesswork as a Heuristic
for Planning [73.0990339667978]
不慣れな環境でのナビゲーションは、ロボットにとって大きな課題となる。
言語モデルを用いて、新しい現実世界環境のバイアス探索を行う。
実環境におけるLFGの評価とシミュレーションベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-16T06:21:06Z) - Robotic Skill Acquisition via Instruction Augmentation with
Vision-Language Models [70.82705830137708]
言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。
我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。
DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
論文 参考訳(メタデータ) (2022-11-21T18:56:00Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - Leveraging Large (Visual) Language Models for Robot 3D Scene
Understanding [25.860680905256174]
本研究では,シーン理解に共通した感覚を与えるために,事前学習言語モデルを用いることを検討する。
両カテゴリの最良のアプローチは、$sim 70%$の部屋分類精度が得られる。
論文 参考訳(メタデータ) (2022-09-12T21:36:58Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Neural Abstructions: Abstractions that Support Construction for Grounded
Language Learning [69.1137074774244]
言語の相互作用を効果的に活用するには、言語基底に対する2つの最も一般的なアプローチの制限に対処する必要がある。
本稿では,ラベル条件付き生成モデルの推論手順に対する制約のセットであるニューラル・アブストラクションの考え方を紹介する。
この手法により,マインクラフトにおけるオープンエンドハウスタスクのセマンティックな変更をユーザ人口が構築できることが示される。
論文 参考訳(メタデータ) (2021-07-20T07:01:15Z) - Pre-training Universal Language Representation [46.51685959045527]
この研究は普遍言語表現学習、すなわち、一様ベクトル空間に非常に多様な長さを持つ言語単位やテキストの異なるレベルの埋め込みを導入している。
我々は、よく設計された事前学習スキームが、効果的に普遍的な言語表現をもたらすことを実証的に検証する。
論文 参考訳(メタデータ) (2021-05-30T09:29:01Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。