論文の概要: Language guided machine action
- arxiv url: http://arxiv.org/abs/2011.11400v1
- Date: Mon, 23 Nov 2020 13:49:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:18:02.670094
- Title: Language guided machine action
- Title(参考訳): 言語ガイド機械アクション
- Authors: Feng Qi
- Abstract要約: 我々はLanguage Guided Machine Action (LGMA)と呼ばれる階層型モジュールネットワークを構築し、そのモジュールは人間の皮質ネットワークを模倣する情報ストリームを処理する。
LGMAには、(1)視覚、言語、感覚運動のマルチモーダル感覚情報を収集する一次感覚システムという3つの主要なシステムがある。
予備補助運動領域(pre-SMA)は、高レベルの意図をシーケンシャルな原子作用に変換することができ、SMAはこれらの原子作用、現在の腕、それに付随する物体状態を感覚運動ベクトルに統合することができる。
高レベルの執行機関には、言語に基づく自発的行動の明示的な推論とガイドを行うPFCが含まれており、BGは習慣的行動制御センターである。
- 参考スコア(独自算出の注目度): 0.6510507449705342
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Here we build a hierarchical modular network called Language guided machine
action (LGMA), whose modules process information stream mimicking human
cortical network that allows to achieve multiple general tasks such as language
guided action, intention decomposition and mental simulation before action
execution etc. LGMA contains 3 main systems: (1) primary sensory system that
multimodal sensory information of vision, language and sensorimotor. (2)
association system involves and Broca modules to comprehend and synthesize
language, BA14/40 module to translate between sensorimotor and language,
midTemporal module to convert between language and vision, and superior
parietal lobe to integrate attended visual object and arm state into cognitive
map for future spatial actions. Pre-supplementary motor area (pre-SMA) can
converts high level intention into sequential atomic actions, while SMA can
integrate these atomic actions, current arm and attended object state into
sensorimotor vector to apply corresponding torques on arm via pre-motor and
primary motor of arm to achieve the intention. The high-level executive system
contains PFC that does explicit inference and guide voluntary action based on
language, while BG is the habitual action control center.
- Abstract(参考訳): ここでは,言語誘導型マシンアクション(lgma)と呼ばれる階層型モジュールネットワークを構築し,そのモジュールが人間の皮質ネットワークを模倣した情報ストリームを処理し,言語誘導行動や意図分解,行動実行前のメンタルシミュレーションといった複数の汎用タスクを実現する。
LGMAは、(1)視覚、言語、感覚運動のマルチモーダル感覚情報を収集する一次感覚システムである。
2)言語を理解・合成するbrocaモジュール、感覚運動子と言語を翻訳するba14/40モジュール、言語と視覚を変換する中間モジュール、そして視覚と視覚の間を変換する上頭頂葉モジュール、そして、将来の空間行動のための認知マップに参加者の視覚オブジェクトと腕の状態を統合するための優れた頭頂葉を含む。
pre-supplementary motor area (pre-sma) はハイレベルインテンションを逐次原子アクションに変換することができるが、smaはこれらの原子アクション、現在のアームおよび参加者オブジェクトステートをセンサーモベクターに統合し、プレモータおよび一次モータを介してアームに対応するトルクを適用することで意図を達成することができる。
ハイレベルエグゼクティブシステムは、言語に基づいた明示的な推論と自主行動のガイドを行うpfcを含み、bgは習慣行動制御センターである。
関連論文リスト
- OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving [12.004183122121042]
OccLLaMA (OccLLaMA) は、言語による世界モデルである。
私たちは、視覚、言語、行動のための統合されたマルチモーダル語彙を構築します。
OccLLaMAは複数のタスクで競合性能を達成する。
論文 参考訳(メタデータ) (2024-09-05T06:30:01Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - SAGE: Bridging Semantic and Actionable Parts for GEneralizable Manipulation of Articulated Objects [9.500480417077272]
本稿では,自然言語命令下での汎用的な操作を実現するために,意味的および動作可能なオブジェクトをブリッジする新しいフレームワークを提案する。
パーシャルグラウンドモジュールは、セマンティックな部分を「ジェネリザブル・アクティブル・パート(GAParts)」と表現し、パートモーションに関する情報を本質的に保持する。
インタラクティブなフィードバックモジュールが障害に対応するために組み込まれており、ループを閉じ、全体的なフレームワークの堅牢性を高める。
論文 参考訳(メタデータ) (2023-12-03T07:22:42Z) - AmadeusGPT: a natural language interface for interactive animal
behavioral analysis [65.55906175884748]
動作の自然言語記述をマシン実行可能なコードに変換する自然言語インタフェースであるAmadeusGPTを紹介する。
MABE 2022の動作課題タスクで最先端のパフォーマンスを実現できることを示す。
アマデウスGPTは、深い生物学的知識、大規模言語モデル、そしてコアコンピュータビジョンモジュールをより自然に知的なシステムに統合する新しい方法を提示している。
論文 参考訳(メタデータ) (2023-07-10T19:15:17Z) - LLM as A Robotic Brain: Unifying Egocentric Memory and Control [77.0899374628474]
Embodied AIは、物理的または仮想的なエンボディメント(つまりロボット)を持つインテリジェントシステムの研究と開発に焦点を当てている。
メモリとコントロールは、具体化されたシステムの2つの不可欠な部分であり、通常、それぞれをモデル化するために別々のフレームワークを必要とします。
ロボット脳として大規模言語モデルを用いて,エゴセントリックな記憶と制御を統一するLLM-Brainという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-19T00:08:48Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation [11.92150014766458]
我々は、人間の指示に従ってオブジェクト操作を行う、最後の1マイルのエンボディエージェントの空白を埋めることを目指している。
我々は、視覚・言語操作ベンチマーク(VLMbench)を構築し、分類されたロボット操作タスクに関する様々な言語命令を含む。
モジュラールールベースのタスクテンプレートが作成され、言語命令でロボットのデモを自動的に生成する。
論文 参考訳(メタデータ) (2022-06-17T03:07:18Z) - Language Model-Based Paired Variational Autoencoders for Robotic Language Learning [18.851256771007748]
人間の幼児と同様、人工エージェントは環境と対話しながら言語を学ぶことができる。
本稿では,ロボットの動作と言語記述を双方向に結合するニューラルモデルを提案する。
次に, PVAE-BERTを導入し, 事前訓練された大規模言語モデルとモデルを同調する。
論文 参考訳(メタデータ) (2022-01-17T10:05:26Z) - Bidirectional Interaction between Visual and Motor Generative Models
using Predictive Coding and Active Inference [68.8204255655161]
本稿では,感覚予測のための生成モデルと,運動軌跡の生成モデルからなるニューラルアーキテクチャを提案する。
我々は,知覚予測のシーケンスが学習,制御,オンライン適応を導くレールとしてどのように機能するかを強調する。
論文 参考訳(メタデータ) (2021-04-19T09:41:31Z) - Crossmodal Language Grounding in an Embodied Neurocognitive Model [28.461246169379685]
ヒトの幼児は早期に自然言語を習得することができる。
神経科学的な観点では、自然言語は具現化され、ほとんど全てではなく、感覚と感覚のモダリティに基礎を置いている。
バイオインスパイアされたメカニズムを反映した言語接地のための神経認知モデルを提案する。
論文 参考訳(メタデータ) (2020-06-24T08:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。