論文の概要: Bridging the Communication Gap: Artificial Agents Learning Sign Language through Imitation
- arxiv url: http://arxiv.org/abs/2406.10043v1
- Date: Fri, 14 Jun 2024 13:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 13:25:54.940532
- Title: Bridging the Communication Gap: Artificial Agents Learning Sign Language through Imitation
- Title(参考訳): コミュニケーションギャップのブリッジ:模倣を通して手話を学ぶ人工エージェント
- Authors: Federico Tavella, Aphrodite Galata, Angelo Cangelosi,
- Abstract要約: 本研究は,実証から学ぶことによる非言語コミュニケーションスキルの獲得について考察する。
特に,人工エージェントの模倣学習に着目し,擬似ヒューマノイドアメリカン手話を教えることで実演した。
我々はコンピュータビジョンと深層学習を用いてビデオから情報を取り出すとともに、エージェントが観察された動作を再現できるように強化学習を行う。
- 参考スコア(独自算出の注目度): 6.1400257928108575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial agents, particularly humanoid robots, interact with their environment, objects, and people using cameras, actuators, and physical presence. Their communication methods are often pre-programmed, limiting their actions and interactions. Our research explores acquiring non-verbal communication skills through learning from demonstrations, with potential applications in sign language comprehension and expression. In particular, we focus on imitation learning for artificial agents, exemplified by teaching a simulated humanoid American Sign Language. We use computer vision and deep learning to extract information from videos, and reinforcement learning to enable the agent to replicate observed actions. Compared to other methods, our approach eliminates the need for additional hardware to acquire information. We demonstrate how the combination of these different techniques offers a viable way to learn sign language. Our methodology successfully teaches 5 different signs involving the upper body (i.e., arms and hands). This research paves the way for advanced communication skills in artificial agents.
- Abstract(参考訳): 人工エージェント、特にヒューマノイドロボットは、彼らの環境、物体、そしてカメラ、アクチュエータ、および物理的存在を使用する人々と相互作用する。
彼らのコミュニケーション方法は、しばしば事前にプログラムされ、行動と相互作用を制限する。
本研究は,手話理解・表現に応用可能な実演から学習することで,非言語コミュニケーションスキルの獲得について検討する。
特に,人工エージェントの模倣学習に着目し,擬似ヒューマノイドアメリカン手話を教えることで実演した。
我々はコンピュータビジョンと深層学習を用いてビデオから情報を取り出すとともに、エージェントが観察された動作を再現できるように強化学習を行う。
他の手法と比較して、我々の手法は情報を取得するための追加ハードウェアの必要性を排除している。
これらの異なるテクニックの組み合わせが手話を学ぶための実行可能な方法であることを示す。
我々の方法論は上半身(腕と手)を含む5つの異なる徴候をうまく教える。
本研究は, 人工エージェントにおける高度なコミュニケーションスキルの道を開くものである。
関連論文リスト
- Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data [28.36623343236893]
我々は,同期音声と視覚的フィードバックを伴って人体でのデモを収集する「アー・イン・ハンド」データ収集装置であるManiWAVを紹介する。
また,本システムでは,多種多様な人間の実演から学習することで,未知の環境に一般化できることを示す。
論文 参考訳(メタデータ) (2024-06-27T18:06:38Z) - Unveiling the pressures underlying language learning and use in neural networks, large language models, and humans: Lessons from emergent machine-to-machine communication [5.371337604556311]
本稿では,ニューラルエージェントと人間の言語行動のミスマッチが解決された3症例について概説する。
我々は、コミュニケーションの成功、生産努力、学習可能性、その他の心理・社会言語学的要因といった、言語学習と台頭のための重要なプレッシャーを識別する。
論文 参考訳(メタデータ) (2024-03-21T14:33:34Z) - AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents [58.807802111818994]
オープンな語彙の指示に従って物理的に妥当な相互作用を学習する新しい階層的手法であるAnySkillを提案する。
我々のアプローチは、模倣学習によって訓練された低レベルコントローラを介して、一連のアトミックアクションを開発することから始まります。
提案手法の重要な特徴は,手動の報酬工学を使わずにオブジェクトとのインタラクションを学習する,高レベルなポリシーに対する画像ベースの報酬の利用である。
論文 参考訳(メタデータ) (2024-03-19T15:41:39Z) - Towards More Human-like AI Communication: A Review of Emergent
Communication Research [0.0]
創発的コミュニケーション(英: Emergent Communication, Emecom)は、自然言語を利用できる人工エージェントの開発を目的とした研究分野である。
本稿では,文献の共通点と,それらが人間同士の相互作用にどのように関係しているかを概説する。
2つのサブカテゴリを特定し、その特性とオープンな課題を強調します。
論文 参考訳(メタデータ) (2023-08-01T14:43:10Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Creating Multimodal Interactive Agents with Imitation and
Self-Supervised Learning [20.02604302565522]
SFからの一般的なビジョンは、ロボットはいつか私たちの物理的空間に住み、世界は私たちのように感じ、肉体労働を補助し、自然言語を通して私たちとコミュニケーションする、ということだ。
本稿では,仮想環境の単純化により人間と自然に対話できる人工エージェントを設計する方法について検討する。
シミュレーションされた世界における人間と人間の相互作用の模倣学習は、自己指導型学習と合わせて、多モーダルな対話型エージェントを作るのに十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T15:17:27Z) - Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。
リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。
これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文 参考訳(メタデータ) (2021-07-12T19:26:11Z) - Language-Conditioned Imitation Learning for Robot Manipulation Tasks [39.40937105264774]
本研究では,非構造化自然言語を模倣学習に組み込む手法を提案する。
訓練時には、専門家は、基礎となる意図を説明するために、言語記述とともにデモンストレーションを行うことができる。
トレーニングプロセスはこれらの2つのモードを相互に関連付け、言語、知覚、動きの相関を符号化する。
結果として得られた言語条件のvisuomotorポリシーは、実行時に新しいヒューマンコマンドと命令で条件付けできる。
論文 参考訳(メタデータ) (2020-10-22T21:49:08Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。