論文の概要: Collecting Interactive Multi-modal Datasets for Grounded Language
Understanding
- arxiv url: http://arxiv.org/abs/2211.06552v3
- Date: Tue, 21 Mar 2023 06:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 02:16:32.148852
- Title: Collecting Interactive Multi-modal Datasets for Grounded Language
Understanding
- Title(参考訳): 接地言語理解のための対話型マルチモーダルデータセットの収集
- Authors: Shrestha Mohanty, Negar Arabzadeh, Milagro Teruel, Yuxuan Sun, Artem
Zholus, Alexey Skrynnik, Mikhail Burtsev, Kavya Srinet, Aleksandr Panov,
Arthur Szlam, Marc-Alexandre C\^ot\'e, Julia Kiseleva
- Abstract要約: 自然言語タスクを用いた協調型エンボディエージェントの定式化を行った。
広範かつスケーラブルなデータ収集ツールを開発しました。
対話型基底言語理解のための最初のデータセットを収集した。
- 参考スコア(独自算出の注目度): 66.30648042100123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human intelligence can remarkably adapt quickly to new tasks and
environments. Starting from a very young age, humans acquire new skills and
learn how to solve new tasks either by imitating the behavior of others or by
following provided natural language instructions. To facilitate research which
can enable similar capabilities in machines, we made the following
contributions (1) formalized the collaborative embodied agent using natural
language task; (2) developed a tool for extensive and scalable data collection;
and (3) collected the first dataset for interactive grounded language
understanding.
- Abstract(参考訳): 人間の知性は新しいタスクや環境に迅速に適応できる。
非常に若い頃から、人間は新たなスキルを身につけ、他人の行動を真似たり、自然言語による指示に従うことで新しいタスクを解く方法を学ぶ。
同様の機能をマシンで実現可能な研究を容易にするために,(1)自然言語タスクを用いた協調型実施エージェントの形式化,(2)大規模かつスケーラブルなデータ収集ツールの開発,(3)対話型接地言語理解のための最初のデータセットの収集を行った。
関連論文リスト
- Interpretable Robotic Manipulation from Language [11.207620790833271]
本稿では,操作タスクに特化して設計された,Ex-PERACTという説明可能な行動クローニングエージェントを紹介する。
トップレベルでは、モデルは個別のスキルコードを学ぶことを任務とし、下位レベルでは、ポリシーネットワークは問題をボクセル化されたグリッドに変換し、離散化されたアクションをボクセルグリッドにマップする。
提案手法は,RLBenchベンチマークを用いた8つの操作課題にまたがって評価し,Ex-PERACTが競合する政策性能を達成するだけでなく,複雑な環境下でのヒューマンインストラクションとマシン実行のギャップを効果的に橋渡しすることを示した。
論文 参考訳(メタデータ) (2024-05-27T11:02:21Z) - Policy Learning with a Language Bottleneck [65.99843627646018]
PLLBB(Policy Learning with a Language Bottleneck)は、AIエージェントが言語規則を生成するためのフレームワークである。
PLLBBは、言語モデルによってガイドされるルール生成ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ更新ステップとを交互に使用する。
2人のプレイヤーによるコミュニケーションゲーム、迷路解決タスク、および2つの画像再構成タスクにおいて、PLLBBエージェントはより解釈可能で一般化可能な振る舞いを学習できるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文 参考訳(メタデータ) (2024-05-07T08:40:21Z) - Transforming Human-Centered AI Collaboration: Redefining Embodied Agents
Capabilities through Interactive Grounded Language Instructions [23.318236094953072]
人間の知能の適応性は目覚ましいもので、新しいタスクやマルチモーダル環境に迅速に適応することができる。
研究コミュニティはインタラクティブな「身体的エージェント」の開発を積極的に進めている
これらのエージェントは、コミュニケーションが壊れたり、指示が不明確であったりした場合に、迅速にフィードバックをリクエストする能力を持っていなければならない。
論文 参考訳(メタデータ) (2023-05-18T07:51:33Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - IGLU 2022: Interactive Grounded Language Understanding in a
Collaborative Environment at NeurIPS 2022 [63.07251290802841]
協調環境における対話型接地言語理解(IGLU: Interactive Grounded Language Understanding)を提案する。
競争の第一の目的は、対話型エンボディエージェントの開発方法の問題にアプローチすることである。
この研究課題は、NeurIPSコミュニティと非常に関係のある2つの研究分野に自然に関連があるが、限定的ではない。
論文 参考訳(メタデータ) (2022-05-27T06:12:48Z) - Interactive Grounded Language Understanding in a Collaborative
Environment: IGLU 2021 [58.196738777207315]
協調環境における対話型接地言語理解のためのemphIGLUを提案する。
競争の主目的は、対話型エージェントをいかにして構築するかという問題にアプローチすることであり、協調環境において、接地された自然言語命令を提供しながらタスクの解決を学ぶことである。
論文 参考訳(メタデータ) (2022-05-05T01:20:09Z) - NeurIPS 2021 Competition IGLU: Interactive Grounded Language
Understanding in a Collaborative Environment [71.11505407453072]
協調環境における対話型接地言語理解(IGLU: Interactive Grounded Language Understanding)を提案する。
競争の主目的は、対話型エージェントをいかにして構築するかという問題にアプローチすることであり、協調環境において、接地された自然言語命令を提供しながらタスクの解決を学ぶことである。
この研究課題は、自然言語理解・生成(NLU/G)と強化学習(RL)という、NeurIPSコミュニティと密接に関連している2つの分野に自然に関連している。
論文 参考訳(メタデータ) (2021-10-13T07:13:44Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Multi-agent Communication meets Natural Language: Synergies between
Functional and Structural Language Learning [16.776753238108036]
本稿では,マルチエージェント通信と従来のデータ駆動型アプローチを組み合わせた自然言語学習手法を提案する。
私たちの出発点は、タスク固有の言語データではなく、ジェネリックに基づいて訓練された言語モデルです。
次に、このモデルをマルチエージェントのセルフプレイ環境に配置し、モデルへの適応や修正に使用するタスク固有の報酬を生成する。
論文 参考訳(メタデータ) (2020-05-14T15:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。