論文の概要: GRILLBot: An Assistant for Real-World Tasks with Neural Semantic Parsing
and Graph-Based Representations
- arxiv url: http://arxiv.org/abs/2208.14884v1
- Date: Wed, 31 Aug 2022 14:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:03:38.940356
- Title: GRILLBot: An Assistant for Real-World Tasks with Neural Semantic Parsing
and Graph-Based Representations
- Title(参考訳): GRILLBot: ニューラルネットワークによる構文解析とグラフベース表現による実世界のタスク支援
- Authors: Carlos Gemmell, Iain Mackie, Paul Owoicho, Federico Rossetto, Sophie
Fischer, Jeffrey Dalton
- Abstract要約: GRILLBotは、2022年のAlexa Prize TaskBot Challengeで優勝した。
これは、調理と家庭改善の領域における複雑な現実世界のタスクを通じてユーザーを誘導する音声アシスタントである。
- 参考スコア(独自算出の注目度): 5.545791216381869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GRILLBot is the winning system in the 2022 Alexa Prize TaskBot Challenge,
moving towards the next generation of multimodal task assistants. It is a voice
assistant to guide users through complex real-world tasks in the domains of
cooking and home improvement. These are long-running and complex tasks that
require flexible adjustment and adaptation. The demo highlights the core
aspects, including a novel Neural Decision Parser for contextualized semantic
parsing, a new "TaskGraph" state representation that supports conditional
execution, knowledge-grounded chit-chat, and automatic enrichment of tasks with
images and videos.
- Abstract(参考訳): grillbotは、2022年のalexa prize taskbot challengeで優勝したシステムであり、次世代のマルチモーダルタスクアシスタントへと向かっている。
音声アシスタントは、料理と家庭改善の領域における複雑な現実世界のタスクを通じてユーザーをガイドする。
これらは、フレキシブルな調整と適応を必要とする長くて複雑なタスクです。
デモでは、コンテキスト化されたセマンティックパーシングのための新しいニューラル決定パーサ、条件付き実行をサポートする新しい"TaskGraph"状態表現、知識ベースのチャット、イメージとビデオによるタスクの自動強化など、中核的な側面を強調した。
関連論文リスト
- VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文 参考訳(メタデータ) (2023-09-08T16:33:27Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging
Face [85.25054021362232]
大規模言語モデル(LLM)は、言語理解、生成、相互作用、推論において例外的な能力を示した。
LLMは、複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能する可能性がある。
本稿では,機械学習コミュニティのさまざまなAIモデルを接続するLLMエージェントであるHuggingGPTを紹介する。
論文 参考訳(メタデータ) (2023-03-30T17:48:28Z) - Alexa, Let's Work Together: Introducing the First Alexa Prize TaskBot
Challenge on Conversational Task Assistance [22.3267314621785]
Alexa Prize TaskBotチャレンジは、現実世界のタスクで人間を対話的に支援する要件を導入することで、SocialBotチャレンジの成功の上に構築されている。
本稿では、TaskBotの課題の概要を説明し、CoBot Toolkitを使ってチームに提供されるインフラサポートについて述べ、研究課題を克服するために参加チームが行ったアプローチについて要約する。
論文 参考訳(メタデータ) (2022-09-13T22:01:42Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering [43.07139534653485]
タスク対応マルチタスクフレームワークAnswer-Meを提案する。
マルチタスクである視覚言語ジョイントモデルを事前訓練する。
その結果、最先端のパフォーマンス、ゼロショットの一般化、忘れることへの堅牢性、競争力のあるシングルタスクの結果が示された。
論文 参考訳(メタデータ) (2022-05-02T14:53:13Z) - One-Shot Learning from a Demonstration with Hierarchical Latent Language [43.140223608960554]
DescribeWorldは、接地エージェントにおけるこのような一般化スキルをテストするために設計された環境である。
エージェントはMinecraftのようなグリッドワールドでひとつのタスクのデモを観察し、その後、新しいマップで同じタスクを実行するように要求される。
テキストベースの推論を行うエージェントは,タスクをランダムに分割した状態での課題に対して,より適していることがわかった。
論文 参考訳(メタデータ) (2022-03-09T15:36:43Z) - VSGM -- Enhance robot task understanding ability through visual semantic
graph [0.0]
ロボットに視覚的意味論と言語意味論の理解を与えることにより、推論能力が向上すると考えられる。
本稿では,セマンティックグラフを用いて,より優れた視覚的特徴を得る手法であるVSGMを提案する。
論文 参考訳(メタデータ) (2021-05-19T07:22:31Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z) - Deep Multi-Task Augmented Feature Learning via Hierarchical Graph Neural
Network [4.121467410954028]
深層マルチタスク学習のための拡張機能を学習するための階層型グラフニューラルネットワークを提案する。
実世界のデータステスの実験では、この戦略を使用する際の大幅なパフォーマンス向上が示されている。
論文 参考訳(メタデータ) (2020-02-12T06:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。