論文の概要: Can Foundation Models Watch, Talk and Guide You Step by Step to Make a
Cake?
- arxiv url: http://arxiv.org/abs/2311.00738v1
- Date: Wed, 1 Nov 2023 15:13:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 16:07:01.438045
- Title: Can Foundation Models Watch, Talk and Guide You Step by Step to Make a
Cake?
- Title(参考訳): ファンデーションモデルは、ケーキを作るために一歩ずつ見、話し、指導できるのか?
- Authors: Yuwei Bao, Keunwoo Peter Yu, Yichi Zhang, Shane Storks, Itamar
Bar-Yossef, Alexander De La Iglesia, Megan Su, Xiao Lin Zheng, Joyce Chai
- Abstract要約: AIの進歩にもかかわらず、インタラクティブなタスクガイダンスシステムの開発は依然として大きな課題である。
我々は、人間のユーザと人間のインストラクターとの自然なインタラクションに基づいて、新しいマルチモーダルベンチマークデータセット、ウォッチ、トーク、ガイド(WTaG)を作成しました。
いくつかの基礎モデルを活用して、これらのモデルが認識可能なタスクガイダンスに迅速に適応できるかを調査した。
- 参考スコア(独自算出の注目度): 62.59699229202307
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite tremendous advances in AI, it remains a significant challenge to
develop interactive task guidance systems that can offer situated, personalized
guidance and assist humans in various tasks. These systems need to have a
sophisticated understanding of the user as well as the environment, and make
timely accurate decisions on when and what to say. To address this issue, we
created a new multimodal benchmark dataset, Watch, Talk and Guide (WTaG) based
on natural interaction between a human user and a human instructor. We further
proposed two tasks: User and Environment Understanding, and Instructor Decision
Making. We leveraged several foundation models to study to what extent these
models can be quickly adapted to perceptually enabled task guidance. Our
quantitative, qualitative, and human evaluation results show that these models
can demonstrate fair performances in some cases with no task-specific training,
but a fast and reliable adaptation remains a significant challenge. Our
benchmark and baselines will provide a stepping stone for future work on
situated task guidance.
- Abstract(参考訳): AIの大幅な進歩にもかかわらず、さまざまなタスクにおいて、位置があり、パーソナライズされたガイダンスを提供し、人間を支援するインタラクティブなタスクガイダンスシステムを開発することは、依然として大きな課題である。
これらのシステムは、ユーザと環境をよく理解し、いつ何を言うべきかをタイムリーに正確に決定する必要がある。
この問題に対処するため、我々は、人間のユーザと人間のインストラクターとの自然な相互作用に基づいた、新しいマルチモーダルベンチマークデータセット、WTaG(Watch, Talk and Guide)を作成しました。
さらに,ユーザと環境の理解とインストラクタの意思決定という2つのタスクを提案した。
いくつかの基礎モデルを活用して、これらのモデルが認識可能なタスクガイダンスに迅速に適応できるかを調査した。
定量的,質的,人的評価の結果から,これらのモデルがタスク固有のトレーニングを伴わない場合において,公正なパフォーマンスを示すことができることが示された。
当社のベンチマークとベースラインは、今後のタスクガイダンスのための足掛かりとなるでしょう。
関連論文リスト
- Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。
Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2023-11-13T16:00:16Z) - Designing Closed-Loop Models for Task Allocation [36.04165658325371]
我々は、ブートストラップモデルトレーニングと人間とタスクの類似性に関する弱い事前情報を利用する。
このような弱い事前の使用は、人間の意思決定者が誤りを犯したりバイアスを受けたりしても、タスク割り当て精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-05-31T13:57:56Z) - Object-Centric Multi-Task Learning for Human Instances [8.035105819936808]
オブジェクト中心学習によって複数のタスクのパラメータを最大に共有する,コンパクトなマルチタスクネットワークアーキテクチャについて検討する。
我々は、人中心クエリ(HCQ)と呼ばれる、人間のインスタンス情報を効果的に符号化する新しいクエリ設計を提案する。
実験結果から,提案したマルチタスクネットワークは,最先端タスク固有モデルに匹敵する精度を実現することがわかった。
論文 参考訳(メタデータ) (2023-03-13T01:10:50Z) - Learning by Asking for Embodied Visual Navigation and Task Completion [20.0182240268864]
本稿では,タスク完了のための追加情報を動的に取得するために,いつ,どの質問をするかを学習するELBA(Embodied Learning-By-Asking)モデルを提案する。
実験結果から,ELBAは質問応答能力のないベースラインモデルに比べ,タスク性能の向上を図っている。
論文 参考訳(メタデータ) (2023-02-09T18:59:41Z) - Measuring Progress on Scalable Oversight for Large Language Models [19.705153174673576]
我々は、人間専門家が成功するが、人間や現在の汎用AIシステムが失敗するタスクを選択することに焦点を当てた実験的な設計を提案する。
チャットを通じて信頼できない大言語モデルダイアログアシスタントと対話する人間の参加者は、モデル単独と自明なパフォーマンスの両方を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2022-11-04T17:03:49Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Recent Advances in Leveraging Human Guidance for Sequential
Decision-Making Tasks [60.380501589764144]
人工知能の長年の目標は、シーケンシャルな意思決定を必要とするタスクを実行することを学ぶことができる人工知能を作ることである。
学習し行動する人工エージェントであるが、実行すべき特定のタスクを特定するのは人間次第である。
この調査は、主に人間のガイダンスに依存する5つの最近の機械学習フレームワークのハイレベルな概要を提供する。
論文 参考訳(メタデータ) (2021-07-13T03:11:04Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。