論文の概要: AssistQ: Affordance-centric Question-driven Task Completion for
Egocentric Assistant
- arxiv url: http://arxiv.org/abs/2203.04203v1
- Date: Tue, 8 Mar 2022 17:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 15:20:45.858175
- Title: AssistQ: Affordance-centric Question-driven Task Completion for
Egocentric Assistant
- Title(参考訳): assistq: egocentric assistantのためのアプライアンス中心の質問駆動タスク補完
- Authors: Benita Wong, Joya Chen, You Wu, Stan Weixian Lei, Dongxing Mao, Difei
Gao, Mike Zheng Shou
- Abstract要約: Affordance-centric Question-driven Task Completionという新しいタスクを定義します。
AIアシスタントは、ユーザーをステップバイステップで導くために、指導ビデオやスクリプトから学ぶべきである。
このタスクを支援するために、529の質問応答サンプルからなる新しいデータセットAssistQを構築した。
- 参考スコア(独自算出の注目度): 6.379158555341729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A long-standing goal of intelligent assistants such as AR glasses/robots has
been to assist users in affordance-centric real-world scenarios, such as "how
can I run the microwave for 1 minute?". However, there is still no clear task
definition and suitable benchmarks. In this paper, we define a new task called
Affordance-centric Question-driven Task Completion, where the AI assistant
should learn from instructional videos and scripts to guide the user
step-by-step. To support the task, we constructed AssistQ, a new dataset
comprising 529 question-answer samples derived from 100 newly filmed
first-person videos. Each question should be completed with multi-step
guidances by inferring from visual details (e.g., buttons' position) and
textural details (e.g., actions like press/turn). To address this unique task,
we developed a Question-to-Actions (Q2A) model that significantly outperforms
several baseline methods while still having large room for improvement. We
expect our task and dataset to advance Egocentric AI Assistant's development.
Our project page is available at: https://showlab.github.io/assistq
- Abstract(参考訳): ARグラスやロボットのようなインテリジェントアシスタントの長年の目標は、“電子レンジを1分間どのように動作させるのか?
しかし、明確なタスク定義と適切なベンチマークはまだ存在しない。
本稿では,AIアシスタントが指導ビデオやスクリプトから学習してユーザのステップバイステップをガイドする,Affordance-centric Question-driven Task Completionというタスクを定義する。
このタスクを支援するために,100本のビデオから抽出した529個の質問応答サンプルからなるAssistQを構築した。
各質問は、視覚的詳細(ボタンの位置など)とテクスト的詳細(例えば、プレス/ターンのようなアクション)から推測することで、多段階のガイダンスで完了するべきである。
このユニークなタスクに対処するために、我々はいくつかのベースラインメソッドを大幅に上回りながら改善の余地が大きいq2aモデルを開発した。
タスクとデータセットは、Egocentric AI Assistantの開発を前進させることを期待しています。
私たちのプロジェクトページは以下の通りです。
関連論文リスト
- HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI
Assistants in the Real World [48.90399899928823]
この研究は、物理的な世界でのタスクを実行することで人間を対話的に導くインテリジェントエージェントを開発するための、より広範な研究努力の一環である。
大規模なエゴセントリックなヒューマンインタラクションデータセットであるHoloAssistを紹介する。
人間のアシスタントがミスを正し、タスク完了手順に介入し、環境に指示を下す方法について、重要な知見を提示する。
論文 参考訳(メタデータ) (2023-09-29T07:17:43Z) - A Solution to CVPR'2023 AQTC Challenge: Video Alignment for Multi-Step
Inference [51.26551806938455]
Egocentric AssistantのためのAQTC(Affordance-centric Question-driven Task Completion)は、画期的なシナリオを導入している。
マルチステップ推論を改善するために,映像アライメント向上のためのソリューションを提案する。
CVPR'2023 AQTCでは2位であった。
論文 参考訳(メタデータ) (2023-06-26T04:19:33Z) - TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with
Millions of APIs [71.7495056818522]
私たちは、基礎モデルと数百万のAPIを結合してタスク補完を行う、新しいAIエコシステムとしてTaskMatrix.AIを紹介します。
このようなエコシステムを構築するためのビジョンを示し、それぞれの重要なコンポーネントを説明し、このビジョンの実現可能性と次に取り組むべき主な課題の両方を説明するために研究ケースを使用します。
論文 参考訳(メタデータ) (2023-03-29T03:30:38Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Winning the CVPR'2022 AQTC Challenge: A Two-stage Function-centric
Approach [51.424201533529114]
AQTC(Affordance-centric Question-driven Task Completion for Egocentric Assistant)は、AIアシスタントが指導ビデオやスクリプトから学習し、ユーザのステップバイステップをガイドするのに役立つ新しいタスクである。
本稿では,AQTCを2段階のFunction-centricアプローチで処理し,関連するFunctionモジュールとFunction2Answerモジュールを用いて過去のステップに基づいて動作を予測する。
論文 参考訳(メタデータ) (2022-06-20T07:02:23Z) - AssistSR: Affordance-centric Question-driven Video Segment Retrieval [4.047098915826058]
AQVSR(Affordance-centric Question-driven Video Segment Retrieval)
AQVSR(Affordance-centric Question-driven Video Segment Retrieval)と呼ばれる新しいタスクを提案する。
論文 参考訳(メタデータ) (2021-11-30T01:14:10Z) - Meta-learning for Few-shot Natural Language Processing: A Survey [10.396506243272158]
Few-shot Natural Language Processing (NLP) は、ラベル付き例のごく一部に付随するNLPタスクを指す。
本稿では,NLP領域,特に少数ショットアプリケーションに焦点をあてる。
メタラーニングを数ショットNLPに適用する際の、より明確な定義、進捗の概要、一般的なデータセットを提供しようとしている。
論文 参考訳(メタデータ) (2020-07-19T06:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。