論文の概要: Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task
Feasibility in Interactive Visual Environments
- arxiv url: http://arxiv.org/abs/2104.08560v1
- Date: Sat, 17 Apr 2021 14:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 09:25:56.026098
- Title: Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task
Feasibility in Interactive Visual Environments
- Title(参考訳): 反復フィードバック(MoTIF)を用いたモバイルアプリタスク : 対話型視覚環境におけるタスク実現可能性
- Authors: Andrea Burns, Deniz Arsan, Sanjna Agrawal, Ranjitha Kumar, Kate
Saenko, Bryan A. Plummer
- Abstract要約: これまで最大数のインタラクティブ環境向けに自然言語コマンドを用いたデータセットであるMoTIF(Iterative Feedback)を用いたモバイルアプリタスクを紹介します。
MoTIFは、満足できないインタラクティブ環境のための自然言語リクエストを最初に含んでいる。
初期実現可能性分類実験を行い、より豊かな視覚言語表現の必要性を検証し、f1スコア37.3まで到達した。
- 参考スコア(独自算出の注目度): 54.405920619915655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, vision-language research has shifted to study tasks which
require more complex reasoning, such as interactive question answering, visual
common sense reasoning, and question-answer plausibility prediction. However,
the datasets used for these problems fail to capture the complexity of real
inputs and multimodal environments, such as ambiguous natural language requests
and diverse digital domains. We introduce Mobile app Tasks with Iterative
Feedback (MoTIF), a dataset with natural language commands for the greatest
number of interactive environments to date. MoTIF is the first to contain
natural language requests for interactive environments that are not
satisfiable, and we obtain follow-up questions on this subset to enable
research on task uncertainty resolution. We perform initial feasibility
classification experiments and only reach an F1 score of 37.3, verifying the
need for richer vision-language representations and improved architectures to
reason about task feasibility.
- Abstract(参考訳): 近年、視覚言語研究は、対話型質問応答、視覚的常識推論、質問応答可能性予測など、より複雑な推論を必要とするタスクの研究にシフトしている。
しかし、これらの問題に使用されるデータセットは、あいまいな自然言語要求や多様なデジタルドメインなど、実際の入力とマルチモーダル環境の複雑さを捉えることができない。
これまで最も多くの対話型環境に対応する自然言語コマンドを備えたデータセットである,反復フィードバック(motif)を備えたモバイルアプリタスクを紹介する。
MoTIFは、満足できない対話環境のための自然言語要求を最初に含み、タスク不確実性解決の研究を可能にするために、このサブセットについてフォローアップ質問を得る。
実現可能性分類実験を行い、F1スコア37.3にしか達せず、よりリッチな視覚言語表現の必要性を検証し、タスク実現可能性について推論するためのアーキテクチャを改善した。
関連論文リスト
- INQUIRE: A Natural World Text-to-Image Retrieval Benchmark [51.823709631153946]
InQUIREは、専門家レベルのクエリにおけるマルチモーダル視覚言語モデルに挑戦するために設計されたテキスト・ツー・イメージ検索ベンチマークである。
InQUIREには、iNaturalist 2024(iNat24)、500万の自然界の画像の新しいデータセット、250のエキスパートレベルの検索クエリが含まれている。
InQUIRE-Fullrank,完全なデータセットランキングタスク,INQUIRE-Rerank,トップ100検索の精算タスクの2つの中核検索タスクを評価した。
論文 参考訳(メタデータ) (2024-11-04T19:16:53Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented
Dialogs [39.58414649004708]
PRESTOは、人間と仮想アシスタント間の550万以上のコンテキスト多言語会話のデータセットである。
現実のNLUタスクで発生する問題、例えば、障害、コードスイッチング、リビジョンなどが含まれる。
我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象をモデル化することが困難であることを示している。
論文 参考訳(メタデータ) (2023-03-15T21:51:13Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - Interactive Mobile App Navigation with Uncertain or Under-specified
Natural Language Commands [47.282510186109775]
モバイルアプリケーションTasks with Iterative Feedback (MoTIF)は、モバイルアプリで自然言語クエリを完了させることを目標とする、新たなデータセットです。
対話型質問応答,視覚的常識推論,質問応答の妥当性予測における関連課題に対する現在のデータセットは,あいまいな自然言語要求を解決するための研究を支援していない。
MoTIFには満足できない自然言語要求が含まれており、対話型視覚言語タスクにおいてこの問題を調査するための最初の研究である。
論文 参考訳(メタデータ) (2022-02-04T18:51:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。