論文の概要: Interactive Mobile App Navigation with Uncertain or Under-specified
Natural Language Commands
- arxiv url: http://arxiv.org/abs/2202.02312v1
- Date: Fri, 4 Feb 2022 18:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-07 15:00:45.461402
- Title: Interactive Mobile App Navigation with Uncertain or Under-specified
Natural Language Commands
- Title(参考訳): 未確認または未特定の自然言語コマンドによる対話型モバイルアプリナビゲーション
- Authors: Andrea Burns, Deniz Arsan, Sanjna Agrawal, Ranjitha Kumar, Kate
Saenko, Bryan A. Plummer
- Abstract要約: モバイルアプリケーションTasks with Iterative Feedback (MoTIF)は、モバイルアプリで自然言語クエリを完了させることを目標とする、新たなデータセットです。
対話型質問応答,視覚的常識推論,質問応答の妥当性予測における関連課題に対する現在のデータセットは,あいまいな自然言語要求を解決するための研究を支援していない。
MoTIFには満足できない自然言語要求が含まれており、対話型視覚言語タスクにおいてこの問題を調査するための最初の研究である。
- 参考スコア(独自算出の注目度): 47.282510186109775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Mobile app Tasks with Iterative Feedback (MoTIF), a new dataset
where the goal is to complete a natural language query in a mobile app. Current
datasets for related tasks in interactive question answering, visual common
sense reasoning, and question-answer plausibility prediction do not support
research in resolving ambiguous natural language requests or operating in
diverse digital domains. As a result, they fail to capture complexities of real
question answering or interactive tasks. In contrast, MoTIF contains natural
language requests that are not satisfiable, the first such work to investigate
this issue for interactive vision-language tasks. MoTIF also contains follow up
questions for ambiguous queries to enable research on task uncertainty
resolution. We introduce task feasibility prediction and propose an initial
model which obtains an F1 score of 61.1. We next benchmark task automation with
our dataset and find adaptations of prior work perform poorly due to our
realistic language requests, obtaining an accuracy of only 20.2% when mapping
commands to grounded actions. We analyze performance and gain insight for
future work that may bridge the gap between current model ability and what is
needed for successful use in application.
- Abstract(参考訳): モバイルアプリで自然言語クエリを完了させることを目標とする,新たなデータセットであるmotif(イテレーティブフィードバック)を,モバイルアプリタスクに導入する。
対話型質問応答、視覚常識推論、質問応答可能性予測における関連するタスクの現在のデータセットは、あいまいな自然言語要求の解決や多様なデジタルドメインでの運用に関する研究をサポートしない。
その結果、実際の質問応答や対話的なタスクの複雑さを捉えられない。
対照的にモチーフには、満足できない自然言語要求が含まれており、対話型視覚言語タスクでこの問題を調査する最初の仕事である。
MoTIFはまた、タスクの不確実性解決の研究を可能にする曖昧なクエリのフォローアップ質問も含んでいる。
タスク実現可能性予測を導入し、F1スコア61.1を得る初期モデルを提案する。
次に、データセットでタスク自動化をベンチマークし、現実的な言語要求のために以前の作業の適応がうまくいかないことを発見し、コマンドを接地アクションにマッピングするときの精度はわずか20.2%を得る。
私たちは、現在のモデル能力とアプリケーションで成功するために必要なものの間のギャップを埋める可能性のある、将来の作業のパフォーマンスを分析し、洞察を得る。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:55:07Z) - AAdaM at SemEval-2024 Task 1: Augmentation and Adaptation for Multilingual Semantic Textual Relatedness [16.896143197472114]
本稿では,アフリカとアジアの言語に対するセマンティックテキスト関連性(SemEval-2024 Task 1: Semantic Textual Relatedness)について述べる。
本稿では,限られたトレーニングデータの低リソース化問題に対処するために,機械翻訳によるデータ拡張を提案する。
我々のシステムは、サブタスクA(教師付き学習)とサブタスクC(言語間の移動)の両方において、すべてのチームの中で最善を尽くします。
論文 参考訳(メタデータ) (2024-04-01T21:21:15Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - Zero-shot Clarifying Question Generation for Conversational Search [25.514678546942754]
本稿では,質問テンプレートとクエリファセットの両方を用いて,効果的かつ正確な質問生成を導く制約付き質問生成システムを提案する。
実験の結果,提案手法は既存のゼロショットベースラインよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2023-01-30T04:43:02Z) - Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task
Feasibility in Interactive Visual Environments [54.405920619915655]
これまで最大数のインタラクティブ環境向けに自然言語コマンドを用いたデータセットであるMoTIF(Iterative Feedback)を用いたモバイルアプリタスクを紹介します。
MoTIFは、満足できないインタラクティブ環境のための自然言語リクエストを最初に含んでいる。
初期実現可能性分類実験を行い、より豊かな視覚言語表現の必要性を検証し、f1スコア37.3まで到達した。
論文 参考訳(メタデータ) (2021-04-17T14:48:02Z) - TransWiC at SemEval-2021 Task 2: Transformer-based Multilingual and
Cross-lingual Word-in-Context Disambiguation [0.8883733362171032]
我々のアプローチは事前訓練されたトランスフォーマーモデルに基づいており、言語固有の処理やリソースは一切使用しない。
本モデルでは,英語サブタスクの精度が0.90であり,その精度は0.93である。
我々のアプローチは、他のモノリンガル言語とクロスランガル言語の組み合わせで満足できる結果も達成します。
論文 参考訳(メタデータ) (2021-04-09T23:06:05Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。