論文の概要: Enhancing Virtual Assistant Intelligence: Precise Area Targeting for
Instance-level User Intents beyond Metadata
- arxiv url: http://arxiv.org/abs/2306.04163v1
- Date: Wed, 7 Jun 2023 05:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 16:08:41.342573
- Title: Enhancing Virtual Assistant Intelligence: Precise Area Targeting for
Instance-level User Intents beyond Metadata
- Title(参考訳): 仮想アシスタントインテリジェンスの強化: メタデータを超えたインスタンスレベルのユーザインテントの正確な領域ターゲティング
- Authors: Mengyu Chen, Zhenchang Xing, Jieshan Chen, Chunyang Chen and Qinghua
Lu
- Abstract要約: アプリケーション画面のピクセルに基づいて,インスタンスレベルのユーザ意図を処理できる仮想アシスタントについて検討する。
入力音声やテキストのインスタンスレベルのユーザ意図を学習するクロスモーダルなディープラーニングパイプラインを提案する。
テストデータセットをインスタンスレベルのユーザインテントで収集するために,参加者10名を対象にユーザスタディを実施した。
- 参考スコア(独自算出の注目度): 18.333599919653444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual assistants have been widely used by mobile phone users in recent
years. Although their capabilities of processing user intents have been
developed rapidly, virtual assistants in most platforms are only capable of
handling pre-defined high-level tasks supported by extra manual efforts of
developers. However, instance-level user intents containing more detailed
objectives with complex practical situations, are yet rarely studied so far. In
this paper, we explore virtual assistants capable of processing instance-level
user intents based on pixels of application screens, without the requirements
of extra extensions on the application side. We propose a novel cross-modal
deep learning pipeline, which understands the input vocal or textual
instance-level user intents, predicts the targeting operational area, and
detects the absolute button area on screens without any metadata of
applications. We conducted a user study with 10 participants to collect a
testing dataset with instance-level user intents. The testing dataset is then
utilized to evaluate the performance of our model, which demonstrates that our
model is promising with the achievement of 64.43% accuracy on our testing
dataset.
- Abstract(参考訳): バーチャルアシスタントは近年、携帯電話ユーザーの間で広く利用されている。
ユーザインテントの処理能力は急速に向上しているが、ほとんどのプラットフォームにおける仮想アシスタントは、開発者が手作業でサポートする事前定義されたハイレベルタスクのみを処理できる。
しかし、複雑な実用的な状況でより詳細な目的を含むインスタンスレベルのユーザインテントは、今のところほとんど研究されていない。
本稿では,アプリケーション側で追加拡張を必要とせずに,アプリケーション画面のピクセルに基づいてインスタンスレベルのユーザ意図を処理できる仮想アシスタントについて検討する。
入力音声やテキストのインスタンスレベルのユーザ意図を理解し,ターゲットとする操作領域を予測し,アプリケーションメタデータを使わずに画面上の絶対ボタン領域を検出する,新たなクロスモーダルディープラーニングパイプラインを提案する。
テストデータセットをインスタンスレベルのユーザインテントで収集するために,参加者10名を対象にユーザスタディを実施した。
テストデータセットは、テストデータセットにおける64.43%の精度で、私たちのモデルが有望であることを示すために、私たちのモデルのパフォーマンスを評価するために利用されます。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - A Review of Machine Learning Methods Applied to Video Analysis Systems [3.518774226658318]
本稿では,ビデオ解析のための機械学習技術の開発について調査する。
本稿では,ビデオ分析における自己教師型学習,半教師型学習,アクティブ学習,ゼロショット学習の開発の概要について述べる。
論文 参考訳(メタデータ) (2023-12-08T20:24:03Z) - Task Relation-aware Continual User Representation Learning [26.514449669395297]
ユーザモデリングにおけるこれまでの取り組みは、主に1つのタスク用に設計されたタスク固有のユーザ表現の学習に焦点を当てていた。
近年の研究では、様々なタスクに関連するユーザのより一般化された表現であるユニバーサルユーザ表現の概念が紹介されている。
その効果にもかかわらず、普遍的なユーザ表現を学習するための既存のアプローチは、現実世界のアプリケーションでは実用的ではない。
本稿では,学習タスク数が増加するにつれて,学習能力が制限されない,TERACONと呼ばれる新しい連続的ユーザ表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T08:10:03Z) - Versatile User Identification in Extended Reality using Pretrained Similarity-Learning [16.356961801884562]
類似性学習モデルを開発し、“Who Is Alyx?”データセットで事前学習する。
従来の分類学習ベースラインと比較して,本モデルは優れた性能を示す。
本手法は,実運用XRシステムにおける事前学習した動きに基づく識別モデルの容易な統合方法である。
論文 参考訳(メタデータ) (2023-02-15T08:26:24Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z) - ASHA: Assistive Teleoperation via Human-in-the-Loop Reinforcement
Learning [91.58711082348293]
オンラインユーザからのフィードバックからシステムのパフォーマンスに関する強化学習は、この問題に対する自然な解決策である。
このアプローチでは、特にフィードバックが不足している場合には、ループ内の大量のトレーニングデータが必要になる傾向があります。
疎いユーザフィードバックから効率的に学習する階層型ソリューションを提案する。
論文 参考訳(メタデータ) (2022-02-05T02:01:19Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。