論文の概要: DroidCall: A Dataset for LLM-powered Android Intent Invocation
- arxiv url: http://arxiv.org/abs/2412.00402v1
- Date: Sat, 30 Nov 2024 08:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:46:40.601160
- Title: DroidCall: A Dataset for LLM-powered Android Intent Invocation
- Title(参考訳): DroidCall: LLMベースのAndroid Intent呼び出しのためのデータセット
- Authors: Weikai Xie, Li Zhang, Shihe Wang, Rongjie Yi, Mengwei Xu,
- Abstract要約: DroidCallは、Androidの正確なインテント呼び出しのための、最初のトレーニングとテストのデータセットです。
非常にフレキシブルで再利用可能なデータ生成パイプラインを使って、DroidCallで10kのサンプルを構築しました。
また、これらの微調整されたモデルを備えたエンドツーエンドのAndroidアプリを提供し、Androidのインテント呼び出しプロセスを実証しています。
- 参考スコア(独自算出の注目度): 5.147660365233947
- License:
- Abstract: The growing capabilities of large language models in natural language understanding significantly strengthen existing agentic systems. To power performant on-device mobile agents for better data privacy, we introduce DroidCall, the first training and testing dataset for accurate Android intent invocation. With a highly flexible and reusable data generation pipeline, we constructed 10k samples in DroidCall. Given a task instruction in natural language, small language models such as Qwen2.5-3B and Gemma2-2B fine-tuned with DroidCall can approach or even surpass the capabilities of GPT-4o for accurate Android intent invocation. We also provide an end-to-end Android app equipped with these fine-tuned models to demonstrate the Android intent invocation process. The code and dataset are available at https://github.com/UbiquitousLearning/DroidCall.
- Abstract(参考訳): 自然言語理解における大規模言語モデルの増大する能力は、既存のエージェントシステムを大幅に強化する。
データプライバシを改善するために、デバイス上で実行中のモバイルエージェントに電力を供給するために、Androidの正確なインテント呼び出しのための最初のトレーニングおよびテストデータセットであるDroidCallを紹介します。
非常にフレキシブルで再利用可能なデータ生成パイプラインを使って、DroidCallで10kのサンプルを構築しました。
自然言語のタスク命令が与えられた場合、Qwen2.5-3BやGemma2-2BのようなDroidCallで微調整された小さな言語モデルは、正確なAndroidインテント呼び出しのためにGPT-4oの能力に近づいたり、超えたりできる。
また、これらの微調整されたモデルを備えたエンドツーエンドのAndroidアプリを提供し、Androidのインテント呼び出しプロセスを実証しています。
コードとデータセットはhttps://github.com/UbiquitousLearning/DroidCallで公開されている。
関連論文リスト
- PhoneLM:an Efficient and Capable Small Language Model Family through Principled Pre-training [6.827011856777674]
デバイス上でのデプロイメントのための既存の小さな言語モデル(SLM)は、デバイスハードウェアの特性を考慮していない。
本研究は, SLM設計において, 事前学習前の(ほぼ)最適実行効率のアーキテクチャ探索という, シンプルかつ効果的な原理を提示する。
我々はPhoneLMファミリ(現在0.5Bと1.5Bバージョン)を開発し、同様のパラメータサイズを持つ人の間で、最先端の能力効率トレードオフを実現する。
論文 参考訳(メタデータ) (2024-11-07T02:19:00Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets [99.8988504388011]
APIGenは、関数呼び出しアプリケーションのための検証可能な高品質データセットを合成するために設計された、自動データ生成パイプラインである。
APIGenを活用して、21のカテゴリにわたる3,673の実行可能なAPIを収集し、多様な関数呼び出しデータセットを生成します。
機能呼び出しエージェントドメインの分野を推し進めるため、6万の高品質なエントリを含むデータセットをリリースする。
論文 参考訳(メタデータ) (2024-06-26T17:49:11Z) - AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。
主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。
我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文 参考訳(メタデータ) (2023-08-29T13:02:30Z) - Android in the Wild: A Large-Scale Dataset for Android Device Control [4.973591165982018]
デバイス制御研究のためのデータセット、Android in the Wild (AITW) を提示する。
データセットには、画面やアクションを含むデバイスインタラクションの人間によるデモと、対応する自然言語命令が含まれている。
30kのユニークな命令、Androidの4つのバージョン(v10-13)、そして8つのデバイスタイプ(Pixel 2 XLからPixel 6)にまたがる715kのエピソードで構成されている。
論文 参考訳(メタデータ) (2023-07-19T15:57:24Z) - DroidBot-GPT: GPT-powered UI Automation for Android [11.980924738484994]
DroidBot-GPTは、GPTに似た大規模言語モデル(LLM)を使用して、Androidモバイルアプリケーションとのインタラクションを自動化するツールである。
DroidBot-GPTは、所望のタスクを自然言語で記述するので、タスクを完了させるためにアプリをナビゲートするアクションを自動的に生成して実行することができる。
論文 参考訳(メタデータ) (2023-04-14T11:31:56Z) - Z-BERT-A: a zero-shot Pipeline for Unknown Intent detection [3.3135037978828263]
トランスフォーマーアーキテクチャに基づく多言語意図探索のための2段階手法であるZero-Shot-BERT-Adaptersを提案する。
自然言語推論モデル(NLI)を訓練し、その後、複数の言語に対してゼロショット設定で未知の意図分類を行う。
Zero-Shot-BERT-Adaptersは、2つのゼロショット設定において、既知のインテント分類と目に見えないインテント発見において、さまざまなベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-15T09:27:34Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。