Fugu-MT 論文翻訳(概要): E-ANT: A Large-Scale Dataset for Efficient Automatic GUI NavigaTion

論文の概要: E-ANT: A Large-Scale Dataset for Efficient Automatic GUI NavigaTion

arxiv url: http://arxiv.org/abs/2406.14250v2
Date: Fri, 21 Jun 2024 07:07:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-24 12:14:34.638308
Title: E-ANT: A Large-Scale Dataset for Efficient Automatic GUI NavigaTion
Title（参考訳）: E-ANT: 効率的なGUIナビゲートのための大規模データセット
Authors: Ke Wang, Tianyu Xia, Zhangxuan Gu, Yi Zhao, Shuheng Shen, Changhua Meng, Weiqiang Wang, Ke Xu,
Abstract要約: textbfE-ANTは中国初のGUIナビゲーションデータセットで、5000以上の小さなappsで4万の人間がトレースしている。各種MLLMをE-ANT上で評価し,実験結果を十分な精度で示す。
参考スコア（独自算出の注目度）: 34.85528852487379
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Online GUI navigation on mobile devices has driven a lot of attention recent years since it contributes to many real-world applications. With the rapid development of large language models (LLM), multimodal large language models (MLLM) have tremendous potential on this task. However, existing MLLMs need high quality data to improve its abilities of making the correct navigation decisions according to the human user inputs. In this paper, we developed a novel and highly valuable dataset, named \textbf{E-ANT}, as the first Chinese GUI navigation dataset that contains real human behaviour and high quality screenshots with annotations, containing nearly 40,000 real human traces over 5000+ different tinyAPPs. Furthermore, we evaluate various powerful MLLMs on E-ANT and show their experiments results with sufficient ablations. We believe that our proposed dataset will be beneficial for both the evaluation and development of GUI navigation and LLM/MLLM decision-making capabilities.
Abstract（参考訳）: モバイルデバイス上のオンラインGUIナビゲーションは、多くの現実世界のアプリケーションに貢献しているため、近年多くの注目を集めている。大規模言語モデル (LLM) の急速な発展に伴い,マルチモーダル・大規模言語モデル (MLLM) はこの課題に対して大きな可能性を秘めている。しかし、既存のMLLMでは、人間の入力に応じて正確なナビゲーション決定を行う能力を向上させるために、高品質なデータが必要である。そこで本研究では,5,000以上の小さなAPPから4万近い実人のトレースを含む,実際の人間の振る舞いと高品質なアノテーション付きスクリーンショットを含む,中国初のGUIナビゲーションデータセットとして,新鮮で高価値なデータセット「textbf{E-ANT}」を開発した。さらに,E-ANT上での各種強力なMLLMの評価を行い,それらの実験結果を十分な精度で示す。提案したデータセットはGUIナビゲーションとLLM/MLLM意思決定機能の評価と開発に有用であると考えている。

関連論文リスト

AUTO-Explorer: Automated Data Collection for GUI Agent [58.58097564914626]
本稿では,アノテーションコストを最小限に抑えた自動データ収集手法であるAuto-Explorerを提案する。それは、GUI環境を自律的に解析し探索する、シンプルだが効果的な探索メカニズムを組み込んでいる。収集したデータを用いて,マルチモーダル大規模言語モデル(MLLM)を微調整し,GUI要素基盤テストセットを確立する。
論文参考訳（メタデータ） (2025-11-09T15:13:45Z)
Test-Time Warmup for Multimodal Large Language Models [2.526814143603023]
本稿では,弱い教師付き補助タスクからのデータを活用することで,テストインスタンス毎のMLLMを適応させるテスト時間ワームアップ手法を提案する。 MMMUでは4.03%,VQA-Radでは5.28%,Llama-Vision-Instructモデルでは1.63%であった。
論文参考訳（メタデータ） (2025-09-12T18:58:42Z)
Follow-Your-Instruction: A Comprehensive MLLM Agent for World Data Synthesis [44.66179436245703]
Follow-Your-Instructionは、高品質な2D、3D、4Dデータを自動合成するフレームワークである。 3Dレイアウトを構築し、セマンティックリファインメントのためにビジョン・ランゲージ・モデル(VLM)を利用する。本研究では,2D,3D,4D生成タスクに関する総合的な実験を通じて,生成データの品質を評価する。
論文参考訳（メタデータ） (2025-08-07T17:12:54Z)
AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs [54.58905728115257]
本稿では,UI要素を自動的に注釈付けするためのメソッド名パイプラインを提案する。具体的には、大きな言語モデル(LLM)を利用して、特定のUI要素との対話の前後のUI内容の変化を比較して要素機能を推測する。提案したパイプラインを用いて,マルチレゾリューション,マルチデバイススクリーンショット,多様なデータドメイン,以前のデータセットで提供されていない詳細な機能アノテーションを特徴とするメソッドネーム704kデータセットを構築した。
論文参考訳（メタデータ） (2025-02-04T03:39:59Z)
DriVLM: Domain Adaptation of Vision-Language Models in Autonomous Driving [20.644133177870852]
マルチモーダル大言語モデル(MLLM)は、画像、ビデオ、音声、テキストなど、複数のモダリティを組み合わせることができる。ほとんどのMLLMは高い計算資源を必要としており、ほとんどの研究者や開発者にとって大きな課題である。本稿では,小型MLLMの実用性について検討し,小型MLLMを自律運転分野に適用した。
論文参考訳（メタデータ） (2025-01-09T09:02:41Z)
DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文参考訳（メタデータ） (2024-10-03T17:49:28Z)
Efficient Multimodal Learning from Data-centric Perspective [21.35857180519653]
効率的なマルチモーダル学習のためのフレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介する。実験の結果,Bunny-4B/8Bは複数のベンチマークで最先端の大規模MLLMよりも優れていた。
論文参考訳（メタデータ） (2024-02-18T10:09:10Z)
COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文参考訳（メタデータ） (2024-01-17T04:43:45Z)
Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文参考訳（メタデータ） (2024-01-02T01:54:22Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。本稿では,MLLM 評価ベンチマーク MME について述べる。知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文参考訳（メタデータ） (2023-06-23T09:22:36Z)
Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文参考訳（メタデータ） (2023-05-14T12:31:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。