論文の概要: AS400-DET: Detection using Deep Learning Model for IBM i (AS/400)
- arxiv url: http://arxiv.org/abs/2506.13032v1
- Date: Mon, 16 Jun 2025 01:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.307872
- Title: AS400-DET: Detection using Deep Learning Model for IBM i (AS/400)
- Title(参考訳): AS400-DET:IBM i(AS/400)のディープラーニングモデルによる検出
- Authors: Thanh Tran, Son T. Luu, Quan Bui, Shoshin Nomura,
- Abstract要約: 1,050のシステム画面画像からなる人手による注釈付きデータセットを提案する。
各イメージには、テキストラベル、テキストボックス、オプション、テーブル、命令、キーボード、コマンドラインを含む複数のコンポーネントが含まれている。
我々は最先端のディープラーニングモデルに基づく検出システムを開発し、異なるアプローチを評価する。
- 参考スコア(独自算出の注目度): 0.7295860773406607
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes a method for automatic GUI component detection for the IBM i system (formerly and still more commonly known as AS/400). We introduce a human-annotated dataset consisting of 1,050 system screen images, in which 381 images are screenshots of IBM i system screens in Japanese. Each image contains multiple components, including text labels, text boxes, options, tables, instructions, keyboards, and command lines. We then develop a detection system based on state-of-the-art deep learning models and evaluate different approaches using our dataset. The experimental results demonstrate the effectiveness of our dataset in constructing a system for component detection from GUI screens. By automatically detecting GUI components from the screen, AS400-DET has the potential to perform automated testing on systems that operate via GUI screens.
- Abstract(参考訳): 本稿では,IBM i システム (AS/400) の自動 GUI コンポーネント検出手法を提案する。
そこで本研究では,IBM i システム画面のスクリーンショットが381枚である 1,050 のシステム画面画像からなる人称注釈データセットについて紹介する。
各イメージには、テキストラベル、テキストボックス、オプション、テーブル、命令、キーボード、コマンドラインを含む複数のコンポーネントが含まれている。
次に、最先端のディープラーニングモデルに基づく検出システムを開発し、データセットを用いて異なるアプローチを評価する。
実験の結果,GUI画面からのコンポーネント検出システム構築におけるデータセットの有効性が示された。
画面からGUIコンポーネントを自動的に検出することにより、AS400-DETはGUIスクリーンを介して動作するシステム上で自動テストを実行することができる。
関連論文リスト
- Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [59.83524388782554]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。
多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。
我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文 参考訳(メタデータ) (2025-05-19T15:09:23Z) - TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials [70.06743063375121]
リッチなマルチモーダルWebチュートリアルから学習し,汎用GUIエージェントを構築するTongUIフレームワークを提案する。
我々は、5つのオペレーティングシステムと200以上のアプリケーションにまたがる143Kトラジェクトリデータを含むGUI-Netデータセットを作成する。
我々はGUI-Net上でQwen2.5-VL-3B/7Bモデルを微調整してTongUIエージェントを開発する。
論文 参考訳(メタデータ) (2025-04-17T06:15:56Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。
また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。
UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-15T22:17:30Z) - OmniParser for Pure Vision Based GUI Agent [37.911094082816504]
複数のオペレーティングシステムの汎用エージェントとしてGPT-4Vのようなパワーマルチモーダルモデルは、堅牢なスクリーン解析技術が欠如しているため、大部分は過小評価されている。
textsc OmniはScreenSpotベンチマークでGPT-4Vのパフォーマンスを大幅に改善した。
textsc Omni スクリーンショットは GPT-4V ベースラインを上回り、スクリーンショット以外の追加情報を必要とする。
論文 参考訳(メタデータ) (2024-08-01T00:00:43Z) - VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - GUing: A Mobile GUI Search Engine using a Vision-Language Model [6.024602799136753]
本稿ではGUIClipと呼ばれる視覚言語モデルに基づくGUI検索エンジンGUingを提案する。
われわれは最初にGoogle Playアプリの紹介画像から収集し、最も代表的なスクリーンショットを表示する。
そこで我々は,これらの画像からキャプションを分類し,収穫し,抽出する自動パイプラインを開発した。
私たちはこのデータセットを使って新しい視覚言語モデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-04-30T18:42:18Z) - Object Detection for Graphical User Interface: Old Fashioned or Deep
Learning or a Combination? [21.91118062303175]
我々は,50k以上のGUI画像上で7つの代表的GUI要素検出手法について,大規模な実証的研究を行った。
本研究は、解決すべき技術的課題に光を当て、新しいGUI要素検出手法の設計について報告する。
25,000個のGUI画像に対する評価は,GUI要素検出における最先端性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-08-12T06:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。