Fugu-MT 論文翻訳(概要): AS400-DET: Detection using Deep Learning Model for IBM i (AS/400)

論文の概要: AS400-DET: Detection using Deep Learning Model for IBM i (AS/400)

arxiv url: http://arxiv.org/abs/2506.13032v1
Date: Mon, 16 Jun 2025 01:53:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:47.307872
Title: AS400-DET: Detection using Deep Learning Model for IBM i (AS/400)
Title（参考訳）: AS400-DET:IBM i(AS/400)のディープラーニングモデルによる検出
Authors: Thanh Tran, Son T. Luu, Quan Bui, Shoshin Nomura,
Abstract要約: 1,050のシステム画面画像からなる人手による注釈付きデータセットを提案する。各イメージには、テキストラベル、テキストボックス、オプション、テーブル、命令、キーボード、コマンドラインを含む複数のコンポーネントが含まれている。我々は最先端のディープラーニングモデルに基づく検出システムを開発し、異なるアプローチを評価する。
参考スコア（独自算出の注目度）: 0.7295860773406607
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper proposes a method for automatic GUI component detection for the IBM i system (formerly and still more commonly known as AS/400). We introduce a human-annotated dataset consisting of 1,050 system screen images, in which 381 images are screenshots of IBM i system screens in Japanese. Each image contains multiple components, including text labels, text boxes, options, tables, instructions, keyboards, and command lines. We then develop a detection system based on state-of-the-art deep learning models and evaluate different approaches using our dataset. The experimental results demonstrate the effectiveness of our dataset in constructing a system for component detection from GUI screens. By automatically detecting GUI components from the screen, AS400-DET has the potential to perform automated testing on systems that operate via GUI screens.
Abstract（参考訳）: 本稿では,IBM i システム (AS/400) の自動 GUI コンポーネント検出手法を提案する。そこで本研究では,IBM i システム画面のスクリーンショットが381枚である 1,050 のシステム画面画像からなる人称注釈データセットについて紹介する。各イメージには、テキストラベル、テキストボックス、オプション、テーブル、命令、キーボード、コマンドラインを含む複数のコンポーネントが含まれている。次に、最先端のディープラーニングモデルに基づく検出システムを開発し、データセットを用いて異なるアプローチを評価する。実験の結果,GUI画面からのコンポーネント検出システム構築におけるデータセットの有効性が示された。画面からGUIコンポーネントを自動的に検出することにより、AS400-DETはGUIスクリーンを介して動作するシステム上で自動テストを実行することができる。

関連論文リスト

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [59.83524388782554]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文参考訳（メタデータ） (2025-05-19T15:09:23Z)
TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials [70.06743063375121]
リッチなマルチモーダルWebチュートリアルから学習し,汎用GUIエージェントを構築するTongUIフレームワークを提案する。我々は、5つのオペレーティングシステムと200以上のアプリケーションにまたがる143Kトラジェクトリデータを含むGUI-Netデータセットを作成する。我々はGUI-Net上でQwen2.5-VL-3B/7Bモデルを微調整してTongUIエージェントを開発する。
論文参考訳（メタデータ） (2025-04-17T06:15:56Z)
UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文参考訳（メタデータ） (2025-01-21T17:48:10Z)
Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。 UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-15T22:17:30Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
OmniParser for Pure Vision Based GUI Agent [37.911094082816504]
複数のオペレーティングシステムの汎用エージェントとしてGPT-4Vのようなパワーマルチモーダルモデルは、堅牢なスクリーン解析技術が欠如しているため、大部分は過小評価されている。 textsc OmniはScreenSpotベンチマークでGPT-4Vのパフォーマンスを大幅に改善した。 textsc Omni スクリーンショットは GPT-4V ベースラインを上回り、スクリーンショット以外の追加情報を必要とする。
論文参考訳（メタデータ） (2024-08-01T00:00:43Z)
GUI Action Narrator: Where and When Did That Action Take Place? [19.344324166716245]
我々は,4,189種類の動画キャプションサンプルからなるGUIアクションの動画キャプションベンチマークを開発した。本課題は,自然映像のキャプションに比較して,独特な課題を呈する。 GUI アクションデータセット textbfAct2Cap と GUI ビデオキャプションのためのシンプルなフレームワーク textbfGUI Narrator を紹介する。
論文参考訳（メタデータ） (2024-06-19T17:22:11Z)
VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文参考訳（メタデータ） (2024-06-14T17:59:08Z)
Visual Grounding Methods for Efficient Interaction with Desktop Graphical User Interfaces [1.3107174618549584]
Instruction Visual Grounding (IVG) はグラフィカルユーザインタフェース (GUI) におけるオブジェクト識別のためのマルチモーダルアプローチである本稿では、オブジェクト検出モデルであるLarge Language Model(LLM)とOCRモジュールを組み合わせたIVGocrと、エンド・ツー・エンドのグラウンド化にマルチモーダルアーキテクチャを用いたIVGdirectを提案する。私たちの最終テストデータセットは、将来の研究をサポートするために公開されています。
論文参考訳（メタデータ） (2024-05-05T19:10:19Z)
GUing: A Mobile GUI Search Engine using a Vision-Language Model [6.024602799136753]
本稿ではGUIClipと呼ばれる視覚言語モデルに基づくGUI検索エンジンGUingを提案する。われわれは最初にGoogle Playアプリの紹介画像から収集し、最も代表的なスクリーンショットを表示する。そこで我々は,これらの画像からキャプションを分類し,収穫し,抽出する自動パイプラインを開発した。私たちはこのデータセットを使って新しい視覚言語モデルをトレーニングしました。
論文参考訳（メタデータ） (2024-04-30T18:42:18Z)
ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文参考訳（メタデータ） (2023-10-07T16:32:34Z)
Object Detection for Graphical User Interface: Old Fashioned or Deep Learning or a Combination? [21.91118062303175]
我々は,50k以上のGUI画像上で7つの代表的GUI要素検出手法について,大規模な実証的研究を行った。本研究は、解決すべき技術的課題に光を当て、新しいGUI要素検出手法の設計について報告する。 25,000個のGUI画像に対する評価は,GUI要素検出における最先端性能を著しく向上させることを示す。
論文参考訳（メタデータ） (2020-08-12T06:36:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。