論文の概要: The Command Line GUIde: Graphical Interfaces from Man Pages via AI
- arxiv url: http://arxiv.org/abs/2510.01453v1
- Date: Wed, 01 Oct 2025 20:46:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.866112
- Title: The Command Line GUIde: Graphical Interfaces from Man Pages via AI
- Title(参考訳): コマンドラインGUIde:AIによる人ページからのグラフィカルインターフェース
- Authors: Saketh Ram Kasibatla, Kiran Medleri Hiremath, Raven Rothkopf, Sorin Lerner, Haijun Xia, Brian Hempel,
- Abstract要約: ドキュメントをAI経由でインターフェース仕様に変換することで,コマンドラインツールのグラフィカルインターフェースを自動生成する機構を示す。
生成したインタフェースをコマンドのコーパス上で評価し,GUIdeが実際のコマンドラインタスクに対してどの程度のグラフィカルインターフェースを提供するかを示す。
- 参考スコア(独自算出の注目度): 14.962562424200714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although birthed in the era of teletypes, the command line shell survived the graphical interface revolution of the 1980's and lives on in modern desktop operating systems. The command line provides access to powerful functionality not otherwise exposed on the computer, but requires users to recall textual syntax and carefully scour documentation. In contrast, graphical interfaces let users organically discover and invoke possible actions through widgets and menus. To better expose the power of the command line, we demonstrate a mechanism for automatically creating graphical interfaces for command line tools by translating their documentation (in the form of man pages) into interface specifications via AI. Using these specifications, our user-facing system, called GUIde, presents the command options to the user graphically. We evaluate the generated interfaces on a corpus of commands to show to what degree GUIde offers thorough graphical interfaces for users' real-world command line tasks.
- Abstract(参考訳): テレタイプの時代に生まれたが、コマンドラインシェルは1980年代のグラフィカルインタフェース革命を生き残り、現代のデスクトップオペレーティングシステムで生きてきた。
コマンドラインは、コンピュータに他の方法では公開されていない強力な機能へのアクセスを提供するが、ユーザはテキストの構文を思い出し、慎重にドキュメントを検索する必要がある。
対照的に、グラフィカルなインターフェイスは、ユーザーがウィジェットやメニューを通じて可能なアクションを有機的に発見し、呼び出すことを可能にする。
コマンドラインのパワーをよりよく公開するために、コマンドラインツールのグラフィカルなインターフェースを、ドキュメント(マンページの形式で)をAI経由でインターフェース仕様に変換することによって、自動的に作成するメカニズムを実証する。
これらの仕様を用いて、GUIdeと呼ばれるユーザ対応システムは、ユーザに対してグラフィカルにコマンドオプションを提示する。
生成したインタフェースをコマンドのコーパス上で評価し,GUIdeが実際のコマンドラインタスクに対してどの程度のグラフィカルインターフェースを提供するかを示す。
関連論文リスト
- ScaleTrack: Scaling and back-tracking Automated GUI Agents [11.046190201201348]
自動GUIエージェントのグラウンドニングとバックトラック計画のスケーリングによるトレーニングフレームワークであるScaleTrackを提案する。
さまざまなソースから異なる合成基準のGUIサンプルを収集し,GUIグラウンドモデルをトレーニングするための同一テンプレートに統一する。
現在のGUIイメージから次のアクションを予測する新しいトレーニング戦略を設計し、GUIイメージに繋がった過去のアクションをバックトラックする。
論文 参考訳(メタデータ) (2025-05-01T09:27:13Z) - Navi-plus: Managing Ambiguous GUI Navigation Tasks with Follow-up Questions [19.83324476857815]
本稿では,GUIエージェント内に対話型情報補完機能を組み込んだ$textbfSelf-Correction GUI Navigationについて紹介する。
この結果から,GUIフォローアップ質問機能を備えたエージェントが,不明瞭なユーザタスクに直面した場合に,そのパフォーマンスを回復できることが示唆された。
論文 参考訳(メタデータ) (2025-03-31T14:56:24Z) - Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。
Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。
我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文 参考訳(メタデータ) (2024-12-12T15:29:36Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z) - From Pixels to UI Actions: Learning to Follow Instructions via Graphical
User Interfaces [66.85108822706489]
本稿では,人間がよく使う概念的インタフェースを用いて,デジタル世界と対話するエージェントを作成することに焦点を当てる。
このようなエージェントは、タスクに従うGUIベースの命令のMiniWob++ベンチマークで、人間のクラウドワーカーより優れています。
論文 参考訳(メタデータ) (2023-05-31T23:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。