論文の概要: FormFactory: An Interactive Benchmarking Suite for Multimodal Form-Filling Agents
- arxiv url: http://arxiv.org/abs/2506.01520v1
- Date: Mon, 02 Jun 2025 10:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.741812
- Title: FormFactory: An Interactive Benchmarking Suite for Multimodal Form-Filling Agents
- Title(参考訳): FormFactory: マルチモーダルなフォームフィリングエージェントのためのインタラクティブベンチマークスイート
- Authors: Bobo Li, Yuheng Wang, Hao Fei, Juncheng Li, Wei Ji, Mong-Li Lee, Wynne Hsu,
- Abstract要約: 現在のオンラインフォームフィリングツールは概ねルールベースであり、汎用的で生成性に欠ける。
本稿では,Webベースのインターフェース,バックエンド評価モジュール,データセットで構成される対話型ベンチマークスイートであるFormFactoryを提案する。
本ベンチマークでは,多種多様な実世界のシナリオを網羅し,多種多様なフィールドフォーマットを取り入れ,高忠実度なフォームインタラクションをシミュレートする。
- 参考スコア(独自算出の注目度): 36.11725924594441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online form filling is a common yet labor-intensive task involving extensive keyboard and mouse interactions. Despite the long-standing vision of automating this process with "one click", existing tools remain largely rule-based and lack generalizable, generative capabilities. Recent advances in Multimodal Large Language Models (MLLMs) have enabled promising agents for GUI-related tasks in general-purpose scenarios. However, they struggle with the unique challenges of form filling, such as flexible layouts and the difficulty of aligning textual instructions with on-screen fields. To bridge this gap, we formally define the form-filling task and propose FormFactory, an interactive benchmarking suite comprising a web-based interface, backend evaluation module, and carefully constructed dataset. Our benchmark covers diverse real-world scenarios, incorporates various field formats, and simulates high-fidelity form interactions. We conduct a comprehensive evaluation of state-of-the-art MLLMs and observe that no model surpasses 5% accuracy, underscoring the inherent difficulty of the task. These findings also reveal significant limitations in current models' visual layout reasoning and field-value alignment abilities. We hope our benchmark can serve as a stepping stone for further research into robust, practical form-filling agents.
- Abstract(参考訳): オンラインフォームフィリング(オンラインフォームフィリング)は、広範囲にわたるキーボードとマウスのインタラクションを含む、一般的だが労働集約的なタスクである。
でこのプロセスを自動化するという長年のビジョンにもかかわらず、既存のツールはルールベースであり、一般化可能で生成能力に欠けています。
MLLM(Multimodal Large Language Models)の最近の進歩により、汎用シナリオにおけるGUI関連のタスクに対して有望なエージェントが実現されている。
しかし、フレキシブルレイアウトやテキスト命令と画面上のフィールドとの整合の難しさなど、フォームフィリングの独特な課題に苦慮している。
このギャップを埋めるために、フォームフィルタスクを正式に定義し、Webベースのインターフェース、バックエンド評価モジュール、慎重に構築されたデータセットからなる対話型ベンチマークスイートであるFormFactoryを提案する。
本ベンチマークでは,多種多様な実世界のシナリオを網羅し,多種多様なフィールドフォーマットを取り入れ,高忠実度なフォームインタラクションをシミュレートする。
我々は、最先端MLLMの総合的な評価を行い、モデルの精度が5%を超えないことを観察し、その課題の本質的な難しさを裏付ける。
これらの結果は、現在のモデルの視覚的レイアウト推論とフィールド値アライメント能力に重大な制限があることも示している。
われわれのベンチマークが、堅牢で実用的なフォームフィル剤の研究の足掛かりになることを期待している。
関連論文リスト
- UniMoCo: Unified Modality Completion for Robust Multi-Modal Embeddings [9.344107676552408]
マルチモーダル埋め込みタスク用に設計された視覚言語モデルアーキテクチャUniMoCoを提案する。
我々は,オリジナル入力とモダリティ完了入力の両方から埋め込みを整列させる特別なトレーニング戦略を開発する。
実験によると、UniMoCoは様々な設定で一貫性のあるロバスト性を示しながら、従来の手法よりも優れている。
論文 参考訳(メタデータ) (2025-05-17T03:53:11Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - MVIP -- A Dataset and Methods for Application Oriented Multi-View and Multi-Modal Industrial Part Recognition [0.27309692684728604]
MVIPはマルチモーダルおよびマルチビューアプリケーション指向の産業部品認識のための新しいデータセットである。
MVIPの主な目的は、下流タスクにおける様々な最先端メソッドの転送可能性の研究とプッシュである。
論文 参考訳(メタデータ) (2025-02-21T13:22:29Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy [2.294223504228228]
人工知能の急速に発展する分野であるマルチモーダル学習は、より汎用的で堅牢なシステムの構築を目指している。
多くの感覚を通じて情報を同化する人間の能力に触発され、テキストからビデオへの変換、視覚的質問応答、画像キャプションなどの応用が可能となる。
マルチモーダル言語モデル(MLLM)をサポートするデータセットの最近の発展について概説する。
論文 参考訳(メタデータ) (2024-12-23T18:15:19Z) - GUI Agents with Foundation Models: A Comprehensive Survey [91.97447457550703]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。
重要な課題を特定し,今後の研究方向性を提案する。
この調査が(M)LLMベースのGUIエージェントの分野におけるさらなる進歩を促すことを願っている。
論文 参考訳(メタデータ) (2024-11-07T17:28:10Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Semantic Constraint Inference for Web Form Test Generation [6.0759036120654315]
我々は、Webフォームの自動テスト生成のためのFormNexusと呼ばれる革新的なアプローチを導入する。
FormNexusは、個々のフォーム要素とそれらの関係から意味的な洞察を導き出すことを強調している。
GPT-4と組み合わされたFormNexusは,フォームサブミッション状態において89%のカバレッジを実現していることを示す。
論文 参考訳(メタデータ) (2024-02-01T19:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。