論文の概要: FormGym: Doing Paperwork with Agents
- arxiv url: http://arxiv.org/abs/2506.14079v1
- Date: Tue, 17 Jun 2025 00:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.276645
- Title: FormGym: Doing Paperwork with Agents
- Title(参考訳): FormGym: エージェントによる書類作成
- Authors: Matthew Toles, Rattandeep Singh, Isaac Song Zhou Yu,
- Abstract要約: 55の文書と3つのタスクにまたがる432のフィールドからなる新しいフォームフィリングベンチマークを提案する。
基準VLAは、ほとんどの場合、主にローカライゼーション能力の低いため、1%未満の精度で達成できることがわかった。
また、フォームにテキストを配置する場所を特定する上で、LLMを支援するツールであるFieldFinderにもコントリビュートしています。
- 参考スコア(独自算出の注目度): 3.6293956720749425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Completing paperwork is a challenging and time-consuming problem. Form filling is especially challenging in the pure-image domain without access to OCR, typeset PDF text, or a DOM. For computer agents, it requires multiple abilities, including multi-modal understanding, information retrieval, and tool-use. We present a novel form-filling benchmark consisting of 432 fields spread across 55 documents and 3 tasks, requiring knowledge of 236 features per user. We find that baseline VLAs achieve less than 1% accuracy in most cases, primarily due to poor localization ability. GUI agents also struggle, scoring between 10.6-68.0% despite high cost and latency. Therefore, we also contribute FieldFinder, a tool to assist LLMs in identifying where to place text on a form. With FieldFinder, all models achieve equal or better performance in all six study conditions, with a maximum increase from 2% to 56%.
- Abstract(参考訳): 書類の完成は困難で時間を要する問題です。
フォームフィリングは、OCR、PDFテキストのタイプセット、DOMにアクセスせずに純粋イメージドメインで特に難しい。
コンピュータエージェントには、マルチモーダル理解、情報検索、ツール使用など、複数の能力が必要である。
55の文書と3つのタスクにまたがる432のフィールドからなる新しいフォームフィルベンチマークを提案する。
基準VLAは、ほとんどの場合、主にローカライゼーション能力の低いため、1%未満の精度で達成できることがわかった。
GUIエージェントも苦労し、高いコストとレイテンシにもかかわらず10.6-68.0%のスコアを得た。
ですから、フォームにテキストを配置する場所を特定する上で、LLMを支援するツールであるFieldFinderにもコントリビュートしています。
FieldFinderでは、すべてのモデルが6つの研究条件すべてで同等またはより良いパフォーマンスを達成し、最大で2%から56%に向上する。
関連論文リスト
- FormFactory: An Interactive Benchmarking Suite for Multimodal Form-Filling Agents [36.11725924594441]
現在のオンラインフォームフィリングツールは概ねルールベースであり、汎用的で生成性に欠ける。
本稿では,Webベースのインターフェース,バックエンド評価モジュール,データセットで構成される対話型ベンチマークスイートであるFormFactoryを提案する。
本ベンチマークでは,多種多様な実世界のシナリオを網羅し,多種多様なフィールドフォーマットを取り入れ,高忠実度なフォームインタラクションをシミュレートする。
論文 参考訳(メタデータ) (2025-06-02T10:34:57Z) - A RAG-Based Institutional Assistant [0.1499944454332829]
我々は,サンパウロ大学に特化されたRAGベースの仮想アシスタントの設計と評価を行った。
最適レトリバーモデルではトップ5の精度が30%,最も有効な生成モデルでは22.04%,真理回答では22.04%のスコアが得られた。
論文 参考訳(メタデータ) (2025-01-23T17:54:19Z) - DocVLM: Make Your VLM an Efficient Reader [16.11678886224833]
我々は、OCRに基づくモダリティを視覚言語モデル(VLM)に統合するDocVLMを紹介する。
提案手法では,OCRエンコーダを用いてテキストの内容とレイアウトをキャプチャし,それらをVLMに組み込まれた学習クエリのコンパクトなセットに圧縮する。
制限付き(448$times$448)では、64の学習クエリを持つDocVLMが、InternVL2に統合された場合のDocVQAの結果を56.4%から86.6%に改善し、Qwen2-VLでは84.4%から91.2%に改善した。
論文 参考訳(メタデータ) (2024-12-11T19:35:06Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models [58.08177466768262]
大規模言語モデル(LLM)では、複雑なロングコンテクストのタスクに対処するためには、ロングコンテクストの能力が不可欠である。
グラフをグラフに構造化し、エージェントを使ってグラフを自律的に探索することで、長いテキストを扱うように設計されたグラフベースのエージェントシステムであるGraphReaderを紹介する。
LV-Evalデータセットの実験結果によると、GraphReaderは4kコンテキストウィンドウを使用して、16kから256kまでのコンテキスト長で一貫してGPT-4-128kを上回っている。
論文 参考訳(メタデータ) (2024-06-20T17:57:51Z) - TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。
テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-03-07T13:16:24Z) - NLP-IIS@UT at SemEval-2021 Task 4: Machine Reading Comprehension using
the Long Document Transformer [8.645929825516816]
本稿では,SemEval-2021の4番目の課題である"Reading of Abstract Meaning"に関する技術的報告を紹介する。
このタスクでは、コンテキストが与えられた質問に基づいて正しい答えを予測します。
この問題に対処するために、Longformerモデルを使い、シーケンスをよりよく処理しました。
論文 参考訳(メタデータ) (2021-05-08T20:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。