論文の概要: Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA
- arxiv url: http://arxiv.org/abs/2504.10419v2
- Date: Tue, 15 Apr 2025 11:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:39.051810
- Title: Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA
- Title(参考訳): 未確認と見落とし:チェックボックスQAを用いた大規模言語モデルにおけるチェックボックスブラインドスポットの対応
- Authors: Michał Turski, Mateusz Chiliński, Łukasz Borchmann,
- Abstract要約: CheckboxQAは、チェックボックス関連タスクのモデルパフォーマンスの評価と改善を目的としたデータセットである。
現行のモデルの限界を明らかにし、文書理解システムを前進させる貴重なツールとして機能する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Checkboxes are critical in real-world document processing where the presence or absence of ticks directly informs data extraction and decision-making processes. Yet, despite the strong performance of Large Vision and Language Models across a wide range of tasks, they struggle with interpreting checkable content. This challenge becomes particularly pressing in industries where a single overlooked checkbox may lead to costly regulatory or contractual oversights. To address this gap, we introduce the CheckboxQA dataset, a targeted resource designed to evaluate and improve model performance on checkbox-related tasks. It reveals the limitations of current models and serves as a valuable tool for advancing document comprehension systems, with significant implications for applications in sectors such as legal tech and finance. The dataset is publicly available at: https://github.com/Snowflake-Labs/CheckboxQA
- Abstract(参考訳): チェックボックスは現実世界のドキュメント処理において重要であり、チェックボックスの存在や欠如は、データ抽出と意思決定プロセスを直接通知する。
しかし、幅広いタスクにわたるLarge VisionとLanguage Modelsの強いパフォーマンスにもかかわらず、彼らはチェック可能なコンテンツの解釈に苦労しています。
この課題は、見落とされがちなチェックボックスがコストのかかる規制や契約上の監視につながる可能性のある業界で特に重要になる。
このギャップに対処するために、チェックボックス関連タスクにおけるモデルパフォーマンスの評価と改善を目的としたターゲットリソースであるCheckboxQAデータセットを導入する。
現行のモデルの限界を明らかにし、法的技術や金融といった分野における応用に重要な意味を持つ、文書理解システムを進めるための貴重なツールとして機能する。
データセットは、https://github.com/Snowflake-Labs/CheckboxQAで公開されている。
関連論文リスト
- Granite Vision: a lightweight, open-source multimodal model for enterprise Intelligence [88.74800617923083]
視覚機能を備えた軽量な大規模言語モデルであるGranite Visionを紹介した。
我々のモデルは、包括的な命令追従データセットに基づいて訓練されている。
Granite Visionは、ビジュアル文書理解に関連する標準ベンチマークで強力な結果を得る。
論文 参考訳(メタデータ) (2025-02-14T05:36:32Z) - Logits are All We Need to Adapt Closed Models [15.227768874282834]
多くの商用の大規模言語モデル(LLM)は、しばしばクローズドソースであり、開発者は特定のアプリケーションとコンテンツ生成の調整を迅速に行うことができる。
このようなアクセスが利用可能であれば、迅速なエンジニアリングを超えて、より強力な適応技術を可能にするだろう、と私たちは主張する。
ブラックボックスのLCMをアプリケーション固有のコンテンツ生成に向け,トークンレベルの確率再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T22:24:22Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - CableInspect-AD: An Expert-Annotated Anomaly Detection Dataset [14.246172794156987]
$textitCableInspect-AD$は、カナダの公共ユーティリティであるHydro-Qu'ebecのドメインエキスパートによって作成、注釈付けされた高品質なデータセットである。
このデータセットには、現実世界の異常に挑戦する高解像度の画像が含まれており、さまざまな重度レベルの欠陥をカバーしている。
モデルの性能を評価するために,クロスバリデーションに基づく包括的評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-09-30T14:50:13Z) - OpenFactCheck: Building, Benchmarking Customized Fact-Checking Systems and Evaluating the Factuality of Claims and LLMs [27.89053798151106]
OpenFactCheckは、カスタマイズされたファクトチェックシステムを構築するためのフレームワークである。
ユーザーは自動的にファクトチェッカーをカスタマイズし、文書やクレームの事実的正当性を検証できる。
CheckerEVALは、人間の注釈付きデータセットを使用して、自動ファクトチェッカーの検証結果の信頼性を高めるソリューションである。
論文 参考訳(メタデータ) (2024-05-09T07:15:19Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - On the Limits of Evaluating Embodied Agent Model Generalization Using
Validation Sets [101.28658250723804]
本稿では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールによるトランスフォーマーモデルの拡張実験を行う。
提案したモジュールは改良され,実際に,一般的なベンチマークデータセットであるALFREDの未確認検証セット上での最先端のパフォーマンスが向上した。
この結果は、機械学習タスクではより広い現象かもしれないが、主にテストスプリットの評価を制限するベンチマークでのみ顕著である、と我々は考えているので強調する。
論文 参考訳(メタデータ) (2022-05-18T23:52:21Z) - Towards Real-World Prohibited Item Detection: A Large-Scale X-ray
Benchmark [53.9819155669618]
本稿では,PIDrayと命名された大規模データセットについて述べる。
大量の努力を払って、私たちのデータセットには、高品質な注釈付きセグメンテーションマスクとバウンディングボックスを備えた47,677ドルのX線画像に、禁止アイテムの12ドルカテゴリが含まれています。
提案手法は最先端の手法に対して,特に故意に隠された項目を検出するために好適に機能する。
論文 参考訳(メタデータ) (2021-08-16T11:14:16Z) - Unsupervised Domain Adaption of Object Detectors: A Survey [87.08473838767235]
近年のディープラーニングの進歩は、様々なコンピュータビジョンアプリケーションのための正確で効率的なモデルの開発につながっている。
高度に正確なモデルを学ぶには、大量の注釈付きイメージを持つデータセットの可用性に依存する。
このため、ラベルスカースデータセットに視覚的に異なる画像がある場合、モデルの性能は大幅に低下する。
論文 参考訳(メタデータ) (2021-05-27T23:34:06Z) - Too Many Claims to Fact-Check: Prioritizing Political Claims Based on
Check-Worthiness [1.2891210250935146]
本報告では, チェックの信頼性に基づいて, クレームの優先順位付けを行うモデルを提案する。
BERTモデルにはドメイン固有の議論の的となっているトピックや単語の埋め込みなどが追加されています。
論文 参考訳(メタデータ) (2020-04-17T10:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。