Fugu-MT 論文翻訳(概要): Revisiting Table Detection Datasets for Visually Rich Documents

論文の概要: Revisiting Table Detection Datasets for Visually Rich Documents

arxiv url: http://arxiv.org/abs/2305.04833v2
Date: Wed, 8 Nov 2023 16:53:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 20:01:59.590134
Title: Revisiting Table Detection Datasets for Visually Rich Documents
Title（参考訳）: ビジュアルリッチドキュメントのためのテーブル検出データセットの再検討
Authors: Bin Xiao, Murat Simsek, Burak Kantarci, Ala Abu Alkheir
Abstract要約: この研究では、高品質なアノテーションでいくつかのオープンデータセットを再検討し、ノイズを特定し、クリーン化し、これらのデータセットのアノテーション定義を、Open-Tablesと呼ばれるより大きなデータセットとマージするように調整する。情報通信技術(ICT)コモディティのPDFファイルを用いた新しいICT-TDデータセットを提案する。実験の結果,データソースが異なるにも関わらず,既存のオープンデータセット間の領域差は小さいことがわかった。
参考スコア（独自算出の注目度）: 17.846536373106268
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Table Detection has become a fundamental task for visually rich document understanding with the surging number of electronic documents. However, popular public datasets widely used in related studies have inherent limitations, including noisy and inconsistent samples, limited training samples, and limited data sources. These limitations make these datasets unreliable to evaluate the model performance and cannot reflect the actual capacity of models. Therefore, this study revisits some open datasets with high-quality annotations, identifies and cleans the noise, and aligns the annotation definitions of these datasets to merge a larger dataset, termed Open-Tables. Moreover, to enrich the data sources, we propose a new ICT-TD dataset using the PDF files of Information and Communication Technologies (ICT) commodities, a different domain containing unique samples that hardly appear in open datasets. To ensure the label quality of the dataset, we annotated the dataset manually following the guidance of a domain expert. The proposed dataset is challenging and can be a sample of actual cases in the business context. We built strong baselines using various state-of-the-art object detection models. Our experimental results show that the domain differences among existing open datasets are minor despite having different data sources. Our proposed Open-Tables and ICT-TD can provide a more reliable evaluation for models because of their high quality and consistent annotations. Besides, they are more suitable for cross-domain settings. Our experimental results show that in the cross-domain setting, benchmark models trained with cleaned Open-Tables dataset can achieve 0.6\%-2.6\% higher weighted average F1 than the corresponding ones trained with the noisy version of Open-Tables, demonstrating the reliability of the proposed datasets. The datasets are public available.
Abstract（参考訳）: テーブル検出は,電子文書の増加に伴い,視覚的にリッチな文書理解の基本的な課題となっている。しかし、関連する研究で広く使われている一般的な公開データセットには、ノイズや一貫性のないサンプル、限られたトレーニングサンプル、限られたデータソースなど、固有の制限がある。これらの制限により、これらのデータセットはモデル性能の評価に信頼性がなく、実際のモデルのキャパシティを反映できない。そこで本研究では,いくつかのオープンデータセットを高品質なアノテーションで再検討し,ノイズを特定し,クリーン化するとともに,これらのデータセットのアノテーション定義を調整して,オープンテーブルと呼ばれるより大きなデータセットをマージする。さらに、データソースを充実させるために、オープンデータセットにはほとんど現れないユニークなサンプルを含む異なるドメインである、情報通信技術(ict)コモディティのpdfファイルを用いた新しいict-tdデータセットを提案する。データセットのラベル品質を保証するため、ドメインエキスパートのガイダンスに従ってデータセットを手動で注釈付けしました。提案されたデータセットは困難であり、ビジネスコンテキストにおける実際のケースのサンプルとなり得る。我々は様々な最先端オブジェクト検出モデルを用いて強力なベースラインを構築した。実験の結果,データソースが異なるにも関わらず,既存のオープンデータセット間の領域差は小さいことがわかった。提案する Open-Tables と ICT-TD は,高品質で一貫したアノテーションにより,より信頼性の高いモデル評価を行うことができる。さらに、クロスドメイン設定にも適しています。実験の結果,クリーン化されたOpen-Tablesデータセットでトレーニングしたベンチマークモデルでは,ノイズの多いOpen-Tablesでトレーニングしたベンチマークモデルよりも0.6\%-2.6\%高い重み付き平均F1が得られることがわかった。データセットは公開されています。

関連論文リスト

Detection of Personal Data in Structured Datasets Using a Large Language Model [0.0]
本稿では,GPT-4oを利用した構造化データセットの個人データ検出手法を提案する。私たちは、Microsoft PresidioやCASSEDといった代替手法と比較して、それらを複数のデータセットで評価します。
論文参考訳（メタデータ） (2025-06-27T15:16:43Z)
Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文参考訳（メタデータ） (2025-02-14T16:16:02Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts [0.0]
本稿では,学校レポートの文脈における完全ラベル付きデータセットであるMERITデータセットを紹介する。その性質上、MERITデータセットは、制御された方法でバイアスを含む可能性があるため、言語モデル(LLM)で誘導されるバイアスをベンチマークするための貴重なツールである。データセットの有用性を示すため,トークン分類モデルを用いたベンチマークを行い,SOTAモデルにおいてもデータセットが重要な課題となることを示す。
論文参考訳（メタデータ） (2024-08-31T12:56:38Z)
A Language Model-Guided Framework for Mining Time Series with Distributional Shifts [5.082311792764403]
本稿では,大規模言語モデルとデータソースインタフェースを用いて時系列データセットを探索・収集する手法を提案する。収集したデータは外部ソースから得られるが、一次時系列データセットと重要な統計特性を共有できる。収集されたデータセットは、既存のデータセット、特にデータ分散の変化を効果的に補うことができることを示唆している。
論文参考訳（メタデータ） (2024-06-07T20:21:07Z)
RanLayNet: A Dataset for Document Layout Detection used for Domain Adaptation and Generalization [36.973388673687815]
RanLayNetは、自動的に割り当てられたラベルでリッチ化された合成ドキュメントデータセットである。本研究では,データセットでトレーニングしたディープレイアウト識別モデルに対して,実際の文書のみをトレーニングしたモデルと比較して,性能が向上したことを示す。
論文参考訳（メタデータ） (2024-04-15T07:50:15Z)
UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文参考訳（メタデータ） (2024-03-22T10:36:50Z)
On the Evaluation and Refinement of Vision-Language Instruction Tuning Datasets [71.54954966652286]
VLIT(Vision-Language Instruction-Tuning)データセットの評価を試みる。各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LIONを構築した。注目すべきは、完全なデータの半分でなくても、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができることだ。
論文参考訳（メタデータ） (2023-10-10T13:01:38Z)
dacl1k: Real-World Bridge Damage Dataset Putting Open-Source Data to the Test [0.6827423171182154]
dacl1kは1,474枚の画像を含む建築検査に基づく多ラベル分類のための多ラベルRCDデータセットである。我々は、オープンソースデータ(メタデータセット)の異なる組み合わせに基づいてモデルを訓練し、その後、外在的にも内在的にも評価された。 dacl1kの性能分析は、メタデータの実用性を示し、最良のモデルでは、Exact Match比が32%である。
論文参考訳（メタデータ） (2023-09-07T15:05:35Z)
infoVerse: A Universal Framework for Dataset Characterization with Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。 infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-05-30T18:12:48Z)
Modeling Entities as Semantic Points for Visual Information Extraction in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文参考訳（メタデータ） (2023-03-23T08:21:16Z)
Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文参考訳（メタデータ） (2022-06-07T17:59:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。