論文の概要: A Study on Reproducibility and Replicability of Table Structure
Recognition Methods
- arxiv url: http://arxiv.org/abs/2304.10439v1
- Date: Thu, 20 Apr 2023 16:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 12:26:28.087524
- Title: A Study on Reproducibility and Replicability of Table Structure
Recognition Methods
- Title(参考訳): 表構造認識法の再現性と再現性に関する研究
- Authors: Kehinde Ajayi, Muntabhir Hasan Choudhury, Sarah Rajtmajer, and Jian Wu
- Abstract要約: テーブル構造認識(TSR)における16論文のコーパスと複製性について検討する。
研究対象は16論文中4論文のみである。
新しいデータセットを使って複製可能な紙は見当たらない。
- 参考スコア(独自算出の注目度): 3.8366337377024298
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Concerns about reproducibility in artificial intelligence (AI) have emerged,
as researchers have reported unsuccessful attempts to directly reproduce
published findings in the field. Replicability, the ability to affirm a finding
using the same procedures on new data, has not been well studied. In this
paper, we examine both reproducibility and replicability of a corpus of 16
papers on table structure recognition (TSR), an AI task aimed at identifying
cell locations of tables in digital documents. We attempt to reproduce
published results using codes and datasets provided by the original authors. We
then examine replicability using a dataset similar to the original as well as a
new dataset, GenTSR, consisting of 386 annotated tables extracted from
scientific papers. Out of 16 papers studied, we reproduce results consistent
with the original in only four. Two of the four papers are identified as
replicable using the similar dataset under certain IoU values. No paper is
identified as replicable using the new dataset. We offer observations on the
causes of irreproducibility and irreplicability. All code and data are
available on Codeocean at https://codeocean.com/capsule/6680116/tree.
- Abstract(参考訳): 人工知能(ai)の再現性に関する懸念が浮上し、研究者はこの分野で公表された発見を直接再現する試みが失敗したと報告している。
リプリケータビリティ(Replicability)は、新しいデータ上で同じ手順で発見を確認できる能力であり、十分に研究されていない。
本稿では,テーブル構造認識(TSR)における16論文のコーパスの再現性と複製性について検討する。
原著者が提供したコードとデータセットを用いて、公開結果を再現しようと試みる。
次に,オリジナルと類似したデータセットと,科学論文から抽出された386の注釈付き表からなる新しいデータセットであるgentsrを用いて再現性を調べる。
研究対象となった16論文のうち, 原本と一致する結果が4件に留まった。
4つの論文のうち2つは、IoU値の類似したデータセットを用いて複製可能であると同定されている。
新しいデータセットを使って複製可能な紙は見当たらない。
我々は、不再現性と不適合性の原因を観察する。
すべてのコードとデータはcodeoceanのhttps://codeocean.com/capsule/6680116/treeで入手できる。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - ArxivDIGESTables: Synthesizing Scientific Literature into Tables using Language Models [58.34560740973768]
本稿では,言語モデル(LM)を利用して文献レビュー表を生成するフレームワークを提案する。
ArXiv論文から抽出された2,228の文献レビューテーブルの新しいデータセットは、合計で7,542の論文を合成する。
我々は、LMが参照テーブルを再構築する能力を評価し、追加のコンテキストからこのタスクの利点を見出す。
論文 参考訳(メタデータ) (2024-10-25T18:31:50Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Identifiability Matters: Revealing the Hidden Recoverable Condition in Unbiased Learning to Rank [37.15089945367366]
クリックデータから関連性を回復できる条件について検討する。
関連性の回復は、同一性グラフ(IG)が接続されている場合にのみ可能となる。
我々は,ノード介入とノードマージという2つの手法を導入し,データセットの修正とIGの接続性回復を図った。
論文 参考訳(メタデータ) (2023-09-27T10:31:58Z) - Replication: Contrastive Learning and Data Augmentation in Traffic
Classification Using a Flowpic Input Representation [47.95762911696397]
同じデータセット上で[16]を再現し、3つの追加の公開データセット上で最も健全なアスペクト(データ拡張の重要性)を複製します。
元の結果のほとんどを確認できたが、元のデータセットにデータシフトがあったため、調査されたシナリオの20%の精度低下が判明した。
論文 参考訳(メタデータ) (2023-09-18T12:55:09Z) - arXiVeri: Automatic table verification with GPT [44.388120096898554]
自動表検証(AutoTV)の新たな課題を提案する。
本研究の目的は,参照ソースを相互参照することで,テーブル内の数値データの精度を検証することである。
現代の大規模言語モデル(LLM)の柔軟性を活用して,テーブル検証のためのシンプルなベースラインを提案する。
論文 参考訳(メタデータ) (2023-06-13T17:59:57Z) - Replicable Reinforcement Learning [15.857503103543308]
本稿では、並列値反復のための証明可能なレプリカブルアルゴリズムと、エピソード設定における証明可能なR-maxのレプリカブルバージョンを提供する。
これらは制御問題に対する最初の公式なレプリカ化結果であり、バッチ学習設定とは異なるレプリケーションの課題を提示している。
論文 参考訳(メタデータ) (2023-05-24T16:05:15Z) - Deconstructing Self-Supervised Monocular Reconstruction: The Design
Decisions that Matter [63.5550818034739]
本稿では,自己教師付き単分子深度推定への最先端の貢献を評価するための枠組みを提案する。
事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。
我々は16の最先端コントリビューションを再実装し、検証し、再評価し、新しいデータセットを導入します。
論文 参考訳(メタデータ) (2022-08-02T14:38:53Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。