論文の概要: A Study on Reproducibility and Replicability of Table Structure
Recognition Methods
- arxiv url: http://arxiv.org/abs/2304.10439v1
- Date: Thu, 20 Apr 2023 16:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 12:26:28.087524
- Title: A Study on Reproducibility and Replicability of Table Structure
Recognition Methods
- Title(参考訳): 表構造認識法の再現性と再現性に関する研究
- Authors: Kehinde Ajayi, Muntabhir Hasan Choudhury, Sarah Rajtmajer, and Jian Wu
- Abstract要約: テーブル構造認識(TSR)における16論文のコーパスと複製性について検討する。
研究対象は16論文中4論文のみである。
新しいデータセットを使って複製可能な紙は見当たらない。
- 参考スコア(独自算出の注目度): 3.8366337377024298
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Concerns about reproducibility in artificial intelligence (AI) have emerged,
as researchers have reported unsuccessful attempts to directly reproduce
published findings in the field. Replicability, the ability to affirm a finding
using the same procedures on new data, has not been well studied. In this
paper, we examine both reproducibility and replicability of a corpus of 16
papers on table structure recognition (TSR), an AI task aimed at identifying
cell locations of tables in digital documents. We attempt to reproduce
published results using codes and datasets provided by the original authors. We
then examine replicability using a dataset similar to the original as well as a
new dataset, GenTSR, consisting of 386 annotated tables extracted from
scientific papers. Out of 16 papers studied, we reproduce results consistent
with the original in only four. Two of the four papers are identified as
replicable using the similar dataset under certain IoU values. No paper is
identified as replicable using the new dataset. We offer observations on the
causes of irreproducibility and irreplicability. All code and data are
available on Codeocean at https://codeocean.com/capsule/6680116/tree.
- Abstract(参考訳): 人工知能(ai)の再現性に関する懸念が浮上し、研究者はこの分野で公表された発見を直接再現する試みが失敗したと報告している。
リプリケータビリティ(Replicability)は、新しいデータ上で同じ手順で発見を確認できる能力であり、十分に研究されていない。
本稿では,テーブル構造認識(TSR)における16論文のコーパスの再現性と複製性について検討する。
原著者が提供したコードとデータセットを用いて、公開結果を再現しようと試みる。
次に,オリジナルと類似したデータセットと,科学論文から抽出された386の注釈付き表からなる新しいデータセットであるgentsrを用いて再現性を調べる。
研究対象となった16論文のうち, 原本と一致する結果が4件に留まった。
4つの論文のうち2つは、IoU値の類似したデータセットを用いて複製可能であると同定されている。
新しいデータセットを使って複製可能な紙は見当たらない。
我々は、不再現性と不適合性の原因を観察する。
すべてのコードとデータはcodeoceanのhttps://codeocean.com/capsule/6680116/treeで入手できる。
関連論文リスト
- Identifiability Matters: Revealing the Hidden Recoverable Condition in
Unbiased Learning to Rank [39.85719217055178]
基礎レベルでのクリックデータから関連性を回復できる条件について検討する。
妥当性の回復は、データセットの基盤構造から派生した識別可能性グラフ(IG)が接続されている場合にのみ可能である。
我々は,ノード介入とノードマージという2つの手法を導入し,データセットの修正とIGの接続性回復を図った。
論文 参考訳(メタデータ) (2023-09-27T10:31:58Z) - Replication: Contrastive Learning and Data Augmentation in Traffic
Classification Using a Flowpic Input Representation [47.95762911696397]
同じデータセット上で[16]を再現し、3つの追加の公開データセット上で最も健全なアスペクト(データ拡張の重要性)を複製します。
元の結果のほとんどを確認できたが、元のデータセットにデータシフトがあったため、調査されたシナリオの20%の精度低下が判明した。
論文 参考訳(メタデータ) (2023-09-18T12:55:09Z) - arXiVeri: Automatic table verification with GPT [44.388120096898554]
自動表検証(AutoTV)の新たな課題を提案する。
本研究の目的は,参照ソースを相互参照することで,テーブル内の数値データの精度を検証することである。
現代の大規模言語モデル(LLM)の柔軟性を活用して,テーブル検証のためのシンプルなベースラインを提案する。
論文 参考訳(メタデータ) (2023-06-13T17:59:57Z) - Replicable Reinforcement Learning [15.857503103543308]
本稿では、並列値反復のための証明可能なレプリカブルアルゴリズムと、エピソード設定における証明可能なR-maxのレプリカブルバージョンを提供する。
これらは制御問題に対する最初の公式なレプリカ化結果であり、バッチ学習設定とは異なるレプリケーションの課題を提示している。
論文 参考訳(メタデータ) (2023-05-24T16:05:15Z) - Deconstructing Self-Supervised Monocular Reconstruction: The Design
Decisions that Matter [63.5550818034739]
本稿では,自己教師付き単分子深度推定への最先端の貢献を評価するための枠組みを提案する。
事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。
我々は16の最先端コントリビューションを再実装し、検証し、再評価し、新しいデータセットを導入します。
論文 参考訳(メタデータ) (2022-08-02T14:38:53Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Reproducibility Companion Paper: Knowledge Enhanced Neural Fashion Trend
Forecasting [78.046352507802]
Python実装を使用した実験の複製を可能にするアーティファクトを提供する。
本稿では,本論文で実施した実験を再現し,前報と同様の性能を得る。
論文 参考訳(メタデータ) (2021-05-25T10:53:11Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。