Fugu-MT 論文翻訳(概要): A Study on Reproducibility and Replicability of Table Structure Recognition Methods

論文の概要: A Study on Reproducibility and Replicability of Table Structure Recognition Methods

arxiv url: http://arxiv.org/abs/2304.10439v1
Date: Thu, 20 Apr 2023 16:30:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-21 12:26:28.087524
Title: A Study on Reproducibility and Replicability of Table Structure Recognition Methods
Title（参考訳）: 表構造認識法の再現性と再現性に関する研究
Authors: Kehinde Ajayi, Muntabhir Hasan Choudhury, Sarah Rajtmajer, and Jian Wu
Abstract要約: テーブル構造認識(TSR)における16論文のコーパスと複製性について検討する。研究対象は16論文中4論文のみである。新しいデータセットを使って複製可能な紙は見当たらない。
参考スコア（独自算出の注目度）: 3.8366337377024298
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Concerns about reproducibility in artificial intelligence (AI) have emerged, as researchers have reported unsuccessful attempts to directly reproduce published findings in the field. Replicability, the ability to affirm a finding using the same procedures on new data, has not been well studied. In this paper, we examine both reproducibility and replicability of a corpus of 16 papers on table structure recognition (TSR), an AI task aimed at identifying cell locations of tables in digital documents. We attempt to reproduce published results using codes and datasets provided by the original authors. We then examine replicability using a dataset similar to the original as well as a new dataset, GenTSR, consisting of 386 annotated tables extracted from scientific papers. Out of 16 papers studied, we reproduce results consistent with the original in only four. Two of the four papers are identified as replicable using the similar dataset under certain IoU values. No paper is identified as replicable using the new dataset. We offer observations on the causes of irreproducibility and irreplicability. All code and data are available on Codeocean at https://codeocean.com/capsule/6680116/tree.
Abstract（参考訳）: 人工知能(ai)の再現性に関する懸念が浮上し、研究者はこの分野で公表された発見を直接再現する試みが失敗したと報告している。リプリケータビリティ(Replicability)は、新しいデータ上で同じ手順で発見を確認できる能力であり、十分に研究されていない。本稿では,テーブル構造認識(TSR)における16論文のコーパスの再現性と複製性について検討する。原著者が提供したコードとデータセットを用いて、公開結果を再現しようと試みる。次に,オリジナルと類似したデータセットと,科学論文から抽出された386の注釈付き表からなる新しいデータセットであるgentsrを用いて再現性を調べる。研究対象となった16論文のうち, 原本と一致する結果が4件に留まった。 4つの論文のうち2つは、IoU値の類似したデータセットを用いて複製可能であると同定されている。新しいデータセットを使って複製可能な紙は見当たらない。我々は、不再現性と不適合性の原因を観察する。すべてのコードとデータはcodeoceanのhttps://codeocean.com/capsule/6680116/treeで入手できる。

関連論文リスト

What Papers Don't Tell You: Recovering Tacit Knowledge for Automated Paper Reproduction [57.86097956633207]
Methodは、学術論文から実行可能なコードを生成するグラフベースのエージェントフレームワークである。 3つのドメイン、10のタスク、10の最近の論文にまたがる拡張ReproduceBenchでは、公式実装に対する平均的なパフォーマンスギャップが10.04%に達する。
論文参考訳（メタデータ） (2026-03-02T12:33:31Z)
ReplicatorBench: Benchmarking LLM Agents for Replicability in Social and Behavioral Sciences [19.81372090301296]
ReplicatorBenchは、3段階にわたる研究レプリケーションにおけるAIエージェントの評価のためのエンドツーエンドのベンチマークである。 ReplicatorAgentは,Web検索やサンドボックス環境との反復的なインタラクションなど,必要なツールを備えたエージェントフレームワークである。 ReplicatorAgentは、4つの基礎となる大規模言語モデル(LLM)にまたがって評価する。
論文参考訳（メタデータ） (2026-02-11T20:42:10Z)
Automatic Classification of User Requirements from Online Feedback -- A Replication Study [0.0]
我々は、ユーザレビューから要件分類のための異なるディープラーニングモデルを評価する、以前のNLP4RE研究(ベースライン)を再現する。公開ソースコードを用いて元の結果を再現し,ベースライン研究の外部的妥当性を高めるのに役立てた。その結果,ベースラインディープラーニングモデルであるBERTとELMoが外部データセットに優れた性能を示し,GPT-4oは従来のベースライン機械学習モデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2025-07-29T06:52:27Z)
Uncertainty-Aware Complex Scientific Table Data Extraction [6.913734410452428]
テーブル構造認識(TSR)と光学文字認識(OCR)は、科学文書中のテーブルから構造化データを抽出する上で重要な役割を担っている。 TSRとOCRの上に構築された既存の抽出フレームワークは、しばしば抽出結果の不確実性の定量化に失敗する。本稿では,共形予測に基づく複雑な科学表のための不確実性を考慮したデータ抽出を行うフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-02T03:36:15Z)
AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文参考訳（メタデータ） (2025-05-27T03:15:21Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
ArxivDIGESTables: Synthesizing Scientific Literature into Tables using Language Models [58.34560740973768]
本稿では,言語モデル(LM)を利用して文献レビュー表を生成するフレームワークを提案する。 ArXiv論文から抽出された2,228の文献レビューテーブルの新しいデータセットは、合計で7,542の論文を合成する。我々は、LMが参照テーブルを再構築する能力を評価し、追加のコンテキストからこのタスクの利点を見出す。
論文参考訳（メタデータ） (2024-10-25T18:31:50Z)
Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文参考訳（メタデータ） (2024-03-27T15:15:14Z)
Identifiability Matters: Revealing the Hidden Recoverable Condition in Unbiased Learning to Rank [37.15089945367366]
クリックデータから関連性を回復できる条件について検討する。関連性の回復は、同一性グラフ(IG)が接続されている場合にのみ可能となる。我々は,ノード介入とノードマージという2つの手法を導入し,データセットの修正とIGの接続性回復を図った。
論文参考訳（メタデータ） (2023-09-27T10:31:58Z)
Replication: Contrastive Learning and Data Augmentation in Traffic Classification Using a Flowpic Input Representation [47.95762911696397]
同じデータセット上で[16]を再現し、3つの追加の公開データセット上で最も健全なアスペクト(データ拡張の重要性)を複製します。元の結果のほとんどを確認できたが、元のデータセットにデータシフトがあったため、調査されたシナリオの20%の精度低下が判明した。
論文参考訳（メタデータ） (2023-09-18T12:55:09Z)
arXiVeri: Automatic table verification with GPT [44.388120096898554]
自動表検証(AutoTV)の新たな課題を提案する。本研究の目的は,参照ソースを相互参照することで,テーブル内の数値データの精度を検証することである。現代の大規模言語モデル(LLM)の柔軟性を活用して,テーブル検証のためのシンプルなベースラインを提案する。
論文参考訳（メタデータ） (2023-06-13T17:59:57Z)
Replicable Reinforcement Learning [15.857503103543308]
本稿では、並列値反復のための証明可能なレプリカブルアルゴリズムと、エピソード設定における証明可能なR-maxのレプリカブルバージョンを提供する。これらは制御問題に対する最初の公式なレプリカ化結果であり、バッチ学習設定とは異なるレプリケーションの課題を提示している。
論文参考訳（メタデータ） (2023-05-24T16:05:15Z)
Deconstructing Self-Supervised Monocular Reconstruction: The Design Decisions that Matter [63.5550818034739]
本稿では,自己教師付き単分子深度推定への最先端の貢献を評価するための枠組みを提案する。事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。我々は16の最先端コントリビューションを再実装し、検証し、再評価し、新しいデータセットを導入します。
論文参考訳（メタデータ） (2022-08-02T14:38:53Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。