論文の概要: NERdME: a Named Entity Recognition Dataset for Indexing Research Artifacts in Code Repositories
- arxiv url: http://arxiv.org/abs/2603.05750v1
- Date: Thu, 05 Mar 2026 23:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.690044
- Title: NERdME: a Named Entity Recognition Dataset for Indexing Research Artifacts in Code Repositories
- Title(参考訳): NERdME:コードリポジトリにおける研究成果物のインデックス化のための名前付きエンティティ認識データセット
- Authors: Genet Asefa Gesese, Zongxiong Chen, Shufan Jiang, Mary Ann Tan, Zhaotai Liu, Sonja Schimmler, Harald Sack,
- Abstract要約: 既存の情報抽出(SIE)データセットは、科学論文に重点を置いており、コードリポジトリの実装レベルの詳細を見落としている。
NERdMEは、1万以上のラベル付きスパンと10のエンティティタイプを持つ200以上の手動でアノテートされたファイルである。
大規模言語モデルと微調整トランスフォーマーを用いたベースライン結果からは,紙レベルと実装レベルのエンティティの明確な違いが示されている。
- 参考スコア(独自算出の注目度): 3.010235780101721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing scholarly information extraction (SIE) datasets focus on scientific papers and overlook implementation-level details in code repositories. README files describe datasets, source code, and other implementation-level artifacts, however, their free-form Markdown offers little semantic structure, making automatic information extraction difficult. To address this gap, NERdME is introduced: 200 manually annotated README files with over 10,000 labeled spans and 10 entity types. Baseline results using large language models and fine-tuned transformers show clear differences between paperlevel and implementation-level entities, indicating the value of extending SIE benchmarks with entity types available in README files. A downstream entity-linking experiment was conducted to demonstrate that entities derived from READMEs can support artifact discovery and metadata integration.
- Abstract(参考訳): 既存の学術情報抽出(SIE)データセットは、科学論文に焦点を当て、コードリポジトリの実装レベルの詳細を見落としている。
READMEファイルはデータセット、ソースコード、その他の実装レベルのアーティファクトを記述しているが、そのフリーフォームのMarkdownはほとんど意味構造を提供しておらず、自動的な情報抽出が困難である。
NERdMEは、1万以上のラベル付きスパンと10のエンティティタイプを持つ200以上の手動のREADMEファイルである。
大規模言語モデルと微調整トランスフォーマーを用いたベースライン結果から,READMEファイルで利用可能なエンティティタイプでSIEベンチマークを拡張することの価値が示唆された。
下流のエンティティリンク実験を行い、READMEから派生したエンティティが、アーティファクトの発見とメタデータの統合をサポートできることを実証した。
関連論文リスト
- Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Relation-Rich Visual Document Generator for Visual Information Extraction [12.4941229258054]
本稿では2段階のアプローチでこれらの制限に対処するリレーショナルrIchビジュアルドキュメンテーション・ジェネレータ(RIDGE)を提案する。
提案手法は,様々なVIEベンチマークにおける文書理解モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-14T19:19:26Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。
注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文 参考訳(メタデータ) (2023-02-11T11:32:10Z) - DWIE: an entity-centric dataset for multi-task document-level
information extraction [23.412500230644433]
DWIEは、4つの主要な情報抽出(IE)アノテーションサブタスクを組み合わせた、新しく作成されたマルチタスクデータセットである。
DWIEは、完全なドキュメントのレベルで概念的エンティティの相互作用と特性を記述するエンティティ中心のデータセットとして考えられている。
論文 参考訳(メタデータ) (2020-09-26T15:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。