論文の概要: Digging Up Citations: FOSSIL, a Dataset and Workflow for Reference Extraction in Law and the Humanities
- arxiv url: http://arxiv.org/abs/2606.01109v1
- Date: Sun, 31 May 2026 08:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.209951
- Title: Digging Up Citations: FOSSIL, a Dataset and Workflow for Reference Extraction in Law and the Humanities
- Title(参考訳): FOSSIL - 法と人文の参照抽出のためのデータセットとワークフロー
- Authors: Luca Foppiano, Christian Boulanger,
- Abstract要約: 我々は,7,600以上の脚注に埋め込まれた参照を含む96項目のオープンアクセス多言語データセットを提示する。
エンドツーエンドの評価では、特別なパイプラインはデフォルトのGrobidよりも抽出をほぼ倍にします。
引用のセグメンテーションとパース、参照間の解決が進行中である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Citation extraction tools are designed for the structured end-of-document bibliographies of the natural sciences, but law and humanities scholarship cites references primarily in footnotes, where bibliographic data is interleaved with commentary and cross-references and varies widely across languages and styles. To address the scarcity of suitable gold-standard resources, we present FOSSIL (Footnote-based Open-access SSH Scientific Instance Labels), an openly licensed multilingual dataset of 96 annotated scholarly articles containing over 7,600 footnote-embedded references, together with PDF-TEI Editor (a collaborative web annotation tool), a documented seven-annotator workflow, and a Grobid specialization for footnote-based citations. In end-to-end evaluation, the specialized pipeline nearly doubles extraction quality over default Grobid (micro-F1 from 0.36 to 0.72), driven largely by improved recall, while showing that substantial headroom remains for cross-references and mixed-content footnotes. This extended abstract presents work in progress; annotations of citations segmentation and parsing, and cross-reference resolution are ongoing.
- Abstract(参考訳): 引用抽出ツールは、自然科学の構造化された文書の終末書誌のために設計されているが、法と人文科学の奨学金は、主に脚注に言及している。
FOSSIL(Footnote-based Open- Access SSH Scientific Instance Labels)は、7,600以上の脚注に埋め込まれた参照を含む96以上の注釈付き学術論文をオープンにライセンスした多言語データセットであり、PDF-TEIエディター(コラボレーティブなWebアノテーションツール)、文書化された7アノテーションワークフロー、および足注ベースの引用のためのGrobid特殊化を提供する。
エンド・ツー・エンドの評価では、特別なパイプラインはデフォルトのGrobid(micro-F1 から 0.36 から 0.72 まで)よりも抽出品質をほぼ2倍にし、リコールの改善によって大幅に向上した。
引用のセグメンテーションとパース、および相互参照解決のアノテーションが進行中である。
関連論文リスト
- Benchmarking Large Language Models on Reference Extraction and Parsing in the Social Sciences and Humanities [11.04552942214836]
確立された評価のほとんどは、清潔で、英語で、文書の終わりに焦点を合わせており、それゆえ、社会科学と人文科学を過小評価している。
3つの相補的データセットにまたがるこれらのSSH現実的条件を対象とする統一ベンチマークを提案する。
我々は,参照抽出,参照解析,エンドツーエンド文書解析の3つの課題を評価する。
論文 参考訳(メタデータ) (2026-03-13T23:25:03Z) - Semantically Orthogonal Framework for Citation Classification: Disentangling Intent and Content [0.0]
SOFTは2次元のSemantically Orthogonal Frameworkであり、引用意図と引用内容のタイプを明確に分離する。
我々は、SOFTを用いてACL-ARCデータセットを再注釈し、ACT2からサンプリングされたクロスディシプリナテストセットをリリースする。
結果は、デジタルライブラリや学術的なコミュニケーション基盤の明確性、一貫性、一般化性を改善した、明確で再利用可能なアノテーション標準としてのSOFTの価値を確認した。
論文 参考訳(メタデータ) (2026-01-08T16:48:36Z) - Cleaning English Abstracts of Scientific Publications [0.15293427903448018]
我々は、英語の科学的な抽象概念をきれいにするために設計された、オープンソースの、簡単に統合できる言語モデルを導入する。
我々は,本モデルが保守的かつ正確であり,クリーンな抽象化の類似度ランキングを変更し,標準長埋め込みの情報内容を改善することを実証した。
論文 参考訳(メタデータ) (2025-12-30T20:45:50Z) - Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models [44.31597857713689]
最初の段階でActive Indexingを導入し、一般化可能なソースアンコールバインディングを作成します。
Qwen-2.5-7B&3Bの実験は、アクティブインデックスがパッシブインデックスのベースラインを一貫して上回っていることを示している。
内部の引用は、モデルを検索ノイズに対してより堅牢にすることで、外部の引用を補完する。
論文 参考訳(メタデータ) (2025-06-21T04:48:05Z) - Verifiable Generation with Subsentence-Level Fine-Grained Citations [13.931548733211436]
検証可能な生成には、出力をサポートするソースドキュメントを引用するために、大きな言語モデルが必要である。
先行研究は主に文レベルの引用の生成を目標としており、引用された情報源によって文のどの部分が裏付けられているかの特異性が欠如している。
本研究は, サブ文レベルのきめ細かな引用による生成を検証し, 引用元が支持する生成コンテンツのより正確な位置について検討する。
論文 参考訳(メタデータ) (2024-06-10T09:32:37Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - Long Document Summarization in a Low Resource Setting using Pretrained
Language Models [28.042826329840437]
我々は、平均ソース文書長4268ワードの長い法的ブリーフを要約する挑戦的な低リソース設定を研究します。
我々は17.9 ROUGE-Lを達成し、それが長い文と闘うように、現代の事前訓練抽象要約BARTを使用します。
圧縮された文書をBARTに送付すると,6.0ROUGE-Lの改善が観察される。
論文 参考訳(メタデータ) (2021-03-01T04:43:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。