論文の概要: Benchmarking Large Language Models on Reference Extraction and Parsing in the Social Sciences and Humanities
- arxiv url: http://arxiv.org/abs/2603.13651v1
- Date: Fri, 13 Mar 2026 23:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.315058
- Title: Benchmarking Large Language Models on Reference Extraction and Parsing in the Social Sciences and Humanities
- Title(参考訳): 社会科学・人文科学における参照抽出と解析に関する大規模言語モデルのベンチマーク
- Authors: Yurui Zhu, Giovanni Colavizza, Matteo Romanello,
- Abstract要約: 確立された評価のほとんどは、清潔で、英語で、文書の終わりに焦点を合わせており、それゆえ、社会科学と人文科学を過小評価している。
3つの相補的データセットにまたがるこれらのSSH現実的条件を対象とする統一ベンチマークを提案する。
我々は,参照抽出,参照解析,エンドツーエンド文書解析の3つの課題を評価する。
- 参考スコア(独自算出の注目度): 11.04552942214836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bibliographic reference extraction and parsing are foundational for citation indexing, linking, and downstream scholarly knowledge-graph construction. However, most established evaluations focus on clean, English, end-of-document bibliographies, and therefore underrepresent the Social Sciences and Humanities (SSH), where citations are frequently multilingual, embedded in footnotes, abbreviated, and shaped by heterogeneous historical conventions. We present a unified benchmark that targets these SSH-realistic conditions across three complementary datasets: CEX (English journal articles spanning multiple disciplines), EXCITE (German/English documents with end-section, footnote-only, and mixed regimes), and LinkedBooks (humanities references with strong stylistic variation and multilinguality). We evaluate three tasks of increasing difficulty -- reference extraction, reference parsing, and end-to-end document parsing -- under a schema-constrained setup that enables direct comparison between a strong supervised pipeline baseline (GROBID) and contemporary LLMs (DeepSeek-V3.1, Mistral-Small-3.2-24B, Gemma-3-27B-it, and Qwen3-VL (4B-32B variants)). Across datasets, extraction largely saturates beyond a moderate capability threshold, while parsing and end-to-end parsing remain the primary bottlenecks due to structured-output brittleness under noisy layouts. We further show that lightweight LoRA adaptation yields consistent gains -- especially on SSH-heavy benchmarks -- and that segmentation/pipelining can substantially improve robustness. Finally, we argue for hybrid deployment via routing: leveraging GROBID for well-structured, in-distribution PDFs while escalating multilingual and footnote-heavy documents to task-adapted LLMs.
- Abstract(参考訳): 文献参照抽出と解析は、引用索引付け、リンク、下流の学術知識グラフ構築の基礎となっている。
しかしながら、ほとんどの確立された評価は、クリーンで、英語で、文書の終わりの書誌に焦点を合わせており、引用が多言語で、脚注に埋め込まれ、省略され、異種の歴史慣習によって形作られた社会科学人文科学(SSH)を過小評価している。
CEX(複数の分野にまたがる英語の論文)、EXCITE(終末節、脚注のみ、混合規則を含むドイツ語/英語の文書)、LinkedBooks(強いスタイリスティックなバリエーションと多言語性を持つ人文)である。
我々は、強い教師付きパイプラインベースライン(GROBID)と現代のLCM(DeepSeek-V3.1、Mistral-Small-3.2-24B、Gemma-3-27B-it、Qwen3-VL(4B-32B 変種)との直接比較が可能なスキーマ制約付きセットアップの下で、参照抽出、参照解析、エンドツーエンド文書解析の3つの課題を評価する。
データセット全体にわたって、抽出は適度な能力しきい値を超え、解析とエンドツーエンドのパーシングは、ノイズの多いレイアウト下での構造化出力の不安定さによる主要なボトルネックのままである。
さらに、軽量なLoRA適応は、特にSSH重ベンチマークにおいて、一貫した利得をもたらし、セグメンテーション/パイプライニングがロバスト性を大幅に改善できることを示す。
最後に、ルーティングによるハイブリッドデプロイメントについて論じる: GROBIDを多言語および脚注の多い文書をタスク適応型LLMにエスカレートしながら、構造化された分散PDFに活用する。
関連論文リスト
- LEMUR: A Corpus for Robust Fine-Tuning of Multilingual Law Embedding Models for Retrieval [18.46710400838861]
大規模言語モデル(LLM)は、法律情報へのアクセスにますます利用されている。
しかし、その多言語法的設定への展開は、信頼性の低い検索と、ドメイン適応型、オープンな埋め込みモデルの欠如によって制限されている。
LEMURは、EUの環境法律の大規模多言語コーパスであり、24,953のEUR-Lex PDF文書から25の言語をカバーする。
論文 参考訳(メタデータ) (2026-02-10T09:20:24Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - Unstructured Evidence Attribution for Long Context Query Focused Summarization [53.08341620504465]
固定粒度の場合よりも、より関連性が高く一貫した証拠を得るために、非構造的(すなわち任意の長さのスパン)な証拠を抽出することを提案する。
既存のシステムが、非構造的証拠をコピーし、適切に引用するのにどのように苦労しているかを示す。
論文 参考訳(メタデータ) (2025-02-20T09:57:42Z) - Graph-DPEP: Decomposed Plug and Ensemble Play for Few-Shot Document Relation Extraction with Graph-of-Thoughts Reasoning [34.85741925091139]
Graph-DPEPフレームワークは、自然言語で提示された三重項の説明思想の背景にある。
我々は,サブグラフに埋め込まれた推論的思考を活用することで,型リスト全体の「アンサンブルプレイ」生成を開発する。
論文 参考訳(メタデータ) (2024-11-05T07:12:36Z) - Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z) - Advancing Multilingual Pre-training: TRIP Triangular Document-level
Pre-training for Multilingual Language Models [107.83158521848372]
我々は,従来のモノリンガルおよびバイリンガルの目的を,グラフト法と呼ばれる新しい手法で三言語的目的に加速する分野において,最初のテキストbfTriangular Document-level textbfPre-training(textbfTRIP)を提案する。
TRIPは、3つの多言語文書レベルの機械翻訳ベンチマークと1つの言語間抽象的な要約ベンチマークで、最大3.11d-BLEU点と8.9ROUGE-L点の一貫性のある改善を含む、強力なSOTAスコアを達成している。
論文 参考訳(メタデータ) (2022-12-15T12:14:25Z) - SgSum: Transforming Multi-document Summarization into Sub-graph
Selection [27.40759123902261]
既存の抽出多文書要約(MDS)手法は、各文を個別にスコアし、一つずつ有能な文を抽出して要約を構成する。
サブグラフ選択問題としてMDSタスクを定式化する新しいMDSフレームワーク(SgSum)を提案する。
我々のモデルは従来のMDS法と比較して、より一貫性があり、情報的な要約を生成できる。
論文 参考訳(メタデータ) (2021-10-25T05:12:10Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。