論文の概要: Citation Parsing and Analysis with Language Models
- arxiv url: http://arxiv.org/abs/2505.15948v1
- Date: Wed, 21 May 2025 19:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.874982
- Title: Citation Parsing and Analysis with Language Models
- Title(参考訳): 言語モデルを用いたCitation Parsingと分析
- Authors: Parth Sarin, Juan Pablo Alperin,
- Abstract要約: 文書引用をインデックス化可能な形式でマークアップするオープンウェイト言語モデルの能力について検討する。
ボックスからでも、今日の言語モデルでは、各引用の構成要素を特定する上で高いレベルの精度が得られます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key type of resource needed to address global inequalities in knowledge production and dissemination is a tool that can support journals in understanding how knowledge circulates. The absence of such a tool has resulted in comparatively less information about networks of knowledge sharing in the Global South. In turn, this gap authorizes the exclusion of researchers and scholars from the South in indexing services, reinforcing colonial arrangements that de-center and minoritize those scholars. In order to support citation network tracking on a global scale, we investigate the capacity of open-weight language models to mark up manuscript citations in an indexable format. We assembled a dataset of matched plaintext and annotated citations from preprints and published research papers. Then, we evaluated a number of open-weight language models on the annotation task. We find that, even out of the box, today's language models achieve high levels of accuracy on identifying the constituent components of each citation, outperforming state-of-the-art methods. Moreover, the smallest model we evaluated, Qwen3-0.6B, can parse all fields with high accuracy in $2^5$ passes, suggesting that post-training is likely to be effective in producing small, robust citation parsing models. Such a tool could greatly improve the fidelity of citation networks and thus meaningfully improve research indexing and discovery, as well as further metascientific research.
- Abstract(参考訳): 知識生産と普及のグローバルな不平等に対処するために必要な重要なリソースのタイプは、知識の循環を理解するためのジャーナルを支援するツールである。
このようなツールが存在しないことで、グローバル・サウスにおける知識共有のネットワークに関する情報が比較的少なくなった。
逆に、このギャップは南部からの研究者や学者の索引付けサービスからの排除を許可し、これらの学者を中心から切り離し、マイノリティ化する植民地の配置を強化する。
本研究では,グローバルスケールでの引用ネットワーク追跡を支援するために,インデックス可能な形式で原稿引用をマークアップするオープンウェイト言語モデルの能力について検討する。
我々は、プレプリントから一致した平文と注釈付き引用のデータセットを集め、研究論文を公表した。
そして、アノテーションタスク上で、多くのオープンウェイト言語モデルを評価した。
アウトオブボックスでさえ、今日の言語モデルは、各引用の構成要素を特定する上で高いレベルの精度を実現し、最先端の手法よりも優れています。
さらに、評価した最小モデルであるQwen3-0.6Bは、すべてのフィールドを高い精度で2^5$パスで解析できるため、後トレーニングは、小さく頑健な引用解析モデルを作成するのに有効である可能性が示唆されている。
このようなツールは、引用ネットワークの忠実性を大幅に向上させ、研究の索引付けと発見を有意義に改善し、さらにメタサイエンティフィックな研究を行うことができる。
関連論文リスト
- Detecting Reference Errors in Scientific Literature with Large Language Models [0.552480439325792]
本研究は,OpenAI の GPT ファミリーにおいて,引用誤りを検出するための大規模言語モデルの能力を評価する。
その結果,大規模言語モデルでは文脈が限定され,微調整を行なわずに誤引用を検出できることがわかった。
論文 参考訳(メタデータ) (2024-11-09T07:30:38Z) - Monolingual and Multilingual Misinformation Detection for Low-Resource Languages: A Comprehensive Survey [2.5459710368096586]
誤報は言語境界を超越し、モデレーションシステムに挑戦する。
誤情報検出に対するほとんどのアプローチはモノリンガルであり、高リソース言語に焦点を当てている。
この調査は、低リソース言語における誤情報検出に関する現在の研究の概要を概観する。
論文 参考訳(メタデータ) (2024-10-24T03:02:03Z) - CiteFusion: An Ensemble Framework for Citation Intent Classification Harnessing Dual-Model Binary Couples and SHAP Analyses [1.7812428873698407]
本研究は,多クラスCitation Intent Classificationタスクに対処するアンサンブルフレームワークであるCiteFusionを紹介する。
CiteFusionは最先端のパフォーマンスを実現し、Macro-F1スコアはSciCiteが89.60%、ACL-ARCが76.24%だった。
我々は、SciCiteで開発されたCiteFusionモデルを利用して、引用意図を分類するWebベースのアプリケーションをリリースする。
論文 参考訳(メタデータ) (2024-07-18T09:29:33Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search Results with Citations [34.99831757956635]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。