論文の概要: MeXtract: Light-Weight Metadata Extraction from Scientific Papers
- arxiv url: http://arxiv.org/abs/2510.06889v1
- Date: Wed, 08 Oct 2025 11:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.451899
- Title: MeXtract: Light-Weight Metadata Extraction from Scientific Papers
- Title(参考訳): MeXtract:科学論文から軽量メタデータ抽出
- Authors: Zaid Alyafeai, Maged S. Al-Shaibani, Bernard Ghanem,
- Abstract要約: 本稿では,科学論文からのメタデータ抽出を目的とした軽量言語モデルであるMeXtractを紹介する。
MeXtractはMOLEベンチマークでメタデータ抽出の最先端性能を達成する。
研究コミュニティのために、すべてのコード、データセット、モデルを公開しています。
- 参考スコア(独自算出の注目度): 48.73595915402094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metadata plays a critical role in indexing, documenting, and analyzing scientific literature, yet extracting it accurately and efficiently remains a challenging task. Traditional approaches often rely on rule-based or task-specific models, which struggle to generalize across domains and schema variations. In this paper, we present MeXtract, a family of lightweight language models designed for metadata extraction from scientific papers. The models, ranging from 0.5B to 3B parameters, are built by fine-tuning Qwen 2.5 counterparts. In their size family, MeXtract achieves state-of-the-art performance on metadata extraction on the MOLE benchmark. To further support evaluation, we extend the MOLE benchmark to incorporate model-specific metadata, providing an out-of-domain challenging subset. Our experiments show that fine-tuning on a given schema not only yields high accuracy but also transfers effectively to unseen schemas, demonstrating the robustness and adaptability of our approach. We release all the code, datasets, and models openly for the research community.
- Abstract(参考訳): メタデータは、科学文献の索引付け、文書化、分析において重要な役割を果たすが、正確かつ効率的に抽出することは難しい課題である。
従来のアプローチはルールベースのモデルやタスク固有のモデルに依存しており、ドメインやスキーマのバリエーションを一般化するのに苦労している。
本稿では,科学論文からのメタデータ抽出を目的とした軽量言語モデルであるMeXtractを提案する。
0.5Bから3Bまでの範囲で、微調整されたQwen 2.5のモデルで作られている。
サイズファミリでは、MOLEベンチマークのメタデータ抽出において、MeXtractは最先端のパフォーマンスを達成する。
評価をさらに支援するために、MOLEベンチマークを拡張して、モデル固有のメタデータを導入し、ドメイン外の挑戦的なサブセットを提供する。
我々の実験では、与えられたスキーマの微調整は高い精度を得るだけでなく、目に見えないスキーマに効果的に転送し、我々のアプローチの堅牢性と適応性を示す。
研究コミュニティのために、すべてのコード、データセット、モデルを公開しています。
関連論文リスト
- MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [48.73595915402094]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - A Generative AI-driven Metadata Modelling Approach [1.450405446885067]
本稿では,ジェネレーティブなAI駆動型Human-Large Language Model (LLM) を用いたメタデータモデリング手法を提案する。
論文 参考訳(メタデータ) (2024-12-13T09:26:04Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Adaptable Text Matching via Meta-Weight Regulator [14.619068650513917]
メタウェイトレギュレータ(メタウェイトレギュレータ、MWR)は、目標損失との関連性に基づいて、ソースサンプルに重みを割り当てることを学ぶメタラーニングアプローチである。
MWRはまず、一様重み付きソースの例でモデルを訓練し、損失関数を用いて対象の例におけるモデルの有効性を測定する。
MWRはモデルに依存しないため、任意のバックボーンニューラルモデルに適用することができる。
論文 参考訳(メタデータ) (2022-04-27T02:28:40Z) - Multimodal Approach for Metadata Extraction from German Scientific
Publications [0.0]
ドイツ語の科学論文からメタデータを抽出するための多モーダル深層学習手法を提案する。
本稿では,自然言語処理と画像ビジョン処理を組み合わせることで,複数の入力データについて考察する。
提案手法は,約8800の文書からなるデータセットを用いて学習し,F1スコアの0.923を得ることができた。
論文 参考訳(メタデータ) (2021-11-10T15:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。