論文の概要: Metadata Enrichment of Long Text Documents using Large Language Models
- arxiv url: http://arxiv.org/abs/2506.20918v1
- Date: Thu, 26 Jun 2025 00:55:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.928142
- Title: Metadata Enrichment of Long Text Documents using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた長文文書のメタデータ強化
- Authors: Manika Lamba, You Peng, Sophie Nikolov, Glen Layne-Worthey, J. Stephen Downie,
- Abstract要約: 本プロジェクトでは,1920年から2020年にかけて出版された英語のHatiTrust Digital Libraryから取得した長文文書のメタデータ,論文,論文のセマンティックエンリッチ化と拡張を行った。
このデータセットは、計算社会科学、デジタル人文科学、情報科学などの分野の研究を進めるための貴重なリソースを提供する。
- 参考スコア(独自算出の注目度): 3.536523762475449
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this project, we semantically enriched and enhanced the metadata of long text documents, theses and dissertations, retrieved from the HathiTrust Digital Library in English published from 1920 to 2020 through a combination of manual efforts and large language models. This dataset provides a valuable resource for advancing research in areas such as computational social science, digital humanities, and information science. Our paper shows that enriching metadata using LLMs is particularly beneficial for digital repositories by introducing additional metadata access points that may not have originally been foreseen to accommodate various content types. This approach is particularly effective for repositories that have significant missing data in their existing metadata fields, enhancing search results and improving the accessibility of the digital repository.
- Abstract(参考訳): 本研究は,1920年から2020年にかけて英語のHatiTrust Digital Libraryから,手作業と大規模言語モデルを組み合わせることで,長文文書のメタデータ,論文,論文のセマンティック・エンリッチ化と強化を行った。
このデータセットは、計算社会科学、デジタル人文科学、情報科学などの分野の研究を進めるための貴重なリソースを提供する。
本稿では, LLMを用いたメタデータの充実が, 様々なコンテンツタイプに対応できないメタデータアクセスポイントを追加することで, デジタルリポジトリにとって特に有益であることを示す。
このアプローチは、既存のメタデータフィールドに重大な欠落したデータを持つレポジトリに対して特に有効であり、検索結果を向上し、デジタルレポジトリのアクセシビリティを向上させる。
関連論文リスト
- Knowledge Graphs for Digitized Manuscripts in Jagiellonian Digital Library Application [8.732274235941974]
美術館、図書館、資料館、博物館(GLAM)は積極的に蔵書をデジタル化し、広範なデジタルコレクションを作成している。
これらのコレクションには、アイテムを記述するメタデータが備わっていることが多いが、その内容は正確には書かれていない。
本稿では,コンピュータビジョン(CV),人工知能(AI),セマンティックWeb技術の統合手法を探求し,メタデータを充実させ,デジタル化された原稿やインキュナブラの知識グラフを構築する。
論文 参考訳(メタデータ) (2025-05-29T14:49:24Z) - MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - Comparison of Feature Learning Methods for Metadata Extraction from PDF Scholarly Documents [8.516310581591426]
本研究では,自然言語処理(NLP)やコンピュータビジョン(CV),マルチモーダルアプローチなど,さまざまな特徴学習と予測手法を評価し,テンプレートのばらつきが高い文書からメタデータを抽出する。
我々は,学術文書のアクセシビリティの向上と,それらの広範な利用を促進することを目的としている。
論文 参考訳(メタデータ) (2025-01-09T09:03:43Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [103.0865116794534]
データ収集パイプラインに大規模なモデルを導入し、ドメイン固有の情報の生成をガイドします。
このアプローチをRetrieve-from-CCと呼ぶ。
ドメイン固有の知識に関するデータを収集するだけでなく、パブリックコーパスから潜在的推論手順を含むデータをマイニングする。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - Documenting Geographically and Contextually Diverse Data Sources: The
BigScience Catalogue of Language Data and Resources [17.69148305999049]
我々はBigScienceイニシアチブの一環として、ドキュメントファーストで人間中心のデータ収集プロジェクトのための方法論を提示する。
我々は,潜在的なデータソースのメタデータを収集する,地理的に多様な対象言語群を同定する。
この取り組みを構築するために,組織化された公開ハッカソンを通じてメタデータを収集する支援ツールとして,オンラインカタログを開発した。
論文 参考訳(メタデータ) (2022-01-25T03:05:23Z) - Multimodal Approach for Metadata Extraction from German Scientific
Publications [0.0]
ドイツ語の科学論文からメタデータを抽出するための多モーダル深層学習手法を提案する。
本稿では,自然言語処理と画像ビジョン処理を組み合わせることで,複数の入力データについて考察する。
提案手法は,約8800の文書からなるデータセットを用いて学習し,F1スコアの0.923を得ることができた。
論文 参考訳(メタデータ) (2021-11-10T15:19:04Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。