論文の概要: BookReconciler: An Open-Source Tool for Metadata Enrichment and Work-Level Clustering
- arxiv url: http://arxiv.org/abs/2512.10165v2
- Date: Wed, 17 Dec 2025 03:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 15:03:26.909605
- Title: BookReconciler: An Open-Source Tool for Metadata Enrichment and Work-Level Clustering
- Title(参考訳): BookReconciler: メタデータの強化とワークレベルクラスタリングのためのオープンソースツール
- Authors: Matt Miller, Dan Sinykin, Melanie Walsh,
- Abstract要約: BookReconcilerは、書籍データを拡張およびクラスタリングするためのオープンソースのツールである。
BookReconcilerクラスタリングは、米国の著作物ではほぼ完璧な精度を実現するが、グローバルテキストでは性能が低下する。
BookReconcilerは、ドメインとアプリケーション間のデータの再利用をサポートする。
- 参考スコア(独自算出の注目度): 0.7282934840192818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present BookReconciler, an open-source tool for enhancing and clustering book data. BookReconciler allows users to take spreadsheets with minimal metadata, such as book title and author, and automatically 1) add authoritative, persistent identifiers like ISBNs 2) and cluster related Expressions and Manifestations of the same Work, e.g., different translations or editions. This enhancement makes it easier to combine related collections and analyze books at scale. The tool is currently designed as an extension for OpenRefine -- a popular software application -- and connects to major bibliographic services including the Library of Congress, VIAF, OCLC, HathiTrust, Google Books, and Wikidata. Our approach prioritizes human judgment. Through an interactive interface, users can manually evaluate matches and define the contours of a Work (e.g., to include translations or not). We evaluate reconciliation performance on datasets of U.S. prize-winning books and contemporary world fiction. BookReconciler achieves near-perfect accuracy for U.S. works but lower performance for global texts, reflecting structural weaknesses in bibliographic infrastructures for non-English and global literature. Overall, BookReconciler supports the reuse of bibliographic data across domains and applications, contributing to ongoing work in digital libraries and digital humanities.
- Abstract(参考訳): 本稿では,書籍データを拡張・クラスタリングするためのオープンソースツールであるBookReconcilerを紹介する。
BookReconcilerを使うと、ユーザーはタイトルや著者などの最小限のメタデータでスプレッドシートを取得でき、自動的に作成できる。
1)ISBNのような権威的で永続的な識別子を追加する
クラスタに関連する同じ作業、例えば、異なる翻訳やエディションの表現と管理。
この拡張により、関連するコレクションを結合し、大規模に書籍を分析するのが容易になる。
ツールは現在、人気のあるソフトウェアアプリケーションであるOpenRefineの拡張として設計されており、議会図書館、VIAF、OCLC、HathiTrust、Google Books、Wikidataなどの主要な書誌サービスに接続する。
我々のアプローチは人間の判断を優先する。
対話的なインターフェースによって、ユーザは手動でマッチを評価し、ワークの輪郭(例えば、翻訳を含めるかどうか)を定義することができる。
我々は,アメリカの受賞作品と現代世界フィクションのデータセット上での和解性能を評価する。
BookReconcilerは、米国作品のほぼ完全な精度を実現するが、グローバルテキストのパフォーマンスは低下し、非英語およびグローバル文学のための書誌基盤の構造的弱点を反映している。
全体として、BookReconcilerは、ドメインやアプリケーション間での書誌データの再利用をサポートし、デジタルライブラリやデジタル人文科学における継続的な研究に貢献している。
関連論文リスト
- MajinBook: An open catalogue of digital world literature with likes [2.6547708221528987]
MajinBookは、シャドウライブラリの使用を容易にするために設計されたオープンカタログである。
我々は3世紀にわたる英語の書籍に539,000点を超える高精度のコーパスを作成した。
論文 参考訳(メタデータ) (2025-11-14T15:44:27Z) - ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - Generative Retrieval for Book search [106.67655212825025]
書籍検索のための効率的な生成検索フレームワークを提案する。
データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。
プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
論文 参考訳(メタデータ) (2025-01-19T12:57:13Z) - Image-text matching for large-scale book collections [10.444851303425589]
本稿では,画像の集合内のすべての本を,ある書籍カタログのエントリにマッピングする問題に対処する。
我々は,本文の本軸の検出と,商用OCRを用いた書籍情報の抽出に,SAM(State-of-the-art segmentation method)を組み合わせる。
本手法を評価するため,スペインの公立図書館の蔵書コレクション全体をカバーする注釈付き本棚画像のデータセットを新たに公開した。
論文 参考訳(メタデータ) (2024-07-29T09:05:04Z) - LAVIS: A Library for Language-Vision Intelligence [98.88477610704938]
LAVISは、LAnguage-VISionの研究と応用のためのオープンソースライブラリである。
最先端の画像言語、ビデオ言語モデル、一般的なデータセットに容易にアクセスできる統一インターフェースを備えている。
論文 参考訳(メタデータ) (2022-09-15T18:04:10Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - SacreROUGE: An Open-Source Library for Using and Developing
Summarization Evaluation Metrics [74.28810048824519]
SacreROUGEは、要約評価メトリクスの使用と開発のためのオープンソースライブラリである。
このライブラリは、既存の評価メトリクスの公式実装に関するPythonラッパーを提供する。
ライブラリに実装されたメトリックが、人間による注釈付き判断とどの程度の相関があるかを評価する機能を提供する。
論文 参考訳(メタデータ) (2020-07-10T13:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。