論文の概要: MajinBook: An open catalogue of digital world literature with likes
- arxiv url: http://arxiv.org/abs/2511.11412v2
- Date: Tue, 18 Nov 2025 17:38:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.656631
- Title: MajinBook: An open catalogue of digital world literature with likes
- Title(参考訳): MajinBook: デジタルワールド文学のオープンカタログ
- Authors: Antoine Mazières, Thierry Poibeau,
- Abstract要約: MajinBookは、シャドウライブラリの使用を容易にするために設計されたオープンカタログである。
我々は3世紀にわたる英語の書籍に539,000点を超える高精度のコーパスを作成した。
- 参考スコア(独自算出の注目度): 2.6547708221528987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This data paper introduces MajinBook, an open catalogue designed to facilitate the use of shadow libraries--such as Library Genesis and Z-Library--for computational social science and cultural analytics. By linking metadata from these vast, crowd-sourced archives with structured bibliographic data from Goodreads, we create a high-precision corpus of over 539,000 references to English-language books spanning three centuries, enriched with first publication dates, genres, and popularity metrics like ratings and reviews. Our methodology prioritizes natively digital EPUB files to ensure machine-readable quality, while addressing biases in traditional corpora like HathiTrust, and includes secondary datasets for French, German, and Spanish. We evaluate the linkage strategy for accuracy, release all underlying data openly, and discuss the project's legal permissibility under EU and US frameworks for text and data mining in research.
- Abstract(参考訳): このデータペーパーでは,ライブラリ生成やZライブラリーなどのシャドウライブラリの利用を促進するために設計されたオープンカタログであるMageinBookを紹介し,社会科学と文化分析の計算を行う。
これら膨大なクラウドソースのアーカイブのメタデータとGoodreadsの構造化された書誌データとをリンクさせることで、3世紀にわたる英語の書籍への539,000以上の参照の高精度なコーパスを作成し、最初の出版日、ジャンル、評価やレビューのような人気指標に富んでいる。
我々の手法は、ネイティブにデジタルEPUBファイルを優先して、機械可読性を確保するとともに、HatiTrustのような従来のコーパスのバイアスに対処し、フランス語、ドイツ語、スペイン語のセカンダリデータセットを含む。
我々は、正確なリンク戦略を評価し、基礎となるすべてのデータをオープンに公開し、研究におけるテキストおよびデータマイニングのためのEUおよび米国フレームワークの下でのプロジェクトの法的許容性について議論する。
関連論文リスト
- Metadata Enrichment of Long Text Documents using Large Language Models [3.536523762475449]
本プロジェクトでは,1920年から2020年にかけて出版された英語のHatiTrust Digital Libraryから取得した長文文書のメタデータ,論文,論文のセマンティックエンリッチ化と拡張を行った。
このデータセットは、計算社会科学、デジタル人文科学、情報科学などの分野の研究を進めるための貴重なリソースを提供する。
論文 参考訳(メタデータ) (2025-06-26T00:55:47Z) - Institutional Books 1.0: A 242B token dataset from Harvard Library's collections, refined for accuracy and usability [1.3281177137699656]
Institutional Books 1.0は、2006年からHarvard LibraryのGoogle Booksプロジェクトへの参加を通じてデジタル化されたパブリックドメインブックのコレクションである。
ハーバード図書館で作業し、これらの論文を抽出し、分析し、処理し、歴史文書の広範囲に記録されたデータセットにしました。
この分析は、当初250以上の異なる言語で書かれた1,075,899巻に及ぶ、約250億個のトークンをスキャンしたハーバード図書館のコレクション全体をカバーしている。
論文 参考訳(メタデータ) (2025-06-10T00:11:30Z) - Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [103.0865116794534]
データ収集パイプラインに大規模なモデルを導入し、ドメイン固有の情報の生成をガイドします。
このアプローチをRetrieve-from-CCと呼ぶ。
ドメイン固有の知識に関するデータを収集するだけでなく、パブリックコーパスから潜在的推論手順を含むデータをマイニングする。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - American Stories: A Large-Scale Structured Text Dataset of Historical
U.S. Newspapers [7.161822501147275]
本研究では,新聞画像から記事の全文を抽出する,新しい深層学習パイプラインを開発した。
これは、議会図書館の公共ドメインであるCentralling Americaコレクションの2000万件近いスキャンに適用される。
パイプラインには、レイアウト検出、可視性分類、カスタムOCR、複数のバウンディングボックスにまたがる記事テキストの関連が含まれている。
論文 参考訳(メタデータ) (2023-08-24T00:24:42Z) - The Semantic Scholar Open Data Platform [92.2948743167744]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Documenting Geographically and Contextually Diverse Data Sources: The
BigScience Catalogue of Language Data and Resources [17.69148305999049]
我々はBigScienceイニシアチブの一環として、ドキュメントファーストで人間中心のデータ収集プロジェクトのための方法論を提示する。
我々は,潜在的なデータソースのメタデータを収集する,地理的に多様な対象言語群を同定する。
この取り組みを構築するために,組織化された公開ハッカソンを通じてメタデータを収集する支援ツールとして,オンラインカタログを開発した。
論文 参考訳(メタデータ) (2022-01-25T03:05:23Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning [89.77347919191774]
法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。
我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
論文 参考訳(メタデータ) (2021-04-20T22:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。