論文の概要: Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs
- arxiv url: http://arxiv.org/abs/2502.19413v1
- Date: Wed, 26 Feb 2025 18:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:43.579109
- Title: Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs
- Title(参考訳): Project Alexandria: LLMによる著作権侵害から科学的知識の解放を目指す
- Authors: Christoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge,
- Abstract要約: ペイウォール、ライセンスおよび著作権規則は、科学知識の広く普及と再利用を制限することが多い。
学術文献から科学的知識を抽出することは法的にも技術的にも可能であるという立場を取る。
テキスト埋め込みのような現在の方法は、事実を確実に保存することができず、単純な言い回しは法的に正しくないかもしれない。
- 参考スコア(独自算出の注目度): 26.952396644343537
- License:
- Abstract: Paywalls, licenses and copyright rules often restrict the broad dissemination and reuse of scientific knowledge. We take the position that it is both legally and technically feasible to extract the scientific knowledge in scholarly texts. Current methods, like text embeddings, fail to reliably preserve factual content, and simple paraphrasing may not be legally sound. We urge the community to adopt a new idea: convert scholarly documents into Knowledge Units using LLMs. These units use structured data capturing entities, attributes and relationships without stylistic content. We provide evidence that Knowledge Units: (1) form a legally defensible framework for sharing knowledge from copyrighted research texts, based on legal analyses of German copyright law and U.S. Fair Use doctrine, and (2) preserve most (~95%) factual knowledge from original text, measured by MCQ performance on facts from the original copyrighted text across four research domains. Freeing scientific knowledge from copyright promises transformative benefits for scientific research and education by allowing language models to reuse important facts from copyrighted text. To support this, we share open-source tools for converting research documents into Knowledge Units. Overall, our work posits the feasibility of democratizing access to scientific knowledge while respecting copyright.
- Abstract(参考訳): ペイウォール、ライセンスおよび著作権規則は、科学知識の広く普及と再利用を制限することが多い。
学術文献から科学的知識を抽出することは法的にも技術的にも可能であるという立場を取る。
テキスト埋め込みのような現在の方法は、事実を確実に保存することができず、単純な言い回しは法的に正しくないかもしれない。
我々は,学術文書を LLM を用いて知識単位に変換するという,新しい考え方を採用するようコミュニティに促す。
これらのユニットは、構造化されたデータキャプチャーエンティティ、属性、そしてスタイリスティックな内容のない関係を使用する。
知識単位:(1)ドイツ著作権法及び米国公正使用主義の法的分析に基づいて、著作権研究文書から知識を共有するための法的に保護可能な枠組みを形成し、(2)MCQが4つの研究領域にわたる原著作権文書から事実に基づいて測定した原文から最も多く(〜95%)の事実知識を保持することの証拠を提供する。
科学知識を著作権から解放することは、言語モデルが著作権のあるテキストから重要な事実を再利用できるようにすることによって、科学研究と教育の変革的な利益を約束する。
これをサポートするために、研究資料を知識単位に変換するためのオープンソースツールを共有します。
全体として、我々の研究は、著作権を尊重しながら科学的知識へのアクセスを民主化できる可能性を示している。
関連論文リスト
- Measuring Copyright Risks of Large Language Model via Partial Information Probing [14.067687792633372]
LLM(Large Language Models)のトレーニングに使用されるデータソースについて検討する。
著作権のあるテキストの一部をLSMに入力し、それを完了するように促し、生成したコンテンツとオリジナルの著作権のある資料の重複を分析します。
これらの部分的な入力に基づいて著作権素材と重なり合うコンテンツをLLMが生成できることが本研究で実証された。
論文 参考訳(メタデータ) (2024-09-20T18:16:05Z) - Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。
我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。
透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:53:09Z) - AKEW: Assessing Knowledge Editing in the Wild [79.96813982502952]
AKEW(Assessing Knowledge Editing in the Wild)は知識編集のための新しい実用的なベンチマークである。
知識更新の編集設定は、構造化された事実、構造化されていない事実としてのテキスト、抽出された三つ組の3つを網羅している。
大規模な実験を通じて、最先端の知識編集手法と実践シナリオの間にかなりのギャップがあることを実証する。
論文 参考訳(メタデータ) (2024-02-29T07:08:34Z) - Copyright Violations and Large Language Models [10.251605253237491]
本研究は,動詞の暗記のレンズを通して,著作権侵害や大規模言語モデルの問題を探究する。
一般的な書籍のコレクションやコーディング問題に対して,さまざまな言語モデルを用いて実験を行った。
本研究は,著作権規制の遵守を確実にするために,自然言語処理のさらなる検討の必要性と今後の発展への潜在的影響を強調した。
論文 参考訳(メタデータ) (2023-10-20T19:14:59Z) - Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z) - Whose Text Is It Anyway? Exploring BigCode, Intellectual Property, and
Ethics [1.933681537640272]
本稿では,大規模言語モデル(LLM)の学習に用いるオープンデータセットの著作権権について検討する。
我々の論文は、オープンデータセットでトレーニングされたLCMは、どのようにして使用済みデータの著作権上の利益を回避できるのか、と問う。
論文 参考訳(メタデータ) (2023-04-06T03:09:26Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - InvBERT: Text Reconstruction from Contextualized Embeddings used for
Derived Text Formats of Literary Works [1.6058099298620423]
Digital Humanities and Computational Literary Studiesは文献調査にテキストマイニング手法を適用している。
著作権の制限により、関連するデジタル化された文学作品の入手は制限されている。
BERTを逆転しようとする試みは、エンコーダのパーツをコンテキスト化された埋め込みと共に公開することが重要であることを示唆している。
論文 参考訳(メタデータ) (2021-09-21T11:35:41Z) - Tortured phrases: A dubious writing style emerging in science. Evidence
of critical issues affecting established journals [69.76097138157816]
確率的テキストジェネレータは10年以上にわたって偽の科学論文の作成に使われてきた。
複雑なAIを利用した生成技術は、人間のものと区別できないテキストを生成する。
一部のウェブサイトはテキストを無料で書き直し、拷問されたフレーズでいっぱいのgobbledegookを生成する。
論文 参考訳(メタデータ) (2021-07-12T20:47:08Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。