論文の概要: Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs
- arxiv url: http://arxiv.org/abs/2502.19413v2
- Date: Fri, 18 Apr 2025 15:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 15:46:21.36697
- Title: Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs
- Title(参考訳): Project Alexandria: LLMによる著作権侵害から科学的知識の解放を目指す
- Authors: Christoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge,
- Abstract要約: ペイウォール、ライセンスおよび著作権規則は、科学知識の広く普及と再利用を制限することが多い。
学術文献から科学的知識を抽出することは法的にも技術的にも可能であるという立場を取る。
我々は,学術文書を知識保存に転換するが,形式に依存しない表現に転換する,コミュニティが採用すべき新しいアイデアを提案する。
- 参考スコア(独自算出の注目度): 26.952396644343537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Paywalls, licenses and copyright rules often restrict the broad dissemination and reuse of scientific knowledge. We take the position that it is both legally and technically feasible to extract the scientific knowledge in scholarly texts. Current methods, like text embeddings, fail to reliably preserve factual content, and simple paraphrasing may not be legally sound. We propose a new idea for the community to adopt: convert scholarly documents into knowledge preserving, but style agnostic representations we term Knowledge Units using LLMs. These units use structured data capturing entities, attributes and relationships without stylistic content. We provide evidence that Knowledge Units (1) form a legally defensible framework for sharing knowledge from copyrighted research texts, based on legal analyses of German copyright law and U.S. Fair Use doctrine, and (2) preserve most (~95\%) factual knowledge from original text, measured by MCQ performance on facts from the original copyrighted text across four research domains. Freeing scientific knowledge from copyright promises transformative benefits for scientific research and education by allowing language models to reuse important facts from copyrighted text. To support this, we share open-source tools for converting research documents into Knowledge Units. Overall, our work posits the feasibility of democratizing access to scientific knowledge while respecting copyright.
- Abstract(参考訳): ペイウォール、ライセンスおよび著作権規則は、科学知識の広く普及と再利用を制限することが多い。
学術文献から科学的知識を抽出することは法的にも技術的にも可能であるという立場を取る。
テキスト埋め込みのような現在の方法は、事実を確実に保存することができず、単純な言い回しは法的に正しくないかもしれない。
学術文書を知識保存に変換するが,LLMを用いた知識単位と呼ばれるスタイルに依存しない表現を提案する。
これらのユニットは、構造化されたデータキャプチャーエンティティ、属性、そしてスタイリスティックな内容のない関係を使用する。
我々は,(1)ドイツ著作権法及び米国公正使用主義の法的分析に基づいて,著作権研究文書から知識を共有するための法的に保護可能な枠組みを形成し,(2)MCQが4つの研究領域にまたがる原文の事実に基づいて測定した原文からの事実知識のほとんど(~95%)を保存していることを示す。
科学知識を著作権から解放することは、言語モデルが著作権のあるテキストから重要な事実を再利用できるようにすることによって、科学研究と教育の変革的な利益を約束する。
これをサポートするために、研究資料を知識単位に変換するためのオープンソースツールを共有します。
全体として、我々の研究は、著作権を尊重しながら科学的知識へのアクセスを民主化できる可能性を示している。
関連論文リスト
- Measuring Copyright Risks of Large Language Model via Partial Information Probing [14.067687792633372]
LLM(Large Language Models)のトレーニングに使用されるデータソースについて検討する。
著作権のあるテキストの一部をLSMに入力し、それを完了するように促し、生成したコンテンツとオリジナルの著作権のある資料の重複を分析します。
これらの部分的な入力に基づいて著作権素材と重なり合うコンテンツをLLMが生成できることが本研究で実証された。
論文 参考訳(メタデータ) (2024-09-20T18:16:05Z) - Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。
我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。
透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:53:09Z) - AKEW: Assessing Knowledge Editing in the Wild [79.96813982502952]
AKEW(Assessing Knowledge Editing in the Wild)は知識編集のための新しい実用的なベンチマークである。
知識更新の編集設定は、構造化された事実、構造化されていない事実としてのテキスト、抽出された三つ組の3つを網羅している。
大規模な実験を通じて、最先端の知識編集手法と実践シナリオの間にかなりのギャップがあることを実証する。
論文 参考訳(メタデータ) (2024-02-29T07:08:34Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - Copyright Violations and Large Language Models [10.251605253237491]
本研究は,動詞の暗記のレンズを通して,著作権侵害や大規模言語モデルの問題を探究する。
一般的な書籍のコレクションやコーディング問題に対して,さまざまな言語モデルを用いて実験を行った。
本研究は,著作権規制の遵守を確実にするために,自然言語処理のさらなる検討の必要性と今後の発展への潜在的影響を強調した。
論文 参考訳(メタデータ) (2023-10-20T19:14:59Z) - Source Attribution for Large Language Model-Generated Data [57.85840382230037]
合成テキストの生成に寄与したデータプロバイダを特定することで、ソース属性を実行できることが不可欠である。
我々はこの問題を透かしによって取り組めることを示した。
本稿では,アルゴリズム設計により,これらの重要な特性を満足する情報源属性フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:57Z) - Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z) - Whose Text Is It Anyway? Exploring BigCode, Intellectual Property, and
Ethics [1.933681537640272]
本稿では,大規模言語モデル(LLM)の学習に用いるオープンデータセットの著作権権について検討する。
我々の論文は、オープンデータセットでトレーニングされたLCMは、どのようにして使用済みデータの著作権上の利益を回避できるのか、と問う。
論文 参考訳(メタデータ) (2023-04-06T03:09:26Z) - The Semantic Scholar Open Data Platform [92.2948743167744]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - InvBERT: Text Reconstruction from Contextualized Embeddings used for
Derived Text Formats of Literary Works [1.6058099298620423]
Digital Humanities and Computational Literary Studiesは文献調査にテキストマイニング手法を適用している。
著作権の制限により、関連するデジタル化された文学作品の入手は制限されている。
BERTを逆転しようとする試みは、エンコーダのパーツをコンテキスト化された埋め込みと共に公開することが重要であることを示唆している。
論文 参考訳(メタデータ) (2021-09-21T11:35:41Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。