論文の概要: Overcoming Copyright Barriers in Corpus Distribution Through Non-Reversible Hashing
- arxiv url: http://arxiv.org/abs/2604.23412v1
- Date: Sat, 25 Apr 2026 19:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.320848
- Title: Overcoming Copyright Barriers in Corpus Distribution Through Non-Reversible Hashing
- Title(参考訳): 非可逆的ハッシュによるコーパス流通における著作権障壁の克服
- Authors: Arthur Amalvy, Vincent Labatut, Xavier Bost, Hen-Hsen Huang,
- Abstract要約: 著作権文書の注釈を合法かつ公に共有する手法を提案する。
コーパス作成者は、ソース資料の非可逆的なハッシュバージョンとともに、アノテーションを明確で共有する。
本手法は,ユーザの所有する著作権データのバージョンにおいて,合理的な相違に対して堅牢である。
- 参考スコア(独自算出の注目度): 16.256397996059196
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While annotated corpora are crucial in the field of natural language processing (NLP), those containing copyrighted material are difficult to exchange among researchers. Yet, such corpora are necessary to fully represent the diversity of data found in the wild in the context of NLP tasks. We tackle this issue by proposing a method to lawfully and publicly share the annotations of copyrighted literary texts. The corpus creator shares the annotations in clear, along with a non-reversible hashed version of the source material. The corpus user must own the source material, and apply the same hash function to their own tokens, in order to match them to the shared annotations. Crucially, our method is robust to reasonable divergences in the version of the copyrighted data owned by the user. As an illustration, we present alignment experiments on different editions of novels. Our results show that our method is able to correctly align 98.7 to 99.79% of tokens depending on the novel, provided the user version is sufficiently close to the corpus creator's version. We publicly release novelshare, a Python implementation of our method.
- Abstract(参考訳): 注釈付きコーパスは自然言語処理(NLP)の分野において重要であるが、著作権物質を含むものは研究者間での交換が困難である。
しかし、そのようなコーパスは、NLPタスクのコンテキストにおいて、野生で見つかったデータの多様性を完全に表現するために必要である。
我々は,著作権文書の注釈を合法かつ公に共有する手法を提案し,この問題に対処する。
コーパス作成者は、ソース資料の非可逆的なハッシュバージョンとともに、アノテーションを明確で共有する。
コーパスユーザはソースを所有し、共有アノテーションにマッチするために、自身のトークンに同じハッシュ関数を適用する必要がある。
重要な点として、当社の手法は、ユーザが所有する著作権データのバージョンにおける合理的な相違に対して堅牢である。
挿絵として、小説の異なる版についてアライメント実験を行う。
提案手法は,ユーザバージョンがコーパス作成者版に十分近い場合,新規性に応じて98.7から99.79%のトークンを正しくアライメント可能であることを示す。
我々は、我々のメソッドのPython実装であるノベルシェアを公にリリースした。
関連論文リスト
- Explainable Disentangled Representation Learning for Generalizable Authorship Attribution in the Era of Generative AI [70.05655131235999]
EAVAE(Explainable Authorship Variational Autoencoder)は、コンテンツからスタイルを明示的に切り離す新しいフレームワークである。
ディスタングルメントは、新規な差別者を通じて実施される。
EAVAEは、AI生成テキスト検出のためのM4データセットよりも、数ショットの学習に優れています。
論文 参考訳(メタデータ) (2026-04-23T05:34:20Z) - LLMs Plagiarize: Ensuring Responsible Sourcing of Large Language Model Training Data Through Knowledge Graph Comparison [0.0]
本稿では,大規模言語モデルの訓練や微調整に知識源が用いられているかどうかを評価するための,新たなシステムであるプラジャリズム検出システムを提案する。
現在の手法とは異なり、我々はResource Description Framework(RDF)トリプルを使用して、ソースドキュメントとLLM継続の両方から知識グラフを作成するアプローチを利用する。
これらのグラフは、コサイン類似性を用いてコンテンツに関して分析され、また、同型度を示すグラフ編集距離の正規化版を用いて構造に関して分析される。
論文 参考訳(メタデータ) (2024-07-02T20:49:21Z) - Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z) - DE-COP: Detecting Copyrighted Content in Language Models Training Data [24.15936677068714]
著作権のあるコンテンツの一部がトレーニングに含まれているかどうかを判定する手法であるDE-COPを提案する。
BookTectionは165冊の書籍から抜粋を抽出したベンチマークで、モデルによるトレーニングの切り離しの後に作成します。
実験の結果、DE-COPは検出性能が9.6%向上した。
論文 参考訳(メタデータ) (2024-02-15T12:17:15Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - Integrating Bidirectional Long Short-Term Memory with Subword Embedding
for Authorship Attribution [2.3429306644730854]
マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。
提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
論文 参考訳(メタデータ) (2023-06-26T11:35:47Z) - Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z) - InvBERT: Text Reconstruction from Contextualized Embeddings used for
Derived Text Formats of Literary Works [1.6058099298620423]
Digital Humanities and Computational Literary Studiesは文献調査にテキストマイニング手法を適用している。
著作権の制限により、関連するデジタル化された文学作品の入手は制限されている。
BERTを逆転しようとする試みは、エンコーダのパーツをコンテキスト化された埋め込みと共に公開することが重要であることを示唆している。
論文 参考訳(メタデータ) (2021-09-21T11:35:41Z) - AMALGUM -- A Free, Balanced, Multilayer English Web Corpus [14.073494095236027]
ジャンルバランスの取れたウェブコーパスを4Mトークンで提示する。
オープンなオンラインデータソースをタップすることで、コーパスはより小さく手作業で作成した注釈付きデータセットに代わる、より大きな代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-18T17:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。