論文の概要: The Impact of Copyrighted Material on Large Language Models: A Norwegian Perspective
- arxiv url: http://arxiv.org/abs/2412.09460v2
- Date: Tue, 21 Jan 2025 14:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:17:02.430311
- Title: The Impact of Copyrighted Material on Large Language Models: A Norwegian Perspective
- Title(参考訳): 著作権物質が大規模言語モデルに及ぼす影響--ノルウェーの視点から
- Authors: Javier de la Rosa, Vladislav Mikhailov, Lemei Zhang, Freddy Wetjen, David Samuel, Peng Liu, Rolv-Arild Braaten, Petter Mæhlum, Magnus Breder Birkenes, Andrey Kutuzov, Tita Enstad, Hans Christian Farsethås, Svein Arne Brygfjeld, Jon Atle Gulla, Stephan Oepen, Erik Velldal, Wilfred Østgulen, Liljia Øvrelid, Aslak Sira Myhre,
- Abstract要約: 本稿では,ノルウェーにおける出版社が管理する著作権コーパスが生成型大規模言語モデル(LLM)の性能に与える影響を実証的に評価する枠組みと結果について述べる。
LLMのデータミックスに本と新聞の両方を追加すると、その性能が向上する傾向にあり、フィクション作品の追加は有害であることがわかった。
我々の実験は、AI開発に貢献する著者のための補償スキームの作成を知らせる可能性がある。
- 参考スコア(独自算出の注目度): 7.849899092103348
- License:
- Abstract: The use of copyrighted materials in training language models raises critical legal and ethical questions. This paper presents a framework for and the results of empirically assessing the impact of publisher-controlled copyrighted corpora on the performance of generative large language models (LLMs) for Norwegian. When evaluated on a diverse set of tasks, we found that adding both books and newspapers to the data mixture of LLMs tend to improve their performance, while the addition of fiction works seems to be detrimental. Our experiments could inform the creation of a compensation scheme for authors whose works contribute to AI development.
- Abstract(参考訳): 教育言語モデルにおける著作権物質の使用は、法的および倫理的問題を引き起こす。
本稿では,ノルウェーにおける出版社が管理する著作権コーパスが生成型大規模言語モデル(LLM)の性能に与える影響を実証的に評価する枠組みと結果について述べる。
多様なタスクセットで評価した結果,書籍と新聞の両方をLCMのデータミックスに加えることによって性能が向上する傾向があり,フィクション作品の追加は有害であることがわかった。
我々の実験は、AI開発に貢献する著者のための補償スキームの作成を知らせる可能性がある。
関連論文リスト
- Mind the Gap! Choice Independence in Using Multilingual LLMs for Persuasive Co-Writing Tasks in Different Languages [51.96666324242191]
チャリティー広告作成タスクにおける新規筆記アシスタントのユーザ利用が、第2言語におけるAIの性能に影響を及ぼすかどうかを分析する。
我々は、これらのパターンが、生成したチャリティー広告の説得力に変換される程度を定量化する。
論文 参考訳(メタデータ) (2025-02-13T17:49:30Z) - Evaluation of Attribution Bias in Retrieval-Augmented Large Language Models [47.694137341509304]
大規模言語モデルにおける著者情報に対する属性感度とバイアスを評価する。
文献に著者情報を追加することで, LLMの属性品質を3%から18%大きく変化させることができることを示す。
その結果,資料のメタデータがLCMの信頼度や回答の属性に影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-16T08:55:49Z) - Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。
我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。
透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:53:09Z) - Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
本稿では,LMの著作権削除の可能性と副作用を初めて評価する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (2024-06-26T18:09:46Z) - American Sign Language Video to Text Translation [0.0]
テキストへの手話は、難聴者のコミュニケーション障壁を断ち切る重要な技術である。
BLEUおよびrBLEUメトリクスを用いて翻訳品質を保証するモデルを評価する。
論文 参考訳(メタデータ) (2024-02-11T17:46:33Z) - Digger: Detecting Copyright Content Mis-usage in Large Language Model
Training [23.99093718956372]
本稿では,Large Language Models (LLMs) のトレーニングデータセット内で著作権のある書籍のコンテンツの存在を検知し,評価するためのフレームワークを提案する。
このフレームワークはまた、各コンテンツサンプルのインクルージョンの可能性の信頼度推定も提供する。
論文 参考訳(メタデータ) (2024-01-01T06:04:52Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Harnessing the Power of LLMs: Evaluating Human-AI Text Co-Creation
through the Lens of News Headline Generation [58.31430028519306]
本研究は, LLMを書き込みに最も有効に活用する方法と, これらのモデルとのインタラクションが, 書き込みプロセスにおけるオーナシップや信頼感にどのように影響するかを考察する。
LLMだけで十分なニュースの見出しを生成することができるが、平均すると、望ましくないモデルのアウトプットを修正するには人間による制御が必要である。
論文 参考訳(メタデータ) (2023-10-16T15:11:01Z) - Studying the impacts of pre-training using ChatGPT-generated text on
downstream tasks [0.0]
本研究の目的は,言語モデルの事前学習における人工テキストの影響を検討することである。
我々は、CNN/DailyMailのニュース記事を用いて事前学習したRoBERTaと、同じ記事をトレーニングに用いたChatGPTの比較分析を行った。
事前学習における人工テキストの利用は、下流作業におけるモデルの性能や性別の偏りに有意な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-09-02T12:56:15Z) - Neural Authorship Attribution: Stylometric Analysis on Large Language
Models [16.63955074133222]
GPT-4、PaLM、Llamaのような大規模言語モデル(LLM)は、AIによるテキスト生成を著しく推進している。
誤用の可能性に対する懸念が高まっているため、AI生成テキストの鑑識の必要性が高まっている。
論文 参考訳(メタデータ) (2023-08-14T17:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。