論文の概要: The Impact of Copyrighted Material on Large Language Models: A Norwegian Perspective
- arxiv url: http://arxiv.org/abs/2412.09460v2
- Date: Tue, 21 Jan 2025 14:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 15:04:32.749373
- Title: The Impact of Copyrighted Material on Large Language Models: A Norwegian Perspective
- Title(参考訳): 著作権物質が大規模言語モデルに及ぼす影響--ノルウェーの視点から
- Authors: Javier de la Rosa, Vladislav Mikhailov, Lemei Zhang, Freddy Wetjen, David Samuel, Peng Liu, Rolv-Arild Braaten, Petter Mæhlum, Magnus Breder Birkenes, Andrey Kutuzov, Tita Enstad, Hans Christian Farsethås, Svein Arne Brygfjeld, Jon Atle Gulla, Stephan Oepen, Erik Velldal, Wilfred Østgulen, Liljia Øvrelid, Aslak Sira Myhre,
- Abstract要約: 本稿では,ノルウェーにおける出版社が管理する著作権コーパスが生成型大規模言語モデル(LLM)の性能に与える影響を実証的に評価する枠組みと結果について述べる。
LLMのデータミックスに本と新聞の両方を追加すると、その性能が向上する傾向にあり、フィクション作品の追加は有害であることがわかった。
我々の実験は、AI開発に貢献する著者のための補償スキームの作成を知らせる可能性がある。
- 参考スコア(独自算出の注目度): 7.849899092103348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of copyrighted materials in training language models raises critical legal and ethical questions. This paper presents a framework for and the results of empirically assessing the impact of publisher-controlled copyrighted corpora on the performance of generative large language models (LLMs) for Norwegian. When evaluated on a diverse set of tasks, we found that adding both books and newspapers to the data mixture of LLMs tend to improve their performance, while the addition of fiction works seems to be detrimental. Our experiments could inform the creation of a compensation scheme for authors whose works contribute to AI development.
- Abstract(参考訳): 教育言語モデルにおける著作権物質の使用は、法的および倫理的問題を引き起こす。
本稿では,ノルウェーにおける出版社が管理する著作権コーパスが生成型大規模言語モデル(LLM)の性能に与える影響を実証的に評価する枠組みと結果について述べる。
多様なタスクセットで評価した結果,書籍と新聞の両方をLCMのデータミックスに加えることによって性能が向上する傾向があり,フィクション作品の追加は有害であることがわかった。
我々の実験は、AI開発に貢献する著者のための補償スキームの作成を知らせる可能性がある。
関連論文リスト
- Extending CREAMT: Leveraging Large Language Models for Literary Translation Post-Editing [0.0]
本研究では,大規模言語モデル(LLM)による後編集文体翻訳の実現可能性について検討する。
以上の結果から,LLM生成後翻訳は人間の翻訳に比べて編集時間を大幅に短縮し,創造性も向上した。
論文 参考訳(メタデータ) (2025-04-03T21:48:09Z) - Mind the Gap! Choice Independence in Using Multilingual LLMs for Persuasive Co-Writing Tasks in Different Languages [51.96666324242191]
チャリティー広告作成タスクにおける新規筆記アシスタントのユーザ利用が、第2言語におけるAIの性能に影響を及ぼすかどうかを分析する。
我々は、これらのパターンが、生成したチャリティー広告の説得力に変換される程度を定量化する。
論文 参考訳(メタデータ) (2025-02-13T17:49:30Z) - Evaluation of Attribution Bias in Retrieval-Augmented Large Language Models [47.694137341509304]
大規模言語モデルにおける著者情報に対する属性感度とバイアスを評価する。
文献に著者情報を追加することで, LLMの属性品質を3%から18%大きく変化させることができることを示す。
その結果,資料のメタデータがLCMの信頼度や回答の属性に影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-16T08:55:49Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。
我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。
透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:53:09Z) - Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
本稿では,LMの著作権削除の可能性と副作用を初めて評価する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (2024-06-26T18:09:46Z) - Since the Scientific Literature Is Multilingual, Our Models Should Be Too [8.039428445336364]
文献の大部分は多言語であり、現在のモデルとベンチマークはこの言語多様性を反映すべきである、と論じている。
テキストベースのモデルでは、非英語の論文に意味のある表現を作れず、多言語ドメインで非差別的に英語のみのモデルを使用することによるネガティブなユーザ面の影響を強調できる証拠を提供する。
論文 参考訳(メタデータ) (2024-03-27T04:47:10Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - American Sign Language Video to Text Translation [0.0]
テキストへの手話は、難聴者のコミュニケーション障壁を断ち切る重要な技術である。
BLEUおよびrBLEUメトリクスを用いて翻訳品質を保証するモデルを評価する。
論文 参考訳(メタデータ) (2024-02-11T17:46:33Z) - Digger: Detecting Copyright Content Mis-usage in Large Language Model
Training [23.99093718956372]
本稿では,Large Language Models (LLMs) のトレーニングデータセット内で著作権のある書籍のコンテンツの存在を検知し,評価するためのフレームワークを提案する。
このフレームワークはまた、各コンテンツサンプルのインクルージョンの可能性の信頼度推定も提供する。
論文 参考訳(メタデータ) (2024-01-01T06:04:52Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Harnessing the Power of LLMs: Evaluating Human-AI Text Co-Creation
through the Lens of News Headline Generation [58.31430028519306]
本研究は, LLMを書き込みに最も有効に活用する方法と, これらのモデルとのインタラクションが, 書き込みプロセスにおけるオーナシップや信頼感にどのように影響するかを考察する。
LLMだけで十分なニュースの見出しを生成することができるが、平均すると、望ましくないモデルのアウトプットを修正するには人間による制御が必要である。
論文 参考訳(メタデータ) (2023-10-16T15:11:01Z) - Studying the impacts of pre-training using ChatGPT-generated text on
downstream tasks [0.0]
本研究の目的は,言語モデルの事前学習における人工テキストの影響を検討することである。
我々は、CNN/DailyMailのニュース記事を用いて事前学習したRoBERTaと、同じ記事をトレーニングに用いたChatGPTの比較分析を行った。
事前学習における人工テキストの利用は、下流作業におけるモデルの性能や性別の偏りに有意な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-09-02T12:56:15Z) - Neural Authorship Attribution: Stylometric Analysis on Large Language
Models [16.63955074133222]
GPT-4、PaLM、Llamaのような大規模言語モデル(LLM)は、AIによるテキスト生成を著しく推進している。
誤用の可能性に対する懸念が高まっているため、AI生成テキストの鑑識の必要性が高まっている。
論文 参考訳(メタデータ) (2023-08-14T17:46:52Z) - Lessons in Reproducibility: Insights from NLP Studies in Materials
Science [4.205692673448206]
我々は,これらの研究を観点から理解し,材料情報学の分野に対するその大きな影響を,それらに批判的でなく認識することを目的としている。
本研究は, 両論文とも, 徹底した, 丁寧な, ドキュメント化され, モデル評価のための明確なガイダンスが得られたことを示唆する。
著作権制限が許すトレーニングデータへのアクセス、モデルアーキテクチャとトレーニングプロセスの透明性の向上、ソフトウェア依存バージョン仕様など、改善すべき領域を強調します。
論文 参考訳(メタデータ) (2023-07-28T18:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。