論文の概要: Nine Ways to Break Copyright Law and Why Our LLM Won't: A Fair Use Aligned Generation Framework
- arxiv url: http://arxiv.org/abs/2505.23788v1
- Date: Sun, 25 May 2025 12:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.495688
- Title: Nine Ways to Break Copyright Law and Why Our LLM Won't: A Fair Use Aligned Generation Framework
- Title(参考訳): 著作権法を破る9つの方法とLLMがそうでない理由
- Authors: Aakash Sen Sharma, Debdeep Sanyal, Priyansh Srivastava, Sundar Atreya H., Shirish Karande, Mohan Kankanhalli, Murari Mandal,
- Abstract要約: 大規模言語モデル (LLM) は、保護されたコンテンツを冗長に再現したり、変換に不十分な修正を加えて著作権侵害を犯すのが一般的である。
我々は、LLM出力とフェアユース・ドクトリンとの整合性を明示的に設計した法的基盤の枠組みを開発する。
FuA-LLMは最先端のアプローチと比較して、問題のある出力(最大20%)を大幅に削減する。
- 参考スコア(独自算出の注目度): 7.941114118462577
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) commonly risk copyright infringement by reproducing protected content verbatim or with insufficient transformative modifications, posing significant ethical, legal, and practical concerns. Current inference-time safeguards predominantly rely on restrictive refusal-based filters, often compromising the practical utility of these models. To address this, we collaborated closely with intellectual property experts to develop FUA-LLM (Fair Use Aligned Language Models), a legally-grounded framework explicitly designed to align LLM outputs with fair-use doctrine. Central to our method is FairUseDB, a carefully constructed dataset containing 18,000 expert-validated examples covering nine realistic infringement scenarios. Leveraging this dataset, we apply Direct Preference Optimization (DPO) to fine-tune open-source LLMs, encouraging them to produce legally compliant and practically useful alternatives rather than resorting to blunt refusal. Recognizing the shortcomings of traditional evaluation metrics, we propose new measures: Weighted Penalty Utility and Compliance Aware Harmonic Mean (CAH) to balance infringement risk against response utility. Extensive quantitative experiments coupled with expert evaluations confirm that FUA-LLM substantially reduces problematic outputs (up to 20\%) compared to state-of-the-art approaches, while preserving real-world usability.
- Abstract(参考訳): 大規模言語モデル (LLM) は、保護されたコンテンツの口頭文字を再現したり、トランスフォーメーションに不十分な修正を加えて、重大な倫理的、法的、実用的な懸念を訴えることで、著作権侵害のリスクを負うのが一般的である。
現在の推論時セーフガードは、主に制限された拒絶に基づくフィルタに依存しており、しばしばこれらのモデルの実用性を損なう。
そこで我々は知的財産の専門家と緊密に協力し,LLM出力とフェアユースドクトとの整合性を明示した法的根拠のあるフレームワークであるFUA-LLM(Fair Use Aligned Language Models)を開発した。
提案手法の中心はFairUseDBで,9つの現実的な侵害シナリオをカバーする18,000のエキスパート検証済み例を含む,慎重に構築されたデータセットである。
このデータセットを活用することで、オープンソースLLMの微調整にDPO(Direct Preference Optimization)を適用する。
従来の評価指標の欠点を認識して, 対応ユーティリティに対する侵害リスクのバランスをとるために, 重み付きペナルティ・ユーティリティとコンプライアンス・アウェア・ハーモニック・平均(CAH)を提案する。
専門的な評価と組み合わせた大規模な定量的実験により、FUA-LLMは現実のユーザビリティを保ちながら、最先端のアプローチと比較して問題出力(最大20 %)を著しく減少させることを確認した。
関連論文リスト
- Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - SUV: Scalable Large Language Model Copyright Compliance with Regularized Selective Unlearning [22.76025238218253]
SUVは、大規模言語モデルが著作権のあるコンテンツを記憶することを防ぐために設計された選択的なアンラーニングフレームワークである。
私たちは、冗長な著作権のあるコンテンツを、プラウシブルで一貫性のある代替品に置き換えます。
我々は,500冊の有名な書籍の大規模データセットを用いて,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-03-29T02:33:26Z) - Prompt Inversion Attack against Collaborative Inference of Large Language Models [14.786666134508645]
本稿では、悪意のある参加者が、前の参加者が送信したアクティベーションを通じて入力プロンプトを回復しようとする、プロンプト・インバージョン・アタック(PIA)の概念を紹介する。
Llama-65Bモデルを用いてSkytraxデータセットの88.4%のトークン精度を実現する。
論文 参考訳(メタデータ) (2025-03-12T03:20:03Z) - FACTER: Fairness-Aware Conformal Thresholding and Prompt Engineering for Enabling Fair LLM-Based Recommender Systems [4.825037489691159]
LLMに基づくリコメンデーションシステムのためのフェアネス対応フレームワークであるFACTERを提案する。
適応的意味分散しきい値と違反トリガー機構を導入することにより、FACTERはバイアスパターンが現れるたびに自動的に公正性制約を厳格化する。
MovieLensとAmazonの実証的な結果は、FACTERが強い推奨精度を維持しつつ、フェアネス違反(最大95.5%)を大幅に低減していることを示している。
論文 参考訳(メタデータ) (2025-02-05T08:07:04Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
本稿では,LMの著作権削除の可能性と副作用を初めて評価する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (2024-06-26T18:09:46Z) - A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System [9.470545149911072]
本稿では,LCMを利用したリコメンデータシステムにおいて,消費者の公正性をベンチマークするための規範的フレームワークを提案する。
このギャップは公平性に関する任意の結論につながる可能性があると我々は主張する。
MovieLensデータセットの消費者の公正性に関する実験は、年齢ベースの推奨において公平さの偏りを明らかにしている。
論文 参考訳(メタデータ) (2024-05-03T16:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。