Fugu-MT 論文翻訳(概要): LLMs Plagiarize: Ensuring Responsible Sourcing of Large Language Model Training Data Through Knowledge Graph Comparison

論文の概要: LLMs Plagiarize: Ensuring Responsible Sourcing of Large Language Model Training Data Through Knowledge Graph Comparison

arxiv url: http://arxiv.org/abs/2407.02659v2
Date: Fri, 2 Aug 2024 15:13:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-05 15:50:45.726878
Title: LLMs Plagiarize: Ensuring Responsible Sourcing of Large Language Model Training Data Through Knowledge Graph Comparison
Title（参考訳）: LLMs Plagiarize:知識グラフ比較による大規模言語モデルの学習データの応答性保証
Authors: Devam Mondal, Carlo Lipizzi,
Abstract要約: 本稿では,大規模言語モデルの訓練や微調整に知識源が用いられているかどうかを評価するための,新たなシステムであるプラジャリズム検出システムを提案する。現在の手法とは異なり、我々はResource Description Framework(RDF)トリプルを使用して、ソースドキュメントとLLM継続の両方から知識グラフを作成するアプローチを利用する。これらのグラフは、コサイン類似性を用いてコンテンツに関して分析され、また、同型度を示すグラフ編集距離の正規化版を用いて構造に関して分析される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In light of recent legal allegations brought by publishers, newspapers, and other creators of copyrighted corpora against large language model developers who use their copyrighted materials for training or fine-tuning purposes, we propose a novel system, a variant of a plagiarism detection system, that assesses whether a knowledge source has been used in the training or fine-tuning of a large language model. Unlike current methods, we utilize an approach that uses Resource Description Framework (RDF) triples to create knowledge graphs from both a source document and an LLM continuation of that document. These graphs are then analyzed with respect to content using cosine similarity and with respect to structure using a normalized version of graph edit distance that shows the degree of isomorphism. Unlike traditional plagiarism systems that focus on content matching and keyword identification between a source and a target corpus, our approach enables a broader and more accurate evaluation of similarity between a source document and LLM continuation by focusing on relationships between ideas and their organization with regards to others. Additionally, our approach does not require access to LLM metrics like perplexity that may be unavailable in closed large language model "black-box" systems, as well as the training corpus. We thus assess whether an LLM has "plagiarized" a corpus in its continuation through similarity measures. A prototype of our system will be found on a hyperlinked GitHub repository.
Abstract（参考訳）: 近年,出版社,新聞,その他の著作権付きコーパス作成者が,著作権付き教材をトレーニングや微調整目的で利用する大規模言語モデル開発者に対して起こした法的主張を踏まえ,大規模言語モデルの訓練や微調整に知識源が使用されているかどうかを評価する新しいシステム,盗作検出システムを提案する。現在の手法とは異なり、我々はResource Description Framework(RDF)トリプルを使用して、ソースドキュメントとLLM継続の両方から知識グラフを作成するアプローチを利用する。これらのグラフは、コサイン類似性を用いてコンテンツに関して分析され、また、同型度を示すグラフ編集距離の正規化版を用いて構造に関して分析される。ソースとターゲットコーパス間のコンテンツマッチングやキーワード識別に重点を置く従来のプラジャリズムシステムとは異なり,提案手法は,アイデアと組織間の相互関係に着目して,ソースドキュメントとLCM継続の類似性をより広く,より正確な評価を可能にする。さらに,閉鎖型大規模言語モデル「ブラックボックス」システムやトレーニングコーパスでは利用できないパープレキシティなどのLCMメトリクスへのアクセスも不要である。そこで我々は,LLMがコーパスの継続を類似度測定によって「プラギアル化」したかどうかを評価する。システムのプロトタイプはハイパーリンクされたGitHubリポジトリで公開されます。

関連論文リスト

SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文参考訳（メタデータ） (2025-08-27T12:56:57Z)
How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文参考訳（メタデータ） (2025-08-25T06:43:27Z)
Disentangling concept semantics via multilingual averaging in Sparse Autoencoders [3.1542695050861544]
本稿では,スパースオートエンコーダを用いた概念アクティベーションの平均化により,Large Langue Modelsの概念セマンティクスを分離する手法を提案する。 Sparse Autoencoders のオープンソース Gemma Scope スイートを用いて,各クラスおよび言語バージョンに対する概念アクティベーションを得る。以上の結果から,概念平均は単一言語自体と比較してクラス間の真の関係に一致することが示唆された。
論文参考訳（メタデータ） (2025-08-19T21:18:56Z)
I Can Find You in Seconds! Leveraging Large Language Models for Code Authorship Attribution [10.538442986619147]
State-of-the-art large language model (LLM)は、様々な言語でソースコードのオーサリングに成功している。 LLMは、悪質な攻撃に対する敵対的な堅牢性を示す。本稿では,大規模属性に対するトーナメント方式のアプローチを提案する。
論文参考訳（メタデータ） (2025-01-14T14:46:19Z)
A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。 IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文参考訳（メタデータ） (2024-10-29T04:14:23Z)
SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文参考訳（メタデータ） (2024-10-28T18:10:26Z)
DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。 DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文参考訳（メタデータ） (2024-06-07T19:38:05Z)
SPOT: Text Source Prediction from Originality Score Thresholding [6.790905400046194]
対策は誤報を検出することを目的としており、通常、あらゆる情報の関連性を認識するために訓練されたドメイン固有モデルを含む。情報の有効性を評価する代わりに,信頼の観点からLLM生成テキストを調べることを提案する。
論文参考訳（メタデータ） (2024-05-30T21:51:01Z)
Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文参考訳（メタデータ） (2024-05-28T09:12:44Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。 CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文参考訳（メタデータ） (2024-01-04T11:14:01Z)
Large Language Models on Graphs: A Comprehensive Survey [77.16803297418201]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文参考訳（メタデータ） (2023-12-05T14:14:27Z)
Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文参考訳（メタデータ） (2023-05-24T01:53:49Z)
UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文参考訳（メタデータ） (2022-05-23T11:01:59Z)
Detecting Cross-Language Plagiarism using Open Knowledge Graphs [7.378348990383349]
本稿では,多言語検索モデルであるクロスランゲージオントロジーに基づく類似性分析を提案する。 CL-OSAは、オープン知識グラフWikidataから得られたエンティティベクトルとして文書を表す。ホモニムとスケールを確実に曖昧にし、Webスケールのドキュメントコレクションに適用できるようにします。
論文参考訳（メタデータ） (2021-11-18T15:23:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。