論文の概要: FOCUS: Forging Originality through Contrastive Use in Self-Plagiarism for Language Models
- arxiv url: http://arxiv.org/abs/2406.00839v1
- Date: Sun, 2 Jun 2024 19:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 03:07:06.159613
- Title: FOCUS: Forging Originality through Contrastive Use in Self-Plagiarism for Language Models
- Title(参考訳): FOCUS:言語モデルのための自己プラギアリズムにおけるコントラスト利用によるオリジナル性を鍛造する
- Authors: Kaixin Lan, Tao Fang, Derek F. Wong, Yabo Xu, Lidia S. Chao, Cecilia G. Zhao,
- Abstract要約: プレトレーニング言語モデル(PLM)は、様々な自然言語生成(NLG)タスクにおいて印象的な結果を示している。
本研究では, PLMが生成するテキストの独創性を高めることを目的とした, 独特な「自己プラギアリズム」コントラスト的復号戦略を提案する。
- 参考スコア(独自算出の注目度): 38.76912842622624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Language Models (PLMs) have shown impressive results in various Natural Language Generation (NLG) tasks, such as powering chatbots and generating stories. However, an ethical concern arises due to their potential to produce verbatim copies of paragraphs from their training data. This is problematic as PLMs are trained on corpora constructed by human authors. As such, there is a pressing need for research to promote the generation of original content by these models. In this study, we introduce a unique "self-plagiarism" contrastive decoding strategy, aimed at boosting the originality of text produced by PLMs. Our method entails modifying prompts in LLMs to develop an amateur model and a professional model. Specifically, the amateur model is urged to plagiarize using three plagiarism templates we have designed, while the professional model maintains its standard language model status. This strategy employs prompts to stimulate the model's capacity to identify non-original candidate token combinations and subsequently impose penalties. The application of this strategy is integrated prior to the model's final layer, ensuring smooth integration with most existing PLMs (T5, GPT, LLaMA) without necessitating further adjustments. Implementing our strategy, we observe a significant decline in non-original sequences comprised of more than three words in the academic AASC dataset and the story-based ROCStories dataset.
- Abstract(参考訳): 事前学習された言語モデル(PLM)は、チャットボットのパワーアップやストーリーの生成など、さまざまな自然言語生成(NLG)タスクにおいて印象的な結果を示している。
しかし、倫理的な懸念は、彼らのトレーニングデータから段落の冗長なコピーを作成できる可能性から生じている。
PLMは人間によって構築されたコーパスで訓練されているため、これは問題である。
そのため,これらのモデルによるオリジナルコンテンツの生成を促進する研究の必要性が高まっている。
本研究では,PLMが生成するテキストの独創性を高めることを目的とした,ユニークな「自己プラジャリズム」コントラストデコーディング戦略を導入する。
提案手法は, アマチュアモデルとプロモデルを開発するために, LLMにおける修正プロンプトを必要とする。
特に、アマチュアモデルは、我々が設計した3つのプラジャリズムテンプレートを使用して、盗用するよう促され、プロのモデルは標準言語モデルの地位を維持している。
この戦略は、非オリジナルな候補トークンの組み合わせを特定し、その後罰則を課すためにモデルの能力を刺激するプロンプトを使用する。
この戦略の適用は、モデルの最終層に先立って統合され、さらなる調整を必要とせず、既存のほとんどのPLM(T5, GPT, LLaMA)とスムーズな統合が保証される。
AASCデータセットとストーリーベースのROCStoriesデータセットの3単語以上からなる非原文配列の大幅な減少が観察された。
関連論文リスト
- A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Detection and Measurement of Syntactic Templates in Generated Text [58.111650675717414]
モデルにおける一般的な反復を特徴付けるための構文的特徴の解析を行う。
モデルでは、下流のタスクにおいて、人間の参照テキストよりも高いレートでテンプレートテキストを生成する傾向にある。
論文 参考訳(メタデータ) (2024-06-28T19:34:23Z) - PlagBench: Exploring the Duality of Large Language Models in Plagiarism Generation and Detection [26.191836276118696]
46.5Kの合成プラギアリズムケースからなる包括的データセットであるPlagBenchを紹介する。
次に,提案したデータを用いて,5つの近代LDMと3つの特殊プラジャリズムチェッカーの盗作検出性能を評価する。
以上の結果より, GPT-3.5はLlama2やGPT-4に比べ, 高い品質のパラフレーズや要約を生じる傾向が示唆された。
論文 参考訳(メタデータ) (2024-06-24T03:29:53Z) - Aligning Large Language Models with Counterfactual DPO [1.8130068086063336]
本稿では,人的介入に頼らずにモデルスタイルを整列させる反事実的プロンプトの利用について検討する。
本研究では,この手法が望ましい行動を効果的に抑制し,望ましくない行動を緩和し,不適切な指示を無視するようモデルに促すことを実証する。
論文 参考訳(メタデータ) (2024-01-17T19:43:43Z) - Who's Harry Potter? Approximate Unlearning in LLMs [4.821438899378393]
大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。
これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。
本稿では,LLMからトレーニングデータのサブセットをスクラッチから再学習する必要がない新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T17:48:14Z) - LexGPT 0.1: pre-trained GPT-J models with Pile of Law [1.8275108630751844]
本研究は,法域に特化した生成言語モデルの構築を目的とする。
この写本は、GPT-Jモデルに基づくLexGPTモデルの開発と、Pile of Lawで事前訓練を行っている。
論文 参考訳(メタデータ) (2023-06-05T08:42:59Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - Do Language Models Plagiarize? [22.02731537718498]
人工テキストを生成する際に,言語モデルが記憶するか否かを検討するとともに,学習サンプルをプラジャライズする。
以上の結果から,特にGPT-2では,難読化の有無にかかわらず,トレーニングコーパスから特定のテキストを再利用することが示唆された。
私たちの研究は、将来のニューラルネットワークモデルの研究が、トレーニングデータセットを盗用するモデルを避けるために、予防措置を講じるべきであることを示唆している。
論文 参考訳(メタデータ) (2022-03-15T03:11:11Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。