論文の概要: Few-Shot Detection of Machine-Generated Text using Style Representations
- arxiv url: http://arxiv.org/abs/2401.06712v3
- Date: Wed, 8 May 2024 15:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 18:31:11.823151
- Title: Few-Shot Detection of Machine-Generated Text using Style Representations
- Title(参考訳): スタイル表現を用いた機械生成テキストのFew-Shot検出
- Authors: Rafael Rivera Soto, Kailin Koch, Aleem Khan, Barry Chen, Marcus Bishop, Nicholas Andrews,
- Abstract要約: 人間の文章を巧みに模倣する言語モデルは、虐待のかなりのリスクを負う。
そこで本研究では,人間が作成したテキストから推定した書体スタイルの表現を活用することを提案する。
また,人間と機械作家の区別にも有効であることがわかった。
- 参考スコア(独自算出の注目度): 4.326503887981912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of instruction-tuned language models that convincingly mimic human writing poses a significant risk of abuse. However, such abuse may be counteracted with the ability to detect whether a piece of text was composed by a language model rather than a human author. Some previous approaches to this problem have relied on supervised methods by training on corpora of confirmed human- and machine- written documents. Unfortunately, model under-specification poses an unavoidable challenge for neural network-based detectors, making them brittle in the face of data shifts, such as the release of newer language models producing still more fluent text than the models used to train the detectors. Other approaches require access to the models that may have generated a document in question, which is often impractical. In light of these challenges, we pursue a fundamentally different approach not relying on samples from language models of concern at training time. Instead, we propose to leverage representations of writing style estimated from human-authored text. Indeed, we find that features effective at distinguishing among human authors are also effective at distinguishing human from machine authors, including state-of-the-art large language models like Llama-2, ChatGPT, and GPT-4. Furthermore, given a handful of examples composed by each of several specific language models of interest, our approach affords the ability to predict which model generated a given document. The code and data to reproduce our experiments are available at https://github.com/LLNL/LUAR/tree/main/fewshot_iclr2024.
- Abstract(参考訳): 人間の文章を巧みに模倣する指導訓練言語モデルの出現は、乱用の大きなリスクをもたらす。
しかし、そのような悪用は、テキストが人間の著者ではなく言語モデルによって構成されているかどうかを検出する能力に反する可能性がある。
この問題に対する従来のアプローチは、確認された人文および機械文書のコーパスをトレーニングすることで、教師付き手法に依存してきた。
残念なことに、モデル過小評価は、ニューラルネットワークベースの検出器にとって避けられない課題となり、新しい言語モデルのリリースなど、データシフトに直面して不安定になる。
他のアプローチでは、問題のドキュメントを生成したかもしれないモデルにアクセスする必要があります。
これらの課題を踏まえて、トレーニング時に言語モデルの関心事のサンプルに頼らず、根本的に異なるアプローチを追求します。
そこで本研究では,人間によるテキストから推定される記述スタイルの表現を活用することを提案する。
実際,Llama-2やChatGPT,GPT-4といった最先端の大規模言語モデルを含む,人間と機械作家の区別に有効な特徴も見出した。
さらに、いくつかの特定の言語モデルによって構成された少数の例を考えると、我々の手法は、与えられた文書を生成するモデルを予測できる。
実験を再現するコードとデータはhttps://github.com/LLNL/LUAR/tree/main/fewshot_iclr2024で公開されている。
関連論文リスト
- Detecting Subtle Differences between Human and Model Languages Using Spectrum of Relative Likelihood [5.404146472517001]
本研究は、絶対値ではなく相対的確率値を用いることにより、新たな視点を提供する。
本稿では,教師型と教師型という2つの分類法を用いた検出手法を提案する。
また,人間の言語とモデル言語との微妙な差異を明らかにし,心理言語学研究の理論的ルーツを見出すことができる。
論文 参考訳(メタデータ) (2024-06-28T12:28:52Z) - Detecting Mode Collapse in Language Models via Narration [0.0]
3つのOpenAI言語モデルからサンプリングした4,374のストーリーについて検討した。
我々は、GPT-3の連続バージョンが「モード崩壊」の度合いの上昇に悩まされていることを示す。
社会学シミュレーションに言語モデルを用いたい研究者にとって,本手法と結果が重要である。
論文 参考訳(メタデータ) (2024-02-06T23:52:58Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image
Generation [86.65991476980648]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文 参考訳(メタデータ) (2022-12-24T06:40:25Z) - Estimating the Personality of White-Box Language Models [0.589889361990138]
大規模なテキストコーパスで訓練された大規模言語モデルは、至る所で広範囲のアプリケーションで使用されている。
既存の研究は、これらのモデルが人間の偏見を捉え、捉えていることを示している。
これらのバイアス、特に害を引き起こす可能性のあるバイアスの多くは、十分に調査されている。
しかし、これらのモデルによって受け継がれた人間の性格特性を推測し、変化させる研究は、ほとんど、あるいは存在しない。
論文 参考訳(メタデータ) (2022-04-25T23:53:53Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。