論文の概要: Few-Shot Detection of Machine-Generated Text using Style Representations
- arxiv url: http://arxiv.org/abs/2401.06712v1
- Date: Fri, 12 Jan 2024 17:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 18:45:35.450284
- Title: Few-Shot Detection of Machine-Generated Text using Style Representations
- Title(参考訳): スタイル表現を用いた機械生成テキストの少数ショット検出
- Authors: Rafael Rivera Soto, Kailin Koch, Aleem Khan, Barry Chen, Marcus
Bishop, and Nicholas Andrews
- Abstract要約: 人間の文章を巧みに模倣する言語モデルは、虐待のかなりのリスクを負う。
例えば、そのようなモデルは、盗作、偽情報、スパム、フィッシングに使用することができる。
そこで本研究では,人間が作成したテキストから推定した書体スタイルの表現を活用することを提案する。
- 参考スコア(独自算出の注目度): 4.326503887981912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of instruction-tuned language models that convincingly mimic human
writing poses a significant risk of abuse. For example, such models could be
used for plagiarism, disinformation, spam, or phishing. However, such abuse may
be counteracted with the ability to detect whether a piece of text was composed
by a language model rather than a human. Some previous approaches to this
problem have relied on supervised methods trained on corpora of confirmed human
and machine-written documents. Unfortunately, model under-specification poses
an unavoidable challenge for neural network-based detectors, making them
brittle in the face of data shifts, such as the release of further language
models producing still more fluent text than the models used to train the
detectors. Other previous approaches require access to the models that may have
generated a document in question at inference or detection time, which is often
impractical. In light of these challenges, we pursue a fundamentally different
approach not relying on samples from language models of concern at training
time. Instead, we propose to leverage representations of writing style
estimated from human-authored text. Indeed, we find that features effective at
distinguishing among human authors are also effective at distinguishing human
from machine authors, including state of the art large language models like
Llama 2, ChatGPT, and GPT-4. Furthermore, given a handful of examples composed
by each of several specific language models of interest, our approach affords
the ability to predict which model generated a given document.
- Abstract(参考訳): 人間の文章を巧みに模倣する指導訓練言語モデルの出現は、乱用の大きなリスクをもたらす。
例えば、そのようなモデルは、盗作、偽情報、スパム、フィッシングに使用することができる。
しかし、そのような虐待は、テキストが人間ではなく言語モデルによって構成されているかどうかを検出する能力に反する可能性がある。
この問題に対する以前のアプローチは、確認された人や機械による文書のコーパスに基づいて訓練された教師あり手法に依存していた。
残念なことに、モデル過小評価は、ニューラルネットワークベースの検出器にとって避けられない課題となり、検出器のトレーニングに使用するモデルよりも、さらに流動的なテキストを生成する言語モデルのリリースなど、データシフトに直面して脆弱になる。
他の以前のアプローチでは、推論や検出時に問題となるドキュメントを生成したかもしれないモデルにアクセスする必要がある。
これらの課題を踏まえて、トレーニング時に言語モデルからのサンプルに依存しない、根本的に異なるアプローチを追求します。
代わりに,人間の文章から推定される文体表現の活用を提案する。
実際、人間の著者間の識別に有効な機能は、llama 2、chatgpt、gpt-4といった最先端の大規模言語モデルを含む、人間とマシン作者の区別にも有効であることが分かりました。
さらに、いくつかの特定の言語モデルによって構成された少数の例を考えると、我々の手法は、与えられた文書を生成するモデルを予測できる。
関連論文リスト
- Detecting Subtle Differences between Human and Model Languages Using Spectrum of Relative Likelihood [5.404146472517001]
本研究は、絶対値ではなく相対的確率値を用いることにより、新たな視点を提供する。
本稿では,教師型と教師型という2つの分類法を用いた検出手法を提案する。
また,人間の言語とモデル言語との微妙な差異を明らかにし,心理言語学研究の理論的ルーツを見出すことができる。
論文 参考訳(メタデータ) (2024-06-28T12:28:52Z) - Detecting Mode Collapse in Language Models via Narration [0.0]
3つのOpenAI言語モデルからサンプリングした4,374のストーリーについて検討した。
我々は、GPT-3の連続バージョンが「モード崩壊」の度合いの上昇に悩まされていることを示す。
社会学シミュレーションに言語モデルを用いたい研究者にとって,本手法と結果が重要である。
論文 参考訳(メタデータ) (2024-02-06T23:52:58Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文 参考訳(メタデータ) (2022-12-24T06:40:25Z) - Estimating the Personality of White-Box Language Models [0.589889361990138]
大規模なテキストコーパスで訓練された大規模言語モデルは、至る所で広範囲のアプリケーションで使用されている。
既存の研究は、これらのモデルが人間の偏見を捉え、捉えていることを示している。
これらのバイアス、特に害を引き起こす可能性のあるバイアスの多くは、十分に調査されている。
しかし、これらのモデルによって受け継がれた人間の性格特性を推測し、変化させる研究は、ほとんど、あるいは存在しない。
論文 参考訳(メタデータ) (2022-04-25T23:53:53Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。