論文の概要: To Burst or Not to Burst: Generating and Quantifying Improbable Text
- arxiv url: http://arxiv.org/abs/2401.15476v1
- Date: Sat, 27 Jan 2024 18:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:00:07.084801
- Title: To Burst or Not to Burst: Generating and Quantifying Improbable Text
- Title(参考訳): バーストにせよバーストにせよ:不可能なテキストの生成と定量化
- Authors: Kuleen Sasse, Samuel Barham, Efsun Sarioglu Kayi, Edward W. Staley
- Abstract要約: 大規模な言語モデル(LLMs)は、人間によるテキストとはいまだに区別可能である。
我々は、人間と機械のテキストの違いを強調するために、新しいメトリクス、回復可能性を導入する。
このギャップを埋めるための新しいサンプリング手法であるバーストサンプリングを提案する。
- 参考スコア(独自算出の注目度): 0.24578723416255746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) are extremely capable at text generation,
their outputs are still distinguishable from human-authored text. We explore
this separation across many metrics over text, many sampling techniques, many
types of text data, and across two popular LLMs, LLaMA and Vicuna. Along the
way, we introduce a new metric, recoverability, to highlight differences
between human and machine text; and we propose a new sampling technique, burst
sampling, designed to close this gap. We find that LLaMA and Vicuna have
distinct distributions under many of the metrics, and that this influences our
results: Recoverability separates real from fake text better than any other
metric when using LLaMA. When using Vicuna, burst sampling produces text which
is distributionally closer to real text compared to other sampling techniques.
- Abstract(参考訳): 大規模言語モデル(LLM)はテキスト生成能力が非常に高いが、その出力は人間によるテキストと区別可能である。
我々は、この分離を、テキスト上の多くのメトリクス、多くのサンプリング技術、多くの種類のテキストデータ、そして2つの人気のあるllm、llamaとvicunaで検討する。
その過程で,人間と機械のテキストの差異を強調する新しい測定基準である回復可能性を導入し,このギャップを埋めるために設計された新しいサンプリング手法であるバーストサンプリングを提案する。
LLaMAとVicunaは、多くの指標の下で異なる分布を持ち、これは我々の結果に影響を与える。
vicunaを使用する場合、バーストサンプリングは、他のサンプリング技術に比べて実際のテキストに分布的に近いテキストを生成する。
関連論文リスト
- GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - MacLaSa: Multi-Aspect Controllable Text Generation via Efficient
Sampling from Compact Latent Space [110.85888003111653]
マルチアスペクト制御可能なテキスト生成は、複数の望ましい属性を同時に持つ流動文を生成することを目的としている。
マルチアスペクト制御のための新しいアプローチ、すなわちMacLaSaを導入し、複数の側面に対してコンパクトな潜在空間を推定する。
また,MacLaSaは,高い推論速度を維持しつつ,属性関連性やテキスト品質を高いベースラインで向上させることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:30:35Z) - Towards Unified Scene Text Spotting based on Sequence Generation [4.437335677401287]
UNIfied scene Text Spotter(UNITS)を提案する。
我々のモデルは四角形や多角形を含む様々な検出形式を統一する。
任意の開始点からテキストを抽出するために、開始点プロンプトを適用する。
論文 参考訳(メタデータ) (2023-04-07T01:28:08Z) - Sparse Text Generation [7.747003493657217]
現在のテキストジェネレータは、修正されたソフトマックスから、温度パラメータや、トップ$k$または核サンプリングのようなアドホックトランケーション技術を介してサンプリングする必要がある。
本稿では,最近導入されたentmax変換を用いて,スパース言語モデルのトレーニングとサンプルを行い,このミスマッチを回避する。
その結果、流布と一貫性、繰り返しの少ない、人間のテキストに近いn-gramの多様性の観点から、良好なパフォーマンスを持つテキストジェネレータが実現した。
論文 参考訳(メタデータ) (2020-04-06T13:09:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。