論文の概要: To Burst or Not to Burst: Generating and Quantifying Improbable Text
- arxiv url: http://arxiv.org/abs/2401.15476v1
- Date: Sat, 27 Jan 2024 18:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:00:07.084801
- Title: To Burst or Not to Burst: Generating and Quantifying Improbable Text
- Title(参考訳): バーストにせよバーストにせよ:不可能なテキストの生成と定量化
- Authors: Kuleen Sasse, Samuel Barham, Efsun Sarioglu Kayi, Edward W. Staley
- Abstract要約: 大規模な言語モデル(LLMs)は、人間によるテキストとはいまだに区別可能である。
我々は、人間と機械のテキストの違いを強調するために、新しいメトリクス、回復可能性を導入する。
このギャップを埋めるための新しいサンプリング手法であるバーストサンプリングを提案する。
- 参考スコア(独自算出の注目度): 0.24578723416255746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) are extremely capable at text generation,
their outputs are still distinguishable from human-authored text. We explore
this separation across many metrics over text, many sampling techniques, many
types of text data, and across two popular LLMs, LLaMA and Vicuna. Along the
way, we introduce a new metric, recoverability, to highlight differences
between human and machine text; and we propose a new sampling technique, burst
sampling, designed to close this gap. We find that LLaMA and Vicuna have
distinct distributions under many of the metrics, and that this influences our
results: Recoverability separates real from fake text better than any other
metric when using LLaMA. When using Vicuna, burst sampling produces text which
is distributionally closer to real text compared to other sampling techniques.
- Abstract(参考訳): 大規模言語モデル(LLM)はテキスト生成能力が非常に高いが、その出力は人間によるテキストと区別可能である。
我々は、この分離を、テキスト上の多くのメトリクス、多くのサンプリング技術、多くの種類のテキストデータ、そして2つの人気のあるllm、llamaとvicunaで検討する。
その過程で,人間と機械のテキストの差異を強調する新しい測定基準である回復可能性を導入し,このギャップを埋めるために設計された新しいサンプリング手法であるバーストサンプリングを提案する。
LLaMAとVicunaは、多くの指標の下で異なる分布を持ち、これは我々の結果に影響を与える。
vicunaを使用する場合、バーストサンプリングは、他のサンプリング技術に比べて実際のテキストに分布的に近いテキストを生成する。
関連論文リスト
- A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - Deepfake Text Detection in the Wild [51.07597090941853]
近年の大規模言語モデルの発展により、人間のものと同等のレベルのテキスト生成が可能になった。
これらのモデルは、ニュース記事の執筆、ストーリー生成、科学的な執筆など、幅広いコンテンツにまたがる強力な能力を示している。
このような機能は、人間によるテキストと機械によるテキストのギャップをさらに狭め、ディープフェイクテキスト検出の重要性を強調している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - MacLaSa: Multi-Aspect Controllable Text Generation via Efficient
Sampling from Compact Latent Space [110.85888003111653]
マルチアスペクト制御可能なテキスト生成は、複数の望ましい属性を同時に持つ流動文を生成することを目的としている。
マルチアスペクト制御のための新しいアプローチ、すなわちMacLaSaを導入し、複数の側面に対してコンパクトな潜在空間を推定する。
また,MacLaSaは,高い推論速度を維持しつつ,属性関連性やテキスト品質を高いベースラインで向上させることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:30:35Z) - LLM Paternity Test: Generated Text Detection with LLM Genetic Inheritance [58.63888295471187]
大きな言語モデル(LLM)は、様々な誤用のリスクを負うテキストを生成することができる。
モデル関連テキスト検出手法 LLM Paternity Test (LLM-Pat) を提案する。
高い類似性は、候補テキストが遺伝的特性に似た機械生成であることを示している。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Towards Unified Scene Text Spotting based on Sequence Generation [4.437335677401287]
UNIfied scene Text Spotter(UNITS)を提案する。
我々のモデルは四角形や多角形を含む様々な検出形式を統一する。
任意の開始点からテキストを抽出するために、開始点プロンプトを適用する。
論文 参考訳(メタデータ) (2023-04-07T01:28:08Z) - Sparse Text Generation [7.747003493657217]
現在のテキストジェネレータは、修正されたソフトマックスから、温度パラメータや、トップ$k$または核サンプリングのようなアドホックトランケーション技術を介してサンプリングする必要がある。
本稿では,最近導入されたentmax変換を用いて,スパース言語モデルのトレーニングとサンプルを行い,このミスマッチを回避する。
その結果、流布と一貫性、繰り返しの少ない、人間のテキストに近いn-gramの多様性の観点から、良好なパフォーマンスを持つテキストジェネレータが実現した。
論文 参考訳(メタデータ) (2020-04-06T13:09:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。