Fugu-MT 論文翻訳(概要): To Burst or Not to Burst: Generating and Quantifying Improbable Text

論文の概要: To Burst or Not to Burst: Generating and Quantifying Improbable Text

arxiv url: http://arxiv.org/abs/2401.15476v1
Date: Sat, 27 Jan 2024 18:34:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 18:00:07.084801
Title: To Burst or Not to Burst: Generating and Quantifying Improbable Text
Title（参考訳）: バーストにせよバーストにせよ:不可能なテキストの生成と定量化
Authors: Kuleen Sasse, Samuel Barham, Efsun Sarioglu Kayi, Edward W. Staley
Abstract要約: 大規模な言語モデル(LLMs)は、人間によるテキストとはいまだに区別可能である。我々は、人間と機械のテキストの違いを強調するために、新しいメトリクス、回復可能性を導入する。このギャップを埋めるための新しいサンプリング手法であるバーストサンプリングを提案する。
参考スコア（独自算出の注目度）: 0.24578723416255746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) are extremely capable at text generation, their outputs are still distinguishable from human-authored text. We explore this separation across many metrics over text, many sampling techniques, many types of text data, and across two popular LLMs, LLaMA and Vicuna. Along the way, we introduce a new metric, recoverability, to highlight differences between human and machine text; and we propose a new sampling technique, burst sampling, designed to close this gap. We find that LLaMA and Vicuna have distinct distributions under many of the metrics, and that this influences our results: Recoverability separates real from fake text better than any other metric when using LLaMA. When using Vicuna, burst sampling produces text which is distributionally closer to real text compared to other sampling techniques.
Abstract（参考訳）: 大規模言語モデル(LLM)はテキスト生成能力が非常に高いが、その出力は人間によるテキストと区別可能である。我々は、この分離を、テキスト上の多くのメトリクス、多くのサンプリング技術、多くの種類のテキストデータ、そして2つの人気のあるllm、llamaとvicunaで検討する。その過程で,人間と機械のテキストの差異を強調する新しい測定基準である回復可能性を導入し,このギャップを埋めるために設計された新しいサンプリング手法であるバーストサンプリングを提案する。 LLaMAとVicunaは、多くの指標の下で異なる分布を持ち、これは我々の結果に影響を与える。 vicunaを使用する場合、バーストサンプリングは、他のサンプリング技術に比べて実際のテキストに分布的に近いテキストを生成する。

関連論文リスト

Can You Detect the Difference? [0.0]
拡散生成テキスト (LLaDA) とAR生成テキスト (LLaMA) の2万サンプルを用いた最初の体系的比較を行った。 LLaDAは、人間のテキストの難易度とバーストネスをよく模倣し、AR指向検出器に対して高い偽陰性率をもたらす。我々は拡散認識検出器の必要性を強調し、ハイブリッドモデル、拡散特異的なスタイル的シグネチャ、堅牢な透かしなどの方向性を概説する。
論文参考訳（メタデータ） (2025-07-14T16:55:57Z)
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders [20.557610461777344]
Sparse Autoencoders (SAE) を用いてGemma-2-2b残ストリームから特徴を抽出する。解釈可能な特徴と効率的な特徴の両方を識別し,その意味と妥当性を解析する。提案手法は, さまざまなモデルからのテキストと人文コンテンツとの相違点について, 貴重な知見を提供する。
論文参考訳（メタデータ） (2025-03-05T15:33:52Z)
GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文参考訳（メタデータ） (2024-10-31T08:30:55Z)
Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文参考訳（メタデータ） (2024-10-04T18:42:09Z)
Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文参考訳（メタデータ） (2024-08-24T14:14:32Z)
Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。 PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文参考訳（メタデータ） (2024-05-21T11:22:27Z)
A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文参考訳（メタデータ） (2023-11-06T13:11:02Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)
MacLaSa: Multi-Aspect Controllable Text Generation via Efficient Sampling from Compact Latent Space [110.85888003111653]
マルチアスペクト制御可能なテキスト生成は、複数の望ましい属性を同時に持つ流動文を生成することを目的としている。マルチアスペクト制御のための新しいアプローチ、すなわちMacLaSaを導入し、複数の側面に対してコンパクトな潜在空間を推定する。また,MacLaSaは,高い推論速度を維持しつつ,属性関連性やテキスト品質を高いベースラインで向上させることを示す。
論文参考訳（メタデータ） (2023-05-22T07:30:35Z)
Towards Unified Scene Text Spotting based on Sequence Generation [4.437335677401287]
UNIfied scene Text Spotter(UNITS)を提案する。我々のモデルは四角形や多角形を含む様々な検出形式を統一する。任意の開始点からテキストを抽出するために、開始点プロンプトを適用する。
論文参考訳（メタデータ） (2023-04-07T01:28:08Z)
Sparse Text Generation [7.747003493657217]
現在のテキストジェネレータは、修正されたソフトマックスから、温度パラメータや、トップ$k$または核サンプリングのようなアドホックトランケーション技術を介してサンプリングする必要がある。本稿では,最近導入されたentmax変換を用いて,スパース言語モデルのトレーニングとサンプルを行い,このミスマッチを回避する。その結果、流布と一貫性、繰り返しの少ない、人間のテキストに近いn-gramの多様性の観点から、良好なパフォーマンスを持つテキストジェネレータが実現した。
論文参考訳（メタデータ） (2020-04-06T13:09:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。