論文の概要: Frankentext: Stitching random text fragments into long-form narratives
- arxiv url: http://arxiv.org/abs/2505.18128v3
- Date: Tue, 30 Sep 2025 14:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.001835
- Title: Frankentext: Stitching random text fragments into long-form narratives
- Title(参考訳): Frankentext: ランダムテキストの断片を長文の物語に変換する
- Authors: Chau Minh Pham, Jenna Russell, Dzung Pham, Mohit Iyyer,
- Abstract要約: 我々は,LLMを著者としてではなく,既存のテキストの作曲家として扱う長文物語生成パラダイムであるFrankentextsを紹介した。
文章のプロンプトと無作為にサンプリングされた何千もの人間のスニペットが与えられたモデルでは、ほとんどのトークンは提供された段落から冗長にコピーしなければならないという極端な制約の下で物語を作成するように求められている。
タスクの極端な課題にもかかわらず、Frankentextsは、書字品質、多様性、独創性の観点から、Vanilla LLM世代よりも大幅に改善されているという広範囲な自動的および人的評価を通して観察する。
- 参考スコア(独自算出の注目度): 24.493173781373997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Frankentexts, a long-form narrative generation paradigm that treats an LLM as a composer of existing texts rather than as an author. Given a writing prompt and thousands of randomly sampled human-written snippets, the model is asked to produce a narrative under the extreme constraint that most tokens (e.g., 90%) must be copied verbatim from the provided paragraphs. This task is effectively intractable for humans: selecting and ordering snippets yields a combinatorial search space that an LLM implicitly explores, before minimally editing and stitching together selected fragments into a coherent long-form story. Despite the extreme challenge of the task, we observe through extensive automatic and human evaluation that Frankentexts significantly improve over vanilla LLM generations in terms of writing quality, diversity, and originality while remaining coherent and relevant to the prompt. Furthermore, Frankentexts pose a fundamental challenge to detectors of AI-generated text: 72% of Frankentexts produced by our best Gemini 2.5 Pro configuration are misclassified as human-written by Pangram, a state-of-the-art detector. Human annotators praise Frankentexts for their inventive premises, vivid descriptions, and dry humor; on the other hand, they identify issues with abrupt tonal shifts and uneven grammar across segments, particularly in longer pieces. The emergence of high-quality Frankentexts raises serious questions about authorship and copyright: when humans provide the raw materials and LLMs orchestrate them into new narratives, who truly owns the result?
- Abstract(参考訳): 我々は,LLMを著者としてではなく,既存のテキストの作曲家として扱う長文物語生成パラダイムであるFrankentextsを紹介した。
文章のプロンプトと無作為にサンプリングされた何千もの人間のスニペットが与えられたモデルでは、ほとんどのトークン(例:90%)が与えられた段落から冗長にコピーしなければならないという極端な制約の下で物語を作成するように求められている。
スニペットの選択と順序付けによって、LLMが暗黙的に探索する組合せ探索空間が得られ、選択した断片を最小限に編集して、一貫性のあるロングフォームストーリーに縫合する。
タスクの極端な課題にもかかわらず、Frankentextsは、文章の品質、多様性、独創性の観点から、Vanilla LLM世代よりも大幅に改善し、一貫性を維持しながらプロンプトに関連性がある、という広範囲な自動的および人的評価を通して観察する。
さらに、FrankentextsはAIが生成するテキストの検出に根本的な課題を生んでいる。最高のGemini 2.5 Pro構成によって生成されたFrankentextの72%は、最先端の検出装置であるPangramによって人間が書いたものと誤分類されている。
人類の注釈者はフランケンテクスを、その独創的な前提、鮮明な記述、ドライユーモアで賞賛し、一方で、突然の音節シフトと、特に長い部分において、セグメント間の不均一な文法の問題を特定する。
高品質のFrankentextsの出現は、著者と著作権に関する深刻な疑問を提起する。人間が原材料を提供し、LLMがそれらを新しい物語にまとめるとき、誰が真に結果を所有するのか?
関連論文リスト
- Robust and Fine-Grained Detection of AI Generated Texts [0.29569362468768806]
既存のシステムは、短いテキストよりもAI生成したコンテンツを正確に識別するのに苦労することが多い。
本稿では,トークン分類のタスクのために構築されたモデルについて紹介する。
また,23言語以上のプロプライエタリなLLMが主に共著する2.4M以上のテキストのデータセットも導入した。
論文 参考訳(メタデータ) (2025-04-16T10:29:30Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to
Document Level [4.250876580245865]
既存のAI生成テキスト分類器は精度が限られており、しばしば偽陽性を生成する。
自然言語処理(NLP)技術を用いた新しい手法を提案する。
与えられた質問の複数のパラフレーズ付きバージョンを生成し、それを大きな言語モデルに入力し、回答を生成する。
本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
論文 参考訳(メタデータ) (2023-06-13T20:34:55Z) - Long Text Generation Challenge [0.0]
約1000トークンのプロンプトを前提として,人間のような長文生成の共有タスクであるLTG Challengeを提案する。
本稿では,GloVe Autocorrelations Power/Exponential Law Mean Absolute Percentage Error Ratio (GAPELMAPER) と人間評価プロトコルを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:52:36Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文 参考訳(メタデータ) (2022-12-24T06:40:25Z) - Event Transition Planning for Open-ended Text Generation [55.729259805477376]
オープンエンドテキスト生成タスクは、事前コンテキストに制限されたコヒーレントな継続を生成するためにモデルを必要とする。
オープンエンドテキスト生成におけるイベントを明示的にアレンジする新しい2段階手法を提案する。
我々のアプローチは、特別に訓練された粗大なアルゴリズムとして理解することができる。
論文 参考訳(メタデータ) (2022-04-20T13:37:51Z) - Uniform Complexity for Text Generation [4.867923281108005]
テキスト生成のための統一複雑度(UCTG)は,生成モデルに一様言語特性をプロンプトに関して観察させるという課題を提起する新しいベンチマークテストである。
GPT-2のようなモデルは、プロフェッショナルなテキストで微調整しても、代々使われる入力プロンプトの複雑さを維持するのに苦労している。
論文 参考訳(メタデータ) (2022-04-11T15:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。