論文の概要: The Last Fingerprint: How Markdown Training Shapes LLM Prose
- arxiv url: http://arxiv.org/abs/2603.27006v1
- Date: Fri, 27 Mar 2026 21:42:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.733258
- Title: The Last Fingerprint: How Markdown Training Shapes LLM Prose
- Title(参考訳): ラストフィンガープリント:マークダウントレーニングがLLMのプロスを形作る方法
- Authors: E. M. Freeburg,
- Abstract要約: 私たちは、エムダッシュが散文にマークダウンリークしていることを提案します。
トレーニングデータ構成,構造的内部化,エムダッシュの二重登録状態,訓練後の増幅を結合する5段階の系譜を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models produce em dashes at varying rates, and the observation that some models "overuse" them has become one of the most widely discussed markers of AI-generated text. Yet no mechanistic account of this pattern exists, and the parallel observation that LLMs default to markdown-formatted output has never been connected to it. We propose that the em dash is markdown leaking into prose -- the smallest surviving unit of the structural orientation that LLMs acquire from markdown-saturated training corpora. We present a five-step genealogy connecting training data composition, structural internalization, the dual-register status of the em dash, and post-training amplification. We test this with a two-condition suppression experiment across twelve models from five providers (Anthropic, OpenAI, Meta, Google, DeepSeek): when models are instructed to avoid markdown formatting, overt features (headers, bullets, bold) are eliminated or nearly eliminated, but em dashes persist -- except in Meta's Llama models, which produce none at all. Em dash frequency and suppression resistance vary from 0.0 per 1,000 words (Llama) to 9.1 (GPT-4.1 under suppression), functioning as a signature of the specific fine-tuning procedure applied. A three-condition suppression gradient shows that even explicit em dash prohibition fails to eliminate the artifact in some models, and a base-vs-instruct comparison confirms that the latent tendency exists pre-RLHF. These findings connect two previously isolated online discourses and reframe em dash frequency as a diagnostic of fine-tuning methodology rather than a stylistic defect.
- Abstract(参考訳): 大規模言語モデルは様々な速度でエムダッシュを生成し、いくつかのモデルが「過剰使用」しているという観察は、AI生成テキストの最も広く議論されているマーカーの1つになっている。
しかし、このパターンの力学的な説明は存在せず、LCMがマークダウン形式出力をデフォルトとする並列観測は、それと接続されていない。
本研究は,LLMがマークダウン飽和学習コーパスから取得した構造配向の最小単位として,エムダッシュが散文に漏れていることを示唆する。
トレーニングデータ構成,構造的内部化,エムダッシュの二重登録状態,訓練後の増幅を結合する5段階の系譜を提示する。
5つのプロバイダ(Anthropic、OpenAI、Meta、Google、DeepSeek): マークダウンフォーマッティングを避けるようモデルに指示された場合、オーバート機能(ヘッダ、弾丸、大胆さ)は排除またはほぼ排除されるが、MetaのLlamaモデル以外は継続する。
エムダッシュ周波数と抑制抵抗は1,000ワードあたり0.0から9.1(抑止下ではGPT-4.1)まで変化し、特定の微調整手順の署名として機能する。
3条件抑制勾配は、明示的なエムダッシュ禁止でさえ一部のモデルでアーティファクトを排除することができず、ベース-vs-インストラクト比較は、潜伏傾向がRLHF前に存在することを確認する。
これらの知見は,従来分離されていた2つのオンライン談話と,スタイリスティックな欠陥ではなく,微調整手法の診断としてリフレームエムダッシュ周波数を結びつけたものである。
関連論文リスト
- BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs [0.0]
ゼロショットテキスト分類(ZSC)は、コストのかかるタスク固有のアノテーションを排除することを約束する。
テキスト埋め込みモデル、リランカ、命令調整型大規模言語モデル(LLM)の最近の進歩は、NLIベースのアーキテクチャの優位性に挑戦している。
我々は、感情、トピック、意図、感情の分類にまたがる22の公開データセットの総合ベンチマークであるBTZSCを紹介する。
論文 参考訳(メタデータ) (2026-03-12T14:43:20Z) - Semantics as a Shield: Label Disguise Defense (LDD) against Prompt Injection in LLM Sentiment Classification [5.963719408944521]
本稿では,ラベルを意味的に変換したエイリアスラベルに置き換えることで,真のラベルを隠蔽する軽量な戦略であるラベル・ディグライズ・ディフェンス(LDD)を紹介する。
GPT-5, GPT-4o, LLaMA3.2, Gemma3, Mistral など,9種類の最先端モデルを対象としたLCDの評価を行った。
論文 参考訳(メタデータ) (2025-11-23T20:16:51Z) - Antislop: A Comprehensive Framework for Identifying and Eliminating Repetitive Patterns in Language Models [8.02516998509823]
過度に使われているパターンを検出し、排除するツールを提供するフレームワークであるAntislopを紹介します。
Antislop Samplerは、バックトラックを使用して、語彙を破壊することなく、推論時に不要な文字列を抑える。
FTPOは、GSM8K、MMLU、クリエイティブな書き込みタスクを含むクロスドメインのevalのパフォーマンスを維持したり改善したりしながら、90%のスロープ削減を実現している。
論文 参考訳(メタデータ) (2025-10-16T18:22:22Z) - Dual-Stage Reweighted MoE for Long-Tailed Egocentric Mistake Detection [85.0189917888094]
本稿では,微妙で頻繁なミスによって生じる課題に対処するため,Dual-Stage Reweighted Mixture-of-Experts (DR-MoE) フレームワークを提案する。
提案手法は,特に稀かつ曖昧な誤りの特定において,高い性能を達成する。
論文 参考訳(メタデータ) (2025-09-16T12:00:42Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。
我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。
提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文 参考訳(メタデータ) (2024-12-24T12:51:05Z) - Non-Halting Queries: Exploiting Fixed Points in LLMs [4.091772241106195]
我々は、自動回帰モデルの固定点を利用して、決して停止しないクエリを作成する新しい脆弱性を導入します。
非半減期異常が出現する条件を厳密に分析する。
ベースアンアライメントモデルで実施された多くの実験において,非ハーフティングクエリを実演する。
論文 参考訳(メタデータ) (2024-10-08T18:38:32Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。