論文の概要: Measuring Embedding Sensitivity to Authorial Style in French: Comparing Literary Texts with Language Model Rewritings
- arxiv url: http://arxiv.org/abs/2605.10606v1
- Date: Mon, 11 May 2026 14:05:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.876882
- Title: Measuring Embedding Sensitivity to Authorial Style in French: Comparing Literary Texts with Language Model Rewritings
- Title(参考訳): フランス語の権威スタイルに対するエンベジング感性の測定:文学テキストと言語モデル書き換えの比較
- Authors: Benjamin Icard, Lila Sainero, Alice Breton, Evangelia Zve, Jean-Gabriel Ganascia,
- Abstract要約: 埋め込みは、作者のスタイル的特徴を確実に捉え、書き直し後にこれらの信号が持続していることがわかりました。
これらの結果は、言語モデルの時代における著者の模倣検出に有望な方向を提供する。
- 参考スコア(独自算出の注目度): 0.7249400282852115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can convincingly imitate human writing styles, yet it remains unclear how much stylistic information is encoded in embeddings from any language model and retained after LLM rewriting. We investigate these questions in French, using a controlled literary dataset to quantify the effect of stylistic variation via changes in embedding dispersion. We observe that embeddings reliably capture authorial stylistic features and that these signals persist after rewriting, while also exhibiting LLM-specific patterns. These analytical results offer promising directions for authorship imitation detection in the era of language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の書体スタイルを巧みに模倣することができるが、どんな言語モデルからの埋め込みにどの程度スタイリスティックな情報がエンコードされ、LLM書き直し後に保持されているかは定かではない。
本研究では,これらの質問をフランス語で調査し,文芸データセットを用いて,組込み分散の変化による文体変化の効果を定量化する。
埋め込みは文字のスタイリスティックな特徴を確実に捉え,書き直し後に継続すると同時に,LLM固有のパターンも提示する。
これらの分析結果は、言語モデルの時代における著者の模倣検出に有望な方向を提供する。
関連論文リスト
- Better Call Claude: Can LLMs Detect Changes of Writing Style? [5.720553544629197]
本稿では、著者分析において最も困難な課題の一つとして、最先端の大規模言語モデル(LLM)のゼロショット性能について考察する。
公式 PAN2024 と 2025 の "Multi-Author Writing Style Analysis" データセット上で4つの LLM をベンチマークした結果,いくつかの観察結果が得られた。
第一に、最先端の生成モデルは、個々の文の粒度レベルでも、書体スタイルのバリエーションに敏感である。
論文 参考訳(メタデータ) (2025-08-01T14:49:50Z) - LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation [1.2576388595811496]
自然言語を基盤とした挑戦的推論ベンチマークであるlingOLY-TOOを紹介する。
実言語で記述された推論問題をパーミュレートして、多数の質問のバリエーションを生成する。
実験と分析は、モデルが推論を回避し、事前の知識から回答できることを示している。
論文 参考訳(メタデータ) (2025-03-04T19:57:47Z) - Unnatural Languages Are Not Bugs but Features for LLMs [92.8332103170009]
大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。
我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。
論文 参考訳(メタデータ) (2025-03-02T12:10:17Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Embedding Style Beyond Topics: Analyzing Dispersion Effects Across Different Language Models [0.0699049312989311]
本研究では, 組込み空間形成における書字スタイルの役割について検討した。
トピックとスタイルを交互に扱う文芸コーパスを用いて、フランス語と英語の言語モデルの感度を比較する。
論文 参考訳(メタデータ) (2025-01-01T13:17:16Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Learning Interpretable Style Embeddings via Prompting LLMs [46.74488355350601]
スタイル表現学習はテキストで著者スタイルのコンテンツに依存しない表現を構築する。
現在のスタイル表現学習では、ニューラルネットワークを使ってスタイルをコンテンツから切り離し、スタイルベクトルを作成する。
我々は、多くのテキストでスタイメトリーを実行し、合成データセットを作成し、人間の解釈可能なスタイル表現を訓練するために、プロンプトを使用する。
論文 参考訳(メタデータ) (2023-05-22T04:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。