論文の概要: Better Call Claude: Can LLMs Detect Changes of Writing Style?
- arxiv url: http://arxiv.org/abs/2508.00680v1
- Date: Fri, 01 Aug 2025 14:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.920911
- Title: Better Call Claude: Can LLMs Detect Changes of Writing Style?
- Title(参考訳): より良いコールクロード: LLMは書き方の変化を検出できるのか?
- Authors: Johannes Römisch, Svetlana Gorovaia, Mariia Halchynska, Gleb Schmidt, Ivan P. Yamshchikov,
- Abstract要約: 本稿では、著者分析において最も困難な課題の一つとして、最先端の大規模言語モデル(LLM)のゼロショット性能について考察する。
公式 PAN2024 と 2025 の "Multi-Author Writing Style Analysis" データセット上で4つの LLM をベンチマークした結果,いくつかの観察結果が得られた。
第一に、最先端の生成モデルは、個々の文の粒度レベルでも、書体スタイルのバリエーションに敏感である。
- 参考スコア(独自算出の注目度): 5.720553544629197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article explores the zero-shot performance of state-of-the-art large language models (LLMs) on one of the most challenging tasks in authorship analysis: sentence-level style change detection. Benchmarking four LLMs on the official PAN~2024 and 2025 "Multi-Author Writing Style Analysis" datasets, we present several observations. First, state-of-the-art generative models are sensitive to variations in writing style - even at the granular level of individual sentences. Second, their accuracy establishes a challenging baseline for the task, outperforming suggested baselines of the PAN competition. Finally, we explore the influence of semantics on model predictions and present evidence suggesting that the latest generation of LLMs may be more sensitive to content-independent and purely stylistic signals than previously reported.
- Abstract(参考訳): 本稿では、著者分析における最も困難な課題の1つである文レベルのスタイル変化検出において、最先端の大規模言語モデル(LLM)のゼロショット性能について考察する。
公式 PAN~2024 と 2025 の 4 つの LLM を "Multi-Author Writing Style Analysis" データセットでベンチマークした結果,いくつかの観察結果が得られた。
第一に、最先端の生成モデルは、個々の文の粒度レベルでも、書体スタイルのバリエーションに敏感である。
第二に、その正確さはタスクの挑戦的なベースラインを確立し、PANコンペティションの推奨ベースラインを上回ります。
最後に, セマンティクスがモデル予測に与える影響について検討し, 最新世代のLCMは, これまで報告されたよりも内容に依存しない, 純粋にスタイリスティックな信号に敏感であることを示す証拠を示す。
関連論文リスト
- Team "better_call_claude": Style Change Detection using a Sequential Sentence Pair Classifier [5.720553544629197]
PAN 2025では、共有タスクは参加者に対して、最もきめ細かいレベルでスタイルを検出するよう呼びかけている。
本稿では,Sentence Pair Pair (SSPC)アーキテクチャを用いて各インスタンスの内容をモデル化し,この問題に対処することを提案する。
EASY媒体でそれぞれ0.92328、0.724、HARDデータで強いマクロスコアを得る。
論文 参考訳(メタデータ) (2025-08-01T14:48:17Z) - Persona-Augmented Benchmarking: Evaluating LLMs Across Diverse Writing Styles [32.121191446326876]
さまざまなモデルやタスクにまたがって、低いか高いパフォーマンスを連続的に引き起こす異なる書き込みスタイルを特定します。
我々の研究は、既存のベンチマークを拡大するためのスケーラブルなアプローチを提供し、LLM性能の測定に提供される評価の外部的妥当性を改善します。
論文 参考訳(メタデータ) (2025-07-29T18:59:09Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon [11.753349115726952]
大規模言語モデル(LLM)は、しばしば公開ベンチマークで優れているように見えるが、これらの高いスコアはデータセット固有のサーフェスキューへの過度な依存を隠蔽する可能性がある。
本稿では,ベンチマークプロンプトを歪ませるメタ評価フレームワークであるChameleon Benchmark Overfit Detector (C-BOD)を紹介する。
セマンティックコンテンツやラベルを保存しながら入力をリフレッシュすることで、C-BODはモデルのパフォーマンスが記憶パターンによって駆動されるかどうかを明らかにする。
論文 参考訳(メタデータ) (2025-02-11T10:43:36Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - LLM-based feature generation from text for interpretable machine learning [0.0]
埋め込みやback-of-wordsのような既存のテキスト表現は、その高次元性や欠落、あるいは疑わしい特徴レベルの解釈性のため、ルール学習には適さない。
本稿では,テキストから少数の解釈可能な特徴を抽出することにより,大規模言語モデル(LLM)がこの問題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-09-11T09:29:28Z) - Token Prediction as Implicit Classification to Identify LLM-Generated
Text [37.89852204279844]
本稿では,テキスト生成に関わる大きな言語モデル (LLM) を識別するための新しいアプローチを提案する。
ベースLMに新たな分類層を追加する代わりに、分類タスクを次の注意すべき予測タスクとして再設定する。
実験のバックボーンとしてText-to-Text Transfer Transformer (T5) モデルを用いる。
論文 参考訳(メタデータ) (2023-11-15T06:33:52Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。