論文の概要: LLM one-shot style transfer for Authorship Attribution and Verification
- arxiv url: http://arxiv.org/abs/2510.13302v1
- Date: Wed, 15 Oct 2025 08:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.577829
- Title: LLM one-shot style transfer for Authorship Attribution and Verification
- Title(参考訳): オーサシップ属性と検証のためのLLMワンショットスタイル転送
- Authors: Pablo Miralles-González, Javier Huertas-Tato, Alejandro Martín, David Camacho,
- Abstract要約: 監督的かつ対照的なアプローチは、急激な相関を持つデータに依存し、しばしばトピックと混同される。
本研究では,LLMの事前学習と文脈内学習機能に基づく教師なしの新たな手法を提案する。
提案手法は,LLMのアプローチを比較検討し,対照的に訓練されたベースラインよりも高い精度を実現している。
- 参考スコア(独自算出の注目度): 42.62647366317044
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Computational stylometry analyzes writing style through quantitative patterns in text, supporting applications from forensic tasks such as identity linking and plagiarism detection to literary attribution in the humanities. Supervised and contrastive approaches rely on data with spurious correlations and often confuse style with topic. Despite their natural use in AI-generated text detection, the CLM pre-training of modern LLMs has been scarcely leveraged for general authorship problems. We propose a novel unsupervised approach based on this extensive pre-training and the in-context learning capabilities of LLMs, employing the log-probabilities of an LLM to measure style transferability from one text to another. Our method significantly outperforms LLM prompting approaches of comparable scale and achieves higher accuracy than contrastively trained baselines when controlling for topical correlations. Moreover, performance scales fairly consistently with the size of the base model and, in the case of authorship verification, with an additional mechanism that increases test-time computation; enabling flexible trade-offs between computational cost and accuracy.
- Abstract(参考訳): 計算スタイメトリーは、テキストの量的パターンを通して書体を解析し、アイデンティティリンクや盗作検出などの法医学的タスクから人文科学における文学的帰属への応用を支援する。
監督的かつ対照的なアプローチは、急激な相関を持つデータに依存し、しばしばトピックと混同される。
AIが生成したテキスト検出に自然に使用しているにもかかわらず、現代のLLMのCLM事前学習は、一般的な著者問題にほとんど活用されていない。
そこで本稿では,LLMの対数確率を利用して,あるテキストから別のテキストへのスタイルの転送可能性を測定することによって,この広範囲な事前学習と,LLMのコンテキスト内学習能力に基づいて,教師なしの新たなアプローチを提案する。
提案手法は, LLM に比較して高い性能を示し, トピック相関の制御において, 対照的に訓練されたベースラインよりも高い精度を実現している。
さらに、パフォーマンスは、ベースモデルのサイズと、オーサシップ検証の場合、テスト時間計算を増加させる追加のメカニズムにより、ほぼ一貫してスケールする。
関連論文リスト
- Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。
我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。
合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文 参考訳(メタデータ) (2025-06-20T13:21:14Z) - MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。
MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。
LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文 参考訳(メタデータ) (2025-03-26T11:09:21Z) - Semantic Consistency Regularization with Large Language Models for Semi-supervised Sentiment Analysis [20.503153899462323]
本稿では,半教師付き感情分析のためのフレームワークを提案する。
テキストを意味的に拡張する2つのプロンプト戦略を導入する。
実験により,従来の半教師付き手法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2025-01-29T12:03:11Z) - From Human Annotation to LLMs: SILICON Annotation Workflow for Management Research [13.818244562506138]
LLM(Large Language Models)は、人間のアノテーションに対する費用対効果と効率的な代替手段を提供する。
本稿では、SILICON (Systematic Inference with LLMs for Information Classification and Notation) ワークフローを紹介する。
このワークフローは、人間のアノテーションの確立した原則と、体系的な迅速な最適化とモデル選択を統合している。
論文 参考訳(メタデータ) (2024-12-19T02:21:41Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Large Language Models for Anomaly Detection in Computational Workflows: from Supervised Fine-Tuning to In-Context Learning [9.601067780210006]
本稿では,大規模言語モデル(LLM)を用いて,複雑なデータパターンの学習能力を活用することにより,ワークフローの異常検出を行う。
教師付き微調整 (SFT) では, 文分類のためのラベル付きデータに基づいて事前学習したLCMを微調整し, 異常を識別する。
論文 参考訳(メタデータ) (2024-07-24T16:33:04Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM [31.25193238045053]
我々は、より小さな言語モデルの訓練を支援するために、大規模言語モデルの強力な生成力を利用する新しい手法、GenCoを導入する。
本手法では,LLMは2つの重要な方法で,より小さなモデルの自己学習ループにおいて重要な役割を果たす。
予測ラベルに条件付き入力テキストを書き換えることで、高品質なトレーニングペアの開発を支援する。
論文 参考訳(メタデータ) (2023-04-24T07:35:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。