論文の概要: Who Wrote the Book? Detecting and Attributing LLM Ghostwriters
- arxiv url: http://arxiv.org/abs/2603.28054v1
- Date: Mon, 30 Mar 2026 05:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.245594
- Title: Who Wrote the Book? Detecting and Attributing LLM Ghostwriters
- Title(参考訳): LLM ゴーストライターの発見と貢献
- Authors: Anudeex Shetty, Qiongkai Xu, Olga Ohrimenko, Jey Han Lau,
- Abstract要約: 我々は著者属性のデータセットであるGhostWriteBenchを紹介する。
また,解釈可能かつ軽量な新しい指紋認証手法TRACEを提案する。
- 参考スコア(独自算出の注目度): 35.478075071337784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce GhostWriteBench, a dataset for LLM authorship attribution. It comprises long-form texts (50K+ words per book) generated by frontier LLMs, and is designed to test generalisation across multiple out-of-distribution (OOD) dimensions, including domain and unseen LLM author. We also propose TRACE -- a novel fingerprinting method that is interpretable and lightweight -- that works for both open- and closed-source models. TRACE creates the fingerprint by capturing token-level transition patterns (e.g., word rank) estimated by another lightweight language model. Experiments on GhostWriteBench demonstrate that TRACE achieves state-of-the-art performance, remains robust in OOD settings, and works well in limited training data scenarios.
- Abstract(参考訳): 本稿では,LLM著者属性のデータセットであるGhostWriteBenchを紹介する。
これはフロンティア LLM が生成した長文 (50K+ワード) を含み、ドメインや未確認 LLM の著者を含む複数のアウト・オブ・ディストリビューション (OOD) 次元にわたる一般化をテストするように設計されている。
また、オープンソースのモデルとクローズドソースモデルの両方で機能する、解釈可能で軽量な新しいフィンガープリント手法であるTRACEを提案する。
TRACEは、別の軽量言語モデルによって推定されるトークンレベルの遷移パターン(例えば、単語ランク)をキャプチャすることで指紋を生成する。
GhostWriteBenchの実験では、TRACEが最先端のパフォーマンスを実現し、OOD設定で堅牢であり、限られたトレーニングデータシナリオでうまく機能することを示した。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - LLM Attributor: Interactive Visual Attribution for LLM Generation [29.116016627864095]
Pythonライブラリは、大規模な言語モデルのデータ属性をトレーニングするためのインタラクティブな視覚化を提供する。
我々のライブラリは、LCMのテキスト生成をデータポイントのトレーニングに素早く対応させる新しい方法を提供する。
論文 参考訳(メタデータ) (2024-04-01T13:16:34Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Making Large Language Models A Better Foundation For Dense Retrieval [19.38740248464456]
デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。
意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。
本稿では,LLaRA (LLM adapted for dense RetrievAl) を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:10:35Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Enhancing Text-based Knowledge Graph Completion with Zero-Shot Large Language Models: A Focus on Semantic Enhancement [8.472388165833292]
KGC(CP-KGC)のための制約付きプロンプトというフレームワークを導入する。
このフレームワークは、セマンティック・リッチネスを高めるために、異なるデータセットに適応するプロンプトを設計する。
本研究は,既存のモデルの性能限界を拡張し,KGCと大規模言語モデルとのさらなる統合を促進する。
論文 参考訳(メタデータ) (2023-10-12T12:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。