論文の概要: The Ghost Couple: Correlated LLM Name Priors and Their Haunting of the Web and Academic Publishing
- arxiv url: http://arxiv.org/abs/2606.02184v1
- Date: Mon, 01 Jun 2026 12:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.00844
- Title: The Ghost Couple: Correlated LLM Name Priors and Their Haunting of the Web and Academic Publishing
- Title(参考訳): The Ghost Couple:Correlated LLM Name Priors and their Haunting of the Web and Academic Publishing
- Authors: Michał Brzozowski, Neo Christopher Chung,
- Abstract要約: 大規模な言語モデルは、フィクションの専門家を生み出す際に、単に高い確率の個人名に対してデフォルトではないことを示す。
我々は、偽造された刊行日を記した現存しない雑誌を主張する1,655件のゴースト・ライツ・レコードを特定した。
- 参考スコア(独自算出の注目度): 2.406359246841227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: These names do not exist. Elena Vasquez and Marcus Chen have appeared as volcano experts, astronauts, thriller protagonists, podcast hosts, and academic co-authors across hundreds of independently produced AI-generated documents, never having lived. We show that large language models do not merely default to high-probability individual names when generating fictional experts: they produce correlated character ensembles, pairs and trios whose co-occurrence rates far exceed chance and are consistent across independent generations. These priors are model-family-specific (Claude: Elena Vasquez + Marcus Chen + Amara Okafor; Gemini: Aris Thorne + Lena Petrova; GPT: Elara Voss with no fixed partner), version-specific, and actively suppressed at model release boundaries, leaving dateable behavioral fingerprints in the content they produced. We document a downstream consequence at scale. On Zenodo, a CERN-operated repository that mints real DataCite DOIs, we identify 1,655 ghost-authored records claiming nonexistent journals with fabricated publication dates: server-side DataCite timestamps prove deliberate backdating, and 991 records were registered in a single month; these carry real DOIs registered in DataCite, making them harvestable by any scholarly aggregator that ingests DOI metadata. Ghost names additionally appear on ResearchGate forming synthetic research groups with collaborators drawn from multiple model families; publication dates on these records provide a reliable temporal proxy for model deployment windows.
- Abstract(参考訳): これらの名称は存在しない。
Elena Vasquez氏とMarcus Chen氏は、火山の専門家、宇宙飛行士、スリラーの主人公、ポッドキャストホスト、そして何百もの独立して作成されたAI生成文書の学術的共著者として登場しました。
大規模言語モデルは、架空の専門家を生み出す際には、単に高い確率の個人名にデフォルトを定めていないことを示す。
これらの先行はモデルファミリーに特化している(Claude: Elena Vasquez + Marcus Chen + Amara Okafor; Gemini: Aris Thorne + Lena Petrova; GPT: Elara Voss with without fixed partner; GPT: Elara Voss)。
ダウンストリームの結果を大規模に記録します。
実際のDataCite DOIをマイニングするCERN運用のリポジトリであるZenodoでは,サーバサイドのDataCiteタイムスタンプが意図的なバックデレーションを証明し,991レコードが1ヶ月で登録され,実際のDOIがDataCiteに登録されているため,DOIメタデータを取り込みながら,学術的に収集可能な1,655レコードのゴーストライツを識別する。
ゴースト名はResearchGateに登場し、複数のモデルファミリーから引き出された協力者による合成研究グループを形成する。
関連論文リスト
- Explainable Disentangled Representation Learning for Generalizable Authorship Attribution in the Era of Generative AI [70.05655131235999]
EAVAE(Explainable Authorship Variational Autoencoder)は、コンテンツからスタイルを明示的に切り離す新しいフレームワークである。
ディスタングルメントは、新規な差別者を通じて実施される。
EAVAEは、AI生成テキスト検出のためのM4データセットよりも、数ショットの学習に優れています。
論文 参考訳(メタデータ) (2026-04-23T05:34:20Z) - ENEIDE: A High Quality Silver Standard Dataset for Named Entity Recognition and Linking in Historical Italian [8.815891100152148]
ENEIDEは、トレーニング、開発、テストスプリットを備えた、最初のマルチドメインのNERLデータセットである。
本稿では,手作業による学習用デジタル版からの半自動アノテーション抽出手法を提案する。
最先端モデルを用いたベースライン実験では、NERLに対するデータセットの課題とゼロショットアプローチと微調整モデルとのギャップが示されている。
論文 参考訳(メタデータ) (2026-03-31T14:32:34Z) - Named Entity Recognition in Historical Italian: The Case of Giacomo Leopardi's Zibaldone [4.795582035438343]
歴史的テキストの課題に適応できる計算技術が緊急に必要である。
大規模言語モデル(LLM)の台頭は、自然言語処理に革命をもたらした。
イタリア語のテキストに対する詳細な評価は提案されていない。
論文 参考訳(メタデータ) (2025-05-26T15:16:48Z) - Unraveling Interwoven Roles of Large Language Models in Authorship Privacy: Obfuscation, Mimicking, and Verification [12.44258859101255]
オーサシップの難読化 (AO)、オーサシップの模倣 (AM)、オーサシップの検証 (AV) はオーサシップのプライバシーにおける3つの主要な自動化タスクである。
本研究は, LLM 有効化 AO, AM, AV 間の動的関係を解析するための最初の統一フレームワークを提案する。
また、性別、学歴、パフォーマンス、タスク間ダイナミクス、プライバシーリスクなど、人口統計学的メタデータの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-20T10:52:12Z) - Unstructured Evidence Attribution for Long Context Query Focused Summarization [53.08341620504465]
固定粒度の場合よりも、より関連性が高く一貫した証拠を得るために、非構造的(すなわち任意の長さのスパン)な証拠を抽出することを提案する。
既存のシステムが、非構造的証拠をコピーし、適切に引用するのにどのように苦労しているかを示す。
論文 参考訳(メタデータ) (2025-02-20T09:57:42Z) - Investigating Factuality in Long-Form Text Generation: The Roles of Self-Known and Self-Unknown [68.33486915047014]
様々な大言語モデル(LLM)における長文テキスト生成の事実性について検討する。
分析の結果, 文末文の事実性は低下傾向にあり, 支持請求件数が増加傾向にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-24T22:06:26Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。
以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。
セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Razmecheno: Named Entity Recognition from Digital Archive of Diaries
"Prozhito" [1.4823641127537543]
本稿では,ロシア語のプロジェクトProzhitoの日記テキストから収集した新しいデータセット"Razmecheno"を作成することを目的とする。
ラズメチーノは1331の文と14119のトークンで構成されており、ペレストロイカ時代に書かれた日記から採集されている。
論文 参考訳(メタデータ) (2022-01-24T23:06:01Z) - Bib2Auth: Deep Learning Approach for Author Disambiguation using
Bibliographic Data [4.817368273632451]
著者名と現実の実体をリンクする新しい手法を,共著者パターンと研究領域に頼って提案する。
教師付きディープラーニングモデルでは,著者と共著者との関係や研究領域を把握し,著者を識別する。
Bib2Authは比較的大きなデータセットで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-07-09T12:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。