論文の概要: Attribution Quality in AI-Generated Content:Benchmarking Style Embeddings and LLM Judges
- arxiv url: http://arxiv.org/abs/2510.13898v1
- Date: Tue, 14 Oct 2025 18:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.523131
- Title: Attribution Quality in AI-Generated Content:Benchmarking Style Embeddings and LLM Judges
- Title(参考訳): AI生成コンテンツの属性品質:ベンチマークスタイルの埋め込みとLCM判断
- Authors: Misam Abbas,
- Abstract要約: 大規模言語モデル(LLM)の時代における著者の貢献は、機械による散文が人間の文章に匹敵するものとして、ますます困難になっている。
2つの相補的帰属機構をベンチマークする。
ヒューマンAIパラレルコーパスの固定スタイル埋め込みと命令調整LDMジャッジ(GPT-4o)。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attributing authorship in the era of large language models (LLMs) is increasingly challenging as machine-generated prose rivals human writing. We benchmark two complementary attribution mechanisms , fixed Style Embeddings and an instruction-tuned LLM judge (GPT-4o) on the Human AI Parallel Corpus, an open dataset of 600 balanced instances spanning six domains (academic, news, fiction, blogs, spoken transcripts, and TV/movie scripts). Each instance contains a human prompt with both a gold continuation and an LLM-generated continuation from either GPT-4o or LLaMA-70B-Instruct. The Style Embedding baseline achieves stronger aggregate accuracy on GPT continuations (82 pct vs. 68 pct). The LLM Judge is slightly better than the Style embeddings on LLaMA continuations (85 pct vs. 81 pct) but the results are not statistically significant. Crucially, the LLM judge significantly outperforms in fiction and academic prose, indicating semantic sensitivity, whereas embeddings dominate in spoken and scripted dialogue, reflecting structural strengths. These complementary patterns highlight attribution as a multidimensional problem requiring hybrid strategies. To support reproducibility we provide code on GitHub and derived data on Hugging Face under the MIT license. This open framework provides a reproducible benchmark for attribution quality assessment in AI-generated content, along with a review of related literature influencing this work.
- Abstract(参考訳): 大規模言語モデル(LLM)の時代における著者の貢献は、機械による散文が人間の文章に匹敵するものとして、ますます困難になっている。
我々は、6つのドメイン(学術、ニュース、フィクション、ブログ、音声書き起こし、TV/ムーブメントスクリプト)にまたがる600のバランスのとれたインスタンスからなるオープンデータセットであるHuman AI Parallel Corpus上で、2つの補完的な属性メカニズム、固定スタイル埋め込みと命令チューニングLDM審査(GPT-4o)をベンチマークした。
各インスタンスは、GPT-4oまたはLLaMA-70B-インストラクトからの金の継続とLDM生成の継続の両方を持つヒトプロンプトを含む。
スタイル埋め込みベースラインは, GPT継続(88%対68%)において, より強力な集約精度を実現する。
LLM審査員はLLaMA継続のスタイル埋め込み(85%対81%)よりも若干良いが、統計的には有意ではない。
重要なことに、LLMの判断はフィクションや学術的な散文において顕著に優れており、意味的感受性を示しているのに対し、埋め込みは音声とスクリプトによる対話において支配的であり、構造的な強みを反映している。
これらの相補的なパターンは、ハイブリッド戦略を必要とする多次元問題として属性を強調している。
再現性をサポートするため、GitHubのコードとHugging Faceの派生データをMITライセンス下で提供しています。
このオープンフレームワークは、AI生成コンテンツの属性品質評価のための再現可能なベンチマークと、この研究に影響を与える関連する文献のレビューを提供する。
関連論文リスト
- Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper [64.50822834679101]
SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。
オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。
結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-08-19T21:11:11Z) - The Feasibility of Topic-Based Watermarking on Academic Peer Reviews [46.71493672772134]
大規模言語モデル(LLM)に対する話題ベース透かし(TBW)の評価を行った。
以上の結果から,TBWは非透かし出力と比較してレビュー品質を保ちつつ,パラフレージングに基づく回避を強く示している。
論文 参考訳(メタデータ) (2025-05-27T18:09:27Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - I Can Find You in Seconds! Leveraging Large Language Models for Code Authorship Attribution [10.538442986619147]
State-of-the-art large language model (LLM)は、様々な言語でソースコードのオーサリングに成功している。
LLMは、悪質な攻撃に対する敵対的な堅牢性を示す。
本稿では,大規模属性に対するトーナメント方式のアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-14T14:46:19Z) - GLIDER: Grading LLM Interactions and Decisions using Explainable Ranking [0.9614204956530676]
我々は,任意のユーザ定義基準に基づいて任意のテキスト入力および関連するコンテキストをスコアできる,強力な3B評価用LLMであるGLIDERを紹介する。
GLIDERは、FLASK上のGPT-4oよりもピアソンの相関が高く、事前評価モデルよりも大幅に優れていた。
きめ細かいスコア付け、多言語推論、強調表示をサポートし、685のドメインと183の基準でトレーニングされた。
論文 参考訳(メタデータ) (2024-12-18T18:41:12Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。