論文の概要: Theory-Grounded Evaluation Exposes the Authorship Gap in LLM Personalization
- arxiv url: http://arxiv.org/abs/2604.26460v1
- Date: Wed, 29 Apr 2026 09:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.32746
- Title: Theory-Grounded Evaluation Exposes the Authorship Gap in LLM Personalization
- Title(参考訳): LLMパーソナライゼーションにおけるオーサシップギャップの理論的評価
- Authors: Yash Ganpat Sawant,
- Abstract要約: 著者検証理論の基盤評価は,どのベンチマークを計測できるかを変換することを示した。
我々は50人の著者と1000世代にわたる4つの推論時パーソナライズ手法を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stylistic personalization - making LLMs write in a specific individual's style, rather than merely adapting to task preferences - lacks evaluation grounded in authorship science. We show that grounding evaluation in authorship verification theory transforms what benchmarks can measure. Drawing on three measurement traditions - LUAR, a trained authorship verification model; an LLM-as-judge with decoupled trait matching; and classical function-word stylometrics - we evaluate four inference-time personalization methods across 50 authors and 1,000 generations. The theory-grounded metric, LUAR, provides what ad hoc alternatives cannot: calibrated baselines, with a human ceiling of 0.756 and a cross-author floor of 0.626, that give scores absolute meaning. All methods score below this floor, from 0.484 to 0.508, exposing an authorship gap invisible to uncalibrated metrics. The three metrics produce near-zero pairwise correlations, with absolute r less than 0.07, confirming that without theoretical grounding, metric choice determines conclusions: an LLM judge declares a clear winner while LUAR finds no meaningful differentiation. These findings demonstrate the theory-benchmark cycle in action: authorship theory exposes evaluation failures that ad hoc benchmarks miss.
- Abstract(参考訳): ストリスティックなパーソナライゼーション - LLMを単にタスクの好みに適応するのではなく、特定の個人のスタイルで書くようにすること。
著者検証理論の基盤評価は,どのベンチマークを計測できるかを変換することを示した。
3つの測定手法(LUAR, 訓練された著者検証モデル, 分離された特徴マッチングを持つLLM-as-judge, 古典的な関数ワードスタイリメトリ)を基礎として, 著者50名と世代1,000名を対象に, 推論時パーソナライズ手法を4つ評価した。
LUARは、人間の天井が0.756、クロスオーサリングフロアが0.626であり、絶対的な意味を与えている。
このフロアの下のすべてのメソッドは0.484から0.508までスコアされ、未調整のメトリクスには見えない著者間のギャップが露出する。
3つの指標は互いにほぼゼロに近い相関関係を持ち、絶対 r は 0.07 未満であり、理論的な根拠なくしてメートル法選択が結論を決定することを確認している。
著者理論は、アドホックベンチマークが見逃す評価失敗を露呈する。
関連論文リスト
- Can LLMs Predict Academic Collaboration? Topology Heuristics vs. LLM-Based Link Prediction on Real Co-authorship Networks [4.675202949988315]
本研究では,大規模言語モデル(LLM)が,グラフ構造にアクセスせずに著者プロファイルのみを用いて将来の科学的コラボレーションを予測できるかどうかを考察する。
Qwen-722.5B-Instructは、AI研究の3つの歴史的時代において、LLMとトポロジーが異なる信号を捉え、補完的な設定で最強であることがわかった。
論文 参考訳(メタデータ) (2026-04-01T20:39:12Z) - QEDBENCH: Quantifying the Alignment Gap in Automated Evaluation of University-Level Mathematical Proofs [29.26861081722613]
我々は, 標準の「LLM-as-a-Judge」プロトコルが, 上学部から初期大学院レベルの数学に適用された場合, 体系的なアライメントギャップに悩まされることを実証した。
QEDBenchは、大学レベルの数学における人間の専門家とのアライメントを測定するための、最初の大規模デュアルルーブリックアライメントベンチマークである。
我々は,Claude Opus 4.5,DeepSeek-V3,Qwen 2.5 Max,Llama 4 Maverickなどのフロンティア評価が有意な正のバイアスを示すことを明らかにした。
論文 参考訳(メタデータ) (2026-02-24T07:23:28Z) - Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - Comparison of Unsupervised Metrics for Evaluating Judicial Decision Extraction [0.0]
この研究は、ロシアの1000の司法判断から7つの意味的ブロックを抽出する品質を評価するために、新しい定式化を含む16の教師なしメトリクスを評価した。
これらの指標は、文書ベース、セマンティック、構造的、疑似地下の真理、および法律固有のカテゴリーにまたがって、事前に注釈付けされた基礎の真理なしで機能する。
この研究は、司法分析と倫理的AIデプロイメントに影響を及ぼす、アノテーションのない評価ツールを提供することで、法的NLPを前進させる。
論文 参考訳(メタデータ) (2025-10-02T08:32:16Z) - How Well Do LLMs Imitate Human Writing Style? [2.3754840025365183]
大規模言語モデル(LLM)は、流動的なテキストを生成することができるが、特定の人間の作者の独特のスタイルを再現する能力は、まだ不明である。
著者の検証とスタイルの模倣分析のための,高速かつトレーニング不要なフレームワークを提案する。
学術エッセイでは97.5%、クロスドメイン評価では94.5%の精度を達成している。
論文 参考訳(メタデータ) (2025-09-29T15:34:40Z) - LLMs Can Patch Up Missing Relevance Judgments in Evaluation [56.51461892988846]
我々は、大きな言語モデル(LLM)を使って、不確定な文書を自動的にラベル付けします。
TREC DLトラックの関連性判定から関連文書をランダムにドロップすることで,穴の度合いの異なるシナリオをシミュレートする。
Vicuna-7B と GPT-3.5 Turbo の平均値に対して,Kendall tau の0.87 と 0.92 の相関式が得られた。
論文 参考訳(メタデータ) (2024-05-08T00:32:19Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。