論文の概要: Persona-Augmented Benchmarking: Evaluating LLMs Across Diverse Writing Styles
- arxiv url: http://arxiv.org/abs/2507.22168v1
- Date: Tue, 29 Jul 2025 18:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.819748
- Title: Persona-Augmented Benchmarking: Evaluating LLMs Across Diverse Writing Styles
- Title(参考訳): Persona-Augmented Benchmarking: 横書きスタイルにおけるLLMの評価
- Authors: Kimberly Le Truong, Riccardo Fogliato, Hoda Heidari, Zhiwei Steven Wu,
- Abstract要約: さまざまなモデルやタスクにまたがって、低いか高いパフォーマンスを連続的に引き起こす異なる書き込みスタイルを特定します。
我々の研究は、既存のベンチマークを拡大するためのスケーラブルなアプローチを提供し、LLM性能の測定に提供される評価の外部的妥当性を改善します。
- 参考スコア(独自算出の注目度): 32.121191446326876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current benchmarks for evaluating Large Language Models (LLMs) often do not exhibit enough writing style diversity, with many adhering primarily to standardized conventions. Such benchmarks do not fully capture the rich variety of communication patterns exhibited by humans. Thus, it is possible that LLMs, which are optimized on these benchmarks, may demonstrate brittle performance when faced with "non-standard" input. In this work, we test this hypothesis by rewriting evaluation prompts using persona-based LLM prompting, a low-cost method to emulate diverse writing styles. Our results show that, even with identical semantic content, variations in writing style and prompt formatting significantly impact the estimated performance of the LLM under evaluation. Notably, we identify distinct writing styles that consistently trigger either low or high performance across a range of models and tasks, irrespective of model family, size, and recency. Our work offers a scalable approach to augment existing benchmarks, improving the external validity of the assessments they provide for measuring LLM performance across linguistic variations.
- Abstract(参考訳): LLM(Large Language Models)を評価するための現在のベンチマークでは、多くの場合、書式スタイルの多様性が十分に示されていない。
このようなベンチマークは、人間が提示する多様なコミュニケーションパターンを完全には捉えていない。
したがって、これらのベンチマークに最適化されたLCMは、"非標準"入力に直面すると不安定な性能を示す可能性がある。
本研究では,多種多様な書体をエミュレートする低コストな手法であるペルソナ型LCMプロンプトを用いて,評価プロンプトを書き換えることにより,この仮説を検証する。
この結果から,同一のセマンティックコンテンツであっても,書式や書式の違いがLLMの評価性能に大きく影響していることが示唆された。
特に、モデルファミリ、サイズ、正確性に関係なく、さまざまなモデルやタスクに対して、低またはハイパフォーマンスを一貫して引き起こす異なる書き込みスタイルを特定します。
我々の研究は、既存のベンチマークを拡張するためのスケーラブルなアプローチを提供し、言語的バリエーションを越えてLLM性能を測定するための評価の外部的妥当性を改善した。
関連論文リスト
- Re-Evaluating Code LLM Benchmarks Under Semantic Mutation [8.58692613099365]
本稿では,コードベンチマークの迅速感度を調査するための実証的研究について述べる。
本稿では,プロンプトテンプレートのセマンティクスと構造を両立させる手法として,プロンプトテンプレートを改良する汎用フレームワークを提案する。
この結果から, 急激な変化であっても, 性能が著しく変化することが示唆された。
論文 参考訳(メタデータ) (2025-06-20T15:30:36Z) - Benchmarking and Revisiting Code Generation Assessment: A Mutation-Based Approach [20.27214998822657]
Code Large Language Models (CLLM) は、プログラム合成において優れた性能を示した。
既存のベンチマークは通常、各問題の評価のために1つの入力プロンプトのみを提供する。
10の突然変異戦略を提案し、コード生成への影響を評価するために3つの新しい指標を導入する。
論文 参考訳(メタデータ) (2025-05-11T07:14:30Z) - Improve LLM-based Automatic Essay Scoring with Linguistic Features [46.41475844992872]
本稿では,多様なプロンプトにまたがってエッセイを処理できるスコアリングシステムを開発した。
既存のメソッドは通常、2つのカテゴリに分類される: 教師付き特徴ベースのアプローチと、大きな言語モデル(LLM)ベースの方法。
論文 参考訳(メタデータ) (2025-02-13T17:09:52Z) - Toward the Evaluation of Large Language Models Considering Score Variance across Instruction Templates [24.46103924394483]
大規模言語モデル(LLM)の自然言語理解(NLU)性能は,様々なタスクやデータセットで評価されている。
しかし、既存の評価手法では、プロンプトの違いによるスコアのばらつきを考慮に入れていない。
したがって、異なる命令テンプレート間のスコアのばらつきを考慮して、NLU性能を公平に測定する方法を見つける必要がある。
論文 参考訳(メタデータ) (2024-08-22T10:00:20Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - An Examination of the Compositionality of Large Generative Vision-Language Models [7.639748270719836]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。
我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。