論文の概要: The Inadequacy of Offline LLM Evaluations: A Need to Account for Personalization in Model Behavior
- arxiv url: http://arxiv.org/abs/2509.19364v1
- Date: Thu, 18 Sep 2025 20:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.513956
- Title: The Inadequacy of Offline LLM Evaluations: A Need to Account for Personalization in Model Behavior
- Title(参考訳): オフラインLCM評価の不適切性--モデル行動のパーソナライズのために
- Authors: Angelina Wang, Daniel E. Ho, Sanmi Koyejo,
- Abstract要約: 我々は、同じ言語モデルに対する同一のベンチマーク質問が、ステートレスシステムに誘導された場合、顕著に異なる応答を生成できることを示す。
オフライン評価と、ChatGPTとGeminiの実際のユーザ800名によるフィールド評価を比較し、チャットインターフェースに提示された質問とを比較した。
- 参考スコア(独自算出の注目度): 32.02851847409678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard offline evaluations for language models -- a series of independent, state-less inferences made by models -- fail to capture how language models actually behave in practice, where personalization fundamentally alters model behavior. For instance, identical benchmark questions to the same language model can produce markedly different responses when prompted to a state-less system, in one user's chat session, or in a different user's chat session. In this work, we provide empirical evidence showcasing this phenomenon by comparing offline evaluations to field evaluations conducted by having 800 real users of ChatGPT and Gemini pose benchmark and other provided questions to their chat interfaces.
- Abstract(参考訳): 言語モデルに対する標準的なオフライン評価 — モデルによって作成される独立したステートレスな一連の推論 — は、パーソナライゼーションがモデル動作を根本的に変えるような、実際に言語モデルがどのように振る舞うかを捉えていない。
例えば、同じ言語モデルに対する同一のベンチマーク質問は、ステートレスシステム、あるユーザのチャットセッション、あるいは別のユーザのチャットセッションにトリガーされた場合、著しく異なるレスポンスを生成することができる。
本研究では,ChatGPT と Gemini の実ユーザ800 名を対象に,オフライン評価とフィールド評価を比較して,この現象を実証する実証的証拠を提供する。
関連論文リスト
- A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation [0.0]
言語モデルのロールプレイング能力を評価するためのベンチマークを導入する。
異なる言語モデルを利用して、動的でマルチターンな会話でユーザをシミュレートし、その結果の対話を評価する。
英語とロシア語の両方で40以上のモデルを評価し,各モデルは8文字と8つの状況で64の会話に参加した。
論文 参考訳(メタデータ) (2024-09-10T19:00:44Z) - Towards Personalized Evaluation of Large Language Models with An
Anonymous Crowd-Sourcing Platform [64.76104135495576]
大規模言語モデルのための匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。
このプラットフォームを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
論文 参考訳(メタデータ) (2024-03-13T07:31:20Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。