Fugu-MT 論文翻訳(概要): Measuring Distribution Shift in User Prompts and Its Effects on LLM Performance

論文の概要: Measuring Distribution Shift in User Prompts and Its Effects on LLM Performance

arxiv url: http://arxiv.org/abs/2604.17650v1
Date: Sun, 19 Apr 2026 22:45:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.61804
Title: Measuring Distribution Shift in User Prompts and Its Effects on LLM Performance
Title（参考訳）: ユーザプロンプトにおける分布変化の測定とLLM性能への影響
Authors: Parker Seegmiller, Sarah Masud Preum,
Abstract要約: 本稿では,自然急速分布シフトを定量化するNatural prompt Shift (LENS) フレームワークを提案する。我々は、192の現実世界のポストデプロイプロンプト設定を用いて大規模な評価を行う。ユーザのプロンプト行動の適度なシフトも,大きなパフォーマンス低下に対応していることがわかった。
参考スコア（独自算出の注目度）: 6.126147454445217
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLMs are increasingly deployed in dynamic, real-world settings, where the distribution of user prompts can shift substantially over time as new tasks, prompts, and users are introduced to a deployed model. Such natural prompt distribution shift poses a major challenge to LLM reliability, particularly for specialized models designed for narrow domains or user populations. Despite attention to out-of-distribution robustness, there is very limited exploration of measuring natural prompt distribution shift in prior work, and its impact on deployed LLMs remains poorly understood. We introduce the LLM Evaluation under Natural prompt Shift (LENS) framework: a data-centric approach for quantifying natural prompt distribution shift and evaluating its effect on the performance of deployed LLMs. We perform a large-scale evaluation using 192 real-world post-deployment prompt shift settings over time, user group, and geographic axes, training a total of 81 models on 4.68M training prompts, and evaluating on 57.6k prompts. We find that even moderate shifts in user prompt behavior correspond with large performance drops (73% average loss) in deployed LLMs. This performance degradation is particularly prevalent when users from different latent groups and geographic regions interact with models and is correlated with natural prompt distribution shift over time. We systematically characterize how LLM instruction following ability degrades over time and between user groups. Our findings highlight the critical need for data-driven monitoring to ensure LLM performance remains stable across diverse and evolving user populations.
Abstract（参考訳）: ユーザプロンプトの分散は、新しいタスクやプロンプト、ユーザがデプロイされたモデルに導入されるにつれて、時間とともに大きく変化する可能性がある。このような自然なプロンプト分布シフトは、特に狭いドメインやユーザ層向けに設計された特殊なモデルにおいて、LLMの信頼性に大きな課題をもたらす。アウト・オブ・ディストリビューション・ロバスト性に注意を払っているにもかかわらず, 先行作業における自然分布変化の測定は極めて限定的であり, 展開されたLSMへの影響はよく分かっていない。本稿では,自然的プロンプトシフトに基づくLCM評価(LENS)フレームワークについて紹介する。自然的プロンプト分布シフトの定量化と,その展開したLSMの性能への影響を評価するためのデータ中心のアプローチである。実世界のポストデプロイプロンプト192の時間、ユーザグループ、地理軸のシフト設定を用いて大規模な評価を行い、4.68Mのトレーニングプロンプトで81のモデルをトレーニングし、57.6kのプロンプトで評価する。ユーザプロンプト動作の適度なシフトであっても、デプロイされたLDMにおいて、大きなパフォーマンス低下(73%の平均損失)に対応することが判明した。この性能劣化は、異なる潜伏グループや地理的領域のユーザがモデルと相互作用し、時間とともに自然分布の変化と相関するときに特に顕著である。時間とユーザグループ間でLLM命令の追従能力の劣化を系統的に特徴づける。この結果から,多種多様なユーザ層にまたがってLCM性能を安定させるためには,データ駆動監視が不可欠であることが示唆された。

関連論文リスト

A Regression Framework for Understanding Prompt Component Impact on LLM Performance [0.0]
本稿では,大規模言語モデル(LLM)の性能に対する特定のプロンプト機能の影響を理解するための統計的枠組みを提案する。本研究では,2つのオープンソースモデルであるMistral-7B と GPT-OSS-20B を比較し,簡単な算術問題を実行するためのプロンプトを利用する方法を提案する。
論文参考訳（メタデータ） (2026-03-27T04:13:39Z)
Rethinking the Role of LLMs in Time Series Forecasting [15.951870420397682]
大規模言語モデル (LLM) は時系列予測 (TSF) に導入され、数値信号以外の文脈知識が組み込まれている。このような結論は,限られた評価設定に起因し,大規模に保たないことを示す。以上の結果から,emphLLM4TSでは予測性能が向上し,ドメイン間の一般化が著しく向上することが示唆された。
論文参考訳（メタデータ） (2026-02-16T13:39:09Z)
Selective LLM-Guided Regularization for Enhancing Recommendation Models [7.406718588794206]
トレーニング可能なゲーティング機構がユーザ履歴の長さやアイテムの人気,モデルの不確実性によってLCMの信頼性が予測される場合にのみ,LCMに基づくペアワイズランキング管理を活性化する,モデルに依存しない効率的なフレームワークを提案する。複数のデータセットにまたがる実験により、この選択的戦略は全体的な精度を一貫して改善し、コールドスタートとロングテールレジームにおいてかなりの利益をもたらし、世界的な蒸留ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2025-12-25T06:30:00Z)
TravelBench : Exploring LLM Performance in Low-Resource Domains [2.2917707112773593]
実世界のシナリオから匿名化されたデータを用いて、7つの共通NLPタスクにまたがる14の旅行領域データセットをキュレートした。各種タスクにおけるLCMの精度,スケーリング行動,推論能力について報告する。
論文参考訳（メタデータ） (2025-10-03T04:44:34Z)
Just Put a Human in the Loop? Investigating LLM-Assisted Annotation for Subjective Tasks [18.695435335031355]
複数のもっともらしい回答を持つ主観的アノテーションタスクでは、LCM出力のレビューはラベルの分布を変えることができる。 410種類のアノテーションと7000以上のアノテーションを用いた事前登録実験を行った。その結果, LLM によるアノテーション提案をクラウドワーカーに提示することは, より迅速ではなく, 自己報告によるタスクへの信頼感を向上させることができた。
論文参考訳（メタデータ） (2025-07-21T17:29:21Z)
Can LLM Agents Simulate Multi-Turn Human Behavior? Evidence from Real Online Customer Behavior Data [46.65903742010956]
本研究では,人間の行動を正確にシミュレートする,最先端のLDMの能力の大規模定量的評価を行った。 230,965件のユーザアクションを含む31,865件のオンラインショッピングセッションから得られた実世界データを用いて,プロンプトベースのLCMが人間の行動生成においてわずか11.86%の精度で達成できることを明らかにする。また, 実クリックスルーデータに対して, モデルの性能を大幅に向上させる手法として, 実クリックスルーデータに対する微調整 LLM の戦略を提示する。
論文参考訳（メタデータ） (2025-03-26T17:33:27Z)
Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文参考訳（メタデータ） (2025-02-21T02:03:08Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。