論文の概要: The signal is the ceiling: Measurement limits of LLM-predicted experience ratings from open-ended survey text
- arxiv url: http://arxiv.org/abs/2604.19645v1
- Date: Tue, 21 Apr 2026 16:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.873666
- Title: The signal is the ceiling: Measurement limits of LLM-predicted experience ratings from open-ended survey text
- Title(参考訳): 天井の信号:オープンエンド調査テキストによるLCM予測体験評価の限界測定
- Authors: Andrew Hong, Jason Potteiger, Luis E. Zapata,
- Abstract要約: 以前の論文では、最適化されていないGPT 4.1は、オープンエンドの調査テキストから、ファンが報告した体験評価を1ポイント67%以内で予測する。
本稿では,その性能に対する設計とモデル選択の相対的影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An earlier paper (Hong, Potteiger, and Zapata 2026) established that an unoptimized GPT 4.1 prompt predicts fan-reported experience ratings within one point 67% of the time from open-ended survey text. This paper tests the relative impact of prompt design and model selection on that performance. We compared four configurations on approximately 10,000 post-game surveys from five MLB teams: the original baseline prompt and a moderately customized version, crossed with three GPT models (4.1, 4.1-mini, 5.2). Prompt customization added roughly two percentage points of within +/-1 agreement on GPT 4.1 (from 67% to 69%). Both model swaps from that best configuration degraded performance: GPT 5.2 returned to the baseline, and GPT 4.1-mini fell six percentage points below it. Both levers combined were dwarfed by the input itself: across capable configurations, accuracy varied more than an order of magnitude more by the linguistic character of the text than by the choice of prompt or model. The ceiling has two parts. One is a bias in how the model reads text, which prompt design can correct. The other is a difference between what fans write about and what they actually decide, which no engineering can close because the missing information is not in the text. Prompt customization moved the first part; model selection moved neither reliably. The result is not that "prompt engineering helps a little" but that prompt engineering helps in a specific and predictable way, on the part of the ceiling it can reach.
- Abstract(参考訳): 以前の論文(Hong, Potteiger, Zapata 2026)では、最適化されていないGPT 4.1は、オープンエンドの調査テキストから、ファンが報告した経験評価を1ポイント以内で予測する。
本稿では,その性能に対する設計とモデル選択の相対的影響について検討する。
5つのMLBチームによる約1万のポストゲームサーベイで、オリジナルベースラインプロンプトと適度にカスタマイズされたバージョンを3つのGPTモデル(4.1, 4.1-mini, 5.2)で比較した。
プロンプトのカスタマイズは GPT 4.1 (67% から 69% まで) で +/-1 内契約の約 2 ポイントを加算した。
GPT 5.2はベースラインに戻され、GPT 4.1-miniは6ポイント下降した。
両レバーの組み合わせは入力自体によって軽視され、有能な構成で、精度はプロンプトやモデルの選択よりも、テキストの言語的性格によって桁違いに変化した。
天井には2つの部分があります。
ひとつは、モデルがどのようにテキストを読み込むかのバイアスであり、それによって設計が修正される可能性がある。
もうひとつは、ファンが何を書いているのか、実際に何を決めるのかの違いです。
プロンプトのカスタマイズは最初の部分を動かし、モデルの選択は確実には動かなかった。
その結果、"プロンプトエンジニアリングは少しでも役に立つ"のではなく、エンジニアリングが特定の予測可能な方法で、到達可能な天井の部分に役立ちます。
関連論文リスト
- Mind Reading or Misreading? LLMs on the Big Five Personality Test [1.3649494534428745]
本研究では,2進5因子モデル (BIG5) に基づくテキストから人格自動予測のための大規模言語モデル (LLM) を評価する。
オープンソースモデルは時々 GPT-4 や以前のベンチマークにアプローチするが、ゼロショットバイナリ設定で一貫した信頼性のある予測は得られない。
これらの結果から, 現状のLCMはAPPTにはまだ適していないこと, 迅速な設計, 特性フレーミング, 評価指標の慎重な調整が, 解釈可能な結果に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2025-11-28T11:40:30Z) - GPT-5 Model Corrected GPT-4V's Chart Reading Errors, Not Prompting [3.765281403026053]
本稿では,ゼロショット大言語モデル(LLM)がチャート読解タスクに与える影響を定量的に評価する。
エージェントGPT-5とマルチモーダルGPT-4Vの推測精度を比較するため, LLMに107の可視化質問に対する回答を求めた。
その結果,モデルアーキテクチャが推論精度を支配しているのに対し,プロンプト変種は小さな効果しか得られていないことがわかった。
論文 参考訳(メタデータ) (2025-10-08T09:09:29Z) - The Hidden Structure -- Improving Legal Document Understanding Through Explicit Text Formatting [44.99833362998488]
法的な契約には、人間の理解に不可欠な、本質的で意味論的に不可欠な構造(例えば、節、節)がある。
本稿では, GPT-4o と GPT-4.1 が法的問合せ課題に与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-19T08:25:21Z) - How Effectively Do LLMs Extract Feature-Sentiment Pairs from App Reviews? [2.218667838700643]
本研究は,GPT-4,ChatGPT,およびLlama-2チャットの異なる変種を含む最先端LLMの性能を比較した。
肯定的な感情と中立的な感情を予測するため、GPT-4は0ショット設定でf1スコアの76%と45%を達成している。
論文 参考訳(メタデータ) (2024-09-11T10:21:13Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Search Methods for Sufficient, Socially-Aligned Feature Importance
Explanations with In-Distribution Counterfactuals [72.00815192668193]
特徴重要度(FI)推定は一般的な説明形式であり、テスト時に特定の入力特徴を除去することによって生じるモデル信頼度の変化を計算し、評価することが一般的である。
FIに基づく説明の未探索次元についていくつかの考察を行い、この説明形式に対する概念的および実証的な改善を提供する。
論文 参考訳(メタデータ) (2021-06-01T20:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。