論文の概要: The Limits of Goal-Setting Theory in LLM-Driven Assessment
- arxiv url: http://arxiv.org/abs/2510.06997v1
- Date: Wed, 08 Oct 2025 13:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.511644
- Title: The Limits of Goal-Setting Theory in LLM-Driven Assessment
- Title(参考訳): LLM駆動評価におけるゴールセッティング理論の限界
- Authors: Mrityunjay Kumar,
- Abstract要約: 多くのユーザーは、ChatGPTのようなAIツールと対話し、システムを人間らしく扱うメンタルモデルを使います。
そこで本研究では,ChatGPTが29名の学生を対象に,特定度を増す4つのプロンプトを用いて,その仮定を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Many users interact with AI tools like ChatGPT using a mental model that treats the system as human-like, which we call Model H. According to goal-setting theory, increased specificity in goals should reduce performance variance. If Model H holds, then prompting a chatbot with more detailed instructions should lead to more consistent evaluation behavior. This paper tests that assumption through a controlled experiment in which ChatGPT evaluated 29 student submissions using four prompts with increasing specificity. We measured consistency using intra-rater reliability (Cohen's Kappa) across repeated runs. Contrary to expectations, performance did not improve consistently with increased prompt specificity, and performance variance remained largely unchanged. These findings challenge the assumption that LLMs behave like human evaluators and highlight the need for greater robustness and improved input integration in future model development.
- Abstract(参考訳): 多くのユーザーは、ChatGPTのようなAIツールと対話し、システムを人間らしく扱うメンタルモデルを使用して、モデルHと呼ぶ。
Model Hが保持している場合、より詳細な指示でチャットボットを起動すると、より一貫した評価動作につながるはずだ。
そこで本研究では,ChatGPTが29名の学生を対象に,特定度を増す4つのプロンプトを用いて,その仮定を検証した。
反復走行中におけるレータ内信頼性(コーエンカッパ)の整合性を測定した。
期待に反して、パフォーマンスは急激な特異性の増加とともに一貫して改善されず、パフォーマンスのばらつきはほとんど変わらないままだった。
これらの知見は、LLMが人間の評価器のように振る舞うという仮定に挑戦し、将来のモデル開発における堅牢性の向上とインプット統合の改善の必要性を強調している。
関連論文リスト
- Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Improving User Behavior Prediction: Leveraging Annotator Metadata in Supervised Machine Learning Models [20.680357762880163]
監視された機械学習モデルは、会話テキストからユーザーの振る舞いを予測するのに不適当であることが多い。
疲労やスピードといったアノテータのメタ機能を統合したメタデータ重み付け型アンサンブルモデル(MSWEEM)を導入する。
MSWEEMは標準アンサンブルを、ホールドアウトデータでは14%、代替データセットでは12%で上回っている。
論文 参考訳(メタデータ) (2025-03-26T21:30:48Z) - TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles [2.8839090723566296]
TurtleBenchは、私たちのオンラインTurtle Soup Puzzleプラットフォームから、実際のユーザ推測を収集します。
TurtleBenchには1,532のユーザ推測とアノテーション後の推測の正確性が含まれている。
私たちは現在利用可能な最も先進的な言語モデルのうち9つを徹底的に評価しました。
論文 参考訳(メタデータ) (2024-10-07T17:58:47Z) - Using ChatGPT to Score Essays and Short-Form Constructed Responses [0.0]
線形回帰、ランダム森林、勾配上昇、隆起など、様々な予測モデルに焦点をあてた調査。
2次重み付きカッパ(QWK)測定値を用いてChatGPTの性能評価を行った。
研究は、ChatGPTは人間のスコアを補完するが、高い評価を得るためにはさらなる開発が必要であると結論付けている。
論文 参考訳(メタデータ) (2024-08-18T16:51:28Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。