論文の概要: User Behavior Prediction as a Generic, Robust, Scalable, and Low-Cost Evaluation Strategy for Estimating Generalization in LLMs
- arxiv url: http://arxiv.org/abs/2507.05266v1
- Date: Mon, 30 Jun 2025 06:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 18:41:07.09077
- Title: User Behavior Prediction as a Generic, Robust, Scalable, and Low-Cost Evaluation Strategy for Estimating Generalization in LLMs
- Title(参考訳): LLMにおける一般化推定のためのジェネリック,ロバスト,スケーラブル,低コスト評価戦略としてのユーザ行動予測
- Authors: Sougata Saha, Monojit Choudhury,
- Abstract要約: 我々は、知識検索と推論のタスクは一般化を測るのに理想的ではないと論じる。
我々は、理論的に健全でスケーラブルで堅牢な代替手段として、パーソナライズの重要な側面であるユーザ行動予測を提案する。
本稿では,GPT-4o,GPT-4o-mini,Llama-3.1-8B-Instructの映画および音楽レコメンデーションデータセット上で,このアプローチの新しいフレームワークを紹介した。
- 参考スコア(独自算出の注目度): 13.673729329325246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring the generalization ability of Large Language Models (LLMs) is challenging due to data contamination. As models grow and computation becomes cheaper, ensuring tasks and test cases are unseen during training phases will become nearly impossible. We argue that knowledge-retrieval and reasoning tasks are not ideal for measuring generalization, as LLMs are not trained for specific tasks. Instead, we propose user behavior prediction, also a key aspect of personalization, as a theoretically sound, scalable, and robust alternative. We introduce a novel framework for this approach and test it on movie and music recommendation datasets for GPT-4o, GPT-4o-mini, and Llama-3.1-8B-Instruct. Results align with our framework's predictions, showing GPT-4o outperforms GPT-4o-mini and Llama, though all models have much room for improvement, especially Llama.
- Abstract(参考訳): 大規模言語モデル(LLM)の一般化能力の測定は,データ汚染のため困難である。
モデルが成長し、計算が安価になるにつれて、トレーニングフェーズ中にタスクやテストケースが見えないことを保証することはほぼ不可能になります。
我々は、LLMが特定のタスクのために訓練されていないため、知識検索や推論タスクは一般化を測定するのに理想的ではないと論じる。
代わりに、理論的に健全でスケーラブルで堅牢な代替手段として、パーソナライズの重要な側面であるユーザ行動予測を提案する。
本稿では,GPT-4o,GPT-4o-mini,Llama-3.1-8B-Instructの映画および音楽レコメンデーションデータセット上で,このアプローチの新しいフレームワークを紹介した。
GPT-4o は GPT-4o-mini や Llama よりも優れていますが、すべてのモデルには改善の余地があります。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Model is not a General Substitute for GPT-4 [29.93673872618022]
微調整の審査モデルは、GPT-4と同等の評価能力を発揮すると主張されている。
提案手法は, GPT-4 を超越しても, GPT-4 は汎用性, 公正性, 適応性など, 複数次元にわたって性能的に優れていた。
論文 参考訳(メタデータ) (2024-03-05T10:20:52Z) - Evaluating and Enhancing Large Language Models for Conversational Reasoning on Knowledge Graphs [4.092862870428798]
我々は知識グラフ(KG)を用いた現在最先端の大規模言語モデル(GPT-4)の会話推論能力を評価する。
我々は,KG経路の正確かつ適応的な予測を行うために設計された基底KG推論エージェントであるLLM-ARKを紹介する。
LLaMA-2-7B-ARKは、現在の最先端モデルよりも5.28ポイント優れており、ターゲット@1評価基準では36.39%である。
論文 参考訳(メタデータ) (2023-12-18T15:23:06Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Performance of the Pre-Trained Large Language Model GPT-4 on Automated
Short Answer Grading [0.0]
SciEntsBank と Beetle の標準ベンチマーク2-way および 3-way データセットにおける GPT-4 の性能について検討した。
プレトレーニングされた汎用GPT-4 LLMの性能は手技のモデルに匹敵するが,専門訓練を施したLLMよりは劣ることがわかった。
論文 参考訳(メタデータ) (2023-09-17T18:04:34Z) - Is Self-Repair a Silver Bullet for Code Generation? [68.02601393906083]
大規模な言語モデルは、コード生成において顕著な適性を示しているが、それでも複雑なタスクを実行するのに苦労している。
自己修復(Self-repair) — モデルが自身のコードをデバッグし、修復する — は、最近、パフォーマンスを向上する一般的な方法になっている。
我々は,Code Llama, GPT-3.5, GPT-4によるHumanEvalとAPPSの自己修復能力について分析した。
論文 参考訳(メタデータ) (2023-06-16T15:13:17Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。