論文の概要: Predicting Language Models' Success at Zero-Shot Probabilistic Prediction
- arxiv url: http://arxiv.org/abs/2509.15356v1
- Date: Thu, 18 Sep 2025 18:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.872107
- Title: Predicting Language Models' Success at Zero-Shot Probabilistic Prediction
- Title(参考訳): ゼロショット確率予測における言語モデルの成功予測
- Authors: Kevin Ren, Santiago Cortes-Gomez, Carlos Miguel Patiño, Ananya Joshi, Ruiqi Lyu, Jingjing Tang, Alistair Turcan, Khurram Yamin, Steven Wu, Bryan Wilder,
- Abstract要約: 個人レベルの特徴を生成するためのゼロショットモデルとして,大規模言語モデル(LLM)の能力について検討する。
LLMのパフォーマンスは、同じデータセット内のタスクと異なるデータセットの両方で非常に可変であることがわかった。
タスクレベルでのLLMのパフォーマンスを予測するためのメトリクスを構築し、LLMがうまく機能する可能性のあるタスクと、それらが適さない可能性のあるタスクを区別することを目的としている。
- 参考スコア(独自算出の注目度): 23.802154124780376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has investigated the capabilities of large language models (LLMs) as zero-shot models for generating individual-level characteristics (e.g., to serve as risk models or augment survey datasets). However, when should a user have confidence that an LLM will provide high-quality predictions for their particular task? To address this question, we conduct a large-scale empirical study of LLMs' zero-shot predictive capabilities across a wide range of tabular prediction tasks. We find that LLMs' performance is highly variable, both on tasks within the same dataset and across different datasets. However, when the LLM performs well on the base prediction task, its predicted probabilities become a stronger signal for individual-level accuracy. Then, we construct metrics to predict LLMs' performance at the task level, aiming to distinguish between tasks where LLMs may perform well and where they are likely unsuitable. We find that some of these metrics, each of which are assessed without labeled data, yield strong signals of LLMs' predictive performance on new tasks.
- Abstract(参考訳): 最近の研究は、個人レベルの特性を生成するゼロショットモデルとして、大きな言語モデル(LLM)の能力を調査している(例えば、リスクモデルや調査データセットの強化など)。
しかし、LLMが特定のタスクに対して高品質な予測を提供するという自信を持つのはいつ頃なのだろうか?
そこで本研究では,LLMのゼロショット予測能力に関する大規模な実証的研究を行い,多岐にわたる表形式での予測課題について考察する。
LLMのパフォーマンスは、同じデータセット内のタスクと異なるデータセットの両方で非常に可変であることがわかった。
しかし、LLMがベース予測タスクでうまく機能すると、予測確率は個々のレベルの精度でより強い信号となる。
そこで,タスクレベルでのLLMの性能予測のためのメトリクスを構築し,LLMの性能が良いタスクと不適当なタスクを区別することを目的とした。
これらの指標のいくつかはラベル付きデータなしで評価され、新しいタスクにおけるLLMの予測性能の強いシグナルが得られます。
関連論文リスト
- Robustness is Important: Limitations of LLMs for Data Fitting [0.0]
大規模言語モデル(LLM)は幅広い設定に適用されている。
データフィッティングにLLMを使うことの重大な脆弱性を特定する。
変数名を変更することで、特定の設定で予測エラーのサイズを最大82%縮小することができる。
論文 参考訳(メタデータ) (2025-08-27T04:46:05Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (2024-11-25T01:48:09Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Can Language Models Use Forecasting Strategies? [14.332379032371612]
実世界の出来事と関連する人間の予測の新たなデータセットを用いた実験について述べる。
モデルはまだ、未来に関する正確な予測に苦戦している。
論文 参考訳(メタデータ) (2024-06-06T19:01:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。