Fugu-MT 論文翻訳(概要): How Predictable Are Large Language Model Capabilities? A Case Study on BIG-bench

論文の概要: How Predictable Are Large Language Model Capabilities? A Case Study on BIG-bench

arxiv url: http://arxiv.org/abs/2305.14947v1
Date: Wed, 24 May 2023 09:35:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 17:33:52.205527
Title: How Predictable Are Large Language Model Capabilities? A Case Study on BIG-bench
Title（参考訳）: 大規模言語モデルの能力はどの程度予測可能か? big-bench のケーススタディ
Authors: Qinyuan Ye, Harvey Yiyun Fu, Xiang Ren, Robin Jia
Abstract要約: 大規模言語モデル(LLM)の機能の予測可能性について検討する。 BIGベンチ実験記録の性能予測問題について検討した。 BIG-bench Hardとして新しいモデルファミリーを評価する上で,サブセットは3倍小さい。
参考スコア（独自算出の注目度）: 39.992878505201396
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We investigate the predictability of large language model (LLM) capabilities: given records of past experiments using different model families, numbers of parameters, tasks, and numbers of in-context examples, can we accurately predict LLM performance on new experiment configurations? Answering this question has practical implications for LLM users (e.g., deciding which models to try), developers (e.g., prioritizing evaluation on representative tasks), and the research community (e.g., identifying hard-to-predict capabilities that warrant further investigation). We study the performance prediction problem on experiment records from BIG-bench. On a random train-test split, an MLP-based predictor achieves RMSE below 5%, demonstrating the presence of learnable patterns within the experiment records. Further, we formulate the problem of searching for "small-bench," an informative subset of BIG-bench tasks from which the performance of the full set can be maximally recovered, and find a subset as informative for evaluating new model families as BIG-bench Hard, while being 3x smaller.
Abstract（参考訳）: 大規模言語モデル(LLM)の機能の予測可能性について検討する:異なるモデルファミリを用いた過去の実験の記録、パラメータ数、タスク数、インコンテキストの例の数から、新しい実験構成でLLMの性能を正確に予測できるだろうか? この質問への回答は、LLMユーザ(例えば、どのモデルを試すかを決める)、開発者(例えば、代表的タスクの評価を優先順位付けする)、研究コミュニティ(例えば、さらなる調査を保証できる予測の難しい能力を特定する)に実践的な意味を持つ。 BIGベンチ実験記録の性能予測問題について検討した。ランダムな列車試験分割では、MLPベースの予測器がRMSEを5%以下に達成し、実験記録に学習可能なパターンが存在することを示す。さらに,フルセットの性能を最大に回復できるビッグベンチタスクのインフォメーションサブセットである"small-bench"を探索する問題を定式化し,新しいモデルファミリを3倍小さくして,ビッグベンチハードとして評価する上で有用な部分集合を求める。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文参考訳（メタデータ） (2024-08-21T17:59:05Z)
LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文参考訳（メタデータ） (2024-07-02T22:23:40Z)
GistScore: Learning Better Representations for In-Context Example Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文参考訳（メタデータ） (2023-11-16T06:28:05Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
Numeracy from Literacy: Data Science as an Emergent Skill from Large Language Models [0.0]
OpenAIのChatGPTやGPT-3のような大規模言語モデル(LLM)は、リテラシーを数字化するための翻訳課題を探求するためのユニークなテストベッドを提供する。以前の18ヶ月前から公開されていたトランスフォーマーモデルと1000倍の小さなモデルでは基本的な算術演算が得られなかった。本研究は, 文の完成から実際の数値理解の領域へ, 次世代の予測が成功するかどうかを考察する。
論文参考訳（メタデータ） (2023-01-31T03:14:57Z)
The Devil is in Classification: A Simple Framework for Long-tail Object Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。主な原因は、オブジェクト提案の不正確な分類である。そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文参考訳（メタデータ） (2020-07-23T12:49:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。