論文の概要: Third-Party Language Model Performance Prediction from Instruction
- arxiv url: http://arxiv.org/abs/2403.12413v1
- Date: Tue, 19 Mar 2024 03:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 15:31:57.818707
- Title: Third-Party Language Model Performance Prediction from Instruction
- Title(参考訳): インストラクションによる第三者言語モデルの性能予測
- Authors: Rahul Nadkarni, Yizhong Wang, Noah A. Smith,
- Abstract要約: 言語モデルに基づく命令フォローシステムは、最近、多くのベンチマークタスクのパフォーマンスが向上している。
ユーザは、応答が正確かどうかを判断することなく、命令付きモデルを容易に促すことができる。
本稿では,タスク上での指示追従システムの評価から得られたメトリックを予測するために,別のモデルを訓練した第三者のパフォーマンス予測フレームワークを提案する。
- 参考スコア(独自算出の注目度): 59.574169249307054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model-based instruction-following systems have lately shown increasing performance on many benchmark tasks, demonstrating the capability of adapting to a broad variety of instructions. However, such systems are often not designed to be transparent about their limitations; a user may easily prompt a model with an instruction without any idea of whether the responses should be expected to be accurate, or if the system is even capable of performing the task. We propose a third party performance prediction framework, where a separate model is trained to predict the metric resulting from evaluating an instruction-following system on a task while assuming access only to its inputs and outputs at inference time. We perform this analysis with a variety of both open and closed instruction-following models as well as multiple performance predictors, and examine the effect of various factors such as model size, number of training tasks, and prompt format. Our findings indicate that third-party performance prediction is very challenging, and much work remains in developing predictors that can automatically reveal the limitations of modern instruction-following natural language processing systems.
- Abstract(参考訳): 言語モデルに基づく命令追従システムは、最近、多くのベンチマークタスクのパフォーマンスが向上し、幅広い命令に適応できることを実証している。
しかし、そのようなシステムは、その制限について透過的に設計されることがしばしばあり、ユーザーは、その応答が正確かどうか、あるいはシステムがそのタスクを実行することができるかどうかを判断することなく、容易に命令でモデルにプロンプトを行うことができる。
本稿では,タスク上での指示追従システムの評価から得られたメトリックを,入力と出力のみへのアクセスを仮定しながら,個別のモデルで予測する,第三者のパフォーマンス予測フレームワークを提案する。
この分析は、オープンおよびクローズドな命令追従モデルおよび複数のパフォーマンス予測モデルを用いて行い、モデルサイズ、トレーニングタスク数、プロンプトフォーマットなど、様々な要因の影響について検討する。
この結果、サードパーティのパフォーマンス予測は非常に困難であり、現代の命令追従自然言語処理システムの限界を自動的に明らかにできる予測器の開発には、多くの作業が残っていることが示唆された。
関連論文リスト
- Design and Scheduling of an AI-based Queueing System [12.763457245603824]
本稿では,ジョブのクラスを予測モデルを用いて推定する大規模キューシステムについて考察する。
交通渋滞における誤予測が混雑コストに与える影響を特徴付けることにより,予測されたクラス情報をほぼ最適に組み込んだインデックスベースのポリシーを設計する。
論文 参考訳(メタデータ) (2024-06-11T00:01:42Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Prediction of Dilatory Behavior in eLearning: A Comparison of Multiple
Machine Learning Models [0.2963240482383777]
タスクの不合理な遅延である Procrastination は、オンライン学習においてよくある出来事である。
このような予測に焦点を当てた研究はほとんどない。
様々な種類の予測器と様々な手法の予測性能の比較を含む研究は、事実上存在しない。
論文 参考訳(メタデータ) (2022-06-30T07:24:08Z) - Multi Task Learning For Zero Shot Performance Prediction of Multilingual
Models [12.759281077118567]
多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されている。
我々は,タスク上のゼロショット性能をマルチタスク学習問題としてモデル化することにより,タスク上のゼロショット性能を予測するための既存の手法を構築した。
論文 参考訳(メタデータ) (2022-05-12T14:47:03Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Probing Structured Pruning on Multilingual Pre-trained Models: Settings,
Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。
9つの下流タスクの実験は、いくつかの反直観的な現象を示している。
モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文 参考訳(メタデータ) (2022-04-06T06:29:52Z) - Explain and Predict, and then Predict Again [6.865156063241553]
説明生成フェーズにおけるマルチタスク学習を用いたExPredを、効果的なトレードオフ説明と予測損失として提案します。
3つの多様な言語データセットに対するアプローチを幅広く評価しています。
論文 参考訳(メタデータ) (2021-01-11T19:36:52Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。