論文の概要: Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models
- arxiv url: http://arxiv.org/abs/2310.17567v1
- Date: Thu, 26 Oct 2023 16:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:56:05.737491
- Title: Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models
- Title(参考訳): Skill-Mix:AIモデルの柔軟な拡張可能な評価ファミリ
- Authors: Dingli Yu, Simran Kaur, Arushi Gupta, Jonah Brown-Cohen, Anirudh
Goyal, Sanjeev Arora
- Abstract要約: AIエージェントの主な能力は、必要に応じて、学習した基本的なスキルを柔軟に組み合わせることである。
この研究は、スキルを組み合わせる能力を測定するための新しい評価であるSkill-Mixを導入している。
- 参考スコア(独自算出の注目度): 50.11814354654953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With LLMs shifting their role from statistical modeling of language to
serving as general-purpose AI agents, how should LLM evaluations change?
Arguably, a key ability of an AI agent is to flexibly combine, as needed, the
basic skills it has learned. The capability to combine skills plays an
important role in (human) pedagogy and also in a paper on emergence phenomena
(Arora & Goyal, 2023).
This work introduces Skill-Mix, a new evaluation to measure ability to
combine skills. Using a list of $N$ skills the evaluator repeatedly picks
random subsets of $k$ skills and asks the LLM to produce text combining that
subset of skills. Since the number of subsets grows like $N^k$, for even modest
$k$ this evaluation will, with high probability, require the LLM to produce
text significantly different from any text in the training set. The paper
develops a methodology for (a) designing and administering such an evaluation,
and (b) automatic grading (plus spot-checking by humans) of the results using
GPT-4 as well as the open LLaMA-2 70B model.
Administering a version of to popular chatbots gave results that, while
generally in line with prior expectations, contained surprises. Sizeable
differences exist among model capabilities that are not captured by their
ranking on popular LLM leaderboards ("cramming for the leaderboard").
Furthermore, simple probability calculations indicate that GPT-4's reasonable
performance on $k=5$ is suggestive of going beyond "stochastic parrot" behavior
(Bender et al., 2021), i.e., it combines skills in ways that it had not seen
during training.
We sketch how the methodology can lead to a Skill-Mix based eco-system of
open evaluations for AI capabilities of future models.
- Abstract(参考訳): LLMが言語統計モデルから汎用AIエージェントへと役割を移す中、LLMの評価はどのように変化するのか?
AIエージェントの重要な能力は、必要に応じて、学習した基本的なスキルを柔軟に組み合わせることである。
スキルを組み合わせる能力は、(人間)教育や、出現現象に関する論文(Arora & Goyal, 2023)でも重要な役割を果たしている。
Skill-Mixは、スキルを組み合わせる能力を測定するための新しい評価である。
N$スキルのリストを使用して、評価者は繰り返し$k$スキルのランダムなサブセットを選択し、LLMにそのスキルのサブセットを組み合わせたテキストを生成するように要求する。
N^k$のようにサブセットの数が増えるので、たとえ控えめな$k$であっても、高い確率で、LCMはトレーニングセット内のどのテキストと大きく異なるテキストを生成する必要がある。
論文は方法論を発展させる
(a)そのような評価を設計・管理し、
b) GPT-4とオープンLLaMA-270Bモデルを用いた結果の自動評価(+人間によるスポットチェック)を行った。
人気チャットボットへのバージョン管理の結果は、一般的には以前の期待に沿うものの、サプライズを含んでいた。
LLMのリーダーボード("cramming for the Leaderboard")にランク付けされていないモデル機能には、大きな違いがある。
さらに、単純な確率計算は、gpt-4の$k=5$での合理的なパフォーマンスが、"stochastic parrot"行動(bender et al., 2021)を超えることを示唆していることを示している。
我々は,この方法論が将来のモデルのAI能力に対するオープン評価のスキル・ミクスに基づくエコシステムにどのように貢献するかをスケッチする。
関連論文リスト
- From Automation to Augmentation: Large Language Models Elevating Essay
Scoring Landscape [14.758096079392674]
本研究では,大規模言語モデル(LLM),特に GPT-4 と細調整 GPT-3.5 が,自動エッセイ評価システムにおける有効性について検討した。
パブリックデータセットとプライベートデータセットの両方で実施した総合的な実験は、LLMベースのAESシステムの顕著な利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-01-12T07:50:10Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - FLM-101B: An Open LLM and How to Train It with $100K Budget [64.7903965253781]
大規模言語モデル(LLM)は、NLPやマルチモーダルタスクなどにおいて顕著な成功を収めている。
これらの成功にもかかわらず、LLMの開発における主な課題は、(i)高い計算コスト、(ii)公正で客観的な評価である。
成長戦略によりLLMトレーニングコストを大幅に削減するソリューションを実証する。
IQテストにインスパイアされた我々は、知識指向能力に焦点を当てた既存の評価の上に、さらなる範囲の評価を統合する。
実験結果から,FLM-101Bと名づけられたFLM-101Bは,100万ドルの予算で訓練され,強力でよく知られた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2023-09-07T17:07:36Z) - Large Language Models as Batteries-Included Zero-Shot ESCO Skills
Matchers [0.0]
大規模言語モデル(LLM)に基づくジョブ記述からスキル抽出のためのエンドツーエンドゼロショットシステムを提案する。
ESCOのスキル全体に関する総合的なトレーニングデータを生成し,求職者からのスキル言及を抽出するために分類器を訓練する。
また、類似性検索を用いてスキル候補を生成し、第2のLCMを用いて再ランク付けする。
論文 参考訳(メタデータ) (2023-07-07T12:04:12Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Design of Negative Sampling Strategies for Distantly Supervised Skill
Extraction [19.43668931500507]
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。
ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。
我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
論文 参考訳(メタデータ) (2022-09-13T13:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。