論文の概要: Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models
- arxiv url: http://arxiv.org/abs/2310.17567v1
- Date: Thu, 26 Oct 2023 16:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:56:05.737491
- Title: Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models
- Title(参考訳): Skill-Mix:AIモデルの柔軟な拡張可能な評価ファミリ
- Authors: Dingli Yu, Simran Kaur, Arushi Gupta, Jonah Brown-Cohen, Anirudh
Goyal, Sanjeev Arora
- Abstract要約: AIエージェントの主な能力は、必要に応じて、学習した基本的なスキルを柔軟に組み合わせることである。
この研究は、スキルを組み合わせる能力を測定するための新しい評価であるSkill-Mixを導入している。
- 参考スコア(独自算出の注目度): 50.11814354654953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With LLMs shifting their role from statistical modeling of language to
serving as general-purpose AI agents, how should LLM evaluations change?
Arguably, a key ability of an AI agent is to flexibly combine, as needed, the
basic skills it has learned. The capability to combine skills plays an
important role in (human) pedagogy and also in a paper on emergence phenomena
(Arora & Goyal, 2023).
This work introduces Skill-Mix, a new evaluation to measure ability to
combine skills. Using a list of $N$ skills the evaluator repeatedly picks
random subsets of $k$ skills and asks the LLM to produce text combining that
subset of skills. Since the number of subsets grows like $N^k$, for even modest
$k$ this evaluation will, with high probability, require the LLM to produce
text significantly different from any text in the training set. The paper
develops a methodology for (a) designing and administering such an evaluation,
and (b) automatic grading (plus spot-checking by humans) of the results using
GPT-4 as well as the open LLaMA-2 70B model.
Administering a version of to popular chatbots gave results that, while
generally in line with prior expectations, contained surprises. Sizeable
differences exist among model capabilities that are not captured by their
ranking on popular LLM leaderboards ("cramming for the leaderboard").
Furthermore, simple probability calculations indicate that GPT-4's reasonable
performance on $k=5$ is suggestive of going beyond "stochastic parrot" behavior
(Bender et al., 2021), i.e., it combines skills in ways that it had not seen
during training.
We sketch how the methodology can lead to a Skill-Mix based eco-system of
open evaluations for AI capabilities of future models.
- Abstract(参考訳): LLMが言語統計モデルから汎用AIエージェントへと役割を移す中、LLMの評価はどのように変化するのか?
AIエージェントの重要な能力は、必要に応じて、学習した基本的なスキルを柔軟に組み合わせることである。
スキルを組み合わせる能力は、(人間)教育や、出現現象に関する論文(Arora & Goyal, 2023)でも重要な役割を果たしている。
Skill-Mixは、スキルを組み合わせる能力を測定するための新しい評価である。
N$スキルのリストを使用して、評価者は繰り返し$k$スキルのランダムなサブセットを選択し、LLMにそのスキルのサブセットを組み合わせたテキストを生成するように要求する。
N^k$のようにサブセットの数が増えるので、たとえ控えめな$k$であっても、高い確率で、LCMはトレーニングセット内のどのテキストと大きく異なるテキストを生成する必要がある。
論文は方法論を発展させる
(a)そのような評価を設計・管理し、
b) GPT-4とオープンLLaMA-270Bモデルを用いた結果の自動評価(+人間によるスポットチェック)を行った。
人気チャットボットへのバージョン管理の結果は、一般的には以前の期待に沿うものの、サプライズを含んでいた。
LLMのリーダーボード("cramming for the Leaderboard")にランク付けされていないモデル機能には、大きな違いがある。
さらに、単純な確率計算は、gpt-4の$k=5$での合理的なパフォーマンスが、"stochastic parrot"行動(bender et al., 2021)を超えることを示唆していることを示している。
我々は,この方法論が将来のモデルのAI能力に対するオープン評価のスキル・ミクスに基づくエコシステムにどのように貢献するかをスケッチする。
関連論文リスト
- Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。
モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。
私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文 参考訳(メタデータ) (2024-10-17T17:51:40Z) - Can Models Learn Skill Composition from Examples? [50.5142714905768]
サンプルから構成一般化を学習する小型モデルの能力を評価する。
k=2$と3$のスキルの組み合わせによるトレーニングは、テキスト作成能力の顕著な改善をもたらすことを示す。
また,本研究では,スキルリッチ(潜在的に合成的な)テキストをトレーニングに取り入れることで,モデルの構成能力を大幅に向上させることが示唆された。
論文 参考訳(メタデータ) (2024-09-29T22:14:02Z) - Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Large Language Models as Batteries-Included Zero-Shot ESCO Skills
Matchers [0.0]
大規模言語モデル(LLM)に基づくジョブ記述からスキル抽出のためのエンドツーエンドゼロショットシステムを提案する。
ESCOのスキル全体に関する総合的なトレーニングデータを生成し,求職者からのスキル言及を抽出するために分類器を訓練する。
また、類似性検索を用いてスキル候補を生成し、第2のLCMを用いて再ランク付けする。
論文 参考訳(メタデータ) (2023-07-07T12:04:12Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。