Fugu-MT 論文翻訳(概要): Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models

論文の概要: Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models

arxiv url: http://arxiv.org/abs/2310.17567v1
Date: Thu, 26 Oct 2023 16:55:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 18:56:05.737491
Title: Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models
Title（参考訳）: Skill-Mix:AIモデルの柔軟な拡張可能な評価ファミリ
Authors: Dingli Yu, Simran Kaur, Arushi Gupta, Jonah Brown-Cohen, Anirudh Goyal, Sanjeev Arora
Abstract要約: AIエージェントの主な能力は、必要に応じて、学習した基本的なスキルを柔軟に組み合わせることである。この研究は、スキルを組み合わせる能力を測定するための新しい評価であるSkill-Mixを導入している。
参考スコア（独自算出の注目度）: 50.11814354654953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With LLMs shifting their role from statistical modeling of language to serving as general-purpose AI agents, how should LLM evaluations change? Arguably, a key ability of an AI agent is to flexibly combine, as needed, the basic skills it has learned. The capability to combine skills plays an important role in (human) pedagogy and also in a paper on emergence phenomena (Arora & Goyal, 2023). This work introduces Skill-Mix, a new evaluation to measure ability to combine skills. Using a list of $N$ skills the evaluator repeatedly picks random subsets of $k$ skills and asks the LLM to produce text combining that subset of skills. Since the number of subsets grows like $N^k$, for even modest $k$ this evaluation will, with high probability, require the LLM to produce text significantly different from any text in the training set. The paper develops a methodology for (a) designing and administering such an evaluation, and (b) automatic grading (plus spot-checking by humans) of the results using GPT-4 as well as the open LLaMA-2 70B model. Administering a version of to popular chatbots gave results that, while generally in line with prior expectations, contained surprises. Sizeable differences exist among model capabilities that are not captured by their ranking on popular LLM leaderboards ("cramming for the leaderboard"). Furthermore, simple probability calculations indicate that GPT-4's reasonable performance on $k=5$ is suggestive of going beyond "stochastic parrot" behavior (Bender et al., 2021), i.e., it combines skills in ways that it had not seen during training. We sketch how the methodology can lead to a Skill-Mix based eco-system of open evaluations for AI capabilities of future models.
Abstract（参考訳）: LLMが言語統計モデルから汎用AIエージェントへと役割を移す中、LLMの評価はどのように変化するのか? AIエージェントの重要な能力は、必要に応じて、学習した基本的なスキルを柔軟に組み合わせることである。スキルを組み合わせる能力は、(人間)教育や、出現現象に関する論文(Arora & Goyal, 2023)でも重要な役割を果たしている。 Skill-Mixは、スキルを組み合わせる能力を測定するための新しい評価である。 N$スキルのリストを使用して、評価者は繰り返し$k$スキルのランダムなサブセットを選択し、LLMにそのスキルのサブセットを組み合わせたテキストを生成するように要求する。 N^k$のようにサブセットの数が増えるので、たとえ控えめな$k$であっても、高い確率で、LCMはトレーニングセット内のどのテキストと大きく異なるテキストを生成する必要がある。論文は方法論を発展させる (a)そのような評価を設計・管理し、 b) GPT-4とオープンLLaMA-270Bモデルを用いた結果の自動評価(+人間によるスポットチェック)を行った。人気チャットボットへのバージョン管理の結果は、一般的には以前の期待に沿うものの、サプライズを含んでいた。 LLMのリーダーボード("cramming for the Leaderboard")にランク付けされていないモデル機能には、大きな違いがある。さらに、単純な確率計算は、gpt-4の$k=5$での合理的なパフォーマンスが、"stochastic parrot"行動(bender et al., 2021)を超えることを示唆していることを示している。我々は,この方法論が将来のモデルのAI能力に対するオープン評価のスキル・ミクスに基づくエコシステムにどのように貢献するかをスケッチする。

関連論文リスト

SkillVerse : Assessing and Enhancing LLMs with Tree Evaluation [70.27631454256024]
SkillVerseは、特定の能力におけるモデル習熟度を理解するための教師なしツリー構造化診断フレームワークである。任意のレベルの粒度の習熟度を考慮すれば、SkillVerseはモダンな大規模モデルの振る舞いの洞察を生み出す柔軟性がある。
論文参考訳（メタデータ） (2025-05-31T00:08:59Z)
AdaptMI: Adaptive Skill-based In-context Math Instruction for Small Language Models [41.247758234888835]
In-context Learning (ICL) は、言語モデルに適切な情報を提供する際に、その問題解決能力を改善することができる。最近の研究は、解決に必要なスキルを予測するために、フロンティアの大言語モデル(LLM)の能力を活用することで、ICLのパフォーマンスを向上できることを示している。このスキルベースの戦略は、より大きなモデルでのICL性能を向上させるが、小型言語モデル(SLM)での利得は最小限である。本稿では,SLMのためのスキルベースのテキスト内数学命令を選択するための適応的アプローチであるAdaptMIを紹介する。
論文参考訳（メタデータ） (2025-04-30T19:35:46Z)
Control LLM: Controlled Evolution for Intelligence Retention in LLM [4.67235851066221]
並列事前学習および拡張トランスブロックを利用した新しいアプローチである textbfControl LLM を提案する。 CPT(Continuous Pre-Training)とCSFT(Continuous Supervised Fine-Tuning)における制御LDMの有効性を示す実験既存の手法を超越し、同じベースモデルからチューニングされたオープンソースモデルの中でSOTAを実現する。
論文参考訳（メタデータ） (2025-01-19T08:06:06Z)
Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文参考訳（メタデータ） (2024-10-17T17:51:40Z)
Can Models Learn Skill Composition from Examples? [50.5142714905768]
サンプルから構成一般化を学習する小型モデルの能力を評価する。 k=2$と3$のスキルの組み合わせによるトレーニングは、テキスト作成能力の顕著な改善をもたらすことを示す。また,本研究では,スキルリッチ(潜在的に合成的な)テキストをトレーニングに取り入れることで,モデルの構成能力を大幅に向上させることが示唆された。
論文参考訳（メタデータ） (2024-09-29T22:14:02Z)
Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。残る課題は、さまざまな基本的なスキルを取得することです。 LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文参考訳（メタデータ） (2024-05-23T19:44:03Z)
LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。 LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文参考訳（メタデータ） (2024-05-23T18:21:59Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Large Language Models as Batteries-Included Zero-Shot ESCO Skills Matchers [0.0]
大規模言語モデル(LLM)に基づくジョブ記述からスキル抽出のためのエンドツーエンドゼロショットシステムを提案する。 ESCOのスキル全体に関する総合的なトレーニングデータを生成し,求職者からのスキル言及を抽出するために分類器を訓練する。また、類似性検索を用いてスキル候補を生成し、第2のLCMを用いて再ランク付けする。
論文参考訳（メタデータ） (2023-07-07T12:04:12Z)
Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文参考訳（メタデータ） (2023-06-02T17:12:25Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。