論文の概要: Can Models Learn Skill Composition from Examples?
- arxiv url: http://arxiv.org/abs/2409.19808v1
- Date: Sun, 29 Sep 2024 22:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 17:29:56.132972
- Title: Can Models Learn Skill Composition from Examples?
- Title(参考訳): モデルが例からスキル構成を学べるか?
- Authors: Haoyu Zhao, Simran Kaur, Dingli Yu, Anirudh Goyal, Sanjeev Arora,
- Abstract要約: サンプルから構成一般化を学習する小型モデルの能力を評価する。
k=2$と3$のスキルの組み合わせによるトレーニングは、テキスト作成能力の顕著な改善をもたらすことを示す。
また,本研究では,スキルリッチ(潜在的に合成的な)テキストをトレーニングに取り入れることで,モデルの構成能力を大幅に向上させることが示唆された。
- 参考スコア(独自算出の注目度): 50.5142714905768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) become increasingly advanced, their ability to exhibit compositional generalization -- the capacity to combine learned skills in novel ways not encountered during training -- has garnered significant attention. This type of generalization, particularly in scenarios beyond training data, is also of great interest in the study of AI safety and alignment. A recent study introduced the SKILL-MIX evaluation, where models are tasked with composing a short paragraph demonstrating the use of a specified $k$-tuple of language skills. While small models struggled with composing even with $k=3$, larger models like GPT-4 performed reasonably well with $k=5$ and $6$. In this paper, we employ a setup akin to SKILL-MIX to evaluate the capacity of smaller models to learn compositional generalization from examples. Utilizing a diverse set of language skills -- including rhetorical, literary, reasoning, theory of mind, and common sense -- GPT-4 was used to generate text samples that exhibit random subsets of $k$ skills. Subsequent fine-tuning of 7B and 13B parameter models on these combined skill texts, for increasing values of $k$, revealed the following findings: (1) Training on combinations of $k=2$ and $3$ skills results in noticeable improvements in the ability to compose texts with $k=4$ and $5$ skills, despite models never having seen such examples during training. (2) When skill categories are split into training and held-out groups, models significantly improve at composing texts with held-out skills during testing despite having only seen training skills during fine-tuning, illustrating the efficacy of the training approach even with previously unseen skills. This study also suggests that incorporating skill-rich (potentially synthetic) text into training can substantially enhance the compositional capabilities of models.
- Abstract(参考訳): 大規模言語モデル(LLM)がますます進歩するにつれて、学習スキルをトレーニング中に遭遇しない新しい方法で組み合わせる能力である作曲の一般化を示す能力は、大きな注目を集めている。
この種の一般化、特にトレーニングデータ以外のシナリオでは、AIの安全性とアライメントの研究にも大きな関心がある。
最近の研究では、SKILL-MIXの評価を導入し、モデルが特定の言語スキルを1k$-tupleで使用することを実証する短い段落を構成することを課題としている。
小型モデルは$k=3$でも組み立てに苦労したが、GPT-4のような大型モデルは$k=5$と$6$の順調に動作した。
本稿では,SKILL-MIXに類似した設定を用いて,より小さなモデルのキャパシティを評価し,例から構成一般化を学習する。
GPT-4は、修辞学、文学、推論、心の理論、常識を含む多様な言語スキルのセットを利用して、ランダムに$k$スキルのサブセットを示すテキストサンプルを生成する。
1)$k=2$と$3$の組み合わせのトレーニングの結果、トレーニング中にそのような例を見たことのないモデルにもかかわらず、テキストを$k=4$と$5$のスキルで組み立てる能力が顕著に向上した。
2) スキルカテゴリーをトレーニンググループと保持グループに分けた場合, 微調整中のトレーニングスキルしか見ていないにもかかわらず, テスト中の保持スキルのあるテキストの作曲において, 従来は見つからなかったスキルであっても, トレーニングアプローチの有効性を示唆するモデルが有意に向上する。
また,本研究では,スキルリッチ(潜在的に合成的な)テキストをトレーニングに取り入れることで,モデルの構成能力を大幅に向上させることが示唆された。
関連論文リスト
- Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。
モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。
私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文 参考訳(メタデータ) (2024-10-17T17:51:40Z) - A Mathematical Theory for Learning Semantic Languages by Abstract Learners [9.139188656944429]
本研究では,学習過程を考慮に入れて,学習スキルの出現を説明する数学的理論を開発する。
トレーニングテキスト数とスキル数との比率が一定の閾値を超えた場合、学習スキルの出現を実証する。
本研究では, サイトパーコレーション解析を用いて, スキルアソシエーショングラフにおける巨大成分の存在条件を導出する。
論文 参考訳(メタデータ) (2024-04-10T13:50:46Z) - Rethinking Skill Extraction in the Job Market Domain using Large
Language Models [20.256353240384133]
スキル抽出は、仕事の投稿や履歴書などの文書で言及されているスキルと資格を識別する。
手動でアノテートしたデータへの依存は、そのようなアプローチの一般化可能性を制限する。
本稿では,これらの課題を克服するための文脈内学習の活用について検討する。
論文 参考訳(メタデータ) (2024-02-06T09:23:26Z) - Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models [50.11814354654953]
AIエージェントの主な能力は、必要に応じて、学習した基本的なスキルを柔軟に組み合わせることである。
この研究は、スキルを組み合わせる能力を測定するための新しい評価であるSkill-Mixを導入している。
論文 参考訳(メタデータ) (2023-10-26T16:55:05Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - Skill-Based Few-Shot Selection for In-Context Learning [123.26522773708683]
Skill-KNNは、文脈内学習のためのスキルベースの少ショット選択手法である。
モデルはトレーニングや微調整を必要とせず、頻繁に銀行を拡大したり変更したりするのに適している。
5つのドメイン間セマンティックパーシングデータセットと6つのバックボーンモデルによる実験結果から、Skill-KNNは既存の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T16:28:29Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - CREPE: Can Vision-Language Foundation Models Reason Compositionally? [10.958279688917434]
本稿では,認知科学文献が認識する構成性に関する2つの重要な側面,体系性と生産性を計測する新しい構成性評価ベンチマークCREPEを紹介する。
体系性については,新しい構成が検索集合を支配下に置くと,モデル性能は一貫して低下することがわかった。
生産性のために、モデルの検索成功は複雑さが増すにつれて崩壊し、しばしば高い複雑性のランダムな確率に近づく。
論文 参考訳(メタデータ) (2022-12-13T19:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。