論文の概要: Task Generalization With AutoRegressive Compositional Structure: Can Learning From $\d$ Tasks Generalize to $\d^{T}$ Tasks?
- arxiv url: http://arxiv.org/abs/2502.08991v1
- Date: Thu, 13 Feb 2025 06:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:19.642081
- Title: Task Generalization With AutoRegressive Compositional Structure: Can Learning From $\d$ Tasks Generalize to $\d^{T}$ Tasks?
- Title(参考訳): 自動回帰合成構造によるタスク一般化:$\d$タスクから$\d^{T}$タスクまで学習できるか?
- Authors: Amirhesam Abedsoltan, Huaqing Zhang, Kaiyue Wen, Hongzhou Lin, Jingzhao Zhang, Mikhail Belkin,
- Abstract要約: 大規模言語モデル(LLM)は目覚ましいタスクの一般化を示し、いくつかのデモで明示的に訓練されなかったタスクを解決する。
小さなタスクセットから学ぶことはいつ、大きなタスクファミリーに一般化できるのだろうか?
本稿では,各タスクが$T$演算の合成であり,各操作は$d$サブタスクの有限族に属する,自己回帰合成(ARC)構造のレンズによるタスク一般化について検討する。
- 参考スコア(独自算出の注目度): 23.597170816867077
- License:
- Abstract: Large language models (LLMs) exhibit remarkable task generalization, solving tasks they were never explicitly trained on with only a few demonstrations. This raises a fundamental question: When can learning from a small set of tasks generalize to a large task family? In this paper, we investigate task generalization through the lens of AutoRegressive Compositional (ARC) structure, where each task is a composition of $T$ operations, and each operation is among a finite family of $\d$ subtasks. This yields a total class of size~\( \d^\TT \). We first show that generalization to all \( \d^\TT \) tasks is theoretically achievable by training on only \( \tilde{O}(\d) \) tasks. Empirically, we demonstrate that Transformers achieve such exponential task generalization on sparse parity functions via in-context learning (ICL) and Chain-of-Thought (CoT) reasoning. We further demonstrate this generalization in arithmetic and language translation, extending beyond parity functions.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましいタスクの一般化を示し、いくつかのデモで明示的に訓練されなかったタスクを解決する。
小さなタスクセットから学ぶことはいつ、大きなタスクファミリーに一般化できるのだろうか?
本稿では,各タスクが$T$演算の合成であり,各操作は$\d$サブタスクの有限族に属する,自己回帰合成(ARC)構造のレンズによるタスク一般化について検討する。
これにより、合計サイズのクラス~\( \d^\TT \)が得られる。
まず、すべての \( \d^\TT \) タスクへの一般化は、( \tilde{O}(\d) \) タスクのみをトレーニングすることで理論的に達成可能であることを示す。
In-context Learning (ICL) と Chain-of-Thought (CoT) の推論により,トランスフォーマーがスパースパリティ関数の指数的タスク一般化を実現することを実証した。
さらに、この一般化を算術と言語翻訳において証明し、パリティ関数を超えて拡張する。
関連論文リスト
- Metalearning with Very Few Samples Per Task [19.78398372660794]
タスクが共有表現によって関連づけられるバイナリ分類について検討する。
ここでは、データ量は、見る必要のあるタスク数$t$と、タスク当たりのサンプル数$n$で測定されます。
我々の研究は、分布のないマルチタスク学習の特性とメタとマルチタスク学習の削減をもたらす。
論文 参考訳(メタデータ) (2023-12-21T16:06:44Z) - What Algorithms can Transformers Learn? A Study in Length Generalization [23.970598914609916]
アルゴリズムタスクにおける長さ一般化の具体的設定におけるトランスフォーマーの能力の範囲について検討する。
具体的には、Transformerの計算モデル用に設計されたプログラミング言語であるRASPを利用する。
我々の研究は、構成一般化のメカニズムとトランスフォーマーのアルゴリズム能力に関する新しい視点を提供する。
論文 参考訳(メタデータ) (2023-10-24T17:43:29Z) - In-Context Learning Creates Task Vectors [40.990432572831885]
In-context Learning (ICL) in Large Language Models (LLMs) は強力な新しい学習パラダイムとして登場した。
ここでは、ICLによって学習される関数は、しばしば非常に単純な構造を持つことを示す。
私たちは、さまざまなモデルやタスクにわたる包括的な実験を通じて、上記の主張を支持します。
論文 参考訳(メタデータ) (2023-10-24T15:17:14Z) - On the Sample Complexity of Representation Learning in Multi-task
Bandits with Global and Local structure [77.60508571062958]
マルチタスク・バンディット問題に対する最適アーム学習の複雑さについて検討した。
アームは2つのコンポーネントで構成されます。1つはタスク間で共有され(表現と呼ばれます)、もう1つはタスク固有のもの(予測器と呼ばれます)です。
サンプルの複雑さが下界に近づき、最大で$H(Glog(delta_G)+ Xlog(delta_H))$でスケールするアルゴリズムOSRL-SCを考案する。
論文 参考訳(メタデータ) (2022-11-28T08:40:12Z) - Decomposed Prompting: A Modular Approach for Solving Complex Tasks [55.42850359286304]
本稿では,より単純なサブタスクに分解することで,複雑なタスクを解くための分解プロンプトを提案する。
このモジュール構造は、各プロンプトを特定のサブタスクに最適化することを可能にする。
Decomposed Promptingの柔軟性とモジュラリティは、数発のプロンプトで先行作業より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-05T17:28:20Z) - Improving Task Generalization via Unified Schema Prompt [87.31158568180514]
Unified Promptはフレキシブルでプロンプトの手法で、タスク入力スキーマに従って各タスクの学習可能なプロンプトを自動的にカスタマイズする。
異なるタスクスキーマの特徴を維持しながら、タスク間の共有知識をモデル化する。
このフレームワークは、8つのタスクタイプから下流に見えない16のタスクに対して、強力なゼロショットと少数ショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-05T15:26:36Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z) - On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。
多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文 参考訳(メタデータ) (2020-06-20T20:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。