論文の概要: Improving Length-Generalization in Transformers via Task Hinting
- arxiv url: http://arxiv.org/abs/2310.00726v1
- Date: Sun, 1 Oct 2023 16:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 02:16:16.071507
- Title: Improving Length-Generalization in Transformers via Task Hinting
- Title(参考訳): タスクヒンティングによる変圧器長一般化の改善
- Authors: Pranjal Awasthi and Anupam Gupta
- Abstract要約: 特に、タスクで訓練された変換器モデルの性能は、同じ問題の長いインスタンスに適用した場合、急激に低下する。
本研究は,タスクヒントに基づく長さ一般化へのアプローチを提案する。
- 参考スコア(独自算出の注目度): 42.95479331339189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has been observed in recent years that transformers have problems with
length generalization for certain types of reasoning and arithmetic tasks. In
particular, the performance of a transformer model trained on tasks (say
addition) up to a certain length (e.g., 5 digit numbers) drops sharply when
applied to longer instances of the same problem. This work proposes an approach
based on task hinting towards addressing length generalization. Our key idea is
that while training the model on task-specific data, it is helpful to
simultaneously train the model to solve a simpler but related auxiliary task as
well.
We study the classical sorting problem as a canonical example to evaluate our
approach. We design a multitask training framework and show that task hinting
significantly improve length generalization. For sorting we show that it is
possible to train models on data consisting of sequences having length at most
$20$, and improve the test accuracy on sequences of length $100$ from less than
1% (for standard training) to more than 92% (via task hinting).
Our study uncovers several interesting aspects of length generalization. We
observe that while several auxiliary tasks may seem natural a priori, their
effectiveness in improving length generalization differs dramatically. We
further use probing and visualization-based techniques to understand the
internal mechanisms via which the model performs the task, and propose a
theoretical construction consistent with the observed learning behaviors of the
model. Based on our construction, we show that introducing a small number of
length dependent parameters into the training procedure can further boost the
performance on unseen lengths. Finally, we also show the efficacy of our task
hinting based approach beyond sorting, giving hope that these techniques will
be applicable in broader contexts.
- Abstract(参考訳): 近年、トランスフォーマーはある種の推論や演算タスクにおいて長さ一般化に問題があることが観測されている。
特に、タスク(例えば加算)に基づいて訓練されたトランスフォーマーモデルの性能は、同じ問題の長いインスタンスに適用した場合に急激に低下する(例:5桁数)。
本研究は,タスクヒントに基づく長さ一般化へのアプローチを提案する。
私たちの重要なアイデアは、タスク固有のデータでモデルをトレーニングしながら、よりシンプルで関連する補助的なタスクを解決するために同時にモデルをトレーニングすることです。
古典的ソート問題を標準例として検討し,そのアプローチを評価する。
マルチタスク・トレーニング・フレームワークを設計し,タスクヒントが長さの一般化を大幅に改善することを示す。
ソートに関しては、最大20ドル以上の長さのシーケンスからなるデータに基づいてモデルをトレーニングでき、100ドルの長さのシーケンスのテスト精度を(標準的なトレーニングのために)1%未満から92%以上(タスクヒントによって)向上できることを示す。
本研究は長さ一般化のいくつかの興味深い側面を明らかにする。
我々は,いくつかの補助タスクは前もって自然に思えるかもしれないが,その長大化改善効果は劇的に異なると観察する。
さらに,モデルがタスクを実行する内部機構を理解するために,探索および可視化に基づく手法を用い,モデルの観察した学習行動と整合した理論的構成を提案する。
提案手法では,学習手順に少数の長さ依存パラメータを導入することで,未知の長さのパフォーマンスがさらに向上することを示す。
最後に,タスクヒントに基づくソート手法の有効性を示すとともに,これらの手法がより広い文脈で適用可能であることを期待する。
関連論文リスト
- Arithmetic Transformers Can Length-Generalize in Both Operand Length and Count [19.148785141454642]
トランスフォーマーはしばしば長さの一般化に苦しむため、トレーニング中に遭遇したものよりも長いシーケンスに一般化できない。
本研究は,算術変換器で最初に達成された2~3倍の長さのタスクを一般化する。
論文 参考訳(メタデータ) (2024-10-21T08:49:51Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - What Algorithms can Transformers Learn? A Study in Length Generalization [23.970598914609916]
アルゴリズムタスクにおける長さ一般化の具体的設定におけるトランスフォーマーの能力の範囲について検討する。
具体的には、Transformerの計算モデル用に設計されたプログラミング言語であるRASPを利用する。
我々の研究は、構成一般化のメカニズムとトランスフォーマーのアルゴリズム能力に関する新しい視点を提供する。
論文 参考訳(メタデータ) (2023-10-24T17:43:29Z) - Teaching Arithmetic to Small Transformers [39.72665384986095]
本研究では,小形変圧器が算術演算を効率的に学習する方法について検討する。
まず,従来の学習データが算術学習に最も効果的でないことを示す。
次に、中間ステップの結果を含むチェーン・オブ・シンクスタイルのデータをトレーニングします。
論文 参考訳(メタデータ) (2023-07-07T04:33:31Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Explaining the Effectiveness of Multi-Task Learning for Efficient
Knowledge Extraction from Spine MRI Reports [2.5953185061765884]
一つのマルチタスクモデルがタスク固有のモデルの性能にマッチすることを示す。
内科医による頚椎, 腰椎への注視所見について検討した。
論文 参考訳(メタデータ) (2022-05-06T01:51:19Z) - Sequence Length is a Domain: Length-based Overfitting in Transformer
Models [0.0]
機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。
実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
論文 参考訳(メタデータ) (2021-09-15T13:25:19Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - Temporally Correlated Task Scheduling for Sequence Learning [143.70523777803723]
多くのアプリケーションにおいて、シーケンス学習タスクは通常、複数の時間的に相関した補助タスクと関連付けられている。
シーケンス学習に学習可能なスケジューラを導入し、トレーニングのための補助的なタスクを適応的に選択できる。
本手法は,同時翻訳とストックトレンド予測の性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-07-10T10:28:54Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。