論文の概要: It Ain't That Bad: Understanding the Mysterious Performance Drop in OOD Generalization for Generative Transformer Models
- arxiv url: http://arxiv.org/abs/2308.08268v2
- Date: Thu, 4 Jul 2024 06:32:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 01:11:44.785073
- Title: It Ain't That Bad: Understanding the Mysterious Performance Drop in OOD Generalization for Generative Transformer Models
- Title(参考訳): 変圧器モデルのためのOOD一般化における謎のパフォーマンス低下の理解
- Authors: Xingcheng Xu, Zihao Pan, Haipeng Zhang, Yanqing Yang,
- Abstract要約: 大規模言語モデル (LLM) は多様な問題を解決するのに優れた能力を発揮している。
しかし、それらの一般化能力は必ずしも満足しておらず、一般化問題は一般に生成トランスモデルに共通である。
n-digit操作のトレーニングモデルでは,n-digit入力に対してモデルが正常に一般化されるが,もっと長い,見えないケースではフェールすることを示す。
- 参考スコア(独自算出の注目度): 6.065846799248359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable proficiency on solving diverse problems. However, their generalization ability is not always satisfying and the generalization problem is common for generative transformer models in general. Researchers take basic mathematical tasks like n-digit addition or multiplication as important perspectives for investigating their generalization behaviors. It is observed that when training models on n-digit operations (e.g., additions) in which both input operands are n-digit in length, models generalize successfully on unseen n-digit inputs (in-distribution (ID) generalization), but fail miserably on longer, unseen cases (out-of-distribution (OOD) generalization). We bring this unexplained performance drop into attention and ask whether there is systematic OOD generalization. Towards understanding LLMs, we train various smaller language models which may share the same underlying mechanism. We discover that the strong ID generalization stems from structured representations, while behind the unsatisfying OOD performance, the models still exhibit clear learned algebraic structures. Specifically, these models map unseen OOD inputs to outputs with learned equivalence relations in the ID domain, which we call the equivalence generalization. These findings deepen our knowledge regarding the generalizability of generative models including LLMs, and provide insights into potential avenues for improvement.
- Abstract(参考訳): 大規模言語モデル (LLM) は多様な問題を解決するのに優れた能力を発揮している。
しかし、それらの一般化能力は必ずしも満足しておらず、一般化問題は一般に生成トランスモデルに共通である。
研究者は、n桁の加算や乗算といった基本的な数学的タスクを、一般化の振る舞いを研究する上で重要な視点として捉えている。
両方の入力オペランドが n-digit である n-digit 操作のトレーニングモデル(例:加算)では、モデルが未知の n-digit 入力(in-distribution (ID) 一般化)をうまく一般化するが、より長い、見つからないケース(out-of-distriion (OOD) 一般化)で失敗する。
我々は、この説明されていないパフォーマンスの低下に注目し、体系的なOOD一般化が存在するかどうかを問う。
LLMの理解に向けて、我々は、同じ基盤となるメカニズムを共有する可能性のある、様々な小さな言語モデルを訓練する。
我々は、強いID一般化が構造化表現に由来することを発見したが、不満足なOOD性能の裏では、モデルは依然として明確な学習された代数的構造を示す。
具体的には、これらのモデルはOOD入力をID領域における学習された等価関係を持つ出力にマッピングし、同値一般化と呼ぶ。
これらの知見は、LLMを含む生成モデルの一般化可能性に関する知識を深め、改善のための潜在的道筋についての洞察を提供する。
関連論文リスト
- Compositional Generalization Requires More Than Disentangled Representations [5.762286612061953]
作曲の一般化は 深層学習の鍵となる課題です
多くの生成モデルは、アウト・オブ・ディストリビューション(OOD)サンプルを生成する因子を認識し、構成することができない。
正規化や訓練データによるアーキテクチャ変更を強制的に行うモデルは,OOD領域の学習において,データ効率が高く,効果的であることを示す。
論文 参考訳(メタデータ) (2025-01-30T23:20:41Z) - Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。
因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文 参考訳(メタデータ) (2024-06-07T14:29:21Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Generalization Through the Lens of Learning Dynamics [11.009483845261958]
機械学習(ML)システムは、デプロイ時に正確な予測を得るために、新しい状況に一般化することを学ぶ必要がある。
ディープニューラルネットワークの印象的な一般化性能は、理論家たちに悪影響を与えている。
この論文は、教師付き学習タスクと強化学習タスクの両方において、ディープニューラルネットワークの学習ダイナミクスを研究する。
論文 参考訳(メタデータ) (2022-12-11T00:07:24Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Exploring Length Generalization in Large Language Models [46.417433724786854]
短い問題インスタンスから長い問題インスタンスへ外挿する能力は、推論タスクにおける分配外一般化の重要な形態である。
本研究では, モデルスケールによらず, 時間的一般化タスクにおいて, 経時的に微調整されたトランスフォーマが有意な一般化欠陥を示すことを示す。
次に,事前学習された大言語モデルのテキスト内学習能力とスクラッチパッドを組み合わせることにより,長さ一般化の劇的な改善が得られたことを示す。
論文 参考訳(メタデータ) (2022-07-11T14:24:38Z) - Towards a Theoretical Framework of Out-of-Distribution Generalization [28.490842160921805]
オフ・オブ・ディストリビューション(OOD)データへの一般化(ドメイン一般化)は、現代の機械学習における中心的な問題の一つである。
本研究は,OOD問題の厳密かつ定量的な定義に向けての第一歩を踏み出したものである。
論文 参考訳(メタデータ) (2021-06-08T16:32:23Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Improving Compositional Generalization in Semantic Parsing [54.4720965813889]
オフ・オブ・ディストリビューション(OOD)データへのモデルの一般化は、最近、大きな注目を集めている。
合成一般化のための自然なテストベッドである意味解析における合成一般化について検討する。
論文 参考訳(メタデータ) (2020-10-12T12:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。