論文の概要: It Ain't That Bad: Understanding the Mysterious Performance Drop in OOD
Generalization for Generative Transformer Models
- arxiv url: http://arxiv.org/abs/2308.08268v1
- Date: Wed, 16 Aug 2023 10:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 13:54:25.172229
- Title: It Ain't That Bad: Understanding the Mysterious Performance Drop in OOD
Generalization for Generative Transformer Models
- Title(参考訳): 変圧器モデルのためのOOD一般化における謎のパフォーマンス低下の理解
- Authors: Xingcheng Xu, Zihao Pan, Haipeng Zhang, Yanqing Yang
- Abstract要約: 生成トランスフォーマーベースのモデルは、多様な問題を解決するための卓越した熟練性を実現している。
しかし、それらの一般化能力は必ずしも完全には理解されておらず、必ずしも満足していない。
- 参考スコア(独自算出の注目度): 6.626501860715937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Transformer-based models have achieved remarkable proficiency on
solving diverse problems. However, their generalization ability is not fully
understood and not always satisfying. Researchers take basic mathematical tasks
like n-digit addition or multiplication as important perspectives for
investigating their generalization behaviors. Curiously, it is observed that
when training on n-digit operations (e.g., additions) in which both input
operands are n-digit in length, models generalize successfully on unseen
n-digit inputs (in-distribution (ID) generalization), but fail miserably and
mysteriously on longer, unseen cases (out-of-distribution (OOD)
generalization). Studies try to bridge this gap with workarounds such as
modifying position embedding, fine-tuning, and priming with more extensive or
instructive data. However, without addressing the essential mechanism, there is
hardly any guarantee regarding the robustness of these solutions. We bring this
unexplained performance drop into attention and ask whether it is purely from
random errors. Here we turn to the mechanistic line of research which has
notable successes in model interpretability. We discover that the strong ID
generalization stems from structured representations, while behind the
unsatisfying OOD performance, the models still exhibit clear learned algebraic
structures. Specifically, these models map unseen OOD inputs to outputs with
equivalence relations in the ID domain. These highlight the potential of the
models to carry useful information for improved generalization.
- Abstract(参考訳): 生成変圧器に基づくモデルは、多様な問題を解決するための優れた技術を達成している。
しかし、その一般化能力は完全には理解されておらず、必ずしも満足するとは限らない。
研究者は、n桁加算や乗法といった基本的な数学的タスクを、一般化の振る舞いを研究する上で重要な視点として捉えている。
皮肉なことに、両方の入力オペランドが n-digit である n-digit 操作(例えば、加算)のトレーニングでは、モデルが未知の n-digit 入力 (in-distriion (ID) generalization) でうまく一般化するが、より長く、神秘的に失敗する(out-of-distriion (OOD) generalization)。
このギャップを,位置埋め込みや微調整,プライミングなどの回避策と,より広範囲な,あるいは指示的なデータで橋渡ししようとする研究もある。
しかし、本質的なメカニズムに対処することなく、これらの解の堅牢性に関する保証はほとんどない。
この説明不能なパフォーマンスの低下に注意を向け、それが純粋にランダムなエラーであるかどうかを問う。
ここでは,モデル解釈性に顕著な成功をおさめた機械学的な研究に目を向ける。
強id一般化は構造化表現に起因するが,ood性能の満足度は低いが,モデルには明快な代数的構造が残っている。
具体的には、これらのモデルは OOD 入力を ID ドメインで等価な関係を持つ出力にマップする。
これらは、一般化を改善するための有用な情報を運ぶモデルの可能性を強調している。
関連論文リスト
- Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Tokenization Consistency Matters for Generative Models on Extractive NLP
Tasks [54.306234256074255]
生成モデルの訓練において一般的に無視されるトークン化の不整合の問題を特定する。
この問題は、入力と出力が無矛盾にトークン化されると、これらのタスクの抽出特性を損なう。
一貫性のあるトークン化では、ドメイン内のデータセットとドメイン外のデータセットの両方で、モデルのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-12-19T23:33:21Z) - Relating Regularization and Generalization through the Intrinsic
Dimension of Activations [11.00580615194563]
画像分類モデルにおける検証セットアクティベーションの最終層ID(LLID)を,共通正規化手法により均一に低減することを示す。
また、グルーキングを示すモデルのトレーニングの過程でLLIDについても検討する。
論文 参考訳(メタデータ) (2022-11-23T19:00:00Z) - Exploring Length Generalization in Large Language Models [46.417433724786854]
短い問題インスタンスから長い問題インスタンスへ外挿する能力は、推論タスクにおける分配外一般化の重要な形態である。
本研究では, モデルスケールによらず, 時間的一般化タスクにおいて, 経時的に微調整されたトランスフォーマが有意な一般化欠陥を示すことを示す。
次に,事前学習された大言語モデルのテキスト内学習能力とスクラッチパッドを組み合わせることにより,長さ一般化の劇的な改善が得られたことを示す。
論文 参考訳(メタデータ) (2022-07-11T14:24:38Z) - Identifiability of deep generative models under mixture priors without
auxiliary information [34.191553176662325]
我々は、普遍近似能力を持つ深層潜伏変数モデルのクラスを識別可能であることを証明した。
我々の分析は、弱い監督、補助情報、潜在空間における条件付けを必要としない。
論文 参考訳(メタデータ) (2022-06-20T23:24:48Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Out-of-distribution Generalization with Causal Invariant Transformations [17.18953986654873]
本研究では,因果的特徴を明示的に回復することなく,OOD問題に対処する。
不変因果機構の設定の下で、理論的には、そのような変換がすべて利用可能であれば、最小限の最適モデルを学ぶことができる。
これらの因果不変変換の完全な集合が非現実的であることを知ることは、これらの変換のサブセットのみを知るのに十分であることを示す。
論文 参考訳(メタデータ) (2022-03-22T08:04:38Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Towards a Theoretical Framework of Out-of-Distribution Generalization [28.490842160921805]
オフ・オブ・ディストリビューション(OOD)データへの一般化(ドメイン一般化)は、現代の機械学習における中心的な問題の一つである。
本研究は,OOD問題の厳密かつ定量的な定義に向けての第一歩を踏み出したものである。
論文 参考訳(メタデータ) (2021-06-08T16:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。