論文の概要: Diverse capability and scaling of diffusion and auto-regressive models when learning abstract rules
- arxiv url: http://arxiv.org/abs/2411.07873v1
- Date: Tue, 12 Nov 2024 15:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:45.007711
- Title: Diverse capability and scaling of diffusion and auto-regressive models when learning abstract rules
- Title(参考訳): 抽象規則学習における拡散・自己回帰モデルの多変量性とスケーリング
- Authors: Binxu Wang, Jiaqi Shang, Haim Sompolinsky,
- Abstract要約: 本稿では, 有限標本から基礎となるルールを学習し, 条件付きサンプリングにより推論を行うことができるかを検討する。
RavenのProgressive Matricesタスクにインスパイアされた私たちは、各サンプルが3行からなるGenRAVENデータセットを設計しました。
我々は、データ分散を学ぶために生成モデルを訓練し、そこでサンプルを整数配列としてエンコードしてルール学習に集中させた。
- 参考スコア(独自算出の注目度): 4.710921988115686
- License:
- Abstract: Humans excel at discovering regular structures from limited samples and applying inferred rules to novel settings. We investigate whether modern generative models can similarly learn underlying rules from finite samples and perform reasoning through conditional sampling. Inspired by Raven's Progressive Matrices task, we designed GenRAVEN dataset, where each sample consists of three rows, and one of 40 relational rules governing the object position, number, or attributes applies to all rows. We trained generative models to learn the data distribution, where samples are encoded as integer arrays to focus on rule learning. We compared two generative model families: diffusion (EDM, DiT, SiT) and autoregressive models (GPT2, Mamba). We evaluated their ability to generate structurally consistent samples and perform panel completion via unconditional and conditional sampling. We found diffusion models excel at unconditional generation, producing more novel and consistent samples from scratch and memorizing less, but performing less well in panel completion, even with advanced conditional sampling methods. Conversely, autoregressive models excel at completing missing panels in a rule-consistent manner but generate less consistent samples unconditionally. We observe diverse data scaling behaviors: for both model families, rule learning emerges at a certain dataset size - around 1000s examples per rule. With more training data, diffusion models improve both their unconditional and conditional generation capabilities. However, for autoregressive models, while panel completion improves with more training data, unconditional generation consistency declines. Our findings highlight complementary capabilities and limitations of diffusion and autoregressive models in rule learning and reasoning tasks, suggesting avenues for further research into their mechanisms and potential for human-like reasoning.
- Abstract(参考訳): 人間は限られたサンプルから通常の構造を発見し、新しい設定に推論されたルールを適用するのが得意です。
現代生成モデルも同様に有限標本から規則を学習し,条件付きサンプリングにより推論を行うことができるかを検討する。
我々はRavenのProgressive Matricesタスクにインスパイアされ、GenRAVENデータセットを設計しました。それぞれのサンプルは3つの行で構成され、40のリレーショナルルールのうちの1つがオブジェクトの位置、番号、属性をすべての行に適用します。
我々は、データ分散を学ぶために生成モデルを訓練し、そこでサンプルを整数配列としてエンコードしてルール学習に集中させた。
拡散モデル (EDM, DiT, SiT) と自己回帰モデル (GPT2, Mamba) を比較した。
構造的に一貫したサンプルを生成し,無条件および条件付きサンプリングによるパネル補完を行う能力を評価した。
拡散モデルは非条件生成時に優れ,スクラッチからより新規で一貫したサンプルが生成され,より記憶されやすくなった。
逆に、自己回帰モデルは、欠落したパネルを規則的に完成させるのに優れるが、無条件で一貫性の低いサンプルを生成する。
モデルファミリとモデルファミリの両方で、ルール学習は特定のデータセットサイズで発生します。
より多くのトレーニングデータにより、拡散モデルは条件なしおよび条件付き両方の生成能力を改善する。
しかし、自己回帰モデルでは、パネル補完はより多くのトレーニングデータによって改善されるが、非条件生成の一貫性は低下する。
本研究は,ルール学習と推論タスクにおける相補的能力と自己回帰モデル(自己回帰モデル)の限界に注目し,そのメカニズムと人間ライクな推論の可能性についてさらなる研究の道筋を示唆する。
関連論文リスト
- Table-to-Text Generation with Pretrained Diffusion Models [0.0]
拡散モデルは様々なテキスト生成タスクにまたがって最先端のパフォーマンスを実現する上で大きな可能性を示している。
タスクに拡散モデルを適用し,詳細な解析を行うことにより,表から表への変換問題へのそれらの適用について検討する。
この結果から,表-テキスト領域において拡散モデルが同等の結果を得ることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-10T15:36:53Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Dual Student Networks for Data-Free Model Stealing [79.67498803845059]
主な課題は、パラメータにアクセスせずにターゲットモデルの勾配を推定し、多様なトレーニングサンプルを生成することである。
そこで本研究では,2人の学生が左右対称に学習し,学生が反対するサンプルを生成するための基準を提案する。
我々の新しい最適化フレームワークは、目標モデルのより正確な勾配推定と、ベンチマーク分類データセットの精度向上を提供する。
論文 参考訳(メタデータ) (2023-09-18T18:11:31Z) - Hierarchical Few-Shot Generative Models [18.216729811514718]
本稿では,ニューラルネットワークを階層的なアプローチに拡張する潜伏変数のアプローチについて検討する。
以上の結果から,階層的な定式化は,小データ構造における集合内の内在的変動をよりよく捉えることが示唆された。
論文 参考訳(メタデータ) (2021-10-23T19:19:39Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Characterizing and Avoiding Problematic Global Optima of Variational
Autoencoders [28.36260646471421]
変分自動エンコーダ(VAEs)は、深部生成潜在変数モデルである。
最近の研究は、伝統的な訓練手法がデシダラタに反する解決策をもたらす傾向があることを示している。
どちらの問題も、VAEトレーニング目標のグローバルな最適度が望ましくない解決策とよく一致するという事実に起因していることを示す。
論文 参考訳(メタデータ) (2020-03-17T15:14:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。