論文の概要: Mode recovery in neural autoregressive sequence modeling
- arxiv url: http://arxiv.org/abs/2106.05459v1
- Date: Thu, 10 Jun 2021 02:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-12 20:56:09.582853
- Title: Mode recovery in neural autoregressive sequence modeling
- Title(参考訳): 神経自己回帰配列モデリングにおけるモード回復
- Authors: Ilia Kulikov, Sean Welleck, Kyunghyun Cho
- Abstract要約: 最近の研究では、神経自己回帰配列モデルの予期せぬ特性と望ましくない性質が明らかにされている。
本研究では,分布のモードや局所的な最大値が,学習チェーン全体を通してどのように維持されているかを検討する。
今後の研究は、潜在能力と危険性を完全に理解するために、学習連鎖全体を考慮しなくてはならないと結論付けている。
- 参考スコア(独自算出の注目度): 55.05526174291747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite its wide use, recent studies have revealed unexpected and undesirable
properties of neural autoregressive sequence models trained with maximum
likelihood, such as an unreasonably high affinity to short sequences after
training and to infinitely long sequences at decoding time. We propose to study
these phenomena by investigating how the modes, or local maxima, of a
distribution are maintained throughout the full learning chain of the
ground-truth, empirical, learned and decoding-induced distributions, via the
newly proposed mode recovery cost. We design a tractable testbed where we build
three types of ground-truth distributions: (1) an LSTM based structured
distribution, (2) an unstructured distribution where probability of a sequence
does not depend on its content, and (3) a product of these two which we call a
semi-structured distribution. Our study reveals both expected and unexpected
findings. First, starting with data collection, mode recovery cost strongly
relies on the ground-truth distribution and is most costly with the
semi-structured distribution. Second, after learning, mode recovery cost from
the ground-truth distribution may increase or decrease compared to data
collection, with the largest cost degradation occurring with the
semi-structured ground-truth distribution. Finally, the ability of the
decoding-induced distribution to recover modes from the learned distribution is
highly impacted by the choices made earlier in the learning chain. We conclude
that future research must consider the entire learning chain in order to fully
understand the potentials and perils and to further improve neural
autoregressive sequence models.
- Abstract(参考訳): 広く使われているにもかかわらず、最近の研究では、トレーニング後の短いシーケンスへの不当に高い親和性や復号時の無限に長いシーケンスなど、最大限に訓練された神経自己回帰配列モデルの予期せぬ、望ましくない特性を明らかにしている。
そこで本研究では,新たに提案したモード回復コストを用いて,地中構造,経験的,学習的,復号化的分布の完全な学習連鎖を通して,分布のモード,あるいは局所的な最大値がどのように維持されているかを検討する。
我々は,(1)lstmベースの構造化分布,(2)シーケンスの確率がその内容に依存しない非構造化分布,(3)半構造化分布と呼ばれるこれら2つの生成物という,3つの種類の基底-真実分布を構築可能なテストベッドを設計した。
本研究は予期せぬ結果と予期せぬ結果の両方を明らかにする。
まず、データ収集から始めると、モード回復コストは地中構造分布に強く依存し、半構造分布に最もコストがかかる。
第2に, 地中構造分布によるモード回復コストは, データ収集に比べて増加または減少し, 半構造的地中構造分布で最大のコスト劣化が発生する。
最後に,学習した分布からモードを復元する復号誘導分布の能力は,学習連鎖の早い段階で行った選択に大きく影響される。
将来的な研究は、潜在性と周辺を完全に理解し、神経自己回帰配列モデルをさらに改善するために、学習連鎖全体を考慮しなければならないと結論づける。
関連論文リスト
- Parallelly Tempered Generative Adversarial Networks [7.94957965474334]
生成的敵対ネットワーク(GAN)は、生成的人工知能(AI)における代表的バックボーンモデルである。
本研究は,モード崩壊の存在下でのトレーニングの不安定性と非効率性を,対象分布におけるマルチモーダルにリンクすることで解析する。
新たに開発したGAN目標関数により, 生成元は同時に全ての誘電分布を学習することができる。
論文 参考訳(メタデータ) (2024-11-18T18:01:13Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Unimodal Distributions for Ordinal Regression [2.642698101441705]
予測モデルに一助分布の選好を組み込むための2つの新しいアプローチを提案する。
確率的単純性における一様分布の集合を解析し、基本的性質を確立する。
次に、一様分布を課す新しいアーキテクチャと、一様性を促進する集合における射影の概念に依存する新しい損失項を提案する。
論文 参考訳(メタデータ) (2023-03-08T13:00:40Z) - JANA: Jointly Amortized Neural Approximation of Complex Bayesian Models [0.5872014229110214]
難治度関数と後部密度の共振型ニューラル近似(JANA)を提案する。
JANAの忠実度を、最先端のベイズ手法に対して様々なシミュレーションモデルで評価する。
論文 参考訳(メタデータ) (2023-02-17T20:17:21Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - MMCGAN: Generative Adversarial Network with Explicit Manifold Prior [78.58159882218378]
本稿では,モード崩壊を緩和し,GANのトレーニングを安定させるために,明示的な多様体学習を採用することを提案する。
玩具データと実データの両方を用いた実験により,MMCGANのモード崩壊緩和効果,トレーニングの安定化,生成サンプルの品質向上効果が示された。
論文 参考訳(メタデータ) (2020-06-18T07:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。