論文の概要: Why GANs are overkill for NLP
- arxiv url: http://arxiv.org/abs/2205.09838v1
- Date: Thu, 19 May 2022 20:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 14:38:14.490794
- Title: Why GANs are overkill for NLP
- Title(参考訳): GANがNLPに過大評価されている理由
- Authors: David Alvarez-Melis and Vikas Garg and Adam Tauman Kalai
- Abstract要約: この研究は、ジェネレーティブ・モデリング(GAN)に対する敵対的アプローチが、特定の世代タスクであまり人気がない理由について、新しい理論的視点を提供する。
特に、テキストのようなシーケンシャルなデータでは、最大様相のアプローチは GAN よりもはるかに有効である。
- 参考スコア(独自算出の注目度): 16.532977146824326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work offers a novel theoretical perspective on why, despite numerous
attempts, adversarial approaches to generative modeling (e.g., GANs) have not
been as popular for certain generation tasks, particularly sequential tasks
such as Natural Language Generation, as they have in others, such as Computer
Vision. In particular, on sequential data such as text, maximum-likelihood
approaches are significantly more utilized than GANs. We show that, while it
may seem that maximizing likelihood is inherently different than minimizing
distinguishability, this distinction is largely artificial and only holds for
limited models. We argue that minimizing KL-divergence (i.e., maximizing
likelihood) is a more efficient approach to effectively minimizing the same
distinguishability criteria that adversarial models seek to optimize.
Reductions show that minimizing distinguishability can be seen as simply
boosting likelihood for certain families of models including n-gram models and
neural networks with a softmax output layer. To achieve a full polynomial-time
reduction, a novel next-token distinguishability model is considered.
- Abstract(参考訳): この研究は、多くの試みにもかかわらず、生成モデリング(例えばgans)に対する敵対的アプローチが、特定の世代タスク、特に自然言語生成のような逐次的なタスク、例えばコンピュータビジョンのような他のタスクで人気を博していない理由について、新しい理論的視点を提供する。
特にテキストなどのシーケンシャルデータでは、gansよりも最大類似のアプローチがかなり活用されている。
最大の可能性の最大化は、識別可能性の最小化と本質的に異なるように見えるが、この区別は大半が人工的であり、限られたモデルにのみ当てはまる。
我々は、kl-divergenceの最小化(すなわち最大化可能性)は、敵モデルが最適化しようとするのと同じ識別可能性基準を効果的に最小化するためのより効率的なアプローチであると主張する。
判別可能性の最小化は、n-gramモデルや、ソフトマックス出力層を持つニューラルネットワークを含むモデルのある種のモデルに対して、単に可能性を高めることができる。
多項式時間削減を実現するために,新しい次点微分可能性モデルを提案する。
関連論文リスト
- Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck [11.416426888383873]
より小型モデルは飽和に悩まされる可能性があり,訓練の先進点における性能低下を特徴とする。
これは、より小さなモデルの隠れ次元とターゲットの文脈確率分布の高階とのミスマッチによって説明できる。
各種設定におけるソフトマックスボトルネックの影響を計測し,1000次元未満の隠れ次元に基づくモデルでは,遅延事前学習において退化した潜在表現を採用する傾向にあることを示す。
論文 参考訳(メタデータ) (2024-04-11T11:10:36Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Training and Inference on Any-Order Autoregressive Models the Right Way [97.39464776373902]
Any-Order Autoregressive Models (AO-ARMs) のファミリは、任意の条件付きタスクにおいてブレークスルーのパフォーマンスを示している。
我々は、AO-ARMの以前の定式化に対して行うべき重要な改善について確認する。
本手法はトラクタビリティを損なうことなく性能を向上する。
論文 参考訳(メタデータ) (2022-05-26T18:00:02Z) - EIGNN: Efficient Infinite-Depth Graph Neural Networks [51.97361378423152]
グラフニューラルネットワーク(GNN)は多くのアプリケーションでグラフ構造化データのモデリングに広く利用されている。
この制限により、無限深度GNNモデルを提案し、これをEIGNN(Efficient Infinite-Depth Graph Neural Networks)と呼ぶ。
EIGNNは、最近のベースラインよりも長距離依存関係をキャプチャする能力が優れており、常に最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2022-02-22T08:16:58Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Pruning artificial neural networks: a way to find well-generalizing,
high-entropy sharp minima [8.72305226979945]
本研究では,2つの異なるプルーニング手法,ワンショット法と漸進法を比較し,解析する。
段階的なプルーニングにより、狭く一般化されたミニマへのアクセスが可能であり、通常はワンショットアプローチでは無視される。
また、与えられたニューロンが特定の学習クラスとどのように関連しているかを理解するための尺度であるPSPエントロピーを提案する。
論文 参考訳(メタデータ) (2020-04-30T13:29:37Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z) - Learning Interpretable Models Using Uncertainty Oracles [12.879371384378164]
解釈可能なモデルの望ましい性質は、人間によって容易に理解できるように、小さなサイズである。
a) 小さいサイズが正確さを暗示し、(b) サイズを制限するモデルファミリが提供するビースルークレバーは、望ましいサイズ精度のトレードオフに達するには不十分である。
論文 参考訳(メタデータ) (2019-06-17T05:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。