論文の概要: Why GANs are overkill for NLP
- arxiv url: http://arxiv.org/abs/2205.09838v1
- Date: Thu, 19 May 2022 20:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 14:38:14.490794
- Title: Why GANs are overkill for NLP
- Title(参考訳): GANがNLPに過大評価されている理由
- Authors: David Alvarez-Melis and Vikas Garg and Adam Tauman Kalai
- Abstract要約: この研究は、ジェネレーティブ・モデリング(GAN)に対する敵対的アプローチが、特定の世代タスクであまり人気がない理由について、新しい理論的視点を提供する。
特に、テキストのようなシーケンシャルなデータでは、最大様相のアプローチは GAN よりもはるかに有効である。
- 参考スコア(独自算出の注目度): 16.532977146824326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work offers a novel theoretical perspective on why, despite numerous
attempts, adversarial approaches to generative modeling (e.g., GANs) have not
been as popular for certain generation tasks, particularly sequential tasks
such as Natural Language Generation, as they have in others, such as Computer
Vision. In particular, on sequential data such as text, maximum-likelihood
approaches are significantly more utilized than GANs. We show that, while it
may seem that maximizing likelihood is inherently different than minimizing
distinguishability, this distinction is largely artificial and only holds for
limited models. We argue that minimizing KL-divergence (i.e., maximizing
likelihood) is a more efficient approach to effectively minimizing the same
distinguishability criteria that adversarial models seek to optimize.
Reductions show that minimizing distinguishability can be seen as simply
boosting likelihood for certain families of models including n-gram models and
neural networks with a softmax output layer. To achieve a full polynomial-time
reduction, a novel next-token distinguishability model is considered.
- Abstract(参考訳): この研究は、多くの試みにもかかわらず、生成モデリング(例えばgans)に対する敵対的アプローチが、特定の世代タスク、特に自然言語生成のような逐次的なタスク、例えばコンピュータビジョンのような他のタスクで人気を博していない理由について、新しい理論的視点を提供する。
特にテキストなどのシーケンシャルデータでは、gansよりも最大類似のアプローチがかなり活用されている。
最大の可能性の最大化は、識別可能性の最小化と本質的に異なるように見えるが、この区別は大半が人工的であり、限られたモデルにのみ当てはまる。
我々は、kl-divergenceの最小化(すなわち最大化可能性)は、敵モデルが最適化しようとするのと同じ識別可能性基準を効果的に最小化するためのより効率的なアプローチであると主張する。
判別可能性の最小化は、n-gramモデルや、ソフトマックス出力層を持つニューラルネットワークを含むモデルのある種のモデルに対して、単に可能性を高めることができる。
多項式時間削減を実現するために,新しい次点微分可能性モデルを提案する。
関連論文リスト
- Transferable Reinforcement Learning via Generalized Occupancy Models [39.19488782783677]
一般化占有モデル(GOM)の新たなクラスを提案する。
GOMは、定常データセットのカバレッジの下で、ある状態から可能なすべての長期的な結果の分布をモデル化する。
GOMは任意の報酬関数の一般性を保ちながら複合エラーを避ける。
論文 参考訳(メタデータ) (2024-03-10T22:27:21Z) - Partially Recentralization Softmax Loss for Vision-Language Models
Robustness [12.079952813850428]
事前学習したマルチモーダルモデルの損失関数を変更することで得られる対向的ロバスト性について検討する。
実験の結果、訓練済みモデルの微調整後、一般的な攻撃に対して、逆方向の頑健性を大幅に改善できることが判明した。
論文 参考訳(メタデータ) (2024-02-06T01:44:38Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - MGNNI: Multiscale Graph Neural Networks with Implicit Layers [53.75421430520501]
暗黙グラフニューラルネットワーク(GNN)は、基礎となるグラフの長距離依存性をキャプチャするために提案されている。
暗黙的GNNの2つの弱点は、長距離依存を捉えるための限られた有効範囲による制約付き表現性と、複数の解像度でグラフ上のマルチスケール情報をキャプチャする能力の欠如である。
グラフ上のマルチスケール構造をモデル化できる暗黙の層(MGNNI)を持つマルチスケールグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T18:18:55Z) - Training and Inference on Any-Order Autoregressive Models the Right Way [97.39464776373902]
Any-Order Autoregressive Models (AO-ARMs) のファミリは、任意の条件付きタスクにおいてブレークスルーのパフォーマンスを示している。
我々は、AO-ARMの以前の定式化に対して行うべき重要な改善について確認する。
本手法はトラクタビリティを損なうことなく性能を向上する。
論文 参考訳(メタデータ) (2022-05-26T18:00:02Z) - EIGNN: Efficient Infinite-Depth Graph Neural Networks [51.97361378423152]
グラフニューラルネットワーク(GNN)は多くのアプリケーションでグラフ構造化データのモデリングに広く利用されている。
この制限により、無限深度GNNモデルを提案し、これをEIGNN(Efficient Infinite-Depth Graph Neural Networks)と呼ぶ。
EIGNNは、最近のベースラインよりも長距離依存関係をキャプチャする能力が優れており、常に最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2022-02-22T08:16:58Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Pruning artificial neural networks: a way to find well-generalizing,
high-entropy sharp minima [8.72305226979945]
本研究では,2つの異なるプルーニング手法,ワンショット法と漸進法を比較し,解析する。
段階的なプルーニングにより、狭く一般化されたミニマへのアクセスが可能であり、通常はワンショットアプローチでは無視される。
また、与えられたニューロンが特定の学習クラスとどのように関連しているかを理解するための尺度であるPSPエントロピーを提案する。
論文 参考訳(メタデータ) (2020-04-30T13:29:37Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。