Fugu-MT 論文翻訳(概要): Learning Energy-Based Approximate Inference Networks for Structured Applications in NLP

論文の概要: Learning Energy-Based Approximate Inference Networks for Structured Applications in NLP

arxiv url: http://arxiv.org/abs/2108.12522v1
Date: Fri, 27 Aug 2021 22:48:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-01 09:17:06.766886
Title: Learning Energy-Based Approximate Inference Networks for Structured Applications in NLP
Title（参考訳）: NLPにおける構造化アプリケーションのためのエネルギーベース近似ネットワークの学習
Authors: Lifu Tu
Abstract要約: 論文はエネルギーモデルへの一般的な導入から始まる。構造エネルギー関数の下でargmax推論を行うようにニューラルネットワークを訓練する手法を提案する。そこで我々は,対立学習フレームワークを用いて,エネルギー関数と推論ネットワークを協調的に学習する方法を開発した。
参考スコア（独自算出の注目度）: 8.426855646402238
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Structured prediction in natural language processing (NLP) has a long history. The complex models of structured application come at the difficulty of learning and inference. These difficulties lead researchers to focus more on models with simple structure components (e.g., local classifier). Deep representation learning has become increasingly popular in recent years. The structure components of their method, on the other hand, are usually relatively simple. We concentrate on complex structured models in this dissertation. We provide a learning framework for complicated structured models as well as an inference method with a better speed/accuracy/search error trade-off. The dissertation begins with a general introduction to energy-based models. In NLP and other applications, an energy function is comparable to the concept of a scoring function. In this dissertation, we discuss the concept of the energy function and structured models with different energy functions. Then, we propose a method in which we train a neural network to do argmax inference under a structured energy function, referring to the trained networks as "inference networks" or "energy-based inference networks". We then develop ways of jointly learning energy functions and inference networks using an adversarial learning framework. Despite the inference and learning difficulties of energy-based models, we present approaches in this thesis that enable energy-based models more easily to be applied in structured NLP applications.
Abstract（参考訳）: 自然言語処理(NLP)における構造化予測には長い歴史がある。構造化されたアプリケーションの複雑なモデルは、学習と推論の難しさを伴います。これらの困難により、研究者は単純な構造コンポーネント(例えば局所分類器)を持つモデルにもっと焦点をあてるようになる。近年、深層表現学習が盛んに行われている。一方、それらの手法の構造的構成要素は、通常比較的単純である。この論文では複雑な構造モデルに焦点を当てる。複雑な構造化モデルのための学習フレームワークと、より高速/高精度/探索誤差トレードオフを備えた推論手法を提供する。論文はエネルギーモデルへの一般的な導入から始まる。 NLPや他の応用では、エネルギー関数はスコアリング関数の概念に匹敵する。この論文では、エネルギー関数と異なるエネルギー関数を持つ構造モデルの概念について議論する。そこで我々は,ニューラルネットワークを学習して,構造エネルギー関数の下でargmax推論を行う手法を提案し,トレーニングされたネットワークを"推論ネットワーク"あるいは"エネルギーベース推論ネットワーク"と呼ぶ。次に,相反学習フレームワークを用いて,エネルギー関数と推論ネットワークを共同で学習する方法を開発する。エネルギーベースモデルの推論と学習の難しさにもかかわらず、エネルギーベースモデルを構造化NLPアプリケーションに適用しやすくする手法を提案する。

関連論文リスト

Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。 3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文参考訳（メタデータ） (2024-10-31T22:54:34Z)
From Computation to Consumption: Exploring the Compute-Energy Link for Training and Testing Neural Networks for SED Systems [9.658615045493734]
本稿では,音事象検出システムの主要なコンポーネントであるニューラルネットワークアーキテクチャについて検討する。我々は,小規模から大規模アーキテクチャの訓練および試験におけるエネルギー消費量を測定した。我々は,エネルギー消費,浮動小数点演算数,パラメータ数,GPU/メモリ利用率の複雑な関係を確立する。
論文参考訳（メタデータ） (2024-09-08T12:51:34Z)
NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals [58.83169560132308]
NNsightとNDIFを導入し、非常に大きなニューラルネットワークによって学習された表現と計算の科学的研究を可能にする。
論文参考訳（メタデータ） (2024-07-18T17:59:01Z)
Learning Iterative Reasoning through Energy Diffusion [90.24765095498392]
我々は,エネルギー拡散による反復的推論(IRED)を紹介した。 IREDは入力条件と所望の出力の間の制約を表現するためにエネルギー関数を学ぶ。 IREDは、連続空間推論、離散空間推論、計画タスクにおいて既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-17T03:36:47Z)
Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文参考訳（メタデータ） (2023-05-23T04:28:16Z)
Energy Transformer [64.22957136952725]
我々の研究は、機械学習における有望な3つのパラダイム、すなわち注意機構、エネルギーベースモデル、連想記憶の側面を組み合わせる。本稿では,エネルギー変換器(ET,Energy Transformer)と呼ばれる新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-02-14T18:51:22Z)
Learning with latent group sparsity via heat flow dynamics on networks [5.076419064097734]
機械学習問題における説明変数上のグループまたはクラスタ構造は非常に一般的な現象である。このようなグループ構造下での学習には,グループアイデンティティに関する事前情報を必要としないアプローチに寄与する。我々は、利用可能なデータに基づいて、そのようなネットワークを構築する手順を実証する。
論文参考訳（メタデータ） (2022-01-20T17:45:57Z)
Constructing Neural Network-Based Models for Simulating Dynamical Systems [59.0861954179401]
データ駆動モデリングは、真のシステムの観測からシステムの力学の近似を学ぼうとする代替パラダイムである。本稿では,ニューラルネットワークを用いた動的システムのモデル構築方法について検討する。基礎的な概要に加えて、関連する文献を概説し、このモデリングパラダイムが克服すべき数値シミュレーションから最も重要な課題を概説する。
論文参考訳（メタデータ） (2021-11-02T10:51:42Z)
On Energy-Based Models with Overparametrized Shallow Neural Networks [44.74000986284978]
エネルギーベースモデル(EBM)は、ジェネレーションモデリングの強力なフレームワークです。この研究では、浅いニューラルネットワークに焦点を当てます。我々は、いわゆる「アクティブ」体制で訓練されたモデルが、関連する「怠慢」またはカーネル体制に対して統計的に有利であることを示す。
論文参考訳（メタデータ） (2021-04-15T15:34:58Z)
Learning Discrete Energy-based Models via Auxiliary-variable Local Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文参考訳（メタデータ） (2020-11-10T19:31:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。