論文の概要: An Empirical Investigation of Beam-Aware Training in Supertagging
- arxiv url: http://arxiv.org/abs/2010.04980v1
- Date: Sat, 10 Oct 2020 12:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 22:38:11.144850
- Title: An Empirical Investigation of Beam-Aware Training in Supertagging
- Title(参考訳): スーパータグにおけるビームアウェアトレーニングの実証的研究
- Authors: Renato Negrinho, Matthew R. Gormley, Geoffrey J. Gordon
- Abstract要約: 構造的予測は、最大可能性を持つ局所正規化モデルを訓練し、ビームサーチでほぼ復号化することで、しばしばアプローチされる。
ビームアウェアトレーニングはこれらの問題に対処することを目的としているが、それがパフォーマンスに与える影響について理解されていないため、まだ広く使われていない。
- 参考スコア(独自算出の注目度): 29.819517845454815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured prediction is often approached by training a locally normalized
model with maximum likelihood and decoding approximately with beam search. This
approach leads to mismatches as, during training, the model is not exposed to
its mistakes and does not use beam search. Beam-aware training aims to address
these problems, but unfortunately, it is not yet widely used due to a lack of
understanding about how it impacts performance, when it is most useful, and
whether it is stable. Recently, Negrinho et al. (2018) proposed a
meta-algorithm that captures beam-aware training algorithms and suggests new
ones, but unfortunately did not provide empirical results. In this paper, we
begin an empirical investigation: we train the supertagging model of Vaswani et
al. (2016) and a simpler model with instantiations of the meta-algorithm. We
explore the influence of various design choices and make recommendations for
choosing them. We observe that beam-aware training improves performance for
both models, with large improvements for the simpler model which must
effectively manage uncertainty during decoding. Our results suggest that a
model must be learned with search to maximize its effectiveness.
- Abstract(参考訳): 構造化予測は、最大確率で局所正規化モデルを訓練し、ほぼビーム探索で復号することにより、しばしばアプローチされる。
このアプローチは、トレーニング中にモデルが失敗に晒されることはなく、ビームサーチを使用しないため、ミスマッチにつながる。
ビームアウェアトレーニングはこれらの問題に対処することを目的としているが、残念ながら、パフォーマンスへの影響、最も有用で、安定しているかどうかの理解が不足しているため、まだ広くは使われていない。
最近、Negrinho et al. (2018) はビーム認識トレーニングアルゴリズムをキャプチャし、新しいアルゴリズムを提案するメタアルゴリズムを提案したが、残念ながら実験結果を提供しなかった。
本稿では,vaswani et al. (2016) のスーパータグモデルとメタアルゴリズムのインスタンス化によるよりシンプルなモデルについて,実験的検討を開始する。
さまざまなデザイン選択の影響について検討し、その選択を推奨する。
ビームアウェアトレーニングにより両モデルの性能が向上し,デコード時の不確実性を効果的に管理する簡易モデルの大幅な改善が期待できる。
以上より,モデルの有効性を最大化するために,探索によって学習する必要があることが示唆された。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention [2.66269503676104]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。
この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。
両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文 参考訳(メタデータ) (2024-02-25T13:53:49Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Robust Meta Learning for Image based tasks [1.1718589131017048]
よく一般化する機械学習モデルは、目に見えないテスト例で低いエラーを得る必要がある。
本稿では,画像ベースのテストタスクに対して,より堅牢なメタ学習手法を提案する。
実験では、我々のアルゴリズムはより優れた一般化性能を持つだけでなく、未知のテストタスクに対して堅牢であることを示した。
論文 参考訳(メタデータ) (2023-01-30T07:08:37Z) - Post-hoc Uncertainty Learning using a Dirichlet Meta-Model [28.522673618527417]
本研究では,不確実性定量化能力の優れた事前学習モデルを構築するための新しいベイズメタモデルを提案する。
提案手法は追加のトレーニングデータを必要としないため,不確かさの定量化に十分な柔軟性がある。
提案するメタモデルアプローチの柔軟性と,これらのアプリケーションに対する優れた経験的性能を実証する。
論文 参考訳(メタデータ) (2022-12-14T17:34:11Z) - Learning from Mistakes based on Class Weighting with Application to
Neural Architecture Search [12.317568257671427]
ミスからの学習(LFM)という,シンプルで効果的な多段階最適化フレームワークを提案する。
主な目的は、将来の同様のミスを防ぐために、再重み付け技術を用いて、ターゲットタスクで効果的に実行するモデルを訓練することである。
本定式化では,モデルの検証損失を最小限に抑えてクラスウェイトを学習し,クラスワイド性能と実データにより重み付けされた画像生成装置の合成データを用いてモデルを再学習する。
論文 参考訳(メタデータ) (2021-12-01T04:56:49Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。