論文の概要: Semiparametric Token-Sequence Co-Supervision
- arxiv url: http://arxiv.org/abs/2403.09024v1
- Date: Thu, 14 Mar 2024 01:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 22:17:16.857437
- Title: Semiparametric Token-Sequence Co-Supervision
- Title(参考訳): 半パラメトリックトークンシーケンスの共同スーパービジョン
- Authors: Hyunji Lee, Doyoung Kim, Jihoon Jun, Sejune Joo, Joel Jang, Kyoung-Woon On, Minjoon Seo,
- Abstract要約: 半パラメトリックトークンシーケンス協調訓練法を提案する。
従来の次のトークン予測損失からの監視を同時に活用することで、言語モデルをトレーニングする。
実験は、両方の監督によってトレーニングされたモデルが、独立して各監督によってトレーニングされたモデルを一貫して上回っていることを示した。
- 参考スコア(独自算出の注目度): 39.39062385290276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce a semiparametric token-sequence co-supervision training method. It trains a language model by simultaneously leveraging supervision from the traditional next token prediction loss which is calculated over the parametric token embedding space and the next sequence prediction loss which is calculated over the nonparametric sequence embedding space. The nonparametric sequence embedding space is constructed by a separate language model tasked to condense an input text into a single representative embedding. Our experiments demonstrate that a model trained via both supervisions consistently surpasses models trained via each supervision independently. Analysis suggests that this co-supervision encourages a broader generalization capability across the model. Especially, the robustness of parametric token space which is established during the pretraining step tends to effectively enhance the stability of nonparametric sequence embedding space, a new space established by another language model.
- Abstract(参考訳): 本研究では,半パラメトリックトークンシーケンス協調訓練法を提案する。
非パラメトリックなトークン埋め込み空間上で計算される従来の次のトークン予測損失と、非パラメトリックなシーケンス埋め込み空間上で計算される次のシーケンス予測損失との監督を同時に活用して言語モデルを訓練する。
非パラメトリックシーケンス埋め込み空間は、入力テキストを単一の代表埋め込みに凝縮するタスクを課される独立した言語モデルによって構成される。
我々の実験は、両監督者を通して訓練されたモデルが、独立して訓練されたモデルを一貫して上回っていることを示した。
分析は、このコスーパービジョンがモデル全体にわたってより広範な一般化能力を促進することを示唆している。
特に、事前学習段階に確立されたパラメトリックトークン空間のロバスト性は、他の言語モデルによって確立された新しい空間である非パラメトリックシーケンス埋め込み空間の安定性を効果的に向上させる傾向にある。
関連論文リスト
- Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - Rethinking the Construction of Effective Metrics for Understanding the
Mechanisms of Pretrained Language Models [2.5863812709449543]
本稿では,事前学習された言語モデルのメカニズムを理解するためのメトリクスを構築するための新しいラインを提案する。
実験結果に基づいて,BERT型事前学習言語モデルの動作機構に関する憶測を提案する。
論文 参考訳(メタデータ) (2023-10-19T04:16:40Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Regularized Vector Quantization for Tokenized Image Synthesis [126.96880843754066]
画像の離散表現への量子化は、統合生成モデリングにおける根本的な問題である。
決定論的量子化は、厳しいコードブックの崩壊と推論段階の誤調整に悩まされ、一方、量子化は、コードブックの利用率の低下と再構築の目的に悩まされる。
本稿では、2つの視点から正規化を適用することにより、上記の問題を効果的に緩和できる正規化ベクトル量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-11T15:20:54Z) - Unsupervised Learning of Equivariant Structure from Sequences [30.974508897223124]
我々は,少なくとも3つの長さの時系列から対称性を学習するための教師なしのフレームワークを提案する。
当社のフレームワークでは,データセットの非絡み合い構造が副産物として自然に現れることを実証します。
論文 参考訳(メタデータ) (2022-10-12T07:29:18Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Self-Supervised Contrastive Learning for Unsupervised Phoneme
Segmentation [37.054709598792165]
このモデルは畳み込みニューラルネットワークであり、生波形上で直接動作する。
ノイズコントラスト推定原理を用いて信号のスペクトル変化を同定する。
テスト時には、モデル出力にピーク検出アルゴリズムを適用して最終境界を生成する。
論文 参考訳(メタデータ) (2020-07-27T12:10:21Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z) - A Probabilistic Formulation of Unsupervised Text Style Transfer [128.80213211598752]
従来提案されていた非生成的手法を統一した教師なしテキストスタイル転送のための深層生成モデルを提案する。
観測された各シーケンスを生成する並列潜時シーケンスを仮定することにより、我々のモデルは、完全に教師なしの方法で、あるドメインから別のドメインへシーケンスを変換することを学ぶ。
論文 参考訳(メタデータ) (2020-02-10T16:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。