論文の概要: Symbolic Autoencoding for Self-Supervised Sequence Learning
- arxiv url: http://arxiv.org/abs/2402.10575v1
- Date: Fri, 16 Feb 2024 11:04:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:40:32.206387
- Title: Symbolic Autoencoding for Self-Supervised Sequence Learning
- Title(参考訳): 自己教師付きシーケンス学習のためのシンボリックオートエンコーディング
- Authors: Mohammad Hossein Amani, Nicolas Mario Baldwin, Amin Mansouri, Martin
Josifoski, Maxime Peyrard, Robert West
- Abstract要約: $Sigma$AEは、限られた並列データとともに豊富な非並列データのパワーを利用する、自己管理型のフレームワークである。
この結果から,$Sigma$AEは最小並列データであっても,トランスダクションタスクの性能を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 24.71036683224435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional language models, adept at next-token prediction in text
sequences, often struggle with transduction tasks between distinct symbolic
systems, particularly when parallel data is scarce. Addressing this issue, we
introduce \textit{symbolic autoencoding} ($\Sigma$AE), a self-supervised
framework that harnesses the power of abundant unparallel data alongside
limited parallel data. $\Sigma$AE connects two generative models via a discrete
bottleneck layer and is optimized end-to-end by minimizing reconstruction loss
(simultaneously with supervised loss for the parallel data), such that the
sequence generated by the discrete bottleneck can be read out as the transduced
input sequence. We also develop gradient-based methods allowing for efficient
self-supervised sequence learning despite the discreteness of the bottleneck.
Our results demonstrate that $\Sigma$AE significantly enhances performance on
transduction tasks, even with minimal parallel data, offering a promising
solution for weakly supervised learning scenarios.
- Abstract(参考訳): 従来の言語モデルは、テキストシーケンスにおける次のトーケン予測に適しており、特に並列データが不足している場合、異なるシンボルシステム間のトランスダクションタスクにしばしば苦労する。
この問題に対処するために、限られた並列データとともに豊富な非並列データのパワーを利用する自己教師型フレームワークである「textit{symbolic autoencoding}」(\Sigma$AE)を紹介する。
$\sigma$ae は離散的ボトルネック層を介して2つの生成モデルを結び、並列データの教師付き損失を最小化することでエンドツーエンドに最適化され、離散的ボトルネックによって生成されたシーケンスを変換された入力シーケンスとして読み出すことができる。
また,ボトルネックの離散性にも拘わらず,効率的な自己教師付きシーケンス学習を可能にする勾配ベース手法を開発した。
我々の結果から,$\Sigma$AEは,最小並列データであっても,トランスダクションタスクの性能を著しく向上させ,弱教師付き学習シナリオに対して有望なソリューションを提供することを示した。
関連論文リスト
- Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Don't Take It Literally: An Edit-Invariant Sequence Loss for Text
Generation [109.46348908829697]
生成したn-gramのすべてのn-gramとの一致損失を計算した新しい編集不変シーケンス損失(EISL)を提案する。
ノイズの多いターゲットシーケンスを持つ機械翻訳,教師なしテキストスタイル転送,非自己回帰型機械翻訳の3つのタスクについて実験を行った。
論文 参考訳(メタデータ) (2021-06-29T03:59:21Z) - Bi-Granularity Contrastive Learning for Post-Training in Few-Shot Scene [10.822477939237459]
トークンレベルとシーケンスレベルの両方のコントラスト学習を統合するために,ポストトレーニングのためのコントラストマスク言語モデリング(CMLM)を提案する。
CMLMは、データ拡張を必要とせずに、数ショット設定で、最近のいくつかのポストトレーニングメソッドを超越している。
論文 参考訳(メタデータ) (2021-06-04T08:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。