論文の概要: Stochastic Transformer Networks with Linear Competing Units: Application
to end-to-end SL Translation
- arxiv url: http://arxiv.org/abs/2109.13318v1
- Date: Wed, 1 Sep 2021 15:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-03 11:53:39.819438
- Title: Stochastic Transformer Networks with Linear Competing Units: Application
to end-to-end SL Translation
- Title(参考訳): 線形競合ユニットを持つ確率変換器ネットワーク:エンドツーエンドSL翻訳への応用
- Authors: Andreas Voskou, Konstantinos P. Panousis, Dimitrios Kosmopoulos,
Dimitris N. Metaxas and Sotirios Chatzis
- Abstract要約: グロースの明示的な使用を伴わないエンドツーエンドのSLTモデルを提案する。
これは、Gloss sequence groundtruthを使用する既存のエンドツーエンドモデルとは対照的である。
提案手法は,ENIX 2014Tベンチマークにおいて,現在報告されているBLEU-4スコアに到達可能であることを示す。
- 参考スコア(独自算出の注目度): 46.733644368276764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating sign language translation (SLT) is a challenging real world
application. Despite its societal importance, though, research progress in the
field remains rather poor. Crucially, existing methods that yield viable
performance necessitate the availability of laborious to obtain gloss sequence
groundtruth. In this paper, we attenuate this need, by introducing an
end-to-end SLT model that does not entail explicit use of glosses; the model
only needs text groundtruth. This is in stark contrast to existing end-to-end
models that use gloss sequence groundtruth, either in the form of a modality
that is recognized at an intermediate model stage, or in the form of a parallel
output process, jointly trained with the SLT model. Our approach constitutes a
Transformer network with a novel type of layers that combines: (i) local
winner-takes-all (LWTA) layers with stochastic winner sampling, instead of
conventional ReLU layers, (ii) stochastic weights with posterior distributions
estimated via variational inference, and (iii) a weight compression technique
at inference time that exploits estimated posterior variance to perform
massive, almost lossless compression. We demonstrate that our approach can
reach the currently best reported BLEU-4 score on the PHOENIX 2014T benchmark,
but without making use of glosses for model training, and with a memory
footprint reduced by more than 70%.
- Abstract(参考訳): 自動手話翻訳(SLT)は、現実の難易度の高いアプリケーションである。
しかし、その社会的重要性にもかかわらず、この分野の研究の進歩は依然としてかなり貧弱である。
致命的なパフォーマンスをもたらす既存の手法は、光沢シーケンスの基盤を得るのに労力を要する。
本稿では,グロスを明示的に使用する必要のないエンドツーエンドのSLTモデルを導入することにより,このニーズを緩和する。
これは、中間モデル段階で認識されるモダリティの形で、あるいはSLTモデルと共同で訓練された並列出力プロセスの形で、グロスシーケンスの基盤を使用する既存のエンド・ツー・エンドモデルとは対照的である。
我々のアプローチは、トランスフォーマーネットワークを構成する新しいタイプのレイヤである。
(i)従来のReLU層の代わりに確率的入賞者サンプリングを伴う局所入賞者全層(LWTA)。
(ii)変動推論による後方分布の確率的重みの推定と
(iii)推定された後方分散を利用した推定時の重み圧縮技術で、大容量でほぼ無損失な圧縮を行う。
PHOENIX 2014Tベンチマークでは,現在報告されているBLEU-4スコアに到達できるが,モデルトレーニングにグルースを使用せず,メモリフットプリントを70%以上削減できることを示す。
関連論文リスト
- Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Structure-Preserving Network Compression Via Low-Rank Induced Training Through Linear Layers Composition [11.399520888150468]
ローランド誘導訓練(LoRITa)と呼ばれる理論的修正手法を提案する。
LoRITaは線形層を構成することで低ランク化を促進し、特異値切り込みを用いて圧縮する。
我々は,完全連結ネットワーク上でのMNIST,視覚変換器上でのCIFAR10,畳み込みニューラルネットワーク上でのCIFAR10/100と画像ネットを用いたアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T00:58:23Z) - LRP-QViT: Mixed-Precision Vision Transformer Quantization via Layer-wise
Relevance Propagation [0.0]
LRP-QViTは、異なる層に混合精度のビット割り当てを割り当てる説明可能性に基づく手法である。
実験結果から,固定ビット・混合ビット後量子化法が既存の4ビット・6ビット量子化法を超越していることが判明した。
論文 参考訳(メタデータ) (2024-01-20T14:53:19Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Adaptive Sparsity Level during Training for Efficient Time Series Forecasting with Transformers [20.23085795744602]
textbfAdaptive textbfSparsity textbfPALS(textbfPALS)を提案する。
PALSはスパーストレーニングとトレーニングの方法からインスピレーションを得ている。
スパースニューラルネットワークのトレーニングにおいて、新しい"拡張"メカニズムを導入し、モデルを動的に縮小、拡張、あるいは安定して適切なスパースレベルを見つけることを可能にする。
論文 参考訳(メタデータ) (2023-05-28T06:57:27Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - Regularization via Adaptive Pairwise Label Smoothing [19.252319300590653]
本稿では Pairwise Label Smoothing (PLS) と呼ばれる新しいラベル平滑化手法を提案する。
クロスバリデーションサーチによって大域的に滑らかな分布質量を求める現在のLS法とは異なり、PSSはトレーニング中に各入力ペアの分布質量を自動的に学習する。
PLSはLSおよびベースラインモデルよりも有意に優れており,相対的分類誤差の最大30%を達成している。
論文 参考訳(メタデータ) (2020-12-02T22:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。