論文の概要: Token2Wave
- arxiv url: http://arxiv.org/abs/2411.06989v1
- Date: Mon, 11 Nov 2024 13:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:16.667041
- Title: Token2Wave
- Title(参考訳): Token2Wave
- Authors: Xin Zhang, Victor S. Sheng,
- Abstract要約: 本稿では、ウェーブネットワークから派生した新しいトークン表現法であるToken2Waveについて、詳細な分析を行う。
Token2Waveでは、各トークンはマグニチュードコンポーネントで表現され、入力テキスト全体のグローバルセマンティクスをキャプチャする。
詳細な計算複雑性分析により、Token2Waveはビデオメモリの使用時間とトレーニング時間を著しく削減できることが示された。
- 参考スコア(独自算出の注目度): 26.656105779121308
- License:
- Abstract: This paper provides an in-depth analysis of Token2Wave, a novel token representation method derived from the Wave Network, designed to capture both global and local semantics of input text through wave-inspired complex vectors. In Token2Wave, each token is represented with a magnitude component, capturing the global semantics of the entire input text, and a phase component, encoding the relationships between individual tokens and the global semantics. Building on prior research that demonstrated the effectiveness of wave-like operations, such as interference and modulation, during forward propagation, this study investigates the convergence behavior, backpropagation characteristics, and embedding independence within the Token2Wave framework. A detailed computational complexity analysis shows that Token2Wave can significantly reduce video memory usage and training time compared to BERT. Gradient comparisons for the [CLS] token, total input text, and classifier parameters further highlight Token2Wave's unique characteristics. This research offers new insights into wave-based token representations, demonstrating their potential to enable efficient and computationally friendly language model architectures.
- Abstract(参考訳): 本稿では、ウェーブネットワークから派生した新しいトークン表現手法であるToken2Waveの詳細な解析を行い、ウェーブインスパイアされた複素ベクトルを通して、入力テキストのグローバルな意味と局所的な意味の両方をキャプチャする。
Token2Waveでは、各トークンは、入力テキスト全体のグローバルなセマンティクスと、個々のトークンとグローバルなセマンティクスの関係を符号化するフェーズコンポーネントで表現される。
本研究は, 前方伝播における干渉や変調などの波状操作の有効性を実証した先行研究に基づいて, 収束挙動, バックプロパゲーション特性, およびToken2Waveフレームワークへの組込み独立性について検討した。
Token2WaveはBERTと比較してビデオメモリ使用量やトレーニング時間を著しく削減できる。
CLS]トークン、全入力テキスト、および分類器パラメータのグラディエント比較は、Token2Waveのユニークな特徴をさらに強調する。
この研究は、ウェーブベースのトークン表現に関する新たな洞察を提供し、効率的で計算に優しい言語モデルアーキテクチャを実現する可能性を示している。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Toward end-to-end interpretable convolutional neural networks for waveform signals [0.7499722271664147]
本稿では,エンドツーエンドの音声深層学習モデルに適した新しい畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
3つの標準音声感情認識データセットを5倍のクロスバリデーションでベンチマークすることで、我々のフレームワークはMelスペクトログラムの機能を最大7%向上させる。
論文 参考訳(メタデータ) (2024-05-03T02:24:27Z) - Exploring the Role of Token in Transformer-based Time Series Forecasting [10.081240480138487]
Transformer-based method is a mainstream approach for solve time series forecasting (TSF)
モデル構造を最適化することに集中しており、予測のためのトークンの役割に注意を払う研究はほとんどない。
勾配は、主に正のトークンと呼ばれる予測級数に寄与するトークンに依存する。
T-PEとV-PEを利用するために,トランスフォーマーベースのデュアルブランチフレームワークであるT2B-PEを提案する。
論文 参考訳(メタデータ) (2024-04-16T07:21:39Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - A Theoretical Understanding of Shallow Vision Transformers: Learning,
Generalization, and Sample Complexity [71.11795737362459]
自己注意モジュールを持つViTは、最近多くのタスクで経験的な成功を収めた。
しかし、理論学習の一般化分析は、ほとんどノイズが多く、解答的である。
本稿では,分類タスクのための浅いViTの理論的解析を行った。
論文 参考訳(メタデータ) (2023-02-12T22:12:35Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Opening the Black Box of wav2vec Feature Encoder [2.1219431687928525]
我々は、その潜在空間が離散音響単位を表すと推測される畳み込み特徴エンコーダに焦点を当てる。
埋め込み空間を還元的に解析するため,単純な正弦波の和である合成音声信号を供給した。
本稿では,(1)基本周波数,(2)ホルマント,(3)振幅といった特徴エンコーダ表現の中に,(4)時間的詳細を詰め込んだ様々な情報が埋め込まれていることを結論する。
論文 参考訳(メタデータ) (2022-10-27T12:47:35Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。