Fugu-MT 論文翻訳(概要): DCT: Dynamic Compressive Transformer for Modeling Unbounded Sequence

論文の概要: DCT: Dynamic Compressive Transformer for Modeling Unbounded Sequence

arxiv url: http://arxiv.org/abs/2110.04821v1
Date: Sun, 10 Oct 2021 15:21:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-12 17:07:32.433187
Title: DCT: Dynamic Compressive Transformer for Modeling Unbounded Sequence
Title（参考訳）: DCT:非有界列モデリングのための動的圧縮変圧器
Authors: Kai-Po Chang, Wei-Yun Ma
Abstract要約: 本研究では,非有界シーケンスをモデル化するトランスベースのフレームワークであるDynamic Compressive Transformer (DCT)を提案する。我々のモデルは、シーケンスを圧縮された状態でメモリに保持するか、トレーニングプロセス中に破棄するかを決定するポリシーを使用する。メモリシステムに意味のある文情報を保持する利点により、Enwik8ベンチマーク実験の結果、DCTは従来のSOTAモデルよりも優れていた。
参考スコア（独自算出の注目度）: 7.523253052992842
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose Dynamic Compressive Transformer (DCT), a transformer-based framework for modeling the unbounded sequence. In contrast to the previous baselines which append every sentence representation to memory, conditionally selecting and appending them is a more reasonable solution to deal with unlimited long sequences. Our model uses a policy that determines whether the sequence should be kept in memory with a compressed state or discarded during the training process. With the benefits of retaining semantically meaningful sentence information in the memory system, our experiment results on Enwik8 benchmark show that DCT outperforms the previous state-of-the-art (SOTA) model.
Abstract（参考訳）: 本稿では,非有界列をモデル化するトランスベースのフレームワークであるdynamic compressive transformer (dct)を提案する。すべての文表現をメモリに付加する以前のベースラインとは対照的に、条件付き選択と追加は、無制限の長いシーケンスを扱うためのより合理的なソリューションである。我々のモデルは、シーケンスを圧縮された状態でメモリに保持するか、トレーニングプロセス中に破棄するかを決定するポリシーを使用する。メモリシステムに意味のある文情報を保持する利点により、Enwik8ベンチマーク実験の結果、DCTは従来のSOTAモデルよりも優れていた。

関連論文リスト

Spectral Compression Transformer with Line Pose Graph for Monocular 3D Human Pose Estimation [1.8999296421549172]
本稿では,SCT(Spectral Compression Transformer)を導入し,シーケンス長を削減し,計算を高速化する。 LPGは、入力された2D関節位置を補完する骨格位置情報を生成する。本モデルでは,計算効率を向上し,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-05-27T15:08:03Z)
Bottlenecked Transformers: Periodic KV Cache Abstraction for Generalised Reasoning [9.730604030100318]
大規模言語モデルは、トレーニング分布を超えて一般化に苦しむ。 IB理論は、モデル一般化は入力圧縮と潜在表現における予測情報の保持の間の最適バランスから生じると仮定している。本稿では,デコーダのみのトランスフォーマーが,タスク最適シーケンス表現を形成する能力に本質的に制約されていることを示す。我々は,KVキャッシュをグローバルに書き換える追加モジュールの形で,Transformerアーキテクチャの変更を提案する。
論文参考訳（メタデータ） (2025-05-22T17:33:49Z)
Breaking Determinism: Fuzzy Modeling of Sequential Recommendation Using Discrete State Space Diffusion Model [66.91323540178739]
シークエンシャルレコメンデーション(SR)は、ユーザーが過去の行動に基づいて興味を持つかもしれない項目を予測することを目的としている。我々はSRを新しい情報理論の観点から再検討し、逐次モデリング手法がユーザの行動のランダム性と予測不可能性を適切に把握できないことを発見した。ファジィ情報処理理論に触発された本論文では,制限を克服し,ユーザの関心事の進化をよりよく捉えるために,ファジィなインタラクションシーケンスの組を導入する。
論文参考訳（メタデータ） (2024-10-31T14:52:01Z)
MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文参考訳（メタデータ） (2024-05-25T03:24:32Z)
Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文参考訳（メタデータ） (2024-02-01T21:44:11Z)
Variational Connectionist Temporal Classification for Order-Preserving Sequence Modeling [11.312044841380649]
我々は、順序を保つより一般化可能なシーケンスモデルを訓練するのに使用できる損失関数を導出する。両損失関数はモデル対数類似度に対する変分下界の直接最適化を可能にすることを示す。
論文参考訳（メタデータ） (2023-09-21T11:39:33Z)
STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-31T16:19:27Z)
Mutual Exclusivity Training and Primitive Augmentation to Induce Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文参考訳（メタデータ） (2022-11-28T17:36:41Z)
Direction is what you need: Improving Word Embedding Compression in Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文参考訳（メタデータ） (2021-06-15T14:28:00Z)
Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。 AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文参考訳（メタデータ） (2020-10-24T07:01:24Z)
Conformer-Kernel with Query Term Independence for Document Retrieval [32.36908635150144]
Transformer- Kernel (TK) モデルは、TREC Deep Learningベンチマークで強力な再ランク性能を示している。我々は、クエリ項独立仮定を組み込むことで、TKアーキテクチャを完全な検索設定に拡張する。コンフォーマーのGPUメモリ要件は入力シーケンス長と線形にスケールすることを示し、長いドキュメントのランク付けにおいてより有効な選択肢であることを示す。
論文参考訳（メタデータ） (2020-07-20T19:47:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。