Fugu-MT 論文翻訳(概要): Last Query Transformer RNN for knowledge tracing

論文の概要: Last Query Transformer RNN for knowledge tracing

arxiv url: http://arxiv.org/abs/2102.05038v1
Date: Wed, 10 Feb 2021 17:10:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-12 00:04:57.669111
Title: Last Query Transformer RNN for knowledge tracing
Title（参考訳）: 知識追跡のためのLast Query Transformer RNN
Authors: SeungKee Jeon
Abstract要約: 本稿では,過去の学習活動から,学生の回答の正しさを予測するための効率的なモデルを提案する。私は,カグルで開催されている'Riiid!Answer Correctness Prediction'コンペで1位を獲得しました。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents an efficient model to predict a student's answer correctness given his past learning activities. Basically, I use both transformer encoder and RNN to deal with time series input. The novel point of the model is that it only uses the last input as query in transformer encoder, instead of all sequence, which makes QK matrix multiplication in transformer Encoder to have O(L) time complexity, instead of O(L^2). It allows the model to input longer sequence. Using this model I achieved the 1st place in the 'Riiid! Answer Correctness Prediction' competition hosted on kaggle.
Abstract（参考訳）: 本稿では,過去の学習活動から生徒の回答の正確性を予測するための効率的なモデルを提案する。基本的に、私は時系列入力にトランスフォーマーエンコーダとRNNの両方を使用します。このモデルの斬新な点は、全てのシーケンスの代わりにトランスフォーマーエンコーダのクエリとして最後の入力のみを使用するため、トランスフォーマーエンコーダのQK行列乗法はO(L^2)ではなくO(L)時間複雑性を持つ。モデルがより長いシーケンスを入力できるようにする。このモデルを使って、私はriiidで1位を獲得しました! カグルで主催されている「正解予測」コンペティション。

関連論文リスト

Breaking the Attention Bottleneck [0.0]
本稿では,注意やアクティベーションの代替として生成機能を開発する。それぞれのトークンと前のトークンを比較することで、自動回帰文字を持つ。注意の置き換えという概念は、https://gitlab.com/Bachstelzecausal_generationでAGPL v3ライセンスの下で配布されている。
論文参考訳（メタデータ） (2024-06-16T12:06:58Z)
Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。 Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-22T19:45:01Z)
How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文参考訳（メタデータ） (2024-02-08T16:24:44Z)
Unlimiformer: Long-Range Transformers with Unlimited Length Input [67.04942180004805]
Unlimiformerは、既存のトレーニング済みエンコーダ-デコーダ変換器をラップする一般的なアプローチである。クロスアテンション計算をkNN(k-nearest-neighbor)インデックスにオフロードする。 Unlimiformerは、BookSumデータセットから500kのトークン長の入力を、テスト時に入力トランケーションなしで処理できることを示す。
論文参考訳（メタデータ） (2023-05-02T17:35:08Z)
Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。出力トークンの数を正確に予測し、隠れた変数を抽出する。 10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2022-06-16T17:24:14Z)
Transformer Based Bengali Chatbot Using General Knowledge Dataset [0.0]
本研究では,ベンガルの一般知識質問応答(QA)データセットに基づいて,ベンガルの一般知識チャットボットに対してトランスフォーマーモデルを適用した。適用QAデータに対して85.0BLEUをスコアし、トランスフォーマーモデルの性能の比較を確認するために、23.5BLEUのスコアを持つデータセットに着目してセック2seqモデルを訓練した。
論文参考訳（メタデータ） (2021-11-06T18:33:20Z)
Iterative Decoding for Compositional Generalization in Transformers [5.269770493488338]
シーケンシャル・ツー・シークエンス・ラーニングでは、トランスフォーマーは極端に長い例に対して正しい出力を予測できないことが多い。本稿では,Seq2seq学習に代わる反復復号法を提案する。反復復号により訓練されたトランスフォーマーはPCFGデータセット上でセq2seqよりも優れていることを示す。
論文参考訳（メタデータ） (2021-10-08T14:52:25Z)
Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。線形複雑リカレント変種は自己回帰生成に適していることが証明されている。この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文参考訳（メタデータ） (2021-03-24T10:50:43Z)
Transformer Based Deliberation for Two-Pass Speech Recognition [46.86118010771703]
音声認識システムは、単語を素早く生成し、正確な結果を生成する必要がある。 2つのパスモデルは、単語を素早く出力する1次パスデコーダと、よりコンテキストを必要とするがより正確である2次パスデコーダを使用することで、これらの要求に優れる。以前は、議論ネットワークが効果的な第2パスモデルになり得ることが証明されていた。
論文参考訳（メタデータ） (2021-01-27T18:05:22Z)
Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention [22.228028613802174]
トランスフォーマーは、いくつかのタスクで顕著なパフォーマンスを達成するが、その二次的な複雑さのため、非常に長いシーケンスでは明らかに遅い。我々は行列積の連想性を利用して複雑さを$mathcalOleft(N2right)$から$mathcalOleft(Nright)$に減らし、$N$はシーケンス長である。線形変圧器はバニラ変圧器と同等の性能を示し、非常に長いシーケンスの自己回帰予測では最大4000倍高速である。
論文参考訳（メタデータ） (2020-06-29T17:55:38Z)
Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech Recognition [66.47000813920617]
エンドツーエンド音声認識のためのスパイクトリガー付き非自己回帰変換器モデルを提案する。提案モデルでは,ターゲット列の長さを正確に予測し,競合性能を実現する。このモデルは0.0056のリアルタイム係数も達成しており、全ての主流音声認識モデルを超えている。
論文参考訳（メタデータ） (2020-05-16T08:27:20Z)
DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering [22.178201429268103]
トランスフォーマーベースのQAモデルは、質問と入力通路の両方にわたる入力ワイド自己アテンションを使用する。 DeFormerを導入し、下層層における全自己注意を質問全体および横断的自己注意に置き換える。 BERTとXLNetのDeFormerバージョンは、QAを4.3倍高速化するために使用でき、単純な蒸留に基づく損失は1%の精度でしか得られない。
論文参考訳（メタデータ） (2020-05-02T04:28:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。