Fugu-MT 論文翻訳(概要): Does Transformer Interpretability Transfer to RNNs?

論文の概要: Does Transformer Interpretability Transfer to RNNs?

arxiv url: http://arxiv.org/abs/2404.05971v1
Date: Tue, 9 Apr 2024 02:59:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 16:08:32.963977
Title: Does Transformer Interpretability Transfer to RNNs?
Title（参考訳）: トランスフォーマーの可読性はRNNに伝達されるか?
Authors: Gonçalo Paulo, Thomas Marshall, Nora Belrose,
Abstract要約: 近年のリカレントニューラルネットワークアーキテクチャの進歩により、RNNは等サイズトランスの性能に適合または超えることが可能になった。本稿では,RNNの圧縮状態を利用して,これらの手法のいくつかを改善することができることを示す。
参考スコア（独自算出の注目度）: 0.6437284704257459
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in recurrent neural network architectures, such as Mamba and RWKV, have enabled RNNs to match or exceed the performance of equal-size transformers in terms of language modeling perplexity and downstream evaluations, suggesting that future systems may be built on completely new architectures. In this paper, we examine if selected interpretability methods originally designed for transformer language models will transfer to these up-and-coming recurrent architectures. Specifically, we focus on steering model outputs via contrastive activation addition, on eliciting latent predictions via the tuned lens, and eliciting latent knowledge from models fine-tuned to produce false outputs under certain conditions. Our results show that most of these techniques are effective when applied to RNNs, and we show that it is possible to improve some of them by taking advantage of RNNs' compressed state.
Abstract（参考訳）: MambaやRWKVといったリカレントニューラルネットワークアーキテクチャの最近の進歩により、言語モデリングの難易度や下流評価の観点から、RNNが等サイズのトランスフォーマーのパフォーマンスに適合または超えることが可能になった。本稿では,トランスフォーマ言語モデルにもともと設計されていた解釈可能性の選択手法が,これらアップ・アンド・カレントアーキテクチャに移行するかどうかを検討する。具体的には、対照的なアクティベーション付加によるモデル出力のステアリング、調整レンズによる潜時予測の抽出、特定の条件下で偽出力を生成するために微調整されたモデルからの潜時知識の抽出に焦点をあてる。以上の結果から,これらの手法はRNNに適用した場合に有効であることが示され,RNNの圧縮状態を利用して改善できることが示唆された。

関連論文リスト

NN-Former: Rethinking Graph Structure in Neural Architecture Representation [67.3378579108611]
グラフニューラルネットワーク(GNN)とトランスフォーマーは、ニューラルネットワークを表現する上で有望なパフォーマンスを示している。これまでの研究で見過ごされている間、兄弟ノードは中心的であることを示す。我々のアプローチは、精度と遅延予測の両方において、常に有望な性能を達成する。
論文参考訳（メタデータ） (2025-07-01T15:46:18Z)
Efficient Language Modeling for Low-Resource Settings with Hybrid RNN-Transformer Architectures [8.442206285783463]
トランスフォーマーベースの言語モデルは、最近テキスト生成における活発な研究の最前線にある。これらのモデルの進歩は、数十億のパラメータ数とペタフロップ/秒単位の計算要求によって、禁止的なトレーニングコストの価格で実現されている。注目層をフィードフォワードと準リカレントニューラルネットワーク層に選択的に置き換えることで,低データ方式におけるモデル性能向上のためのトランスフォーマーアーキテクチャについて検討する。
論文参考訳（メタデータ） (2025-02-02T01:05:09Z)
Autoregressive + Chain of Thought = Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer [29.970200877158764]
ニューラルモデルにおけるリカレント構造が推論能力と計算可能性に与える影響について検討する。我々は、CoTアプローチが繰り返し計算を模倣し、自己回帰と再発の間のブリッジとして機能する方法について光を当てた。
論文参考訳（メタデータ） (2024-09-14T00:30:57Z)
State space models can express n-gram languages [51.823427608117626]
我々は、n-gramルールから生成された言語に対して、次の単語予測タスクを解くことのできる状態空間言語モデルを構築している。我々の証明は、SSMがn-gramルールをその能力に関する新たな理論的結果を用いてエンコードする方法を示している。 n-gramルールから生成された小さなデータセットを用いて実験を行い、勾配に基づく最適化によって得られたSSMやRNNにフレームワークをどのように適用できるかを示す。
論文参考訳（メタデータ） (2023-06-20T10:41:23Z)
NAR-Former V2: Rethinking Transformer for Universal Neural Network Representation Learning [25.197394237526865]
本稿では,トランスフォーマーに基づく汎用ニューラルネットワーク表現学習モデル NAR-Former V2 を提案する。具体的には、ネットワークをグラフとして取り、簡単なトークン化器を設計して、ネットワークをシーケンスにエンコードする。我々は,GNNの帰納的表現学習能力をTransformerに組み込んだ。
論文参考訳（メタデータ） (2023-06-19T09:11:04Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Return of the RNN: Residual Recurrent Networks for Invertible Sentence Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。 RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文参考訳（メタデータ） (2023-03-23T15:59:06Z)
Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。 Transformerモデルをより効率的にすることに注力している。
論文参考訳（メタデータ） (2023-02-27T18:18:13Z)
NAR-Former: Neural Architecture Representation Learning towards Holistic Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文参考訳（メタデータ） (2022-11-15T10:15:21Z)
VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。 ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文参考訳（メタデータ） (2022-08-03T02:45:52Z)
Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文参考訳（メタデータ） (2022-03-29T21:18:47Z)
CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文参考訳（メタデータ） (2021-12-31T04:37:11Z)
Coupled Oscillatory Recurrent Neural Network (coRNN): An accurate and (gradient) stable architecture for learning long time dependencies [15.2292571922932]
本稿では,リカレントニューラルネットワークのための新しいアーキテクチャを提案する。提案するRNNは, 2次常微分方程式系の時間分解に基づく。実験の結果,提案したRNNは,様々なベンチマークによる最先端技術に匹敵する性能を示した。
論文参考訳（メタデータ） (2020-10-02T12:35:04Z)
Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文参考訳（メタデータ） (2020-08-07T11:02:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。