論文の概要: Change of Thought: Adaptive Test-Time Computation
- arxiv url: http://arxiv.org/abs/2507.13569v1
- Date: Thu, 17 Jul 2025 23:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.151519
- Title: Change of Thought: Adaptive Test-Time Computation
- Title(参考訳): 思考の変化:適応的なテスト時間計算
- Authors: Mrinal Mathur, Mike Doan, Barak Pearlmutter, Sergey Plis,
- Abstract要約: 自己変換器は反復的推論の表現力の多くを回復する。
自己変換器は、注意重みを一定点まで反復的に洗練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers evaluated in a single, fixed-depth pass are provably limited in expressive power to the constant-depth circuit class TC0. Running a Transformer autoregressively removes that ceiling -- first in next-token prediction and, more recently, in chain-of-thought reasoning. Both regimes rely on feedback loops that decode internal states into tokens only to re-encode them in subsequent steps. While this "thinking aloud" mirrors human reasoning, biological brains iterate without externalising intermediate states as language. To boost the expressive power of encoder Transformers without resorting to token-level autoregression, we introduce the SELF-Transformer: an encoder layer that iteratively refines its own attention weights to a fixed point. Instead of producing -- in one pass -- the alignment matrix that remixes the input sequence, the SELF-Transformer iteratively updates that matrix internally, scaling test-time computation with input difficulty. This adaptivity yields up to 20\% accuracy gains on encoder-style benchmarks without increasing parameter count, demonstrating that input-adaptive alignment at test time offers substantial benefits for only a modest extra compute budget. Self-Transformers thus recover much of the expressive power of iterative reasoning while preserving the simplicity of pure encoder architectures.
- Abstract(参考訳): 1つの固定深度パスで評価された変圧器は、確実に、定数深度回路クラスTC0に表現力で制限される。
Transformerを自動回帰的に実行すると、その天井が取り除かれる。
両方のレジームは、内部状態をトークンにデコードするフィードバックループに依存しており、その後のステップでそれらを再エンコードする。
これは人間の推論を反映しているが、生物学的脳は中間状態を言語として外部化せずに反復する。
トークンレベルの自己回帰に頼らずにエンコーダ変換器の表現力を高めるために,自己注意重みを一定点まで反復的に改善するエンコーダ層であるSELF-Transformerを導入する。
入力シーケンスをリミックスするアライメントマトリックスを生成する代わりに、SELF-Transformerはそのマトリックスを内部的に反復的に更新し、入力困難を伴うテスト時間計算をスケールする。
この適応性は、パラメータ数を増やすことなく、エンコーダスタイルのベンチマークで最大で20倍の精度を得る。
したがって、自己変換器は純粋エンコーダアーキテクチャの単純さを維持しながら反復推論の表現力の多くを回復する。
関連論文リスト
- Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking [51.154226183713405]
本稿では,レイヤ計算を暗黙の思考ステップとして再定義する内的思考変換器を提案する。
ITTは162Mパラメータのみを使用して466Mトランスフォーマーの96.5%のパフォーマンスを達成し、トレーニングデータを43.2%削減し、11のベンチマークでTransformer/Loopの変種を上回るパフォーマンスを実現した。
論文 参考訳(メタデータ) (2025-02-19T16:02:23Z) - The Expressive Power of Transformers with Chain of Thought [29.839710738657203]
実際には、トランスフォーマーは「思考の連鎖」や「スクラッチパッド」を使用することで改善できる。
答えはYESであるが、増加量は中間生成量に大きく依存する。
また, 線形ステップでは, コンテクストに敏感な言語に変換器デコーダを配置することが示唆された。
論文 参考訳(メタデータ) (2023-10-11T22:35:18Z) - TAPIR: Learning Adaptive Revision for Incremental Natural Language
Understanding with a Two-Pass Model [14.846377138993645]
インクリメンタル処理のための最近のニューラルネットワークベースのアプローチは、主にRNNまたはTransformerを使用する。
より長い入力プレフィックスを繰り返し通過する再起動/インクリメンタルインターフェースは、部分的な出力を得るために使用でき、更新する機能を提供する。
本稿では、AdaPtIve Revision(TAPIR)の2パスモデルを提案し、適応的な修正ポリシーを学ぶための漸進的な監視信号を得る方法を提案する。
論文 参考訳(メタデータ) (2023-05-18T09:58:19Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Towards More Efficient Insertion Transformer with Fractional Positional
Encoding [44.45401243989363]
自動回帰ニューラルシーケンスモデルは、テキスト生成タスクで有効であることが示されている。
左から右への復号命令は、生成が並列化されるのを防ぐ。
Insertion Transformerは、単一の生成ステップで複数のトークンを出力できる魅力的な代替手段である。
論文 参考訳(メタデータ) (2021-12-12T18:38:27Z) - Finetuning Pretrained Transformers into Variational Autoencoders [0.0]
テキスト変分オートエンコーダ(VAE)は後部崩壊で有名である。
トランスフォーマーはテキストVAEのコンポーネントとして限定的に採用されている。
そこで本研究では,シーケンス・ツー・シーケンス・トランスフォーマーをVAEに変換するための2段階の簡単なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-08-05T08:27:26Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。