Fugu-MT 論文翻訳(概要): Inner Loop Inference for Pretrained Transformers: Unlocking Latent Capabilities Without Training

論文の概要: Inner Loop Inference for Pretrained Transformers: Unlocking Latent Capabilities Without Training

arxiv url: http://arxiv.org/abs/2602.14759v1
Date: Mon, 16 Feb 2026 14:04:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-17 16:22:50.448676
Title: Inner Loop Inference for Pretrained Transformers: Unlocking Latent Capabilities Without Training
Title（参考訳）: 事前学習型変圧器の内ループ推論--訓練無しの潜在能力のアンロック
Authors: Jonathan Lys, Vincent Gripon, Bastien Pasdeloup, Lukas Mauch, Fabien Cardinaux, Ghouthi Boukli Hacene,
Abstract要約: 事前訓練された言語モデルにおいて,長期化のための推論時間内ループを提案する。複数のベンチマークで、内部ループは控えめだが、一貫した精度の向上をもたらす。以上の結果から, 凍結事前学習モデルにおいて, 簡単なテスト時間ループにより, さらなる改良が可能であることが示唆された。
参考スコア（独自算出の注目度）: 9.617245548268437
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Learning architectures, and in particular Transformers, are conventionally viewed as a composition of layers. These layers are actually often obtained as the sum of two contributions: a residual path that copies the input and the output of a Transformer block. As a consequence, the inner representations (i.e. the input of these blocks) can be interpreted as iterative refinement of a propagated latent representation. Under this lens, many works suggest that the inner space is shared across layers, meaning that tokens can be decoded at early stages. Mechanistic interpretability even goes further by conjecturing that some layers act as refinement layers. Following this path, we propose inference-time inner looping, which prolongs refinement in pretrained off-the-shelf language models by repeatedly re-applying a selected block range. Across multiple benchmarks, inner looping yields modest but consistent accuracy improvements. Analyses of the resulting latent trajectories suggest more stable state evolution and continued semantic refinement. Overall, our results suggest that additional refinement can be obtained through simple test-time looping, extending computation in frozen pretrained models.
Abstract（参考訳）: ディープラーニングアーキテクチャ、特にトランスフォーマーは、伝統的にレイヤの合成と見なされている。これらのレイヤは2つのコントリビューションの合計として取得されることが多い。結果として、内部表現(つまりこれらのブロックの入力)は、伝播潜在表現の反復的洗練と解釈できる。このレンズの下では、多くの研究が内部空間が層間で共有されていることを示唆している。機械的解釈可能性(Mechanistic Interpretability)は、いくつかのレイヤが洗練されたレイヤとして振る舞うことを主張することによってさらに進む。提案手法は,事前訓練されたオフザシェルフ言語モデルの洗練を延長し,選択したブロック範囲を繰り返し適用する推論時間内ループを提案する。複数のベンチマークで、内部ループは控えめだが、一貫した精度の向上をもたらす。結果として生じる潜在軌道の分析は、より安定な状態の進化とセマンティックリファインメントの継続を示唆している。以上の結果から, 凍結事前学習モデルにおいて, 簡単なテスト時間ループにより, さらなる改良が可能であることが示唆された。

関連論文リスト

LoopFormer: Elastic-Depth Looped Transformers for Latent Reasoning via Shortcut Modulation [9.943277041891788]
可変長トラジェクタで訓練されたループ変換器であるLoopFormerを導入し、予算条件の推論を可能にする。私たちのコアコントリビューションは、異なる長さの軌跡を整列するショートカット一貫性トレーニングスキームです。 LoopFormerは、アグレッシブな計算制約下でさえ、言語モデリングと推論ベンチマークで堅牢なパフォーマンスを示す。
論文参考訳（メタデータ） (2026-02-11T23:58:28Z)
Weights to Code: Extracting Interpretable Algorithms from the Discrete Transformer [65.38883376379812]
本稿では,連続表現と離散記号論理のギャップを埋めるアーキテクチャである離散変換器を提案する。実証的には、Discrete TransformerはRNNベースのベースラインに匹敵するパフォーマンスを達成するだけでなく、連続的な変数ドメインへの解釈可能性を大幅に拡張する。
論文参考訳（メタデータ） (2026-01-09T12:49:41Z)
Latent Chain-of-Thought? Decoding the Depth-Recurrent Transformer [0.8738725605667471]
CoT(Chain-of- Thought)推論は、トランスフォーマーベースの言語モデルで複雑な数学や多段階計画に優れる。標準的なデコーダのみのアーキテクチャでは、これらの推論ステップは自然言語で外部化され、効率を犠牲にして解釈性を向上させる。パラメータ数の増加を伴わずに推論時に層を再利用する深度再帰変換器である Huginn-3.5B にそのような推論構造が出現するかどうかを検討する。
論文参考訳（メタデータ） (2025-07-02T23:35:21Z)
Intra-Layer Recurrence in Transformers for Language Modeling [0.03320194947871346]
ILR(Intra-Layer Recurrence)は、単一のフォワードパス内の個々の層に選択的に反復するアプローチである。実験により、より多くのイテレーションを以前のレイヤに割り当てると、最適な結果が得られます。
論文参考訳（メタデータ） (2025-05-03T16:16:55Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
Recurrent Generic Contour-based Instance Segmentation with Progressive Learning [111.31166268300817]
本稿では,一般的な輪郭型インスタンスセグメンテーションのための新しいディープネットワークアーキテクチャ,すなわちPolySnakeを提案する。従来のSnakeアルゴリズムに動機付け,提案したPolySnakeはより優れた,堅牢なセグメンテーション性能を実現する。
論文参考訳（メタデータ） (2023-01-21T05:34:29Z)
Object Representations as Fixed Points: Training Iterative Refinement Algorithms with Implicit Differentiation [88.14365009076907]
反復的洗練は表現学習に有用なパラダイムである。トレーニングの安定性とトラクタビリティを向上させる暗黙の差別化アプローチを開発する。
論文参考訳（メタデータ） (2022-07-02T10:00:35Z)
Phase Collapse in Neural Networks [1.8620637029128544]
深部畳み込み画像分類器は、空間変数をより少ない数のチャネルに徐々に変換し、全てのクラスを線形に分離する。本稿では,空間的変動性を段階的に排除できる相崩壊機構について述べる。非線型性のしきい値とは対照的に、繰り返し位相崩壊がクラス平均の分離を段階的に改善する方法を説明することによって正当化される。
論文参考訳（メタデータ） (2021-10-11T13:58:01Z)
Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。 Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文参考訳（メタデータ） (2020-06-05T05:16:23Z)
Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文参考訳（メタデータ） (2020-02-21T16:37:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。