論文の概要: Seq-VCR: Preventing Collapse in Intermediate Transformer Representations for Enhanced Reasoning
- arxiv url: http://arxiv.org/abs/2411.02344v1
- Date: Mon, 04 Nov 2024 18:14:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:40.765189
- Title: Seq-VCR: Preventing Collapse in Intermediate Transformer Representations for Enhanced Reasoning
- Title(参考訳): Seq-VCR:Reasoning強化のための中間変圧器表現の崩壊防止
- Authors: Md Rifat Arefin, Gopeshh Subbaraj, Nicolas Gontier, Yann LeCun, Irina Rish, Ravid Shwartz-Ziv, Christopher Pal,
- Abstract要約: 我々は,モデル中間層における表現の崩壊を,その推論能力を制限する重要な要因として認識する。
本稿では、中間表現のエントロピーを高め、崩壊を防止するシークエンシャル変数共分散正規化(Seq-VCR)を提案する。
- 参考スコア(独自算出の注目度): 29.39584492735953
- License:
- Abstract: Decoder-only Transformers often struggle with complex reasoning tasks, particularly arithmetic reasoning requiring multiple sequential operations. In this work, we identify representation collapse in the model's intermediate layers as a key factor limiting their reasoning capabilities. To address this, we propose Sequential Variance-Covariance Regularization (Seq-VCR), which enhances the entropy of intermediate representations and prevents collapse. Combined with dummy pause tokens as substitutes for chain-of-thought (CoT) tokens, our method significantly improves performance in arithmetic reasoning problems. In the challenging $5 \times 5$ integer multiplication task, our approach achieves $99.5\%$ exact match accuracy, outperforming models of the same size (which yield $0\%$ accuracy) and GPT-4 with five-shot CoT prompting ($44\%$). We also demonstrate superior results on arithmetic expression and longest increasing subsequence (LIS) datasets. Our findings highlight the importance of preventing intermediate layer representation collapse to enhance the reasoning capabilities of Transformers and show that Seq-VCR offers an effective solution without requiring explicit CoT supervision.
- Abstract(参考訳): デコーダのみのトランスフォーマーは複雑な推論タスク、特に複数のシーケンシャルな操作を必要とする算術的推論に苦労することが多い。
本研究では,モデル中間層における表現崩壊を,その推論能力を制限する重要な要因として認識する。
これを解決するために、中間表現のエントロピーを高め、崩壊を防ぐシークエンシャル変数共分散正規化(Seq-VCR)を提案する。
チェーン・オブ・シント(CoT)トークンの代用としてダミー停止トークンと組み合わせることで,算術的推論問題における性能を著しく向上させる。
挑戦的な$5 \times 5$の整数乗算タスクにおいて、我々の手法は99.5\%の正確なマッチング精度、同じ大きさのモデル(0\%の精度)と5ショットのCoTによるGPT-4より優れている(44\%のコスト)。
また、算術式とLISデータセットの長大化について、優れた結果を示す。
本研究は,トランスフォーマーの推論能力を高めるために中間層表現の崩壊を防止することの重要性を強調し,Seq-VCRがCoTの明示的な監督を必要とせずに効果的なソリューションを提供することを示す。
関連論文リスト
- MrT5: Dynamic Token Merging for Efficient Byte-level Language Models [50.46453950887946]
この作業はより効率的なBYT5の派生であるMergeT5(MergeT5)を導入している。
MrT5はトークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。
英語のテキストでトレーニングすると、MrT5はその削除機能を複数の言語でゼロショットで転送する機能を示している。
論文 参考訳(メタデータ) (2024-10-28T06:14:12Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - SupCL-Seq: Supervised Contrastive Learning for Downstream Optimized
Sequence Representations [4.392337343771302]
本稿では,コンピュータビジョンからNLPにおけるシーケンス表現の最適化まで,教師付きコントラスト学習を拡張したSupCL-Seqを提案する。
我々は,SupCL-Seqが標準BERTbaseと比較して,GLUEベンチマーク上の多くのシーケンス分類タスクにおいて大きな向上をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-15T16:51:18Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。