論文の概要: Do Transformers Use their Depth Adaptively? Evidence from a Relational Reasoning Task
- arxiv url: http://arxiv.org/abs/2604.12426v1
- Date: Tue, 14 Apr 2026 08:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.332046
- Title: Do Transformers Use their Depth Adaptively? Evidence from a Relational Reasoning Task
- Title(参考訳): 変圧器は深さを適応的に利用するか?関係推論課題からの証拠
- Authors: Alicia Curth, Rachel Lawrence, Sushrut Karmalkar, Niranjani Prasad,
- Abstract要約: 本研究では,変圧器が困難を増すタスクに対して適応的に深度を利用するかどうかを検討する。
事前訓練されたモデルでは、適応的な深度利用の限られた証拠が見つかる。
タスクを微調整したモデルでは、適応的な深度使用のより明確で一貫性のある証拠が見つかる。
- 参考スコア(独自算出の注目度): 16.008543538196268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate whether transformers use their depth adaptively across tasks of increasing difficulty. Using a controlled multi-hop relational reasoning task based on family stories, where difficulty is determined by the number of relationship hops that must be composed, we monitor (i) how predictions evolve across layers via early readouts (the logit lens) and (ii) how task-relevant information is integrated across tokens via causal patching. For pretrained models, we find some limited evidence for adaptive depth use: some larger models need fewer layers to arrive at plausible answers for easier tasks, and models generally use more layers to integrate information across tokens as chain length increases. For models finetuned on the task, we find clearer and more consistent evidence of adaptive depth use, with the effect being stronger for less constrained finetuning regimes that do not preserve general language modeling abilities.
- Abstract(参考訳): 本研究では,変圧器が困難を増すタスクに対して適応的に深度を利用するかどうかを検討する。
ファミリーストーリーに基づくマルチホップ関係推論タスクを用いて、構成すべき関係ホップの数によって難易度が決定される場合、監視を行う。
(i)初期読み出し(ロジットレンズ)と層間における予測の展開
(II)因果パッチによるトークン間でタスク関連情報がどのように統合されるか。
事前訓練されたモデルでは、適応的な深度の使用の証拠が限られている: いくつかの大きなモデルでは、より簡単なタスクのために妥当な回答に到達するのに、より少ないレイヤを必要とし、モデルは通常、チェーン長が増加するにつれてトークン間の情報を統合するためにより多くのレイヤを使用する。
タスク上で微調整されたモデルでは、適応的な深度使用のより明確で一貫性のある証拠が得られ、その効果は、一般的な言語モデリング能力を保持しない制約の少ない微調整レギュレーションに対して強くなる。
関連論文リスト
- What Affects the Effective Depth of Large Language Models? [44.85395501835759]
モデルスケール,トレーニングタイプ,タスクの難易度によって,効果的な深さがどう変化するかを検討する。
有効層数はモデルサイズとともに増加するが, 有効深さ比は安定である。
以上の結果から,現在のLLMでは,スケール,トレーニングパラダイム,難易度が異なるタスクにおいて,利用可能な深度を過小評価していることが示唆された。
論文 参考訳(メタデータ) (2025-12-16T04:07:17Z) - Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms [81.90219895125178]
Webベースの「ディープリサーチ」エージェントは、オンラインツールとの長時間のインタラクションを通じてタスクに答える、複雑な問題の解決を目指している。
基礎となる言語モデルは、長い水平推論に最適化されないことが多いため、これらのタスクは依然として困難なままである。
複雑化を徐々に進めることで、疑問-答えのペアを生成する2段階のデータ合成パイプラインを導入する。
論文 参考訳(メタデータ) (2025-10-15T06:34:46Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文 参考訳(メタデータ) (2023-06-21T20:47:23Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - APAM: Adaptive Pre-training and Adaptive Meta Learning in Language Model
for Noisy Labels and Long-tailed Learning [9.433150673299163]
実用的な自然言語処理(NLP)タスクは、一般的にノイズの多いラベルで長い尾を持つ。
オーバーサンプリングやアンダーサンプリングなどの一般的な再サンプリング技術は、容易にオーバーフィッティングに繋がる可能性がある。
本稿では,ロングテールラベルとノイズラベルの両方の問題に対処する一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-06T18:40:04Z) - Entropy optimized semi-supervised decomposed vector-quantized
variational autoencoder model based on transfer learning for multiclass text
classification and generation [3.9318191265352196]
多クラステキスト分類とテキスト生成のための半教師付き離散潜在変数モデルを提案する。
提案モデルは,量子化変圧器モデルの学習に伝達学習の概念を用いる。
実験結果から,提案モデルが最先端モデルを大幅に上回ったことが示唆された。
論文 参考訳(メタデータ) (2021-11-10T07:07:54Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - A Practical Survey on Faster and Lighter Transformers [0.9176056742068811]
Transformerは、入力シーケンスの任意の2つの位置を関連付けることのできるアテンションメカニズムのみに基づくモデルである。
多数のシーケンスモデリングタスクにまたがって最先端のタスクを改善した。
しかし、その有効性は、シーケンス長に関して2次計算とメモリの複雑さを犠牲にしている。
論文 参考訳(メタデータ) (2021-03-26T17:54:47Z) - Faster Depth-Adaptive Transformers [71.20237659479703]
深さ適応型ニューラルネットワークは入力単語の硬さに応じて動的に深さを調整することができる。
従来の作業は一般的に、計算が各レイヤで続行するか停止するかを決定するために停止ユニットを構築する。
本稿では,停止ユニットを除去し,必要な深さを事前に推定し,より高速な深度適応モデルを生成する。
論文 参考訳(メタデータ) (2020-04-27T15:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。