Fugu-MT 論文翻訳(概要): Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs

論文の概要: Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs

arxiv url: http://arxiv.org/abs/2507.07996v1
Date: Thu, 10 Jul 2025 17:59:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-11 16:40:15.542253
Title: Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs
Title（参考訳）: 層をスキップするか, ループするか? プレトレーニングLDMのテスト時間深さ適応
Authors: Ziyue Li, Yang Li, Tianyi Zhou,
Abstract要約: 事前訓練された大規模言語モデル(LLM)のレイヤを独立したモジュールとして操作することで、テストサンプル毎にカスタマイズされたより良く、より浅いモデルを構築することができる。特に、事前訓練されたモデルからの各レイヤは、繰り返しニューラルネットワーク(RNN)としてスキップ/プルーニングまたは繰り返し、任意の順序で他のレイヤと積み重ねられ、サンプル毎にチェーン・オブ・レイヤ(CoLa)が生成される。
参考スコア（独自算出の注目度）: 21.541258368039955
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Can a pretrained neural network adapt its architecture to different inputs without any finetuning? Do we need all layers for simple tasks, and are they adequate for challenging tasks? We found that the layers of a pretrained large language model (LLM) can be manipulated as separate modules to build a better and even shallower model customized for each test sample. In particular, each layer from the pretrained model can be skipped/pruned or repeated multiple times as recurrent neural networks (RNN), and stacked with others in arbitrary orders, yielding a chain-of-layers (CoLa) per sample. This compositional space greatly expands the scope of existing works on looped/recurrent pretrained modules, layer pruning, or early-exit networks. We develop a Monte Carlo Tree Search (MCTS) protocol to explore and identify the optimal CoLa for each sample from math and commonsense reasoning benchmarks. Compared to a static model of a fixed depth, CoLa allows shortcut paths (fast thinking), recurrence of the same layer(s) (slow thinking), and combining both, offering more flexible, dynamic architectures for different inputs. We conduct an extensive analysis of the MCTS-optimized CoLa, which leads to two key findings: (1) For >75% of samples with correct predictions by the original LLM, we can find shorter CoLa, suggesting a large space for improving inference efficiency; (2) For >60% of samples with originally incorrect predictions, we can identify CoLa achieving correct predictions, suggesting a large space of performance enhancement. Our results highlight the shortcomings of using a fixed architecture of pre-trained LLMs for inference on different samples and pave the way to unlock the generalization power of test-time depth adaptation.
Abstract（参考訳）: 事前訓練されたニューラルネットワークは、アーキテクチャを微調整なしで異なる入力に適応できるだろうか? 単純なタスクにはすべてのレイヤが必要ですか? 事前訓練済みの大規模言語モデル(LLM)のレイヤは別個のモジュールとして操作でき、各テストサンプル用にカスタマイズされたより良く、より浅いモデルを構築することができることがわかった。特に、事前訓練されたモデルからの各レイヤは、繰り返しニューラルネットワーク(RNN)としてスキップ/プルーニングまたは繰り返し、任意の順序で他のレイヤと積み重ねられ、サンプル毎にチェーン・オブ・レイヤ(CoLa)が生成される。この構成空間は、ループ/リカレント事前訓練されたモジュール、レイヤプルーニング、またはアーリーエグジットネットワークにおける既存の作業の範囲を大きく広げる。我々はモンテカルロ木探索 (MCTS) プロトコルを開発し、数学および常識推論ベンチマークから各サンプルに対して最適なCoLaを探索し同定する。固定深さの静的モデルと比較すると、CoLaはショートカットパス(高速な思考)、同じレイヤの繰り返し(スローな思考)、両方の組み合わせを可能にし、異なる入力に対してより柔軟で動的なアーキテクチャを提供する。 MCTSを最適化したCoLaを広範囲に分析した結果,(1)元のLCMによる正しい予測を行うサンプルの75%以上では,より短いCoLaが検出され,推論効率を向上させるための大きなスペースが示唆された。本研究は, 実験時間深度適応の一般化力を解き放つ方法として, 事前学習型LLMの固定アーキテクチャを用いて, 異なるサンプルに対する推論を行う際の欠点を明らかにするものである。

関連論文リスト

Learning to Reason Across Parallel Samples for LLM Reasoning [45.60752271688715]
テスト時間計算のスケールアップは、大規模な言語モデルに大幅なパフォーマンス向上をもたらす。このような複数のサンプルセットを活用する新しい方法を提案する。我々は、複数のサンプルのシーケンスを取り、最終的な答えを出力するコンパクトなLLMを訓練する。
論文参考訳（メタデータ） (2025-06-10T17:42:35Z)
C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing [21.119495676190127]
Mixture-of-Experts (MoE) Large Language Models (LLMs) は、高度に最適化されたエキスパートパスに苦しむ。プレトレーニングから学んだナイーブな専門家選択は、改善のための驚くべき10～20%の精度ギャップを残します。テストサンプル毎に異なるレイヤのエキスパートを共同で再重み付けあるいは「再混合」するための新しいテスト時間最適化手法を開発する。
論文参考訳（メタデータ） (2025-04-10T17:59:56Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Scaling LLM Inference with Optimized Sample Compute Allocation [56.524278187351925]
我々は、異なる推論構成の最適な混合を見つけるアルゴリズムであるOSCAを提案する。実験の結果,学習した混合アロケーションでは,最高の単一構成よりも精度がよいことがわかった。 OSCAはシングルターンタスク以外のエージェント処理にも有効であることが示されており、デフォルト設定よりも3倍少ない計算でSWE-Benchの精度が向上している。
論文参考訳（メタデータ） (2024-10-29T19:17:55Z)
Initialization Matters: On the Benign Overfitting of Two-Layer ReLU CNN with Fully Trainable Layers [20.25049261035324]
解析は、完全にトレーニング可能な層を持つ2層ReLU畳み込みニューラルネットワーク(CNN)に拡張する。以上の結果から,出力層のスケーリングがトレーニングのダイナミックスに不可欠であることが示唆された。どちらの設定でも、テストエラーの上限と下限にほぼ一致するものを提供します。
論文参考訳（メタデータ） (2024-10-24T20:15:45Z)
Large Language Models aren't all that you need [0.0]
本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。 a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
論文参考訳（メタデータ） (2024-01-01T08:32:50Z)
RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文参考訳（メタデータ） (2023-10-18T07:30:08Z)
Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。 CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文参考訳（メタデータ） (2023-05-29T11:03:59Z)
OFA$^2$: A Multi-Objective Perspective for the Once-for-All Neural Architecture Search [79.36688444492405]
once-for-All(OFA)は、異なるリソース制約を持つデバイスのための効率的なアーキテクチャを探索する問題に対処するために設計された、ニューラルネットワーク検索(NAS)フレームワークである。我々は,探索段階を多目的最適化問題として明示的に考えることにより,効率の追求を一歩進めることを目指している。
論文参考訳（メタデータ） (2023-03-23T21:30:29Z)
LV-BERT: Exploiting Layer Variety for BERT [85.27287501885807]
我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
論文参考訳（メタデータ） (2021-06-22T13:20:14Z)
MTL-NAS: Task-Agnostic Neural Architecture Search towards General-Purpose Multi-Task Learning [71.90902837008278]
汎用マルチタスク学習(GP-MTL)にニューラルアーキテクチャサーチ(NAS)を導入することを提案する。異なるタスクの組み合わせに対応するため、GP-MTLネットワークを単一タスクのバックボーンに分割する。また,探索されたアーキテクチャ間の性能ギャップを埋める単一ショット勾配に基づく探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-03-31T09:49:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。