論文の概要: TELL-TALE: Task Efficient LLMs with Task Aware Layer Elimination
- arxiv url: http://arxiv.org/abs/2510.22767v1
- Date: Sun, 26 Oct 2025 17:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.557847
- Title: TELL-TALE: Task Efficient LLMs with Task Aware Layer Elimination
- Title(参考訳): TELL-TALE:タスク認識層除去によるタスク効率の良いLLM
- Authors: Omar Naim, Krish Sharma, Nicholas Asher,
- Abstract要約: 本研究では,タスク固有の検証性能を直接最適化することにより,LLM内のトランスフォーマー層全体をエミュレートする推論時アルゴリズムであるTony, Task-Aware Layer Eliminationを紹介する。
LLaMA 3.1 8B, Qwen 2.5 7B, Qwen 2.5 0.5B, Mistral 7B, Lucie 7Bを含む9つのタスクと5つのモデルでTALEを評価する。
- 参考スコア(独自算出の注目度): 4.219538496662492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we introduce Tale, Task-Aware Layer Elimination, an inference-time algorithm that prunes entire transformer layers in an LLM by directly optimizing task-specific validation performance. We evaluate TALE on 9 tasks and 5 models, including LLaMA 3.1 8B, Qwen 2.5 7B, Qwen 2.5 0.5B, Mistral 7B, and Lucie 7B, under both zero-shot and few-shot settings. Unlike prior approaches, TALE requires no retraining and consistently improves accuracy while reducing computational cost across all benchmarks. Furthermore, applying TALE during finetuning leads to additional performance gains. Finally, TALE provides flexible user control over trade-offs between accuracy and efficiency. Mutual information analysis shows that certain layers act as bottlenecks, degrading task-relevant representations. Tale's selective layer removal remedies this problem, producing smaller, faster, and more accurate models that are also faster to fine-tune while offering new insights into transformer interpretability.
- Abstract(参考訳): 本稿では,タスク固有の検証性能を直接最適化することにより,LLM内のトランスフォーマー層全体をエミュレートする推論時間アルゴリズムであるTony, Task-Aware Layer Eliminationを紹介する。
LLaMA 3.1 8B, Qwen 2.5 7B, Qwen 2.5 0.5B, Mistral 7B, Lucie 7Bを含む9つのタスクと5つのモデルでTALEを評価する。
従来のアプローチとは異なり、TALEは再トレーニングを必要とせず、全てのベンチマークで計算コストを削減しながら、常に精度を向上する。
さらに、微調整中にTALEを適用すると、さらなる性能向上につながる。
最後に、TALEは精度と効率のトレードオフを柔軟に制御する。
相互情報分析は、特定のレイヤがボトルネックとして機能し、タスク関連表現を劣化させることを示している。
Taleの選択的層除去はこの問題を修正し、より小さく、より速く、より正確で、微調整が早くなり、トランスフォーマーの解釈可能性に対する新たな洞察を提供する。
関連論文リスト
- Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。
ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T17:51:26Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。
5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。
5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文 参考訳(メタデータ) (2024-06-10T02:47:55Z) - Characterizing the Accuracy -- Efficiency Trade-off of Low-rank Decomposition in Language Models [1.401463252785724]
低ランクの分解は、大規模にリアルタイムサービスを必要とするLLMベースのアプリケーションにとって有望な方向である。
低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す。
以上の結果から,最小精度で9%のモデルサイズ削減を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-10T17:40:02Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。