Fugu-MT 論文翻訳(概要): Prompt-based Depth Pruning of Large Language Models

論文の概要: Prompt-based Depth Pruning of Large Language Models

arxiv url: http://arxiv.org/abs/2502.04348v1
Date: Tue, 04 Feb 2025 15:16:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 18:29:32.812026
Title: Prompt-based Depth Pruning of Large Language Models
Title（参考訳）: プロンプトに基づく大規模言語モデルの深さプルーニング
Authors: Juyun Wee, Minjae Park, Jaeho Lee,
Abstract要約: 我々はPuDDing(Prompt-routed Dynamic Depth Pruning)と呼ばれる動的深度解析アルゴリズムを開発し、入力プロンプトに基づいてモデルからどのブロックを省略するかを決定する。コモンセンス推論ベンチマークの実証的な結果から、PuDDingは推論言語モデルを効果的に加速し、静的深さプルーニングベースラインよりもタスク上での性能が向上することが示された。
参考スコア（独自算出の注目度）: 11.545757790169409
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Depth pruning aims to reduce the inference cost of a large language model without any hardware-specific complications, by simply removing several less important transformer blocks. However, our empirical findings suggest that the importance of a transformer block may be highly task-dependent -- a block that is crucial for a task can be removed without degrading the accuracy on another task. Based on this observation, we develop a dynamic depth pruning algorithm, coined PuDDing (Prompt-routed Dynamic Depth Pruning), which determines which blocks to omit from the model based on the input prompt. PuDDing operates by training a lightweight router to predict the best omission set among a set of options, where this option set has also been constructed in a data-driven manner. Empirical results on commonsense reasoning benchmarks demonstrate that PuDDing effectively accelerates the inference language models, and achieves better on-task performance than static depth pruning baselines.
Abstract（参考訳）: Depth pruningは、ハードウェア固有の複雑さを伴わない大規模言語モデルの推論コストを削減することを目的としている。しかし,我々の経験から,トランスフォーマーブロックの重要性はタスク依存に大きく依存している可能性が示唆されている。そこで我々は,PuDDing(Prompt-routed Dynamic Depth Pruning)と呼ばれる動的深度解析アルゴリズムを開発し,入力プロンプトに基づいてモデルからどのブロックを省略するかを決定する。 PuDDingは軽量ルータをトレーニングして、オプションセットの中で最高の省略セットを予測し、このオプションセットもデータ駆動で構築されている。コモンセンス推論ベンチマークの実証的な結果から、PuDDingは推論言語モデルを効果的に加速し、静的深さプルーニングベースラインよりもタスク上での性能が向上することが示された。

関連論文リスト

Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。 GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文参考訳（メタデータ） (2025-06-18T21:15:59Z)
Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.470695895695044]
Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。トークン消費量を30～55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文参考訳（メタデータ） (2025-05-27T03:18:31Z)
Towards bandit-based prompt-tuning for in-the-wild foundation agents [2.6731152954002924]
本稿では,タスク性能を向上させるための推論時間帯域幅に基づくプロンプトチューニングフレームワークを提案する。実験の結果,バンディットに基づくプロンプトチューニングによる性能向上だけでなく,サンプルの複雑さ,拡張性,空間探索の迅速化などが示唆された。
論文参考訳（メタデータ） (2025-02-10T11:20:10Z)
FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。重要でないトークンを適応的に識別する学習可能なルータを提案する。提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文参考訳（メタデータ） (2024-12-16T07:09:46Z)
Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文参考訳（メタデータ） (2024-03-01T09:01:53Z)
ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文参考訳（メタデータ） (2022-12-12T13:10:19Z)
DWRSeg: Rethinking Efficient Acquisition of Multi-scale Contextual Information for Real-time Semantic Segmentation [10.379708894083217]
本研究では,元の単一ステップ法を2段階に分割し,高効率なマルチスケール特徴抽出手法を提案する。 NVIDIA GeForce GTX 1080 TiカードのCityscapesテストセットの72.7%のmIoUを319.5 FPSで達成し、69.5 FPSと0.8% mIoUの最新の手法を超える。
論文参考訳（メタデータ） (2022-12-02T13:55:41Z)
Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文参考訳（メタデータ） (2022-07-22T17:52:30Z)
Local Competition and Stochasticity for Adversarial Robustness in Deep Learning [8.023314613846418]
本研究は, 深層学習における対角的堅牢性に対処し, 深層ネットワークと局部的勝者のアクティベーションを考慮した。このタイプのネットワークユニットは、各モデル層からスパース表現を生じさせ、ユニットは1つのユニットだけがゼロでない出力を生成するブロックに編成される。
論文参考訳（メタデータ） (2021-01-04T17:40:52Z)
Monocular 3D Object Detection with Sequential Feature Association and Depth Hint Augmentation [12.55603878441083]
FADNetは、モノクル3Dオブジェクト検出の課題に対処するために提示される。専用のディープヒントモジュールは、ディープヒントと呼ばれる行ワイズ機能を生成するように設計されている。この研究の貢献は、KITTIベンチマークの実験およびアブレーション研究によって検証される。
論文参考訳（メタデータ） (2020-11-30T07:19:14Z)
Faster Depth-Adaptive Transformers [71.20237659479703]
深さ適応型ニューラルネットワークは入力単語の硬さに応じて動的に深さを調整することができる。従来の作業は一般的に、計算が各レイヤで続行するか停止するかを決定するために停止ユニットを構築する。本稿では,停止ユニットを除去し,必要な深さを事前に推定し,より高速な深度適応モデルを生成する。
論文参考訳（メタデータ） (2020-04-27T15:08:10Z)
Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文参考訳（メタデータ） (2020-03-31T22:38:09Z)
Depthwise Non-local Module for Fast Salient Object Detection Using a Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文参考訳（メタデータ） (2020-01-22T15:23:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。