Fugu-MT 論文翻訳(概要): ALPS: Attention Localization and Pruning Strategy for Efficient Alignment of Large Language Models

論文の概要: ALPS: Attention Localization and Pruning Strategy for Efficient Alignment of Large Language Models

arxiv url: http://arxiv.org/abs/2505.18799v1
Date: Sat, 24 May 2025 17:19:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.667239
Title: ALPS: Attention Localization and Pruning Strategy for Efficient Alignment of Large Language Models
Title（参考訳）: ALPS:大規模言語モデルの効率的なアライメントのためのアテンションローカライズとプルーニング戦略
Authors: Hao Chen, Haoze Li, Zhiqing Xiao, Lirong Gao, Qi Zhang, Xiaomeng Hu, Ningtao Wang, Xing Fu, Junbo Zhao,
Abstract要約: 本稿では,最もタスクに敏感なアテンションヘッドをローカライズし,これらのヘッドに対するアテンショントレーニングの更新を制限したアルゴリズムを提案する。実験結果から,本手法は3つのタスクのベースライン上でのテキストbf2%の性能向上を実現しつつ,微調整中の注目パラメータの10パーセントのみを有効化できることがわかった。
参考スコア（独自算出の注目度）: 14.657194214702473
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Aligning general-purpose large language models (LLMs) to downstream tasks often incurs significant costs, including constructing task-specific instruction pairs and extensive training adjustments. Prior research has explored various avenues to enhance alignment efficiency, primarily through minimal-data training or data-driven activations to identify key attention heads. However, these approaches inherently introduce data dependency, which hinders generalization and reusability. To address this issue and enhance model alignment efficiency, we propose the \textit{\textbf{A}ttention \textbf{L}ocalization and \textbf{P}runing \textbf{S}trategy (\textbf{ALPS})}, an efficient algorithm that localizes the most task-sensitive attention heads and prunes by restricting attention training updates to these heads, thereby reducing alignment costs. Experimental results demonstrate that our method activates only \textbf{10\%} of attention parameters during fine-tuning while achieving a \textbf{2\%} performance improvement over baselines on three tasks. Moreover, the identified task-specific heads are transferable across datasets and mitigate knowledge forgetting. Our work and findings provide a novel perspective on efficient LLM alignment.
Abstract（参考訳）: ダウンストリームタスクに対する汎用大規模言語モデル(LLM)の調整は、タスク固有の命令ペアの構築や広範囲なトレーニング調整など、大きなコストを発生させることが多い。これまでの研究では、アライメント効率を高めるために、主にデータトレーニングやデータ駆動によるアクティベーションを通じて、重要なアライメントヘッドを特定する様々な方法を模索してきた。しかし、これらのアプローチは本質的にデータ依存を導入し、一般化と再利用を妨げている。この問題に対処し、モデルアライメント効率を向上させるために、最もタスクに敏感なアテンションヘッドとプーンをローカライズするアルゴリズムである \textit{\textbf{A}ttention \textbf{L}ocalization と \textbf{P}runing \textbf{S}trategy (\textbf{ALPS})} を提案する。実験結果から,本手法は3つのタスクのベースラインに対する性能改善を達成しつつ,微調整中にのみ注目パラメータのtextbf{10\%}を活性化することがわかった。さらに、特定されたタスク固有のヘッドはデータセット間で転送可能であり、知識の忘れを軽減します。我々の研究と成果は、効率的なLCMアライメントの新たな視点を提供する。

関連論文リスト

Optimising Language Models for Downstream Tasks: A Post-Training Perspective [0.0]
言語モデル(LM)は、NLPにおいて顕著な能力を示している。しかし、それらを効率的かつ堅牢に特定のタスクに適用することは、依然として困難である。この論文は、下流アプリケーションにLMを適応させる一連の方法を提案する。
論文参考訳（メタデータ） (2025-06-26T00:49:35Z)
Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay [61.823835392216544]
強化学習(RL)は、大規模言語モデル(LLM)の微調整に有効なアプローチとなっている。 LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。本手法は,RLの微調整時間を25%から65%削減し,GRPOアルゴリズムと同等の性能を実現する。
論文参考訳（メタデータ） (2025-06-05T17:55:43Z)
KARE-RAG: Knowledge-Aware Refinement and Enhancement for RAG [63.82127103851471]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルがより広範な知識ソースにアクセスすることを可能にする。ノイズの多いコンテンツを処理するために生成モデルの能力を向上させることは、ロバストなパフォーマンスに等しく重要であることを実証する。本稿では,3つの重要なイノベーションを通じて知識利用を改善するKARE-RAGを提案する。
論文参考訳（メタデータ） (2025-06-03T06:31:17Z)
Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。 10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-04-28T03:30:32Z)
Question Tokens Deserve More Attention: Enhancing Large Language Models without Training through Step-by-Step Reading and Question Attention Recalibration [0.36561146074362716]
大規模言語モデル(LLM)は、複雑な問題に対する深い理解を必要とするタスクに悩まされることが多い。本研究では,現在のLLMの限界について考察する。質問トークンを漸進的に処理し,それらの推論を入力構造と整合させるようにLCMを誘導するプロンプトベースの戦略のファミリーを提案する。
論文参考訳（メタデータ） (2025-04-13T02:10:18Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。 8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2025-01-16T08:27:40Z)
Beyond Task Vectors: Selective Task Arithmetic Based on Importance Metrics [0.0]
本稿では,タスク固有パラメータ融合によるマルチタスク性能向上を目的としたトレーニングフリーフレームワークであるtextbfunderlineSelective textbfunderlineTask textbfunderlineArithmetic underlinetextbf(STA)を紹介する。実験により,STAはベンチマーク間で優れたマルチタスク性能を実現し,タスクを忘れる際の優れた性能を示した。
論文参考訳（メタデータ） (2024-11-25T06:59:16Z)
SEEKR: Selective Attention-Guided Knowledge Retention for Continual Learning of Large Language Models [27.522743690956315]
本研究では,大規模言語モデル (LLM) のデータ効率性に基づく連続学習のためのSelective attEntion-guided Knowledge Retention法(SEEKR)を提案する。 SEEKRは、よりきめ細かい知識保持のために選択された注目ヘッドに注意蒸留を行う。 LLMのための2つの連続学習ベンチマークの実験結果は、SEEKRが既存の手法よりも性能と効率の両面で優れていることを示す。
論文参考訳（メタデータ） (2024-11-09T13:02:36Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-04T15:22:54Z)
Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration [15.36841874118801]
我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。 ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
論文参考訳（メタデータ） (2024-06-22T07:00:43Z)
HiFi: High-Information Attention Heads Hold for Parameter-Efficient Model Adaptation [0.8409934249521909]
パラメータ効率の高い微調整手法であるHiFiを提案する。まず,2つの情報豊かさと相関性の観点から,頭部間の関係をグラフにモデル化し,各頭部の相対的重要性を決定するためにPageRankアルゴリズムを適用した。 GLUEベンチマークを用いた実験により,提案手法の有効性を実証し,HiFiが先行ベースライン上での最先端性能が得られることを示す。
論文参考訳（メタデータ） (2023-05-08T09:31:13Z)
Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文参考訳（メタデータ） (2020-05-02T09:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。