Fugu-MT 論文翻訳(概要): HEAT: Head-level Parameter Efficient Adaptation of Vision Transformers with Taylor-expansion Importance Scores

論文の概要: HEAT: Head-level Parameter Efficient Adaptation of Vision Transformers with Taylor-expansion Importance Scores

arxiv url: http://arxiv.org/abs/2404.08894v1
Date: Sat, 13 Apr 2024 04:01:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 18:13:13.341998
Title: HEAT: Head-level Parameter Efficient Adaptation of Vision Transformers with Taylor-expansion Importance Scores
Title（参考訳）: HEAT:Taylor-Expansion比重スコアを用いた視覚変換器の頭部パラメータ適応
Authors: Yibo Zhong, Yao Zhou,
Abstract要約: Taylor-Expansion importance score (HEAT) を用いた効率的な適応 Taylor-Expansion importance score (HEAT)による熱適応 Taylor-Expansion importance score (HEAT)による熱適応
参考スコア（独自算出の注目度）: 6.068296063531189
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prior computer vision research extensively explores adapting pre-trained vision transformers (ViT) to downstream tasks. However, the substantial number of parameters requiring adaptation has led to a focus on Parameter Efficient Transfer Learning (PETL) as an approach to efficiently adapt large pre-trained models by training only a subset of parameters, achieving both parameter and storage efficiency. Although the significantly reduced parameters have shown promising performance under transfer learning scenarios, the structural redundancy inherent in the model still leaves room for improvement, which warrants further investigation. In this paper, we propose Head-level Efficient Adaptation with Taylor-expansion importance score (HEAT): a simple method that efficiently fine-tuning ViTs at head levels. In particular, the first-order Taylor expansion is employed to calculate each head's importance score, termed Taylor-expansion Importance Score (TIS), indicating its contribution to specific tasks. Additionally, three strategies for calculating TIS have been employed to maximize the effectiveness of TIS. These strategies calculate TIS from different perspectives, reflecting varying contributions of parameters. Besides ViT, HEAT has also been applied to hierarchical transformers such as Swin Transformer, demonstrating its versatility across different transformer architectures. Through extensive experiments, HEAT has demonstrated superior performance over state-of-the-art PETL methods on the VTAB-1K benchmark.
Abstract（参考訳）: コンピュータビジョン以前の研究は、トレーニング済みの視覚変換器(ViT)を下流のタスクに適応させることを幅広く検討していた。しかし、パラメータのサブセットのみをトレーニングし、パラメータと記憶効率を両立させることにより、大規模な事前学習モデルを効率的に適応するためのアプローチとして、PETL(Specer Efficient Transfer Learning)に焦点が当てられている。大幅に削減されたパラメータは、転送学習シナリオ下での有望な性能を示しているが、モデルに固有の構造的冗長性は改善の余地を残しており、さらなる調査が保証されている。本稿では,頭部レベルのVTを効率よく微調整する簡易な手法として,Taylor-Expansion importance score (HEAT) を用いた頭部効率適応法を提案する。特に、Torylor拡張は、Torylor-expansion Importance Score (TIS)と呼ばれる各ヘッドの重要度を計算するために使用され、特定のタスクへの寄与を示す。さらに、TISの有効性を最大化するために、TISを計算するための3つの戦略が採用されている。これらの戦略は、パラメータの様々な貢献を反映して、異なる視点からTISを計算する。 ViT以外にも、HEATはSwin Transformerのような階層的なトランスフォーマーにも適用されており、異なるトランスフォーマーアーキテクチャ間の汎用性を実証している。大規模な実験を通じて、HEATはVTAB-1Kベンチマークで最先端のPETL法よりも優れた性能を示した。

関連論文リスト

HRSeg: High-Resolution Visual Perception and Enhancement for Reasoning Segmentation [74.1872891313184]
HRSegは高精細な知覚を持つ効率的なモデルである。高分解能知覚(HRP)と高分解能増強(HRE)の2つの重要な革新を特徴としている。
論文参考訳（メタデータ） (2025-07-17T08:09:31Z)
SAS: Simulated Attention Score [75.1409882298863]
我々は,多数の注目ヘッドと1頭あたりの隠れ特徴次元をシミュレートしながら,コンパクトなモデルサイズを維持するSAS(Simulated Attention Score)を導入する。各種データセットとタスクに関する総合的な実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-07-10T12:16:16Z)
ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。 12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文参考訳（メタデータ） (2025-06-02T04:23:21Z)
GMAR: Gradient-Driven Multi-Head Attention Rollout for Vision Transformer Interpretability [0.20482269513546453]
Vision Transformer (ViT) はコンピュータビジョンに大きく進歩し、様々なタスクで最先端のパフォーマンスを達成するために自己認識機構を利用している。 ViTの複雑なマルチヘッドアテンション機構は、基礎となる予測プロセスが不透明であるため、解釈可能性に重大な課題をもたらす。グラディエント駆動型マルチヘッド・アテンション・ロールアウト (GMAR) を導入し, グラディエントベーススコアを用いて各アテンションヘッドの重要性を定量化する手法を提案する。
論文参考訳（メタデータ） (2025-04-28T01:58:39Z)
Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。 VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。 Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文参考訳（メタデータ） (2024-11-19T11:03:09Z)
Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning [65.31677646659895]
本稿では,タスク固有の方向性 (TSD) の概念に着目し,大規模モデルを事前学習状態からPEFTにおけるタスク固有の拡張へ移行させる。本稿では,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした新しいアプローチであるLoRA-Dashを紹介する。
論文参考訳（メタデータ） (2024-09-02T08:10:51Z)
LoFiT: Localized Fine-tuning on LLM Representations [60.99814930367597]
LoFiT(Localized Fine-Tuning on LLM Representations)というフレームワークを導入する。 LoFiTは、特定のタスクを学習する上で最も重要なアテンションヘッドのサブセットを特定し、それからオフセットベクトルをトレーニングして、選択したヘッドでモデルの隠れ表現に追加する。真理性や推論タスクにおいて,LoFiTの介入ベクトルは推論時間干渉などの表現介入手法のベクトルよりもLLM適応に有効であることがわかった。
論文参考訳（メタデータ） (2024-06-03T17:45:41Z)
Dynamic Embeddings with Task-Oriented prompting [0.8287206589886881]
DETOTの構造は詳細であり、タスク固有の適応、継続的なフィードバックループ、過度な適合を防ぐメカニズムを強調している。経験的評価は既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-17T23:18:15Z)
PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。 8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文参考訳（メタデータ） (2024-01-20T20:25:17Z)
PPEA-Depth: Progressive Parameter-Efficient Adaptation for Self-Supervised Monocular Depth Estimation [24.68378829544394]
本稿では,自己教師付き深度推定のための事前学習画像モデルを転送するプログレッシブ適応手法であるPPEA-Depthを提案する。トレーニングは2つのシーケンシャルステージで構成されている: データセット上でトレーニングされた初期フェーズは、主に静的シーンで構成され、より複雑なデータセットへの拡張によって後継される。実験によると、PPEA-DepthはKITTI、CityScapes、DDADデータセット上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-12-20T14:45:57Z)
Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。 PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文参考訳（メタデータ） (2023-10-09T04:16:35Z)
HiFi: High-Information Attention Heads Hold for Parameter-Efficient Model Adaptation [0.8409934249521909]
パラメータ効率の高い微調整手法であるHiFiを提案する。まず,2つの情報豊かさと相関性の観点から,頭部間の関係をグラフにモデル化し,各頭部の相対的重要性を決定するためにPageRankアルゴリズムを適用した。 GLUEベンチマークを用いた実験により,提案手法の有効性を実証し,HiFiが先行ベースライン上での最先端性能が得られることを示す。
論文参考訳（メタデータ） (2023-05-08T09:31:13Z)
Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文参考訳（メタデータ） (2023-03-23T05:17:05Z)
Generalization in Visual Reinforcement Learning with the Reward Sequence Distribution [98.67737684075587]
部分的に観察されたマルコフ決定過程(POMDP)の一般化は視覚強化学習(VRL)の成功に不可欠である開始観測に基づく報酬系列分布と事前定義された後続行動系列(RSD-OA)を提案する。実験により, RSD-OAに基づく表現学習手法は, 目に見えない環境における一般化性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2023-02-19T15:47:24Z)
Learning Task-relevant Representations for Generalization via Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2022-05-20T14:52:03Z)
Generalizing Interactive Backpropagating Refinement for Dense Prediction [0.0]
本稿では,G-BRSレイヤの集合を導入し,グローバル・ローカライズド・リファインメントとローカライズド・リファインメントの両立を可能にした。提案手法は,数クリックで既存の事前訓練された最先端モデルの性能を向上する。
論文参考訳（メタデータ） (2021-12-21T03:52:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。