論文の概要: Attention, Please! Revisiting Attentive Probing for Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2506.10178v1
- Date: Wed, 11 Jun 2025 21:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.456958
- Title: Attention, Please! Revisiting Attentive Probing for Masked Image Modeling
- Title(参考訳): マスク画像モデリングにおける注意点探索の再検討
- Authors: Bill Psomas, Dionysis Christopoulos, Eirini Baltzi, Ioannis Kakogeorgiou, Tilemachos Aravanis, Nikos Komodakis, Konstantinos Karantzalos, Yannis Avrithis, Giorgos Tolias,
- Abstract要約: 我々は,冗長な投射を排除し,トレーニング可能なパラメータの数を減らし,従来のマルチヘッド注意よりも最大10$times$のスピードアップを実現する,効率的な探究機構(EP)を導入する。
EPはMIMをはるかに超えて様々な事前学習パラダイムを一般化し、解釈可能なアテンションマップを生成し、ローショットやレイヤーワイドの設定において強力なゲインを達成している。
- 参考スコア(独自算出の注目度): 20.39513629593113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As fine-tuning (FT) becomes increasingly impractical at scale, probing is emerging as the preferred evaluation protocol for self-supervised learning (SSL). Yet, the standard linear probing (LP) fails to adequately reflect the potential of models trained with Masked Image Modeling (MIM), due to the distributed nature of patch tokens. This motivates the need for attentive probing, an alternative that uses attention to selectively aggregate patch-level features. Despite its growing adoption, attentive probing remains under-explored, with existing methods suffering from excessive parameterization and poor computational efficiency. In this work, we revisit attentive probing through the lens of the accuracy-efficiency trade-off. We conduct a systematic study of existing methods, analyzing their mechanisms and benchmarking their performance. We introduce efficient probing (EP), a multi-query cross-attention mechanism that eliminates redundant projections, reduces the number of trainable parameters, and achieves up to a 10$\times$ speed-up over conventional multi-head attention. Despite its simplicity, EP outperforms LP and prior attentive probing approaches across seven benchmarks, generalizes well beyond MIM to diverse pre-training paradigms, produces interpretable attention maps, and achieves strong gains in low-shot and layer-wise settings. Code available at https://github.com/billpsomas/efficient-probing.
- Abstract(参考訳): ファインチューニング(FT)の大規模化が進むにつれて、自己教師あり学習(SSL)の評価プロトコルとして探究が求められている。
しかし、パッチトークンの分散特性のため、標準線形探索(LP)は、Masked Image Modeling(MIM)でトレーニングされたモデルの可能性を十分に反映することができない。
これは注意力を使ってパッチレベルの機能を選択的に集約する代替手段である注意力調査の必要性を動機付けている。
採用が進んでいるにもかかわらず、既存の手法は過剰なパラメータ化と計算効率の低下に悩まされている。
本研究は,精度・効率トレードオフのレンズを通して,注意力の探索を再考するものである。
既存の手法を体系的に研究し、そのメカニズムを分析し、性能をベンチマークする。
我々は,冗長な投射を排除し,トレーニング可能なパラメータの数を削減し,従来のマルチヘッドアテンションよりも最大10$\times$スピードアップを達成するマルチクエリ・クロスアテンション機構である効率的なプロブリング(EP)を導入する。
その単純さにもかかわらず、EPは7つのベンチマークにまたがってLPと事前注意探索アプローチを上回り、MIMをはるかに超えて様々な事前学習パラダイムに一般化し、解釈可能なアテンションマップを生成し、ローショットおよびレイヤーワイド設定において強力なゲインを達成している。
コードはhttps://github.com/billpsomas/ efficient-probing.comで公開されている。
関連論文リスト
- Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。
我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。
モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文 参考訳(メタデータ) (2025-07-17T11:45:27Z) - Enhancing Chain-of-Thought Reasoning with Critical Representation Fine-tuning [37.16998362490576]
Representation Fine-tuning (ReFT) は、表現空間のみを編集することでパラメータ効率を大幅に向上させることで、広く注目を集めている。
本稿では,情報フロー解析によりこれらの重要な表現を識別し,最適化する新しい手法であるCritical Representation Fine-Tuning(CRFT)を提案する。
LLaMAとMistralモデルファミリを用いて,算術的および常識的推論のための8つのベンチマークで検証を行った。
論文 参考訳(メタデータ) (2025-07-14T09:11:33Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing [14.114970711442512]
本稿では,大規模言語モデル (LLM) におけるアテンションヘッドに対するアテンション・プルーニング(Attention Pruning) を提案する。
我々の実験は、注意喚起によって最大40%の性別バイアスが減少し、最先端のバイアス緩和戦略よりも優れることを示した。
論文 参考訳(メタデータ) (2025-03-20T03:02:32Z) - Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。
空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。
当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-11T03:58:17Z) - PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity [9.092404060771306]
拡散モデルでは、高品質な条件付きサンプルの生成に顕著な結果が示されている。
しかし、既存の方法は、しばしば追加のトレーニングや神経機能評価(NFE)を必要とする。
本稿では,スパースアテンションを生かして事前学習モデルを強化する,PLADISと呼ばれる新しい,効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-10T07:23:19Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - ESPFormer: Doubly-Stochastic Attention with Expected Sliced Transport Plans [13.695885742446027]
自己注意は、トレーニング中にいくつかのトークンを過度に集中させ、その結果、準最適情報フローをもたらす可能性がある。
我々は,スライスされた最適輸送に基づく,新しい並列化可能な二重確率的アテンション機構を提案する。
本手法は, 繰り返しシンクホーン正規化を伴わずに二重性を適用し, 効率を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-11T21:20:48Z) - Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More [26.226145789963443]
Mask-Enhanced Autoregressive Prediction (MEAP)は、MLM(Masked Language Modeling)をNTP(Next-Token Prediction)にシームレスに統合する訓練パラダイムである。
集中的な実験では、MEAPはキー情報検索と長文推論タスクにおいてNTPを大幅に上回っている。
分析の結果,MEAPの有効性は,非マスキングトークンの少ないセットに集中することにより,より目立たしい注意点の獲得に寄与することが示唆された。
論文 参考訳(メタデータ) (2025-02-11T11:49:03Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Long-Sequence Recommendation Models Need Decoupled Embeddings [49.410906935283585]
我々は、既存の長期推薦モデルにおいて無視された欠陥を識別し、特徴付ける。
埋め込みの単一のセットは、注意と表現の両方を学ぶのに苦労し、これら2つのプロセス間の干渉につながります。
本稿では,2つの異なる埋め込みテーブルを別々に学習し,注意と表現を完全に分離する,DARE(Decoupled Attention and Representation Embeddings)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-03T15:45:15Z) - A Universal Class of Sharpness-Aware Minimization Algorithms [57.29207151446387]
我々は、新しいシャープネス尺度を導入し、新しいシャープネス対応目標関数を導出する。
これらの測度がテキスト的に表現可能であることを証明し、トレーニング損失ヘッセン行列の任意の関数を適切なハイパーおよび行列式で表すことを可能にする。
論文 参考訳(メタデータ) (2024-06-06T01:52:09Z) - Prototypical Contrastive Learning through Alignment and Uniformity for
Recommendation [6.790779112538357]
提案するアンダーライン・アライメントとアンダーライン・ユニフォーマル性によるインダーライン型コントラスト学習について述べる。
具体的には、まず、原点グラフから異なる拡張点間の整合性を確保するために、潜時空間としてプロトタイプを提案する。
明示的な負の欠如は、インスタンスとプロトタイプ間の整合性損失を直接最適化することで、次元的な崩壊の問題が容易に生じることを意味する。
論文 参考訳(メタデータ) (2024-02-03T08:19:26Z) - A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models [19.17722702457403]
現状のArtETLアプローチは、狭義の実験的な設定でのみ強力な性能を示すことを示す。
一般化されたラグランジアン法を適応させることにより,バランス項を最適化したCLAP(CLass-Adaptive linear Probe)の目的を提案する。
論文 参考訳(メタデータ) (2023-12-20T02:58:25Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Fast Rates for Contextual Linear Optimization [52.39202699484225]
提案手法は, 下流決定性能を直接最適化する手法よりもはるかに高速な, 後悔の収束率を実現する。
予測モデルは、既存のツールを使ったトレーニングが簡単かつ高速で、解釈が簡単で、私たちが示しているように、非常にうまく機能する決定につながる。
論文 参考訳(メタデータ) (2020-11-05T18:43:59Z) - Cross-Entropy Method Variants for Optimization [0.0]
クロスエントロピー法(CE法)はその単純さと有効性から最適化の一般的な方法である。
ある目的関数は評価に計算的に高価である可能性があり、CE-methodは局所的なミニマで立ち往生する可能性がある。
これらの問題に対処するために, CE-method の新たな変種を導入する。
論文 参考訳(メタデータ) (2020-09-18T19:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。