論文の概要: A Unified Masked Jigsaw Puzzle Framework for Vision and Language Models
- arxiv url: http://arxiv.org/abs/2601.12051v1
- Date: Sat, 17 Jan 2026 13:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.438911
- Title: A Unified Masked Jigsaw Puzzle Framework for Vision and Language Models
- Title(参考訳): ビジョンと言語モデルのための統一メイクJigsawパズルフレームワーク
- Authors: Weixin Ye, Wei Wang, Yahui Liu, Yue Song, Bin Ren, Wei Bi, Rita Cucchiara, Nicu Sebe,
- Abstract要約: Transformerにおける位置埋め込み(PE)の勾配には十分な情報が含まれており、入力データの再構築に使用できる。
我々は,Transformerモデルの勾配攻撃に対する堅牢性を改善するために,Masked Jigsaw Puzzle (MJP) フレームワークを導入した。
MJPは視覚と言語の両方のタスクにおいて異なるトランスフォーマーベースのモデルのための統一されたフレームワークであることを示唆している。
- 参考スコア(独自算出の注目度): 109.4033233070067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In federated learning, Transformer, as a popular architecture, faces critical challenges in defending against gradient attacks and improving model performance in both Computer Vision (CV) and Natural Language Processing (NLP) tasks. It has been revealed that the gradient of Position Embeddings (PEs) in Transformer contains sufficient information, which can be used to reconstruct the input data. To mitigate this issue, we introduce a Masked Jigsaw Puzzle (MJP) framework. MJP starts with random token shuffling to break the token order, and then a learnable \textit{unknown (unk)} position embedding is used to mask out the PEs of the shuffled tokens. In this manner, the local spatial information which is encoded in the position embeddings is disrupted, and the models are forced to learn feature representations that are less reliant on the local spatial information. Notably, with the careful use of MJP, we can not only improve models' robustness against gradient attacks, but also boost their performance in both vision and text application scenarios, such as classification for images (\textit{e.g.,} ImageNet-1K) and sentiment analysis for text (\textit{e.g.,} Yelp and Amazon). Experimental results suggest that MJP is a unified framework for different Transformer-based models in both vision and language tasks. Code is publicly available via https://github.com/ywxsuperstar/transformerattack
- Abstract(参考訳): 連邦学習において、Transformerは人気のあるアーキテクチャであり、勾配攻撃に対する防御とコンピュータビジョン(CV)と自然言語処理(NLP)の両方のタスクにおけるモデルパフォーマンスの改善において、重要な課題に直面している。
トランスフォーマーにおける位置埋め込み(PE)の勾配には十分な情報が含まれており、入力データの再構成に使用できることが判明した。
この問題を軽減するために、Masked Jigsaw Puzzle (MJP)フレームワークを紹介します。
MJPはランダムなトークンシャッフルからトークンの順序を壊し、次に学習可能な \textit{unknown (unk") 位置埋め込みを使用してシャッフルされたトークンのPEをマスクする。
このように、位置埋め込みに符号化された局所空間情報は破壊され、局所空間情報に依存しない特徴表現を学習せざるを得なくなる。
特に、MJPを慎重に使用することで、勾配攻撃に対するモデルの堅牢性を改善するだけでなく、画像の分類(\textit{e g ,} ImageNet-1K)やテキストの感情分析(\textit{e g ,} YelpとAmazon)といった、視覚およびテキストアプリケーションのシナリオにおけるパフォーマンスを向上させることができます。
実験結果から,MJPは視覚と言語タスクの両面で異なるトランスフォーマーモデルのための統合フレームワークであることが示唆された。
コードはhttps://github.com/ywxsuperstar/transformer attackを通じて公開されている。
関連論文リスト
- Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder [5.57393627015653]
Sa2VAで実証されたビデオセグメンタとグライダーアプローチは、セグメンテーションモデル内で機能を直接フューズする。
これはしばしば、動的視覚情報と静的意味論の好ましくない絡み合いが生じ、セグメント化の精度が低下する。
SAM-2に固有の情報処理制限に対処するため,テキスト事前学習と線形デカップリングモジュールを統合したデカップリング強化プロンプト方式であるDeSa2VAを提案する。
論文 参考訳(メタデータ) (2025-06-28T13:30:36Z) - LAIP: Learning Local Alignment from Image-Phrase Modeling for Text-based Person Search [16.7500024682162]
本稿では、双方向アテンション重み付き局所アライメント(BidirAtt)とマスクフレーズモデリング(MPM)モジュールを備えたLAIP(Local Alignment from Image-Phrase Modeling)フレームワークを提案する。
CUHK-PEDES、ICFG-PEDES、RSTPReidデータセットで実施された実験は、既存の手法よりもLAIPフレームワークの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-06-16T08:37:24Z) - Stochastic positional embeddings improve masked image modeling [95.03491875332034]
Masked Image Modeling (MIM)は、ラベルなし画像からの学習を可能にする、有望な自己教師型学習アプローチである。
位置埋め込み(StoP)を用いて位置不確実性をMIMに組み込むことを提案する。
StoPは、ロケーション機能への過度な適合を減らし、ロケーションの不確実性に対して堅牢な学習機能に向けてモデルを導く。
論文 参考訳(メタデータ) (2023-07-31T17:59:08Z) - LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training
for Document Understanding [7.7514466231699455]
本稿では,新しいマルチモーダル事前学習モデルLayoutMaskを提案する。
統一されたモデルにおいて、テキストとレイアウトのモダリティ間の相互作用を強化することができる。
様々なVrDU問題に対して最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-05-30T03:56:07Z) - Word Order Matters when you Increase Masking [70.29624135819884]
本研究では,事前学習対象自体に対する位置エンコーディングの除去効果について検討し,モデルが共起点のみの位置情報を再構成できるかどうかを検証した。
位置情報の必要性はマスキングの量とともに増大し、位置エンコーディングのないマスキング言語モデルではタスク上でこの情報を再構築できないことがわかった。
論文 参考訳(メタデータ) (2022-11-08T18:14:04Z) - Masked Jigsaw Puzzle: A Versatile Position Embedding for Vision
Transformers [87.0319004283766]
位置埋め込み(PE)は多くの視覚タスクにおいて視覚変換器(ViT)の性能を向上させることが示されている。
PEは、入力パッチの空間情報が露出しているため、プライバシー漏洩のリスクが高い可能性がある。
これらの問題に対処するために,Masked Jigsaw Puzzle (MJP) 位置埋め込み法を提案する。
論文 参考訳(メタデータ) (2022-05-25T07:56:18Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - AAformer: Auto-Aligned Transformer for Person Re-Identification [82.45385078624301]
トランスアーキテクチャにおけるアライメント方式を初めて導入する。
本研究では,人体と非人体の両方をパッチレベルで自動的に検出する自動整列トランス (AAformer) を提案する。
AAformerは、部分アライメントを自己アテンションに統合し、出力[PART]を直接検索する機能として使用することができる。
論文 参考訳(メタデータ) (2021-04-02T08:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。