論文の概要: AIM: Asymmetric Information Masking for Visual Question Answering Continual Learning
- arxiv url: http://arxiv.org/abs/2604.14779v1
- Date: Thu, 16 Apr 2026 08:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.807153
- Title: AIM: Asymmetric Information Masking for Visual Question Answering Continual Learning
- Title(参考訳): AIM:連続学習における視覚的質問に対する非対称情報マスキング
- Authors: Peifeng Zhang, Zice Qiu, Donghua Yu, Shilei Cao, Juepeng Zheng, Yutong Lu, Haohuan Fu,
- Abstract要約: 現代のビジョンランゲージモデル(VLM)は本質的に非対称である。
この構造ミスマッチは、連続したデータストリームから学ぶとき、VLMが破滅的な忘れをしがちである。
本研究では,非対称情報マスキング (AIM) を提案する。
連続的なVQA設定下でのVQA v2とGQAの実験は、AIMが平均的性能(AP)と平均的鍛造(AF)の両方で最先端のパフォーマンスを達成することを示している。
- 参考スコア(独自算出の注目度): 18.784855553941842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In continual visual question answering (VQA), existing Continual Learning (CL) methods are mostly built for symmetric, unimodal architectures. However, modern Vision-Language Models (VLMs) violate this assumption, as their trainable components are inherently asymmetric. This structural mismatch renders VLMs highly prone to catastrophic forgetting when learning from continuous data streams. Specifically, the asymmetry causes standard global regularization to favor the massive language decoder during optimization, leaving the smaller but critical visual projection layers highly vulnerable to interference. Consequently, this localized degradation leads to a severe loss of compositional reasoning capabilities. To address this, we propose Asymmetric Information Masking (AIM), which balances stability and plasticity by applying targeted masks based on modality-specific sensitivity. Experiments on VQA v2 and GQA under continual VQA settings show that AIM achieves state-of-the-art performance in both Average Performance (AP) and Average Forgetting (AF), while better preserving generalization to novel skill-concept compositions.
- Abstract(参考訳): VQA (Continuous visual question answering) では、既存のCL(Continual Learning) メソッドは主に対称的で単調なアーキテクチャのために構築されている。
しかしながら、現代のビジョンランゲージモデル(VLM)は、トレーニング可能なコンポーネントが本質的に非対称であるため、この仮定に違反している。
この構造ミスマッチは、連続したデータストリームから学ぶとき、VLMが破滅的な忘れをしがちである。
特に、非対称性は、最適化中に標準のグローバル正規化を優先し、小さいが重要な視覚射影層は干渉に非常に弱いままである。
この局所的な劣化は、構成的推論能力を著しく損なう。
そこで本研究では,非対称情報マスキング (AIM) を提案する。
連続的なVQA設定下でのVQA v2とGQAの実験により、AIMは平均性能(AP)と平均ゲッティング(AF)の両方において最先端のパフォーマンスを達成し、新規なスキルコンセプト構成への一般化を向上した。
関連論文リスト
- QVAD: A Question-Centric Agentic Framework for Efficient and Training-Free Video Anomaly Detection [11.652235163237117]
ビデオ異常検出(VAD)はコンピュータビジョンにおける基本的な課題である。
本稿では,VLM-LLMインタラクションを動的対話として扱う質問中心エージェントフレームワークQVADを提案する。
QVADはメモリフットプリントを最小限にして高い推論速度を実現し、リソース制約のエッジデバイスに高度なVAD機能を提供する。
論文 参考訳(メタデータ) (2026-04-03T13:48:34Z) - ACPO: Counteracting Likelihood Displacement in Vision-Language Alignment with Asymmetric Constraints [26.309376587678354]
非対称制約参照最適化(ACPO)を提案する。
ACPOは動的でターゲット指向のスケーリングを好みの最適化に適用する。
本稿では,ACPOが標準DPOの選択逆劣化を効果的に逆転させることを示す。
論文 参考訳(メタデータ) (2026-03-23T16:26:11Z) - Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - Investigate the Low-level Visual Perception in Vision-Language based Image Quality Assessment [7.969076042774561]
低レベルの歪み知覚タスクを導入し、モデルが特定の歪みタイプを分類する必要がある。
解析の結果,MLLMは構造的にそのような歪みを表現できるが,トレーニングテンプレートに適合しがちであることがわかった。
視覚エンコーダのアライメントを改善することで、歪み認識精度が劇的に向上し、14.92%から84.43%に向上することを示す。
論文 参考訳(メタデータ) (2025-12-10T12:06:47Z) - AIM: Amending Inherent Interpretability via Self-Supervised Masking [57.17600766859953]
自己スーパーバイザード・マスキング(AIM)によるインテリジェント・インタプリタビリティの向上について提案する。
AIMは、追加のアノテーションを必要とせずに、刺激的な代替品よりも真の機能の利用を促進する。
我々は、分布外一般化ときめ細かい視覚的理解の両方をテストする、さまざまな挑戦的なデータセットでAIMを検証する。
論文 参考訳(メタデータ) (2025-08-15T14:29:59Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - HAAP: Vision-context Hierarchical Attention Autoregressive with Adaptive Permutation for Scene Text Recognition [17.412985505938508]
内部言語モデル(LM)に基づく手法は、外部のLMに基づく手法で条件独立性に起因する誤り訂正を解決するために置換言語モデリング(PLM)を用いる。
本稿では,アダプティブ・パーミューテーション(Adaptive Permutation, HAAP)を用いた階層的注意自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-05-15T06:41:43Z) - VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。