論文の概要: HyLoVQA: Dynamic Hypernetwork-Generated Low-Rank Adaptation for Continual Visual Question Answering
- arxiv url: http://arxiv.org/abs/2605.22035v1
- Date: Thu, 21 May 2026 06:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.114004
- Title: HyLoVQA: Dynamic Hypernetwork-Generated Low-Rank Adaptation for Continual Visual Question Answering
- Title(参考訳): HyLoVQA: 動的ハイパーネットワーク生成低ランク適応による視覚的質問応答
- Authors: Yiran Wang, Chenyi Xiong, Ziyue Qin, Miao Zhang, Kui Xiao, Zhifei Li,
- Abstract要約: VQA(Continuous Visual Question Answering)は、視覚的な入力や質問の定常的ストリームから学ぶことを必要とする。
従来のほとんどのメソッドは、大きく共有されたパラメータセットを更新することで適応する。
本稿では,アンカーのドリフト耐性メモリバンクを維持するHyLoVQAを提案する。
- 参考スコア(独自算出の注目度): 12.614540558911893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual Visual Question Answering (VQA) requires learning from non-stationary streams of visual inputs and questions while preserving past knowledge. Most prior methods adapt by updating a largely shared parameter set. This often leads to cross-level task interference, hindering accurate adaptation to the current task and object. To address this limitation, we propose HyLoVQA. It maintains a drift-resilient memory bank of anchors. The bank stores the content of visual objects and textual tasks, and they are updated using current input features. Conditioned on retrieved anchors, a hypernetwork generates lightweight Low-Rank Adaptation (LoRA) adapters. This ensures parameter efficiency, allowing the model to adapt to each task and object dynamically. Additionally, we formulate an alignment loss that aligns semantic discrepancies in the feature space with functional changes in the parameter space, thereby constraining LoRA adapters to remain focused on the current task and object. Extensive experiments on VQA v2 and NExT-QA under both standard and compositional settings demonstrate the superiority of HyLoVQA over prior state-of-the-art methods.
- Abstract(参考訳): VQA(Continuous Visual Question Answering)は、過去の知識を保ちながら、視覚的な入力や質問の定常的なストリームから学ぶことを必要とする。
従来のほとんどのメソッドは、大きく共有されたパラメータセットを更新することで適応する。
これはしばしばクロスレベルなタスク干渉を引き起こし、現在のタスクとオブジェクトへの正確な適応を妨げる。
この制限に対処するため,HyLoVQAを提案する。
アンカーのドリフト耐性のあるメモリバンクを維持している。
銀行は、ビジュアルオブジェクトとテキストタスクの内容を格納し、現在の入力機能を使用して更新する。
取得したアンカーに条件付きで、ハイパーネットワークは軽量なローランド適応 (LoRA) アダプタを生成する。
これによりパラメータ効率が保証され、モデルが各タスクとオブジェクトに動的に適応できるようにする。
さらに,特徴空間における意味的不一致をパラメータ空間の関数的変化と整合させるアライメント損失を定式化し,現在のタスクやオブジェクトにフォーカスするLoRAアダプタを制約する。
標準条件および構成条件下でのVQA v2およびNExT-QAの広範囲な実験により,HyLoVQAの先行技術よりも優れていることが示された。
関連論文リスト
- SHINE: A Scalable In-Context Hypernetwork for Mapping Context to LoRA in a Single Pass [55.28352410490407]
Shineはスケーラブルなハイパーネットワークで、様々な意味のあるコンテキストを大規模言語モデル(LLM)用の高品質なLoRAアダプタにマッピングできる
プリトレーニングと命令の微調整パイプラインを導入し,高速なLoRAアダプタを1回のフォワードパスで生成するようにハイパーネットワークを訓練する。
本研究は, SFT による LLM 適応と比較して, 処理時間, 計算時間, メモリコストを大幅に削減し, スケーリングの可能性を示す。
論文 参考訳(メタデータ) (2026-02-06T03:40:31Z) - HAM: Hierarchical Adapter Merging for Scalable Continual Learning [5.958899330375292]
新しい知識は、以前に学習した情報に干渉し、モデルが新しい知識に賛成する以前の知識を忘れる原因となる。
本稿では,HAM(Hierarchical Adapters Merging)について紹介する。
ハムは、特にタスクの数が増加するにつれて、最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-09-16T16:18:19Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z) - Ask and Remember: A Questions-Only Replay Strategy for Continual Visual Question Answering [17.369734751262126]
VQACL(Continuous Learning in Visual Question Answering)は、学習前の知識(安定性)を保ちながら、新しい視覚言語スキル(塑性)を取得するモデルを必要とする。
既存のメソッドは、主に単調な設定のために設計されており、この二重要求に対処するのに不足することが多い。
Intention Distillation (QUAD) を用いたQUestion-only replay(QUestion-only replay with Attention Distillation)を提案する。
論文 参考訳(メタデータ) (2025-02-06T19:37:43Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - AdaCL:Adaptive Continual Learning [7.116403133334646]
クラスインクリメンタルラーニング(Class-Incremental Learning)は、より深い分類器を更新して新しいカテゴリを学習し、それまで観察されたクラスの精度を維持したり改善することを目的としている。
学習済みのクラスを忘れないようにするための一般的な方法は、ニューラルネットワークのアップデートの正規化とメモリ上の例の保存である。
各タスクにハイパーパラメータを適用すると、精度、忘れ、記憶が向上することを示す。
論文 参考訳(メタデータ) (2023-03-23T09:00:38Z) - Task-Adaptive Saliency Guidance for Exemplar-free Class Incremental Learning [60.501201259732625]
EFCILにタスク適応型サリエンシを導入し、タスク適応型サリエンシ・スーパービジョン(TASS)と呼ばれる新しいフレームワークを提案する。
提案手法は,CIFAR-100, Tiny-ImageNet, ImageNet-Subset EFCILベンチマークを用いて,タスク間のサリエンシマップの保存や,最先端の成果の達成に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-16T02:43:52Z) - Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA
Task [12.74065821307626]
VQAは、画像に関するあらゆる疑問に答えることを目的とした野心的なタスクである。
ユーザのニーズが継続的に更新されているため、このようなシステムを構築するのは困難です。
本稿では,VQA 上で CL に適した実データフリーリプレイ方式を提案する。
論文 参考訳(メタデータ) (2022-08-24T12:00:02Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。