論文の概要: MacVQA: Adaptive Memory Allocation and Global Noise Filtering for Continual Visual Question Answering
- arxiv url: http://arxiv.org/abs/2601.01926v1
- Date: Mon, 05 Jan 2026 09:18:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.93786
- Title: MacVQA: Adaptive Memory Allocation and Global Noise Filtering for Continual Visual Question Answering
- Title(参考訳): MacVQA: 連続的な視覚的質問応答のための適応メモリ割り当てとグローバルノイズフィルタリング
- Authors: Zhifei Li, Yiran Wang, Chenyi Xiong, Yujing Xia, Xiaoju Hou, Yue Zhao, Miao Zhang, Kui Xiao, Bing Yang,
- Abstract要約: VQA(Visual Question Answering)は、視覚的データとテキストデータを組み合わせることで、マルチモーダル情報を推論するモデルを必要とする。
視覚的質問応答のための適応メモリアロケーションと,MacVQAと呼ばれるグローバルノイズフィルタリングを備えた新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.82002070938546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) requires models to reason over multimodal information, combining visual and textual data. With the development of continual learning, significant progress has been made in retaining knowledge and adapting to new information in the VQA domain. However, current methods often struggle with balancing knowledge retention, adaptation, and robust feature representation. To address these challenges, we propose a novel framework with adaptive memory allocation and global noise filtering called MacVQA for visual question answering. MacVQA fuses visual and question information while filtering noise to ensure robust representations, and employs prototype-based memory allocation to optimize feature quality and memory usage. These designs enable MacVQA to balance knowledge acquisition, retention, and compositional generalization in continual VQA learning. Experiments on ten continual VQA tasks show that MacVQA outperforms existing baselines, achieving 43.38% average accuracy and 2.32% average forgetting on standard tasks, and 42.53% average accuracy and 3.60% average forgetting on novel composition tasks.
- Abstract(参考訳): VQA(Visual Question Answering)は、視覚的データとテキストデータを組み合わせることで、マルチモーダル情報を推論するモデルを必要とする。
継続的な学習の発展に伴い、知識の保持とVQA領域における新たな情報への適応において大きな進展が見られた。
しかし、現在の手法は知識の保持、適応、堅牢な特徴表現のバランスに苦しむことが多い。
これらの課題に対処するために,MacVQAと呼ばれる適応メモリアロケーションとグローバルノイズフィルタリングを用いた視覚的質問応答のための新しいフレームワークを提案する。
MacVQAは、ノイズをフィルタリングして堅牢な表現を保証するために視覚情報と質問情報を融合し、プロトタイプベースのメモリアロケーションを使用して特徴量とメモリ使用量を最適化する。
これらの設計により、MacVQAは、連続的なVQA学習における知識獲得、保持、構成一般化のバランスをとることができる。
10つの連続VQAタスクの実験では、MacVQAは既存のベースラインよりも優れており、平均精度43.38%、標準タスク2.32%、平均精度42.53%、新しい構成タスク3.60%となっている。
関連論文リスト
- Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering [55.49652734090316]
知識に基づく視覚的質問応答(KB-VQA)は、視覚的理解と外部知識検索を統合するために視覚言語モデル(VLM)を必要とする。
本稿では,処理,検索,フィルタリングといった3段階の手法をWiki-PRFと呼ぶ。
ベンチマークデータセット(E-VQAとInfoSeek)の実験では、回答の品質が大幅に向上し、最先端のパフォーマンスが達成された。
論文 参考訳(メタデータ) (2025-10-16T12:10:00Z) - GC-KBVQA: A New Four-Stage Framework for Enhancing Knowledge Based Visual Question Answering Performance [0.9208007322096533]
知識に基づく視覚質問回答法(KB-VQA)は、画像に表される明示的なコンテンツを超えて、情報によって推論を要求するタスクに焦点を当てる。
近年のアプローチでは,Large Language Models (LLM) を暗黙の知識源として活用している。
グラウンディングキャプション誘導知識に基づく視覚質問応答(GC-KBVQA)と呼ばれる新しい4段階のフレームワークを紹介する。
イノベーションには、ジェネリックな記述を超えて、コンパクトで詳細でコンテキストに富んだ情報を持つために、質問認識キャプションを生成することが含まれる。
論文 参考訳(メタデータ) (2025-05-25T23:00:30Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering [44.54319663913782]
圧縮文脈(RACC)を用いたtextbfRetrieval-textbfAugmented MLLMを提案する。
RACCは、与えられた画像検索ペアの取得した知識を圧縮して集約することを学ぶ。
これはOK-VQAで63.92%の最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-09-11T15:11:39Z) - Enhancing Visual Question Answering through Ranking-Based Hybrid Training and Multimodal Fusion [6.9879884952138065]
Rank VQAモデルは、Faster R-CNNモデルと、事前訓練されたBERTモデルから得られたリッチセマンティックテキスト特徴を用いて抽出された高品質な視覚特徴を統合する。
回答の相対ランク付けを最適化するためにランキング学習モジュールが組み込まれ、回答精度が向上する。
我々のモデルは、標準VQAデータセットにおける既存の最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-08-14T05:18:43Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - Prophet: Prompting Large Language Models with Complementary Answer Heuristics for Knowledge-based Visual Question Answering [28.763437313766996]
知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。
近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。
Prophet - 知識に基づくVQAの解答を促すために設計された,概念的にシンプルで柔軟な,汎用的なフレームワーク。
論文 参考訳(メタデータ) (2023-03-03T13:05:15Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - IQ-VQA: Intelligent Visual Question Answering [3.09911862091928]
ルールベースデータセット上で,VQAモデルの一貫性を15%向上することを示す。
また,視覚と言語に対するマルチモーダル理解が向上するアテンションマップの改良を定量的に示す。
論文 参考訳(メタデータ) (2020-07-08T20:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。