論文の概要: CATCH: A Modular Cross-domain Adaptive Template with Hook
- arxiv url: http://arxiv.org/abs/2510.26582v1
- Date: Thu, 30 Oct 2025 15:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.875648
- Title: CATCH: A Modular Cross-domain Adaptive Template with Hook
- Title(参考訳): CATCH: Hookを使ったモジュール型クロスドメイン適応テンプレート
- Authors: Xinjin Li, Yulie Lu, Jinghan Cao, Yu Ma, Zhenglin Li, Yeyang Zhou,
- Abstract要約: CATCHはVisual Question Answering (VQA)モデルのクロスドメイン適応のためのプラグイン・アンド・プレイフレームワークである。
私たちのキーとなるアイデアは、2つの軽量モジュールを導入することで視覚的および言語的適応を分離することです。
その結果,バックボーンモデルを再トレーニングすることなく,一貫した性能向上を実現することができた。
- 参考スコア(独自算出の注目度): 2.869731339311564
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Visual Question Answering (VQA) have demonstrated impressive performance in natural image domains, with models like LLaVA leveraging large language models (LLMs) for open-ended reasoning. However, their generalization degrades significantly when transferred to out-of-domain scenarios such as remote sensing, medical imaging, or math diagrams, due to large distributional shifts and the lack of effective domain adaptation mechanisms. Existing approaches typically rely on per-domain fine-tuning or bespoke pipelines, which are costly, inflexible, and not scalable across diverse tasks. In this paper, we propose CATCH, a plug-and-play framework for cross-domain adaptation that improves the generalization of VQA models while requiring minimal changes to their core architecture. Our key idea is to decouple visual and linguistic adaptation by introducing two lightweight modules: a domain classifier to identify the input image type, and a dual adapter mechanism comprising a Prompt Adapter for language modulation and a Visual Adapter for vision feature adjustment. Both modules are dynamically injected via a unified hook interface, requiring no retraining of the backbone model. Experimental results across four domain-specific VQA benchmarks demonstrate that our framework achieves consistent performance gains without retraining the backbone model, including +2.3 BLEU on MathVQA, +2.6 VQA on MedVQA-RAD, and +3.1 ROUGE on ChartQA. These results highlight that CATCH provides a scalable and extensible approach to multi-domain VQA, enabling practical deployment across diverse application domains.
- Abstract(参考訳): VQA(Visual Question Answering)の最近の進歩は、LLaVAのようなモデルが大規模言語モデル(LLM)をオープンな推論に活用するなど、自然画像領域における顕著なパフォーマンスを示している。
しかし、その一般化は、大規模な分布シフトと効果的なドメイン適応機構の欠如により、リモートセンシング、医用画像、数学図などのドメイン外のシナリオに移行した場合に著しく低下する。
既存のアプローチは、通常、ドメインごとの微調整や分岐パイプラインに依存します。
本稿では,コアアーキテクチャの変更を最小限に抑えつつ,VQAモデルの一般化を改善するクロスドメイン適応のためのプラグイン・アンド・プレイフレームワークであるCATCHを提案する。
我々のキーとなる考え方は、入力画像タイプを特定するためのドメイン分類器と、言語変調のためのPrompt Adapterと視覚特徴調整のためのVisual Adapterからなるデュアルアダプタ機構の2つの軽量モジュールを導入することで、視覚的および言語的適応を分離することである。
両方のモジュールは統合されたフックインターフェースを介して動的に注入されるため、バックボーンモデルの再トレーニングは不要である。
MedVQA-RADでは+2.3 BLEU、MedVQA-RADでは+2.6 VQA、ChartQAでは+3.1 ROUGEなどである。
これらの結果は、CATCHがマルチドメインのVQAに対してスケーラブルで拡張可能なアプローチを提供し、多様なアプリケーションドメインにまたがる実践的なデプロイを可能にしていることを強調している。
関連論文リスト
- DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
Open-Vocabulary Multi-Label Recognition (OV-MLR)は、画像内の複数の見えないオブジェクトカテゴリを識別することを目的としている。
ビジョンランゲージ事前学習モデルは強力なオープン語彙基盤を提供するが、弱い監督下では微粒な局所化に苦慮する。
本稿では,これらの制約を克服するためのDART(Dual Adaptive Refinement Transfer)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T17:22:33Z) - TransAdapter: Vision Transformer for Feature-Centric Unsupervised Domain Adaptation [0.3277163122167433]
Unsupervised Domain Adaptation (UDA)は、ソースドメインのラベル付きデータを使用して、ラベルなしのターゲットドメインのタスクを解決することを目的としている。
従来のCNNベースの手法は、複雑なドメイン関係を完全に捉えるのに苦労している。
3つの鍵モジュールを持つSwin Transformerを利用する新しいUDA手法を提案する。
論文 参考訳(メタデータ) (2024-12-05T11:11:39Z) - APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic Segmentation [33.90244697752314]
クロスドメイン小ショットセマンティックセマンティックセグメンテーション(CD-FSS)のための新しい自動プロンプトネットワークであるAPSegを紹介する。
提案手法は,1ショット設定と5ショット設定の平均精度をそれぞれ5.24%,3.10%向上させる。
論文 参考訳(メタデータ) (2024-06-12T16:20:58Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Object-based (yet Class-agnostic) Video Domain Adaptation [78.34712426922519]
我々はODAPT(Object-based (yet Class-Agnostic) Video Domain Adaptation)を提案する。
ODAPTは、既存のアクション認識システムを新しいドメインに適応するための、シンプルで効果的なフレームワークである。
我々のモデルは、Epic-Kitchensのキッチン間で適応する場合の+6.5の増加と、Epic-KitchensとEGTEAデータセット間の適応率の+3.1の増加を実現している。
論文 参考訳(メタデータ) (2023-11-29T01:17:38Z) - Viewpoint Integration and Registration with Vision Language Foundation
Model for Image Change Understanding [15.392243642628387]
画像変化理解(ICU)に直接適用した場合,既存の視覚言語基盤モデル (VLFM) が不十分であることを示す。
ICUは複数の画像間の実際の変化をキャプチャし、それらを言語で記述するためにモデルを必要とする。
本稿では,これらの問題に対処するための視点統合と登録手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T17:41:29Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Semantic-aware Modular Capsule Routing for Visual Question Answering [55.03883681191765]
SuPER と呼ばれるセマンティック・アウェアな modUlar caPsulE フレームワークを提案する。
5つのベンチマークデータセットに対して提案した SUPER スキームの有効性と一般化能力を比較検討した。
論文 参考訳(メタデータ) (2022-07-21T10:48:37Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Domain-robust VQA with diverse datasets and methods but no target labels [34.331228652254566]
VQAのドメイン適応は、さらなる複雑さのためにオブジェクト認識の適応とは異なる。
これらの課題に取り組むために、まず一般的なVQAデータセット間のドメインシフトを定量化します。
また,画像領域と質問領域の合成シフトを別々に構築する。
論文 参考訳(メタデータ) (2021-03-29T22:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。