Fugu-MT 論文翻訳(概要): HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

論文の概要: HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

arxiv url: http://arxiv.org/abs/2603.16653v1
Date: Tue, 17 Mar 2026 15:23:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.369059
Title: HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models
Title（参考訳）: HeBA:ロバストビジョンランゲージモデルのための異種ボツネックアダプタ
Authors: Md Jahidul Islam,
Abstract要約: HeBA(Heterogeneous Bottleneck Adapter)は、モダリティ固有の帰納バイアスを導入する統一アーキテクチャフレームワークである。 HeBAは2次元奥行き分離可能な畳み込みを通じて視覚トークンを処理し、空間的相関を保存する。標準的な拡張アダプタとは異なり、HeBAは圧縮ボトルネックを採用し、モデルにコンパクトで堅牢な特徴を明示的に学習させる。
参考スコア（独自算出の注目度）: 3.8707695363745214
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Adapting large-scale Vision-Language Models (VLMs) like CLIP to downstream tasks often suffers from a "one-size-fits-all" architectural approach, where visual and textual tokens are processed uniformly by wide, generic adapters. We argue that this homogeneity ignores the distinct structural nature of the modalities -- spatial locality in images versus semantic density in text. To address this, we propose HeBA (Heterogeneous Bottleneck Adapter), a unified architectural framework that introduces modality-specific structural inductive biases. HeBA departs from conventional designs through three key architectural innovations: (1) Heterogeneity: It processes visual tokens via 2D depthwise-separable convolutions to preserve spatial correlations, while distinctively processing text tokens via dense linear projections to capture semantic relationships; (2) Bottleneck Regularization: Unlike standard expanding adapters, HeBA employs a compression bottleneck (D -> D/4) that explicitly forces the model to learn compact, robust features and acts as a structural regularizer; and (3) Active Gradient Initialization: We challenge the restrictive zero-initialization paradigm, utilizing a Kaiming initialization strategy that ensures sufficient initial gradient flow to accelerate convergence without compromising the frozen backbone's pre-trained knowledge. Extensive experiments demonstrate that HeBA's architecturally specialized design achieves superior stability and accuracy, establishing a new state-of-the-art on 11 few-shot benchmarks. Code is available at https://github.com/Jahid12012021/VLM-HeBA.
Abstract（参考訳）: CLIPのような大規模ビジョンランゲージモデル(VLM)を下流タスクに適応させる場合、視覚的およびテキスト的トークンは広範に汎用的なアダプタによって一様に処理される"ワンサイズフィットの"アーキテクチャアプローチに悩まされることが多い。この均質性は、画像における空間的局所性とテキストにおける意味的密度という、モダリティの構造的特質を無視すると主張する。これを解決するために,モーダリティ固有の構造的帰納バイアスを導入する統一アーキテクチャフレームワークであるHeBA(Heterogeneous Bottleneck Adapter)を提案する。ヘテロジニティ: 空間的相関を保ちながら、2次元奥行き分離可能な畳み込みによって視覚的トークンを処理し、密度の高い線形射影を介してテキストトークンを顕著に処理し、セマンティックな関係を捕捉する; 2) ボトルネック規則化: 標準拡張アダプタとは異なり、HeBAは圧縮ボトルネック(D -> D/4)を採用し、コンパクトでロバストな特徴を明示的に学習させ、構造的レギュレータとして機能させる; 3) アクティブなグラディエント初期化: 制限的なゼロ初期化パラダイムに挑戦する。大規模な実験は、HeBAのアーキテクチャに特化された設計が優れた安定性と精度を達成し、11のスクリーンショットベンチマークで新しい最先端のベンチマークを確立することを実証している。コードはhttps://github.com/Jahid12012021/VLM-HeBAで公開されている。

関連論文リスト

ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation [3.8707695363745214]
ReHARKは、グローバルな近位正規化を通じて、少数ショット適応を再解釈する、トレーニング不要のフレームワークである。ワンショット適応のための新しい最先端技術がReHARKによって確立され、平均精度は65.83%である。
論文参考訳（メタデータ） (2026-03-12T04:59:09Z)
Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles [74.32932832937618]
我々は、微調整の前に幾何学学習を前もってロードする幾何学事前学習フレームワークであるtextbfRigidSSL$(textitRigidity-Aware Self-Supervised Learning$)を紹介した。フェーズI(RigidSSL-Perturb)は、AlphaFoldタンパク質構造データベースから432K構造から、シミュレートされた摂動を持つ幾何学的先行を学習する。フェーズII(RigidSSL-MD)は、1.3K分子動力学軌道上のこれらの表現を洗練し、物理的に現実的な遷移を捉える。
論文参考訳（メタデータ） (2026-03-02T21:32:30Z)
SSR: Pushing the Limit of Spatial Intelligence with Structured Scene Reasoning [30.87517633729756]
SSRはStructured Scene Reasoning用に設計されたフレームワークである。軽量アライメント機構によって2Dと3Dの表現をシームレスに統合する。複数の空間インテリジェンスベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-02-28T02:05:35Z)
CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval [54.15776146365823]
Composed Image Retrieval (CIR)では、ユーザーは参照画像と操作テキストの両方を使用してターゲットイメージを検索できる。 CSMCIRは3つの相乗的コンポーネントを通して効率的なクエリターゲットアライメントを実現する統一表現フレームワークである。
論文参考訳（メタデータ） (2026-01-07T09:21:38Z)
Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models [33.99822400076112]
チャンクに基づくスパースアテンションは、極端な長さの一般化のための有望なパラダイムとして現れている。本稿では,これらのモデルを体系的に分解し,その性能を駆動するコアコンポーネントを同定する。我々は、4KコンテキストでトレーニングされたモデルをRULERとBABILongで3200万トークンに一般化し、トレーニング不要な長さ外挿のための新しい最先端技術を確立した。
論文参考訳（メタデータ） (2025-10-20T06:17:57Z)
Light-SQ: Structure-aware Shape Abstraction with Superquadrics for Generated Meshes [60.92139345612904]
我々は、新しいスーパークワッドリックベースの最適化フレームワークLight-SQを提案する。本稿では,構造対応ボリューム分解によるブロック再配置戦略を提案する。実験によると、Light-SQはスーパークワッドリックで効率よく、高忠実で、編集可能な形状の抽象化を可能にする。
論文参考訳（メタデータ） (2025-09-29T16:18:32Z)
H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction [39.22287224290769]
H3Rは、潜在融合と注目に基づく機能集約を統合するハイブリッドフレームワークである。両パラダイムを統合することで,既存手法よりも2$times$高速に収束しながら,一般化が促進される。本手法は,ロバストなクロスデータセットの一般化を実証しながら,可変数および高分解能な入力ビューをサポートする。
論文参考訳（メタデータ） (2025-08-05T05:56:30Z)
Cross-Layer Discrete Concept Discovery for Interpreting Language Models [13.842670153893977]
クロス層VQ-VAEは、ベクトル量子化を使用して層間の表現をマッピングするフレームワークである。本手法は,量子化中のトップk温度に基づくサンプリングとEMAコードブック更新を一意に組み合わせる。
論文参考訳（メタデータ） (2025-06-24T22:43:36Z)
Cross-architecture universal feature coding via distribution alignment [88.73189953617594]
クロスアーキテクチャユニバーサル特徴符号化(CAUFC)という新しい研究課題を導入する。まず,CNN と Transformer が一貫した2次元トークン形式に特徴付けるフォーマットアライメント手法を設計し,また,トランケーションと正規化によって統計分布を調和させる特徴値アライメント手法を提案する。本稿では,CAUFCを最初に研究する試みとして,画像分類作業における手法の評価を行い,本手法がアーキテクチャ固有のベースラインに比べて高いレート精度のトレードオフを実現することを示す。
論文参考訳（メタデータ） (2025-06-15T06:14:02Z)
ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文参考訳（メタデータ） (2023-03-10T14:38:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。