論文の概要: BiCLIP: Domain Canonicalization via Structured Geometric Transformation
- arxiv url: http://arxiv.org/abs/2603.08942v1
- Date: Mon, 09 Mar 2026 21:26:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.834112
- Title: BiCLIP: Domain Canonicalization via Structured Geometric Transformation
- Title(参考訳): BiCLIP: 構造的幾何学変換によるドメインの正準化
- Authors: Pranav Mantini, Shishir K. Shah,
- Abstract要約: BiCLIPは、クロスモーダルアライメントを強化するために、マルチモーダル機能にターゲット変換を適用するフレームワークである。
我々のアプローチは、極端に単純でパラメータのフットプリントが低いのが特徴です。
- 参考スコア(独自算出の注目度): 4.679031868857942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models (VLMs) have demonstrated remarkable zero-shot capabilities, yet adapting these models to specialized domains remains a significant challenge. Building on recent theoretical insights suggesting that independently trained VLMs are related by a canonical transformation, we extend this understanding to the concept of domains. We hypothesize that image features across disparate domains are related by a canonicalized geometric transformation that can be recovered using a small set of anchors. Few-shot classification provides a natural setting for this alignment, as the limited labeled samples serve as the anchors required to estimate this transformation. Motivated by this hypothesis, we introduce BiCLIP, a framework that applies a targeted transformation to multimodal features to enhance cross-modal alignment. Our approach is characterized by its extreme simplicity and low parameter footprint. Extensive evaluations across 11 standard benchmarks, including EuroSAT, DTD, and FGVCAircraft, demonstrate that BiCLIP consistently achieves state-of-the-art results. Furthermore, we provide empirical verification of existing geometric findings by analyzing the orthogonality and angular distribution of the learned transformations, confirming that structured alignment is the key to robust domain adaptation. Code is available at https://github.com/QuantitativeImagingLaboratory/BilinearCLIP
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の進歩は目覚ましいゼロショット能力を示しているが、これらのモデルを専門領域に適応させることは大きな課題である。
独立に訓練されたVLMが正準変換によって関連していることを示す最近の理論的洞察に基づいて、この理解をドメインの概念にまで拡張する。
異なる領域にまたがる画像の特徴は、小さなアンカーセットを用いて復元できる正準化幾何変換によって関連付けられると仮定する。
限られたラベル付きサンプルは、この変換を推定するのに必要なアンカーとして機能するため、このアライメントに自然な設定を提供するものはほとんどない。
この仮説に動機づけられたBiCLIPは、マルチモーダルな特徴にターゲット変換を適用し、相互モーダルなアライメントを強化するフレームワークである。
我々のアプローチは、極端に単純でパラメータのフットプリントが低いのが特徴です。
EuroSAT、DTD、FGVCAircraftを含む11の標準ベンチマークの広範な評価は、BiCLIPが一貫して最先端の結果を達成することを示した。
さらに、学習した変換の直交性および角分布を分析し、構造的アライメントが堅牢なドメイン適応の鍵であることを確認することにより、既存の幾何学的発見を実証的に検証する。
コードはhttps://github.com/QuantitativeImagingLaboratory/BilinearCLIPで入手できる。
関連論文リスト
- Invariance on Manifolds: Understanding Robust Visual Representations for Place Recognition [19.200074425090595]
本稿では,2次幾何統計フレームワークを提案する。
提案手法では、固定されたトレーニング済みのバックボーン上に構築されたトレーニング不要のフレームワークを導入し、パラメータ更新なしで強力なゼロショット一般化を実現する。
論文 参考訳(メタデータ) (2026-01-31T18:12:29Z) - FOUND: Fourier-based von Mises Distribution for Robust Single Domain Generalization in Object Detection [46.14695068852788]
オブジェクト検出のための単一ドメインの一般化は、対象ドメインに効果的に一般化できる単一のソースドメイン上でモデルをトレーニングすることを目的としている。
本稿では、von Mises-Fisher(vMF)分布とフーリエ変換をCLIP誘導パイプラインに統合することにより、オブジェクト検出を強化する新しいフレームワークを提案する。
提案手法はCLIPのセマンティックアライメントの利点を保全するだけでなく,機能多様性とドメイン間の構造的整合性も強化する。
論文 参考訳(メタデータ) (2025-11-13T14:28:10Z) - Geometrically Constrained and Token-Based Probabilistic Spatial Transformers [5.437226012505534]
我々は、トランスフォーマーベースのビジョンパイプラインの標準化ツールとして、空間トランスフォーマーネットワーク(STN)を再考する。
本稿では、堅牢性を向上させる確率的、コンポーネントワイドな拡張を提案する。
本手法が他のSTNと比較して頑健さを常に向上することを示す。
論文 参考訳(メタデータ) (2025-09-14T11:30:53Z) - Feature Alignment with Equivariant Convolutions for Burst Image Super-Resolution [52.55429225242423]
本稿では,同変畳み込みに基づくアライメントを特徴とするBurst Image Super-Resolution (BISR) のための新しいフレームワークを提案する。
これにより、アライメント変換は画像領域の明示的な監督を通じて学習でき、特徴領域に容易に適用できる。
BISRベンチマークの実験は、定量的メトリクスと視覚的品質の両方において、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-11T11:13:10Z) - Dual Adaptive Representation Alignment for Cross-domain Few-shot
Learning [58.837146720228226]
ベース知識から学習することで、限られたサポートサンプルを持つ新規なクエリを認識することを目的としている。
この設定の最近の進歩は、ベース知識と新しいクエリサンプルが同じドメインに分散されていることを前提としている。
本稿では,ターゲットドメインで利用可能なサンプルが極めて少ないドメイン間数ショット学習の問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-06-18T09:52:16Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。