論文の概要: Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.04395v1
- Date: Thu, 04 Dec 2025 02:32:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.96104
- Title: Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models
- Title(参考訳): Fourier-Attentive Representation Learning:視覚言語モデルにおけるFew-Shot一般化のためのFourier-Guidedフレームワーク
- Authors: Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen,
- Abstract要約: 本稿では,Fourier解析を用いた視覚表現の分離に対処する新しいフレームワークを提案する。
本手法のコアとなるのは,学習可能な表現トークンが画像の構造的特徴を別々に問合せする,2つのクロスアテンション機構である。
非対称な注入戦略を含む我々の設計では、より堅牢な視覚言語アライメントを学習せざるを得ない。
- 参考スコア(独自算出の注目度): 1.2151902921614741
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large-scale pre-trained Vision-Language Models (VLMs) have demonstrated strong few-shot learning capabilities. However, these methods typically learn holistic representations where an image's domain-invariant structure is implicitly entangled with its domain-specific style. This presents an opportunity to further enhance generalization by disentangling these visual cues. In this paper, we propose Fourier-Attentive Representation Learning (FARL), a novel framework that addresses this by explicitly disentangling visual representations using Fourier analysis. The core of our method is a dual cross-attention mechanism, where learnable representation tokens separately query an image's structural features (from the phase spectrum) and stylistic features (from the amplitude spectrum). This process yields enriched, disentangled tokens that are then injected deep into the VLM encoders to guide adaptation. Our design, which includes an asymmetric injection strategy, forces the model to learn a more robust vision-language alignment. Extensive experiments on 15 datasets demonstrate the effectiveness of our approach.
- Abstract(参考訳): 大規模な事前訓練型ビジョンランゲージモデル(VLM)は、強力な数発の学習能力を示している。
しかし、これらの手法は通常、画像の領域不変構造がドメイン固有のスタイルと暗黙的に絡み合っているような全体論的表現を学習する。
このことは、これらの視覚的手がかりを解き放つことによって、さらなる一般化を促進する機会を与える。
本稿では,Fourier-Attentive Representation Learning (FARL)を提案する。
学習可能な表現トークンは、画像の構造的特徴(位相スペクトルから)とスタイル的特徴(振幅スペクトルから)を別々にクエリする。
このプロセスは、富んだ非絡み合いのトークンをVLMエンコーダに注入し、適応を誘導する。
非対称な注入戦略を含む我々の設計では、より堅牢な視覚言語アライメントを学習せざるを得ない。
15のデータセットに対する大規模な実験は、我々のアプローチの有効性を実証している。
関連論文リスト
- Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Alignment Unlocks Complementarity: A Framework for Multiview Circuit Representation Learning [12.528410977116438]
ブール回路上のマルチビュー学習は、グラフベースの異なる表現が相補的な構造的および意味的な情報を提供するので、大きな可能性を秘めている。
MixGateは、モデルに共有された関数対応表現空間を教える、原則付きトレーニングカリキュラム上に構築されたフレームワークである。
我々のアライメントファースト戦略は、マスク付きモデリングを非効率な手法から強力なパフォーマンスドライバに変換することを示す。
論文 参考訳(メタデータ) (2025-09-25T10:12:04Z) - Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。