Fugu-MT 論文翻訳(概要): Revisiting Compositionality in Dual-Encoder Vision-Language Models: The Role of Inference

論文の概要: Revisiting Compositionality in Dual-Encoder Vision-Language Models: The Role of Inference

arxiv url: http://arxiv.org/abs/2604.11496v2
Date: Thu, 16 Apr 2026 10:51:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 16:09:14.160772
Title: Revisiting Compositionality in Dual-Encoder Vision-Language Models: The Role of Inference
Title（参考訳）: デュアルエンコーダビジョンランゲージモデルにおける構成性の再検討:推論の役割
Authors: Imanol Miranda, Ander Salaberria, Eneko Agirre, Gorka Azkune,
Abstract要約: 本研究では, 予め訓練したエンコーダを更新することなく, 高精度な領域分割アライメントを推論で行うことにより, 構成性能が劇的に向上することを示す。次に,凍結パッチやトークン埋め込みから直接,このようなアライメントを学習する軽量トランスフォーマーを導入する。
参考スコア（独自算出の注目度）: 18.68720277535819
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Dual-encoder Vision-Language Models (VLMs) such as CLIP are often characterized as bag-of-words systems due to their poor performance on compositional benchmarks. We argue that this limitation may stem less from deficient representations than from the standard inference protocol based on global cosine similarity. First, through controlled diagnostic experiments, we show that explicitly enforcing fine-grained region-segment alignment at inference dramatically improves compositional performance without updating pretrained encoders. We then introduce a lightweight transformer that learns such alignments directly from frozen patch and token embeddings. Comparing against full fine-tuning and prior end-to-end compositional training methods, we find that although these approaches improve in-domain retrieval, their gains do not consistently transfer under distribution shift. In contrast, learning localized alignment over frozen representations matches full fine-tuning on in-domain retrieval while yielding substantial improvements on controlled out-of-domain compositional benchmarks. These results identify global embedding matching as a key bottleneck in dual-encoder VLMs and highlight the importance of alignment mechanisms for robust compositional generalization.
Abstract（参考訳）: CLIPのようなデュアルエンコーダ・ビジョン・ランゲージ・モデル(VLM)は、しばしば、構成ベンチマークの性能が低かったために、単語のバッグ・オブ・ワードシステムとして特徴付けられる。この制限は、グローバルなコサイン類似性に基づく標準推論プロトコルよりも、欠点のある表現に起因する可能性があると我々は主張する。まず, 制御された診断実験により, 予め訓練したエンコーダを更新することなく, 精密な領域分割アライメントを推論で明示的に実施することにより, 構成性能が劇的に向上することを示した。次に,凍結パッチやトークン埋め込みから直接,このようなアライメントを学習する軽量トランスフォーマーを導入する。完全微調整および事前のエンドツーエンド構成訓練法と比較して,これらの手法はドメイン内検索を改善するが,分布シフト下での利得は一貫して伝達されないことがわかった。対照的に、凍結表現に対する局所的なアライメントの学習は、ドメイン内検索の完全な微調整と一致し、制御されたドメイン外のコンポジションベンチマークを大幅に改善する。これらの結果は,デュアルエンコーダVLMにおけるグローバルな埋め込みマッチングを重要なボトルネックとして認識し,ロバストな構成一般化のためのアライメント機構の重要性を強調した。

関連論文リスト

DeCo-DETR: Decoupled Cognition DETR for efficient Open-Vocabulary Object Detection [34.77756071357519]
Open-vocabulary Object Detection (OVOD)は、モデルが事前に定義されたカテゴリを超えてオブジェクトを認識できるようにする。 Deco-DETR(Deco-DeTR:Decoupled Cognition DETR)は、統合されたデカップリングパラダイムによってこれらの課題に対処するビジョン中心のフレームワークである。本稿では,DeCo-DETRが競合ゼロショット検出性能を実現し,推論効率を大幅に向上することを示す。
論文参考訳（メタデータ） (2026-04-03T05:56:29Z)
Beyond BEV: Optimizing Point-Level Tokens for Collaborative Perception [17.654858416126093]
協調的知覚により、エージェントは中間的特徴を交換することで知覚能力を高めることができる。既存の手法は通常、これらの中間機能を2D Bird's-eye-view (BEV)表現として整理する。ポイントレベル最適化トークンを利用した新しい協調認識フレームワークであるCoPLOTを提案する。
論文参考訳（メタデータ） (2025-08-27T07:27:42Z)
Prototype-Guided Pseudo-Labeling with Neighborhood-Aware Consistency for Unsupervised Adaptation [12.829638461740759]
CLIPのような視覚言語モデルに対する教師なし適応では、ゼロショット予測からの擬似ラベルは大きなノイズを示すことが多い。本稿では,プロトタイプの整合性と近傍の整合性を統合することで,CLIPの適応性能を向上させる適応型擬似ラベルフレームワークを提案する。提案手法は、教師なし適応シナリオにおける最先端性能を実現し、計算効率を維持しつつ、より正確な擬似ラベルを提供する。
論文参考訳（メタデータ） (2025-07-22T19:08:24Z)
RAU: Towards Regularized Alignment and Uniformity for Representation Learning in Recommendation [7.193305599721105]
スパースアライメントや不均一な均一性問題に対処するために、正規化アライメントと統一性(RAU)を提案する。 RAUはアライメントと統一性のための2つの新しい正規化手法で構成され、より良いユーザ/イテム表現を学習する。
論文参考訳（メタデータ） (2025-03-24T03:03:21Z)
SARA: Structural and Adversarial Representation Alignment for Training-efficient Diffusion Models [12.26595705520937]
マルチレベル表現制約を強制する階層的アライメントフレームワークであるSARAを紹介する。 ImageNet-256の実験では、SARAはREPAの2倍の速さで1.36のFIDを達成した。
論文参考訳（メタデータ） (2025-03-11T10:17:32Z)
Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文参考訳（メタデータ） (2022-03-18T09:14:13Z)
Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。 SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文参考訳（メタデータ） (2021-12-12T06:11:16Z)
Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。 FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文参考訳（メタデータ） (2021-11-24T08:03:48Z)
HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。 4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文参考訳（メタデータ） (2021-09-30T14:27:50Z)
Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。 IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。 IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文参考訳（メタデータ） (2021-03-02T08:20:08Z)
Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-05-21T06:11:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。