論文の概要: Let's Roll a BiFTA: Bi-refinement for Fine-grained Text-visual Alignment in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.20419v1
- Date: Wed, 28 Jan 2026 09:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.87595
- Title: Let's Roll a BiFTA: Bi-refinement for Fine-grained Text-visual Alignment in Vision-Language Models
- Title(参考訳): BiFTAを転がしてみよう:視覚言語モデルにおける微細なテキスト視覚アライメントのためのバイリファインメント
- Authors: Yuhao Sun, Chengyi Cai, Jiacheng Zhang, Zesheng Ye, Xingliang Yuan, Feng Liu,
- Abstract要約: 微細なテキスト記述や局所的な画像パッチは冗長な情報を含むことが多く、テキスト・視覚的アライメントがより効果的になる。
BiFTAは、ViTベースのCLIPデータセットとResNetベースのCLIPデータセットの両方で、6つのベンチマークで優れたゼロショットパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 28.42306540452353
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent research has shown that aligning fine-grained text descriptions with localized image patches can significantly improve the zero-shot performance of pre-trained vision-language models (e.g., CLIP). However, we find that both fine-grained text descriptions and localized image patches often contain redundant information, making text-visual alignment less effective. In this paper, we tackle this issue from two perspectives: \emph{View Refinement} and \emph{Description refinement}, termed as \textit{\textbf{Bi}-refinement for \textbf{F}ine-grained \textbf{T}ext-visual \textbf{A}lignment} (BiFTA). \emph{View refinement} removes redundant image patches with high \emph{Intersection over Union} (IoU) ratios, resulting in more distinctive visual samples. \emph{Description refinement} removes redundant text descriptions with high pairwise cosine similarity, ensuring greater diversity in the remaining descriptions. BiFTA achieves superior zero-shot performance on 6 benchmark datasets for both ViT-based and ResNet-based CLIP, justifying the necessity to remove redundant information in visual-text alignment.
- Abstract(参考訳): 近年の研究では、微粒なテキスト記述と局所的な画像パッチを合わせることで、事前訓練された視覚言語モデル(例えば、CLIP)のゼロショット性能が大幅に向上することが示されている。
しかし、微細なテキスト記述と局所的な画像パッチの両方に冗長な情報が含まれており、テキスト・視覚的アライメントがより効果的でないことが判明した。
本稿では、この問題を2つの観点から解決する: \emph{View Refinement} と \emph{Description refinement}、すなわち \textit{\textbf{Bi}-refinement for \textbf{F}ine-grained \textbf{T}ext-visual \textbf{A}lignment} (BiFTA)。
\emph{View refinement} は、高い \emph{Intersection over Union} (IoU) 比を持つ冗長なイメージパッチを削除する。
\emph{Description refinement} は、余分なテキスト記述を高いペアワイズなコサイン類似性で取り除き、残りの記述の多様性を確実にする。
BiFTAは、ViTベースのCLIPとResNetベースのCLIP用の6つのベンチマークデータセットで優れたゼロショットパフォーマンスを実現し、ビジュアルテキストアライメントにおける冗長な情報を削除する必要性を正当化している。
関連論文リスト
- $β$-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment [53.42377319350806]
$-CLIPは、多言語テキスト条件のコントラスト学習フレームワークである。
$-CALは、この階層に固有のセマンティックオーバーラップに対処する。
$-CLIPは、高密度視覚言語対応のための堅牢で適応的なベースラインを確立する。
論文 参考訳(メタデータ) (2025-12-14T13:03:20Z) - Restore Text First, Enhance Image Later: Two-Stage Scene Text Image Super-Resolution with Glyph Structure Guidance [26.26467179820939]
生成超解像法は、自然な画像に対して強い性能を示すが、歪んだテキストを示す。
textbfText-textbfImage textbfGuided suptextbfEr-textbfResolution)を導入する。
最初は正確なテキスト構造を再構築し、次にフルイメージの超解像を導出する。
論文 参考訳(メタデータ) (2025-10-24T15:59:04Z) - FocusDiff: Advancing Fine-Grained Text-Image Alignment for Autoregressive Visual Generation through RL [78.59912944698992]
微細なテキスト画像のセマンティックアライメントを強化するためにFocusDiffを提案する。
我々は、類似した全体表現を持つペアテキストと画像の新しいデータセットを構築するが、局所的な意味論を区別する。
提案手法は,既存のテキスト・画像・ベンチマークにおける最先端性能を実現し,PairCompの先行手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-06-05T18:36:33Z) - Can language-guided unsupervised adaptation improve medical image classification using unpaired images and texts? [14.547437214214485]
医用画像分類では,ラベル付き医用画像が不足しているため,教師あり学習が困難である。
視覚言語モデル(VLM)のアンダーラインUnアンダーライン適応(textttMedUnA)を提案する。
LLMの生成した各クラスの記述は、テキスト埋め込みにエンコードされ、クロスモーダルアダプタを介してクラスラベルにマッチする。
論文 参考訳(メタデータ) (2024-09-03T09:25:51Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。