論文の概要: Enhancing Compositional Reasoning in CLIP via Reconstruction and Alignment of Text Descriptions
- arxiv url: http://arxiv.org/abs/2510.16540v1
- Date: Sat, 18 Oct 2025 15:35:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.029721
- Title: Enhancing Compositional Reasoning in CLIP via Reconstruction and Alignment of Text Descriptions
- Title(参考訳): テキスト記述の再構成とアライメントによるCLIPの合成推論の強化
- Authors: Jihoon Kwon, Kyle Min, Jy-yong Sohn,
- Abstract要約: 本稿では、合成推論を強化するための微調整手法であるReconstruction and Alignment of text Descriptions (READ)を紹介する。
本稿では,READ法を事前学習したCLIPモデルに適用したREAD-CLIPが,5つの主要なコンポジション推論ベンチマークにおいて最先端の性能を実現することを示す。
- 参考スコア(独自算出の注目度): 11.84307995133716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances, vision-language models trained with standard contrastive objectives still struggle with compositional reasoning -- the ability to understand structured relationships between visual and linguistic elements. This shortcoming is largely due to the tendency of the text encoder to focus on individual words rather than their relations, a limitation reinforced by contrastive training that primarily aligns words with visual objects. In this paper, we introduce REconstruction and Alignment of text Descriptions (READ), a fine-tuning method designed to enhance compositional reasoning by adding two auxiliary objectives to the contrastive learning: (1) a token-level reconstruction objective, where a frozen pre-trained decoder reconstructs alternative captions based on the embedding of the original caption; and (2) a sentence-level alignment objective, which explicitly aligns paraphrased sentences in the embedding space. We show that READ-CLIP, a model derived by applying the READ method to the pre-trained CLIP model, achieves the state-of-the-art performance across five major compositional reasoning benchmarks, outperforming the strongest conventional fine-tuning baseline by up to 4.1%. Furthermore, applying the READ to existing CLIP variants (including NegCLIP and FSC-CLIP) also improves performance on these benchmarks. Quantitative and qualitative analyses reveal that our proposed objectives -- reconstruction and alignment -- offer complementary benefits: the former encourages the encoder to capture relationships between words within a caption, while the latter ensures consistent representations for paraphrases expressed with different wording.
- Abstract(参考訳): 近年の進歩にもかかわらず、標準的な対照的な目的で訓練された視覚言語モデルは、視覚的要素と言語的要素の間の構造的関係を理解する能力である構成的推論といまだに苦労している。
この欠点は主に、テキストエンコーダが関係よりも個々の単語に注目する傾向にあるためであり、主に単語を視覚的対象と整列する対照的な訓練によって強化された制限である。
本稿では, コントラスト学習に2つの補助的目的を加えることで, 合成推論を強化するための微調整手法であるReconstruction and Alignment of Text Descriptions(READ)を紹介する。(1) フリーズドプレトレーニングデコーダが, 元の字幕の埋め込みに基づいて代替字幕を再構築するトークンレベル再構成目標, (2) 埋め込み空間におけるパラフレーズ文を明示的にアライメントする文レベルアライメント目標である。
プレトレーニングCLIPモデルにREAD法を適用したREAD-CLIPは,5つの主要な合成推論ベンチマークにおいて最先端の性能を実現し,従来の微調整ベースラインを最大4.1%上回る性能を示した。
さらに、既存のCLIP(NegCLIPとFSC-CLIPを含む)にREADを適用することで、これらのベンチマークのパフォーマンスも向上する。
前者はキャプション内で単語間の関係を捕捉するようエンコーダを奨励し、後者は異なる単語で表現されたパラフレーズの一貫性のある表現を保証している。
関連論文リスト
- AttriPrompt: Dynamic Prompt Composition Learning for CLIP [41.37140060183439]
AttriPromptは、テキストの意味表現を強化し洗練する新しいフレームワークである。
本稿では,提案するテキスト特徴量と非プロンプトテキスト特徴量の間に明示的な正規化制約を適用することで,自己正規化機構を導入する。
実験では、AttriPromptが最先端の手法よりも優れており、ベース・ツー・ノーベル・セッティングにおいて最大7.37%の改善が達成されている。
論文 参考訳(メタデータ) (2025-09-07T07:07:59Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Natural Language Inference Improves Compositionality in Vision-Language Models [35.71815423077561]
所与の前提から細部と矛盾を生じさせる原則的アプローチを提案する。
CECEは、その中核的な意味を維持しながら、語彙的に多様な文を生成する。
我々は、追加の微調整を必要とせず、従来の方法よりも大幅に改善した。
論文 参考訳(メタデータ) (2024-10-29T17:54:17Z) - LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations [43.484570564890866]
既存の視覚言語モデル(VLM)は、テキスト記述を単位として扱い、個々の概念をプロンプトで混乱させる。
CC-Negは,228,246のイメージ,真のキャプション,それに対応する否定的なキャプションを含むデータセットである。
提案するCoN-CLIPフレームワークであるCLIPの対照的な損失に対する修正とともにCC-Negを用いることで,否定の理解が向上した。
論文 参考訳(メタデータ) (2024-03-29T17:33:42Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。