論文の概要: Semantic Token Reweighting for Interpretable and Controllable Text Embeddings in CLIP
- arxiv url: http://arxiv.org/abs/2410.08469v1
- Date: Wed, 16 Oct 2024 14:09:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:06:36.384315
- Title: Semantic Token Reweighting for Interpretable and Controllable Text Embeddings in CLIP
- Title(参考訳): CLIPにおける解釈および制御可能なテキスト埋め込みのための意味的トークン再重み付け
- Authors: Eunji Kim, Kyuhong Shim, Simyung Chang, Sungroh Yoon,
- Abstract要約: CLIPのようなVision-Language Models (VLM)内のテキストエンコーダは、画像と共有する埋め込み空間へのテキスト入力の変換において重要な役割を果たす。
解釈可能なテキスト埋め込み(SToRI)を構築するためのセマンティックトークン再重み付けフレームワークを提案する。
SToRIは文脈的重要性に基づいて意味的要素を差分重み付けすることでCLIPのテキスト符号化プロセスを洗練する。
- 参考スコア(独自算出の注目度): 46.53595526049201
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A text encoder within Vision-Language Models (VLMs) like CLIP plays a crucial role in translating textual input into an embedding space shared with images, thereby facilitating the interpretative analysis of vision tasks through natural language. Despite the varying significance of different textual elements within a sentence depending on the context, efforts to account for variation of importance in constructing text embeddings have been lacking. We propose a framework of Semantic Token Reweighting to build Interpretable text embeddings (SToRI), which incorporates controllability as well. SToRI refines the text encoding process in CLIP by differentially weighting semantic elements based on contextual importance, enabling finer control over emphasis responsive to data-driven insights and user preferences. The efficacy of SToRI is demonstrated through comprehensive experiments on few-shot image classification and image retrieval tailored to user preferences.
- Abstract(参考訳): CLIPのようなVision-Language Models(VLM)内のテキストエンコーダは、画像と共有された埋め込み空間へのテキスト入力の翻訳において重要な役割を果たす。
文脈によって文中の異なるテキスト要素の異なる重要性にもかかわらず、テキスト埋め込み構築における重要性の変動を考慮する努力は欠如している。
本稿では, セマンティックトケン再重み付けのフレームワークを提案し, 可制御性を組み込んだ解釈可能なテキスト埋め込み (SToRI) を構築する。
SToRIは、文脈的重要性に基づいて意味的要素を差分重み付けすることで、CLIPのテキストエンコーディングプロセスを洗練し、データ駆動の洞察やユーザの好みに応答する強調に対するより細かい制御を可能にする。
SToRIの有効性は、ユーザの好みに合わせて、スクリーンショット画像の分類と画像検索に関する総合的な実験を通じて実証される。
関連論文リスト
- ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - Uncovering the Text Embedding in Text-to-Image Diffusion Models [17.108496821429494]
テキストの埋め込みは、テキストと画像の間の重要な仲介として、比較的未発見のままである。
我々は,単語ごとの埋め込みの重要性と,テキスト埋め込みにおける文脈的相関に関する2つの重要な知見を同定した。
テキスト埋め込みは本質的に多様な意味的ポテンシャルを持ち、特異値分解のレンズを通してこの性質を明らかにする。
論文 参考訳(メタデータ) (2024-04-01T14:59:13Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - ContextCLIP: Contextual Alignment of Image-Text pairs on CLIP visual
representations [4.588028371034406]
画像テキストペアのコンテキストアライメントのための文脈的・コントラスト的学習フレームワークであるContextCLIPを提案する。
共同埋め込み空間において,テキストと画像表現を文脈的に整列させることにより,画像テキストのアライメントを改善することが観察された。
ContextCLIPは,テキスト・画像検索タスクの質的性能が良好であり,分類精度が向上した。
論文 参考訳(メタデータ) (2022-11-14T05:17:51Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。