論文の概要: Visual Word Sense Disambiguation with CLIP through Dual-Channel Text Prompting and Image Augmentations
- arxiv url: http://arxiv.org/abs/2602.06799v1
- Date: Fri, 06 Feb 2026 15:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.460311
- Title: Visual Word Sense Disambiguation with CLIP through Dual-Channel Text Prompting and Image Augmentations
- Title(参考訳): デュアルチャネルテキストプロンプトと画像強調によるCLIPによる視覚的単語センスの曖昧化
- Authors: Shamik Bhattacharya, Daniel Perkins, Yaren Dogan, Vineeth Konjeti, Sudarshan Srinivasan, Edmon Begoli,
- Abstract要約: 我々はあいまいな言語と候補画像を共有マルチモーダル空間に投影するフレームワークを開発した。
我々は、WordNetシノニムを用いたセマンティクスと写真に基づくプロンプトの二重チャネルアンサンブルを用いて、テキスト埋め込みを豊かにする。
SemEval-2023 VWSDデータセットで評価すると、MRRは0.7227から0.7590に、ヒットレートは0.5810から0.6220に上昇する。
- 参考スコア(独自算出の注目度): 1.5727714975887774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ambiguity poses persistent challenges in natural language understanding for large language models (LLMs). To better understand how lexical ambiguity can be resolved through the visual domain, we develop an interpretable Visual Word Sense Disambiguation (VWSD) framework. The model leverages CLIP to project ambiguous language and candidate images into a shared multimodal space. We enrich textual embeddings using a dual-channel ensemble of semantic and photo-based prompts with WordNet synonyms, while image embeddings are refined through robust test-time augmentations. We then use cosine similarity to determine the image that best aligns with the ambiguous text. When evaluated on the SemEval-2023 VWSD dataset, enriching the embeddings raises the MRR from 0.7227 to 0.7590 and the Hit Rate from 0.5810 to 0.6220. Ablation studies reveal that dual-channel prompting provides strong, low-latency performance, whereas aggressive image augmentation yields only marginal gains. Additional experiments with WordNet definitions and multilingual prompt ensembles further suggest that noisy external signals tend to dilute semantic specificity, reinforcing the effectiveness of precise, CLIP-aligned prompts for visual word sense disambiguation.
- Abstract(参考訳): 曖昧さは、大きな言語モデル(LLM)に対する自然言語理解において永続的な課題をもたらす。
視覚領域を通して語彙的曖昧性がどのように解決されるかをよりよく理解するために,解釈可能なVisual Word Sense Disambiguation (VWSD) フレームワークを開発した。
このモデルはCLIPを利用して曖昧な言語と候補画像を共有マルチモーダル空間に投影する。
我々は,WordNetシノニムを用いたセマンティクスと写真ベースプロンプトの二重チャネルアンサンブルを用いて,テキスト埋め込みを豊かにし,画像埋め込みは堅牢なテスト時間拡張によって洗練される。
次に、コサイン類似性を使用して、曖昧なテキストに最もよく適合する画像を決定する。
SemEval-2023 VWSDデータセットで評価すると、MRRは0.7227から0.7590に、ヒットレートは0.5810から0.6220に上昇する。
アブレーション研究では、デュアルチャネルのプロンプトが強い低レイテンシのパフォーマンスを提供するのに対し、アグレッシブ画像の増大は限界ゲインしか得られないことが示されている。
WordNetの定義と多言語プロンプトアンサンブルによるさらなる実験により、ノイズのある外部信号は意味的特異性を希薄にし、視覚的単語感覚の曖昧さに対する精度の高いCLIP対応プロンプトの有効性を補強する傾向が示唆された。
関連論文リスト
- VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [16.90061119174727]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。
まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。
第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文 参考訳(メタデータ) (2025-08-04T11:57:10Z) - Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning [69.33115351856785]
本稿では,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。
T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することである。
MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークに対する大規模な実験は、我々のT2I-PALが認識性能を平均3.47%向上させることができることを示している。
論文 参考訳(メタデータ) (2025-06-12T11:09:49Z) - Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。
本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T02:36:48Z) - Embedding and Enriching Explicit Semantics for Visible-Infrared Person Re-Identification [31.011118085494942]
Visible-infrared person re-identification (VIReID)は、異なるモードで同じ同一の歩行者画像を取得する。
既存の方法は画像のみから視覚的コンテンツを学習するが、高レベルの意味を感知する能力は欠如している。
本稿では,意味的にリッチな横断歩行者表現を学習するための埋め込み・拡張型明示的意味論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T14:27:30Z) - Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training [30.071860810401933]
本稿では,対照的な言語イメージ事前学習(CLIP)を1つの新しい包括的パラダイムに発展させる。
画像からテキストへのキャプションを用いて、複数の視点、粒度、階層から各画像のマルチテキストを生成する。
私たちの総合的なCLIPは、画像テキスト検索、オープン語彙分類、濃密な視覚タスクなど、既存のCLIPよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-11-30T11:27:58Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Augmenters at SemEval-2023 Task 1: Enhancing CLIP in Handling
Compositionality and Ambiguity for Zero-Shot Visual WSD through Prompt
Augmentation and Text-To-Image Diffusion [7.708214550816408]
本稿では、英語のVisual Word Sense Disambiguation Taskに対するゼロショットアプローチについて述べる。
予備研究により、CLIPを用いたフレーズと候補画像のマッチングは、画像とテキストのペアの多対多性に悩まされていることがわかった。
CLIPテキストエンコーダは、自然言語の合成性を捉える能力に制限がある可能性がある。
論文 参考訳(メタデータ) (2023-07-09T22:39:37Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。