論文の概要: A New Method to Capturing Compositional Knowledge in Linguistic Space
- arxiv url: http://arxiv.org/abs/2412.15632v1
- Date: Fri, 20 Dec 2024 07:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:59.672342
- Title: A New Method to Capturing Compositional Knowledge in Linguistic Space
- Title(参考訳): 言語空間における構成的知識の獲得のための新しい手法
- Authors: Jiahe Wan,
- Abstract要約: ZS-CUは、厳しい負のトレーニングデータを必要とせずに構成的理解を高める新しいタスクである。
予め訓練されたCLIPモデルにおいて,テキストインバージョンを用いてラベルのない画像を擬似トークンにマッピングするYUKINOを提案する。
ユキノはSugarCREPEベンチマークで既存のマルチモーダルSOTAモデルを8%以上上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Compositional understanding allows visual language models to interpret complex relationships between objects, attributes, and relations in images and text. However, most existing methods often rely on hard negative examples and fine-tuning, which can overestimate improvements and are limited by the difficulty of obtaining hard negatives. In this work, we introduce Zero-Shot Compositional Understanding (ZS-CU), a novel task that enhances compositional understanding without requiring hard negative training data. We propose YUKINO (Yielded Compositional Understanding Knowledge via Textual Inversion with NO), which uses textual inversion to map unlabeled images to pseudo-tokens in a pre-trained CLIP model. We propose introducing "no" logical regularization to address the issue of token interaction in inversion. Additionally, we suggest using knowledge distillation to reduce the time complexity of textual inversion. Experimental results show that YUKINO outperforms the existing multi-modal SOTA models by over 8% on the SugarCREPE benchmark, and also achieves significant improvements in image retrieval tasks.
- Abstract(参考訳): 構成的理解により、画像やテキストにおけるオブジェクト、属性、関係の間の複雑な関係を視覚言語モデルで解釈することができる。
しかし、既存のほとんどの手法はハードネガティブな例や微調整に依存しており、改善を過大評価し、ハードネガティブを得る難しさによって制限される。
本研究では,ゼロショット構成理解(ZS-CU)について紹介する。
本稿では,未ラベル画像から擬似トークンへのテキスト逆変換を事前学習したCLIPモデルで行うYUKINO(Yielded Composal Understanding Knowledge via Textual Inversion with NO)を提案する。
逆変換におけるトークン相互作用の問題に対処するために、"no"論理正則化を導入することを提案する。
さらに, 知識蒸留を用いてテキスト逆転の時間的複雑さを低減することを提案する。
実験の結果,YUKINOはSugarCREPEベンチマークで既存のマルチモーダルSOTAモデルよりも8%以上優れており,画像検索タスクの大幅な改善を実現していることがわかった。
関連論文リスト
- HNCSE: Advancing Sentence Embeddings via Hybrid Contrastive Learning with Hard Negatives [17.654412302780557]
HNCSEは、主要なSimCSEアプローチを拡張する、新しい対照的な学習フレームワークである。
HNCSEの目玉は、正と負の両方のサンプルの学習を強化するために、ハードネガティブサンプルの革新的な利用である。
論文 参考訳(メタデータ) (2024-11-19T01:26:20Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality [52.08735848128973]
本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。
負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T15:27:06Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Enhancing Conceptual Understanding in Multimodal Contrastive Learning through Hard Negative Samples [0.6249768559720122]
本稿では,合成ハードネガティブテキストを取り入れた新しい事前学習手法を提案する。
硬い負の項は視覚的概念に対応し、よりきめ細かい視覚的概念とテキスト的概念のアライメントをもたらす。
InpaintCOCOは、視覚言語モデルにおける色、オブジェクト、サイズをきめ細かいアライメントを評価するための新しいデータセットである。
論文 参考訳(メタデータ) (2024-03-05T11:38:48Z) - Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。
本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。
CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文 参考訳(メタデータ) (2023-06-15T03:26:28Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Co-Grounding Networks with Semantic Attention for Referring Expression
Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。
意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。
私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文 参考訳(メタデータ) (2021-03-23T06:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。