論文の概要: STAIR: Learning Sparse Text and Image Representation in Grounded Tokens
- arxiv url: http://arxiv.org/abs/2301.13081v1
- Date: Mon, 30 Jan 2023 17:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 13:46:16.750788
- Title: STAIR: Learning Sparse Text and Image Representation in Grounded Tokens
- Title(参考訳): STAIR: 接地トークンにおけるスパーステキストと画像表現の学習
- Authors: Chen Chen, Bowen Zhang, Liangliang Cao, Jiguang Shen, Tom Gunter,
Albin Madappally Jose, Alexander Toshev, Jonathon Shlens, Ruoming Pang,
Yinfei Yang
- Abstract要約: 疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
- 参考スコア(独自算出の注目度): 84.14528645941128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image and text retrieval is one of the foundational tasks in the vision and
language domain with multiple real-world applications. State-of-the-art
approaches, e.g. CLIP, ALIGN, represent images and texts as dense embeddings
and calculate the similarity in the dense embedding space as the matching
score. On the other hand, sparse semantic features like bag-of-words models are
more interpretable, but believed to suffer from inferior accuracy than dense
representations. In this work, we show that it is possible to build a sparse
semantic representation that is as powerful as, or even better than, dense
presentations. We extend the CLIP model and build a sparse text and image
representation (STAIR), where the image and text are mapped to a sparse token
space. Each token in the space is a (sub-)word in the vocabulary, which is not
only interpretable but also easy to integrate with existing information
retrieval systems. STAIR model significantly outperforms a CLIP model with
+$4.9\%$ and +$4.3\%$ absolute Recall@1 improvement on COCO-5k
text$\rightarrow$image and image$\rightarrow$text retrieval respectively. It
also achieved better performance on both of ImageNet zero-shot and linear
probing compared to CLIP.
- Abstract(参考訳): 画像とテキストの検索は、複数の現実世界のアプリケーションを持つビジョンと言語ドメインにおける基本的なタスクの1つです。
最先端のアプローチ、例えばクリップ、アライメント、画像やテキストを密埋め込みとして表現し、密埋め込み空間の類似度をマッチングスコアとして計算する。
一方、バガオブワードモデルのようなばらばらな意味的特徴はより解釈可能であるが、密接な表現よりも精度が劣ると考えられている。
本研究では,密集したプレゼンテーションと同等,あるいはそれ以上に強力な,スパースな意味表現を構築することが可能であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
空間内の各トークンは語彙内の(サブ)ワードであり、解釈可能であるだけでなく、既存の情報検索システムとの統合も容易である。
STAIRモデルは、COCO-5kテキスト$\rightarrow$imageと image$\rightarrow$text検索において、+4.9\%$と+4.3\%$絶対リコール@1の改善でCLIPモデルを大幅に上回る。
また、CLIPと比較して、ImageNetゼロショットとリニアプローブの両方のパフォーマンスも向上した。
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。
本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文 参考訳(メタデータ) (2024-01-22T18:59:29Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Less is More: Removing Text-regions Improves CLIP Training Efficiency
and Robustness [19.77762574325687]
CLIP(Contrastive Language- Image Pre-training)モデルとその変種は、多くのアプリケーションにおいて事実上のバックボーンになりつつある。
CLIPトレーニングの効率性と堅牢性を改善するための2つの効果的なアプローチについて論じる。
私たちのフィルタベースのCLIPモデルでは、トップ1の精度は68.78%で、すべて50%未満の精度で過去のモデルより優れています。
論文 参考訳(メタデータ) (2023-05-08T23:47:07Z) - LD-ZNet: A Latent Diffusion Approach for Text-Based Image Segmentation [10.623430999818925]
本稿では,インターネット規模のデータセットに基づいて学習した潜在拡散モデル(LDM)を用いて,実画像とAI画像のセグメンテーションを行う手法を提案する。
自然画像のテキストと画像のセグメンテーションにおいて,標準ベースラインよりも6%向上することを示す。
AI生成画像では、最先端技術と比較して20%近く改善されている。
論文 参考訳(メタデータ) (2023-03-22T06:55:01Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。