論文の概要: TagAlign: Improving Vision-Language Alignment with Multi-Tag
Classification
- arxiv url: http://arxiv.org/abs/2312.14149v1
- Date: Thu, 21 Dec 2023 18:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 13:32:06.253480
- Title: TagAlign: Improving Vision-Language Alignment with Multi-Tag
Classification
- Title(参考訳): TagAlign: マルチタグ分類による視覚言語アライメントの改善
- Authors: Qinying Liu, Kecheng Zheng, Wu Wei, Zhan Tong, Yu Liu, Wei Chen, Zilei
Wang, Yujun Shen
- Abstract要約: 画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が高いオブジェクト(textite、catなど)と属性(textite、 blackなど)を記述から解析する。
実験は、既存の選択肢よりも平均3.65%のフレームワークの改善を裏付けます。
- 参考スコア(独自算出の注目度): 59.23888157495973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The crux of learning vision-language models is to extract semantically
aligned information from visual and linguistic data. Existing attempts usually
face the problem of coarse alignment, \textit{e.g.}, the vision encoder
struggles in localizing an attribute-specified object. In this work, we propose
an embarrassingly simple approach to better align image and text features with
no need of additional data formats other than image-text pairs. Concretely,
given an image and its paired text, we manage to parse objects (\textit{e.g.},
cat) and attributes (\textit{e.g.}, black) from the description, which are
highly likely to exist in the image. It is noteworthy that the parsing pipeline
is fully automatic and thus enjoys good scalability. With these parsed
semantics as supervision signals, we can complement the commonly used
image-text contrastive loss with the multi-tag classification loss. Extensive
experimental results on a broad suite of semantic segmentation datasets
substantiate the average 3.65\% improvement of our framework over existing
alternatives. Furthermore, the visualization results indicate that attribute
supervision makes vision-language models accurately localize
attribute-specified objects. Project page can be found at
https://qinying-liu.github.io/Tag-Align/
- Abstract(参考訳): 視覚言語モデルの欠如は、視覚的および言語学的データから意味的に整合した情報を抽出することである。
既存の試みでは、通常は粗いアライメントの問題に直面する。例えば、vision encoderは属性指定オブジェクトのローカライズに苦労している。
本研究では,画像とテキストの対以外のデータ形式を必要とせずに,画像とテキストの機能を調整するための,恥ずかしいほどシンプルなアプローチを提案する。
具体的には、画像とそのペアテキストが与えられた場合、その画像に存在する可能性が高い記述からオブジェクト (\textit{e.g.}, cat) と属性 (\textit{e.g.}, black) を解析します。
パースパイプラインは完全に自動化されており、優れたスケーラビリティを享受しています。
これらの解析的セマンティクスを監視信号として使用することにより、画像テキストのコントラスト損失とマルチタグ分類損失を補完することができる。
セマンティクスセグメンテーションデータセットの幅広いスイートに関する広範な実験の結果は、既存の代替案よりも平均 3.65 %向上しています。
さらに,属性管理により,属性指定対象を視覚言語モデルで正確にローカライズすることを示す。
プロジェクトページはhttps://qinying-liu.github.io/Tag-Align/にある。
関連論文リスト
- Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Tag2Text: Guiding Vision-Language Model via Image Tagging [32.30893277821682]
本稿では,視覚言語事前学習フレームワークであるTag2Textについて述べる。
対象タグを手動でラベル付けするか,あるいはオフザシェルフ検出器で自動的に検出する従来の手法とは対照的に,本手法では画像ペアリングテキストから解析したタグを用いて画像タグを明示的に学習する。
論文 参考訳(メタデータ) (2023-03-10T02:16:35Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data [39.421312439022316]
我々はLANITと呼ばれるLANguage-driven Image-to-image Translationモデルを提案する。
画像と属性の類似性はサンプル単位のドメインラベルを示す。
いくつかの標準ベンチマークの実験では、LANITは既存のモデルに匹敵する、あるいは優れた性能を達成している。
論文 参考訳(メタデータ) (2022-08-31T14:30:00Z) - Revising Image-Text Retrieval via Multi-Modal Entailment [25.988058843564335]
多対多のマッチング現象は、広く使われている画像テキスト検索データセットで非常によく見られる。
文が画像と関連キャプションによって関連付けられているかどうかを判定するマルチモーダル・エンターメント分類器を提案する。
論文 参考訳(メタデータ) (2022-08-22T07:58:54Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。