論文の概要: TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification
- arxiv url: http://arxiv.org/abs/2312.14149v4
- Date: Tue, 26 Mar 2024 12:47:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 22:13:20.046356
- Title: TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification
- Title(参考訳): TagAlign: マルチタグ分類による視覚言語アライメントの改善
- Authors: Qinying Liu, Wei Wu, Kecheng Zheng, Zhan Tong, Jiawei Liu, Yu Liu, Wei Chen, Zilei Wang, Yujun Shen,
- Abstract要約: 画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
- 参考スコア(独自算出の注目度): 59.779532652634295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The crux of learning vision-language models is to extract semantically aligned information from visual and linguistic data. Existing attempts usually face the problem of coarse alignment, e.g., the vision encoder struggles in localizing an attribute-specified object. In this work, we propose an embarrassingly simple approach to better align image and text features with no need of additional data formats other than image-text pairs. Concretely, given an image and its paired text, we manage to parse objects (e.g., cat) and attributes (e.g., black) from the description, which are highly likely to exist in the image. It is noteworthy that the parsing pipeline is fully automatic and thus enjoys good scalability. With these parsed semantics as supervision signals, we can complement the commonly used image-text contrastive loss with the multi-tag classification loss. Extensive experimental results on a broad suite of semantic segmentation datasets substantiate the average 5.2\% improvement of our framework over existing alternatives. Furthermore, the visualization results indicate that attribute supervision makes vision-language models accurately localize attribute-specified objects. Project page can be found at https://qinying-liu.github.io/Tag-Align.
- Abstract(参考訳): 視覚言語モデル学習の要点は、視覚的および言語的データから意味的に整合した情報を抽出することである。
既存の試みは通常、粗いアライメント、例えば視覚エンコーダが属性指定オブジェクトのローカライズに苦労する問題に直面する。
本研究では、画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
具体的には、画像とそのペアテキストが与えられた場合、画像中に非常に存在する可能性が高い記述からオブジェクト(eg, cat)と属性(eg, black)を解析する。
パースパイプラインは完全に自動化されており、優れたスケーラビリティを享受できることは注目に値する。
これらの解析的セマンティクスを監視信号として用いることで、一般的に使用される画像テキストのコントラスト損失とマルチタグ分類損失を補完することができる。
セマンティックセグメンテーションデータセットの幅広いスイートにおける大規模な実験結果は、既存の選択肢よりも平均5.2\%のフレームワークの改善を裏付けるものである。
さらに,属性管理により,属性指定対象を視覚言語モデルで正確にローカライズすることを示す。
プロジェクトページはhttps://qinying-liu.github.io/Tag-Align.orgにある。
関連論文リスト
- Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Tag2Text: Guiding Vision-Language Model via Image Tagging [32.30893277821682]
本稿では,視覚言語事前学習フレームワークであるTag2Textについて述べる。
対象タグを手動でラベル付けするか,あるいはオフザシェルフ検出器で自動的に検出する従来の手法とは対照的に,本手法では画像ペアリングテキストから解析したタグを用いて画像タグを明示的に学習する。
論文 参考訳(メタデータ) (2023-03-10T02:16:35Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data [39.421312439022316]
我々はLANITと呼ばれるLANguage-driven Image-to-image Translationモデルを提案する。
画像と属性の類似性はサンプル単位のドメインラベルを示す。
いくつかの標準ベンチマークの実験では、LANITは既存のモデルに匹敵する、あるいは優れた性能を達成している。
論文 参考訳(メタデータ) (2022-08-31T14:30:00Z) - Revising Image-Text Retrieval via Multi-Modal Entailment [25.988058843564335]
多対多のマッチング現象は、広く使われている画像テキスト検索データセットで非常によく見られる。
文が画像と関連キャプションによって関連付けられているかどうかを判定するマルチモーダル・エンターメント分類器を提案する。
論文 参考訳(メタデータ) (2022-08-22T07:58:54Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。