Fugu-MT 論文翻訳(概要): Tag2Text: Guiding Vision-Language Model via Image Tagging

論文の概要: Tag2Text: Guiding Vision-Language Model via Image Tagging

arxiv url: http://arxiv.org/abs/2303.05657v1
Date: Fri, 10 Mar 2023 02:16:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-13 16:26:37.208832
Title: Tag2Text: Guiding Vision-Language Model via Image Tagging
Title（参考訳）: Tag2Text:イメージタグによる視覚言語モデルの誘導
Authors: Xinyu Huang, Youcai Zhang, Jinyu Ma, Weiwei Tian, Rui Feng, Yuejie Zhang, Yaqian Li, Yandong Guo, Lei Zhang
Abstract要約: 本稿では,視覚言語事前学習フレームワークであるTag2Textについて述べる。提案手法では,ペアテキストから解析したタグを用いて画像タグを学習し,視覚言語モデルへのガイダンスを提供する。 Tag2Textはタグ付けガイダンスを活用することで、世代ベースのタスクとアライメントベースのタスクの両方において、視覚言語モデルのパフォーマンスを効果的に向上する。
参考スコア（独自算出の注目度）: 19.257928954574293
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents Tag2Text, a vision language pre-training (VLP) framework, which introduces image tagging into vision-language models to guide the learning of visual-linguistic features. In contrast to prior works which utilize object tags either manually labeled or automatically detected with a limited detector, our approach utilizes tags parsed from its paired text to learn an image tagger and meanwhile provides guidance to vision-language models. Given that, Tag2Text can utilize large-scale annotation-free image tags in accordance with image-text pairs, and provides more diverse tag categories beyond objects. As a result, Tag2Text achieves a superior image tag recognition ability by exploiting fine-grained text information. Moreover, by leveraging tagging guidance, Tag2Text effectively enhances the performance of vision-language models on both generation-based and alignment-based tasks. Across a wide range of downstream benchmarks, Tag2Text achieves state-of-the-art or competitive results with similar model sizes and data scales, demonstrating the efficacy of the proposed tagging guidance.
Abstract（参考訳）: 本稿では,視覚言語事前学習(VLP)フレームワークであるTag2Textについて述べる。対象タグを手動でラベル付けしたり、限定された検出器で自動的に検出する従来の手法とは対照的に、本手法では、ペアテキストから解析したタグを用いて画像タグを学習し、視覚言語モデルへのガイダンスを提供する。そのため、Tag2Textは、画像とテキストのペアに応じて、大規模なアノテーションのない画像タグを利用でき、オブジェクトを超えてより多様なタグカテゴリを提供する。その結果、tag2textはきめ細かいテキスト情報を活用し、優れた画像タグ認識能力を達成する。さらに、タグ付け指導を活用することで、Tag2Textは世代ベースとアライメントベースの両方のタスクにおける視覚言語モデルの性能を効果的に向上させる。幅広いダウンストリームベンチマークを通じて、tag2textは、同様のモデルサイズとデータスケールで最先端または競争力のある結果を達成し、提案するタグ付けガイダンスの有効性を実証する。

関連論文リスト

ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
Autoregressive Pre-Training on Pixels and Texts [35.82610192457444]
文書画像とテキストの両方で事前学習された自己回帰フレームワークを用いて、視覚的・テキスト的両言語の二重モードについて検討する。本手法はマルチモーダル・トレーニング・ストラテジーを用いて,次のパッチ予測による視覚データと,次のトークン予測による回帰ヘッドおよび/またはテキストデータを利用する。視覚データのみを訓練した一方向画素モデルでは,複数の言語理解タスクにおける最先端の双方向モデルに匹敵する結果が得られることがわかった。
論文参考訳（メタデータ） (2024-04-16T16:36:50Z)
TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文参考訳（メタデータ） (2023-12-21T18:59:06Z)
RCA-NOC: Relative Contrastive Alignment for Novel Object Captioning [18.13275250206568]
本稿では,視覚的・意味的なアライメントを学習するために,相対的コントラスト学習を用いた新しいオブジェクトキャプションを提案する。我々は2つのデータセットに対するアプローチを評価し、提案したRCA-NOCアプローチが最先端の手法よりも大きなマージンで優れていることを示す。
論文参考訳（メタデータ） (2023-12-11T11:06:32Z)
GIST: Generating Image-Specific Text for Fine-grained Object Classification [8.118079247462425]
GISTは、画像のみのデータセットから、画像固有のきめ細かいテキスト記述を生成する方法である。提案手法は,CLIP線形プローブよりも平均4.1%の精度向上を実現している。
論文参考訳（メタデータ） (2023-07-21T02:47:18Z)
Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。 LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文参考訳（メタデータ） (2023-02-02T06:38:44Z)
I2DFormer: Learning Image to Document Attention for Zero-Shot Image Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文参考訳（メタデータ） (2022-09-21T12:18:31Z)
Exploiting Unlabeled Data with Vision and Language Models for Object Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文参考訳（メタデータ） (2022-07-18T21:47:15Z)
Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文参考訳（メタデータ） (2021-11-29T11:01:49Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。