論文の概要: IDEA: Increasing Text Diversity via Online Multi-Label Recognition for
Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2207.05333v1
- Date: Tue, 12 Jul 2022 06:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 00:45:15.116860
- Title: IDEA: Increasing Text Diversity via Online Multi-Label Recognition for
Vision-Language Pre-training
- Title(参考訳): 視覚言語事前学習のためのオンラインマルチラベル認識によるテキスト多様性の向上
- Authors: Xinyu Huang, Youcai Zhang, Ying Cheng, Weiwei Tian, Ruiwei Zhao, Rui
Feng, Yuejie Zhang, Yaqian Li, Yandong Guo, Xiaobo Zhang
- Abstract要約: IDEAは、Vision-Language事前トレーニングのためのオンラインマルチラベル認識を通じて、テキストの多様性を高めるためのものだ。
IDEAは、少ない計算コストで、複数の下流データセットのパフォーマンスを大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 18.898969509263804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Pre-training (VLP) with large-scale image-text pairs has
demonstrated superior performance in various fields. However, the image-text
pairs co-occurrent on the Internet typically lack explicit alignment
information, which is suboptimal for VLP. Existing methods proposed to adopt an
off-the-shelf object detector to utilize additional image tag information.
However, the object detector is time-consuming and can only identify the
pre-defined object categories, limiting the model capacity. Inspired by the
observation that the texts incorporate incomplete fine-grained image
information, we introduce IDEA, which stands for increasing text diversity via
online multi-label recognition for VLP. IDEA shows that multi-label learning
with image tags extracted from the texts can be jointly optimized during VLP.
Moreover, IDEA can identify valuable image tags online to provide more explicit
textual supervision. Comprehensive experiments demonstrate that IDEA can
significantly boost the performance on multiple downstream datasets with a
small extra computational cost.
- Abstract(参考訳): 大規模画像テキストペアを用いたVLP(Vision-Language Pre-Training)は,様々な分野で優れた性能を示した。
しかし、画像とテキストのペアは、通常、VLPに最適である明示的なアライメント情報を欠いている。
画像タグ情報を活用するために、既製の物体検出装置を採用する方法が提案されている。
しかし、オブジェクト検出器は時間を要するため、事前定義されたオブジェクトカテゴリのみを識別でき、モデルの容量を制限できる。
テキストに不完全な細かな画像情報が含まれているという観察に触発されて,vlpのオンラインマルチラベル認識によるテキスト多様性の増大を意味するideaを紹介する。
IDEAは、テキストから抽出した画像タグを用いたマルチラベル学習を、VLP中に共同で最適化可能であることを示す。
さらにIDEAは、オンラインで貴重なイメージタグを識別して、より明確なテキスト管理を提供する。
包括的な実験によって、複数のダウンストリームデータセットのパフォーマンスを、少ない計算コストで大幅に向上させることができることが示されている。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Context-Based Semantic-Aware Alignment for Semi-Supervised Multi-Label Learning [37.13424985128905]
大規模な画像テキストペアで事前訓練された視覚言語モデルは、SSMLL設定下でのラベル付きデータ制限の課題を軽減することができる。
SSMLL問題を解くために,文脈に基づく意味認識アライメント手法を提案する。
論文 参考訳(メタデータ) (2024-12-25T09:06:54Z) - DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。
高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。
DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-12-10T02:21:39Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training [30.071860810401933]
本稿では,対照的な言語イメージ事前学習(CLIP)を1つの新しい包括的パラダイムに発展させる。
画像からテキストへのキャプションを用いて、複数の視点、粒度、階層から各画像のマルチテキストを生成する。
私たちの総合的なCLIPは、画像テキスト検索、オープン語彙分類、濃密な視覚タスクなど、既存のCLIPよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-11-30T11:27:58Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。
また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。
提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文 参考訳(メタデータ) (2024-02-27T06:11:54Z) - MAGIC: Multimodal relAtional Graph adversarIal inferenCe for Diverse and
Unpaired Text-based Image Captioning [46.4308182215488]
テキストベースの画像は、豊富で複雑なマルチモーダルリレーショナルコンテンツを直感的に含む。
マルチモーダル relAtional Graph adversarIal inferenCe framework for various and unpaired TextCap。
画像の異なる関係情報項目から多種多様なキャプションを生成するためのMAGICの有効性を検証する。
論文 参考訳(メタデータ) (2021-12-13T11:00:49Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。