論文の概要: RLIPv2: Fast Scaling of Relational Language-Image Pre-training
- arxiv url: http://arxiv.org/abs/2308.09351v1
- Date: Fri, 18 Aug 2023 07:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 14:17:15.727328
- Title: RLIPv2: Fast Scaling of Relational Language-Image Pre-training
- Title(参考訳): RLIPv2:リレーショナル言語-画像事前学習の高速化
- Authors: Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan,
Tao Feng, Jianwen Jiang, Dong Ni, Yingya Zhang, Deli Zhao
- Abstract要約: 本稿では,大規模な擬似ラベル付きシーングラフデータに対する事前学習のリレーショナルスケーリングを可能にする高速収束モデルRLIPv2を提案する。
非対称言語画像融合 (ALIF) は、より早く、より深く分岐したクロスモーダル融合と、スパシファイド言語による符号化を容易にする。
RLIPv2は、3つのベンチマークで、完全な微調整、少数ショット、ゼロショット設定で、最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 53.21796397618875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relational Language-Image Pre-training (RLIP) aims to align vision
representations with relational texts, thereby advancing the capability of
relational reasoning in computer vision tasks. However, hindered by the slow
convergence of RLIPv1 architecture and the limited availability of existing
scene graph data, scaling RLIPv1 is challenging. In this paper, we propose
RLIPv2, a fast converging model that enables the scaling of relational
pre-training to large-scale pseudo-labelled scene graph data. To enable fast
scaling, RLIPv2 introduces Asymmetric Language-Image Fusion (ALIF), a mechanism
that facilitates earlier and deeper gated cross-modal fusion with sparsified
language encoding layers. ALIF leads to comparable or better performance than
RLIPv1 in a fraction of the time for pre-training and fine-tuning. To obtain
scene graph data at scale, we extend object detection datasets with free-form
relation labels by introducing a captioner (e.g., BLIP) and a designed Relation
Tagger. The Relation Tagger assigns BLIP-generated relation texts to region
pairs, thus enabling larger-scale relational pre-training. Through extensive
experiments conducted on Human-Object Interaction Detection and Scene Graph
Generation, RLIPv2 shows state-of-the-art performance on three benchmarks under
fully-finetuning, few-shot and zero-shot settings. Notably, the largest RLIPv2
achieves 23.29mAP on HICO-DET without any fine-tuning, yields 32.22mAP with
just 1% data and yields 45.09mAP with 100% data. Code and models are publicly
available at https://github.com/JacobYuan7/RLIPv2.
- Abstract(参考訳): リレーショナル言語-画像事前学習(RLIP)は、コンピュータビジョンタスクにおけるリレーショナル推論能力を向上させることを目的としている。
しかし、RLIPv1アーキテクチャの緩やかな収束と既存のシーングラフデータの可用性の制限により、RLIPv1のスケーリングは困難である。
本稿では,大規模な擬似ラベル付きシーングラフデータへの関係事前学習のスケーリングを可能にする高速収束モデルRLIPv2を提案する。
高速なスケーリングを実現するため、RLIPv2は非対称言語画像融合(ALIF)を導入した。
ALIFは、事前トレーニングと微調整の時間のごく一部において、RLIPv1よりも同等または優れたパフォーマンスをもたらす。
大規模なシーングラフデータを得るため、キャプタ(例えば、blip)とデザインされたリレーションタグを導入することにより、自由形式のリレーションラベル付きオブジェクト検出データセットを拡張する。
関係タガーは、blipが生成した関係テキストを領域ペアに割り当てることにより、大規模なリレーショナル事前トレーニングを可能にする。
RLIPv2は、ヒューマンオブジェクトのインタラクション検出とシーングラフ生成に関する広範な実験を通じて、3つのベンチマークに対して、完全な微調整、少数ショット、ゼロショット設定下での最先端のパフォーマンスを示す。
特に、最大のRLIPv2は微調整なしでHICO-DET上で23.29mAPを獲得し、わずか1%のデータで32.22mAP、100%データで45.09mAPを得る。
コードとモデルはhttps://github.com/JacobYuan7/RLIPv2.comで公開されている。
関連論文リスト
- GraphCLIP: Enhancing Transferability in Graph Foundation Models for Text-Attributed Graphs [27.169892145194638]
GraphCLIPは、強力なクロスドメインゼロ/フェーショット転送可能性を持つグラフ基盤モデルを学習するためのフレームワークである。
LLMの助けを借りて、大規模グラフ-土木ペアデータを生成し、キュレートする。
数ショットの学習では,事前学習目標に沿った新しいグラフプロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-14T09:40:52Z) - A Condensed Transition Graph Framework for Zero-shot Link Prediction with Large Language Models [20.220781775335645]
ゼロショットリンク予測(CTLP)のための凝縮遷移グラフフレームワークを提案する。
CTLPは、すべてのパス情報を線形時間複雑性でエンコードし、エンティティ間の見えない関係を予測する。
提案手法は,3つの標準ZSLPデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-16T16:02:33Z) - Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion [23.62010759076202]
我々は、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係を完全に活用する。
提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。
論文 参考訳(メタデータ) (2023-12-17T11:59:14Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via
Word-Region Alignment [104.54362490182335]
DetCLIPv2は、大規模な画像テキストペアを組み込んでオープン語彙オブジェクト検出を実現する、効率的なトレーニングフレームワークである。
DetCLIPv2は、大量の画像テキスト対から端から端まで、粒度の細かい単語領域アライメントを直接学習する。
DetCLIPv2は1300万のイメージテキストペアを事前トレーニングすることで、より優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2023-04-10T11:08:15Z) - RLIP: Relational Language-Image Pre-training for Human-Object
Interaction Detection [32.20132357830726]
言語画像事前学習(Language- Image Pre-Training、LIPR)は、エンティティと関係記述の両方を活用するコントラスト事前学習の戦略である。
RLIP-ParSeと呼ばれるこれらのコントリビューションの利点は、ゼロショット、少数ショット、微調整のHOI検出の改善、およびノイズアノテーションからの堅牢性の向上である。
論文 参考訳(メタデータ) (2022-09-05T07:50:54Z) - Prefix Language Models are Unified Modal Learners [30.666873206462295]
そこで本研究では,テキストおよび画像シーケンスに基づいて,プレフィックス言語モデリング目標を用いて,統一モーダルモデルが学習可能であることを示す。
シンプルだが強力な事前トレーニングパラダイムのおかげで、提案されたモデルであるDaVinciは、トレーニングが簡単で、巨大なデータにスケーラブルで、さまざまなダウンストリームタスクに適応できます。
論文 参考訳(メタデータ) (2022-06-15T17:49:38Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。