論文の概要: Learning Visual Representations with Caption Annotations
- arxiv url: http://arxiv.org/abs/2008.01392v1
- Date: Tue, 4 Aug 2020 08:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 00:32:45.382968
- Title: Learning Visual Representations with Caption Annotations
- Title(参考訳): キャプションアノテーションによる視覚表現の学習
- Authors: Mert Bulent Sariyildiz, Julien Perez, Diane Larlus
- Abstract要約: 本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
- 参考スコア(独自算出の注目度): 19.24013129952071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretraining general-purpose visual features has become a crucial part of
tackling many computer vision tasks. While one can learn such features on the
extensively-annotated ImageNet dataset, recent approaches have looked at ways
to allow for noisy, fewer, or even no annotations to perform such pretraining.
Starting from the observation that captioned images are easily crawlable, we
argue that this overlooked source of information can be exploited to supervise
the training of visual representations. To do so, motivated by the recent
progresses in language models, we introduce {\em image-conditioned masked
language modeling} (ICMLM) -- a proxy task to learn visual representations over
image-caption pairs. ICMLM consists in predicting masked words in captions by
relying on visual cues. To tackle this task, we propose hybrid models, with
dedicated visual and textual encoders, and we show that the visual
representations learned as a by-product of solving this task transfer well to a
variety of target tasks. Our experiments confirm that image captions can be
leveraged to inject global and localized semantic information into visual
representations. Project website: https://europe.naverlabs.com/icmlm.
- Abstract(参考訳): 汎用視覚機能の事前訓練は多くのコンピュータビジョンタスクに取り組む上で重要な部分となっている。
広範囲に注釈付きimagenetデータセットでこのような機能を学べる一方で、最近のアプローチでは、このような事前トレーニングを行うためのアノテーションを、ノイズ、少ない、あるいはまったく使用しない方法を模索している。
キャプション画像が容易にクロール可能であるという観察から始め、この見落とされた情報ソースを活用して視覚的表現のトレーニングを監督することができると論じる。
そのために,近年の言語モデルの進歩に動機づけられ,画像キャプチャペア上で視覚的表現を学ぶためのプロキシタスクである「em image-conditioned masked language modeling」 (icmlm) を導入する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
この課題に対処するために,視覚的およびテキスト的エンコーダを用いたハイブリッドモデルを提案する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
プロジェクトウェブサイト: https://europe.naverlabs.com/icmlm
関連論文リスト
- ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。
この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。
ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - I Can't Believe There's No Images! Learning Visual Tasks Using only
Language Supervision [32.49636188029509]
4つのタスクのテキストトレーニングデータのみを用いてモデルを作成する。
これらのモデルは、画像上で訓練されたモデルに近いパフォーマンスを示す。
画像データと人為的な言語データを用いない,多種多様なスタイリスティックな画像キャプションモデルについて紹介する。
論文 参考訳(メタデータ) (2022-11-17T18:52:19Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。