論文の概要: UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2307.00862v1
- Date: Mon, 3 Jul 2023 09:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 13:47:12.780555
- Title: UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding
- Title(参考訳): UniFine: ゼロショットビジョン言語理解のための統一的できめ細かいアプローチ
- Authors: Rui Sun, Zhecan Wang, Haoxuan You, Noel Codella, Kai-Wei Chang,
Shih-Fu Chang
- Abstract要約: ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 84.83494254263138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language tasks, such as VQA, SNLI-VE, and VCR are challenging because
they require the model's reasoning ability to understand the semantics of the
visual world and natural language. Supervised methods working for
vision-language tasks have been well-studied. However, solving these tasks in a
zero-shot setting is less explored. Since Contrastive Language-Image
Pre-training (CLIP) has shown remarkable zero-shot performance on image-text
matching, previous works utilized its strong zero-shot ability by converting
vision-language tasks into an image-text matching problem, and they mainly
consider global-level matching (e.g., the whole image or sentence). However, we
find visual and textual fine-grained information, e.g., keywords in the
sentence and objects in the image, can be fairly informative for semantics
understanding. Inspired by this, we propose a unified framework to take
advantage of the fine-grained information for zero-shot vision-language
learning, covering multiple tasks such as VQA, SNLI-VE, and VCR. Our
experiments show that our framework outperforms former zero-shot methods on VQA
and achieves substantial improvement on SNLI-VE and VCR. Furthermore, our
ablation studies confirm the effectiveness and generalizability of our proposed
method. Code will be available at https://github.com/ThreeSR/UniFine
- Abstract(参考訳): VQA、SNLI-VE、VCRといった視覚言語タスクは、視覚世界と自然言語の意味を理解するためにモデルの推論能力を必要とするため、難しい。
視覚言語タスクを監督する手法はよく研究されている。
しかし、ゼロショット設定でこれらのタスクを解決する方法はあまり検討されていない。
Contrastive Language- Image Pre-training (CLIP) は画像テキストマッチングにおいて顕著なゼロショット性能を示したため、以前の研究では、視覚言語タスクを画像テキストマッチング問題に変換することで、その強力なゼロショット能力を活用し、主にグローバルレベルのマッチング(画像や文全体)を検討する。
しかし,文中のキーワードや画像内のオブジェクトなど,視覚的およびテキスト的きめ細かい情報は,意味理解に極めて有益であると考えられる。
そこで本研究では,VQA,SNLI-VE,VCRといった複数のタスクを網羅する,ゼロショット視覚言語学習の詳細な情報を活用する統一フレームワークを提案する。
実験の結果,従来のゼロショット法をvqaで上回り,snli-veとvcrで大幅に改善した。
さらに,提案手法の有効性と汎用性についても検討した。
コードはhttps://github.com/ThreeSR/UniFineで入手できる。
関連論文リスト
- Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - What does CLIP know about a red circle? Visual prompt engineering for
VLMs [116.8806079598019]
テキストの代わりに画像空間を編集することで、分類を超えたコンピュータビジョンタスクを解くための視覚的プロンプトエンジニアリングのアイデアを探求する。
キーポイントのローカライゼーションタスクにおけるゼロショット参照表現の理解と強力な性能を両立させることにより,このシンプルなアプローチのパワーを示す。
論文 参考訳(メタデータ) (2023-04-13T17:58:08Z) - Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining
on Visual Language Understanding [13.300199242824934]
視覚的・言語的な事前学習が、暗黙的な視覚的推論を含むテキストのみのタスクのパフォーマンスを向上させるかどうかを検討する。
本稿では,テキストエンコーダモデルの視覚的推論能力を探索するための視覚言語理解タスクを提案する。
また,テキストのみのタスクにCLIPなどのモデルを適用するための新しいゼロショット知識探索手法であるStroop Probingも提案する。
論文 参考訳(メタデータ) (2023-03-21T17:30:40Z) - Zero-shot Image Captioning by Anchor-augmented Vision-Language Space
Alignment [23.072180427273544]
ゼロショット画像キャプションにCLIPを直接利用する場合、文脈のテクスチュラルなモダリティに大きく依存し、視覚情報をほとんど無視する。
これを解決するために、教師なしのクロスモーダル学習を容易にするクロスモーダル言語モデル(CLM)を提案する。
MS COCOとFlickr 30Kの実験は、キャプション品質と計算効率の両方において提案手法の有望な性能を検証した。
論文 参考訳(メタデータ) (2022-11-14T11:12:19Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。