Fugu-MT 論文翻訳(概要): UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding

論文の概要: UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding

arxiv url: http://arxiv.org/abs/2307.00862v1
Date: Mon, 3 Jul 2023 09:03:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-05 13:47:12.780555
Title: UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding
Title（参考訳）: UniFine: ゼロショットビジョン言語理解のための統一的できめ細かいアプローチ
Authors: Rui Sun, Zhecan Wang, Haoxuan You, Noel Codella, Kai-Wei Chang, Shih-Fu Chang
Abstract要約: ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
参考スコア（独自算出の注目度）: 84.83494254263138
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language tasks, such as VQA, SNLI-VE, and VCR are challenging because they require the model's reasoning ability to understand the semantics of the visual world and natural language. Supervised methods working for vision-language tasks have been well-studied. However, solving these tasks in a zero-shot setting is less explored. Since Contrastive Language-Image Pre-training (CLIP) has shown remarkable zero-shot performance on image-text matching, previous works utilized its strong zero-shot ability by converting vision-language tasks into an image-text matching problem, and they mainly consider global-level matching (e.g., the whole image or sentence). However, we find visual and textual fine-grained information, e.g., keywords in the sentence and objects in the image, can be fairly informative for semantics understanding. Inspired by this, we propose a unified framework to take advantage of the fine-grained information for zero-shot vision-language learning, covering multiple tasks such as VQA, SNLI-VE, and VCR. Our experiments show that our framework outperforms former zero-shot methods on VQA and achieves substantial improvement on SNLI-VE and VCR. Furthermore, our ablation studies confirm the effectiveness and generalizability of our proposed method. Code will be available at https://github.com/ThreeSR/UniFine
Abstract（参考訳）: VQA、SNLI-VE、VCRといった視覚言語タスクは、視覚世界と自然言語の意味を理解するためにモデルの推論能力を必要とするため、難しい。視覚言語タスクを監督する手法はよく研究されている。しかし、ゼロショット設定でこれらのタスクを解決する方法はあまり検討されていない。 Contrastive Language- Image Pre-training (CLIP) は画像テキストマッチングにおいて顕著なゼロショット性能を示したため、以前の研究では、視覚言語タスクを画像テキストマッチング問題に変換することで、その強力なゼロショット能力を活用し、主にグローバルレベルのマッチング(画像や文全体)を検討する。しかし,文中のキーワードや画像内のオブジェクトなど,視覚的およびテキスト的きめ細かい情報は,意味理解に極めて有益であると考えられる。そこで本研究では,VQA,SNLI-VE,VCRといった複数のタスクを網羅する,ゼロショット視覚言語学習の詳細な情報を活用する統一フレームワークを提案する。実験の結果,従来のゼロショット法をvqaで上回り,snli-veとvcrで大幅に改善した。さらに,提案手法の有効性と汎用性についても検討した。コードはhttps://github.com/ThreeSR/UniFineで入手できる。

関連論文リスト

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization [77.36122979882649]
コンピュータビジョン(CV)は自然言語処理(NLP)で観測されるゼロショットタスクの一般化をまだ完全に達成していない本稿では,ゼロショットタスクの一般化において重要な障壁となる離散的・用語的タスク定義をCVが採用するという考えを考察する。我々の仮説は、これらの用語的定義により、以前に見いだされたタスクを真に理解せずに、ディープモデルは新しいタスクに一般化するのに苦労する、というものである。
論文参考訳（メタデータ） (2024-12-24T16:08:25Z)
FiVL: A Framework for Improved Vision-Language Alignment through the Lens of Training, Evaluation and Explainability [10.184567639685321]
本稿では,LVLMを学習するための新しいデータセット構築手法であるFiVLを紹介する。本稿では,モデルがイメージを実体的証拠として用いる能力を評価するためのベンチマークを示す。視覚による幻覚を説明できる最強の視覚言語アライメントで注目頭を特定する。
論文参考訳（メタデータ） (2024-12-19T09:24:10Z)
COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training [49.2684130383925]
視覚言語事前学習のためのCOSMOS: CrOSs-modality Self-distillationを提案する。新たなテキストクロッピング戦略とクロスアテンションモジュールを自己教師型学習フレームワークに統合する。さまざまなゼロショットダウンストリームタスクにおいて、以前の強いベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2024-12-02T18:56:06Z)
Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning [22.93684323791136]
生成視覚言語モデル(VLM)は、画像キャプションや視覚質問応答といったゼロショット視覚言語タスクにおいて、印象的なパフォーマンスを示している。我々は、ラベル付きタスクを必要とせず、ICCCのゼロショット性能を向上させるために設計された新しい事前訓練タスクであるイメージコンディションド・キャプション・コレクション(ICCC)を導入する。 BLIP-2 と InstructBLIP の実験結果から,ICCC 命令チューニングによるゼロショット画像テキスト生成タスクの大幅な改善が示された。
論文参考訳（メタデータ） (2024-04-01T04:28:01Z)
SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant [48.220285886328746]
本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。 SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示す。高品質なインストラクションデータに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して性能改善を示す。
論文参考訳（メタデータ） (2024-03-17T18:42:38Z)
Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文参考訳（メタデータ） (2023-10-09T16:57:57Z)
Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文参考訳（メタデータ） (2023-06-02T19:19:43Z)
What does CLIP know about a red circle? Visual prompt engineering for VLMs [116.8806079598019]
テキストの代わりに画像空間を編集することで、分類を超えたコンピュータビジョンタスクを解くための視覚的プロンプトエンジニアリングのアイデアを探求する。キーポイントのローカライゼーションタスクにおけるゼロショット参照表現の理解と強力な性能を両立させることにより,このシンプルなアプローチのパワーを示す。
論文参考訳（メタデータ） (2023-04-13T17:58:08Z)
Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining on Visual Language Understanding [13.300199242824934]
視覚的・言語的な事前学習が、暗黙的な視覚的推論を含むテキストのみのタスクのパフォーマンスを向上させるかどうかを検討する。本稿では,テキストエンコーダモデルの視覚的推論能力を探索するための視覚言語理解タスクを提案する。また,テキストのみのタスクにCLIPなどのモデルを適用するための新しいゼロショット知識探索手法であるStroop Probingも提案する。
論文参考訳（メタデータ） (2023-03-21T17:30:40Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
Zero-shot Image Captioning by Anchor-augmented Vision-Language Space Alignment [23.072180427273544]
ゼロショット画像キャプションにCLIPを直接利用する場合、文脈のテクスチュラルなモダリティに大きく依存し、視覚情報をほとんど無視する。これを解決するために、教師なしのクロスモーダル学習を容易にするクロスモーダル言語モデル(CLM)を提案する。 MS COCOとFlickr 30Kの実験は、キャプション品質と計算効率の両方において提案手法の有望な性能を検証した。
論文参考訳（メタデータ） (2022-11-14T11:12:19Z)
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。 ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-07-16T00:19:22Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)
Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。 ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文参考訳（メタデータ） (2020-08-04T08:04:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。