Fugu-MT 論文翻訳(概要): What Vision-Language Models `See' when they See Scenes

論文の概要: What Vision-Language Models `See' when they See Scenes

arxiv url: http://arxiv.org/abs/2109.07301v1
Date: Wed, 15 Sep 2021 13:57:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-16 19:34:43.606312
Title: What Vision-Language Models `See' when they See Scenes
Title（参考訳）: 視覚言語モデルがシーンを見る「見る」とは何か
Authors: Michele Cafagna, Kees van Deemter and Albert Gatt
Abstract要約: 最先端のビジョンと言語モデルであるVisualBERT、LXMERT、CLIPを比較した。 We found that (i) V&L models are susceptible to stylistic biases acquired during pretraining; (ii) Only CLIP perform consistent Performance on objects-level descriptions and scene-level descriptions。
参考スコア（独自算出の注目度）: 5.027571997864707
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Images can be described in terms of the objects they contain, or in terms of the types of scene or place that they instantiate. In this paper we address to what extent pretrained Vision and Language models can learn to align descriptions of both types with images. We compare 3 state-of-the-art models, VisualBERT, LXMERT and CLIP. We find that (i) V&L models are susceptible to stylistic biases acquired during pretraining; (ii) only CLIP performs consistently well on both object- and scene-level descriptions. A follow-up ablation study shows that CLIP uses object-level information in the visual modality to align with scene-level textual descriptions.
Abstract（参考訳）: 画像は、それらが含むオブジェクトや、それらがインスタンス化するシーンや場所のタイプによって記述することができる。本稿では,事前学習されたビジョンモデルと言語モデルが,両タイプの記述と画像との整合性について述べる。 VisualBERT、LXMERT、CLIPの3つの最先端モデルを比較した。私たちはそれを見つけ (i)V&Lモデルは、事前訓練中に得られる様式的バイアスに影響を受けやすい。 (ii) CLIP はオブジェクトレベルの記述とシーンレベルの記述の両方で一貫して機能する。後続のアブレーション研究は、CLIPが視覚的モダリティのオブジェクトレベル情報を用いてシーンレベルのテキスト記述と整合していることを示している。

関連論文リスト

SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。 CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文参考訳（メタデータ） (2025-07-29T22:26:20Z)
Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。双曲型視覚言語モデルのための構成的包摂学習を提案する。数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文参考訳（メタデータ） (2024-10-09T14:12:50Z)
VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文参考訳（メタデータ） (2024-04-10T15:09:15Z)
SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。 SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2023-10-20T08:44:47Z)
DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文参考訳（メタデータ） (2023-09-04T13:59:55Z)
Semantically-Prompted Language Models Improve Visual Descriptions [12.267513953980092]
本稿では,表現力のある視覚記述を生成する新しい手法であるV-GLOSS: Visual Glossesを提案する。 V-GLOSSは視覚的記述を改善し、画像分類データセットのゼロショット設定において強い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-05T17:22:54Z)
CapText: Large Language Model-based Caption Generation From Image Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文参考訳（メタデータ） (2023-06-01T02:40:44Z)
Paparazzi: A Deep Dive into the Capabilities of Language and Vision Models for Grounding Viewpoint Descriptions [4.026600887656479]
現状の言語とビジョンモデルであるCLIPが、3Dオブジェクトの視点記述を基盤として利用できるかどうかを考察する。本稿では,3次元物体の周囲に回転するカメラを用いて異なる視点から画像を生成する評価フレームワークを提案する。事前訓練されたCLIPモデルは、ほとんどの標準ビューでは性能が良くないことがわかった。
論文参考訳（メタデータ） (2023-02-13T15:18:27Z)
I2MVFormer: Large Language Model Generated Multi-View Document Supervision for Zero-Shot Image Classification [108.83932812826521]
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。 I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
論文参考訳（メタデータ） (2022-12-05T14:11:36Z)
Understanding Cross-modal Interactions in V&L Models that Generate Scene Descriptions [3.7957452405531256]
本稿では,現在最先端の視覚・言語モデルであるVinVLによる映像のシーンレベルでのキャプションの可能性について検討する。映像中のオブジェクトレベルの概念を識別する能力を失うことなく、少量のキュレートされたデータでシーン記述を生成することができることを示す。本研究は,これらの結果と,シーン知覚に関する計算・認知科学研究の知見との類似性について論じる。
論文参考訳（メタデータ） (2022-11-09T15:33:51Z)
Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文参考訳（メタデータ） (2022-09-25T22:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。