論文の概要: Probing the Role of Positional Information in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2305.10046v1
- Date: Wed, 17 May 2023 08:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 16:57:56.462374
- Title: Probing the Role of Positional Information in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける位置情報の役割の探索
- Authors: Philipp J. R\"osch and Jind\v{r}ich Libovick\'y
- Abstract要約: 多くのVision-Languageモデル(VL)では、画像内のオブジェクトの位置情報(PI)を注入することで、画像構造を理解することができる。
本モデルでは, 位置のみが異なる課題セットにおいて, 画像テキストマッチングタスクにPIを活用できないことを示す。
本研究は, (i) 位置情報事前学習と (ii) 相互モダリティマッチングを用いたPIのコントラスト学習の2つの戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In most Vision-Language models (VL), the understanding of the image structure
is enabled by injecting the position information (PI) about objects in the
image. In our case study of LXMERT, a state-of-the-art VL model, we probe the
use of the PI in the representation and study its effect on Visual Question
Answering. We show that the model is not capable of leveraging the PI for the
image-text matching task on a challenge set where only position differs. Yet,
our experiments with probing confirm that the PI is indeed present in the
representation. We introduce two strategies to tackle this: (i) Positional
Information Pre-training and (ii) Contrastive Learning on PI using
Cross-Modality Matching. Doing so, the model can correctly classify if images
with detailed PI statements match. Additionally to the 2D information from
bounding boxes, we introduce the object's depth as new feature for a better
object localization in the space. Even though we were able to improve the model
properties as defined by our probes, it only has a negligible effect on the
downstream performance. Our results thus highlight an important issue of
multimodal modeling: the mere presence of information detectable by a probing
classifier is not a guarantee that the information is available in a
cross-modal setup.
- Abstract(参考訳): 多くのVision-Languageモデル(VL)では、画像内のオブジェクトの位置情報(PI)を注入することで、画像構造を理解することができる。
最新のVLモデルであるLXMERTのケーススタディでは、PIを表現に用い、その視覚的質問応答に与える影響について検討する。
このモデルでは,位置のみが異なる課題セットにおいて,画像テキストマッチングタスクにPIを活用できないことを示す。
しかし、探索実験により、PIが実際に表現に存在していることが確認された。
これに取り組むための2つの戦略を紹介します
(i)事前訓練済みの位置情報
(ii)クロスモダリティマッチングを用いたpiの対比学習
そうすることで、詳細なPI文が一致した画像が正しく分類できる。
境界ボックスからの2D情報に加えて,空間内のオブジェクトの局所化を改善するための新機能として,オブジェクトの深さを導入する。
プローブによって定義されたモデル特性を改善できたが、下流の性能には無視できない効果しか与えなかった。
その結果,マルチモーダルモデリングの重要な課題が浮かび上がってきた。探索分類器によって検出可能な情報の存在は,情報がクロスモーダルな設定で利用可能であることを保証するものではない。
関連論文リスト
- Learning Embeddings with Centroid Triplet Loss for Object Identification in Robotic Grasping [14.958823096408175]
基礎モデルはディープラーニングとコンピュータビジョンの強力なトレンドだ。
本稿では,そのような物体識別モデルの訓練に焦点をあてる。
このようなモデルをトレーニングするための主要な解決策は、遠心三重項損失(CTL)である。
論文 参考訳(メタデータ) (2024-04-09T13:01:26Z) - GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis [20.316056261749946]
本稿では,明示的な知識グラフを取り入れたエンドツーエンドのビジョンと言語モデルを提案する。
また,暗黙的ネットワーク演算子を用いた対話型アウト・オブ・ディストリビューション・レイヤを導入する。
実際に,視覚的質問応答,視覚的推論,画像テキスト検索など,複数の視覚および言語下流タスクにモデルを適用した。
論文 参考訳(メタデータ) (2023-02-11T05:46:21Z) - Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual
Context for Image Captioning [25.728621355173626]
現在の方法の鍵となる制限は、モデルの出力が対象検出器の出力にのみ条件付けられることである。
オブジェクト関係などの欠落情報を表す補助的な入力を追加することを提案する。
我々は,画像キャプションにおける手法の有効性を検証し,各コンポーネントの徹底的な分析と,事前学習したマルチモーダルモデルの重要性を検証し,現状よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-05-09T15:05:24Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。