論文の概要: Understanding Cross-modal Interactions in V&L Models that Generate Scene
Descriptions
- arxiv url: http://arxiv.org/abs/2211.04971v2
- Date: Thu, 10 Nov 2022 16:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 13:53:55.240630
- Title: Understanding Cross-modal Interactions in V&L Models that Generate Scene
Descriptions
- Title(参考訳): シーン記述を生成するv&lモデルにおけるクロスモーダル相互作用の理解
- Authors: Michele Cafagna, Kees van Deemter, Albert Gatt
- Abstract要約: 本稿では,現在最先端の視覚・言語モデルであるVinVLによる映像のシーンレベルでのキャプションの可能性について検討する。
映像中のオブジェクトレベルの概念を識別する能力を失うことなく、少量のキュレートされたデータでシーン記述を生成することができることを示す。
本研究は,これらの結果と,シーン知覚に関する計算・認知科学研究の知見との類似性について論じる。
- 参考スコア(独自算出の注目度): 3.7957452405531256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning models tend to describe images in an object-centric way,
emphasising visible objects. But image descriptions can also abstract away from
objects and describe the type of scene depicted. In this paper, we explore the
potential of a state-of-the-art Vision and Language model, VinVL, to caption
images at the scene level using (1) a novel dataset which pairs images with
both object-centric and scene descriptions. Through (2) an in-depth analysis of
the effect of the fine-tuning, we show (3) that a small amount of curated data
suffices to generate scene descriptions without losing the capability to
identify object-level concepts in the scene; the model acquires a more holistic
view of the image compared to when object-centric descriptions are generated.
We discuss the parallels between these results and insights from computational
and cognitive science research on scene perception.
- Abstract(参考訳): 画像キャプションモデルは、オブジェクト中心の方法でイメージを記述する傾向があり、可視オブジェクトを強調する。
しかし、画像記述はオブジェクトから抽象化され、描写されたシーンのタイプを記述することもできる。
本稿では,(1)オブジェクト中心とシーン記述を組み合わせた新しいデータセットを用いて,映像をシーンレベルでキャプションする,最先端のビジョン・アンド・ランゲージモデル VinVL の可能性を検討する。
2) 微調整の効果の詳細な分析を通して,(3) シーン内のオブジェクトレベルの概念を識別する能力を失うことなく,少量のキュレートデータでシーン記述を生成することができることを示す。
本稿では,これらの結果と,シーン知覚に関する計算・認知科学研究の知見との類似性について論じる。
関連論文リスト
- Semantically-aware Neural Radiance Fields for Visual Scene
Understanding: A Comprehensive Review [26.436253160392123]
視覚的シーン理解における意味的認識型ニューラルレイディアンスフィールド(NeRF)の役割を概観する。
NeRFはシーン内の静止オブジェクトと動的オブジェクトの両方に対して3D表現を正確に推論する。
論文 参考訳(メタデータ) (2024-02-17T00:15:09Z) - Paparazzi: A Deep Dive into the Capabilities of Language and Vision
Models for Grounding Viewpoint Descriptions [4.026600887656479]
現状の言語とビジョンモデルであるCLIPが、3Dオブジェクトの視点記述を基盤として利用できるかどうかを考察する。
本稿では,3次元物体の周囲に回転するカメラを用いて異なる視点から画像を生成する評価フレームワークを提案する。
事前訓練されたCLIPモデルは、ほとんどの標準ビューでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-02-13T15:18:27Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Relational Graph Learning for Grounded Video Description Generation [85.27028390401136]
接地記述(GVD)は、キャプションモデルが適切なビデオ領域に動的に参加することを奨励し、記述を生成する。
このような設定は、キャプションモデルの決定を説明し、モデルが記述中のオブジェクト単語を幻覚させるのを防ぐのに役立つ。
我々はGVDのための新しいリレーショナルグラフ学習フレームワークを設計し、細粒度視覚概念を探索するために、言語に精通したシーングラフ表現を設計する。
論文 参考訳(メタデータ) (2021-12-02T03:48:45Z) - What Vision-Language Models `See' when they See Scenes [5.027571997864707]
最先端のビジョンと言語モデルであるVisualBERT、LXMERT、CLIPを比較した。
We found that (i) V&L models are susceptible to stylistic biases acquired during pretraining; (ii) Only CLIP perform consistent Performance on objects-level descriptions and scene-level descriptions。
論文 参考訳(メタデータ) (2021-09-15T13:57:39Z) - Cross-Modal Graph with Meta Concepts for Video Captioning [101.97397967958722]
ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。
我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
論文 参考訳(メタデータ) (2021-08-14T04:00:42Z) - Neural Scene Graphs for Dynamic Scenes [57.65413768984925]
動的シーンをシーングラフに分解する最初のニューラルレンダリング手法を提案する。
我々は暗黙的に符号化されたシーンと、単一の暗黙の関数でオブジェクトを記述するために共同で学習された潜在表現を組み合わせる。
論文 参考訳(メタデータ) (2020-11-20T12:37:10Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。