Fugu-MT 論文翻訳(概要): Understanding Cross-modal Interactions in V&L Models that Generate Scene Descriptions

論文の概要: Understanding Cross-modal Interactions in V&L Models that Generate Scene Descriptions

arxiv url: http://arxiv.org/abs/2211.04971v2
Date: Thu, 10 Nov 2022 16:49:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-11 13:53:55.240630
Title: Understanding Cross-modal Interactions in V&L Models that Generate Scene Descriptions
Title（参考訳）: シーン記述を生成するv&lモデルにおけるクロスモーダル相互作用の理解
Authors: Michele Cafagna, Kees van Deemter, Albert Gatt
Abstract要約: 本稿では,現在最先端の視覚・言語モデルであるVinVLによる映像のシーンレベルでのキャプションの可能性について検討する。映像中のオブジェクトレベルの概念を識別する能力を失うことなく、少量のキュレートされたデータでシーン記述を生成することができることを示す。本研究は,これらの結果と,シーン知覚に関する計算・認知科学研究の知見との類似性について論じる。
参考スコア（独自算出の注目度）: 3.7957452405531256
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image captioning models tend to describe images in an object-centric way, emphasising visible objects. But image descriptions can also abstract away from objects and describe the type of scene depicted. In this paper, we explore the potential of a state-of-the-art Vision and Language model, VinVL, to caption images at the scene level using (1) a novel dataset which pairs images with both object-centric and scene descriptions. Through (2) an in-depth analysis of the effect of the fine-tuning, we show (3) that a small amount of curated data suffices to generate scene descriptions without losing the capability to identify object-level concepts in the scene; the model acquires a more holistic view of the image compared to when object-centric descriptions are generated. We discuss the parallels between these results and insights from computational and cognitive science research on scene perception.
Abstract（参考訳）: 画像キャプションモデルは、オブジェクト中心の方法でイメージを記述する傾向があり、可視オブジェクトを強調する。しかし、画像記述はオブジェクトから抽象化され、描写されたシーンのタイプを記述することもできる。本稿では,(1)オブジェクト中心とシーン記述を組み合わせた新しいデータセットを用いて,映像をシーンレベルでキャプションする,最先端のビジョン・アンド・ランゲージモデル VinVL の可能性を検討する。 2) 微調整の効果の詳細な分析を通して,(3) シーン内のオブジェクトレベルの概念を識別する能力を失うことなく,少量のキュレートデータでシーン記述を生成することができることを示す。本稿では,これらの結果と,シーン知覚に関する計算・認知科学研究の知見との類似性について論じる。

関連論文リスト

Vision language models have difficulty recognizing virtual objects [0.20482269513546453]
視覚言語モデル(VLM)は、多モード入力を処理するために、言語と視覚エンコーダの両方と組み合わせたAIシステムである。仮想オブジェクトの記述は、これらのAIシステムにおけるテストシーンの理解に役立つと論じる。
論文参考訳（メタデータ） (2025-05-15T16:11:33Z)
Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文参考訳（メタデータ） (2024-12-11T18:37:42Z)
What's in the Image? A Deep-Dive into the Vision of Vision Language Models [20.669971132114195]
VLM(Vision-Language Models)は、最近、複雑な視覚コンテンツを解釈する際、顕著な能力を示した。本稿では,各層にまたがるアテンションモジュールに着目し,徹底的な経験分析を行う。これらのモデルが視覚データをどのように処理するかについて、いくつかの重要な洞察を明らかにします。
論文参考訳（メタデータ） (2024-11-26T14:59:06Z)
Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。双曲型視覚言語モデルのための構成的包摂学習を提案する。数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文参考訳（メタデータ） (2024-10-09T14:12:50Z)
In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文参考訳（メタデータ） (2024-08-09T09:28:35Z)
Paparazzi: A Deep Dive into the Capabilities of Language and Vision Models for Grounding Viewpoint Descriptions [4.026600887656479]
現状の言語とビジョンモデルであるCLIPが、3Dオブジェクトの視点記述を基盤として利用できるかどうかを考察する。本稿では,3次元物体の周囲に回転するカメラを用いて異なる視点から画像を生成する評価フレームワークを提案する。事前訓練されたCLIPモデルは、ほとんどの標準ビューでは性能が良くないことがわかった。
論文参考訳（メタデータ） (2023-02-13T15:18:27Z)
Hyperbolic Contrastive Learning for Visual Representations beyond Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文参考訳（メタデータ） (2022-12-01T16:58:57Z)
Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文参考訳（メタデータ） (2022-10-18T17:01:35Z)
Neural Groundplans: Persistent Neural Scene Representations from a Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文参考訳（メタデータ） (2022-07-22T17:41:24Z)
What Vision-Language Models `See' when they See Scenes [5.027571997864707]
最先端のビジョンと言語モデルであるVisualBERT、LXMERT、CLIPを比較した。 We found that (i) V&L models are susceptible to stylistic biases acquired during pretraining; (ii) Only CLIP perform consistent Performance on objects-level descriptions and scene-level descriptions。
論文参考訳（メタデータ） (2021-09-15T13:57:39Z)
Neural Scene Graphs for Dynamic Scenes [57.65413768984925]
動的シーンをシーングラフに分解する最初のニューラルレンダリング手法を提案する。我々は暗黙的に符号化されたシーンと、単一の暗黙の関数でオブジェクトを記述するために共同で学習された潜在表現を組み合わせる。
論文参考訳（メタデータ） (2020-11-20T12:37:10Z)
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文参考訳（メタデータ） (2020-03-31T03:58:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。