Fugu-MT 論文翻訳(概要): SUGARCREPE++ Dataset: Vision-Language Model Sensitivity to Semantic and Lexical Alterations

論文の概要: SUGARCREPE++ Dataset: Vision-Language Model Sensitivity to Semantic and Lexical Alterations

arxiv url: http://arxiv.org/abs/2406.11171v2
Date: Wed, 19 Jun 2024 00:03:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-22 01:07:15.344968
Title: SUGARCREPE++ Dataset: Vision-Language Model Sensitivity to Semantic and Lexical Alterations
Title（参考訳）: SUGARCREPE++データセット:意味的および語彙的変化に対する視覚言語モデル感度
Authors: Sri Harsha Dumpala, Aman Jaiswal, Chandramouli Sastry, Evangelos Milios, Sageev Oore, Hassan Sajjad,
Abstract要約: SuGARCREPE++データセットを導入し、視覚・言語モデルのセマンティックな変化に対する感度を解析する。 SuGARCREPE++では,構成性データセットの性能向上に寄与するすべてのモデルが同等に動作しないことを示す。
参考スコア（独自算出の注目度）: 13.608653575298183
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite their remarkable successes, state-of-the-art large language models (LLMs), including vision-and-language models (VLMs) and unimodal language models (ULMs), fail to understand precise semantics. For example, semantically equivalent sentences expressed using different lexical compositions elicit diverging representations. The degree of this divergence and its impact on encoded semantics is not very well understood. In this paper, we introduce the SUGARCREPE++ dataset to analyze the sensitivity of VLMs and ULMs to lexical and semantic alterations. Each sample in SUGARCREPE++ dataset consists of an image and a corresponding triplet of captions: a pair of semantically equivalent but lexically different positive captions and one hard negative caption. This poses a 3-way semantic (in)equivalence problem to the language models. We comprehensively evaluate VLMs and ULMs that differ in architecture, pre-training objectives and datasets to benchmark the performance of SUGARCREPE++ dataset. Experimental results highlight the difficulties of VLMs in distinguishing between lexical and semantic variations, particularly in object attributes and spatial relations. Although VLMs with larger pre-training datasets, model sizes, and multiple pre-training objectives achieve better performance on SUGARCREPE++, there is a significant opportunity for improvement. We show that all the models which achieve better performance on compositionality datasets need not perform equally well on SUGARCREPE++, signifying that compositionality alone may not be sufficient for understanding semantic and lexical alterations. Given the importance of the property that the SUGARCREPE++ dataset targets, it serves as a new challenge to the vision-and-language community.
Abstract（参考訳）: 彼らの顕著な成功にもかかわらず、ビジョン・アンド・ランゲージモデル(VLM)やユニモーダル言語モデル(ULM)を含む最先端の大規模言語モデル(LLM)は、正確な意味論を理解できない。例えば、意味的に等価な文は、異なる語彙合成を用いて表現され、発散する表現が引き起こされる。この分岐の程度と、そのエンコードされた意味論への影響は、あまりよく理解されていない。本稿では,語彙や意味の変化に対する VLM と ULM の感度を解析するためのSUGARCREPE++ データセットを提案する。 SUGARCREPE++データセットの各サンプルは、画像と対応する3つの字幕で構成されている。これは言語モデルに3方向のセマンティックな(同値な)問題を引き起こす。我々は,SUGARCREPE++データセットの性能をベンチマークするために,アーキテクチャ,事前学習対象,データセットが異なるVLMとULMを総合的に評価する。実験結果は,特に対象属性と空間的関係において,語彙と意味の差異を区別する上で,VLMの難しさを浮き彫りにした。より大規模な事前トレーニングデータセット、モデルサイズ、複数の事前トレーニング目標を持つVLMは、SUGARCREPE++のパフォーマンスが向上するが、改善の余地は大きい。構成性データセットの性能を向上するすべてのモデルがSUGARCREPE++上で同等に機能する必要はないことを示し、構成性だけでは意味論と語彙的変化を理解するには不十分であることを示す。 SUGARCREPE++データセットがターゲットとするプロパティの重要性を考えると、これはビジョンと言語コミュニティにとって新たな課題となる。

関連論文リスト

Improving vision-language alignment with graph spiking hybrid Networks [10.88584928028832]
本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
論文参考訳（メタデータ） (2025-01-31T11:55:17Z)
Seeing Syntax: Uncovering Syntactic Learning Limitations in Vision-Language Models [18.87130615326443]
視覚言語モデル(VLM)は、画像キャプションとテキスト・ツー・イメージ生成の基礎モデルとして機能する。近年の研究では、VLMテキストエンコーダ(特に構成性や意味理解など)の制限が強調されている。
論文参考訳（メタデータ） (2024-12-11T05:37:04Z)
HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。 HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文参考訳（メタデータ） (2024-12-07T15:47:49Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。 SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文参考訳（メタデータ） (2024-06-07T17:55:43Z)
Q-GroundCAM: Quantifying Grounding in Vision Language Models via GradCAM [3.2688425993442696]
多くの調査研究により、最も優れた視覚と言語モデル(VLM)でさえ、構成シーン理解の側面を捉えるのに苦労していることが明らかになった。 VLMの最近の進歩には、モデルサイズとデータセットサイズの両方のスケールアップ、追加のトレーニング目標と監視レベルが含まれる。本稿では,GradCAMアクティベーションを利用して,事前学習したVLMのグラウンドディング能力を厳格に評価する,新しい定量的メトリクススイートを提案する。
論文参考訳（メタデータ） (2024-04-29T22:06:17Z)
VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations [13.608653575298183]
本稿では、言語モデルの意味的および語彙的理解を評価するために設計されたVISLAベンチマークを紹介する。 34の視覚言語モデル (VLM) と20の単言語モデル (ULM) による評価は、語彙と意味のバリエーションを区別するのに驚くほど困難であることを示している。
論文参考訳（メタデータ） (2024-04-25T07:08:00Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models [9.808214545408541]
LinguisticLensは,データセットの構文的多様性を理解し解析するための,新たなインタラクティブな可視化ツールである。テキストデータセットの階層的な可視化をサポートしており、ユーザーは概要を素早くスキャンし、個々の例を検査することができる。
論文参考訳（メタデータ） (2023-05-19T00:53:45Z)
LANDMARK: Language-guided Representation Enhancement Framework for Scene Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文参考訳（メタデータ） (2023-03-02T09:03:11Z)
Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文参考訳（メタデータ） (2022-10-18T17:01:35Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)
Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文参考訳（メタデータ） (2022-03-16T11:06:50Z)
Meta-Learning with Variational Semantic Memory for Word Sense Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文参考訳（メタデータ） (2021-06-05T20:40:01Z)
Semantic Complexity in End-to-End Spoken Language Understanding [20.184305170102082]
本稿では,STIモデルの性能と適用の難しさとの関係を解析する。論文で報告されているSTIモデルのほぼ完全な性能指標は,意味複雑性の低いデータセットを用いて得られた。
論文参考訳（メタデータ） (2020-08-06T20:18:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。