論文の概要: VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations
- arxiv url: http://arxiv.org/abs/2404.16365v1
- Date: Thu, 25 Apr 2024 07:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:38:43.563864
- Title: VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations
- Title(参考訳): VISLAベンチマーク: 意味的および語彙的変化に対する埋め込み感度の評価
- Authors: Sri Harsha Dumpala, Aman Jaiswal, Chandramouli Sastry, Evangelos Milios, Sageev Oore, Hassan Sajjad,
- Abstract要約: 本稿では、言語モデルの意味的および語彙的理解を評価するために設計されたVISLAベンチマークを紹介する。
34の視覚言語モデル (VLM) と20の単言語モデル (ULM) による評価は、語彙と意味のバリエーションを区別するのに驚くほど困難であることを示している。
- 参考スコア(独自算出の注目度): 13.608653575298183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their remarkable successes, state-of-the-art language models face challenges in grasping certain important semantic details. This paper introduces the VISLA (Variance and Invariance to Semantic and Lexical Alterations) benchmark, designed to evaluate the semantic and lexical understanding of language models. VISLA presents a 3-way semantic (in)equivalence task with a triplet of sentences associated with an image, to evaluate both vision-language models (VLMs) and unimodal language models (ULMs). An evaluation involving 34 VLMs and 20 ULMs reveals surprising difficulties in distinguishing between lexical and semantic variations. Spatial semantics encoded by language models also appear to be highly sensitive to lexical information. Notably, text encoders of VLMs demonstrate greater sensitivity to semantic and lexical variations than unimodal text encoders. Our contributions include the unification of image-to-text and text-to-text retrieval tasks, an off-the-shelf evaluation without fine-tuning, and assessing LMs' semantic (in)variance in the presence of lexical alterations. The results highlight strengths and weaknesses across diverse vision and unimodal language models, contributing to a deeper understanding of their capabilities. % VISLA enables a rigorous evaluation, shedding light on language models' capabilities in handling semantic and lexical nuances. Data and code will be made available at https://github.com/Sri-Harsha/visla_benchmark.
- Abstract(参考訳): 彼らの顕著な成功にもかかわらず、最先端の言語モデルは、重要なセマンティックな詳細を理解する上で困難に直面している。
本稿では、言語モデルの意味的および語彙的理解を評価するために設計されたVISLA(Variance and Invariance to Semantic and Lexical Alterations)ベンチマークを紹介する。
VISLAは、視覚言語モデル(VLM)と単言語モデル(ULM)の両方を評価するために、画像に関連付けられた3つの文からなる3方向の意味的(不変)タスクを提示する。
34個のVLMと20個のULMによる評価は、語彙と意味のバリエーションを区別するのに驚くほど困難であることを示している。
言語モデルによって符号化された空間意味論は、語彙情報に非常に敏感である。
特に、VLMのテキストエンコーダは、アンモダルテキストエンコーダよりも意味や語彙の変化に敏感である。
コントリビューションには、画像からテキストまでの検索タスクとテキストからテキストへの検索タスクの統合、微調整なしのオフ・ザ・シェルフ評価、語彙変化の有無によるLMの意味的差異の評価が含まれる。
結果は、多様なビジョンと一助言語モデルにまたがる強みと弱みを強調し、それらの能力のより深い理解に寄与する。
% VISLAは厳密な評価を可能にし、意味的および語彙的ニュアンスを扱う際の言語モデルの能力に光を当てる。
データとコードはhttps://github.com/Sri-Harsha/visla_benchmark.comで公開される。
関連論文リスト
- SUGARCREPE++ Dataset: Vision-Language Model Sensitivity to Semantic and Lexical Alterations [13.608653575298183]
SuGARCREPE++データセットを導入し、視覚・言語モデルのセマンティックな変化に対する感度を解析する。
SuGARCREPE++では,構成性データセットの性能向上に寄与するすべてのモデルが同等に動作しないことを示す。
論文 参考訳(メタデータ) (2024-06-17T03:22:20Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation [35.05755930636518]
画像とテキストのペア間の微細な表現をより容易に学習するための2つのコンポーネントからなるViLTAを提案する。
Masked Language Modeling (MLM) では,モデルの堅牢性を高めるために,ソフトラベルを生成するクロス蒸留法を提案する。
画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成する。
論文 参考訳(メタデータ) (2023-08-31T12:46:36Z) - Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language
Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。
SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文 参考訳(メタデータ) (2023-05-24T05:06:28Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Transition-based Abstract Meaning Representation Parsing with Contextual
Embeddings [0.0]
本研究では,意味解析のタスクにおいて,言語モデルと記号意味論の定式化という,言語の意味への最も成功したルートを2つ組み合わせる手法について検討する。
本稿では,事前学習した文脈認識単語の埋め込み(BERTやRoBERTaなど)を解析問題に組み込むことの有用性について検討する。
論文 参考訳(メタデータ) (2022-06-13T15:05:24Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - A Closer Look at Linguistic Knowledge in Masked Language Models: The
Case of Relative Clauses in American English [17.993417004424078]
トランスフォーマーに基づく言語モデルは、様々なタスクにおいて高いパフォーマンスを達成するが、それらが学習し、依存する言語知識の理解はいまだに不足している。
文レベルの探索, 診断事例, マスク付き予測タスクにより, 文法的および意味的知識をテストする3つのモデル(BERT, RoBERTa, ALBERT)を評価した。
論文 参考訳(メタデータ) (2020-11-02T13:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。