論文の概要: Probing Multimodal Embeddings for Linguistic Properties: the
Visual-Semantic Case
- arxiv url: http://arxiv.org/abs/2102.11115v1
- Date: Mon, 22 Feb 2021 15:47:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 15:55:33.377621
- Title: Probing Multimodal Embeddings for Linguistic Properties: the
Visual-Semantic Case
- Title(参考訳): 言語特性のためのマルチモーダル埋め込みの探究:ビジュアルセマンティックケース
- Authors: Adam Dahlgren Lindstr\"om, Suna Bensch, Johanna Bj\"orklund, Frank
Drewes
- Abstract要約: 画像キャプションペアの埋め込みのためのプロービングタスクの形式化について議論する。
実験により,視聴覚埋め込みの精度は,対応するユニモーダル埋め込みと比較して最大12%向上することが判明した。
- 参考スコア(独自算出の注目度): 0.5735035463793008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic embeddings have advanced the state of the art for countless natural
language processing tasks, and various extensions to multimodal domains, such
as visual-semantic embeddings, have been proposed. While the power of
visual-semantic embeddings comes from the distillation and enrichment of
information through machine learning, their inner workings are poorly
understood and there is a shortage of analysis tools. To address this problem,
we generalize the notion of probing tasks to the visual-semantic case. To this
end, we (i) discuss the formalization of probing tasks for embeddings of
image-caption pairs, (ii) define three concrete probing tasks within our
general framework, (iii) train classifiers to probe for those properties, and
(iv) compare various state-of-the-art embeddings under the lens of the proposed
probing tasks. Our experiments reveal an up to 12% increase in accuracy on
visual-semantic embeddings compared to the corresponding unimodal embeddings,
which suggest that the text and image dimensions represented in the former do
complement each other.
- Abstract(参考訳): セマンティック埋め込みは無数の自然言語処理タスクのための最先端の技術であり、ビジュアルセマンティック埋め込みのようなマルチモーダルドメインへの様々な拡張が提案されている。
視覚的セマンティック埋め込みの力は、機械学習による情報の蒸留と充実から来ているが、その内部の働きは理解が悪く、分析ツールが不足している。
この問題に対処するために,探索タスクの概念を視覚的なケースに一般化する。
この目的のために、(i)画像キャプチャペアの埋め込みのための探索タスクの形式化、(ii)一般的なフレームワーク内の3つの具体的な探索タスクの定義、(iii)これらの特性を探索する列車分類器、(iv)提案された探索タスクのレンズ下の様々な最先端の埋め込みを比較した。
実験では,視覚・視覚組込みの精度が,対応するユニモーダル組込みに比べて最大12%向上することを明らかにし,前者で表されるテキストと画像の寸法が相補的であることが示唆された。
関連論文リスト
- Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment
Analysis [25.482853330324748]
近年,マルチモーダル・アスペクトベース感性分析 (MABSA) が注目されている。
i) クロスモーダルアライメントを無視した事前学習された視覚モデルとテキストモデル、または(ii) 一般的な事前学習タスクで事前訓練された視覚的なきめ細やかなモデルのいずれかを使用する。
我々は,MABSA(MABSA)のためのタスク固有のビジョンランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-17T08:44:00Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Local Interpretations for Explainable Natural Language Processing: A Survey [5.717407321642629]
本研究では,自然言語処理(NLP)タスクにおけるディープニューラルネットワークの解釈可能性を改善するための様々な手法について検討する。
本研究のはじめに,解釈可能性という用語の定義とその諸側面について,包括的に議論する。
論文 参考訳(メタデータ) (2021-03-20T02:28:33Z) - Analyzing Visual Representations in Embodied Navigation Tasks [45.35107294831313]
我々は、最近提案されたプロジェクション重み付き正準相関解析(PWCCA)を用いて、異なるタスクを実行することで、同じ環境で学習した視覚的表現の類似度を測定する。
次に、あるタスクで学習した視覚的表現が、別のタスクに効果的に転送できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-12T19:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。