論文の概要: Evaluating Multimodal Representations on Visual Semantic Textual
Similarity
- arxiv url: http://arxiv.org/abs/2004.01894v1
- Date: Sat, 4 Apr 2020 09:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 23:01:01.607354
- Title: Evaluating Multimodal Representations on Visual Semantic Textual
Similarity
- Title(参考訳): 視覚意味的テクスチャ類似度に基づくマルチモーダル表現の評価
- Authors: Oier Lopez de Lacalle, Ander Salaberria, Aitor Soroa, Gorka Azkune and
Eneko Agirre
- Abstract要約: 本稿では,新しいタスクであるVisual Semantic Textual similarity (vSTS)を提案する。
単純なマルチモーダル表現を用いた実験により、画像表現の追加はテキストのみの表現よりも推論が優れていることが示された。
我々の研究は、視覚情報のテキスト推論への貢献が成功したことを初めて示しており、より複雑なマルチモーダル表現オプションの余地は十分にある。
- 参考スコア(独自算出の注目度): 22.835699807110018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The combination of visual and textual representations has produced excellent
results in tasks such as image captioning and visual question answering, but
the inference capabilities of multimodal representations are largely untested.
In the case of textual representations, inference tasks such as Textual
Entailment and Semantic Textual Similarity have been often used to benchmark
the quality of textual representations. The long term goal of our research is
to devise multimodal representation techniques that improve current inference
capabilities. We thus present a novel task, Visual Semantic Textual Similarity
(vSTS), where such inference ability can be tested directly. Given two items
comprised each by an image and its accompanying caption, vSTS systems need to
assess the degree to which the captions in context are semantically equivalent
to each other. Our experiments using simple multimodal representations show
that the addition of image representations produces better inference, compared
to text-only representations. The improvement is observed both when directly
computing the similarity between the representations of the two items, and when
learning a siamese network based on vSTS training data. Our work shows, for the
first time, the successful contribution of visual information to textual
inference, with ample room for benchmarking more complex multimodal
representation options.
- Abstract(参考訳): 視覚表現とテキスト表現の組み合わせは、画像キャプションや視覚的質問応答などのタスクにおいて優れた結果を生み出しているが、マルチモーダル表現の推論能力はほとんどテストされていない。
テキスト表現の場合、テキストエンターメントやセマンティックテキスト類似性といった推論タスクは、テキスト表現の品質をベンチマークするためにしばしば用いられてきた。
我々の研究の長期的な目標は、現在の推論能力を改善するマルチモーダル表現技術を考案することである。
そこで我々は,このような推論能力を直接テストできる新しいタスクであるVisual Semantic Textual similarity (vSTS)を提案する。
画像と付随するキャプションによって構成される2つの項目が与えられた場合、vstsシステムは、文脈におけるキャプションが相互に意味的に等価である程度を評価する必要がある。
簡易なマルチモーダル表現を用いた実験により,画像表現の追加により,テキストのみの表現に比べて推論精度が向上した。
この改善は、2つの項目の表現の類似性を直接計算する場合と、vSTSトレーニングデータに基づいてシアムネットワークを学習する場合の両方で観察される。
我々の研究は、視覚情報のテキスト推論への貢献が成功したことを初めて示しており、より複雑なマルチモーダル表現オプションをベンチマークする余地は十分にある。
関連論文リスト
- Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文 参考訳(メタデータ) (2024-05-16T17:59:21Z) - CoPL: Contextual Prompt Learning for Vision-Language Understanding [21.709017504227823]
画像の局所的な特徴にプロンプトを調整できるコンテキスト型プロンプト学習(CoPL)フレームワークを提案する。
これまでの研究における重要なイノベーションは、素早い学習プロセスの一部としてローカルな画像機能を使うこと、そしてさらに重要なのは、そのタスクに適したローカルな機能に基づいてこれらのプロンプトを重み付けすることである。
本手法は, 工法の現状と比較して, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-07-03T10:14:33Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。