論文の概要: Crisscrossed Captions: Extended Intramodal and Intermodal Semantic
Similarity Judgments for MS-COCO
- arxiv url: http://arxiv.org/abs/2004.15020v3
- Date: Wed, 24 Mar 2021 06:43:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 04:52:16.815042
- Title: Crisscrossed Captions: Extended Intramodal and Intermodal Semantic
Similarity Judgments for MS-COCO
- Title(参考訳): Crisscrossed Captions:Extended intramodal and Intermodal Semantic similarity Judgments for MS-COCO
- Authors: Zarana Parekh, Jason Baldridge, Daniel Cer, Austin Waters, Yinfei Yang
- Abstract要約: Crisscrossed Captions (CxC)は、MS-COCOデータセットの拡張であり、267,095対のモダリティ内およびモダリティ間における人間の意味的類似性判定である。
本報告では,CxCをベースラインとした既存モデルとマルチモーダルモデルについて報告する。
また,イメージキャプションとキャプションキャプションキャプションペアで訓練したマルチタスクデュアルエンコーダの評価を行った。
- 参考スコア(独自算出の注目度): 16.543957860015716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By supporting multi-modal retrieval training and evaluation, image captioning
datasets have spurred remarkable progress on representation learning.
Unfortunately, datasets have limited cross-modal associations: images are not
paired with other images, captions are only paired with other captions of the
same image, there are no negative associations and there are missing positive
cross-modal associations. This undermines research into how inter-modality
learning impacts intra-modality tasks. We address this gap with Crisscrossed
Captions (CxC), an extension of the MS-COCO dataset with human semantic
similarity judgments for 267,095 intra- and inter-modality pairs. We report
baseline results on CxC for strong existing unimodal and multimodal models. We
also evaluate a multitask dual encoder trained on both image-caption and
caption-caption pairs that crucially demonstrates CxC's value for measuring the
influence of intra- and inter-modality learning.
- Abstract(参考訳): マルチモーダル検索訓練と評価の支援により,画像キャプションデータセットは表現学習において顕著な進歩をもたらした。
画像が他の画像とペアリングされていないこと、キャプションが同じ画像の他のキャプションとペアリングされていること、負の関連がなく、正のクロスモーダル関連が欠けていること、などだ。
このことは、モダリティ間の学習がモダリティ内タスクに与える影響の研究を弱める。
我々は、267,095個のモダリティペアに対する人間の意味的類似性判定を含むms-cocoデータセットの拡張であるcrisscrossed captions (cxc)を用いてこのギャップに対処する。
我々は,cxcにおける強既存ユニモーダルモデルとマルチモーダルモデルのベースライン結果について報告する。
また,画像キャプチャとキャプションキャプションペアの両方で訓練したマルチタスクデュアルエンコーダを評価し,CxCがモダリティ内およびモダリティ間学習に与える影響を重要視した。
関連論文リスト
- ICC: Quantifying Image Caption Concreteness for Multimodal Dataset Curation [36.43428388918294]
ペア化されたテキストイメージデータのWebスケールトレーニングは、ますますマルチモーダルな学習の中心になりつつある。
標準的なデータフィルタリングアプローチでは、ミスマッチしたテキストイメージペアを削除できない。
画像参照なしで字幕テキストを評価し,その具体性を計測する新しい指標である画像キャプション具体性を提案する。
論文 参考訳(メタデータ) (2024-03-02T20:36:10Z) - Multi-Scale Cross Contrastive Learning for Semi-Supervised Medical Image
Segmentation [14.536384387956527]
医用画像の構造を分割するマルチスケールクロススーパービジョンコントラスト学習フレームワークを開発した。
提案手法は,頑健な特徴表現を抽出するために,地上構造と横断予測ラベルに基づくマルチスケール特徴と対比する。
Diceでは最先端の半教師あり手法を3.0%以上上回っている。
論文 参考訳(メタデータ) (2023-06-25T16:55:32Z) - Connecting Multi-modal Contrastive Representations [50.26161419616139]
マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に共有された空間に符号化することを目的としている。
本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習するための,新たな学習効率向上手法を提案する。
C-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のオーディオ映像のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-22T09:44:39Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Contrastive Cross-Modal Knowledge Sharing Pre-training for
Vision-Language Representation Learning and Retrieval [12.30468719055037]
コントラスト型クロスモーダル知識共有事前学習(COOKIE)を開発した。
最初のモジュールはウェイトシェアリングトランスフォーマーで、ビジュアルエンコーダとテキストエンコーダの頭の上に構築されている。
もう1つは、異なるモデル間で知識を共有することを目的として、特別に設計された3つの対照的な学習である。
論文 参考訳(メタデータ) (2022-07-02T04:08:44Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - COBRA: Contrastive Bi-Modal Representation Algorithm [43.33840912256077]
本稿では,CPC(Contrastive Predictive Coding)とNCE(Noth Contrastive Estimation)のパラダイムにインスパイアされた,2つのモダリティの学習を目的とした新しいフレームワークを提案する。
本研究では,この枠組みがモダリティギャップを大幅に減らし,ロバストでタスクに依存しない共同埋め込み空間を生成することを実証的に示す。
7つのベンチマークのクロスモーダルデータセットにまたがる4つのダウンストリームタスクにおいて、既存の作業よりも優れています。
論文 参考訳(メタデータ) (2020-05-07T18:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。