論文の概要: Linking Representations with Multimodal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2304.03464v2
- Date: Tue, 11 Apr 2023 01:34:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 11:21:10.571482
- Title: Linking Representations with Multimodal Contrastive Learning
- Title(参考訳): マルチモーダルコントラスト学習によるリンク表現
- Authors: Abhishek Arora and Xinmei Yang and Shao-Yu Jheng and Melissa Dell
- Abstract要約: 本研究では,レコードリンクのためのマルチモーダルフレームワークであるCLIPPINGSを開発した。
対称視覚と言語バイエンコーダのエンドツーエンドトレーニングを採用し、コントラスト的な言語イメージ事前トレーニングを通じて整列する。
インスタンスは、オフラインの埋め込みインデックスから隣人を検索することでリンクすることができる。
- 参考スコア(独自算出の注目度): 1.5293427903448025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many applications require grouping instances contained in diverse document
datasets into classes. Most widely used methods do not employ deep learning and
do not exploit the inherently multimodal nature of documents. Notably, record
linkage is typically conceptualized as a string-matching problem. This study
develops CLIPPINGS, (Contrastively Linking Pooled Pre-trained Embeddings), a
multimodal framework for record linkage. CLIPPINGS employs end-to-end training
of symmetric vision and language bi-encoders, aligned through contrastive
language-image pre-training, to learn a metric space where the pooled
image-text representation for a given instance is close to representations in
the same class and distant from representations in different classes. At
inference time, instances can be linked by retrieving their nearest neighbor
from an offline exemplar embedding index or by clustering their
representations. The study examines two challenging applications: constructing
comprehensive supply chains for mid-20th century Japan through linking firm
level financial records - with each firm name represented by its crop in the
document image and the corresponding OCR - and detecting which image-caption
pairs in a massive corpus of historical U.S. newspapers came from the same
underlying photo wire source. CLIPPINGS outperforms widely used string matching
methods by a wide margin and also outperforms unimodal methods. Moreover, a
purely self-supervised model trained on only image-OCR pairs also outperforms
popular string-matching methods without requiring any labels.
- Abstract(参考訳): 多くのアプリケーションは、多様なドキュメントデータセットに含まれるグループインスタンスをクラスに分類する必要がある。
広く使われている手法は、深層学習を用いず、文書の本質的にマルチモーダルな性質を生かしていない。
特に、レコードリンクは一般に文字列マッチング問題として概念化されている。
本研究では,レコードリンクのためのマルチモーダルフレームワークであるCLIPPINGS(Contrastively Linking Pooled Pre-trained Embeddings)を開発した。
CLIPPINGSは、対称視覚と言語バイエンコーダのエンドツーエンドトレーニングを採用し、コントラスト的な言語イメージ事前トレーニングを通じて整列し、与えられたインスタンスのプールされた画像テキスト表現が同じクラスの表現に近づき、異なるクラスの表現から遠ざかるメトリック空間を学習する。
インスタンスは、オフラインの例の埋め込みインデックスから隣人を検索したり、表現をクラスタ化することでリンクすることができる。
20世紀半ばの日本における総合的なサプライチェーンの構築は、文書画像中の各企業名と対応するocrとを結びつけることと、歴史的アメリカの新聞の膨大なコーパス内のイメージ・キャプチャペアを同一の写真線源から検出することである。
CLIPPINGSは広く使われている文字列マッチング手法を幅広いマージンで上回り、またunimodalメソッドよりも上回ります。
さらに、イメージ-OCRペアのみを訓練した純粋に自己教師型モデルも、ラベルを必要とせずに一般的な文字列マッチング手法より優れている。
関連論文リスト
- DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents [20.320610571403222]
本稿では,文書内の画像と長文間の相互作用を理解するために,視覚言語事前学習モデルを強制するためのDocumentCLIPを提案する。
我々のモデルは、言語的にも視覚的にもリッチなコンテンツを含む、ニュース記事、雑誌、製品記述などの実世界のマルチモーダル文書理解にとって有益である。
論文 参考訳(メタデータ) (2023-06-09T23:51:11Z) - EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。
トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。
文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-11T16:05:03Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge
Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。
マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T08:32:18Z) - Sequence-aware multimodal page classification of Brazilian legal
documents [0.21204495827342434]
我々は,新たな6,510件の訴訟のマルチモーダルデータセットをトレーニングし,評価する。
各訴訟は順序付けられたページのシーケンスであり、画像と対応するテキストの両方として格納される。
我々はこれらを視覚的特徴とテキスト的特徴の抽出器として使用し、提案したFusion Moduleを通して組み合わせる。
論文 参考訳(メタデータ) (2022-07-02T06:23:25Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。