論文の概要: Linking Representations with Multimodal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2304.03464v2
- Date: Tue, 11 Apr 2023 01:34:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 11:21:10.571482
- Title: Linking Representations with Multimodal Contrastive Learning
- Title(参考訳): マルチモーダルコントラスト学習によるリンク表現
- Authors: Abhishek Arora and Xinmei Yang and Shao-Yu Jheng and Melissa Dell
- Abstract要約: 本研究では,レコードリンクのためのマルチモーダルフレームワークであるCLIPPINGSを開発した。
対称視覚と言語バイエンコーダのエンドツーエンドトレーニングを採用し、コントラスト的な言語イメージ事前トレーニングを通じて整列する。
インスタンスは、オフラインの埋め込みインデックスから隣人を検索することでリンクすることができる。
- 参考スコア(独自算出の注目度): 1.5293427903448025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many applications require grouping instances contained in diverse document
datasets into classes. Most widely used methods do not employ deep learning and
do not exploit the inherently multimodal nature of documents. Notably, record
linkage is typically conceptualized as a string-matching problem. This study
develops CLIPPINGS, (Contrastively Linking Pooled Pre-trained Embeddings), a
multimodal framework for record linkage. CLIPPINGS employs end-to-end training
of symmetric vision and language bi-encoders, aligned through contrastive
language-image pre-training, to learn a metric space where the pooled
image-text representation for a given instance is close to representations in
the same class and distant from representations in different classes. At
inference time, instances can be linked by retrieving their nearest neighbor
from an offline exemplar embedding index or by clustering their
representations. The study examines two challenging applications: constructing
comprehensive supply chains for mid-20th century Japan through linking firm
level financial records - with each firm name represented by its crop in the
document image and the corresponding OCR - and detecting which image-caption
pairs in a massive corpus of historical U.S. newspapers came from the same
underlying photo wire source. CLIPPINGS outperforms widely used string matching
methods by a wide margin and also outperforms unimodal methods. Moreover, a
purely self-supervised model trained on only image-OCR pairs also outperforms
popular string-matching methods without requiring any labels.
- Abstract(参考訳): 多くのアプリケーションは、多様なドキュメントデータセットに含まれるグループインスタンスをクラスに分類する必要がある。
広く使われている手法は、深層学習を用いず、文書の本質的にマルチモーダルな性質を生かしていない。
特に、レコードリンクは一般に文字列マッチング問題として概念化されている。
本研究では,レコードリンクのためのマルチモーダルフレームワークであるCLIPPINGS(Contrastively Linking Pooled Pre-trained Embeddings)を開発した。
CLIPPINGSは、対称視覚と言語バイエンコーダのエンドツーエンドトレーニングを採用し、コントラスト的な言語イメージ事前トレーニングを通じて整列し、与えられたインスタンスのプールされた画像テキスト表現が同じクラスの表現に近づき、異なるクラスの表現から遠ざかるメトリック空間を学習する。
インスタンスは、オフラインの例の埋め込みインデックスから隣人を検索したり、表現をクラスタ化することでリンクすることができる。
20世紀半ばの日本における総合的なサプライチェーンの構築は、文書画像中の各企業名と対応するocrとを結びつけることと、歴史的アメリカの新聞の膨大なコーパス内のイメージ・キャプチャペアを同一の写真線源から検出することである。
CLIPPINGSは広く使われている文字列マッチング手法を幅広いマージンで上回り、またunimodalメソッドよりも上回ります。
さらに、イメージ-OCRペアのみを訓練した純粋に自己教師型モデルも、ラベルを必要とせずに一般的な文字列マッチング手法より優れている。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - C-CLIP: Contrastive Image-Text Encoders to Close the
Descriptive-Commentative Gap [0.5439020425819]
画像とソーシャルメディア投稿のコメントの相互作用は、その全体的なメッセージを理解する上で非常に重要である。
マルチモーダル埋め込みモデル、すなわちCLIPの最近の進歩は、画像とテキストの関連性において大きな進歩をもたらした。
CLIPモデルの現在のトレーニング体制は、サイトや言語に関わらず、ソーシャルメディア上のコンテンツにマッチするには不十分である。
画像テキストエンコーダを明示的なコメント対でトレーニングすると,検索結果が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-09-06T19:03:49Z) - DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents [18.080447065002392]
本稿では,文書内の画像と長文間の相互作用を理解するために,視覚言語事前学習モデルを強制するためのDocumentCLIPを提案する。
我々のモデルは、言語的にも視覚的にもリッチなコンテンツを含む、ニュース記事、雑誌、製品記述などの実世界のマルチモーダル文書理解にとって有益である。
論文 参考訳(メタデータ) (2023-06-09T23:51:11Z) - EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。
トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。
文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-11T16:05:03Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge
Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。
マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T08:32:18Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。