Fugu-MT 論文翻訳(概要): Linking Representations with Multimodal Contrastive Learning

論文の概要: Linking Representations with Multimodal Contrastive Learning

arxiv url: http://arxiv.org/abs/2304.03464v2
Date: Tue, 11 Apr 2023 01:34:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-12 11:21:10.571482
Title: Linking Representations with Multimodal Contrastive Learning
Title（参考訳）: マルチモーダルコントラスト学習によるリンク表現
Authors: Abhishek Arora and Xinmei Yang and Shao-Yu Jheng and Melissa Dell
Abstract要約: 本研究では,レコードリンクのためのマルチモーダルフレームワークであるCLIPPINGSを開発した。対称視覚と言語バイエンコーダのエンドツーエンドトレーニングを採用し、コントラスト的な言語イメージ事前トレーニングを通じて整列する。インスタンスは、オフラインの埋め込みインデックスから隣人を検索することでリンクすることができる。
参考スコア（独自算出の注目度）: 1.5293427903448025
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many applications require grouping instances contained in diverse document datasets into classes. Most widely used methods do not employ deep learning and do not exploit the inherently multimodal nature of documents. Notably, record linkage is typically conceptualized as a string-matching problem. This study develops CLIPPINGS, (Contrastively Linking Pooled Pre-trained Embeddings), a multimodal framework for record linkage. CLIPPINGS employs end-to-end training of symmetric vision and language bi-encoders, aligned through contrastive language-image pre-training, to learn a metric space where the pooled image-text representation for a given instance is close to representations in the same class and distant from representations in different classes. At inference time, instances can be linked by retrieving their nearest neighbor from an offline exemplar embedding index or by clustering their representations. The study examines two challenging applications: constructing comprehensive supply chains for mid-20th century Japan through linking firm level financial records - with each firm name represented by its crop in the document image and the corresponding OCR - and detecting which image-caption pairs in a massive corpus of historical U.S. newspapers came from the same underlying photo wire source. CLIPPINGS outperforms widely used string matching methods by a wide margin and also outperforms unimodal methods. Moreover, a purely self-supervised model trained on only image-OCR pairs also outperforms popular string-matching methods without requiring any labels.
Abstract（参考訳）: 多くのアプリケーションは、多様なドキュメントデータセットに含まれるグループインスタンスをクラスに分類する必要がある。広く使われている手法は、深層学習を用いず、文書の本質的にマルチモーダルな性質を生かしていない。特に、レコードリンクは一般に文字列マッチング問題として概念化されている。本研究では,レコードリンクのためのマルチモーダルフレームワークであるCLIPPINGS(Contrastively Linking Pooled Pre-trained Embeddings)を開発した。 CLIPPINGSは、対称視覚と言語バイエンコーダのエンドツーエンドトレーニングを採用し、コントラスト的な言語イメージ事前トレーニングを通じて整列し、与えられたインスタンスのプールされた画像テキスト表現が同じクラスの表現に近づき、異なるクラスの表現から遠ざかるメトリック空間を学習する。インスタンスは、オフラインの例の埋め込みインデックスから隣人を検索したり、表現をクラスタ化することでリンクすることができる。 20世紀半ばの日本における総合的なサプライチェーンの構築は、文書画像中の各企業名と対応するocrとを結びつけることと、歴史的アメリカの新聞の膨大なコーパス内のイメージ・キャプチャペアを同一の写真線源から検出することである。 CLIPPINGSは広く使われている文字列マッチング手法を幅広いマージンで上回り、またunimodalメソッドよりも上回ります。さらに、イメージ-OCRペアのみを訓練した純粋に自己教師型モデルも、ラベルを必要とせずに一般的な文字列マッチング手法より優れている。

関連論文リスト

Improving Contextual ASR via Multi-grained Fusion with Large Language Models [12.755830619473368]
本稿では,Large Language Models (LLMs) によるトークンレベルとフレーズレベルの融合の強みを両立させる,新しい多層融合手法を提案する。提案手法は,ASRの音響情報とLLMの豊富な文脈知識を組み合わせ,詳細なトークン精度と全体論的フレーズレベルの理解のバランスをとる,遅延融合戦略を取り入れたものである。中国語と英語のデータセットを用いた実験により,キーワード関連メトリクスの最先端性能が得られた。
論文参考訳（メタデータ） (2025-07-16T13:59:32Z)
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:27:12Z)
Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。 STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。 DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文参考訳（メタデータ） (2024-08-11T06:36:42Z)
C-CLIP: Contrastive Image-Text Encoders to Close the Descriptive-Commentative Gap [0.5439020425819]
画像とソーシャルメディア投稿のコメントの相互作用は、その全体的なメッセージを理解する上で非常に重要である。マルチモーダル埋め込みモデル、すなわちCLIPの最近の進歩は、画像とテキストの関連性において大きな進歩をもたらした。 CLIPモデルの現在のトレーニング体制は、サイトや言語に関わらず、ソーシャルメディア上のコンテンツにマッチするには不十分である。画像テキストエンコーダを明示的なコメント対でトレーニングすると,検索結果が大幅に向上することを示す。
論文参考訳（メタデータ） (2023-09-06T19:03:49Z)
DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents [18.080447065002392]
本稿では,文書内の画像と長文間の相互作用を理解するために,視覚言語事前学習モデルを強制するためのDocumentCLIPを提案する。我々のモデルは、言語的にも視覚的にもリッチなコンテンツを含む、ニュース記事、雑誌、製品記述などの実世界のマルチモーダル文書理解にとって有益である。
論文参考訳（メタデータ） (2023-06-09T23:51:11Z)
EAML: Ensemble Self-Attention-based Mutual Learning Network for Document Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-11T16:05:03Z)
Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。 LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文参考訳（メタデータ） (2023-02-02T06:38:44Z)
Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文参考訳（メタデータ） (2022-07-05T08:32:18Z)
VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。 CMCは自然文をテキストビューからマルチモーダルビューに変換する。クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文参考訳（メタデータ） (2022-06-17T17:56:47Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2021-06-07T04:19:49Z)
Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文参考訳（メタデータ） (2021-04-15T21:43:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。