論文の概要: VLCDoC: Vision-Language Contrastive Pre-Training Model for Cross-Modal
Document Classification
- arxiv url: http://arxiv.org/abs/2205.12029v3
- Date: Thu, 11 May 2023 15:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 19:07:15.635800
- Title: VLCDoC: Vision-Language Contrastive Pre-Training Model for Cross-Modal
Document Classification
- Title(参考訳): VLCDoC:クロスモーダル文書分類のための視覚言語コントラスト事前学習モデル
- Authors: Souhail Bakkali, Zuheng Ming, Mickael Coustaty, Mar\c{c}al Rusi\~nol,
Oriol Ramos Terrades
- Abstract要約: 文書データからのマルチモーダル学習は、前もって意味論的に意味のある機能を学習可能な下流タスクに事前学習可能にすることで、近年大きな成功を収めている。
本稿では,言語と視覚の手がかりを通したクロスモーダル表現の学習により,文書分類問題にアプローチする。
提案手法は,ハイレベルなインタラクションを利用して,モダリティ内外における効果的な注意の流れから関連する意味情報を学習する。
- 参考スコア(独自算出の注目度): 3.7798600249187295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning from document data has achieved great success lately as
it allows to pre-train semantically meaningful features as a prior into a
learnable downstream task. In this paper, we approach the document
classification problem by learning cross-modal representations through language
and vision cues, considering intra- and inter-modality relationships. Instead
of merging features from different modalities into a joint representation
space, the proposed method exploits high-level interactions and learns relevant
semantic information from effective attention flows within and across
modalities. The proposed learning objective is devised between intra- and
inter-modality alignment tasks, where the similarity distribution per task is
computed by contracting positive sample pairs while simultaneously contrasting
negative ones in the joint representation space}. Extensive experiments on
public document classification datasets demonstrate the effectiveness and the
generality of our model on low-scale and large-scale datasets.
- Abstract(参考訳): ドキュメントデータからのマルチモーダル学習は最近、学習可能な下流タスクに先行して意味的に意味のある機能を事前トレーニングできるため、大きな成功を収めている。
本稿では,モダリティ内およびモダリティ間関係を考慮し,言語と視覚の相互表現を学習し,文書分類問題にアプローチする。
異なるモダリティの機能を結合表現空間にマージする代わりに、提案手法は高レベルの相互作用を活用し、モダリティ内外における効果的な注意の流れから関連する意味情報を学習する。
提案した学習目的は,タスクごとの類似度分布を正のサンプル対を縮合し,かつ共同表現空間内の負の対を同時に比較することにより,モダリティ内アライメントタスクとモダリティ間アライメントタスクの間に工夫される。
公開文書分類データセットに関する広範囲な実験により,本モデルの有効性と汎用性が実証された。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Knowledge-Enhanced Hierarchical Information Correlation Learning for
Multi-Modal Rumor Detection [82.94413676131545]
マルチモーダルなうわさ検出のための知識強化型階層型情報相関学習手法(KhiCL)を提案する。
KhiCLは異質な一様性特徴を共通特徴空間に伝達するために、クロスモーダルな関節辞書を利用する。
画像やテキストから視覚的およびテキスト的実体を抽出し、知識関連推論戦略を設計する。
論文 参考訳(メタデータ) (2023-06-28T06:08:20Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。
トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。
文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-11T16:05:03Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Sequential Cross-Document Coreference Resolution [14.099694053823765]
クロスドキュメントのコリファレンス解決は、マルチドキュメント分析タスクへの関心が高まる上で重要である。
コアファレンス分解能の効率的なシーケンシャル予測パラダイムを文書間設定に拡張する新しいモデルを提案する。
私たちのモデルは、参照をクラスタ表現にインクリメンタルに合成し、参照とすでに構築されたクラスタ間のリンクを予測する。
論文 参考訳(メタデータ) (2021-04-17T00:46:57Z) - An End-to-end Model for Entity-level Relation Extraction using
Multi-instance Learning [2.111790330664657]
本稿では,文書からのエンティティレベルの関係抽出のための共同モデルを提案する。
DocREDデータセットから最先端関係抽出結果を得る。
実験結果から,共同学習はタスク固有の学習と同等であるが,共有パラメータや学習手順によりより効率的であることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T12:49:39Z) - Semantically Driven Sentence Fusion: Modeling and Evaluation [27.599227950466442]
文融合は関連文をコヒーレントテキストに結合する作業である。
このタスクの現在のトレーニングと評価スキームは、単一の参照基盤構造に基づいている。
このことは、入力文間の意味的関係を頑健に把握することを妨げる。
論文 参考訳(メタデータ) (2020-10-06T10:06:01Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。