論文の概要: Contrastive Document Representation Learning with Graph Attention
Networks
- arxiv url: http://arxiv.org/abs/2110.10778v1
- Date: Wed, 20 Oct 2021 21:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 16:12:35.361839
- Title: Contrastive Document Representation Learning with Graph Attention
Networks
- Title(参考訳): グラフ注意ネットワークを用いたコントラスト文書表現学習
- Authors: Peng Xu, Xinchi Chen, Xiaofei Ma, Zhiheng Huang, Bing Xiang
- Abstract要約: 本稿では,既訓練トランスフォーマーモデル上にグラフアテンションネットワークを用いて文書の埋め込みを学習することを提案する。
さらに、グラフ文書モデルに基づいて、大量のラベルなしコーパスでモデルを事前学習するための単純なコントラスト学習戦略を設計する。
- 参考スコア(独自算出の注目度): 18.22722084624321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in pretrained Transformer-based language models has shown
great success in learning contextual representation of text. However, due to
the quadratic self-attention complexity, most of the pretrained Transformers
models can only handle relatively short text. It is still a challenge when it
comes to modeling very long documents. In this work, we propose to use a graph
attention network on top of the available pretrained Transformers model to
learn document embeddings. This graph attention network allows us to leverage
the high-level semantic structure of the document. In addition, based on our
graph document model, we design a simple contrastive learning strategy to
pretrain our models on a large amount of unlabeled corpus. Empirically, we
demonstrate the effectiveness of our approaches in document classification and
document retrieval tasks.
- Abstract(参考訳): 事前訓練されたトランスフォーマーベース言語モデルの最近の進歩は、テキストの文脈表現の学習に大きな成功を収めている。
しかし、二次的な自己アテンションの複雑さのため、事前訓練されたトランスフォーマーモデルのほとんどは比較的短いテキストしか扱えない。
非常に長いドキュメントをモデリングすることに関してはまだ課題です。
本研究では,事前学習されたトランスフォーマーモデル上にグラフアテンションネットワークを用いて文書埋め込みを学習する方法を提案する。
このグラフアテンションネットワークにより、ドキュメントのハイレベルなセマンティクス構造を活用できます。
さらに,グラフ文書モデルに基づいて,大量のラベルなしコーパス上でモデルを事前学習するための,単純なコントラスト学習戦略を設計した。
文書分類と文書検索タスクにおける手法の有効性を実証的に示す。
関連論文リスト
- Synthetic continued pretraining [29.6872772403251]
ドメイン固有文書の小さなコーパス上での合成継続事前学習を提案する。
合成データ拡張アルゴリズムであるEntiGraphでこの提案をインスタンス化する。
合成データ拡張が、よりデータ効率のよい学習を可能にするために、どのように知識を"再編成"できるかを示す。
論文 参考訳(メタデータ) (2024-09-11T17:21:59Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z) - Neural Language Modeling for Contextualized Temporal Graph Generation [49.21890450444187]
本稿では,大規模事前学習言語モデルを用いた文書のイベントレベル時間グラフの自動生成に関する最初の研究について述べる。
論文 参考訳(メタデータ) (2020-10-20T07:08:00Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。