論文の概要: URL-BERT: Training Webpage Representations via Social Media Engagements
- arxiv url: http://arxiv.org/abs/2310.16303v1
- Date: Wed, 25 Oct 2023 02:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 17:20:47.937608
- Title: URL-BERT: Training Webpage Representations via Social Media Engagements
- Title(参考訳): URL-BERT: ソーシャルメディアによるWebページ表現のトレーニング
- Authors: Ayesha Qamar, Chetan Verma, Ahmed El-Kishky, Sumit Binnani, Sneha
Mehta, Taylor Berg-Kirkpatrick
- Abstract要約: LMを適応させてURLやWebページを理解するための,新たな事前学習目標を提案する。
提案するフレームワークは,(1) ソーシャルメディア上のユーザエンゲージメントに基づいて,URLの浅い表現を学習するためのスケーラブルなグラフ埋め込みである。
当社の継続的な事前学習アプローチは、さまざまなタスクやTwitterの内部および外部ベンチマークにおけるWebページ理解を改善することを実験的に実証した。
- 参考スコア(独自算出の注目度): 31.6455614291821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and representing webpages is crucial to online social networks
where users may share and engage with URLs. Common language model (LM) encoders
such as BERT can be used to understand and represent the textual content of
webpages. However, these representations may not model thematic information of
web domains and URLs or accurately capture their appeal to social media users.
In this work, we introduce a new pre-training objective that can be used to
adapt LMs to understand URLs and webpages. Our proposed framework consists of
two steps: (1) scalable graph embeddings to learn shallow representations of
URLs based on user engagement on social media and (2) a contrastive objective
that aligns LM representations with the aforementioned graph-based
representation. We apply our framework to the multilingual version of BERT to
obtain the model URL-BERT. We experimentally demonstrate that our continued
pre-training approach improves webpage understanding on a variety of tasks and
Twitter internal and external benchmarks.
- Abstract(参考訳): ウェブページの理解と表現は、ユーザーがURLを共有してエンゲージするオンラインソーシャルネットワークにとって不可欠である。
BERTのような共通言語モデル(LM)エンコーダは、Webページのテキストの内容を理解し、表現するために使用することができる。
しかし、これらの表現は、WebドメインやURLのテーマ情報をモデル化したり、ソーシャルメディアユーザーに正確にアピールするものではない。
本稿では,URLやWebページの理解にLMを適用するための事前学習の新たな手法を提案する。
提案するフレームワークは,(1) ソーシャルメディア上のユーザエンゲージメントに基づくURLの浅い表現を学習するためのスケーラブルなグラフ埋め込み,(2) LM表現と前述のグラフベース表現とを整合させるコントラスト的目的,の2段階からなる。
BERTの多言語バージョンにフレームワークを適用し、モデルURL-BERTを得る。
当社のトレーニング前アプローチが,さまざまなタスクやtwitter内部および外部ベンチマークのwebページ理解を改善することを実験的に実証した。
関連論文リスト
- VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Hierarchical Multimodal Pre-training for Visually Rich Webpage
Understanding [22.00873805952277]
WebLMは、WebページにおけるHTMLの構造的モダリティとテキストのみをモデリングする制限に対処するために設計されたマルチモーダル事前学習ネットワークである。
本稿では,テキスト,構造,画像モダリティ間の相互作用を効果的にモデル化するための事前学習タスクを提案する。
実験の結果、事前学習されたWebLMは、いくつかのWebページ理解タスクにおいて、従来の最先端の事前学習モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-02-28T11:50:36Z) - URLBERT:A Contrastive and Adversarial Pre-trained Model for URL
Classification [10.562100395816595]
URLはWebコンテンツの理解と分類において重要な役割を果たす。
本稿では,URL分類や検出タスクに適用された最初の事前学習型表現学習モデルであるURLBERTを紹介する。
論文 参考訳(メタデータ) (2024-02-18T07:51:20Z) - CapEnrich: Enriching Caption Semantics for Web Images via Cross-modal
Pre-trained Knowledge [44.31783230767321]
本稿では,一般的な画像記述を,よりセマンティックな詳細で補完するプラグイン・アンド・プレイ・フレームワークであるCapEnrichを提案する。
提案手法は,Web画像における生成文の記述性や多様性を大幅に向上させる。
論文 参考訳(メタデータ) (2022-11-17T06:55:49Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - WEDGE: Web-Image Assisted Domain Generalization for Semantic
Segmentation [72.88657378658549]
本稿では,Web画像の多様性を一般化可能なセマンティックセグメンテーションに活用したWEb画像支援ドメインゲネラライゼーション手法を提案する。
また,ウェブクローラー画像のスタイルをトレーニング中のトレーニング画像に注入する手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T05:19:58Z) - Graph-based Modeling of Online Communities for Fake News Detection [23.12016616717835]
グラフニューラルネットワーク(GNN)に基づく新しいソーシャルコンテキスト対応フェイクニュース検出フレームワークを提案する。
提案フレームワークは,1) 配信されたコンテンツの性質,2) ユーザのコンテンツ共有行動,3) 利用者のソーシャルネットワークに関する情報を集約する。
筆者らは,本フレームワークが既存のテキストベースの手法よりも大幅に向上し,二つのドメインの偽ニュースデータセットの最先端結果が得られることを実証的に実証した。
論文 参考訳(メタデータ) (2020-08-14T10:01:34Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。