Fugu-MT 論文翻訳(概要): URL-BERT: Training Webpage Representations via Social Media Engagements

論文の概要: URL-BERT: Training Webpage Representations via Social Media Engagements

arxiv url: http://arxiv.org/abs/2310.16303v1
Date: Wed, 25 Oct 2023 02:22:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 17:20:47.937608
Title: URL-BERT: Training Webpage Representations via Social Media Engagements
Title（参考訳）: URL-BERT: ソーシャルメディアによるWebページ表現のトレーニング
Authors: Ayesha Qamar, Chetan Verma, Ahmed El-Kishky, Sumit Binnani, Sneha Mehta, Taylor Berg-Kirkpatrick
Abstract要約: LMを適応させてURLやWebページを理解するための,新たな事前学習目標を提案する。提案するフレームワークは,(1) ソーシャルメディア上のユーザエンゲージメントに基づいて,URLの浅い表現を学習するためのスケーラブルなグラフ埋め込みである。当社の継続的な事前学習アプローチは、さまざまなタスクやTwitterの内部および外部ベンチマークにおけるWebページ理解を改善することを実験的に実証した。
参考スコア（独自算出の注目度）: 31.6455614291821
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding and representing webpages is crucial to online social networks where users may share and engage with URLs. Common language model (LM) encoders such as BERT can be used to understand and represent the textual content of webpages. However, these representations may not model thematic information of web domains and URLs or accurately capture their appeal to social media users. In this work, we introduce a new pre-training objective that can be used to adapt LMs to understand URLs and webpages. Our proposed framework consists of two steps: (1) scalable graph embeddings to learn shallow representations of URLs based on user engagement on social media and (2) a contrastive objective that aligns LM representations with the aforementioned graph-based representation. We apply our framework to the multilingual version of BERT to obtain the model URL-BERT. We experimentally demonstrate that our continued pre-training approach improves webpage understanding on a variety of tasks and Twitter internal and external benchmarks.
Abstract（参考訳）: ウェブページの理解と表現は、ユーザーがURLを共有してエンゲージするオンラインソーシャルネットワークにとって不可欠である。 BERTのような共通言語モデル(LM)エンコーダは、Webページのテキストの内容を理解し、表現するために使用することができる。しかし、これらの表現は、WebドメインやURLのテーマ情報をモデル化したり、ソーシャルメディアユーザーに正確にアピールするものではない。本稿では,URLやWebページの理解にLMを適用するための事前学習の新たな手法を提案する。提案するフレームワークは,(1) ソーシャルメディア上のユーザエンゲージメントに基づくURLの浅い表現を学習するためのスケーラブルなグラフ埋め込み,(2) LM表現と前述のグラフベース表現とを整合させるコントラスト的目的,の2段階からなる。 BERTの多言語バージョンにフレームワークを適用し、モデルURL-BERTを得る。当社のトレーニング前アプローチが,さまざまなタスクやtwitter内部および外部ベンチマークのwebページ理解を改善することを実験的に実証した。

関連論文リスト

AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文参考訳（メタデータ） (2024-12-12T18:59:27Z)
SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文参考訳（メタデータ） (2024-10-28T18:10:26Z)
EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文参考訳（メタデータ） (2024-10-25T10:46:17Z)
Representing Web Applications As Knowledge Graphs [0.0]
提案手法は、各ノードをアプリケーションの現在の状態の構造化された表現としてモデル化し、エッジはユーザ主導のアクションや遷移を反映する。この構造化された表現は、Webアプリケーションのより包括的で機能的な理解を可能にし、自動テストや振る舞い分析といった下流タスクに貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-10-06T02:50:41Z)
SocialQuotes: Learning Contextual Roles of Social Media Quotes on the Web [9.130915550141337]
我々は、ソーシャルメディアの埋め込みを引用に例え、ページコンテキストを構造化された自然言語信号として形式化し、ページコンテキスト内の引用に対する役割の分類を識別する。われわれはSocialQuotesをリリースした。SocialQuotesは3200万以上のソーシャル引用と8.3kのクラウドソースによる引用アノテーションからなるCommon Crawlから構築された新しいデータセットだ。
論文参考訳（メタデータ） (2024-07-22T19:21:01Z)
AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文参考訳（メタデータ） (2024-07-11T03:18:53Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
SoMeR: Multi-View User Representation Learning for Social Media [1.7949335303516192]
本稿では,ソーシャルメディアのユーザ表現学習フレームワークであるSoMeRを提案する。 SoMeRは、ユーザ投稿ストリームをタイムスタンプ付きテキスト機能のシーケンスとしてエンコードし、トランスフォーマーを使用してプロファイルデータと共にそれを埋め込み、リンク予測とコントラスト学習の目標を共同でトレーニングする。 1)類似コンテンツを同時に投稿するユーザを検出することによって、協調的な影響操作に関わる不正確なアカウントを同定し、2)異なる信念を持つユーザがより遠くへ移動する様子を定量化して、主要なイベント後のオンライン議論における偏光の増大を測定する。
論文参考訳（メタデータ） (2024-05-02T22:26:55Z)
Hierarchical Multimodal Pre-training for Visually Rich Webpage Understanding [22.00873805952277]
WebLMは、WebページにおけるHTMLの構造的モダリティとテキストのみをモデリングする制限に対処するために設計されたマルチモーダル事前学習ネットワークである。本稿では,テキスト,構造,画像モダリティ間の相互作用を効果的にモデル化するための事前学習タスクを提案する。実験の結果、事前学習されたWebLMは、いくつかのWebページ理解タスクにおいて、従来の最先端の事前学習モデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-02-28T11:50:36Z)
URLBERT:A Contrastive and Adversarial Pre-trained Model for URL Classification [10.562100395816595]
URLはWebコンテンツの理解と分類において重要な役割を果たす。本稿では,URL分類や検出タスクに適用された最初の事前学習型表現学習モデルであるURLBERTを紹介する。
論文参考訳（メタデータ） (2024-02-18T07:51:20Z)
FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。 CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文参考訳（メタデータ） (2023-10-30T11:25:03Z)
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。 4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2022-10-07T06:42:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。