論文の概要: NTULM: Enriching Social Media Text Representations with Non-Textual
Units
- arxiv url: http://arxiv.org/abs/2210.16586v1
- Date: Sat, 29 Oct 2022 12:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 14:46:53.983216
- Title: NTULM: Enriching Social Media Text Representations with Non-Textual
Units
- Title(参考訳): NTULM:非テキスト単位によるソーシャルメディアテキスト表現の強化
- Authors: Jinning Li and Shubhanshu Mishra and Ahmed El-Kishky and Sneha Mehta
and Vivek Kulkarni
- Abstract要約: ソーシャルメディアでは、投稿者、言及、ハッシュタグ、ハイパーリンクなど、アノテーションやメタデータの形で追加のコンテキストが存在することが多い。
我々は、NTUがテキスト意味論以外の社会的文脈を提供し、これらの単位を活用することで、ソーシャルメディアのテキスト表現を豊かにすることができると仮定する。
- 参考スコア(独自算出の注目度): 12.209631188516692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On social media, additional context is often present in the form of
annotations and meta-data such as the post's author, mentions, Hashtags, and
hyperlinks. We refer to these annotations as Non-Textual Units (NTUs). We posit
that NTUs provide social context beyond their textual semantics and leveraging
these units can enrich social media text representations. In this work we
construct an NTU-centric social heterogeneous network to co-embed NTUs. We then
principally integrate these NTU embeddings into a large pretrained language
model by fine-tuning with these additional units. This adds context to noisy
short-text social media. Experiments show that utilizing NTU-augmented text
representations significantly outperforms existing text-only baselines by 2-5\%
relative points on many downstream tasks highlighting the importance of context
to social media NLP. We also highlight that including NTU context into the
initial layers of language model alongside text is better than using it after
the text embedding is generated. Our work leads to the generation of holistic
general purpose social media content embedding.
- Abstract(参考訳): ソーシャルメディアでは、追加の文脈は、記事の著者、言及、ハッシュタグ、ハイパーリンクなど、注釈やメタデータの形でしばしば存在している。
これらのアノテーションを非テキスト単位(NTU)と呼ぶ。
我々は、NTUがテキスト意味論以外の社会的文脈を提供し、これらの単位を活用することで、ソーシャルメディアのテキスト表現を豊かにすることができると仮定する。
本研究では,NTUを組み込むNTU中心のネットワークを構築する。
そして、これらの追加ユニットを微調整することで、これらのNTU埋め込みを大規模な事前学習言語モデルに統合する。
これは、騒がしいソーシャルメディアにコンテキストを追加する。
実験により,NTU拡張テキスト表現の利用は,ソーシャルメディアNLPにおける文脈の重要性を強調する多くの下流タスクにおいて,既存のテキストのみのベースラインを2~5倍の相対ポイントで上回ることがわかった。
また、NTUコンテキストをテキストと並行して言語モデルの初期層に含めることが、テキスト埋め込みの生成後に使用するよりも優れていることも強調した。
我々の研究は、総合的な汎用ソーシャルメディアコンテンツの埋め込みへと繋がる。
関連論文リスト
- Augmenting Textual Generation via Topology Aware Retrieval [30.933176170660683]
トポロジを意識した検索型検索生成フレームワークを開発した。
このフレームワークは、トポロジ的関係に基づいてテキストを選択する検索モジュールを含む。
我々は,確立したテキスト配信ネットワークをキュレートし,本フレームワークの有効性を検証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2024-05-27T19:02:18Z) - Pretraining Language Models with Text-Attributed Heterogeneous Graphs [28.579509154284448]
テキスト分散不均質グラフ(TAHG)におけるトポロジ的および異種情報を明確に考察する言語モデル(LM)のための新しい事前学習フレームワークを提案する。
本稿では、LMと補助異種グラフニューラルネットワークを協調最適化することにより、コンテキストグラフに関わるノードを予測するトポロジ対応事前学習タスクを提案する。
各種ドメインの3つのデータセット上でリンク予測とノード分類を行う。
論文 参考訳(メタデータ) (2023-10-19T08:41:21Z) - HICL: Hashtag-Driven In-Context Learning for Social Media Natural
Language Understanding [15.743523533234224]
本稿では,ソーシャルメディア上での自然言語理解のための新しいハッシュタグ駆動型インコンテキスト学習フレームワークを提案する。
我々の目標は、モデル#Encoderがトピック関連セマンティック情報を組み込むことで、トピック関連投稿を検索できるようにすることである。
In-context NLUベンチマークを作成するために4500万のつぶやきを収集し、7つの下流タスクの実験結果から、HICLは過去の最先端の成果を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-08-19T11:31:45Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Boosting Weakly-Supervised Temporal Action Localization with Text
Information [94.48602948837664]
本稿では,アクションクラスラベルに基づくテキスト記述を構築するためのテキストセグメンテーション・マイニング(TSM)機構を提案する。
また,VLC (Video-text Language Completion) という生成目的も導入した。
また,提案手法を既存手法にシームレスに適用し,その性能を明確なマージンで向上させることができる。
論文 参考訳(メタデータ) (2023-05-01T00:07:09Z) - DANES: Deep Neural Network Ensemble Architecture for Social and Textual
Context-aware Fake News Detection [9.34612743192798]
DANESは、ソーシャルおよびテキスト対応のフェイクニュース検出のためのディープニューラルネットワークアンサンブルアーキテクチャである。
BuzzFace、Twitter15、Twitter16の3つの実世界のデータセットに対する予備的アブレーションの結果は、最先端のソリューションを上回る精度で期待できる。
論文 参考訳(メタデータ) (2023-02-01T20:05:53Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - TeKo: Text-Rich Graph Neural Networks with External Knowledge [75.91477450060808]
外部知識を用いた新しいテキストリッチグラフニューラルネットワーク(TeKo)を提案する。
まず、高品質なエンティティを組み込んだフレキシブルな異種セマンティックネットワークを提案する。
次に、構造化三重項と非構造化実体記述という2種類の外部知識を導入する。
論文 参考訳(メタデータ) (2022-06-15T02:33:10Z) - Named Entity Recognition for Social Media Texts with Semantic
Augmentation [70.44281443975554]
名前付きエンティティ認識のための既存のアプローチは、短いテキストと非公式テキストで実行される場合、データ空間の問題に悩まされる。
そこで我々は,NER によるソーシャルメディアテキストに対するニューラルベースアプローチを提案し,ローカルテキストと拡張セマンティクスの両方を考慮に入れた。
論文 参考訳(メタデータ) (2020-10-29T10:06:46Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。