論文の概要: Generative Deduplication For Socia Media Data Selection
- arxiv url: http://arxiv.org/abs/2401.05883v3
- Date: Thu, 03 Oct 2024 03:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:30:39.911306
- Title: Generative Deduplication For Socia Media Data Selection
- Title(参考訳): ソシアメディアデータ選択のための生成重複
- Authors: Xianming Li, Jing Li,
- Abstract要約: 本稿では,ソーシャルメディアデータ選択のための新しい生成重複フレームワークを提案する。
我々のモデルはソーシャルメディアのNLPパイプラインを普遍的に拡張するための効率的な前処理手法として機能する。
- 参考スコア(独自算出の注目度): 4.545354973721937
- License:
- Abstract: Social media data exhibits severe redundancy caused by its noisy nature. It leads to increased training time and model bias in its processing. To address this issue, we propose a novel Generative Deduplication framework for social media data selection by removing semantically duplicate data. While related work involves data selection in task-specific training, our model acts as an efficient pre-processing method to universally enhance social media NLP pipelines. Specifically, we train a generative model via self-supervised learning to predict a keyword to capture the semantics of noisy social media text for deduplication. Meanwhile, time-dimensional Gaussian noise is added to improve training complexity and avoid learning trivial features. Extensive experiments suggest that our model can better reduce training samples while improving performance than baselines. The results show our model's potential to broadly advance social media language understanding in effectiveness and efficiency.
- Abstract(参考訳): ソーシャルメディアデータは、その騒々しい性質によって引き起こされる深刻な冗長性を示す。
これはトレーニング時間の増加と、その処理におけるモデルバイアスにつながる。
この問題に対処するために,意味的に重複したデータを取り除き,ソーシャルメディアデータ選択のための新しい生成重複フレームワークを提案する。
タスク固有のトレーニングにおけるデータ選択は関連する作業であるが、我々のモデルはソーシャルメディアのNLPパイプラインを普遍的に拡張するための効率的な前処理方法として機能する。
具体的には、自己教師型学習を用いて生成モデルを訓練し、ノイズの多いソーシャルメディアテキストの意味を抽出し、重複を抑えるキーワードを予測する。
一方、時間次元ガウスノイズは、訓練の複雑さを改善し、自明な特徴の学習を避けるために追加される。
大規模な実験から,本モデルではトレーニングサンプルの削減と,ベースラインよりも性能の向上が期待できる。
その結果,本モデルがソーシャルメディア言語を効果的かつ効果的に理解する能力を広く向上させる可能性が示唆された。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Building Resilience to Out-of-Distribution Visual Data via Input
Optimization and Model Finetuning [13.804184845195296]
本稿では,特定の目標視モデルに対する入力データを最適化する前処理モデルを提案する。
自律走行車におけるセマンティックセグメンテーションの文脈におけるアウト・オブ・ディストリビューションシナリオについて検討する。
提案手法により, 微調整モデルに匹敵するデータの性能を実現できることを示す。
論文 参考訳(メタデータ) (2022-11-29T14:06:35Z) - Leveraging Key Information Modeling to Improve Less-Data Constrained
News Headline Generation via Duality Fine-Tuning [12.443476695459553]
本稿では,鍵情報予測と見出し生成タスクの確率的双対性制約を定式化することにより,新しい双対性微調整法を提案する。
提案手法は、限られたデータからより多くの情報をキャプチャし、別々のタスク間の接続を構築することができ、データ制約の少ない生成タスクに適している。
提案手法は,2つの公開データセット上で,言語モデリングの指標と情報量補正の指標を用いて,性能向上に有効かつ効果的であることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-10-10T07:59:36Z) - Federated Pruning: Improving Neural Network Efficiency with Federated
Learning [24.36174705715827]
フェデレーテッド・プルーニング(Federated Pruning)は、フェデレーテッド・セッティングの下で縮小モデルのトレーニングを行う。
異なる刈り取り方式を探索し,提案手法の有効性の実証的証拠を提供する。
論文 参考訳(メタデータ) (2022-09-14T00:48:37Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。