Fugu-MT 論文翻訳(概要): Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams

論文の概要: Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams

arxiv url: http://arxiv.org/abs/2403.15455v1
Date: Mon, 18 Mar 2024 23:41:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 02:44:33.700569
Title: Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams
Title（参考訳）: テキストストリーム中の微調整文のサンプリング法の改善
Authors: Cristiano Mesquita Garcia, Alessandro Lameiras Koerich, Alceu de Souza Britto Jr, Jean Paul Barddal,
Abstract要約: 本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
参考スコア（独自算出の注目度）: 49.3179290313959
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The proliferation of textual data on the Internet presents a unique opportunity for institutions and companies to monitor public opinion about their services and products. Given the rapid generation of such data, the text stream mining setting, which handles sequentially arriving, potentially infinite text streams, is often more suitable than traditional batch learning. While pre-trained language models are commonly employed for their high-quality text vectorization capabilities in streaming contexts, they face challenges adapting to concept drift - the phenomenon where the data distribution changes over time, adversely affecting model performance. Addressing the issue of concept drift, this study explores the efficacy of seven text sampling methods designed to selectively fine-tune language models, thereby mitigating performance degradation. We precisely assess the impact of these methods on fine-tuning the SBERT model using four different loss functions. Our evaluation, focused on Macro F1-score and elapsed time, employs two text stream datasets and an incremental SVM classifier to benchmark performance. Our findings indicate that Softmax loss and Batch All Triplets loss are particularly effective for text stream classification, demonstrating that larger sample sizes generally correlate with improved macro F1-scores. Notably, our proposed WordPieceToken ratio sampling method significantly enhances performance with the identified loss functions, surpassing baseline results.
Abstract（参考訳）: インターネット上でのテキストデータの拡散は、組織や企業がサービスや製品に関する世論を監視できるユニークな機会である。このようなデータの高速な生成を考えると、シーケンシャルに到着し、潜在的に無限のテキストストリームを処理するテキストストリームマイニング設定は、従来のバッチ学習よりも適していることが多い。事前トレーニングされた言語モデルは、ストリーミング環境で高品質なテキストベクトル化機能に一般的に使用されるが、コンセプトドリフト(データ分散が時間とともに変化し、モデルのパフォーマンスに悪影響を及ぼす現象)に適応するための課題に直面している。本研究は,概念ドリフトの問題に対処するため,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討し,性能劣化を軽減した。これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。マクロF1スコアと経過時間に着目した評価では、2つのテキストストリームデータセットとインクリメンタルSVM分類器を用いて性能をベンチマークする。以上の結果から,ソフトマックスの損失とバッチ・オール・トリプレットの損失はテキストストリームの分類に特に有効であることが示唆された。特に,提案したWordPieceToken比サンプリング法は,識別された損失関数により性能を著しく向上させ,ベースライン結果を上回った。

関連論文リスト

Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。コード、事前トレーニングされたウェイト、デモがリリースされる。
論文参考訳（メタデータ） (2025-10-07T08:14:45Z)
Optimizing Small Transformer-Based Language Models for Multi-Label Sentiment Analysis in Short Texts [4.166512373146747]
短文の感情分類における小さなトランスフォーマーモデルの有効性を評価する。データを拡張することで分類性能が向上するのに対し、拡張データセットの事前トレーニングは精度を向上するよりもノイズを発生させる可能性があることを示す。
論文参考訳（メタデータ） (2025-09-05T10:08:14Z)
Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding [27.02879006439693]
本研究は、総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入する。本研究は,埋め込み型テキスト異常検出の有効性を系統的に評価する。ベンチマークツールキットをオープンソース化することで、この研究は、堅牢でスケーラブルなテキスト異常検出システムにおける将来の研究の基礎を提供する。
論文参考訳（メタデータ） (2025-07-16T14:47:41Z)
Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文参考訳（メタデータ） (2024-11-26T00:15:37Z)
Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文参考訳（メタデータ） (2023-11-27T20:19:22Z)
Error Norm Truncation: Robust Training in the Presence of Data Noise for Text Generation Models [39.37532848489779]
本稿では,ノイズの多いデータをトラストする標準学習目標に対する頑健な強化手法であるError Norm Truncation (ENT)を提案する。 ENTは,従来のソフト・ハード・トランケーション法よりも生成品質の向上を図っている。
論文参考訳（メタデータ） (2023-10-02T01:30:27Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data Generation for Cross-Lingual Learning in Tweet Intimacy Prediction [3.1798318618973362]
本稿では,SemEval 2023 Task 9「Multilingual Tweet Intimacy Analysis」に対するUZH_CLypの提出について述べる。公式なピアソン相関回帰評価尺度により,全10言語で2番目に高い結果を得た。
論文参考訳（メタデータ） (2023-03-02T12:18:53Z)
Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文参考訳（メタデータ） (2022-09-29T19:26:23Z)
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文参考訳（メタデータ） (2022-03-10T08:58:18Z)
Bridging the Gap Between Clean Data Training and Real-World Inference for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文参考訳（メタデータ） (2021-04-13T17:54:33Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)
A Simple but Tough-to-Beat Data Augmentation Approach for Natural Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。 cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文参考訳（メタデータ） (2020-09-29T07:08:35Z)
Self-Adversarial Learning with Comparative Discrimination for Text Generation [111.18614166615968]
本稿では,テキスト生成におけるGANの性能向上のための,新たな自己逆学習(SAL)パラダイムを提案する。トレーニング中、SALは、現在生成された文が以前生成されたサンプルより優れていると判断されたときにジェネレータに報酬を与える。テキスト生成ベンチマークデータセットの実験により,提案手法は品質と多様性の両方を大幅に改善することが示された。
論文参考訳（メタデータ） (2020-01-31T07:50:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。