論文の概要: Model in Distress: Sentiment Analysis on French Synthetic Social Media
- arxiv url: http://arxiv.org/abs/2604.18226v1
- Date: Mon, 20 Apr 2026 13:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.88733
- Title: Model in Distress: Sentiment Analysis on French Synthetic Social Media
- Title(参考訳): 距離のモデル:フランスの合成ソーシャルメディアにおける感性分析
- Authors: Pierre-Carl Langlais, Pavel Chizhov, Yannick Detrois, Carlos Rosas Hinostroza, Ivan P. Yamshchikov, Bastien Perroy,
- Abstract要約: ソーシャルメディア分析のための一般化可能な合成データ生成パイプラインを開発した。
我々は、小さなシードコーパスから170万の合成ツイートを生成し、合成推論トレースで補完する。
当社のパイプラインは、センシティブなユーザデータの露出をなくすことで、プライバシを保護します。
- 参考スコア(独自算出の注目度): 6.34375628591058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated analysis of customer feedback on social media is hindered by three challenges: the high cost of annotated training data, the scarcity of evaluation sets, especially in multilingual settings, and privacy concerns that prevent data sharing and reproducibility. We address these issues by developing a generalizable synthetic data generation pipeline applied to a case study on customer distress detection in French public transportation. Our approach utilizes backtranslation with fine-tuned models to generate 1.7 million synthetic tweets from a small seed corpus, complemented by synthetic reasoning traces. We train 600M-parameter reasoners with English and French reasoning that achieve 77-79% accuracy on human-annotated evaluation data, matching or exceeding SOTA proprietary LLMs and specialized encoders. Beyond reducing annotation costs, our pipeline preserves privacy by eliminating the exposure of sensitive user data. Our methodology can be adopted for other use cases and languages.
- Abstract(参考訳): ソーシャルメディア上での顧客フィードバックの自動分析は、アノテートされたトレーニングデータの高コスト、特に多言語設定における評価セットの不足、データ共有と再現性を妨げるプライバシー上の懸念の3つの課題によって妨げられている。
本稿では、フランスの公共交通機関における顧客災害検出のケーススタディに応用した一般化可能な合成データ生成パイプラインを開発することにより、これらの課題に対処する。
我々の手法は、微調整されたモデルによる逆翻訳を利用して、小さなシードコーパスから170万の合成ツイートを生成し、合成推論トレースで補完する。
我々は、人間の注釈付き評価データに対して77~79%の精度を達成し、SOTAプロプライエタリなLLMと特殊エンコーダをマッチングまたは超える600Mパラメータ推論器を英語とフランス語で訓練する。
アノテーションコストの削減に加えて、センシティブなユーザデータの露出を排除して、私たちのパイプラインはプライバシを保護します。
私たちの方法論は他のユースケースや言語にも適用できます。
関連論文リスト
- Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models [7.9049991577473735]
近年の研究では、大きな言語モデル(LLM)が信頼性の高いプライバシ評価として機能し、人間の判断と強く一致していることが示されている。
我々は、Mistral Large 3 (675B) のプライバシー評価能力を、1億5000万のパラメータしか持たない軽量エンコーダモデルに蒸留することで、このギャップに対処する。
論文 参考訳(メタデータ) (2026-03-31T09:40:58Z) - ACT as Human: Multimodal Large Language Model Data Annotation with Critical Thinking [44.58919028628059]
教師付き学習は高品質なラベル付きデータに頼っているが、人間のアノテーションを通してそのようなデータを取得するのは高価かつ時間を要する。
最近の研究は、アノテーションに大規模言語モデル(LLM)を使うことを探求しているが、LLM生成ラベルは人間レベルの品質に欠けている。
この問題に対処するために,批判的思考(ACT)データパイプラインを用いたスーパーバイスを提案する。
論文 参考訳(メタデータ) (2025-11-13T00:32:30Z) - A Data Synthesis Method Driven by Large Language Models for Proactive Mining of Implicit User Intentions in Tourism [6.387945824899046]
観光分野では、Large Language Models (LLM) は観光客の曖昧な問い合わせから暗黙のユーザー意図を掘り下げるのに苦労することが多い。
中国観光サイトから収集したシードデータに基づいて対話をシミュレートするLLM駆動型ユーザエージェントとアシスタントエージェントを構築するSynPTを提案する。
論文 参考訳(メタデータ) (2025-05-14T02:36:17Z) - NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human [56.46355425175232]
我々は,人間によって使用される2つの共通戦略を用いて,機密テキストの衛生化を提案する。
我々は,クラウドソーシングと大規模言語モデルの利用を通じて,NAP2という最初のコーパスをキュレートする。
匿名化に関する以前の研究と比較すると、人間に触発されたアプローチはより自然な書き直しをもたらす。
論文 参考訳(メタデータ) (2024-06-06T05:07:44Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data
Generation for Cross-Lingual Learning in Tweet Intimacy Prediction [3.1798318618973362]
本稿では,SemEval 2023 Task 9「Multilingual Tweet Intimacy Analysis」に対するUZH_CLypの提出について述べる。
公式なピアソン相関回帰評価尺度により,全10言語で2番目に高い結果を得た。
論文 参考訳(メタデータ) (2023-03-02T12:18:53Z) - Synthetic Pre-Training Tasks for Neural Machine Translation [16.6378815054841]
我々のゴールは、合成資源を使用する場合の事前学習モデルの有効性に寄与する要因を理解することである。
本稿では,語彙的および構造的知識のレベルが異なる事前学習型翻訳モデルを提案する。
複数の言語ペアに対する実験により,高レベルの難読化や純粋に合成された並列データであっても,事前学習のメリットが実現できることが明らかになった。
論文 参考訳(メタデータ) (2022-12-19T21:34:00Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。