論文の概要: Zero-shot hashtag segmentation for multilingual sentiment analysis
- arxiv url: http://arxiv.org/abs/2112.03213v1
- Date: Mon, 6 Dec 2021 18:13:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 15:28:02.229698
- Title: Zero-shot hashtag segmentation for multilingual sentiment analysis
- Title(参考訳): 多言語感情分析のためのゼロショットハッシュタグセグメンテーション
- Authors: Ruan Chaves Rodrigues, Marcelo Akira Inuzuka, Juliana Resplande
Sant'Anna Gomes, Acquila Santos Rocha, Iacer Calixto, Hugo Alexandre Dantas
do Nascimento
- Abstract要約: ハッシュタグセグメンテーション(ハッシュタグセグメンテーション、英: Hashtag segmentation)は、ソーシャルメディアデータセットのためのパイプラインを前処理する一般的なステップである。
ゼロショットハッシュタグセグメンテーションフレームワークを開発し、マルチリンガル感情分析パイプラインの精度向上にどのように使用できるかを示す。
- 参考スコア(独自算出の注目度): 1.8762753243053634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hashtag segmentation, also known as hashtag decomposition, is a common step
in preprocessing pipelines for social media datasets. It usually precedes tasks
such as sentiment analysis and hate speech detection. For sentiment analysis in
medium to low-resourced languages, previous research has demonstrated that a
multilingual approach that resorts to machine translation can be competitive or
superior to previous approaches to the task. We develop a zero-shot hashtag
segmentation framework and demonstrate how it can be used to improve the
accuracy of multilingual sentiment analysis pipelines. Our zero-shot framework
establishes a new state-of-the-art for hashtag segmentation datasets,
surpassing even previous approaches that relied on feature engineering and
language models trained on in-domain data.
- Abstract(参考訳): Hashtag segmentation(ハッシュタグ分割)は、ソーシャルメディアデータセットのパイプライン前処理における一般的なステップである。
通常、感情分析やヘイトスピーチ検出などのタスクに先行する。
中間言語から低リソース言語への感情分析では、機械翻訳を利用する多言語アプローチが、タスクに対する従来のアプローチよりも競合的あるいは優れていることが実証されている。
ゼロショットのハッシュタグセグメンテーションフレームワークを開発し,多言語感情分析パイプラインの精度向上に利用できることを示す。
私たちのゼロショットフレームワークは、ハッシュタグセグメンテーションデータセットの新しい最先端を確立し、ドメイン内データでトレーニングされた機能工学と言語モデルに依存する、以前のアプローチを上回っています。
関連論文リスト
- Evaluating and explaining training strategies for zero-shot cross-lingual news sentiment analysis [8.770572911942635]
いくつかの低リソース言語で新しい評価データセットを導入する。
我々は、機械翻訳の使用を含む、様々なアプローチを実験する。
言語間の相似性は言語間移動の成功を予測するのに十分ではないことを示す。
論文 参考訳(メタデータ) (2024-09-30T07:59:41Z) - Advancing Topic Segmentation of Broadcasted Speech with Multilingual Semantic Embeddings [2.615008111842321]
セマンティック音声エンコーダを用いたトピックセグメンテーションのためのエンドツーエンドスキームを提案する。
そこで本研究では,1000時間の公開録音を特徴とするデータセットを用いて,音声ニューストピックセグメンテーションのための新しいベンチマークを提案する。
この結果から,従来のパイプライン方式では英語のP_k$スコアが0.2431であるのに対して,エンドツーエンドモデルは競争力のあるP_k$スコアが0.2564であることがわかった。
論文 参考訳(メタデータ) (2024-09-10T05:24:36Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - A combined approach to the analysis of speech conversations in a contact
center domain [2.575030923243061]
本稿では, インバウンドフローやアウトバウンドフローから抽出した通話記録を扱う, イタリアのコンタクトセンターにおける音声分析プロセスの実験について述べる。
まず,Kaldi フレームワークをベースとした社内音声合成ソリューションの開発について詳述する。
そこで我々は,コールトランスクリプトのセマンティックタグ付けに対する異なるアプローチの評価と比較を行った。
最後に、タグ付け問題にJ48Sと呼ばれる決定木インデューサを適用する。
論文 参考訳(メタデータ) (2022-03-12T10:03:20Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Sentiment Analysis on Brazilian Portuguese User Reviews [0.0]
本研究は,システム結果の極性を仮定して,文書埋め込み戦略の予測性能を解析する。
この分析には、単一のデータセットに統合されたブラジルの5つの感情分析データセットと、トレーニング、テスト、バリデーションセットの参照パーティショニングが含まれている。
論文 参考訳(メタデータ) (2021-12-10T11:18:26Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - Fine-grained Language Identification with Multilingual CapsNet Model [0.0]
多言語コンテンツの生成と消費の爆発があります。
リアルタイムおよびきめ細かいコンテンツ分析サービスの必要性が高まっている。
音声言語検出の現在の技術は、これらの前線の1つに欠けている可能性がある。
論文 参考訳(メタデータ) (2020-07-12T20:01:22Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。