論文の概要: Batch Clustering for Multilingual News Streaming
- arxiv url: http://arxiv.org/abs/2004.08123v1
- Date: Fri, 17 Apr 2020 08:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 13:34:50.338924
- Title: Batch Clustering for Multilingual News Streaming
- Title(参考訳): 多言語ニュースストリーミングのためのバッチクラスタリング
- Authors: Mathis Linger and Mhamed Hajaiej
- Abstract要約: 多種多様で非組織的な情報が大量にあるため、読み書きは困難またはほぼ不可能である。
記事はバッチ毎に処理し、モノリンガルなローカルトピックを探し、時間と言語にまたがってリンクします。
我々のシステムは、スペイン語とドイツ語のニュースのデータセットにモノリンガルな結果を与え、英語、スペイン語、ドイツ語のニュースにクロスリンガルな結果を与える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, digital news articles are widely available, published by various
editors and often written in different languages. This large volume of diverse
and unorganized information makes human reading very difficult or almost
impossible. This leads to a need for algorithms able to arrange high amount of
multilingual news into stories. To this purpose, we extend previous works on
Topic Detection and Tracking, and propose a new system inspired from newsLens.
We process articles per batch, looking for monolingual local topics which are
then linked across time and languages. Here, we introduce a novel "replaying"
strategy to link monolingual local topics into stories. Besides, we propose new
fine tuned multilingual embedding using SBERT to create crosslingual stories.
Our system gives monolingual state-of-the-art results on dataset of Spanish and
German news and crosslingual state-of-the-art results on English, Spanish and
German news.
- Abstract(参考訳): 現在、デジタルニュース記事は広く入手でき、様々な編集者によって出版され、しばしば様々な言語で書かれる。
この多様で非組織的な情報の多さは、人間の読書を非常に困難またはほぼ不可能にする。
これにより、大量の多言語ニュースをストーリーに配置できるアルゴリズムの必要性が生じる。
そこで本稿では,過去のトピック検出と追跡に関する研究を拡張し,NewsLensに触発された新しいシステムを提案する。
記事はバッチ毎に処理し、時間と言語にまたがってリンクされるモノリンガルなローカルトピックを探します。
本稿では,単言語の局所話題を物語にリンクする新しい「再生」戦略を提案する。
さらに,SBERTを用いた多言語埋め込みによるクロスランガルストーリの生成を提案する。
本システムでは,スペイン語とドイツ語のニュースのデータセットと英語,スペイン語,ドイツ語のニュースの言語間比較結果を示す。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - Cross-Lingual Transfer for Natural Language Inference via Multilingual Prompt Translator [104.63314132355221]
素早い学習による言語間移動は有望な効果を示した。
我々は,MPT(Multilingual Prompt Translator)という新しいフレームワークを提案する。
MPTは、ソース言語とはかなり異なる言語に移行する際、バニラプロンプトよりも顕著である。
論文 参考訳(メタデータ) (2024-03-19T03:35:18Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Simplifying Multilingual News Clustering Through Projection From a
Shared Space [0.39560040546164016]
メディア監視のための多言語ニュース記事の整理とクラスタ化は,ニュース記事のリアルタイムな追跡に不可欠である。
このタスクのほとんどのアプローチは、高リソース言語(主に英語)に焦点を当てており、低リソース言語は無視されている。
言語固有の機能に依存することなく、よりシンプルな文書ストリームをクラスタリングできるオンラインシステムを提案する。
論文 参考訳(メタデータ) (2022-04-28T11:32:49Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - Transferring Knowledge Distillation for Multilingual Social Event
Detection [42.663309895263666]
最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。
本稿では,多言語データストリーム中の事象を検出するために,言語間単語埋め込みを組み込んだGNNを提案する。
合成データセットと実世界のデータセットの両方の実験では、多言語データとトレーニングサンプルが不足している言語の両方において、検出に非常に効果的なフレームワークが示されている。
論文 参考訳(メタデータ) (2021-08-06T12:38:42Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Upgrading the Newsroom: An Automated Image Selection System for News
Articles [6.901494425127736]
ニュース記事に適した画像を選択する際に,写真編集者を支援する自動画像選択システムを提案する。
本システムは,ニュース記事から抽出した複数のテキストソースを融合し,多言語入力を受け入れる。
マルチモーダルな多言語ニュース記事を含む大規模テキスト画像データベース上で,本システムを広範囲に実験した。
論文 参考訳(メタデータ) (2020-04-23T20:29:26Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。