論文の概要: Bilingual Topic Models for Comparable Corpora
- arxiv url: http://arxiv.org/abs/2111.15278v1
- Date: Tue, 30 Nov 2021 10:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 14:41:05.749781
- Title: Bilingual Topic Models for Comparable Corpora
- Title(参考訳): 比較コーパスのためのバイリンガル話題モデル
- Authors: Georgios Balikas, Massih-Reza Amini, Marianne Clausel
- Abstract要約: ペア化された文書の分布間の結合機構を提案する。
異なる言語で書かれた文書の類似性を推定するために、浅いニューラルネットワークで学習した言語間単語埋め込みを用いる。
提案手法は2つのトピックモデルを拡張して評価する: 単語のバグ入力を仮定するLDAのバイリンガル適応と、テキスト構造の一部を意味的に一貫性のあるセグメントの境界に組み込んだモデル。
- 参考スコア(独自算出の注目度): 9.509416095106491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Probabilistic topic models like Latent Dirichlet Allocation (LDA) have been
previously extended to the bilingual setting. A fundamental modeling assumption
in several of these extensions is that the input corpora are in the form of
document pairs whose constituent documents share a single topic distribution.
However, this assumption is strong for comparable corpora that consist of
documents thematically similar to an extent only, which are, in turn, the most
commonly available or easy to obtain. In this paper we relax this assumption by
proposing for the paired documents to have separate, yet bound topic
distributions. % a binding mechanism between the distributions of the paired
documents. We suggest that the strength of the bound should depend on each
pair's semantic similarity. To estimate the similarity of documents that are
written in different languages we use cross-lingual word embeddings that are
learned with shallow neural networks. We evaluate the proposed binding
mechanism by extending two topic models: a bilingual adaptation of LDA that
assumes bag-of-words inputs and a model that incorporates part of the text
structure in the form of boundaries of semantically coherent segments. To
assess the performance of the novel topic models we conduct intrinsic and
extrinsic experiments on five bilingual, comparable corpora of English
documents with French, German, Italian, Spanish and Portuguese documents. The
results demonstrate the efficiency of our approach in terms of both topic
coherence measured by the normalized point-wise mutual information, and
generalization performance measured by perplexity and in terms of Mean
Reciprocal Rank in a cross-lingual document retrieval task for each of the
language pairs.
- Abstract(参考訳): Latent Dirichlet Allocation (LDA)のような確率論的トピックモデルは、以前はバイリンガル設定に拡張されていた。
これらの拡張の基本的なモデリングの前提は、入力コーパスが単一のトピック分布を共有する文書ペアの形式であるということである。
しかし、この仮定は、文書を数学的に類似した範囲で構成する比較コーパスに対して強く、最も一般的に入手できるか容易に得ることができる。
本稿では,この仮定を緩和するために,ペア文書が個別に,かつ限定されたトピック分布を持つように提案する。
%であった。
境界の強さはそれぞれのペアの意味的類似性に依存するべきである。
異なる言語で書かれた文書の類似性を推定するために、浅いニューラルネットワークで学習した言語間単語埋め込みを用いる。
提案手法は2つのトピックモデルを拡張して評価する: 単語のバグ入力を仮定するLDAのバイリンガル適応と、テキスト構造の一部を意味的に一貫性のあるセグメントの境界に組み込んだモデル。
新たなトピックモデルの性能を評価するために,フランス語,ドイツ語,イタリア語,スペイン語,ポルトガル語の5つのバイリンガルな対等なコーパスを用いて,内在的および外在的な実験を行った。
その結果,各言語対の言語間文書検索タスクにおいて,正規化ポイントワイド相互情報によって測定されたトピックコヒーレンスと,パープレキシティによって測定された一般化性能と平均相互ランクの両面でのアプローチの有効性が示された。
関連論文リスト
- Graph2topic: an opensource topic modeling framework based on sentence
embedding and community detection [1.6242924916178283]
クラスタリングベースのトピックモデルは、生成確率的なトピックモデルよりも優れたトピックを生成することができる。
本稿では,トピックモデリングのための簡易かつ効果的なフレームワークであるグラフ to トピック (G2T) を提案する。
G2Tは、異なる長さの英語と中国語の文書で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-04-13T16:28:07Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Coherence-Based Distributed Document Representation Learning for
Scientific Documents [9.646001537050925]
本研究では,科学文書の表現を学習するために,結合テキストペア埋め込み(CTPE)モデルを提案する。
我々は、異なる文書から2つの部分を持つ非結合テキストペアを構築するために、負のサンプリングを使用する。
テキストペアが結合されているか、アンカップリングされているかを判断するためにモデルを訓練し、結合されたテキストペアの埋め込みを文書の埋め込みとして使用する。
論文 参考訳(メタデータ) (2022-01-08T15:29:21Z) - SMDT: Selective Memory-Augmented Neural Document Translation [53.4627288890316]
本稿では,文脈の広い仮説空間を含む文書を扱うために,選択的メモリ拡張型ニューラル文書翻訳モデルを提案する。
トレーニングコーパスから類似のバイリンガル文ペアを抽出し,グローバルな文脈を拡大する。
ローカルなコンテキストと多様なグローバルなコンテキストをキャプチャする選択的なメカニズムで、2ストリームのアテンションモデルを拡張する。
論文 参考訳(メタデータ) (2022-01-05T14:23:30Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Nutribullets Hybrid: Multi-document Health Summarization [36.95954983680022]
本稿では,入力文書の類似性と矛盾を強調する比較要約を生成する手法を提案する。
私たちのフレームワークは、より忠実で関連性があり、集約に敏感な要約につながります。
論文 参考訳(メタデータ) (2021-04-08T01:44:29Z) - Scalable Cross-lingual Document Similarity through Language-specific
Concept Hierarchies [0.0]
本稿では,並列あるいは同等のコーパスを必要としない教師なし文書類似性アルゴリズムを提案する。
このアルゴリズムは、文書から自動的に作成されたトピックを多言語ラベルでアノテートします。
JCR-Acquis corporaの英語、スペイン語、フランス語版で実施された実験は、同様のコンテンツによる文書の分類と分類に関する有望な結果を明らかにします。
論文 参考訳(メタデータ) (2020-12-15T10:42:40Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。