論文の概要: Detecting Structured Language Alternations in Historical Documents by
Combining Language Identification with Fourier Analysis
- arxiv url: http://arxiv.org/abs/2401.14569v1
- Date: Thu, 25 Jan 2024 23:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 16:28:17.910038
- Title: Detecting Structured Language Alternations in Historical Documents by
Combining Language Identification with Fourier Analysis
- Title(参考訳): 言語識別とフーリエ分析を組み合わせた歴史文書における構造化言語交替の検出
- Authors: Hale Sirin, Sabrina Li, Tom Lippincott
- Abstract要約: 本稿では,文書内における構造化言語交替の頻度に基づいて,異なる多言語パターンを検出するタスクを紹介する。
我々は、非標準言語とスクリプトの組み合わせであるArmeno-Turkishを用いて、歴史的言語で文書を識別するための一般化可能なワークフローを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we present a generalizable workflow to identify documents in a
historic language with a nonstandard language and script combination,
Armeno-Turkish. We introduce the task of detecting distinct patterns of
multilinguality based on the frequency of structured language alternations
within a document.
- Abstract(参考訳): 本研究では,非標準言語とスクリプトの組み合わせであるarmeno-turkishを用いて,歴史的な言語で文書を識別するための汎用ワークフローを提案する。
本稿では,文書内の構造的言語交替頻度に基づいて,多言語性の異なるパターンを検出するタスクを提案する。
関連論文リスト
- Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement [1.4335183427838039]
我々は,特定の特性を持つ大規模でキュレートされた合成データを開発するためのアプローチを採っている。
我々は、ブラックバード言語行列(Blackbird Language Matrices)と呼ばれる新しい複数選択タスクとデータセットを使用して、特定の文法構造現象に焦点を当てる。
多言語テキストを一貫した方法で訓練したにもかかわらず、多言語事前学習言語モデルには言語固有の違いがあることが示される。
論文 参考訳(メタデータ) (2024-09-10T14:58:55Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Language Lexicons for Hindi-English Multilingual Text Processing [0.0]
現在の言語識別技術は、文書が固定された言語のセットの1つにテキストを含んでいることを前提としている。
ヒンディー語と英語の混合言語処理タスクのための大きな標準コーパスが利用できないため、言語辞書を提案する。
これらの語彙はヒンディー語と英語の語彙を翻訳して分類器を学習することによって作られる。
論文 参考訳(メタデータ) (2021-06-29T05:42:54Z) - Scalable Cross-lingual Document Similarity through Language-specific
Concept Hierarchies [0.0]
本稿では,並列あるいは同等のコーパスを必要としない教師なし文書類似性アルゴリズムを提案する。
このアルゴリズムは、文書から自動的に作成されたトピックを多言語ラベルでアノテートします。
JCR-Acquis corporaの英語、スペイン語、フランス語版で実施された実験は、同様のコンテンツによる文書の分類と分類に関する有望な結果を明らかにします。
論文 参考訳(メタデータ) (2020-12-15T10:42:40Z) - Automatically Identifying Language Family from Acoustic Examples in Low
Resource Scenarios [48.57072884674938]
ディープラーニングを用いて言語類似性を解析する手法を提案する。
すなわち、Willernessデータセットのモデルをトレーニングし、その潜在空間が古典的な言語家族の発見とどのように比較されるかを調べる。
論文 参考訳(メタデータ) (2020-12-01T22:44:42Z) - Cross-Lingual Document Retrieval with Smooth Learning [31.638708227607214]
言語間文書検索は、クエリの言語が文書の言語と異なる情報検索タスクである。
本稿では,異なる文書言語を用いた言語間検索の性能向上を実現するための,新しいエンドツーエンドロバストフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-02T03:17:39Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。