論文の概要: Developing an Informal-Formal Persian Corpus
- arxiv url: http://arxiv.org/abs/2308.05336v1
- Date: Thu, 10 Aug 2023 04:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 13:50:03.746809
- Title: Developing an Informal-Formal Persian Corpus
- Title(参考訳): インフォーマルなペルシャコーパスの開発
- Authors: Vahide Tajalli, Fateme Kalantari and Mehrnoush Shamsfard
- Abstract要約: 単語/フレーズレベルのアライメントを持つ5万文ペアの並列コーパスを構築する。
結果として得られたコーパスは約530,000のアライメントを持ち、辞書には49,397の単語対とフレーズ対が含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Informal language is a style of spoken or written language frequently used in
casual conversations, social media, weblogs, emails and text messages. In
informal writing, the language faces some lexical and/or syntactic changes
varying among different languages. Persian is one of the languages with many
differences between its formal and informal styles of writing, thus developing
informal language processing tools for this language seems necessary. Such a
converter needs a large aligned parallel corpus of colloquial-formal sentences
which can be useful for linguists to extract a regulated grammar and
orthography for colloquial Persian as is done for the formal language. In this
paper we explain our methodology in building a parallel corpus of 50,000
sentence pairs with alignments in the word/phrase level. The sentences were
attempted to cover almost all kinds of lexical and syntactic changes between
informal and formal Persian, therefore both methods of exploring and collecting
from the different resources of informal scripts and following the phonological
and morphological patterns of changes were applied to find as much instances as
possible. The resulting corpus has about 530,000 alignments and a dictionary
containing 49,397 word and phrase pairs.
- Abstract(参考訳): 非公式言語は、カジュアルな会話、ソーシャルメディア、ブログ、メール、テキストメッセージでよく使われる話し言葉や書き言葉のスタイルである。
非公式な文章では、言語は異なる言語によって異なる語彙や構文の変化に直面している。
ペルシャ語はその形式的スタイルと形式的スタイルに多くの違いがある言語の1つであり、そのためこの言語のための非公式な言語処理ツールの開発が必要であると思われる。
このようなコンバータは、言語学者が形式言語でなされるような、口語ペルシャ語の文法と正書法を抽出するのに有用な、口語-形式文の大きな並列コーパスを必要とする。
本稿では,単語/フレーズレベルでアライメントした5万文対の並列コーパスを構築する手法について述べる。
この文は、非公式のペルシア語と形式的なペルシア語の間のほぼあらゆる種類の語彙的および構文的変化をカバーすることを目的としており、したがって、非公式の文字の異なる資源から探索と収集の方法と、できるだけ多くの例を見つけるために音韻学的および形態的変化のパターンに従う方法の両方が適用された。
その結果得られたコーパスには約53万のアライメントと49,397の単語と句のペアを含む辞書がある。
関連論文リスト
- Machine Translation to Control Formality Features in the Target Language [0.9208007322096532]
本研究では、機械学習が英語からフォーマルな言語への翻訳にどのように使われているかを検討する。
これは、形式性制御された設定でバイリンガルモデルを訓練し、その性能を事前訓練された多言語モデルと比較することで実現された。
予測されたマスク付きトークンと基底真理を比較することにより,公式な形式性精度(ACC)を評価する。
論文 参考訳(メタデータ) (2023-11-22T15:42:51Z) - In What Languages are Generative Language Models the Most Formal?
Analyzing Formality Distribution across Languages [2.457872341625575]
本研究では,文化の影響を強く受けている1つの言語特性,形式性に注目した。
我々はXGLMとBLOOMの予測の形式性分布を5言語で解析する。
我々は,言語毎の1200世代を形式的,非公式,あるいは非接着的に分類し,迅速な形式化が予測に与える影響を計測する。
論文 参考訳(メタデータ) (2023-02-23T19:39:52Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Computational valency lexica and Homeric formularity [1.6346069386394704]
我々は、古代ギリシアの依存木バンクから自動的に抽出された古代ギリシアの辞書 AGVaLex を提示する。
それは、動詞とその議論に関する量的コーパス駆動型形態学、構文的、語彙的情報を含んでいる。
古代ギリシアの著者の言語研究に広く応用されている。
論文 参考訳(メタデータ) (2022-08-23T08:03:16Z) - MANorm: A Normalization Dictionary for Moroccan Arabic Dialect Written
in Latin Script [0.05833117322405446]
我々は、YouTubeコメントのコーパスで生成された単語埋め込みモデルの強力さを利用する。
我々は、マノルムと呼ぶ正規化辞書を構築した。
論文 参考訳(メタデータ) (2022-06-18T10:17:46Z) - AUTOLEX: An Automatic Framework for Linguistic Exploration [93.89709486642666]
本稿では言語学者による言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークを提案する。
具体的には、この枠組みを用いて、形態的一致、ケースマーキング、単語順序の3つの現象について記述を抽出する。
本研究では,言語専門家の助けを借りて記述を評価し,人間の評価が不可能な場合に自動評価を行う手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T20:37:30Z) - A Novel Corpus of Discourse Structure in Humans and Computers [55.74664144248097]
約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
論文 参考訳(メタデータ) (2021-11-10T20:56:08Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Validation and Normalization of DCS corpus using Sanskrit Heritage tools
to build a tagged Gold Corpus [0.0]
デジタル・コーパス・オブ・サンスクリット(Digital Corpus of Sanskrit)は、その形態的および語彙的タグ付けとともに約65万の文を記録している。
サンスクリット・ヘリテージ・エンジン(英語版)の読者は、形態学的および語彙的分析を伴うあらゆる可能な区分を生産している。
論文 参考訳(メタデータ) (2020-05-13T19:23:43Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。