論文の概要: Data-to-Text Bilingual Generation
- arxiv url: http://arxiv.org/abs/2311.14808v1
- Date: Fri, 24 Nov 2023 19:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 09:29:36.448483
- Title: Data-to-Text Bilingual Generation
- Title(参考訳): データからテキストへのバイリンガル生成
- Authors: Guy Lapalme
- Abstract要約: この文書は、単一のデータソースから2つの平行テキスト(英語とフランス語)を生成するためにpyrealbを使用する様子を描いている。
データ選択とテキスト組織プロセスは2つの言語間で共有される。
実現されたテキストは、翻訳で失われることなく、両方の言語で同一の情報を伝達する。
- 参考スコア(独自算出の注目度): 1.57731592348751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This document illustrates the use of pyrealb for generating two parallel
texts (English and French) from a single source of data. The data selection and
text organisation processes are shared between the two languages. only language
dependent word and phrasing choices are distinct processes. The realized texts
thus convey identical information in both languages without the risk of being
lost in translation. This is especially important in cases where strict and
simultaneous bilingualism is required. We first present the types of
applications targeted by this approach and how the pyrealb English and French
realizer can be used for achieving this goal in a natural way. We describe an
object-oriented organization to ensure a convenient realization in both
languages. To illustrate the process, different types of applications are then
briefly sketched with links to the source code. A brief comparison of the text
generation is given with the output of an instance of a GPT.
- Abstract(参考訳): この文書は、単一のデータソースから2つの平行テキスト(英語とフランス語)を生成するためのpyrealbの使用を説明している。
データ選択とテキスト組織プロセスは2つの言語間で共有される。
言語依存の言葉と 言い換えの選択だけが 異なるプロセスです
実現されたテキストは、翻訳で失われることなく、両方の言語で同じ情報を伝達する。
これは厳格かつ同時的なバイリンガル主義を必要とする場合に特に重要である。
まず,このアプローチを対象とするアプリケーションの種類と,pyrealb english と french realizer を用いて,この目標を自然な方法で達成する方法を提案する。
両言語で便利な実現を実現するために,オブジェクト指向の組織について述べる。
プロセスを説明するために、異なるタイプのアプリケーションがソースコードへのリンクで簡単にスケッチされる。
テキスト生成の簡単な比較は、GPTのインスタンスの出力と与えられる。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - MaiNLP at SemEval-2024 Task 1: Analyzing Source Language Selection in Cross-Lingual Textual Relatedness [23.947119147068925]
本稿では,SemEval-2024 Task 1: Semantic Textual Relatedness (STR) on Track C: Cross-lingualについて述べる。
本課題は,目的言語における2つの文の意味的関連性を検出することを目的としている。
私たちの提出は、C8テストセット(Kinyarwanda)で1位を獲得しました。
論文 参考訳(メタデータ) (2024-04-03T08:44:51Z) - Share What You Already Know: Cross-Language-Script Transfer and
Alignment for Sentiment Detection in Code-Mixed Data [0.0]
コードスイッチングには複数の言語が混在しており、ソーシャルメディアのテキストでますます発生してきている現象である。
事前訓練された多言語モデルは、主に言語のネイティブスクリプトのデータを利用する。
各言語でネイティブスクリプトを使用すると、事前訓練された知識のため、テキストのより良い表現が生成される。
論文 参考訳(メタデータ) (2024-02-07T02:59:18Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。