論文の概要: Persona-aware Generative Model for Code-mixed Language
- arxiv url: http://arxiv.org/abs/2309.02915v1
- Date: Wed, 6 Sep 2023 11:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 15:45:31.841277
- Title: Persona-aware Generative Model for Code-mixed Language
- Title(参考訳): コード混合言語のためのペルソナ認識生成モデル
- Authors: Ayan Sengupta, Md Shad Akhtar, Tanmoy Chakraborty
- Abstract要約: 我々は,実生活におけるコード混在テキストに似たテキストを生成するペルソナ認識生成モデルの開発を先駆的に試みている。
ユーザのペルソナに条件付き発話を符号化し,モノリンガル参照データのないコード混合テキストを生成するトランスフォーマーベースのエンコーダデコーダモデルを提案する。
PARADOXのCM BLEUは1.6ポイント、パープレキシティは47%、セマンティックコヒーレンスは32%向上した。
- 参考スコア(独自算出の注目度): 39.14128923434994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-mixing and script-mixing are prevalent across online social networks and
multilingual societies. However, a user's preference toward code-mixing depends
on the socioeconomic status, demographics of the user, and the local context,
which existing generative models mostly ignore while generating code-mixed
texts. In this work, we make a pioneering attempt to develop a persona-aware
generative model to generate texts resembling real-life code-mixed texts of
individuals. We propose a Persona-aware Generative Model for Code-mixed
Generation, PARADOX, a novel Transformer-based encoder-decoder model that
encodes an utterance conditioned on a user's persona and generates code-mixed
texts without monolingual reference data. We propose an alignment module that
re-calibrates the generated sequence to resemble real-life code-mixed texts.
PARADOX generates code-mixed texts that are semantically more meaningful and
linguistically more valid. To evaluate the personification capabilities of
PARADOX, we propose four new metrics -- CM BLEU, CM Rouge-1, CM Rouge-L and CM
KS. On average, PARADOX achieves 1.6 points better CM BLEU, 47% better
perplexity and 32% better semantic coherence than the non-persona-based
counterparts.
- Abstract(参考訳): コードミックスとスクリプトミックスは、オンラインのソーシャルネットワークや多言語社会に普及している。
しかし、コード混合に対するユーザの好みは、社会経済的地位、ユーザの人口統計、そして既存の生成モデルがコード混合テキストを生成する際にほとんど無視するローカルコンテキストに依存する。
本研究では,実生活におけるコード混在テキストに似たテキストを生成するペルソナ認識生成モデルの開発を先駆的に試みる。
本稿では,ユーザのペルソナに条件付き発話を符号化し,モノリンガル参照データのないコード混合テキストを生成するトランスフォーマーベースのエンコーダデコーダモデルであるPARADOXを提案する。
本稿では,生成したシーケンスを再結合して実生活コード混合テキストに類似させるアライメントモジュールを提案する。
PARADOXは意味的に意味があり、言語的により有効なコード混合テキストを生成する。
PARADOXの擬人化能力を評価するため,CM BLEU,CM Rouge-1,CM Rouge-L,CM KSの4つの新しい指標を提案する。
平均すると、PARADOXは、CM BLEUが1.6ポイント、パープレキシティが47%、セマンティックコヒーレンスが32%向上している。
関連論文リスト
- Multilingual Controlled Generation And Gold-Standard-Agnostic Evaluation of Code-Mixed Sentences [3.359458926468223]
GAME: A Gold-Standard Agnostic Measure for Evaluation of Code-Mixed文を紹介する。
ゲームは、評価のためにゴールドスタンダードのコード混合文を必要としないため、人間のアノテータは不要である。
4つの言語対にまたがるゴールドスタンダードのコード混合文を含むデータセットをリリースする。
論文 参考訳(メタデータ) (2024-10-14T14:54:05Z) - Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。
以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences [18.53327811304381]
コード混在テキストの受理性に関する人間の判断をモデル化することは、自然なコード混在テキストの識別に役立ちます。
クラインは16,642文のタイプの中で最大であり、2つの情報源から得られたサンプルで構成されている。
Clineを用いた実験では、コードミキシングのメトリクスのみに基づいて訓練された単純な多層パーセプトロン(MLP)モデルが、微調整された多言語大言語モデル(MLLM)より優れていることが示された。
論文 参考訳(メタデータ) (2024-05-09T06:40:39Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - PreCogIIITH at HinglishEval : Leveraging Code-Mixing Metrics & Language
Model Embeddings To Estimate Code-Mix Quality [18.806186479627335]
我々は、コードミックス品質のレーティングを予測し、合成生成したコードミックステキストの品質に影響を与えるモデルを構築しようとしている。
INLG2022と協調した共有タスクであるHinglishEvalへの投稿で、私たちは、コードミックス品質のレーティングを予測することによって、合成されたコードミックステキストの品質に影響を与えるモデルを構築しようとしています。
論文 参考訳(メタデータ) (2022-06-16T08:00:42Z) - L3Cube-HingCorpus and HingBERT: A Code Mixed Hindi-English Dataset and
BERT Language Models [1.14219428942199]
L3Cube-HingCorpusは,ローマ文字で最初の大規模実ヒンディー語混成データである。
GLUECoSベンチマークから,コード混合感情分析,POSタグ付け,NER,LIDなどの下流タスクに対するBERTモデルの有効性を示す。
論文 参考訳(メタデータ) (2022-04-18T16:49:59Z) - Exploring Text-to-Text Transformers for English to Hinglish Machine
Translation with Synthetic Code-Mixing [19.19256927651015]
モノリンガル英語のテキストをHinglish(コード混合ヒンディー語と英語)に変換するモデルを記述する。
事前訓練された言語モデルの最近の成功を踏まえ、トランスフォーマーベースのエンコーダデコーダモデルの実用性についても検証する。
私たちのモデルは、英語と英語の公式共有タスクの全体的なランキングで第一位です。
論文 参考訳(メタデータ) (2021-05-18T19:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。