論文の概要: Multilingual Controlled Generation And Gold-Standard-Agnostic Evaluation of Code-Mixed Sentences
- arxiv url: http://arxiv.org/abs/2410.10580v1
- Date: Mon, 14 Oct 2024 14:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:45:18.308228
- Title: Multilingual Controlled Generation And Gold-Standard-Agnostic Evaluation of Code-Mixed Sentences
- Title(参考訳): 符号混合文の多言語制御とゴールドスタンダード非依存評価
- Authors: Ayushman Gupta, Akhil Bhogal, Kripabandhu Ghosh,
- Abstract要約: GAME: A Gold-Standard Agnostic Measure for Evaluation of Code-Mixed文を紹介する。
ゲームは、評価のためにゴールドスタンダードのコード混合文を必要としないため、人間のアノテータは不要である。
4つの言語対にまたがるゴールドスタンダードのコード混合文を含むデータセットをリリースする。
- 参考スコア(独自算出の注目度): 3.359458926468223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-mixing, the practice of alternating between two or more languages in an utterance, is a common phenomenon in multilingual communities. Due to the colloquial nature of code-mixing, there is no singular correct way to translate an English sentence into a code-mixed sentence. For this reason, standard n-gram-based MT evaluation metrics such as the BLEU score are not appropriate for code-mixed evaluation. To demonstrate this, we propose a novel method for code-mixed text generation: Controlled Generation, which parameterizes the code-mixing degree (CMD) and enables the generation of multiple semantically equivalent code-mixed sentences from a given English sentence. We introduce a robust new evaluation metric: GAME: A Gold-Standard Agnostic Measure for Evaluation of Code-Mixed Sentences. GAME is both language-agnostic and gold-standard-agnostic, i.e. unlike other metrics, GAME does not require gold-standard code-mixed sentences for evaluation, thus eliminating the need for human annotators in the code-mixed evaluation process. When used to evaluate semantically equivalent code-mixed sentences, we find that GAME scores have a lower standard deviation than BLEU scores. Further, we create and release a dataset containing gold-standard code-mixed sentences across 4 language pairs: English-{Hindi, Bengali, French, Spanish} to encourage more computational research on code-mixing.
- Abstract(参考訳): コーデックス・ミキシング(Code-mixing)は、2つ以上の言語を発話で交互に交互に行う手法であり、多言語コミュニティでよく見られる現象である。
コードミキシングの口語的性質のため、英語の文をコードミキシングの文に変換する唯一の正しい方法はない。
このため、BLEUスコアなどの標準n-gramベースのMT評価指標は、符号混合評価には適さない。
そこで本研究では、コード混合度(CMD)をパラメータ化し、与えられた英文から複数の意味論的等価なコード混合文を生成するための、コード混合テキスト生成の新しい手法を提案する。
GAME: A Gold-Standard Agnostic Measure for Evaluation of Code-Mixed Sentences。
GAMEは言語非依存とゴールドスタンダード非依存の両方、すなわち他のメトリクスとは異なり、GAMEは評価のためにゴールドスタンダードのコード混在文を必要としないため、コード混在評価プロセスにおいて人間のアノテータは不要である。
意味論的に等価なコード混合文を評価する際、GAMEスコアはBLEUスコアよりも標準偏差が低いことがわかった。
さらに、コードミキシングに関するより計算的な研究を促進するために、4つの言語対(英語-{Hindi, Bengali, French, Spanish})にまたがるゴールドスタンダードのコードミキシング文を含むデータセットを作成し、リリースする。
関連論文リスト
- Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。
以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences [18.53327811304381]
コード混在テキストの受理性に関する人間の判断をモデル化することは、自然なコード混在テキストの識別に役立ちます。
クラインは16,642文のタイプの中で最大であり、2つの情報源から得られたサンプルで構成されている。
Clineを用いた実験では、コードミキシングのメトリクスのみに基づいて訓練された単純な多層パーセプトロン(MLP)モデルが、微調整された多言語大言語モデル(MLLM)より優れていることが示された。
論文 参考訳(メタデータ) (2024-05-09T06:40:39Z) - The Consensus Game: Language Model Generation via Equilibrium Search [73.51411916625032]
言語モデル復号のための学習不要なゲーム理論を新たに導入する。
本手法では,正規化不完全情報シーケンシャルシグナリングゲームとして,言語モデルの復号化を行う。
EQUILIBRium-RANKINGをLLaMA-7Bに適用すると、より大型のLLaMA-65BとPaLM-540Bより優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-13T14:27:21Z) - Marathi-English Code-mixed Text Generation [0.0]
コードミキシング(Code-mixing)とは、異なる言語から意味のある文を作るための言語要素のブレンドである。
本研究では、CMI(Code Mixing Index)とDCM(Degree of Code Mixing)メトリクスを用いて評価した、マラタイ英語のコードミックステキスト生成アルゴリズムを紹介する。
論文 参考訳(メタデータ) (2023-09-28T06:51:26Z) - Persona-aware Generative Model for Code-mixed Language [34.826316146894364]
我々は,実生活におけるコード混在テキストに似たテキストを生成するペルソナ認識生成モデルの開発を先駆的に試みている。
ユーザのペルソナに条件付き発話を符号化し,モノリンガル参照データのないコード混合テキストを生成するトランスフォーマーベースのエンコーダデコーダモデルを提案する。
PARADOXのCM BLEUは1.6ポイント、パープレキシティは47%、セマンティックコヒーレンスは32%向上した。
論文 参考訳(メタデータ) (2023-09-06T11:20:41Z) - CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code [75.08995072899594]
コード生成のための評価指標であるCodeBERTScoreを提案する。
CodeBERTScoreは生成されたコードの前に入力された自然言語をエンコードする。
CodeBERTScoreは、既存のすべての指標よりも、人間の嗜好と機能的正しさとの相関性が高いことがわかった。
論文 参考訳(メタデータ) (2023-02-10T22:12:05Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - PreCogIIITH at HinglishEval : Leveraging Code-Mixing Metrics & Language
Model Embeddings To Estimate Code-Mix Quality [18.806186479627335]
我々は、コードミックス品質のレーティングを予測し、合成生成したコードミックステキストの品質に影響を与えるモデルを構築しようとしている。
INLG2022と協調した共有タスクであるHinglishEvalへの投稿で、私たちは、コードミックス品質のレーティングを予測することによって、合成されたコードミックステキストの品質に影響を与えるモデルを構築しようとしています。
論文 参考訳(メタデータ) (2022-06-16T08:00:42Z) - MIPE: A Metric Independent Pipeline for Effective Code-Mixed NLG
Evaluation [1.2559148369195197]
コードミキシング(Code-mixing)は、2つ以上の言語からの単語とフレーズを1つの発話で混合する現象である。
様々な一般的なメトリクスは、コードミキシングされたNLGタスクではうまく機能しない。
評価指標と人的判断の相関性を大幅に改善する指標独立評価パイプラインMIPEを提案する。
論文 参考訳(メタデータ) (2021-07-24T05:24:26Z) - CodeBLEU: a Method for Automatic Evaluation of Code Synthesis [57.87741831987889]
コード合成の分野では、一般的に使用される評価基準はBLEUまたは完全精度である。
我々はCodeBLEUと呼ばれる新しい自動評価指標を導入する。
n-gramマッチングにおけるBLEUの強度を吸収し、抽象構文木(AST)やデータフローによるコードセマンティクスを通じてコード構文を注入する。
論文 参考訳(メタデータ) (2020-09-22T03:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。