論文の概要: CodemixedNLP: An Extensible and Open NLP Toolkit for Code-Mixing
- arxiv url: http://arxiv.org/abs/2106.06004v1
- Date: Thu, 10 Jun 2021 18:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:19:12.078146
- Title: CodemixedNLP: An Extensible and Open NLP Toolkit for Code-Mixing
- Title(参考訳): CodemixedNLP: コードミキシングのための拡張性とオープンなNLPツールキット
- Authors: Sai Muralidhar Jayanthi, Kavya Nerella, Khyathi Raghavi Chandu, Alan W
Black
- Abstract要約: 私たちは、コードミックスNLPの進歩をまとめ、より広い機械学習コミュニティに開放するという目標を掲げた、オープンソースのライブラリであるCodemixedを紹介します。
このライブラリは、混合テキストに適した多目的モデルアーキテクチャの開発とベンチマークを行うツール、トレーニングセットを拡張する方法、混合スタイルの定量化技術、ヒングリッシュの7つのタスクのための微調整された最先端モデルで構成されている。
- 参考スコア(独自算出の注目度): 44.54537067761167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The NLP community has witnessed steep progress in a variety of tasks across
the realms of monolingual and multilingual language processing recently. These
successes, in conjunction with the proliferating mixed language interactions on
social media have boosted interest in modeling code-mixed texts. In this work,
we present CodemixedNLP, an open-source library with the goals of bringing
together the advances in code-mixed NLP and opening it up to a wider machine
learning community. The library consists of tools to develop and benchmark
versatile model architectures that are tailored for mixed texts, methods to
expand training sets, techniques to quantify mixing styles, and fine-tuned
state-of-the-art models for 7 tasks in Hinglish. We believe this work has a
potential to foster a distributed yet collaborative and sustainable ecosystem
in an otherwise dispersed space of code-mixing research. The toolkit is
designed to be simple, easily extensible, and resourceful to both researchers
as well as practitioners.
- Abstract(参考訳): NLPコミュニティは最近、モノリンガルおよび多言語言語処理の領域で様々なタスクが急激な進歩を遂げているのを目撃している。
これらの成功は、ソーシャルメディア上の混成言語相互作用の拡大と相まって、コード混合テキストのモデリングへの関心を高めている。
本研究では、コードミックスNLPの進歩をまとめ、より広い機械学習コミュニティに開放するという目標を掲げた、オープンソースのライブラリであるCodemixedNLPを紹介する。
このライブラリは、混合テキストに適した多目的モデルアーキテクチャの開発とベンチマークを行うツール、トレーニングセットを拡張する方法、混合スタイルの定量化技術、ヒングリッシュの7つのタスクのための細調整された最先端モデルで構成される。
この研究は、分散的でコラボレーティブで持続可能なエコシステムを、コードミキシング研究の分散領域で育てる可能性があると考えています。
このツールキットは単純で容易に拡張可能で、研究者と実践者の両方にとって有益であるように設計されている。
関連論文リスト
- Code-mixed LLM: Improve Large Language Models' Capability to Handle Code-Mixing through Reinforcement Learning from AI Feedback [11.223762031003671]
コードミキシングは、構文ミスマッチやセマンティックブレンディングなど、日常生活におけるユニークな課題を導入している。
大規模言語モデル(LLM)は、人間の言語を理解するのに前例のない能力を提供することによって、自然言語処理(NLP)の分野に革命をもたらした。
本稿では,人間フィードバック(RLHF)とコード混合機械翻訳タスクの強化学習を通じて,多言語LLMのコードミキシング理解能力を改善することを提案する。
論文 参考訳(メタデータ) (2024-11-13T22:56:00Z) - Mixture-of-Instructions: Comprehensive Alignment of a Large Language Model through the Mixture of Diverse System Prompting Instructions [7.103987978402038]
我々はMixture-of-Instructions (MoI)と呼ばれる新しいテクニックを紹介する。
MoIは、言語モデルのアライメント効率を高めるために、多様なシステムプロンプトと組み合わせた命令結合戦略を採用している。
提案手法はオープンソースQwen-7B-chatモデルに適用され,Qwen-SFT-MoIの開発が完了した。
論文 参考訳(メタデータ) (2024-04-29T03:58:12Z) - CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。
我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2023-09-19T02:59:41Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - PreCogIIITH at HinglishEval : Leveraging Code-Mixing Metrics & Language
Model Embeddings To Estimate Code-Mix Quality [18.806186479627335]
我々は、コードミックス品質のレーティングを予測し、合成生成したコードミックステキストの品質に影響を与えるモデルを構築しようとしている。
INLG2022と協調した共有タスクであるHinglishEvalへの投稿で、私たちは、コードミックス品質のレーティングを予測することによって、合成されたコードミックステキストの品質に影響を与えるモデルを構築しようとしています。
論文 参考訳(メタデータ) (2022-06-16T08:00:42Z) - A Comprehensive Understanding of Code-mixed Language Semantics using
Hierarchical Transformer [28.3684494647968]
コード混合言語のセマンティクスを学習するための階層型トランスフォーマーベースアーキテクチャ(HIT)を提案する。
提案手法を17のデータセット上で6つのインド語と9つのNLPタスクで評価した。
論文 参考訳(メタデータ) (2022-04-27T07:50:18Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。