論文の概要: ViSoLex: An Open-Source Repository for Vietnamese Social Media Lexical Normalization
- arxiv url: http://arxiv.org/abs/2501.07020v1
- Date: Mon, 13 Jan 2025 02:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:57.852816
- Title: ViSoLex: An Open-Source Repository for Vietnamese Social Media Lexical Normalization
- Title(参考訳): ViSoLex:ベトナムのソーシャルメディア語彙正規化のためのオープンソースリポジトリ
- Authors: Anh Thi-Hoang Nguyen, Dung Ha Nguyen, Kiet Van Nguyen,
- Abstract要約: ViSoLexはベトナムのソーシャルメディアテキストの語彙正規化の課題に対処するために設計されたオープンソースのシステムである。
ソースコードを公開することで、ViSoLexはベトナムのより堅牢な自然言語処理ツールの開発に貢献することを目指している。
- 参考スコア(独自算出の注目度): 1.053698976085779
- License:
- Abstract: ViSoLex is an open-source system designed to address the unique challenges of lexical normalization for Vietnamese social media text. The platform provides two core services: Non-Standard Word (NSW) Lookup and Lexical Normalization, enabling users to retrieve standard forms of informal language and standardize text containing NSWs. ViSoLex's architecture integrates pre-trained language models and weakly supervised learning techniques to ensure accurate and efficient normalization, overcoming the scarcity of labeled data in Vietnamese. This paper details the system's design, functionality, and its applications for researchers and non-technical users. Additionally, ViSoLex offers a flexible, customizable framework that can be adapted to various datasets and research requirements. By publishing the source code, ViSoLex aims to contribute to the development of more robust Vietnamese natural language processing tools and encourage further research in lexical normalization. Future directions include expanding the system's capabilities for additional languages and improving the handling of more complex non-standard linguistic patterns.
- Abstract(参考訳): ViSoLexはベトナムのソーシャルメディアテキストの語彙正規化というユニークな課題に対処するために設計されたオープンソースのシステムである。
Non-Standard Word (NSW) Lookup と Lexical Normalization という2つのコアサービスを提供している。
ViSoLexのアーキテクチャは、事前訓練された言語モデルと弱教師付き学習技術を統合し、ベトナムにおけるラベル付きデータの不足を克服し、正確で効率的な正規化を保証する。
本稿では,システムの設計,機能,および研究者および非技術ユーザへの応用について詳述する。
さらにViSoLexは、さまざまなデータセットや研究要件に適応可能な、フレキシブルでカスタマイズ可能なフレームワークを提供する。
ソースコードを公開することで、ViSoLexはベトナムのより堅牢な自然言語処理ツールの開発に貢献し、語彙正規化のさらなる研究を促進することを目指している。
将来的な方向性として、追加言語に対するシステムの機能拡張や、より複雑な非標準言語パターンの扱いの改善がある。
関連論文リスト
- Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - A Library for Automatic Natural Language Generation of Spanish Texts [6.102700502396687]
本稿では,スペイン語文の自然言語生成システム(NLG)について,意味のある単語の最小セットから提案する。
システムは、ユーザが提示した主語セットから完全で一貫性があり、正しく綴られた文を生成することができる。
設計によって他の言語に容易に適応でき、広範囲のデジタルデバイスに統合することができる。
論文 参考訳(メタデータ) (2024-05-27T15:44:06Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Code-Mixed Probes Show How Pre-Trained Models Generalise On Code-Switched Text [1.9185059111021852]
事前学習された言語モデルが3次元のコードスイッチトテキストをどのように扱うかを検討する。
その結果,事前学習した言語モデルは,コードスイッチトテキストへの一般化に有効であることが判明した。
論文 参考訳(メタデータ) (2024-03-07T19:46:03Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - BiSync: A Bilingual Editor for Synchronized Monolingual Texts [2.0411082897313984]
BiSyncはバイリンガル・ライティング・アシスタントで、ユーザーは自由に2つの言語でテキストを作成できる。
本稿では,同期に使用するモデルアーキテクチャについて詳述し,計算資源が限られている場合に高い精度が得られることを示す。
論文 参考訳(メタデータ) (2023-06-01T07:03:47Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - A Comprehensive Understanding of Code-mixed Language Semantics using
Hierarchical Transformer [28.3684494647968]
コード混合言語のセマンティクスを学習するための階層型トランスフォーマーベースアーキテクチャ(HIT)を提案する。
提案手法を17のデータセット上で6つのインド語と9つのNLPタスクで評価した。
論文 参考訳(メタデータ) (2022-04-27T07:50:18Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。