Fugu-MT 論文翻訳(概要): Improving Korean NLP Tasks with Linguistically Informed Subword Tokenization and Sub-character Decomposition

論文の概要: Improving Korean NLP Tasks with Linguistically Informed Subword Tokenization and Sub-character Decomposition

arxiv url: http://arxiv.org/abs/2311.03928v1
Date: Tue, 7 Nov 2023 12:08:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-08 15:49:37.358390
Title: Improving Korean NLP Tasks with Linguistically Informed Subword Tokenization and Sub-character Decomposition
Title（参考訳）: 代名詞トークン化と副文字分解による韓国語NLPタスクの改善
Authors: Taehee Jeon, Bongseok Yang, Changhwan Kim, Yoonseob Lim
Abstract要約: 本稿では, Byte Pairの適用課題に対処するために, サブ文字分解を利用した形態素認識サブワードトークン化手法を提案する。我々のアプローチは、事前学習言語モデル(PLM)における言語精度と計算効率のバランスをとる本手法は, NIKL-CoLAの構文的タスクにおいて, 総合的に優れた性能を発揮することを示す。
参考スコア（独自算出の注目度）: 6.767341847275751
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a morpheme-aware subword tokenization method that utilizes sub-character decomposition to address the challenges of applying Byte Pair Encoding (BPE) to Korean, a language characterized by its rich morphology and unique writing system. Our approach balances linguistic accuracy with computational efficiency in Pre-trained Language Models (PLMs). Our evaluations show that this technique achieves good performances overall, notably improving results in the syntactic task of NIKL-CoLA. This suggests that integrating morpheme type information can enhance language models' syntactic and semantic capabilities, indicating that adopting more linguistic insights can further improve performance beyond standard morphological analysis.
Abstract（参考訳）: 本稿では,韓国語にバイトペア符号化(bpe)を適用する際の課題を解決するために,サブキャラクタ分解を利用した形態素認識サブワードトークン化手法を提案する。本手法は,事前学習言語モデル(PLM)における言語精度と計算効率のバランスをとる。本手法は, NIKL-CoLAの構文的タスクにおいて, 総合的に優れた性能を発揮することを示す。これは、形態素型情報を統合することで言語モデルの構文的・意味的能力を高めることができることを示唆している。

関連論文リスト

Learning Robust Negation Text Representations [60.23044940174016]
本稿では,テキストエンコーダの否定とヘッジを多種多様なパターンを用いて改善する戦略を提案する。我々は,一般的なベンチマーク上での競合性能を維持しつつ,否定理解能力の大幅な向上を観察する。提案手法は LLM に適用可能であり, ネゲーションベンチマークの性能向上に寄与する。
論文参考訳（メタデータ） (2025-07-17T04:48:54Z)
Overcoming Vocabulary Constraints with Pixel-level Fallback [9.753745943931207]
代名詞のトークン化には、計算効率と語彙カバレッジのバランスが必要である。画素として描画されたテキストから入力埋め込みを生成する語彙自由エンコーダを提案する。
論文参考訳（メタデータ） (2025-04-02T20:50:31Z)
Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark [0.29687381456163997]
トークン化はNLPの基本的な前処理ステップであり、大きな言語モデルが構文、形態素合成、意味構造をキャプチャする能力に直接影響を及ぼす。本稿では,形態的にリッチで低リソースな言語における課題に対処する,トークン化戦略を評価するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-10T21:47:49Z)
Linguistically Grounded Analysis of Language Models using Shapley Head Values [2.914115079173979]
最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
論文参考訳（メタデータ） (2024-10-17T09:48:08Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
Enhancing Idiomatic Representation in Multiple Languages via an Adaptive Contrastive Triplet Loss [9.807885676930308]
本稿では, 単語の非対称的な寄与を取り入れた三重項損失を用いた慣用性モデルを提案する。提案手法はSemEvalの課題に基づいて評価され,多くの指標において従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-06-21T14:21:41Z)
Can Perplexity Predict Fine-tuning Performance? An Investigation of Tokenization Effects on Sequential Language Models for Nepali [0.0]
SentencePieceトークン化は、ネパールの理解に基づくタスクにおいて、一貫して優れた結果をもたらす。本研究はシーケンシャルトランスフォーマーモデルについて検討し,低リソース言語における言語モデル開発に有用な知見を提供する。
論文参考訳（メタデータ） (2024-04-28T05:26:12Z)
Explicit Morphological Knowledge Improves Pre-training of Language Models for Hebrew [19.4968960182412]
事前学習フェーズに明示的な形態的知識を組み込むことで、形態学的に豊かな言語に対するPLMの性能を向上させることができるという仮説を考察する。本研究では, モデルが生テキスト以外の形態的手がかりを活用できるように, 様々な形態的トークン化手法を提案する。実験により, 形態素によるトークン化は, 標準言語に依存しないトークン化と比較して, 改良された結果を示すことが示された。
論文参考訳（メタデータ） (2023-11-01T17:02:49Z)
Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。我々は,単語順序の重要性を維持するために強制的無効化を提案する。実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-04-11T13:42:10Z)
Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。 PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文参考訳（メタデータ） (2022-11-15T01:13:39Z)
Multilingual Extraction and Categorization of Lexical Collocations with Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文参考訳（メタデータ） (2022-05-23T16:47:37Z)
Visualizing the Relationship Between Encoded Linguistic Information and Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文参考訳（メタデータ） (2022-03-29T19:03:10Z)
Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文参考訳（メタデータ） (2020-11-15T17:54:49Z)
Multilingual Chart-based Constituency Parse Extraction from Pre-trained Language Models [21.2879567125422]
本稿では,事前学習した言語モデルから完全(バイナリ)構文を抽出する手法を提案する。本手法を多言語 PLM に適用することにより,9つの言語から文に対する非自明なパースを導き出すことができる。
論文参考訳（メタデータ） (2020-04-08T05:42:26Z)
On the Importance of Word Order Information in Cross-lingual Sequence Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文参考訳（メタデータ） (2020-01-30T03:35:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。