論文の概要: Comprehensive Evaluation on Lexical Normalization: Boundary-Aware Approaches for Unsegmented Languages
- arxiv url: http://arxiv.org/abs/2505.22273v1
- Date: Wed, 28 May 2025 12:02:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.586939
- Title: Comprehensive Evaluation on Lexical Normalization: Boundary-Aware Approaches for Unsegmented Languages
- Title(参考訳): 語彙正規化に関する包括的評価:未分類言語の境界認識アプローチ
- Authors: Shohei Higashiyama, Masao Utiyama,
- Abstract要約: 大規模・マルチドメインの日本語正規化データセットを作成する。
我々は,最先端事前学習モデルに基づく正規化手法を開発した。
実験の結果,エンコーダのみのアプローチとデコーダのみのアプローチは,精度と効率の両面で有望な結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 20.385822616690916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lexical normalization research has sought to tackle the challenge of processing informal expressions in user-generated text, yet the absence of comprehensive evaluations leaves it unclear which methods excel across multiple perspectives. Focusing on unsegmented languages, we make three key contributions: (1) creating a large-scale, multi-domain Japanese normalization dataset, (2) developing normalization methods based on state-of-the-art pretrained models, and (3) conducting experiments across multiple evaluation perspectives. Our experiments show that both encoder-only and decoder-only approaches achieve promising results in both accuracy and efficiency.
- Abstract(参考訳): 語彙正規化研究は、ユーザ生成テキストにおける非公式表現の処理という課題に取り組むことを目指しているが、包括的な評価がないため、どのメソッドが複数の視点で優れているかは明らかでない。
本研究では,(1)大規模かつ多分野の日本語正規化データセットの作成,(2)最先端の事前学習モデルに基づく正規化手法の開発,(3)複数の評価の観点から実験を行うこと,の3つの重要な貢献を行う。
実験の結果,エンコーダのみのアプローチとデコーダのみのアプローチは,精度と効率の両面で有望な結果が得られることがわかった。
関連論文リスト
- Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - A Contrastive Framework for Neural Text Generation [46.845997620234265]
モデル変性の根底にある理由はトークン表現の異方性分布であることを示す。
モデル表現空間を校正するための対照的な学習目標であるSimCTGと,生成したテキストのコヒーレンスを維持しつつ多様性を高めるためのデコード手法であるコントラスト検索を提案する。
論文 参考訳(メタデータ) (2022-02-13T21:46:14Z) - Language Model Evaluation in Open-ended Text Generation [0.76146285961466]
本研究では,機械生成テキストの品質,多様性,一貫性を評価するために提案されている評価指標について検討する。
そこで我々は,オープン・エンド・ジェネレーション・タスクにおいて,言語モデルを評価するための実用的なパイプラインを提案する。
論文 参考訳(メタデータ) (2021-08-08T06:16:02Z) - It's All in the Heads: Using Attention Heads as a Baseline for
Cross-Lingual Transfer in Commonsense Reasoning [4.200736775540874]
我々は,重みを重み付けした線形分類器を特徴として訓練するコモンセンス推論への簡単なアプローチを設計する。
本手法は,近年のコモンセンス推論における教師なし・教師なしの手法と競合する。
パフォーマンスの大部分は、すべての研究対象言語に対する注目の小さなサブセットによって与えられる。
論文 参考訳(メタデータ) (2021-06-22T21:25:43Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。