論文の概要: Towards automatic identification of linguistic politeness in Hindi texts
- arxiv url: http://arxiv.org/abs/2111.15268v1
- Date: Tue, 30 Nov 2021 10:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 14:41:15.747041
- Title: Towards automatic identification of linguistic politeness in Hindi texts
- Title(参考訳): ヒンディー語文における言語的丁寧さの自動識別に向けて
- Authors: Ritesh Kumar
- Abstract要約: 25,000以上のブログコメントを手作業でアノテートしたコーパスを使ってSVMをトレーニングしました。
トレーニングされたシステムは、人間の精度の2%以内である77%以上の精度を著しく向上させる。
- 参考スコア(独自算出の注目度): 1.2691047660244332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper I present a classifier for automatic identification of
linguistic politeness in Hindi texts. I have used the manually annotated corpus
of over 25,000 blog comments to train an SVM. Making use of the discursive and
interactional approaches to politeness the paper gives an exposition of the
normative, conventionalised politeness structures of Hindi. It is seen that
using these manually recognised structures as features in training the SVM
significantly improves the performance of the classifier on the test set. The
trained system gives a significantly high accuracy of over 77% which is within
2% of human accuracy.
- Abstract(参考訳): 本稿ではヒンディー語文における言語的丁寧さの自動識別のための分類器を提案する。
25,000以上のブログコメントを手動で注釈付けしたコーパスを使ってSVMをトレーニングしました。
論文は、丁寧さに対する非帰的かつ相互作用的なアプローチを用いて、ヒンディー語の規範的で慣習化された丁寧さの構造を例示する。
これらの手作業で認識された構造をSVMのトレーニング機能として使用すると、テストセットの分類器の性能が大幅に向上する。
訓練されたシステムは、人間の精度の2%に満たない77%以上の精度を持つ。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - cantnlp@LT-EDI-2024: Automatic Detection of Anti-LGBTQ+ Hate Speech in
Under-resourced Languages [0.0]
本稿では,LT-EDI-2024における共有タスクの一環として開発されたソーシャルメディアコメント検出システムにおけるホモフォビア/トランスフォビアについて述べる。
10の言語条件に対するマルチクラス分類モデルを開発するために,トランスフォーマーに基づくアプローチを採用した。
我々は,ソーシャルメディア言語の言語的現実を反映させるために,ドメイン適応中にスクリプト変更言語データの合成および有機的インスタンスを導入した。
論文 参考訳(メタデータ) (2024-01-28T21:58:04Z) - Cross-Lingual Speaker Identification Using Distant Supervision [84.51121411280134]
本稿では,文脈推論の欠如や言語間一般化の低さといった問題に対処する話者識別フレームワークを提案する。
その結果,2つの英語話者識別ベンチマークにおいて,従来の最先端手法よりも9%の精度,5%の精度で性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-11T20:49:44Z) - Handwriting recognition and automatic scoring for descriptive answers in
Japanese language tests [7.489722641968594]
本報告では, 大学入試試験における手書き記述回答の自動評価実験について述べる。
すべての答えは人間の検査官によって採点されているが、手書き文字はラベル付けされていない。
我々は、ラベル付き手書きデータセットで訓練されたディープニューラルネットワークベースの手書き文字認識器を、このラベル付き回答セットに適応させようと試みる。
論文 参考訳(メタデータ) (2022-01-10T08:47:52Z) - Prosody Labelled Dataset for Hindi using Semi-Automated Approach [0.19733467999508417]
本研究は,ヒンディー語のための半自動ラベル付き韻律データベースの開発を目的とする。
ヒンディー語では韻律ラベリングの標準は存在しない。
ピッチアクセント、中間句境界、アクセント句境界の訓練されたモデルの精度は、それぞれ73.40%、93.20%、および43%である。
論文 参考訳(メタデータ) (2021-12-11T13:11:36Z) - Support Vector Machine for Handwritten Character Recognition [0.0]
この研究には、44の基本的なマラヤラム文字の1万文字のデータベースが使用されている。
64のローカル機能と4つのグローバル機能からなる識別された特徴セットは、SVM分類器の訓練とテストに使用され、92.24%の精度を達成した。
論文 参考訳(メタデータ) (2021-09-07T13:36:12Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。