論文の概要: Looks can be Deceptive: Distinguishing Repetition Disfluency from Reduplication
- arxiv url: http://arxiv.org/abs/2407.08147v1
- Date: Thu, 11 Jul 2024 03:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 19:08:29.563174
- Title: Looks can be Deceptive: Distinguishing Repetition Disfluency from Reduplication
- Title(参考訳): Looks can be Deceptive: Distinguishing Repetition Disfluency from reuplication
- Authors: Arif Ahmad, Mothika Gayathri Khyathi, Pushpak Bhattacharyya,
- Abstract要約: 本稿では,計算言語学を用いた音声における重複と繰り返しの大規模研究について述べる。
我々は,Hindi,Telugu,Marathiテキストを含む新しい公開データセットであるIndicRedRepを紹介した。
我々は,2つの現象を区別するためにReparandum-Interregnum-Repair構造を用いて,マルチクラス複製と繰り返しトークン分類のためのトランスフォーマーモデルの評価を行った。
- 参考スコア(独自算出の注目度): 36.56689822791777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reduplication and repetition, though similar in form, serve distinct linguistic purposes. Reduplication is a deliberate morphological process used to express grammatical, semantic, or pragmatic nuances, while repetition is often unintentional and indicative of disfluency. This paper presents the first large-scale study of reduplication and repetition in speech using computational linguistics. We introduce IndicRedRep, a new publicly available dataset containing Hindi, Telugu, and Marathi text annotated with reduplication and repetition at the word level. We evaluate transformer-based models for multi-class reduplication and repetition token classification, utilizing the Reparandum-Interregnum-Repair structure to distinguish between the two phenomena. Our models achieve macro F1 scores of up to 85.62% in Hindi, 83.95% in Telugu, and 84.82% in Marathi for reduplication-repetition classification.
- Abstract(参考訳): 重複と反復は形式的には似ているが、異なる言語的目的を果たす。
重複は、文法的、意味的、実践的なニュアンスを表現するために使われる故意の形態的過程であり、反復はしばしば意図せず、拡散を示すものである。
本稿では,計算言語学を用いた音声における重複と繰り返しの大規模研究について述べる。
我々は,Hindi,Telugu,Marathiテキストを含む新しい公開データセットであるIndicRedRepを紹介した。
我々は,2つの現象を区別するためにReparandum-Interregnum-Repair構造を用いて,マルチクラス複製と繰り返しトークン分類のためのトランスフォーマーモデルの評価を行った。
我々のモデルは、ヒンディー語で最大85.62%、テルグ語で83.95%、マラタイ語で84.82%のマクロF1スコアを得る。
関連論文リスト
- Measuring Non-Adversarial Reproduction of Training Data in Large Language Models [71.55350441396243]
自然と良性のプロンプトに応答する際のモデル応答と事前学習データの重なりを定量化する。
一般的な会話言語モデルによるテキスト出力の最大15%は、インターネットのスニペットと重なることが判明した。
適切なプロンプトは、平均して非敵の再現を減少させるが、トレーニングデータの最悪の再現を緩和するには、より強力な防御が必要である。
論文 参考訳(メタデータ) (2024-11-15T14:55:01Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - Learning Dual Memory Dictionaries for Blind Face Restoration [75.66195723349512]
最近の研究は、主に2つの側面、すなわち、ジェネリックと特定の修復を別々に扱う。
本稿では,2つの辞書を通したジェネリックおよび特定の特徴を明示的に記憶することでDMDNetを提案する。
CelebRef-HQと呼ばれる新しい高品質なデータセットは、高解像度空間における特定の顔復元の探索を促進するために構築されている。
論文 参考訳(メタデータ) (2022-10-15T01:55:41Z) - Generating Repetitions with Appropriate Repeated Words [30.10429353715689]
他人との信頼を構築するために、コミュニケーションには繰り返しが不可欠です。
私たちの知る限りでは、これは反復生成に対処する最初のニューラルアプローチです。
本稿では,微調整中にどの単語を繰り返すかを明確に学習するための平滑化手法であるWeighted Label Smoothingと,復号時により適切な繰り返しを出力できる繰り返しスコアリング手法を提案する。
論文 参考訳(メタデータ) (2022-07-03T01:21:49Z) - Taming Repetition in Dialogue Generation [1.851321027703742]
不適切な単語の繰り返しは、生成されたテキストの品質を著しく低下させる可能性がある。
我々は、繰り返しを許可するタイミングと、ペナル化サンプリングを用いるタイミングを明確に決定するために、文脈認識型分類器を設計する。
我々の手法はより高品質で真正な対話を生成できる。
論文 参考訳(メタデータ) (2021-12-16T06:25:46Z) - Spell Correction for Azerbaijani Language using Deep Neural Networks [0.0]
本論文は,アゼルバイジャン語のスペル補正を開発するために,アテンション機構付きシーケンスモデルを用いている。
合計12000の誤りと正しい文対が訓練に使われ、このモデルは実世界の誤文1000語で試験される。
論文 参考訳(メタデータ) (2021-02-05T15:02:35Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Measuring Memorization Effect in Word-Level Neural Networks Probing [0.9156064716689833]
そこで,本研究では,学習における目に見える単語と見えない単語の対称選択に基づいて,記憶効果を簡易に測定する手法を提案する。
提案手法は, 探索装置で発生した記憶量の定量化に有効であり, 適切な設定が選択可能であり, 検証結果が信頼性推定値で解釈可能である。
論文 参考訳(メタデータ) (2020-06-29T14:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。