論文の概要: TextAge: A Curated and Diverse Text Dataset for Age Classification
- arxiv url: http://arxiv.org/abs/2406.16890v1
- Date: Thu, 2 May 2024 23:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 06:51:29.387368
- Title: TextAge: A Curated and Diverse Text Dataset for Age Classification
- Title(参考訳): TextAge: 年齢分類のためのキュレートされた多元テキストデータセット
- Authors: Shravan Cheekati, Mridul Gupta, Vibha Raghu, Pranav Raj,
- Abstract要約: 年齢に関連する言語パターンは、言語の違いを理解し、年齢に合ったコミュニケーション戦略を開発する上で重要な役割を担っている。
著者の年齢・年齢グループに文章をマッピングするテキストデータセットであるTextAgeを提示する。
データセットは、データ品質と一貫性を保証するために、広範囲なクリーニングと前処理を行う。
- 参考スコア(独自算出の注目度): 1.4843200329335289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Age-related language patterns play a crucial role in understanding linguistic differences and developing age-appropriate communication strategies. However, the lack of comprehensive and diverse datasets has hindered the progress of research in this area. To address this issue, we present TextAge, a curated text dataset that maps sentences to the age and age group of the producer, as well as an underage (under 13) label. TextAge covers a wide range of ages and includes both spoken and written data from various sources such as CHILDES, Meta, Poki Poems-by-kids, JUSThink, and the TV show "Survivor." The dataset undergoes extensive cleaning and preprocessing to ensure data quality and consistency. We demonstrate the utility of TextAge through two applications: Underage Detection and Generational Classification. For Underage Detection, we train a Naive Bayes classifier, fine-tuned RoBERTa, and XLNet models to differentiate between language patterns of minors and young-adults and over. For Generational Classification, the models classify language patterns into different age groups (kids, teens, twenties, etc.). The models excel at classifying the "kids" group but struggle with older age groups, particularly "fifties," "sixties," and "seventies," likely due to limited data samples and less pronounced linguistic differences. TextAge offers a valuable resource for studying age-related language patterns and developing age-sensitive language models. The dataset's diverse composition and the promising results of the classification tasks highlight its potential for various applications, such as content moderation, targeted advertising, and age-appropriate communication. Future work aims to expand the dataset further and explore advanced modeling techniques to improve performance on older age groups.
- Abstract(参考訳): 年齢に関連する言語パターンは、言語の違いを理解し、年齢に合ったコミュニケーション戦略を開発する上で重要な役割を担っている。
しかし、包括的で多様なデータセットの欠如は、この分野の研究の進展を妨げている。
この問題に対処するために、テキストデータセットTextAgeを提案する。テキストデータセットは、テキストをプロデューサーの年齢と年齢グループにマッピングし、未成年(13歳未満)ラベルを出力する。
TextAgeは幅広い年齢をカバーしており、ChiLDES、Meta、Poki Poems-by-kids、JUSThink、テレビ番組「Survivor」など、様々なソースからの音声と文字のデータを含んでいる。
データセットは、データ品質と一貫性を保証するために、広範囲なクリーニングと前処理を行う。
我々は,TextAgeの実用性を,下地検出と世代分類の2つの応用を通して実証する。
未成年者や未成年者の言語パターンを区別するために、Naive Bayes分類器、微調整RoBERTa、XLNetモデルを訓練する。
世代別分類では、言語パターンを異なる年齢グループ(キッド、十代、二十代など)に分類する。
モデルは「キッド」グループを分類することに長けているが、年齢層、特に「5代」、「6代」、「7代」に苦慮している。
TextAgeは、年齢関連の言語パターンを研究し、年齢に敏感な言語モデルを開発するための貴重なリソースを提供する。
データセットの多様な構成と、分類タスクの有望な成果は、コンテンツモデレーション、ターゲット広告、年齢に応じたコミュニケーションなど、さまざまな応用の可能性を強調している。
今後の研究は、データセットをさらに拡張し、高齢者グループのパフォーマンスを改善するための高度なモデリング技術を探究することを目的としている。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Personalized Text Generation with Fine-Grained Linguistic Control [9.668216418094316]
複数の言語的次元にまたがる微粒な属性の制御に焦点をあてる。
生成モデルを訓練するための新しいベンチマークを導入し、パーソナライズされたテキストを生成する能力を評価する。
論文 参考訳(メタデータ) (2024-02-07T14:41:08Z) - Sentiment recognition of Italian elderly through domain adaptation on
cross-corpus speech dataset [77.99182201815763]
本研究の目的は、イタリアの高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識することができる音声感情認識(SER)モデルを定義することである。
論文 参考訳(メタデータ) (2022-11-14T12:39:41Z) - XF2T: Cross-lingual Fact-to-Text Generation for Low-Resource Languages [11.581072296148031]
拡張多言語データセット上で、人気のあるTransformerベースのテキスト生成モデルを用いて広範な研究を行う。
構造認識型入力エンコーディングとファクト認識を用いたマルチ言語 mT5 モデルにより,12言語の平均結果が得られた。
論文 参考訳(メタデータ) (2022-09-22T18:01:27Z) - A Survey on Retrieval-Augmented Text Generation [53.04991859796971]
Retrieval-augmented text generationは顕著な利点があり、多くのNLPタスクで最先端のパフォーマンスを実現している。
まず、検索拡張生成の一般的なパラダイムを強調し、異なるタスクに応じて注目すべきアプローチをレビューする。
論文 参考訳(メタデータ) (2022-02-02T16:18:41Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language
Generation [42.34923623457615]
Open-Ended Language Generationデータセットのバイアスは23,679の英語テキスト生成プロンプトで構成されている。
3つの人気のある言語モデルから生成されたテキストを調べると、これらのモデルの大半は、人によるウィキペディアのテキストよりも大きな社会的バイアスを示すことが明らかになっている。
論文 参考訳(メタデータ) (2021-01-27T22:07:03Z) - A Comparative Study of Feature Types for Age-Based Text Classification [3.867363075280544]
年齢によるフィクションテキストの分類作業における言語的特徴の多種多様性の比較を行った。
その結果,文書レベルでテキストを記述する特徴は,機械学習モデルの品質を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-09-24T18:41:10Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。