論文の概要: Who Is Missing? Characterizing the Participation of Different
Demographic Groups in a Korean Nationwide Daily Conversation Corpus
- arxiv url: http://arxiv.org/abs/2204.09209v1
- Date: Wed, 20 Apr 2022 03:32:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 13:29:09.334043
- Title: Who Is Missing? Characterizing the Participation of Different
Demographic Groups in a Korean Nationwide Daily Conversation Corpus
- Title(参考訳): 誰が行方不明?
韓国全国日報会話コーパスにおける異なる集団の参加の特徴
- Authors: Haewoon Kwak and Jisun An and Kunwoo Park
- Abstract要約: 韓国国立韓国語研究所 (NIKL) が構築した日中会話コーパスを分析し, 集団間(年齢, 性別)の参加を特徴付ける。
- 参考スコア(独自算出の注目度): 11.084551993789436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A conversation corpus is essential to build interactive AI applications.
However, the demographic information of the participants in such corpora is
largely underexplored mainly due to the lack of individual data in many
corpora. In this work, we analyze a Korean nationwide daily conversation corpus
constructed by the National Institute of Korean Language (NIKL) to characterize
the participation of different demographic (age and sex) groups in the corpus.
- Abstract(参考訳): 対話型AIアプリケーションを構築するには会話コーパスが不可欠だ。
しかし、これらのコーパスの参加者の人口統計情報は、多くのコーパスに個別のデータが欠如していることから、概ね過小評価されている。
本研究では,国立韓国語研究所(nikl)が構築した韓国全国日報会話コーパスを分析し,そのコーパスにおける異なる年齢層(年齢・性別)集団の参加を特徴付ける。
関連論文リスト
- CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in
Korean [19.63074498876516]
韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。
CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。
CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
論文 参考訳(メタデータ) (2024-03-11T03:54:33Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - K-HATERS: A Hate Speech Detection Corpus in Korean with Target-Specific
Ratings [6.902524826065157]
K-HATERSは韓国のヘイトスピーチ検出のための新しいコーパスで、ターゲット固有の攻撃性評価を持つ約192Kのニュースコメントを含んでいる。
本研究は,ヘイトスピーチの検出と資源構築に関するNLP研究に寄与する。
論文 参考訳(メタデータ) (2023-10-24T01:20:05Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Mix and Match: An Empirical Study on Training Corpus Composition for
Polyglot Text-To-Speech (TTS) [3.57486761615991]
モノリンガルコーパスのみを用いたマルチリンガルニューラルテキスト音声合成(NTTS)モデルのトレーニングが,音声クローンベースのポリグロットNTTSシステム構築の一般的な方法として登場した。
学習コーパスの構成が多言語音声合成の質にどのように影響するかを理解することが不可欠である。
論文 参考訳(メタデータ) (2022-07-04T15:23:06Z) - Corpus Similarity Measures Remain Robust Across Diverse Languages [0.0]
本稿では、レジスタ予測タスクを用いて39言語にわたる周波数ベースコーパス類似度測定実験を行った。
目的は、(i)同じ言語から異なるコーパスの間の距離を定量化し、(ii)個々のコーパスの均一性を定量化することである。
その結果, コーパス類似度の測定は, 言語家族, 書記システム, 形態素の種類にまたがる妥当性を保っていることがわかった。
論文 参考訳(メタデータ) (2022-06-09T08:17:16Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z) - Presentation and Analysis of a Multimodal Dataset for Grounded Language
Learning [32.28310581819443]
接地的な言語習得は、言語に基づく相互作用が周囲の世界をどのように参照するかを学ぶことを伴う。
実際には、学習に使用されるデータは、実際の人間のインタラクションよりもクリーンで、クリアで、文法的な傾向があります。
本稿では,話し言葉と書き言葉を併用した家庭内共通物体のデータセットについて述べる。
論文 参考訳(メタデータ) (2020-07-29T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。