Fugu-MT 論文翻訳(概要): Who Is Missing? Characterizing the Participation of Different Demographic Groups in a Korean Nationwide Daily Conversation Corpus

論文の概要: Who Is Missing? Characterizing the Participation of Different Demographic Groups in a Korean Nationwide Daily Conversation Corpus

arxiv url: http://arxiv.org/abs/2204.09209v1
Date: Wed, 20 Apr 2022 03:32:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-21 13:29:09.334043
Title: Who Is Missing? Characterizing the Participation of Different Demographic Groups in a Korean Nationwide Daily Conversation Corpus
Title（参考訳）: 誰が行方不明? 韓国全国日報会話コーパスにおける異なる集団の参加の特徴
Authors: Haewoon Kwak and Jisun An and Kunwoo Park
Abstract要約: 韓国国立韓国語研究所 (NIKL) が構築した日中会話コーパスを分析し, 集団間(年齢, 性別)の参加を特徴付ける。
参考スコア（独自算出の注目度）: 11.084551993789436
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A conversation corpus is essential to build interactive AI applications. However, the demographic information of the participants in such corpora is largely underexplored mainly due to the lack of individual data in many corpora. In this work, we analyze a Korean nationwide daily conversation corpus constructed by the National Institute of Korean Language (NIKL) to characterize the participation of different demographic (age and sex) groups in the corpus.
Abstract（参考訳）: 対話型AIアプリケーションを構築するには会話コーパスが不可欠だ。しかし、これらのコーパスの参加者の人口統計情報は、多くのコーパスに個別のデータが欠如していることから、概ね過小評価されている。本研究では,国立韓国語研究所(nikl)が構築した韓国全国日報会話コーパスを分析し,そのコーパスにおける異なる年齢層(年齢・性別)集団の参加を特徴付ける。

関連論文リスト

Enriching the Korean Learner Corpus with Multi-reference Annotations and Rubric-Based Scoring [2.824980053889876]
我々は,文法的誤り訂正基準を追加することで,韓国語学習者コーパスを強化する。韓国国立言語研究所のガイドラインに沿うルーブリックベースのスコアでコーパスを充実させます。
論文参考訳（メタデータ） (2025-05-01T03:04:07Z)
Multilingual Dyadic Interaction Corpus NoXi+J: Toward Understanding Asian-European Non-verbal Cultural Characteristics and their Influences on Engagement [6.984291346424792]
我々は,非言語的特徴の多言語計算分析を行い,その係り受け予測における役割について検討する。音声アコースティックス,表情,バックチャネル,ジェスチャーなど,多言語的非言語的特徴を抽出した。 5つの言語データセットのエンゲージメントを予測するために訓練されたLSTMモデルの入力特徴における文化的差異の影響を解析した。
論文参考訳（メタデータ） (2024-09-09T18:37:34Z)
J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling [43.87842102048749]
音声対話は人間とAIの相互作用において重要な役割を担い、対話指向音声言語モデル(SLM)を必要とするヒッカ品質の音声生成を確実にするためには、データはWild内のデータのように自然に必要であり、ノイズを除去して音響的にクリーンでなければならない。本研究では,人間-AI対話のための日本語コーパス(J-CHAT)という,大規模音声対話コーパスの構築とリリースによって,このギャップに対処する。本稿では、コーパス構築のための言語に依存しない手法を提案し、J-CHATで訓練されたSLMを用いた対話生成実験について述べる。
論文参考訳（メタデータ） (2024-07-22T17:46:50Z)
ILiAD: An Interactive Corpus for Linguistic Annotated Data from Twitter Posts [0.0]
英語のTwitter投稿から言語コーパスの開発と展開について述べる。主な目標は、言語分析のための完全な注釈付き英語コーパスを作ることであった。形態や構文に関する情報に加えて,トークン化やレムマ,n-gramなどのNLP機能も含んでいます。
論文参考訳（メタデータ） (2024-07-22T04:48:04Z)
Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [70.3132264719438]
我々は,タスクや言語間でニューロンの活性化がどのように共有されるかを調べることで,研究ギャップを埋めることを目指している。我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。分析の結果, (i) ニューロン共有のパターンはタスクや例の特徴に大きく影響され, (ii) ニューロン共有は言語類似性に完全には対応しない, (iii) 共有ニューロンは応答の生成において重要な役割を担っている。
論文参考訳（メタデータ） (2024-06-13T16:04:11Z)
CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean [18.526285276022907]
韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。 CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。 CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
論文参考訳（メタデータ） (2024-03-11T03:54:33Z)
Multi-EuP: The Multilingual European Parliament Dataset for Analysis of Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文参考訳（メタデータ） (2023-11-03T12:29:11Z)
Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文参考訳（メタデータ） (2023-10-23T17:42:01Z)
Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。 Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文参考訳（メタデータ） (2023-05-25T15:30:31Z)
Mix and Match: An Empirical Study on Training Corpus Composition for Polyglot Text-To-Speech (TTS) [3.57486761615991]
モノリンガルコーパスのみを用いたマルチリンガルニューラルテキスト音声合成(NTTS)モデルのトレーニングが,音声クローンベースのポリグロットNTTSシステム構築の一般的な方法として登場した。学習コーパスの構成が多言語音声合成の質にどのように影響するかを理解することが不可欠である。
論文参考訳（メタデータ） (2022-07-04T15:23:06Z)
Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文参考訳（メタデータ） (2022-04-20T00:13:01Z)
A Massively Multilingual Analysis of Cross-linguality in Shared Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文参考訳（メタデータ） (2021-09-13T21:05:37Z)
Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文参考訳（メタデータ） (2020-08-31T17:44:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。