論文の概要: Building and curating conversational corpora for diversity-aware
language science and technology
- arxiv url: http://arxiv.org/abs/2203.03399v2
- Date: Thu, 10 Mar 2022 09:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 13:13:03.976341
- Title: Building and curating conversational corpora for diversity-aware
language science and technology
- Title(参考訳): 多様性を意識した言語科学と技術のための会話コーパスの構築とキュレーション
- Authors: Andreas Liesenfeld, Mark Dingemanse
- Abstract要約: 66の言語と32の系統を網羅する対話相互作用の最大自然データセットを構築した。
本稿では,多言語ドキュメントコーパスから統一形式へ移行するキュレーションとコンパイルプロセスについて述べる。
多様なデータセットが対話型言語学と音声認識技術にどのような影響を及ぼすかについての2つのケーススタディで結論づける。
- 参考スコア(独自算出の注目度): 0.15229257192293202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a pipeline and tools to build a maximally natural data set of
conversational interaction that covers 66 languages and varieties from 32
phyla. We describe the curation and compilation process moving from diverse
language documentation corpora to a unified format and describe an open-source
tool "convo-parse" to help in quality control and assessment of conversational
data. We conclude with two case studies of how diverse data sets can inform
interactional linguistics and speech recognition technology and thus contribute
to broadening the empirical foundations of language sciences and technologies
of the future.
- Abstract(参考訳): 66の言語と32の系統を網羅する対話型相互作用の、最も自然なデータセットを構築するためのパイプラインとツールを提案する。
本稿では,多様な言語ドキュメントコーパスから統一フォーマットへ移行するキュレーションとコンパイルのプロセスを説明し,対話型データの品質管理と評価を支援するオープンソースツール「convo-parse」について述べる。
多様なデータセットが対話型言語学や音声認識技術にどのような影響を及ぼすかという2つのケーススタディをまとめ,言語科学の実証的基盤の拡大に寄与する。
関連論文リスト
- The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings [0.0]
我々は,低リソース言語による大規模かつオープンな音声・テキスト対応データセットを構築するためのアプローチを提案する。
我々は3つのスラヴ語、すなわちクロアチア語、ポーランド語、セルビア語に焦点を当てている。
このパイロット実行の結果は、5000時間以上のスピーチと付随するテキストの書き起こしにまたがる、高品質な3つのデータセットである。
論文 参考訳(メタデータ) (2024-09-23T10:12:18Z) - Tamil Language Computing: the Present and the Future [0.0]
言語コンピューティングは言語学、コンピュータ科学、認知心理学を統合し、有意義な人間とコンピュータの相互作用を作り出す。
近年のディープラーニングの進歩により、コンピュータはよりアクセスしやすくなり、独立した学習と適応が可能になった。
この論文は、日常的なコミュニケーションニーズに対応するために、Tamilのような言語のための実用的なアプリケーションを構築することの重要性を強調している。
論文 参考訳(メタデータ) (2024-07-11T15:56:02Z) - Variationist: Exploring Multifaceted Variation and Bias in Written Language Data [3.666781404469562]
言語データの探索と理解は、人間の言語を扱うあらゆる分野において、基本的な段階である。
しかし現時点では、言語の変化とバイアスをシームレスに検査し視覚化する、統一的でカスタマイズ可能なツールが欠如している。
本稿では、このギャップを埋める高度にモジュラーで記述的でタスクに依存しないツールである「変分主義」を紹介する。
論文 参考訳(メタデータ) (2024-06-25T15:41:07Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Collecting Interactive Multi-modal Datasets for Grounded Language
Understanding [66.30648042100123]
自然言語タスクを用いた協調型エンボディエージェントの定式化を行った。
広範かつスケーラブルなデータ収集ツールを開発しました。
対話型基底言語理解のための最初のデータセットを収集した。
論文 参考訳(メタデータ) (2022-11-12T02:36:32Z) - Dialogue Term Extraction using Transfer Learning and Topological Data
Analysis [0.8185867455104834]
我々は、純粋にデータ駆動方式で対話におけるドメイン、スロット、値の認識を可能にするさまざまな機能を探究する。
各特徴セットの有用性を検討するために、広く使われているMultiWOZデータセットに基づいてシードモデルを訓練する。
提案手法は,単語の埋め込みのみに依存する従来の手法よりも優れている。
論文 参考訳(メタデータ) (2022-08-22T17:04:04Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn
Knowledge-driven Conversation [66.99734491847076]
我々は,中国語の多分野知識駆動会話データセットKdConvを提案する。
私たちのコーパスには3つのドメイン(映画、音楽、旅行)から4.5Kの会話と、平均19.0の回転数で86Kの発話が含まれています。
論文 参考訳(メタデータ) (2020-04-08T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。