論文の概要: Blow the Dog Whistle: A Chinese Dataset for Cant Understanding with
Common Sense and World Knowledge
- arxiv url: http://arxiv.org/abs/2104.02704v1
- Date: Tue, 6 Apr 2021 17:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:25:14.458508
- Title: Blow the Dog Whistle: A Chinese Dataset for Cant Understanding with
Common Sense and World Knowledge
- Title(参考訳): 犬口笛を吹く: 常識と世界の知識でカントを理解するための中国のデータセット
- Authors: Canwen Xu and Wangchunshu Zhou and Tao Ge and Ke Xu and Julian McAuley
and Furu Wei
- Abstract要約: カントは、広告、喜劇、ドッグウィストル政治を理解するために重要である。
カントの作成と理解のための大規模で多様な中国データセットを提案します。
- 参考スコア(独自算出の注目度): 49.288196234823005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cant is important for understanding advertising, comedies and dog-whistle
politics. However, computational research on cant is hindered by a lack of
available datasets. In this paper, we propose a large and diverse Chinese
dataset for creating and understanding cant from a computational linguistics
perspective. We formulate a task for cant understanding and provide both
quantitative and qualitative analysis for tested word embedding similarity and
pretrained language models. Experiments suggest that such a task requires deep
language understanding, common sense, and world knowledge and thus can be a
good testbed for pretrained language models and help models perform better on
other tasks. The code is available at https://github.com/JetRunner/dogwhistle.
The data and leaderboard are available at
https://competitions.codalab.org/competitions/30451.
- Abstract(参考訳): カントは、広告、喜劇、ドッグウィスル政治を理解するために重要である。
しかし、cantの計算研究は利用可能なデータセットの欠如によって妨げられている。
本稿では,計算言語学の観点から,カントの作成と理解のための多種多様な中国語データセットを提案する。
本研究では,単語埋め込み類似性と事前学習言語モデルについて,定量的かつ定性的な分析を行う。
実験によれば、このようなタスクには深い言語理解、常識、世界の知識が必要であるため、事前訓練された言語モデルのための優れたテストベッドとなり、モデルが他のタスクをより良く実行するのに役立つ。
コードはhttps://github.com/jetrunner/dogwhistleで入手できる。
データとリーダーボードはhttps://competitions.codalab.org/competitions/30451で入手できる。
関連論文リスト
- Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。
子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。
これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文 参考訳(メタデータ) (2024-08-07T08:18:51Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Conic10K: A Challenging Math Problem Understanding and Reasoning Dataset [38.99073257782012]
本研究では,中国の高等学校における円錐部分の数学問題データセットであるConic10Kを提案する。
我々のデータセットは、様々な推論深度を持つ様々な問題を含むが、円錐部分からの知識は必要である。
各問題に対して、高品質な形式表現、推論ステップ、最終解を提供する。
論文 参考訳(メタデータ) (2023-11-09T02:58:17Z) - Spoken Language Understanding for Conversational AI: Recent Advances and
Future Direction [5.829344935864271]
本チュートリアルでは,Spoken Language Understanding/Natural Language Understanding (SLU/NLU) とDeep Learning技術を紹介する。
本稿では,最新のNLPおよびDeep Learning技術を用いて共同作業に対処する方法について述べる。
論文 参考訳(メタデータ) (2022-12-21T02:47:52Z) - Deep Bidirectional Language-Knowledge Graph Pretraining [159.9645181522436]
DRAGONは、テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己教師型アプローチである。
我々のモデルは、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。
論文 参考訳(メタデータ) (2022-10-17T18:02:52Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z) - Teaching a New Dog Old Tricks: Resurrecting Multilingual Retrieval Using
Zero-shot Learning [30.868309879441615]
我々は、事前訓練された多言語言語モデルを利用して、英語コレクションで訓練された検索システムを非英語クエリや文書に転送することで、データの欠如に対処する。
提案手法は,アラビア語,中国語,スペイン語の教師なし検索手法を著しく上回りうることを示す。
論文 参考訳(メタデータ) (2019-12-30T20:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。