論文の概要: Revisiting Acceptability Judgements
- arxiv url: http://arxiv.org/abs/2305.14091v2
- Date: Wed, 24 May 2023 11:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 10:43:30.730092
- Title: Revisiting Acceptability Judgements
- Title(参考訳): アクセプタビリティの判断を再考する
- Authors: Hai Hu and Ziyin Zhang and Weifang Huang and Jackie Yan-Ki Lai and
Aini Li and Yina Ma and Jiahui Huang and Peng Zhang and Rui Wang
- Abstract要約: 我々は、ネイティブスピーカーによって検証された最初の大規模非英語アクセシビリティデータセットであるCoLACを紹介する。
実験の結果,最大のインストラクトGPTモデルでさえ,CoLAC上でのみ実行可能であることがわかった。
我々は,言語受容性に関する知識が,類型的に異なる言語間で伝達できることを初めて実証した。
- 参考スコア(独自算出の注目度): 15.077385953908937
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Years have passed since the NLP community has last focused on linguistic
acceptability. In this work, we revisit this topic in the context of large
language models. We introduce CoLAC - Corpus of Linguistic Acceptability in
Chinese, the first large-scale non-English acceptability dataset that is
verified by native speakers and comes with two sets of labels. Our experiments
show that even the largest InstructGPT model performs only at chance level on
CoLAC, while ChatGPT's performance (48.30 MCC) is also way below supervised
models (59.03 MCC) and human (65.11 MCC). Through cross-lingual transfer
experiments and fine-grained linguistic analysis, we demonstrate for the first
time that knowledge of linguistic acceptability can be transferred across
typologically distinct languages, as well as be traced back to pre-training.
- Abstract(参考訳): NLPコミュニティが言語受容性に注目してから何年も経ちました。
本研究では,この話題を大規模言語モデルの文脈で再検討する。
CoLAC - Corpus of Linguistic Acceptability in Chineseを紹介します。これは、ネイティブスピーカーによって検証され、2つのラベルセットが付属する、最初の大規模非英語アクセプタビリティデータセットです。
実験の結果,最も大きなインストラクトGPTモデルでさえ,CoLAC上では偶然にのみ動作し,ChatGPTの性能(48.30 MCC)は教師付きモデル(59.03 MCC)と人間(65.11 MCC)より低い。
言語受容性に関する知識をタイプ論的に異なる言語間で伝達し,事前学習まで遡ることができることを,言語間伝達実験ときめ細かな言語解析を通じて初めて実証した。
関連論文リスト
- Exploiting Phonological Similarities between African Languages to achieve Speech to Speech Translation [2.7624021966289605]
本稿では,言語系統内および言語系統間の音声セグメントをマッピングするセグメントベースモデルを提案する。
5つの言語を含むケニア放送協会(KBC)から,プロプライエタリなデータセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-30T09:44:52Z) - Pretraining Approaches for Spoken Language Recognition: TalTech
Submission to the OLR 2021 Challenge [0.0]
この論文は、東洋言語認識2021チャレンジへの提案に基づいています。
制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。
制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
論文 参考訳(メタデータ) (2022-05-14T15:17:08Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。