Fugu-MT 論文翻訳(概要): Revisiting Acceptability Judgements

論文の概要: Revisiting Acceptability Judgements

arxiv url: http://arxiv.org/abs/2305.14091v2
Date: Wed, 24 May 2023 11:20:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 10:43:30.730092
Title: Revisiting Acceptability Judgements
Title（参考訳）: アクセプタビリティの判断を再考する
Authors: Hai Hu and Ziyin Zhang and Weifang Huang and Jackie Yan-Ki Lai and Aini Li and Yina Ma and Jiahui Huang and Peng Zhang and Rui Wang
Abstract要約: 我々は、ネイティブスピーカーによって検証された最初の大規模非英語アクセシビリティデータセットであるCoLACを紹介する。実験の結果,最大のインストラクトGPTモデルでさえ,CoLAC上でのみ実行可能であることがわかった。我々は,言語受容性に関する知識が,類型的に異なる言語間で伝達できることを初めて実証した。
参考スコア（独自算出の注目度）: 15.077385953908937
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Years have passed since the NLP community has last focused on linguistic acceptability. In this work, we revisit this topic in the context of large language models. We introduce CoLAC - Corpus of Linguistic Acceptability in Chinese, the first large-scale non-English acceptability dataset that is verified by native speakers and comes with two sets of labels. Our experiments show that even the largest InstructGPT model performs only at chance level on CoLAC, while ChatGPT's performance (48.30 MCC) is also way below supervised models (59.03 MCC) and human (65.11 MCC). Through cross-lingual transfer experiments and fine-grained linguistic analysis, we demonstrate for the first time that knowledge of linguistic acceptability can be transferred across typologically distinct languages, as well as be traced back to pre-training.
Abstract（参考訳）: NLPコミュニティが言語受容性に注目してから何年も経ちました。本研究では,この話題を大規模言語モデルの文脈で再検討する。 CoLAC - Corpus of Linguistic Acceptability in Chineseを紹介します。これは、ネイティブスピーカーによって検証され、2つのラベルセットが付属する、最初の大規模非英語アクセプタビリティデータセットです。実験の結果,最も大きなインストラクトGPTモデルでさえ,CoLAC上では偶然にのみ動作し,ChatGPTの性能(48.30 MCC)は教師付きモデル(59.03 MCC)と人間(65.11 MCC)より低い。言語受容性に関する知識をタイプ論的に異なる言語間で伝達し,事前学習まで遡ることができることを,言語間伝達実験ときめ細かな言語解析を通じて初めて実証した。

関連論文リスト

Human-Annotated NER Dataset for the Kyrgyz Language [0.5220697980320981]
KyrgyzNERは、Kyrgyz言語用の最初の手動アノテーション付きエンティティ認識データセットである。データセットには10,900の文と39,075のエンティティがあり、27の命名されたエンティティクラスにまたがっている。本稿では、アノテーション方式を示し、アノテーションプロセスで直面する課題について論じ、記述統計を提示する。
論文参考訳（メタデータ） (2025-09-23T14:56:10Z)
QFrCoLA: a Quebec-French Corpus of Linguistic Acceptability Judgments [0.0]
本稿では,25,153個のドメイン内文と2,675個のドメイン外文からなる規範的二項受容可能性判定データセットであるQFrCoLAを紹介する。我々は、QFrCoLAと他の7つの言語的二項受容可能性判定コーパスを用いて、7つの言語モデルをベンチマークする。平均的に、微調整トランスフォーマーベースのLMは、ほとんどの言語において強力なベースラインであり、ゼロショットバイナリ分類の大言語モデルは、そのタスクでは不十分である。
論文参考訳（メタデータ） (2025-08-23T01:51:45Z)
Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-07-02T12:17:55Z)
Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文参考訳（メタデータ） (2025-05-26T07:21:20Z)
Full-Parameter Continual Pretraining of Gemma2: Insights into Fluency and Domain Knowledge [0.0]
大規模言語モデル(LLM)を用いた連続学習における言語流布とドメイン知識の関係を実証的に検討する。具体的には、CulturaXデータセットのリトアニア語コンポーネントの最初の10%に設定された全パラメータを自動回帰的に事前学習することで、リトアニア語におけるGemma2 LLMの言語流用性を高める。モデルの既存のドメイン知識の破滅的な忘れを防止するために、弾性重み強化(EWC)を適用する。学習後評価では、難易度による言語流布度を評価し、言語理解ベンチマークの精度を用いてドメイン知識を評価する。
論文参考訳（メタデータ） (2025-05-09T10:43:37Z)
Exploiting Phonological Similarities between African Languages to achieve Speech to Speech Translation [2.7624021966289605]
本稿では,言語系統内および言語系統間の音声セグメントをマッピングするセグメントベースモデルを提案する。 5つの言語を含むケニア放送協会(KBC)から,プロプライエタリなデータセット上でモデルを評価した。
論文参考訳（メタデータ） (2024-10-30T09:44:52Z)
Pretraining Approaches for Spoken Language Recognition: TalTech Submission to the OLR 2021 Challenge [0.0]
この論文は、東洋言語認識2021チャレンジへの提案に基づいています。制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
論文参考訳（メタデータ） (2022-05-14T15:17:08Z)
Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。 2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文参考訳（メタデータ） (2022-04-29T07:31:46Z)
On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文参考訳（メタデータ） (2021-12-21T08:10:27Z)
From Good to Best: Two-Stage Training for Cross-lingual Machine Reading Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文参考訳（メタデータ） (2021-12-09T07:31:15Z)
A Massively Multilingual Analysis of Cross-linguality in Shared Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文参考訳（メタデータ） (2021-09-13T21:05:37Z)
XL-WiC: A Multilingual Benchmark for Evaluating Semantic Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文参考訳（メタデータ） (2020-10-13T15:32:00Z)
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文参考訳（メタデータ） (2020-05-01T12:22:33Z)
CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。 11,000人以上の話者と60以上のアクセントで多様化した。 CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文参考訳（メタデータ） (2020-02-04T14:35:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。