論文の概要: Evaluating Dialect Robustness of Language Models via Conversation Understanding
- arxiv url: http://arxiv.org/abs/2405.05688v2
- Date: Wed, 21 Aug 2024 11:10:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 22:25:29.074302
- Title: Evaluating Dialect Robustness of Language Models via Conversation Understanding
- Title(参考訳): 会話理解による言語モデルの対話ロバスト性の評価
- Authors: Dipankar Srirag, Nihar Ranjan Sahoo, Aditya Joshi,
- Abstract要約: 私たちは「タブー」という語遊びをする人間同士の英語(アメリカ英語またはインド英語)の会話を使う。
目的語予測 (TWP) (textiti.e.$, predict the masked target word in a conversation) と目標語選択 (TWS) (textiti.e.$, select the most likely masked target word in a conversation) という2つの評価課題を定式化する。
私たちは、en-MV(en-USが方言情報を含むように変換される)とen-TR(方言情報を含む)の2つのサブセットを作成します。
- 参考スコア(独自算出の注目度): 2.8514881296685113
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With an evergrowing number of LLMs reporting superlative performance for English, their ability to perform equitably for different dialects of English ($\textit{i.e.}$, dialect robustness) needs to be ascertained. Specifically, we use English language (US English or Indian English) conversations between humans who play the word-guessing game of 'taboo'. We formulate two evaluative tasks: target word prediction (TWP) ($\textit{i.e.}$, predict the masked target word in a conversation) and target word selection (TWS) ($\textit{i.e.}$, select the most likely masked target word in a conversation, from among a set of candidate words). Extending MD3, an existing dialectic dataset of taboo-playing conversations, we introduce M-MD3, a target-word-masked version of MD3 with the en-US and en-IN subsets. We create two subsets: en-MV (where en-US is transformed to include dialectal information) and en-TR (where dialectal information is removed from en-IN). We evaluate one open-source (Llama3) and two closed-source (GPT-4/3.5) LLMs. LLMs perform significantly better for US English than Indian English for both TWP and TWS tasks, for all settings, exhibiting marginalisation against the Indian dialect of English. While GPT-based models perform the best, the comparatively smaller models work more equitably after fine-tuning. Our error analysis shows that the LLMs can understand the dialect better after fine-tuning using dialectal data. Our evaluation methodology exhibits a novel way to examine attributes of language models using pre-existing dialogue datasets.
- Abstract(参考訳): 英語におけるLLMの報告回数が最も多いため、英語の異なる方言("\textit{i.e.}$, dialect robustness")に対して同等に実行する能力は確認する必要がある。
具体的には、"taboo"という語遊びをする人間同士の英語(アメリカ英語またはインド英語)の会話を利用する。
対象単語予測(TWP)(\textit{i.e.}$)と対象単語選択(TWS)(\textit{i.e.}$)である。
既存のタブー再生会話の方言データセットであるMD3を拡張して,en-USサブセットとen-INサブセットを備えたMD3のターゲットワードマス化バージョンであるM-MD3を紹介する。
我々は、en-MV(en-USが方言情報を含むように変換される)とen-TR(en-INから方言情報が除去される)の2つのサブセットを作成します。
1つのオープンソース(Llama3)と2つのクローズドソース(GPT-4/3.5)のLLMを評価した。
LLMは、TWPとTWSの両方のタスクにおいて、インド英語よりも、アメリカ英語の方がはるかに優れている。
GPTベースのモデルが最もよく機能する一方で、比較的小さなモデルは微調整後により公平に機能する。
我々の誤り分析は,LLMが方言データを用いて微調整した上で,方言をよりよく理解できることを示唆している。
提案手法は,既存の対話データセットを用いて,言語モデルの属性を調べる新しい手法を示す。
関連論文リスト
- Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - Predicting the Target Word of Game-playing Conversations using a Low-Rank Dialect Adapter for Decoder Models [16.289326589414404]
我々は、LoRDDと呼ばれるアーキテクチャのデコーダモデルに方言アダプタの考え方を拡張した。
LoRDDはタスクアダプタと方言アダプタを組み合わせており、後者はMD-3からの擬似並列会話に対照的な学習を取り入れている。
両モデル(Mistral と Gemma)における en-IN 会話の結果, LoRDD は TWP の 4 つのベースラインを上回り, en-US とのパフォーマンスギャップは単語類似度で 12% ,精度で 25% 向上した。
論文 参考訳(メタデータ) (2024-08-31T05:53:39Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Understanding the Effectiveness of Very Large Language Models on Dialog
Evaluation [20.18656308749408]
大規模言語モデル (LLM) は生成に使われており、人間のようなテキストを出力することができる。
本稿では,プロンプト中のサンプル数と使用するサンプル選択の種類がモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-01-27T22:02:27Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。