論文の概要: Evaluating Dialect Robustness of Language Models via Conversation Understanding
- arxiv url: http://arxiv.org/abs/2405.05688v1
- Date: Thu, 9 May 2024 11:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 13:42:37.595264
- Title: Evaluating Dialect Robustness of Language Models via Conversation Understanding
- Title(参考訳): 会話理解による言語モデルの対話ロバスト性の評価
- Authors: Dipankar Srirag, Aditya Joshi,
- Abstract要約: 私たちはタブーの言葉遊びをする人間の間での英語(アメリカ英語またはインド英語)の会話を使います。」
目的語予測(TWP)と目標語選択(TWS)の2つの評価課題を定式化する。
M-MD3 は USEng と IndEng のサブセットを持つ MD3 のターゲットワードマス化バージョンである。
AIGen と AITrans で行った結果から,LLM はトレーニングデータの構成に基づいて独自の方言を学ぶことができ,方言の堅牢性は確かに困難な課題であることがわかった。
- 参考スコア(独自算出の注目度): 3.2047868962340327
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With an evergrowing number of LLMs reporting superlative performance for English, their ability to perform equitably for different dialects of English (i.e., dialect robustness) needs to be ascertained. Specifically, we use English language (US English or Indian English) conversations between humans who play the word-guessing game of `taboo'. We formulate two evaluative tasks: target word prediction (TWP) (i.e.predict the masked target word in a conversation) and target word selection (TWS) (i.e., select the most likely masked target word in a conversation, from among a set of candidate words). Extending MD3, an existing dialectic dataset of taboo-playing conversations, we introduce M-MD3, a target-word-masked version of MD3 with the USEng and IndEng subsets. We add two subsets: AITrans (where dialectic information is removed from IndEng) and AIGen (where LLMs are prompted to generate conversations). Our evaluation uses pre-trained and fine-tuned versions of two closed-source (GPT-4/3.5) and two open-source LLMs (Mistral and Gemma). LLMs perform significantly better for US English than Indian English for both TWP and TWS, for all settings. While GPT-based models perform the best, the comparatively smaller models work more equitably for short conversations (<8 turns). Our results on AIGen and AITrans (the best and worst-performing subset) respectively show that LLMs may learn a dialect of their own based on the composition of the training data, and that dialect robustness is indeed a challenging task. Our evaluation methodology exhibits a novel way to examine attributes of language models using pre-existing dialogue datasets.
- Abstract(参考訳): 英語におけるLLMの報告回数が最も多いため、英語の異なる方言(すなわち、方言の堅牢性)に対して同等に演奏できる能力は確認する必要がある。
具体的には、"taboo"という語遊びをする人間同士の英語(アメリカ英語またはインド英語)の会話を利用する。
目的語予測 (TWP) と対象語選択 (TWS) の2つの課題を定式化する。
既存のタブー再生会話の方言データセットであるMD3を拡張し, USEng と IndEng のサブセットを用いたMD3のターゲット単語マス化バージョンである M-MD3 を導入する。
AITrans(方言情報がIndEngから削除される)とAIGen(LLMが会話を生成するように促される)の2つのサブセットを追加します。
本評価では,2つのクローズドソース (GPT-4/3.5) と2つのオープンソース LLM (Mistral と Gemma) の事前学習および微調整版を用いた。
LLMは、すべての設定において、TWPとTWSの両方において、インド英語よりも、アメリカ英語の方がはるかに優れている。
GPTベースのモデルが最もよく機能する一方で、比較的小さなモデルは短い会話でより公平に機能する((<8ターン)。
我々のAIGenとAITrans(最も優れたサブセットと最悪のパフォーマンスサブセット)の結果は、LLMがトレーニングデータの構成に基づいて独自の方言を学ぶことができ、方言の堅牢性は確かに難しい課題であることを示している。
提案手法は,既存の対話データセットを用いて,言語モデルの属性を調べる新しい手法を示す。
関連論文リスト
- Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - Predicting the Target Word of Game-playing Conversations using a Low-Rank Dialect Adapter for Decoder Models [16.289326589414404]
我々は、LoRDDと呼ばれるアーキテクチャのデコーダモデルに方言アダプタの考え方を拡張した。
LoRDDはタスクアダプタと方言アダプタを組み合わせており、後者はMD-3からの擬似並列会話に対照的な学習を取り入れている。
両モデル(Mistral と Gemma)における en-IN 会話の結果, LoRDD は TWP の 4 つのベースラインを上回り, en-US とのパフォーマンスギャップは単語類似度で 12% ,精度で 25% 向上した。
論文 参考訳(メタデータ) (2024-08-31T05:53:39Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Understanding the Effectiveness of Very Large Language Models on Dialog
Evaluation [20.18656308749408]
大規模言語モデル (LLM) は生成に使われており、人間のようなテキストを出力することができる。
本稿では,プロンプト中のサンプル数と使用するサンプル選択の種類がモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-01-27T22:02:27Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。