論文の概要: Evaluation of large language models using an Indian language LGBTI+
lexicon
- arxiv url: http://arxiv.org/abs/2310.17787v1
- Date: Thu, 26 Oct 2023 21:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 15:36:58.933220
- Title: Evaluation of large language models using an Indian language LGBTI+
lexicon
- Title(参考訳): インド語 lgbti+ lexicon を用いた大規模言語モデルの評価
- Authors: Aditya Joshi, Shruta Rawat, Alpana Dange
- Abstract要約: 大規模言語モデル(LLM)は通常、MMLUのようなタスクベースのベンチマークに基づいて評価される。
本稿では,インド語におけるLGBTI+レキシコンを用いたLCMの評価手法を提案する。
- 参考スコア(独自算出の注目度): 3.2047868962340327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are typically evaluated on the basis of
task-based benchmarks such as MMLU. Such benchmarks do not examine responsible
behaviour of LLMs in specific contexts. This is particularly true in the LGBTI+
context where social stereotypes may result in variation in LGBTI+ terminology.
Therefore, domain-specific lexicons or dictionaries may be useful as a
representative list of words against which the LLM's behaviour needs to be
evaluated. This paper presents a methodology for evaluation of LLMs using an
LGBTI+ lexicon in Indian languages. The methodology consists of four steps:
formulating NLP tasks relevant to the expected behaviour, creating prompts that
test LLMs, using the LLMs to obtain the output and, finally, manually
evaluating the results. Our qualitative analysis shows that the three LLMs we
experiment on are unable to detect underlying hateful content. Similarly, we
observe limitations in using machine translation as means to evaluate natural
language understanding in languages other than English. The methodology
presented in this paper can be useful for LGBTI+ lexicons in other languages as
well as other domain-specific lexicons. The work done in this paper opens
avenues for responsible behaviour of LLMs, as demonstrated in the context of
prevalent social perception of the LGBTI+ community.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、MMLUのようなタスクベースのベンチマークに基づいて評価される。
このようなベンチマークは、特定の文脈におけるLCMの責任ある振る舞いを調査しない。
これはLGBTI+の文脈において特に当てはまり、社会ステレオタイプはLGBTI+の用語に変化をもたらす可能性がある。
したがって、ドメイン固有の辞書や辞書は、LLMの振る舞いを評価する必要がある単語の代表リストとして有用である。
本稿では,インド語におけるLGBTI+レキシコンを用いたLCMの評価手法を提案する。
方法論は4つのステップから構成される: 期待される振る舞いに関連するNLPタスクを定式化し、LSMをテストするプロンプトを作成し、LSMを使用して出力を取得し、最後に手動で結果を評価する。
質的分析の結果,実験中の3つのllmでは,憎悪コンテンツの検出が不可能であることが判明した。
同様に、英語以外の言語の自然言語理解を評価する手段として機械翻訳を使用する際の制限も観察する。
本稿では,他の言語におけるLGBTI+レキシコンおよび他のドメイン固有レキシコンに有用であることを示す。
本研究は、LGBTI+コミュニティにおける社会的認知の場として、LCMの責任ある行動に対する道を開いたものである。
関連論文リスト
- Quantifying Multilingual Performance of Large Language Models Across Languages [49.596454686818106]
LLM(Large Language Models)のトレーニングプロセスには、広範なテキストコーパスが必要である。
Language Rankerは、これらの言語上でのLLMのパフォーマンスに応じて、異なる言語をベンチマークし、ランク付けすることを目的としている。
異なる言語におけるLlaMa2の性能と事前学習コーパスの割合との間には強い相関関係がある。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - METAL: Towards Multilingual Meta-Evaluation [12.852595634767901]
本研究では,多言語シナリオにおいて,Large Language Models (LLMs) を評価対象としてエンド・ツー・エンド評価を行うためのフレームワークを提案する。
要約作業のための母国語話者判定を含む10言語を対象としたデータセットを作成する。
GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。
論文 参考訳(メタデータ) (2024-04-02T06:14:54Z) - Can LLMs Converse Formally? Automatically Assessing LLMs in Translating and Interpreting Formal Specifications [21.12437562185667]
本稿では,自然言語記述と形式仕様の変換における大規模言語モデルの有用性を評価する。
本稿では,LLMの2つのコピーと既製の検証器を併用して,翻訳能力を自動評価する手法を提案する。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Self-Augmented In-Context Learning for Unsupervised Word Translation [81.6546357879259]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。
教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。
提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T15:43:05Z) - Beware of Words: Evaluating the Lexical Richness of Conversational Large
Language Models [3.0059120458540383]
対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
論文 参考訳(メタデータ) (2024-02-11T13:41:17Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Probing Structured Semantics Understanding and Generation of Language
Models via Question Answering [56.610044062739256]
本研究では,人間が構築した形式言語を用いて質問応答のタスクにおいて,大規模言語モデルが構造化意味論に対処する能力について検討する。
異なる大きさのモデルと異なる形式言語を用いた実験は、今日の最先端のLLMの論理形式に対する理解が全体的な人間レベルにアプローチできることを示している。
結果は、モデルが異なる形式言語にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Establishing Vocabulary Tests as a Benchmark for Evaluating Large
Language Models [2.7013338932521416]
我々は,大言語モデル(LLM)の性能を評価する貴重なツールとして,語彙テストの復活を提唱する。
2つの言語にまたがる2つの語彙テスト形式を用いて7つのLSMを評価し,その語彙的知識の驚くべきギャップを明らかにする。
論文 参考訳(メタデータ) (2023-10-23T08:45:12Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。