論文の概要: AL-QASIDA: Analyzing LLM Quality and Accuracy Systematically in Dialectal Arabic
- arxiv url: http://arxiv.org/abs/2412.04193v2
- Date: Fri, 03 Jan 2025 20:04:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:03:39.211824
- Title: AL-QASIDA: Analyzing LLM Quality and Accuracy Systematically in Dialectal Arabic
- Title(参考訳): al-QASIDA:アラビア語におけるLLMの品質と精度の分析
- Authors: Nathaniel R. Robinson, Shahd Abdelmoneim, Kelly Marchisio, Sebastian Ruder,
- Abstract要約: 方言アラビア(DA)の品種は、言語技術、特に大きな言語モデル(LLM)によって不足している。
本研究では,LLMのDAモデリング能力を,忠実度,理解度,品質,威厳の4次元にわたって評価するフレームワークを提案する。
評価の結果, LLMはDAを生成せず, DAが貧弱であるためではなく, DAを生成できないため, DAを生成できないことが示唆された。
- 参考スコア(独自算出の注目度): 43.01550039658917
- License:
- Abstract: Dialectal Arabic (DA) varieties are under-served by language technologies, particularly large language models (LLMs). This trend threatens to exacerbate existing social inequalities and limits LLM applications, yet the research community lacks operationalized performance measurements in DA. We present a framework that comprehensively assesses LLMs' DA modeling capabilities across four dimensions: fidelity, understanding, quality, and diglossia. We evaluate nine LLMs in eight DA varieties and provide practical recommendations. Our evaluation suggests that LLMs do not produce DA as well as they understand it, not because their DA fluency is poor, but because they are reluctant to generate DA. Further analysis suggests that current post-training can contribute to bias against DA, that few-shot examples can overcome this deficiency, and that otherwise no measurable features of input text correlate well with LLM DA performance.
- Abstract(参考訳): 方言アラビア語(DA)の変種は、言語技術、特に大きな言語モデル(LLM)によって保護されていない。
この傾向は、既存の社会的不平等を悪化させ、LLMの適用を制限することを脅かすが、研究コミュニティはDAで運用されたパフォーマンス測定を欠いている。
本研究では, LLMのDAモデリング能力を, 忠実度, 理解度, 品質, 威厳の4次元にわたって包括的に評価する枠組みを提案する。
8種類のDA品種のLLMを9種類評価し,実用的なレコメンデーションを提供する。
LLMがDAを生成できないのは,DAの頻度が低かったからではなく,DAの生成に消極的であるからである。
さらなる分析では、現在のポストトレーニングはDAに対するバイアスに寄与し、少数のサンプルはこの欠陥を克服し、そうでなければ入力テキストの計測可能な特徴がLLM DAのパフォーマンスとよく相関しないことが示唆されている。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark [41.68821233828375]
本稿では,MLLM-as-a-Judgeと呼ばれる新しいベンチマークを導入し,多様なモダリティにまたがる審査員を支援するMLLMの能力を評価する。
本研究は, MLLMがPair Comparisonにおいて顕著な人間ライクな識別を示す一方で, Scoring EvaluationとBatch Rankingにおいて, 人間の嗜好とは大きく異なることを明らかにした。
論文 参考訳(メタデータ) (2024-02-07T12:28:32Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。