論文の概要: Are LLMs Ready to Replace Bangla Annotators?
- arxiv url: http://arxiv.org/abs/2602.16241v2
- Date: Thu, 19 Feb 2026 05:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.222343
- Title: Are LLMs Ready to Replace Bangla Annotators?
- Title(参考訳): LLMはBanglaアノテーションを置き換える準備ができているか?
- Authors: Md. Najib Hasan, Touseef Hasan, Souvika Sarkar,
- Abstract要約: 大規模言語モデル(LLM)は、データセット生成をスケールするための自動アノテータとして、ますます使われている。
バングラヘイトスピーチにおけるゼロショットアノテータとしてのLLMの挙動について検討する。
モデル判定におけるアノテータバイアスと実質不安定性を明らかにする。
- 参考スコア(独自算出の注目度): 0.5468559068505657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used as automated annotators to scale dataset creation, yet their reliability as unbiased annotators--especially for low-resource and identity-sensitive settings--remains poorly understood. In this work, we study the behavior of LLMs as zero-shot annotators for Bangla hate speech, a task where even human agreement is challenging, and annotator bias can have serious downstream consequences. We conduct a systematic benchmark of 17 LLMs using a unified evaluation framework. Our analysis uncovers annotator bias and substantial instability in model judgments. Surprisingly, increased model scale does not guarantee improved annotation quality--smaller, more task-aligned models frequently exhibit more consistent behavior than their larger counterparts. These results highlight important limitations of current LLMs for sensitive annotation tasks in low-resource languages and underscore the need for careful evaluation before deployment.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、データセット生成をスケールするために自動化アノテータとしてますます使われていますが、その信頼性は、特に低リソースでアイデンティティに敏感な設定では、あまり理解されていません。
そこで本研究では,LLM をゼロショットアノテータとして,Bangla hate 音声の動作について検討する。
統一評価フレームワークを用いて、17個のLCMの系統的ベンチマークを行う。
モデル判断におけるアノテータバイアスと実質不安定性を明らかにする。
驚くべきことに、モデルスケールの増大はアノテーションの品質の改善を保証するものではない。
これらの結果は、低リソース言語におけるセンシティブなアノテーションタスクに対する現在のLLMの重要な制限を強調し、デプロイ前に注意深い評価の必要性を浮き彫りにしている。
関連論文リスト
- Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。
異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。
意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文 参考訳(メタデータ) (2025-06-24T09:49:26Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Revisiting LLMs as Zero-Shot Time-Series Forecasters: Small Noise Can Break Large Models [32.30528039193554]
大規模言語モデル(LLM)は、ドメイン固有のトレーニングなしで、様々なタスクにまたがる顕著なパフォーマンスを示している。
近年の研究では、LLMは予測に固有の効果を欠いていることが示唆されている。
実験の結果,LLMベースのゼロショット予測器はノイズに敏感なため,高い精度を達成するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-05-31T08:24:01Z) - An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment [9.156064716689833]
本研究は, 評価の信頼性を確保しつつ, LLMの性能に関する詳細な知見を提供する。
我々は、GPT-4、Qwen2.5-72B、Llama-3.2-3Bを含む、クローズドソースとオープンソースの両方のLLMを選択する。
その結果, LLM は従来と比べ, 誤った単純化出力が少ないことがわかった。
論文 参考訳(メタデータ) (2024-03-08T00:19:24Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。