Fugu-MT 論文翻訳(概要): MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

論文の概要: MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

arxiv url: http://arxiv.org/abs/2605.06940v1
Date: Thu, 07 May 2026 20:55:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.62245
Title: MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media
Title（参考訳）: MultiSoc-4D:ベンガルソーシャルメディアのLCMアノテーションにおける命令誘発ラベル崩壊の診断のためのベンチマーク
Authors: Souvik Pramanik, S. M. Riaz Rahman Antu, Shak Mohammad Abyad, Md. Ibrahim Khalil, Md. Shahriar Hussain,
Abstract要約: 我々はベンガルのソーシャルメディアデータセットベンチマークであるMultiSoc-4Dを紹介した。このベンチマークには、カテゴリー、感情、ヘイトスピーチ、皮肉の4つの側面に沿って注釈付けされた6つのソースから58K以上のソーシャルメディアコメントが含まれている。我々は,LLMがフォールバックラベルに対する体系的な嗜好を示す「インストラクション誘導ラベル崩壊」と呼ばれる現象を発見した。我々は、これが「ラベル錯覚」を表すことを証明し、ほぼヌルフレイス・カッパによるサルカズム検出の統計的検証を行った。
参考スコア（独自算出の注目度）: 0.7437884690206271
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Annotation automation via Large Language Models (LLMs) is the core approach for scaling NLP datasets; however, LLM behavior with respect to closed-set instructions in low-resource languages has not been well studied. We present MultiSoc-4D, a Bengali social media dataset benchmark, which contains 58K+ social media comments from six sources annotated along four dimensions: category, sentiment, hate speech, and sarcasm. By employing a structured pipeline where ChatGPT, Gemini, Claude, and Grok individually annotate separate partitions, while sharing a common validation set of 20%, we diagnose LLM behavior systematically. We discover a prevalent phenomenon called "instruction-induced label collapse", wherein LLMs show a systematic preference towards fallback labels (Other, Neutral, No), leading to high agreement rates but under-detection of minority categories. For example, we find that LLMs failed to detect 79% and 75% of instances with hateful and sarcastic content compared to a human-calibrated reference. Furthermore, we prove that it represents a "label agreement illusion", statistically validated via almost null Fleiss' Kappa ($κ\approx -0.001$) on sarcasm detection. Across 40+ LLMs, we benchmark this annotation bias propagation within the training pipeline, regardless of architectural differences. We release MultiSoc-4D as a diagnostic benchmark for annotation biases in Bengali NLP.
Abstract（参考訳）: 大規模言語モデル(LLM)によるアノテーションの自動化は,NLPデータセットのスケーリングにおける中核的なアプローチであるが,低リソース言語におけるクローズドセット命令に対するLCMの挙動は十分に研究されていない。我々はベンガルのソーシャルメディアデータセットベンチマークであるMultiSoc-4Dを紹介した。このベンチマークには、カテゴリー、感情、ヘイトスピーチ、皮肉の4つの側面に沿って注釈付けされた6つのソースから58K以上のソーシャルメディアコメントが含まれている。 ChatGPT、Gemini、Claude、Grokの各パーティションを個別にアノテートし、20%の共通バリデーションセットを共有する構造化パイプラインを使用することで、LLMの挙動を体系的に診断する。我々は,「命令誘発ラベル崩壊(instruction-induced label collapse)」と呼ばれる一般的な現象を発見し,LLMでは,フォールバックラベル(Other, Neutral, No)を体系的に選好し,合意率が高いがマイノリティカテゴリーの過小評価に繋がることを示した。例えば、LLMは、ヒトの校正基準と比較して、憎悪や皮肉な内容のインスタンスの79%と75%を検出できなかった。さらに,これは「ラベル・コンセンサス・イリュージョン(label agreement illusion)」を表すものであり,Sarcasm Detectionにおけるほぼヌル・フライスのKappa(κ\approx -0.001$)を用いて統計的に検証されている。 40以上のLLMで、アーキテクチャの違いにかかわらず、トレーニングパイプライン内でこのアノテーションバイアスの伝搬をベンチマークします。我々はBengali NLPにおけるアノテーションバイアスの診断ベンチマークとしてMultiSoc-4Dをリリースした。

関連論文リスト

Do We Still Need Humans in the Loop? Comparing Human and LLM Annotation in Active Learning for Hostility Detection [68.37351671559675]
アクティブな学習は、無視可能なコストで短いプロンプトから何千ものインスタンスに注釈を付けることができる。 LLMラベルはALループ内で人間のラベルを置き換えることができ、ALはコーパス全体を一度にラベル付けできるときに必要か? 277,902人のドイツの政治的TikTokコメントの新しいデータセットについて、両方の質問を調査した。
論文参考訳（メタデータ） (2026-04-15T14:10:58Z)
Are Multimodal Large Language Models Good Annotators for Image Tagging? [62.01475514488922]
本稿では,MLLMの生成するアノテーションと人間のアノテーションのギャップを分析することを目的とする。本稿では,MLLM生成アノテーションと人間のアノテーションのギャップを狭めることを目的とした,画像タグ付けのための新しいフレームワークであるTagLLMを提案する。
論文参考訳（メタデータ） (2026-02-24T14:53:16Z)
Wisdom of the LLM Crowd: A Large Scale Benchmark of Multi-Label U.S. Election-Related Harmful Social Media Content [1.7020765368200692]
USE24-XDは、2024年のアメリカ合衆国大統領選挙期間中にX(元Twitter)から収集された100万近い投稿の大規模なデータセットである。我々は,共謀,感性主義,ヘイトスピーチ,スペキュレーション,サティアという5つのカテゴリの投稿を体系的にアノテートするために,6つの大きな言語モデル(LLM)を採用している。
論文参考訳（メタデータ） (2026-02-12T13:57:12Z)
From Human Annotation to Automation: LLM-in-the-Loop Active Learning for Arabic Sentiment Analysis [1.4874449172133888]
注釈を補助し、その性能を人間のラベルと比較する大規模言語モデル(LLM)は、アラビア語の文脈ではいまだに探索されていない。ハイパフォーマンスを維持しつつアノテーションコストを削減するためにアラビア感情分析のための能動的学習フレームワークを提案する。 GPT-4o for Hunger Station、Claude 3 Sonnet for AJGT、DeepSeek Chat。
論文参考訳（メタデータ） (2025-09-27T22:23:46Z)
Vuyko Mistral: Adapting LLMs for Low-Resource Dialectal Translation [0.0]
本稿では,ウクライナのフツル方言に大規模な言語モデルを適用するための最初の取り組みを紹介する。我々は、9852語対標準ウクライナ語の文対と7320語の単語マッピングの辞書の並列コーパスを作成しました。
論文参考訳（メタデータ） (2025-06-09T10:30:35Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
PLUGH: A Benchmark for Spatial Understanding and Reasoning in Large Language Models [13.615681132633561]
現在5つのタスクからなる最新のベンチマークであるPLUGHについて,48種類のゲームから125個の入力テキストを抽出した。 APIベースおよびオープンソース LLM の評価は,いくつかの商用 LLM には強い推論能力があるが,オープンソースコンペティタは,ほぼ同じレベルの品質を示すことができることを示している。
論文参考訳（メタデータ） (2024-08-03T13:21:08Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
The Skipped Beat: A Study of Sociopragmatic Understanding in LLMs for 64 Languages [17.055109973224265]
SPARROWは言語間社会プラグマティックな意味(SM)理解に特化して設計された広範囲なベンチマークである。 SPARROWは、6つの主要カテゴリ(例えば、反社会的言語検出、感情認識)にわたる13のタスクタイプをカバーする169のデータセットで構成されている。本研究では,SPARROWにおける多言語事前訓練型言語モデル(mT5など)と命令調整型LLM(BLOOMZ, ChatGPTなど)の性能を,微調整,ゼロショット,少数ショット学習により評価する。
論文参考訳（メタデータ） (2023-10-23T04:22:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。