Fugu-MT 論文翻訳(概要): Comparing LLM Text Annotation Skills: A Study on Human Rights Violations in Social Media Data

論文の概要: Comparing LLM Text Annotation Skills: A Study on Human Rights Violations in Social Media Data

arxiv url: http://arxiv.org/abs/2505.10260v1
Date: Thu, 15 May 2025 13:10:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 22:29:06.32197
Title: Comparing LLM Text Annotation Skills: A Study on Human Rights Violations in Social Media Data
Title（参考訳）: LLMテキストアノテーションスキルの比較:ソーシャルメディアデータにおける人権侵害に関する研究
Authors: Poli Apollinaire Nemkova, Solomon Ubani, Mark V. Albert,
Abstract要約: 本研究では,ロシア語とウクライナ語におけるソーシャルメディア投稿のゼロショットおよび少数ショットアノテーションに対する大規模言語モデル(LLM)の機能について検討した。これらのモデルの有効性を評価するため、それらのアノテーションは、人間の二重注釈付きラベルのゴールドスタンダードセットと比較される。この研究は、各モデルが示すエラーと不一致のユニークなパターンを探求し、その強み、制限、言語間適応性に関する洞察を提供する。
参考スコア（独自算出の注目度）: 2.812898346527047
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the era of increasingly sophisticated natural language processing (NLP) systems, large language models (LLMs) have demonstrated remarkable potential for diverse applications, including tasks requiring nuanced textual understanding and contextual reasoning. This study investigates the capabilities of multiple state-of-the-art LLMs - GPT-3.5, GPT-4, LLAMA3, Mistral 7B, and Claude-2 - for zero-shot and few-shot annotation of a complex textual dataset comprising social media posts in Russian and Ukrainian. Specifically, the focus is on the binary classification task of identifying references to human rights violations within the dataset. To evaluate the effectiveness of these models, their annotations are compared against a gold standard set of human double-annotated labels across 1000 samples. The analysis includes assessing annotation performance under different prompting conditions, with prompts provided in both English and Russian. Additionally, the study explores the unique patterns of errors and disagreements exhibited by each model, offering insights into their strengths, limitations, and cross-linguistic adaptability. By juxtaposing LLM outputs with human annotations, this research contributes to understanding the reliability and applicability of LLMs for sensitive, domain-specific tasks in multilingual contexts. It also sheds light on how language models handle inherently subjective and context-dependent judgments, a critical consideration for their deployment in real-world scenarios.
Abstract（参考訳）: より洗練された自然言語処理(NLP)システムの時代、大規模言語モデル(LLM)は、微妙なテキスト理解や文脈的推論を必要とするタスクを含む多様なアプリケーションに顕著な可能性を示してきた。本研究では、ロシアとウクライナのソーシャルメディア投稿からなる複雑なテキストデータセットのゼロショットおよび少数ショットアノテーションに対する複数の最先端LCM(GPT-3.5, GPT-4, LLAMA3, Mistral 7B, Claude-2)の機能について検討した。具体的には、データセット内の人権侵害に対する参照を識別するバイナリ分類タスクに重点を置いている。これらのモデルの有効性を評価するため、それらのアノテーションは1000サンプルにわたる人間の二重アノテーションラベルのゴールド標準セットと比較される。この分析には、異なるプロンプト条件下でのアノテーション性能の評価が含まれており、英語とロシア語の両方でプロンプトが提供されている。さらに、この研究では、各モデルが示すエラーと不一致のユニークなパターンを調査し、その強み、制限、言語間適応性に関する洞察を提供する。人間のアノテーションでLLM出力をジャクスタポス化することにより、多言語コンテキストにおけるLLMの高感度なドメイン固有タスクに対する信頼性と適用性を理解することに寄与する。また、言語モデルが本質的に主観的かつ文脈に依存した判断をどのように扱うかについても光を当てています。

関連論文リスト

A Dual-Layered Evaluation of Geopolitical and Cultural Bias in LLMs [0.6494933736121663]
大規模言語モデル(LLM)は、多種多様な言語や文化の文脈にまたがって展開されている。モデルバイアス(モデルトレーニングに由来するバイアス)と推論バイアス(クエリの言語によって誘導されるバイアス)の2種類を定義した。我々は、4つの言語と質問タイプにまたがって、事実と疑わしいQAの両方にまたがる手動でキュレートされたデータセットを構築した。
論文参考訳（メタデータ） (2025-06-27T03:37:15Z)
Unveiling the Capabilities of Large Language Models in Detecting Offensive Language with Annotation Disagreement [22.992484902761994]
本研究では,攻撃言語検出における多言語モデル(LLM)の性能を系統的に評価する。本研究では,二項分類の精度を分析し,モデル信頼度と人的不一致度の関係を検証し,不一致サンプルがモデル決定にどう影響するかを考察する。
論文参考訳（メタデータ） (2025-02-10T07:14:26Z)
Exploring Robustness of LLMs to Sociodemographically-Conditioned Paraphrasing [7.312170216336085]
我々は、社会デミノグラフィーの次元にまたがる幅広いバリエーションを探求するために、より広いアプローチを取る。我々はSocialIQAデータセットを拡張し、ソシオデミノグラフィースタイルを条件とした多様なパラフレーズセットを作成する。人口統計学的パラフレーズが言語モデルの性能に大きく影響していることが判明した。
論文参考訳（メタデータ） (2025-01-14T17:50:06Z)
Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language [0.0]
本研究では、人文科学研究に基礎を置く規範的ベンチマークを導入し、攻撃的言語の一貫性のないラベル付けを確実にする。我々は、人間と言語モデル(LLM)アノテーションのアノテーション間のより高いアノテータ合意を達成するために、2つの新しいアノテートデータセットをコントリビュートする。
論文参考訳（メタデータ） (2024-10-17T08:10:24Z)
Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文参考訳（メタデータ） (2024-10-03T16:43:17Z)
Predicting Emotion Intensity in Polish Political Texts: Comparing Supervised Models and Large Language Models in a Resource-Poor Language [0.0]
本研究では,ポーランドの政治文における感情の強さを予測するために,大規模言語モデル(LLM)の利用について検討する。本研究は,ソーシャルメディアテキスト1万件の注釈付きコーパスを用いた教師付きモデルと比較した。
論文参考訳（メタデータ） (2024-07-16T19:53:14Z)
Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。 LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文参考訳（メタデータ） (2024-02-01T18:55:29Z)
CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2023-10-24T08:56:49Z)
Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文参考訳（メタデータ） (2023-09-02T00:32:55Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文参考訳（メタデータ） (2023-05-24T06:19:14Z)
Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文参考訳（メタデータ） (2023-04-05T03:49:06Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。