論文の概要: Reasoning Beyond Labels: Measuring LLM Sentiment in Low-Resource, Culturally Nuanced Contexts
- arxiv url: http://arxiv.org/abs/2508.04199v1
- Date: Wed, 06 Aug 2025 08:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.628545
- Title: Reasoning Beyond Labels: Measuring LLM Sentiment in Low-Resource, Culturally Nuanced Contexts
- Title(参考訳): ラベルを超えた推論:低リソースで文化に根ざしたコンテキストにおけるLCM感度の測定
- Authors: Millicent Ochieng, Anja Thieme, Ignatius Ezeani, Risa Ueno, Samuel Maina, Keshet Ronen, Javier Gonzalez, Jacki O'Neill,
- Abstract要約: 本稿では、感情を文脈に依存し、文化的に埋め込まれた構成として扱う枠組みを提案する。
我々は,大言語モデル(LLM)が,ナイロビの若手健康グループからのWhatsAppメッセージの感情にどのような影響を与えるかを評価する。
- 参考スコア(独自算出の注目度): 10.492471013369782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentiment analysis in low-resource, culturally nuanced contexts challenges conventional NLP approaches that assume fixed labels and universal affective expressions. We present a diagnostic framework that treats sentiment as a context-dependent, culturally embedded construct, and evaluate how large language models (LLMs) reason about sentiment in informal, code-mixed WhatsApp messages from Nairobi youth health groups. Using a combination of human-annotated data, sentiment-flipped counterfactuals, and rubric-based explanation evaluation, we probe LLM interpretability, robustness, and alignment with human reasoning. Framing our evaluation through a social-science measurement lens, we operationalize and interrogate LLMs outputs as an instrument for measuring the abstract concept of sentiment. Our findings reveal significant variation in model reasoning quality, with top-tier LLMs demonstrating interpretive stability, while open models often falter under ambiguity or sentiment shifts. This work highlights the need for culturally sensitive, reasoning-aware AI evaluation in complex, real-world communication.
- Abstract(参考訳): 低リソースで文化的にニュアンスのある文脈における知覚分析は、固定ラベルと普遍的な感情表現を仮定する従来のNLPアプローチに挑戦する。
我々は,感情を文脈に依存し,文化的に組み込まれた構成として扱う診断枠組みを提案し,ナイロビの若者健康グループによる,非公式かつコード混在のWhatsAppメッセージにおいて,感情に対する大きな言語モデル(LLM)が感情をどう判断するかを評価する。
人間の注釈付きデータ,感傷的反事実,およびルーブリックに基づく説明評価の組み合わせを用いて,LLMの解釈可能性,頑健性,人間推論との整合性を検討した。
社会科学測定レンズを用いて評価を行い, 感情の抽象的な概念を計測する手段として, LLMのアウトプットを運用し, 疑問視する。
LLMは解釈安定性を示すが,オープンモデルはあいまいさや感情の変化に悩まされることが多い。
この研究は、複雑な実世界のコミュニケーションにおいて、文化的に敏感で推論を意識したAI評価の必要性を強調している。
関連論文リスト
- How LLMs Comprehend Temporal Meaning in Narratives: A Case Study in Cognitive Evaluation of LLMs [13.822169295436177]
本研究では,人文研究に用いられた物語において,大規模言語モデル(LLM)が言語的側面の時間的意味をどう扱うかを検討する。
以上の結果から,LLMは原型性に過度に依存し,相反する側面判断を生じ,側面から派生した因果推論に苦慮することが明らかとなった。
これらの結果は,LLMのプロセスの側面が人間と根本的に異なり,ロバストな物語理解が欠如していることを示唆している。
論文 参考訳(メタデータ) (2025-07-18T18:28:35Z) - Comparing LLM Text Annotation Skills: A Study on Human Rights Violations in Social Media Data [2.812898346527047]
本研究では,ロシア語とウクライナ語におけるソーシャルメディア投稿のゼロショットおよび少数ショットアノテーションに対する大規模言語モデル(LLM)の機能について検討した。
これらのモデルの有効性を評価するため、それらのアノテーションは、人間の二重注釈付きラベルのゴールドスタンダードセットと比較される。
この研究は、各モデルが示すエラーと不一致のユニークなパターンを探求し、その強み、制限、言語間適応性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-05-15T13:10:47Z) - Meaning Beyond Truth Conditions: Evaluating Discourse Level Understanding via Anaphora Accessibility [1.7985432767595741]
自然言語理解能力の階層構造を示す。
語彙レベルと文レベルでの理解の評価を超えて、談話レベルに移行することの重要性を論じる。
論文 参考訳(メタデータ) (2025-02-19T21:45:26Z) - Exploring Robustness of LLMs to Paraphrasing Based on Sociodemographic Factors [7.312170216336085]
我々は、SocialIQAデータセットを拡張して、社会デマログラフィー要因に基づく多様なパラフレーズセットを作成する。
人口統計に基づく言い回しが言語モデルの性能に大きな影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2025-01-14T17:50:06Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。