論文の概要: LLMs vs. Traditional Sentiment Tools in Psychology: An Evaluation on Belgian-Dutch Narratives
- arxiv url: http://arxiv.org/abs/2511.07641v1
- Date: Wed, 12 Nov 2025 01:08:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.408782
- Title: LLMs vs. Traditional Sentiment Tools in Psychology: An Evaluation on Belgian-Dutch Narratives
- Title(参考訳): 心理学におけるLLM vs. 伝統的な感覚ツール : ベルギー・オランダのナラティブによる評価
- Authors: Ratna Kandala, Katie Hoemann,
- Abstract要約: 大規模言語モデル(LLM)はコンテキスト理解の強化を約束する。
オランダ固有の3つのLLMをLIWCとPatternと比較した。
驚くべきことに、建築の進歩にもかかわらず、オランダ製のLLMは従来の手法に比べて性能が劣っていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding emotional nuances in everyday language is crucial for computational linguistics and emotion research. While traditional lexicon-based tools like LIWC and Pattern have served as foundational instruments, Large Language Models (LLMs) promise enhanced context understanding. We evaluated three Dutch-specific LLMs (ChocoLlama-8B-Instruct, Reynaerde-7B-chat, and GEITje-7B-ultra) against LIWC and Pattern for valence prediction in Flemish, a low-resource language variant. Our dataset comprised approximately 25000 spontaneous textual responses from 102 Dutch-speaking participants, each providing narratives about their current experiences with self-assessed valence ratings (-50 to +50). Surprisingly, despite architectural advancements, the Dutch-tuned LLMs underperformed compared to traditional methods, with Pattern showing superior performance. These findings challenge assumptions about LLM superiority in sentiment analysis tasks and highlight the complexity of capturing emotional valence in spontaneous, real-world narratives. Our results underscore the need for developing culturally and linguistically tailored evaluation frameworks for low-resource language variants, while questioning whether current LLM fine-tuning approaches adequately address the nuanced emotional expressions found in everyday language use.
- Abstract(参考訳): 日常言語における感情のニュアンスを理解することは、計算言語学や感情研究に不可欠である。
LIWCやPatternといった従来の辞書ベースのツールは基本的な道具として機能する一方で、LLM(Large Language Models)はコンテキスト理解の強化を約束している。
オランダ固有のLLM(ChocoLlama-8B-Instruct, Reynaerde-7B-chat, GEITje-7B-ultra)をLIWC, Pattern for valence prediction in Flemish, a low-resource language variantに対して評価した。
本データセットは,オランダ語話者102名による約25,000の自発的テキスト応答からなり,それぞれが自己評価値(-50~+50)を用いた現在の経験について語り出した。
驚くべきことに、アーキテクチャの進歩にもかかわらず、オランダ製のLLMは従来の手法に比べて性能が劣り、Patternは優れた性能を示した。
これらの知見は、感情分析タスクにおけるLLMの優越性に関する仮定に挑戦し、自然界の物語における感情的価値を捉える複雑さを強調した。
本研究は,LLMの微調整手法が日常の言語使用における感情表現の曖昧さに適切に対処するかどうかを問うとともに,低リソース言語変種に対する文化的・言語学的に調整された評価フレームワークの開発の必要性を強調した。
関連論文リスト
- Are Lexicon-Based Tools Still the Gold Standard for Valence Analysis in Low-Resource Flemish? [0.0]
LIWCやPatternといった従来のレキシコンベースのツールは、長い間この領域の基本的な道具として機能してきた。
オランダ語話者102名を対象に,まず約25,000件のテキスト応答について検討した。
オランダ固有の3つのLLMの性能評価を行い, LIWCとPatternで生成した値と比較した。
本研究は,自然言語使用の複雑さを包括的に扱える,文化的・言語学的にカスタマイズされたモデル・ツールの開発に不可欠であることを示す。
論文 参考訳(メタデータ) (2025-06-04T16:31:37Z) - Comparing LLM Text Annotation Skills: A Study on Human Rights Violations in Social Media Data [2.812898346527047]
本研究では,ロシア語とウクライナ語におけるソーシャルメディア投稿のゼロショットおよび少数ショットアノテーションに対する大規模言語モデル(LLM)の機能について検討した。
これらのモデルの有効性を評価するため、それらのアノテーションは、人間の二重注釈付きラベルのゴールドスタンダードセットと比較される。
この研究は、各モデルが示すエラーと不一致のユニークなパターンを探求し、その強み、制限、言語間適応性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-05-15T13:10:47Z) - Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Pragmatic Competence Evaluation of Large Language Models for the Korean Language [0.6757476692230009]
本研究では,Large Language Models (LLMs) が,特に韓国語における実践的視点から,文脈依存表現をいかによく理解しているかを評価する。
自動評価にはMultiple-Choice Questions(MCQ)と、専門家によるOEQ(Open-Ended Questions)の両方を用いる。
論文 参考訳(メタデータ) (2024-03-19T12:21:20Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Spoken Language Intelligence of Large Language Models for Language Learning [3.1964044595140217]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文 参考訳(メタデータ) (2023-08-28T12:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。