論文の概要: Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research
- arxiv url: http://arxiv.org/abs/2603.04897v1
- Date: Thu, 05 Mar 2026 07:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.122285
- Title: Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research
- Title(参考訳): LLMは専門家の不確かさを捉えることができるか? エスノグラフィー質的研究における価値アライメントの比較分析
- Authors: Arina Kostina, Marios Dikaiakos, Alejandro Porcel, Tassos Stassopoulos,
- Abstract要約: 長大な言語モデル(LLM)を,長大な面接で表される3つの人的価値を識別するタスクで評価する。
それらのアウトプットを専門家のアノテーションと比較し、専門家に対するパフォーマンスパターンと不確実性パターンの両方を分析します。
- 参考スコア(独自算出の注目度): 39.146761527401424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Qualitative analysis of open-ended interviews plays a central role in ethnographic and economic research by uncovering individuals' values, motivations, and culturally embedded financial behaviors. While large language models (LLMs) offer promising support for automating and enriching such interpretive work, their ability to produce nuanced, reliable interpretations under inherent task ambiguity remains unclear. In our work we evaluate LLMs on the task of identifying the top three human values expressed in long-form interviews based on the Schwartz Theory of Basic Values framework. We compare their outputs to expert annotations, analyzing both performance and uncertainty patterns relative to the experts. Results show that LLMs approach the human ceiling on set-based metrics (F1, Jaccard) but struggle to recover exact value rankings, as reflected in lower RBO scores. While the average Schwartz value distributions of most models closely match those of human analysts, their uncertainty structures across the Schwartz values diverge from expert uncertainty patterns. Among the evaluated models, Qwen performs closest to expert-level agreement and exhibits the strongest alignment with expert Schwartz value distributions. LLM ensemble methods yield consistent gains across metrics, with Majority Vote and Borda Count performing best. Notably, systematic overemphasis on certain Schwartz values, like Security, suggests both the potential of LLMs to provide complementary perspectives and the need to further investigate model-induced value biases. Overall, our findings highlight both the promise and the limitations of LLMs as collaborators in inherently ambiguous qualitative value analysis.
- Abstract(参考訳): オープンエンド面接の質的分析は、個人の価値観、モチベーション、文化的に埋め込まれた金融行動を明らかにすることによって、民族学および経済研究において中心的な役割を果たす。
大規模言語モデル(LLM)は、そのような解釈作業の自動化と強化に有望なサポートを提供するが、固有のタスクあいまいさの下で、曖昧で信頼性の高い解釈を生成する能力は、まだ不明である。
我々の研究では,Shwartz Theory of Basic Valuesフレームワークに基づいた,長文インタビューで表される3つの人的価値を識別する作業において,LLMを評価した。
それらのアウトプットを専門家のアノテーションと比較し、専門家に対するパフォーマンスパターンと不確実性パターンの両方を分析します。
その結果、LLMは設定基準(F1, Jaccard)の天井に近づくが、RBOの低いスコアに反映されるような正確な値ランキングの回復に苦慮していることがわかった。
ほとんどのモデルの平均シュワルツ値分布は人間のアナリストの値と密接に一致しているが、シュヴァルツ値全体の不確実性構造は専門家の不確実性パターンから分岐している。
評価されたモデルの中で、Qwenはエキスパートレベルの合意に最も近く、専門家のSchwartz値の分布と最強の一致を示す。
LLMアンサンブル法はメトリクス間で一貫した利得をもたらし、Majority Vote と Borda Count が最高である。
特に、セキュリティのような特定のシュワルツ値に対する体系的なオーバーエンハンシスは、補完的な視点を提供するLLMの可能性と、モデルによって引き起こされる値バイアスをさらに調査する必要性の両方を示唆している。
全体として,本研究は,LLMが本質的に曖昧な定性値解析において,共同作業者としての約束と限界の両方を浮き彫りにした。
関連論文リスト
- Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Evaluating Financial Sentiment Analysis with Annotators Instruction Assisted Prompting: Enhancing Contextual Interpretation and Stock Prediction Accuracy [1.481550828146527]
アノテータによるAIAP(Instruction Assisted Prompt)は、人間と機械の両方の解釈における感情の理解を標準化することを目的としている。
We use a new data, WSBS, derived from the WallStreetBets subreddit to demonstrate how AIAP significantly enhances LLM performance。
この文脈認識アプローチは、パフォーマンスの漸進的な向上をもたらし、また革新的な感情インデクシング手法も導入する。
論文 参考訳(メタデータ) (2025-05-09T19:44:04Z) - CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives [3.7931130268412194]
CLASHは345個のハイインパクトジレンマと3,795個の異なる値の個々の視点からなるデータセットである。
CLASHは、価値に基づく意思決定プロセスの批判的かつ未調査な側面の研究を可能にする。
GPT-5やClaude-4-Sonnetのような強力なプロプライエタリモデルでさえ、曖昧な決定に苦戦している。
論文 参考訳(メタデータ) (2025-04-15T02:54:16Z) - An Empirical Analysis of Uncertainty in Large Language Model Evaluations [28.297464655099034]
我々は2つの異なる評価条件で9つのLLM評価器を用いた実験を行った。
LLM評価器はモデルファミリやサイズによって様々な不確実性を示す。
推論やポストトレーニングのときでも、特別なプロンプト戦略を採用することで、評価の不確実性をある程度軽減できることがわかった。
論文 参考訳(メタデータ) (2025-02-15T07:45:20Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - The Generative AI Paradox on Evaluation: What It Can Solve, It May Not
Evaluate [17.77014177096838]
本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。
質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
論文 参考訳(メタデータ) (2024-02-09T06:16:08Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Enhancing Financial Sentiment Analysis via Retrieval Augmented Large
Language Models [11.154814189699735]
大規模な言語モデル (LLM) は様々なNLPタスクにおいて優れた性能を示した。
本稿では,金融感情分析のためのLLMフレームワークを提案する。
提案手法の精度は15%から48%向上し,F1得点を得た。
論文 参考訳(メタデータ) (2023-10-06T05:40:23Z) - Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models [53.620827459684094]
大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。
クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
論文 参考訳(メタデータ) (2023-10-01T03:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。