論文の概要: Towards Consistent Detection of Cognitive Distortions: LLM-Based Annotation and Dataset-Agnostic Evaluation
- arxiv url: http://arxiv.org/abs/2511.01482v1
- Date: Mon, 03 Nov 2025 11:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.244739
- Title: Towards Consistent Detection of Cognitive Distortions: LLM-Based Annotation and Dataset-Agnostic Evaluation
- Title(参考訳): 認知歪みの連続検出に向けて:LLMに基づくアノテーションとデータセット非依存評価
- Authors: Neha Sharma, Navneet Agarwal, Kairit Sirts,
- Abstract要約: テキストに基づく自動認知歪み検出は、主観的な性質のため難しい課題である。
一貫性のある信頼性のあるアノテータとしてLarge Language Models (LLM)の使用について検討する。
- 参考スコア(独自算出の注目度): 2.699704259580951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based automated Cognitive Distortion detection is a challenging task due to its subjective nature, with low agreement scores observed even among expert human annotators, leading to unreliable annotations. We explore the use of Large Language Models (LLMs) as consistent and reliable annotators, and propose that multiple independent LLM runs can reveal stable labeling patterns despite the inherent subjectivity of the task. Furthermore, to fairly compare models trained on datasets with different characteristics, we introduce a dataset-agnostic evaluation framework using Cohen's kappa as an effect size measure. This methodology allows for fair cross-dataset and cross-study comparisons where traditional metrics like F1 score fall short. Our results show that GPT-4 can produce consistent annotations (Fleiss's Kappa = 0.78), resulting in improved test set performance for models trained on these annotations compared to those trained on human-labeled data. Our findings suggest that LLMs can offer a scalable and internally consistent alternative for generating training data that supports strong downstream performance in subjective NLP tasks.
- Abstract(参考訳): テキストベースの自動認知歪み検出は、その主観的な性質から難しい課題であり、専門家のアノテータの間でも低い合意スコアが観察され、信頼性の低いアノテーションへと繋がる。
本稿では,Large Language Models (LLM) を一貫性のあるアノテータとして使用することを検討するとともに,複数の独立したLDM実行が,タスク固有の主観性に関わらず安定したラベリングパターンを明らかにすることを提案する。
さらに、異なる特徴を持つデータセットでトレーニングされたモデルと同等に比較するために、CohenのKappaをエフェクトサイズ尺度として用いたデータセットに依存しない評価フレームワークを導入する。
この方法論は、F1スコアのような従来のメトリクスが不足している、公平なクロスデータセットとクロススタディの比較を可能にする。
その結果,GPT-4は一貫性のあるアノテーションを生成することができる(FleissのKappa = 0.78)。
LLMは、主観的NLPタスクにおいて、強力なダウンストリーム性能をサポートするトレーニングデータを生成するための、スケーラブルで内部的に一貫した代替手段を提供することができることを示唆している。
関連論文リスト
- Improving Preference Extraction In LLMs By Identifying Latent Knowledge Through Classifying Probes [20.20764453136706]
大規模言語モデル(LLM)は、しばしばテキストを評価するために自動判断器として使用される。
本稿では,2つのプロンプト間の差異を利用して学習した線形分類プローブを用いて,潜在知識にアクセスし,より正確な選好を抽出する手法を提案する。
論文 参考訳(メタデータ) (2025-03-22T12:35:25Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Learning Confident Classifiers in the Presence of Label Noise [5.551384206194696]
本稿では,ノイズ観測のための確率論的モデルを提案し,信頼性の高い分類とセグメンテーションモデルの構築を可能にする。
実験により,本アルゴリズムは,検討された分類問題と分割問題に対して,最先端の解よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-01-02T04:27:25Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。