論文の概要: LLMs as annotators of credibility assessment in Danish asylum decisions: evaluating classification performance and errors beyond aggregated metrics
- arxiv url: http://arxiv.org/abs/2605.13412v1
- Date: Wed, 13 May 2026 12:07:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.031928
- Title: LLMs as annotators of credibility assessment in Danish asylum decisions: evaluating classification performance and errors beyond aggregated metrics
- Title(参考訳): デンマークの亡命決定における信頼性評価のアノテータとしてのLLM--集約されたメトリクスを超えた分類性能とエラーの評価
- Authors: Galadrielle Humblot-Renaux, Mohammad N. S. Jahromi, Rohat Bakuri-Jørgensen, Marieke Anne Heyl, Asta S. Stage Jarlner, Maria Vlachou, Anna Murphy Høgenhaug, Desmond Elliott, Thomas Gammeltoft-Hansen, Thomas B. Moeslund,
- Abstract要約: オフザシェルフの大規模言語モデル(LLM)は、テキストアノテーションの自動化にますます利用されている。
デンマークのテキスト分類データセットであるRAB-Credを紹介した。
本研究は,21個のオープンウェイトモデルと30個のシステム・ユーザ・プロンプトの組み合わせをベンチマークし,ゼロショットと少数ショットの分類におけるモデルとプロンプトの選択の効果を体系的に評価する。
- 参考スコア(独自算出の注目度): 21.604030114864642
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Off-the-shelf large language models (LLMs) are increasingly used to automate text annotation, yet their effectiveness remains underexplored for underrepresented languages and specialized domains where the class definition requires subtle expert understanding. We investigate LLM-based annotation for a novel legal NLP task: identifying the presence and sentiment of credibility assessments in asylum decision texts. We introduce RAB-Cred, a Danish text classification dataset featuring high-quality, expert annotations and valuable metadata such as annotator confidence and asylum case outcome. We benchmark 21 open-weight models and 30 system-user prompt combinations for this task, and systematically evaluate the effect of model and prompt choice for zero-shot and few-shot classification. We zoom in on the errors made by top-performing models and prompts, investigating error consistency across LLMs, inter-class confusion, correlation with human confidence and sample-wise difficulty and severity of LLM mistakes. Our results confirm the potential of LLMs for cost-effective labeling of asylum decisions, but highlight the imperfect and inconsistent nature of LLM annotators, and the need to look beyond the predictions of a single, arbitrarily chosen model. The RAB-Cred dataset and code are available at https://github.com/glhr/RAB-Cred
- Abstract(参考訳): オフザシェルフの大規模言語モデル(LLM)は、テキストアノテーションの自動化にますます使用されているが、クラス定義が微妙な専門家の理解を必要とする未表現言語や専門ドメインでは、その有効性は未検討のままである。
LLMに基づく新たな法的NLPタスクのアノテーションについて検討する。
デンマークのテキスト分類データセットであるRAB-Credを紹介した。
本研究は,21個のオープンウェイトモデルと30個のシステム・ユーザ・プロンプトの組み合わせをベンチマークし,ゼロショットと少数ショットの分類におけるモデルとプロンプトの選択の効果を体系的に評価する。
我々は、トップパフォーマンスモデルとプロンプトによるエラーを拡大し、LLM間のエラー一貫性、クラス間混乱、人間の信頼との相関、LLMの誤りの標本的難易度、深刻度を調べた。
本研究は,LCMのアノテータの非完全かつ一貫性のない性質と,任意に選択された単一モデルの予測を超越した検討の必要性を明らかにするものである。
RAB-Credデータセットとコードはhttps://github.com/glhr/RAB-Credで公開されている。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - When LLMs Struggle: Reference-less Translation Evaluation for Low-resource Languages [9.138590152838754]
セグメントレベルの品質評価(QE)は言語間理解の難しい課題である。
ゼロ/フェーショットシナリオにおいて,大規模言語モデル (LLM) を包括的に評価する。
この結果から,エンコーダを用いた微調整QEモデルでは,プロンプトベースアプローチの方が優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-01-08T12:54:05Z) - Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance [28.524573212179124]
大きな言語モデル(LLM)は、アノテーションプロセスを強化する新しい機会を提供する。
合意、ラベルの品質、効率の観点から、専門家、クラウドソース、LLMベースのアノテーションを比較します。
以上の結果から,ラベルエラーがかなり多く,修正された場合,報告されたモデル性能が大幅に上向きに変化することが判明した。
論文 参考訳(メタデータ) (2024-10-24T16:27:03Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - Paraphrase and Aggregate with Large Language Models for Minimizing Intent Classification Errors [19.601600598570215]
大規模言語モデル(LLM)は,大規模な多クラス分類タスクにおいて高い性能を達成できるが,いまだに分類誤りを発生させ,さらに悪化させ,語彙外なクラスラベルを生成する。
本稿では、LLMが入力クエリ(並列クエリ)の複数のパラフレーズを生成するParaphrase and AGgregate (PAG)-LLMアプローチを提案する。
PAG-LLM は LLM が不確実なハードケースでは特に有効であり, 致命的誤分類と幻覚的ラベル生成誤差を低減させる。
論文 参考訳(メタデータ) (2024-06-24T22:30:26Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。