論文の概要: Reliable Annotations with Less Effort: Evaluating LLM-Human Collaboration in Search Clarifications
- arxiv url: http://arxiv.org/abs/2507.00543v1
- Date: Tue, 01 Jul 2025 08:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.532819
- Title: Reliable Annotations with Less Effort: Evaluating LLM-Human Collaboration in Search Clarifications
- Title(参考訳): LLM-Human共同作業の評価
- Authors: Leila Tavakoli, Hamed Zamani,
- Abstract要約: 本研究は,高品質な多次元データセットを活用した探索明確化作業のためのアノテーションに焦点を当てた。
最新のモデルでさえ、主観的またはきめ細かい評価タスクにおいて、人間レベルのパフォーマンスを再現するのに苦労していることを示す。
本稿では,信頼しきい値とモデル間不一致を利用して人間レビューを選択的に含む,シンプルで効果的なHuman-in-the-loop(HITL)ワークフローを提案する。
- 参考スコア(独自算出の注目度): 21.698669254520475
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite growing interest in using large language models (LLMs) to automate annotation, their effectiveness in complex, nuanced, and multi-dimensional labelling tasks remains relatively underexplored. This study focuses on annotation for the search clarification task, leveraging a high-quality, multi-dimensional dataset that includes five distinct fine-grained annotation subtasks. Although LLMs have shown impressive capabilities in general settings, our study reveals that even state-of-the-art models struggle to replicate human-level performance in subjective or fine-grained evaluation tasks. Through a systematic assessment, we demonstrate that LLM predictions are often inconsistent, poorly calibrated, and highly sensitive to prompt variations. To address these limitations, we propose a simple yet effective human-in-the-loop (HITL) workflow that uses confidence thresholds and inter-model disagreement to selectively involve human review. Our findings show that this lightweight intervention significantly improves annotation reliability while reducing human effort by up to 45%, offering a relatively scalable and cost-effective yet accurate path forward for deploying LLMs in real-world evaluation settings.
- Abstract(参考訳): アノテーションの自動化に大規模言語モデル(LLM)を使うことへの関心が高まりつつあるが、複雑な、ニュアンス付き、多次元ラベリングタスクの有効性はいまだに未熟である。
本研究は,5つの異なる微粒化アノテーションサブタスクを含む,高品質な多次元データセットを活用する検索明確化タスクのためのアノテーションに焦点を当てた。
LLMは、一般的な環境では印象的な機能を示しているが、最新のモデルでさえ、主観的またはきめ細かい評価タスクにおいて、人間レベルのパフォーマンスを再現するのに苦労している。
系統的な評価により,LLM予測は不整合であり,校正が不十分で,迅速な変動に非常に敏感であることが示された。
これらの制約に対処するために、信頼度閾値とモデル間不一致を利用して人間レビューを選択的に含める、シンプルで効果的なHuman-in-the-loop(HITL)ワークフローを提案する。
この軽量な介入は、人間の労力を最大45%削減しつつ、アノテーションの信頼性を著しく向上させ、LLMを実際の評価環境に展開する上で、比較的スケーラブルでコスト効率のよい正確な経路を提供する。
関連論文リスト
- Evaluating LLM-corrupted Crowdsourcing Data Without Ground Truth [21.672923905771576]
クラウドソーシングワーカーによる大規模言語モデル(LLM)は、人間の入力を反映するデータセットに挑戦する。
LLMの共謀を考慮に入れたクラウドソーシングモデルの下で,理論的保証付き学習自由スコアリング機構を提案する。
論文 参考訳(メタデータ) (2025-06-08T04:38:39Z) - Your Weak LLM is Secretly a Strong Teacher for Alignment [19.33906256866585]
既存のアライメントフレームワークは、高価な人的労力または高い計算コストの形で制約を提示します。
本稿では,上位層モデルよりも資源集約度が低い弱いLLMを用いた,有望な中間層を探索する。
弱いLLMは、完全に注釈付けされたデータに匹敵する、あるいは超えるフィードバックを提供することができる。
論文 参考訳(メタデータ) (2024-09-13T13:24:52Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment [9.156064716689833]
本研究は, 評価の信頼性を確保しつつ, LLMの性能に関する詳細な知見を提供する。
我々は、GPT-4、Qwen2.5-72B、Llama-3.2-3Bを含む、クローズドソースとオープンソースの両方のLLMを選択する。
その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。
しかし、LPMには、GPT-4やQwen2.5-72Bの語彙パラフレージングとの戦いに見られるような制限がある。
論文 参考訳(メタデータ) (2024-03-08T00:19:24Z) - Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。