論文の概要: Evaluating LLM-corrupted Crowdsourcing Data Without Ground Truth
- arxiv url: http://arxiv.org/abs/2506.06991v1
- Date: Sun, 08 Jun 2025 04:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.606071
- Title: Evaluating LLM-corrupted Crowdsourcing Data Without Ground Truth
- Title(参考訳): 地中真実を伴わないLLM崩壊クラウドソーシングデータの評価
- Authors: Yichi Zhang, Jinlong Pang, Zhaowei Zhu, Yang Liu,
- Abstract要約: クラウドソーシングワーカーによる大規模言語モデル(LLM)は、人間の入力を反映するデータセットに挑戦する。
LLMの共謀を考慮に入れたクラウドソーシングモデルの下で,理論的保証付き学習自由スコアリング機構を提案する。
- 参考スコア(独自算出の注目度): 21.672923905771576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of generative AI highlights the crucial role of high-quality human feedback in building trustworthy AI systems. However, the increasing use of large language models (LLMs) by crowdsourcing workers poses a significant challenge: datasets intended to reflect human input may be compromised by LLM-generated responses. Existing LLM detection approaches often rely on high-dimension training data such as text, making them unsuitable for annotation tasks like multiple-choice labeling. In this work, we investigate the potential of peer prediction -- a mechanism that evaluates the information within workers' responses without using ground truth -- to mitigate LLM-assisted cheating in crowdsourcing with a focus on annotation tasks. Our approach quantifies the correlations between worker answers while conditioning on (a subset of) LLM-generated labels available to the requester. Building on prior research, we propose a training-free scoring mechanism with theoretical guarantees under a crowdsourcing model that accounts for LLM collusion. We establish conditions under which our method is effective and empirically demonstrate its robustness in detecting low-effort cheating on real-world crowdsourcing datasets.
- Abstract(参考訳): 最近のジェネレーティブAIの成功は、信頼できるAIシステムを構築する上で、高品質な人間のフィードバックの重要な役割を強調している。
しかし、クラウドソーシングワーカーによる大規模言語モデル(LLM)の利用の増加は、人間の入力を反映するデータセットがLLM生成応答によって損なわれる可能性があり、大きな課題となっている。
既存のLLM検出アプローチはテキストのような高次元のトレーニングデータに依存することが多く、マルチチョイスラベリングのようなアノテーション処理には適さない。
本研究では,クラウドソーシングにおけるLCM支援の不正行為を,アノテーションタスクに焦点をあてて軽減するためのピア予測,すなわち,労働者の回答内の情報を評価するメカニズムについて検討する。
提案手法は,要求者に利用可能なLCM生成ラベルのサブセットを条件付けしながら,作業者の回答間の相関関係を定量化する。
先行研究に基づいて,LLMの共謀を考慮したクラウドソーシングモデルの下で,理論的保証を伴う学習自由スコアリング機構を提案する。
実世界のクラウドソーシングデータセット上での低効率な不正行為の検出において,本手法が有効かつ実証的にその堅牢性を示す条件を確立する。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Illuminating Blind Spots of Language Models with Targeted Agent-in-the-Loop Synthetic Data [9.982616173090264]
言語モデル(LM)は、様々なタスクにおいて顕著な精度を達成したが、高信頼の誤分類(UU)に弱いままである。
UUは機能領域の盲点にクラスタ化され、ハイリスクなアプリケーションに重大なリスクをもたらす。
知的エージェントを教師として利用し,UU型エラーを特徴付けることによって,盲点緩和に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T16:49:25Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use
Large Language Models for Text Production Tasks [12.723777984461693]
大型言語モデル(LLM)は注目すべきデータアノテータである。
クラウドソーシングは、人間のアノテーションを得るための重要で安価な方法であり、それ自体はLLMの影響を受けているかもしれない。
作業完了時には,33~46%がLLMを使用していた。
論文 参考訳(メタデータ) (2023-06-13T16:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。