論文の概要: LLM Performance Predictors: Learning When to Escalate in Hybrid Human-AI Moderation Systems
- arxiv url: http://arxiv.org/abs/2601.07006v1
- Date: Sun, 11 Jan 2026 17:46:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.113014
- Title: LLM Performance Predictors: Learning When to Escalate in Hybrid Human-AI Moderation Systems
- Title(参考訳): LLM性能予測器:ハイブリッドAIモデレーションシステムでいつエスカレートするかを学ぶ
- Authors: Or Bachar, Or Levi, Sardhendu Mishra, Adi Levi, Manpreet Singh Minhas, Justin Miller, Omer Ben-Porat, Eilon Sheetrit, Jonathan Morra,
- Abstract要約: 本稿では,コンテンツモデレーションシステムにおける不確実性定量化の監視のためのフレームワークを提案する。
提案手法は,実世界のヒューマンAIにおいて,コストアウェアの選択的分類を可能にする。
この研究は、不確実性を認識し、スケーラブルで責任あるヒューマンAIモデレーションのための原則化されたフレームワークを確立する。
- 参考スコア(独自算出の注目度): 5.7001352660257005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLMs are increasingly integrated into human-in-the-loop content moderation systems, a central challenge is deciding when their outputs can be trusted versus when escalation for human review is preferable. We propose a novel framework for supervised LLM uncertainty quantification, learning a dedicated meta-model based on LLM Performance Predictors (LPPs) derived from LLM outputs: log-probabilities, entropy, and novel uncertainty attribution indicators. We demonstrate that our method enables cost-aware selective classification in real-world human-AI workflows: escalating high-risk cases while automating the rest. Experiments across state-of-the-art LLMs, including both off-the-shelf (Gemini, GPT) and open-source (Llama, Qwen), on multimodal and multilingual moderation tasks, show significant improvements over existing uncertainty estimators in accuracy-cost trade-offs. Beyond uncertainty estimation, the LPPs enhance explainability by providing new insights into failure conditions (e.g., ambiguous content vs. under-specified policy). This work establishes a principled framework for uncertainty-aware, scalable, and responsible human-AI moderation workflows.
- Abstract(参考訳): LLMはますますヒューマン・イン・ザ・ループ・コンテント・モデレーション・システムに統合されているため、アウトプットがいつ信頼できるのか、人間レビューのエスカレーションが望ましいのか、という課題が中心となる。
本稿では,LLM出力から派生したLPPに基づくメタモデル(対数確率,エントロピー,新規不確実性属性指標)を学習する。
提案手法は,リスクの高いケースをエスカレートし,残りを自動化した実世界のヒューマンAIワークフローにおいて,コストアウェアの選択的分類を可能にすることを実証する。
オフザシェルフ(Gemini, GPT)とオープンソース(Llama, Qwen)の両方を含む最先端LLMのマルチモーダルおよび多言語モデレーションタスクにおける実験は、精度-コストトレードオフにおける既存の不確実性推定器よりも大幅に改善されている。
不確実性の推定以外にも、LPPは障害条件(例えば、不明瞭な内容と不明確でないポリシー)に対する新たな洞察を提供することで、説明可能性を高める。
この作業は、不確実性を認識し、スケーラブルで責任あるヒューマン-AIモデレーションワークフローのための、原則化されたフレームワークを確立する。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Evaluating LLM-Contaminated Crowdsourcing Data Without Ground Truth [18.069595635842557]
クラウドソーシングワーカーによる大規模言語モデル(LLM)は、人間の入力を反映するデータセットに挑戦する。
LLMの共謀を考慮に入れたクラウドソーシングモデルの下で,理論的保証付き学習自由スコアリング機構を提案する。
論文 参考訳(メタデータ) (2025-06-08T04:38:39Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Unlocking the Power of LLM Uncertainty for Active In-Context Example Selection [6.813733517894384]
Uncertainty Tripartite Testing Paradigm (Unc-TTP)は、LLM(Large Language Models)を分類する新しい手法である。
Unc-TTPは、異なるラベル注入干渉下で3ラウンドのサンプリングを行い、全ての可能な結果を列挙する。
本実験は,Unc-TTPを用いて選択した不確実性例が確実性例よりも有益であることを示す。
論文 参考訳(メタデータ) (2024-08-17T11:33:23Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach [6.209293868095268]
LLMにおける不確実性推定と校正の問題について検討する。
LLMの応答の不確かさを推定するためにラベル付きデータセットを利用する教師付きアプローチを提案する。
本手法は,ブラックボックス,グレイボックス,ホワイトボックスなど,モデルアクセシビリティの異なるレベルに適応し,実装が容易である。
論文 参考訳(メタデータ) (2024-04-24T17:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。