論文の概要: A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks
- arxiv url: http://arxiv.org/abs/2508.02029v2
- Date: Sat, 16 Aug 2025 06:51:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.195955
- Title: A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks
- Title(参考訳): アクセシブル定性符号化タスクにおけるAI判断の校正のための信頼・多様性フレームワーク
- Authors: Zhilong Zhao, Yindi Liu,
- Abstract要約: 信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。
8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs enable qualitative coding at large scale, but assessing reliability remains challenging where human experts seldom agree. We investigate confidence-diversity calibration as a quality assessment framework for accessible coding tasks where LLMs already demonstrate strong performance but exhibit overconfidence. Analysing 5,680 coding decisions from eight state-of-the-art LLMs across ten categories, we find that mean self-confidence tracks inter-model agreement closely (Pearson r=0.82). Adding model diversity quantified as normalised Shannon entropy produces a dual signal explaining agreement almost completely (R-squared=0.979), though this high predictive power likely reflects task simplicity for current LLMs. The framework enables a three-tier workflow auto-accepting 35 percent of segments with less than 5 percent error, cutting manual effort by 65 percent. Cross-domain validation confirms transferability (kappa improvements of 0.20 to 0.78). While establishing a methodological foundation for AI judgement calibration, the true potential likely lies in more challenging scenarios where LLMs may demonstrate comparative advantages over human cognitive limitations.
- Abstract(参考訳): LLMは大規模に定性的なコーディングを可能にするが、人間の専門家がほとんど同意しない場合、信頼性を評価することは難しい。
LLMがすでに高い性能を示すが、過剰な自信を示すような、アクセス可能なコーディングタスクの品質評価フレームワークとしての信頼性多様性の校正について検討する。
10のカテゴリにわたる8つの最先端LCMから5,680のコーディング決定を分析すると、平均的な自信トラックはモデル間の合意を密接に追跡する(Pearson r=0.82)。
正規化されたシャノンエントロピーとして定量化されたモデルの多様性を追加すると、ほぼ完全に(R-squared=0.979)二重信号説明契約が生成されるが、この高い予測力は現在のLLMのタスク単純さを反映している可能性が高い。
このフレームワークは、5%未満のエラーでセグメントの35%を自動受け入れる3層ワークフローを可能にし、手作業の労力を65%削減する。
ドメイン間の検証は転送可能性を確認する(Kappaの改善は0.20から0.78)。
AI判断校正のための方法論的基礎を確立する一方で、本当の可能性は、LLMが人間の認知的限界に対して比較的な優位性を示すような、より困難なシナリオにある可能性がある。
関連論文リスト
- OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - The Confidence Paradox: Can LLM Know When It's Wrong [5.545086863155316]
倫理的に整合したDocVQAのための自己監督型正直校正フレームワークであるHonestVQAを紹介する。
本手法は,知識ギャップを同定するための不確実性を定量化し,重み付き損失関数を用いてモデル信頼度を実際の正しさと整合させ,対照的な学習を通じて倫理的応答行動を実施する。
実証的に、HoestVQAは、SpDocVQA、InfographicsVQA、SROIEデータセットでDocVQAの精度を最大4.3%、F1を4.3%向上させる。
論文 参考訳(メタデータ) (2025-06-30T02:06:54Z) - Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。
既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。
本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文 参考訳(メタデータ) (2025-06-07T21:23:00Z) - Localization Meets Uncertainty: Uncertainty-Aware Multi-Modal Localization [5.414146574747448]
本研究では、信頼できない3DoFのポーズ予測をフィルタリングするパーセンタイルに基づく拒絶戦略を導入する。
実験結果から, より厳密な不確実性しきい値を適用することにより, ポーズ精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-04-10T12:07:24Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。
提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文 参考訳(メタデータ) (2025-02-24T07:02:31Z) - CER: Confidence Enhanced Reasoning in LLMs [2.4392539322920763]
本稿では,大規模言語モデル応答の精度向上を目的とした不確実性認識フレームワークを提案する。
数理推論における数値結果や開領域生成における固有名詞などの中間回答の信頼度を定量化する。
その結果,新しい信頼度集計法の有効性を一貫して検証した。
論文 参考訳(メタデータ) (2025-02-20T15:16:42Z) - Probabilistic Consensus through Ensemble Validation: A Framework for LLM Reliability [0.0]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩を示しているが、自律的なデプロイメントに必要な信頼性を欠いていることが多い。
本稿では,モデルコンセンサスを通じて,コンテンツ検証のためのアンサンブル手法を再利用する新しいフレームワークを提案する。
事実の精度と因果一貫性を必要とする78症例を対象としたテストでは, 精度が73.1%から93.9%に向上した。
論文 参考訳(メタデータ) (2024-11-10T17:32:16Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。