Fugu-MT 論文翻訳(概要): K$α$LOS finds Consensus: A Meta-Algorithm for Evaluating Inter-Annotator Agreement in Complex Vision Tasks

論文の概要: K$α$LOS finds Consensus: A Meta-Algorithm for Evaluating Inter-Annotator Agreement in Complex Vision Tasks

arxiv url: http://arxiv.org/abs/2603.27197v1
Date: Sat, 28 Mar 2026 08:54:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:44.843303
Title: K$α$LOS finds Consensus: A Meta-Algorithm for Evaluating Inter-Annotator Agreement in Complex Vision Tasks
Title（参考訳）: K$α$LOS finds Consensus: A Meta-Algorithm for Evaluating Inter-Annotator Agreement in Complex Vision Tasks
Authors: David Tschirschwitz, Volker Rodehorst,
Abstract要約: 本稿では,「ローカライゼーションファースト」の原理を一般化した統一メタアルゴリズムであるK$LOSを提案する。合意を査定する前に空間対応を解消することにより,複雑な分類問題を名目上の信頼性に変換する。
参考スコア（独自算出の注目度）: 4.297070083645049
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Progress in object detection benchmarks is stagnating. It is limited not by architectures but by the inability to distinguish model improvements from label noise. To restore trust in benchmarking the field requires rigorous quantification of annotation consistency to ensure the reliability of evaluation data. However, standard statistical metrics fail to handle the instance correspondence problem inherent to vision tasks. Furthermore, validating new agreement metrics remains circular because no objective ground truth for agreement exists. This forces reliance on unverifiable heuristics. We propose K$α$LOS (KALOS), a unified meta-algorithm that generalizes the "Localization First" principle to standardize dataset quality evaluation. By resolving spatial correspondence before assessing agreement, our framework transforms complex spatio-categorical problems into nominal reliability matrices. Unlike prior heuristic implementations, K$α$LOS employs a principled, data-driven configuration; by statistically calibrating the localization parameters to the inherent agreement distribution, it generalizes to diverse tasks ranging from bounding boxes to volumetric segmentation or pose estimation. This standardization enables granular diagnostics beyond a single score. These include annotator vitality, collaboration clustering, and localization sensitivity. To validate this approach, we introduce a novel and empirically derived noise generator. Where prior validations relied on uniform error assumptions, our controllable testbed models complex and non-isotropic human variability. This provides evidence of the metric's properties and establishes K$α$LOS as a robust standard for distinguishing signal from noise in modern computer vision benchmarks.
Abstract（参考訳）: オブジェクト検出ベンチマークの進歩は停滞している。アーキテクチャではなく、モデルの改善とラベルノイズを区別できないことによる制限がある。ベンチマークの信頼性を回復するためには、評価データの信頼性を確保するために、アノテーション一貫性の厳密な定量化が必要である。しかし、標準的な統計メトリクスは、視覚タスク固有のインスタンス対応問題に対処できない。さらに、合意のための客観的な根拠が存在しないため、新たな合意基準の検証は循環的のままである。この力は不可解なヒューリスティックに頼っている。 K$α$LOS (KALOS) は「ローカライゼーションファースト」の原理を一般化し、データセットの品質評価を標準化する統合メタアルゴリズムである。合意を査定する前に空間対応を解くことにより,複雑な空間カテゴリー問題から名目信頼性行列へと変換する。従来のヒューリスティックな実装とは異なり、K$α$LOSはデータ駆動構成を採用しており、局所化パラメータを固有合意分布に統計的に校正することで、境界ボックスからボリュームセグメンテーションやポーズ推定まで多様なタスクに一般化する。この標準化により、単一のスコアを超えた粒度の診断が可能になる。これには、アノテータの活力、コラボレーションクラスタリング、ローカライゼーション感度が含まれる。提案手法を実証するために, 新規かつ実験的に導出したノイズ発生装置を提案する。事前の検証は、一様誤差の仮定に依存するが、制御可能なテストベッドモデルは複雑で、非等方的ヒトの変動は複雑である。これは計量の性質の証拠となり、K$α$LOSを現代のコンピュータビジョンベンチマークで信号とノイズを区別するための堅牢な標準として確立している。

関連論文リスト

The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI [0.0]
本稿では,不確実性の下での潜在特性推定を定量化する新しい監査フレームワークを提案する。この研究は最適化バイアス、Sycophancy、Status-Quo Legitimizationを含む9つの次元にわたる主要なモデルを監査している。
論文参考訳（メタデータ） (2026-02-19T06:56:01Z)
Uncertainty in Federated Granger Causality: From Origins to Systemic Consequences [3.122408196953971]
Granger Causality (GC)は時系列データから因果構造を学ぶための厳密なフレームワークを提供する。フェデレーションGCアルゴリズムは因果関係を決定論的に推定し、不確実性を無視するのみである。本稿では,不確実性を厳密に定量化するための最初の手法を確立する。
論文参考訳（メタデータ） (2026-02-13T15:12:18Z)
Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection [105.14032334647932]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調している。 MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、オーバーフィットしがちな複雑なモデルベース法よりも実用的であることが多い。本稿では,2つのコンテキスト検出スコアの関係をモデル化したマルコフ情報を用いたスコアキャリブレーション手法を提案する。
論文参考訳（メタデータ） (2026-02-08T16:06:12Z)
CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。 LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文参考訳（メタデータ） (2026-02-04T00:12:30Z)
Distributional Shift-Aware Off-Policy Interval Estimation: A Unified Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文参考訳（メタデータ） (2023-09-23T06:35:44Z)
Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文参考訳（メタデータ） (2023-05-28T06:30:29Z)
Approximate Conditional Coverage via Neural Model Approximations [0.030458514384586396]
実験的に信頼性の高い近似条件付きカバレッジを得るためのデータ駆動手法を解析する。我々は、限界範囲のカバレッジ保証を持つ分割型代替案で、実質的な(そして、そうでない)アンダーカバーの可能性を実証する。
論文参考訳（メタデータ） (2022-05-28T02:59:05Z)
Exploiting Sample Uncertainty for Domain Adaptive Person Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文参考訳（メタデータ） (2020-12-16T04:09:04Z)
GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文参考訳（メタデータ） (2020-02-21T00:27:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。