論文の概要: Noise-Response Calibration: A Causal Intervention Protocol for LLM-Judges
- arxiv url: http://arxiv.org/abs/2603.17172v1
- Date: Tue, 17 Mar 2026 22:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.418012
- Title: Noise-Response Calibration: A Causal Intervention Protocol for LLM-Judges
- Title(参考訳): 騒音応答校正: LLM-Judges における因果干渉プロトコル
- Authors: Maxim Khomiakov, Jes Frellsen,
- Abstract要約: 大規模言語モデル (LLMs) は、自動判断器や合成ラベル装置としてますます使われている。
制御された入力介入に基づく実用的なキャリブレーションプロトコルを提案する。
我々は、繰り返し試行錯誤による斜面ベースの仮説テストでこれを運用する。
- 参考スコア(独自算出の注目度): 7.061518504123362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used as automated judges and synthetic labelers, especially in low-label settings. Yet these systems are stochastic and often overconfident, which makes deployment decisions difficult when external ground truth is limited. We propose a practical calibration protocol based on controlled input interventions: if noise severity increases, task performance should exhibit a statistically significant deterioration trend. We operationalize this with a slope-based hypothesis test over repeated trials, using signal-to-noise-ratio (SNR) perturbations for tabular data and lexical perturbations for text data. Across UCI tabular benchmarks and four text classification datasets, we find clear modality-dependent behavior. Our results reveal a modality gap: while text-based judges degrade predictably, the majority of tabular datasets show a lack of statistically significant performance deterioration even under significant signal-to-noise reduction. Interestingly we find that model performance is lower on datasets that are insensitive to noise interventions. We present a reproducible methodology and reporting protocol for robust LLM-judge calibration under distribution shift.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に低ラベル設定において、自動化された判断器や合成ラベリングとして使われることが多い。
しかし、これらのシステムは確率的であり、しばしば過信されるため、外的根拠の真実が制限された場合、デプロイメントの決定が困難になる。
制御された入力介入に基づく実用的なキャリブレーションプロトコルを提案する。ノイズ重大度が増加すると、タスク性能は統計的に顕著な劣化傾向を示す。
本研究では, グラフデータに対する信号対雑音比(SNR)摂動, テキストデータに対する語彙摂動を用いて, 繰り返し試行錯誤実験によりこれを運用する。
UCIの表式ベンチマークと4つのテキスト分類データセットを通して、明らかなモダリティに依存した振る舞いを見出す。
テキストベースの判断は、予測的に劣化するが、表形式のデータセットの大部分は、有意な信号対雑音の低減の下でも、統計的に有意な性能劣化の欠如を示している。
興味深いことに、ノイズ介入に敏感なデータセットでは、モデルのパフォーマンスが低いことが分かりました。
本稿では,分散シフト下でのLCM-judgeキャリブレーションのための再現可能な手法と報告プロトコルを提案する。
関連論文リスト
- NCSAM Noise-Compensated Sharpness-Aware Minimization for Noisy Label Learning [5.810900591128541]
本稿では,損失景観の平坦度とラベルノイズの有無の関係を理論的に解析する。
シャープネス認識最小化(SAM)の摂動を利用してラベルノイズの損傷を軽減するためのノイズ補償シャープネス認識最小化(NCSAM)を提案する。
論文 参考訳(メタデータ) (2026-01-24T11:10:29Z) - Hard vs. Noise: Resolving Hard-Noisy Sample Confusion in Recommender Systems via Large Language Models [4.7341002297388295]
トレーニングレコメンデータシステムで使用される暗黙のフィードバックは、ミスクリックや位置バイアスといった要因によって、避けられないほどノイズに直面する。
従来の研究では、より高い損失値などの分散したデータパターンを通じてノイズのあるサンプルを識別しようと試みてきた。
ノイズのあるサンプルと硬いサンプルが類似したパターンを呈し,ノイズの多い混乱問題を引き起こした。
論文 参考訳(メタデータ) (2025-11-10T16:51:03Z) - Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Systematic analysis of the impact of label noise correction on ML
Fairness [0.0]
偏りのあるデータセットで学習したモデルの公平性を確保するため,ラベルノイズ補正手法の有効性を実証的に評価する手法を開発した。
その結果,ハイブリッドラベル雑音補正法は,予測性能と公平性との最良のトレードオフを実現することが示唆された。
論文 参考訳(メタデータ) (2023-06-28T08:08:14Z) - Open-set Label Noise Can Improve Robustness Against Inherent Label Noise [27.885927200376386]
オープンセットノイズラベルは非毒性であり, 固有ノイズラベルに対するロバスト性にも寄与することを示した。
本研究では,動的雑音ラベル(ODNL)を用いたオープンセットサンプルをトレーニングに導入することで,シンプルかつ効果的な正規化を提案する。
論文 参考訳(メタデータ) (2021-06-21T07:15:50Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。