論文の概要: The Stability Trap: Evaluating the Reliability of LLM-Based Instruction Adherence Auditing
- arxiv url: http://arxiv.org/abs/2601.11783v1
- Date: Fri, 16 Jan 2026 21:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.321927
- Title: The Stability Trap: Evaluating the Reliability of LLM-Based Instruction Adherence Auditing
- Title(参考訳): 安定トラップ:LCMに基づく指導適応監査の信頼性の評価
- Authors: Murtuza N. Shergadwala,
- Abstract要約: アプリケーション・アンダー・テスト(AUT)の指示型は、判断評価の安定性にどの程度影響しますか?
Scoped Instruction Decomposition Frameworkを導入し、AUT命令を客観型と主観型に分類し、判断の不安定性を誘導する要因を分離する。
以上の結果から,検証安定性と推論安定性の相違を特徴とする安定性トラップ'が明らかになった。
- 参考スコア(独自算出の注目度): 1.5954459915735735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The enterprise governance of Generative AI (GenAI) in regulated sectors, such as Human Resources (HR), demands scalable yet reproducible auditing mechanisms. While Large Language Model (LLM)-as-a-Judge approaches offer scalability, their reliability in evaluating adherence of different types of system instructions remains unverified. This study asks: To what extent does the instruction type of an Application Under Test (AUT) influence the stability of judge evaluations? To address this, we introduce the Scoped Instruction Decomposition Framework to classify AUT instructions into Objective and Subjective types, isolating the factors that drive judge instability. We applied this framework to two representative HR GenAI applications, evaluating the stability of four judge architectures over variable runs. Our results reveal a ``Stability Trap'' characterized by a divergence between Verdict Stability and Reasoning Stability. While judges achieved near-perfect verdict agreement ($>99\%$) for both objective and subjective evaluations, their accompanying justification traces diverged significantly. Objective instructions requiring quantitative analysis, such as word counting, exhibited reasoning stability as low as $\approx19\%$, driven by variances in numeric justifications. Similarly, reasoning stability for subjective instructions varied widely ($35\%$--$83\%$) based on evidence granularity, with feature-specific checks failing to reproduce consistent rationale. Conversely, objective instructions focusing on discrete entity extraction achieved high reasoning stability ($>90\%$). These findings demonstrate that high verdict stability can mask fragile reasoning. Thus, we suggest that auditors scope automated evaluation protocols strictly: delegate all deterministically verifiable logic to code, while reserving LLM judges for complex semantic evaluation.
- Abstract(参考訳): Human Resources(HR)のような規制された分野におけるGenerative AI(GenAI)のエンタープライズガバナンスは、スケーラブルで再現可能な監査メカニズムを要求する。
大規模言語モデル(LLM)-as-a-Judgeアプローチはスケーラビリティを提供するが、異なるタイプのシステム命令の適合性を評価する際の信頼性は検証されていない。
アプリケーション・アンダー・テスト(AUT)の指示型は、判断評価の安定性にどの程度影響しますか?
これを解決するために、AUT命令を目的型と主観型に分類するScoped Instruction Decomposition Frameworkを導入し、判断の不安定性を誘導する要因を分離する。
我々はこのフレームワークを2つの代表的HR GenAIアプリケーションに適用し、変数実行に対する4つの判断アーキテクチャの安定性を評価した。
以上の結果から,検証安定性と推論安定性の相違を特徴とする「安定性トラップ」が明らかになった。
審査員は客観的評価と主観的評価の両面でほぼ完全な評決契約(>99\%$)を成立させたが、それに伴う正当化の痕跡は著しく分散した。
単語の数え方のような定量的解析を必要とする客観的な指示は、推論安定性を$\approx19\%$と低くし、数値的な正当化のばらつきによって引き起こされた。
同様に、主観的な指示に対する推論の安定性は、証拠の粒度に基づいて大きく(35\%$--83\%$)変化し、特徴固有のチェックは一貫した合理性を再現しなかった。
逆に、離散的な実体抽出に焦点を当てた客観的な指示は高い推論安定性(>90\%$)を達成した。
これらの結果から,高い検証安定性は脆弱な推論を隠蔽する可能性が示唆された。
そこで, 監査者は, 決定論的に検証可能な全てのロジックをコードに委譲し, 複雑な意味評価のためにLLM審査員を留保する。
関連論文リスト
- A Comprehensive Evaluation of LLM Reasoning: From Single-Model to Multi-Agent Paradigms [20.241519889633285]
大規模言語モデル(LLM)は、推論パラダイムが重要な役割を果たす推論システムとして、ますます多くデプロイされている。
我々は、直接単モデル生成、CoT拡張単モデル推論、代表MASなど、推論パラダイムを包括的かつ統一的に評価する。
MIMeBenchは、2つの基本的な未探索セマンティック機能をターゲットにした新しいオープンエンドベンチマークである。
論文 参考訳(メタデータ) (2026-01-19T17:23:45Z) - RULERS: Locked Rubrics and Evidence-Anchored Scoring for Robust LLM Evaluation [15.787947727055611]
本稿では,自然言語ルーブを実行可能な仕様に変換するコンパイラ・エグゼクタフレームワークであるRULERSを紹介する。
RULERSは、基準をバージョニングされた不変バンドルにコンパイルし、決定論的証拠検証による構造化復号を強制し、軽量なワッサーシュタインベースのポストホックキャリブレーションを適用する。
論文 参考訳(メタデータ) (2026-01-13T15:31:42Z) - ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - SSR: Socratic Self-Refine for Large Language Model Reasoning [78.62319252287938]
Socratic Self-Refine (SSR)は、大規模言語モデル(LLM)のきめ細かい評価と精度向上のための新しいフレームワークである。
提案したSSRはモデル応答を検証可能な(サブクエスト,サブサブアンサー)ペアに分解し,ステップレベルの信頼度推定を可能にする。
5つの推論ベンチマークと3つのLCMによる実証的な結果から、SSRは一貫して最先端の反復的自己修正ベースラインを上回っていることが分かる。
論文 参考訳(メタデータ) (2025-11-13T18:47:07Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.879551933541345]
大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。
DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。
DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文 参考訳(メタデータ) (2025-03-11T15:29:55Z) - Debate, Deliberate, Decide (D3): A Cost-Aware Adversarial Framework for Reliable and Interpretable LLM Evaluation [0.0]
本稿では、役割特化エージェント間の構造的議論を組織化する、費用対効果のある多エージェントフレームワークであるDebate, Deliberate, Decide(D3)を紹介する。
我々は,反復的議論の下で信頼性と収束性を特徴付けるスコアギャップの確率論的モデルを開発する。
我々は,人間の判断に対する最先端の合意,匿名化による位置バイアスと冗長性バイアスの低減,そして,適切な費用対精度のフロンティアを示す。
論文 参考訳(メタデータ) (2024-10-07T00:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。