論文の概要: The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI
- arxiv url: http://arxiv.org/abs/2602.17127v1
- Date: Thu, 19 Feb 2026 06:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.798379
- Title: The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI
- Title(参考訳): ラボ駆動アライメントシグナチャの出現--ジェネレーティブAIにおける潜伏バイアスと複合リスクの聴取のための心理学的枠組み
- Authors: Dusan Bosnjakovic,
- Abstract要約: 本稿では,不確実性の下での潜在特性推定を定量化する新しい監査フレームワークを提案する。
この研究は最適化バイアス、Sycophancy、Status-Quo Legitimizationを含む9つの次元にわたる主要なモデルを監査している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) transition from standalone chat interfaces to foundational reasoning layers in multi-agent systems and recursive evaluation loops (LLM-as-a-judge), the detection of durable, provider-level behavioral signatures becomes a critical requirement for safety and governance. Traditional benchmarks measure transient task accuracy but fail to capture stable, latent response policies -- the ``prevailing mindsets'' embedded during training and alignment that outlive individual model versions. This paper introduces a novel auditing framework that utilizes psychometric measurement theory -- specifically latent trait estimation under ordinal uncertainty -- to quantify these tendencies without relying on ground-truth labels. Utilizing forced-choice ordinal vignettes masked by semantically orthogonal decoys and governed by cryptographic permutation-invariance, the research audits nine leading models across dimensions including Optimization Bias, Sycophancy, and Status-Quo Legitimization. Using Mixed Linear Models (MixedLM) and Intraclass Correlation Coefficient (ICC) analysis, the research identifies that while item-level framing drives high variance, a persistent ``lab signal'' accounts for significant behavioral clustering. These findings demonstrate that in ``locked-in'' provider ecosystems, latent biases are not merely static errors but compounding variables that risk creating recursive ideological echo chambers in multi-layered AI architectures.
- Abstract(参考訳): 大規模言語モデル(LLM)がスタンドアロンのチャットインターフェースからマルチエージェントシステムの基本的推論層、再帰的評価ループ(LLM-as-a-judge)へと移行するにつれ、永続的でプロバイダレベルの行動シグネチャの検出は、安全とガバナンスにとって重要な要件となる。
従来のベンチマークでは, 個人モデルバージョンを超越したトレーニングやアライメントにおいて, 安定的で潜伏的な応答ポリシである「事前マインドセット」を捉えることができず, 日常的不確実性の下での心理的測定理論(特に潜伏特性推定)を利用して, 地平線ラベルを頼らずにこれらの傾向を定量化する, 新たな監査フレームワークを導入している。
意味論的直交のデコイによって隠蔽され、暗号的な置換不変性によって支配される強制選択順序のヴィグネットを用いて、この研究は最適化バイアス、サイコフィナンシー、ステータス・クオ・レジティミゼーションを含む9つの次元にわたる主要なモデルを監査する。
混合線形モデル (MixedLM) とクラス内相関係数 (ICC) 分析を用いて、アイテムレベルのフレーミングが高分散を駆動する一方で、持続的な `lab signal'' が重要な行動クラスタリングを担っていることを明らかにした。
これらの結果は、'locked-in'プロバイダエコシステムでは、潜伏バイアスは単なる静的エラーではなく、多層AIアーキテクチャにおいて再帰的イデオロギーエコーチャンバーを生成するリスクのある変数を複雑化することを示している。
関連論文リスト
- Open-World Deepfake Attribution via Confidence-Aware Asymmetric Learning [78.92934995292113]
本稿では,既知の偽造と新規な偽造の信頼のバランスをとる,信頼を意識した非対称学習(CAL)フレームワークを提案する。
CALは従来手法を一貫して上回り、既知の偽造と新しい偽造の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-14T12:31:28Z) - Hierarchical biomarker thresholding: a model-agnostic framework for stability [0.0]
プールされたインスタンスに調整された閾値は、階層的依存、頻度シフト、スコアスケールのミスマッチによって、サイト全体で失敗することが多い。
患者レベルの決定を再現可能で、より確実にする階層的しきい値設定のための選択最善の枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-22T11:46:26Z) - Continuous Monitoring of Large-Scale Generative AI via Deterministic Knowledge Graph Structures [2.7277205894982095]
そこで本研究では,決定論的・大規模言語モデル(LLM)生成知識グラフ(KG)を用いて,AIの信頼性を計測する手法を提案する。
i) 明示的な規則に基づく手法,辞書,構造化エンティティ関係抽出規則を用いて構築された決定論的KGと,(ii) ライブニュース記事などのリアルタイムデータストリームから動的にLLM生成したKGの2つのKGを構築する。
Instantiated Class Ratio(ICR)、Instantiated Property Ratio(IPR)、Class Instantiation(CI)など、いくつかの確立されたKG指標を用いる。
論文 参考訳(メタデータ) (2025-09-04T03:34:49Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Dynamic Correlation Learning and Regularization for Multi-Label Confidence Calibration [60.95748658638956]
本稿では,多ラベルシナリオにおける信頼度を適切に評価することを目的としたマルチラベル信頼性タスクを提案する。
既存のシングルラベルキャリブレーション手法では、セマンティックな混乱に対処するために欠かせないカテゴリ相関を考慮できない。
本稿では,多粒度セマンティック相関を利用した動的相関学習と正規化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-09T13:26:21Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。