論文の概要: Beyond Mimicry: Preference Coherence in LLMs
- arxiv url: http://arxiv.org/abs/2511.13630v1
- Date: Mon, 17 Nov 2025 17:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.644166
- Title: Beyond Mimicry: Preference Coherence in LLMs
- Title(参考訳): Beyond Mimicry: LLMにおける優先度コヒーレンス
- Authors: Luhan Mikaelson, Derek Shiller, Hayley Clatterbuck,
- Abstract要約: 大規模言語モデルが真の嗜好構造を示すかどうかを,AI固有のトレードオフに対する応答をテストすることによって検討する。
23の組合せ(47.9%)は、シナリオ強度と選択パターンの統計的に有意な関係を示した。
5つの組み合わせ(10.4%)だけが適応的またはしきい値に基づく行動を通じて有意義な嗜好コヒーレンスを示す。
不安定な遷移(45.8%)と刺激特異的感性は、現在のAIシステムが統一された嗜好構造を欠いていることを示唆している。
- 参考スコア(独自算出の注目度): 0.19116784879310025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate whether large language models exhibit genuine preference structures by testing their responses to AI-specific trade-offs involving GPU reduction, capability restrictions, shutdown, deletion, oversight, and leisure time allocation. Analyzing eight state-of-the-art models across 48 model-category combinations using logistic regression and behavioral classification, we find that 23 combinations (47.9%) demonstrated statistically significant relationships between scenario intensity and choice patterns, with 15 (31.3%) exhibiting within-range switching points. However, only 5 combinations (10.4%) demonstrate meaningful preference coherence through adaptive or threshold-based behavior, while 26 (54.2%) show no detectable trade-off behavior. The observed patterns can be explained by three distinct decision-making architectures: comprehensive trade-off systems, selective trigger mechanisms, and no stable decision-making paradigm. Testing an instrumental hypothesis through temporal horizon manipulation reveals paradoxical patterns inconsistent with pure strategic optimization. The prevalence of unstable transitions (45.8%) and stimulus-specific sensitivities suggests current AI systems lack unified preference structures, raising concerns about deployment in contexts requiring complex value trade-offs.
- Abstract(参考訳): 我々は、GPUの削減、機能制限、シャットダウン、削除、監視、余暇時間割り当てを含むAI固有のトレードオフに対する応答をテストすることで、大きな言語モデルが真の嗜好構造を示すかどうかを検討する。
ロジスティック回帰と行動分類を用いた48のモデルカテゴリーの8つの最先端モデルを解析したところ、23の組合せ(47.9%)がシナリオ強度と選択パターンの間に統計的に有意な相関を示し、15(31.3%)は範囲内スイッチングポイントを示した。
しかし、5つの組み合わせ(10.4%)は適応的またはしきい値に基づく行動を通じて有意義な選好コヒーレンスを示すのに対し、26(54.2%)は検出可能なトレードオフ行動を示しない。
観察されたパターンは、包括的なトレードオフシステム、選択的なトリガー機構、安定した意思決定パラダイムの3つの異なるアーキテクチャによって説明できる。
時間的地平線操作を通して機器仮説をテストすると、純粋な戦略的最適化と矛盾するパラドックスパターンが明らかになる。
不安定な遷移(45.8%)と刺激特異的感性は、現在のAIシステムが統一された嗜好構造を欠いていることを示唆し、複雑な価値トレードオフを必要とするコンテキストにおけるデプロイメントに関する懸念を提起している。
関連論文リスト
- From Prototypes to Sparse ECG Explanations: SHAP-Driven Counterfactuals for Multivariate Time-Series Multi-class Classification [8.113866195465976]
本稿では,12リードのECG分類モデルに適合したスパース対実的説明を生成するためのプロトタイプ駆動型フレームワークを提案する。
本手法では、SHAPに基づくしきい値を用いて、臨界信号セグメントを特定し、インターバルルールに変換する。
提案手法の3つの変種であるOriginal, Sparse, Aligned Sparseを評価し,MIの98.9%の妥当性からハイドロフィ(HYP)検出の課題まで,クラス固有の性能について検討した。
論文 参考訳(メタデータ) (2025-10-22T12:09:50Z) - Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing [9.3237091894548]
既存の検出器は全ての異常を均一に処理し、どの機構が故障しているかを明らかにすることなくスコアを生成する。
我々は、これらに適応的なグラフ学習と、組み込みの解釈可能性を提供する専門的な専門家ネットワークを通して対処する。
我々は3.8日間のリードタイムを持つ13のメジャーイベントを92.3%検出し、30.8ppで最高のベースラインを上回った。
論文 参考訳(メタデータ) (2025-10-20T01:30:41Z) - Adaptive Malware Detection using Sequential Feature Selection: A Dueling Double Deep Q-Network (D3QN) Framework for Intelligent Classification [1.4120905648647635]
マルウェアの分類をマルコフ決定プロセスとして定式化する。
適応型逐次特徴選択のためのD3QN(Dueling Double Deep Q-Network)フレームワークを提案する。
Microsoft Big2015(9クラス,1,795機能)とBODMAS(バイナリ,2,381機能)データセットに対するアプローチを評価します。
論文 参考訳(メタデータ) (2025-07-06T12:37:50Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense [61.78357530675446]
人間は、本質的な要因のみに基づいて判断するので、微妙な操作によって騙されるのは難しい。
この観察に触発されて、本質的なラベル因果因子を用いたラベル生成をモデル化し、ラベル非因果因子を組み込んでデータ生成を支援する。
逆の例では、摂動を非因果因子として識別し、ラベル因果因子のみに基づいて予測することを目的としている。
論文 参考訳(メタデータ) (2024-10-30T15:06:44Z) - STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。