論文の概要: An Information-Geometric Framework for Stability Analysis of Large Language Models under Entropic Stress
- arxiv url: http://arxiv.org/abs/2604.24076v1
- Date: Mon, 27 Apr 2026 06:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.763124
- Title: An Information-Geometric Framework for Stability Analysis of Large Language Models under Entropic Stress
- Title(参考訳): エントロピーストレス下における大規模言語モデルの安定性解析のための情報幾何学的枠組み
- Authors: Hikmat Karimov, Rahid Zahid Alekberli,
- Abstract要約: 本研究では,大規模言語モデル(LLM)の安定性を解析するための熱力学的モデルフレームワークを提案する。
量量を物理変数として解釈するのではなく、その定式化は、モデル行動に対する障害の影響を内部構造がどのように調節するかを捉える解釈可能な抽象化として意図されている。
この研究の貢献は、統一評価レンズ内の不確実性、性能、内部構造を接続するコンパクトで解釈可能なモデリングの観点である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed in high-stakes and operational settings, evaluation strategies based solely on aggregate accuracy are often insucient to characterize system reliability. This study proposes a thermodynamic inspired modeling framework for analyzing the stability of LLM outputs under conditions of uncertainty and perturbation. The framework introduces a composite stability score that integrates task utility, entropy as a measure of external uncertainty, and two internal structural proxies: internal integration and aligned reective capacity. Rather than interpreting these quantities as physical variables, the formulation is intended as an interpretable abstraction that captures how internal structure may modulate the impact of disorder on model behavior. Using the IST-20 benchmarking protocol and associated metadata, we analyze 80 modelscenario observations across four contemporary LLMs. The proposed formulation consistently yields higher stability scores than a reduced utilityentropy baseline, with a mean improvement of 0.0299 (95% CI: 0.02470.0351). The observed gain is more pronounced under higher entropy conditions, suggesting that the framework captures a form of nonlinear attenuation of uncertainty. We do not claim a fundamental physical law or a complete theory of machine ethics. Instead, the contribution of this work is a compact and interpretable modeling perspective that connects uncertainty, performance, and internal structure within a unied evaluation lens. The framework is intended to complement existing benchmarking approaches and to support ongoing discussions in AI safety, reliability, and governance.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、ハイテイクおよび運用環境でのデプロイが増えているため、集約精度のみに基づく評価戦略は、システムの信頼性を特徴付けるためにしばしば実践される。
本研究では,不確実性と摂動条件下でのLCM出力の安定性を解析するための熱力学的モデルフレームワークを提案する。
このフレームワークは、タスクユーティリティとエントロピーを外部の不確実性の尺度として統合する複合安定性スコアと、2つの内部構造的プロキシ、すなわち内部積分と整列回帰能力を導入している。
これらの量を物理変数として解釈するのではなく、その定式化は、モデル行動に対する障害の影響を内部構造がどのように調節するかを捉える解釈可能な抽象化として意図されている。
IST-20ベンチマークプロトコルとメタデータを用いて,同時代の4つのLLMの80のモデルセノリオ観測を解析した。
提案された定式化は、平均的な 0.0299 (95% CI: 0.02470.0351) の改善とともに、実用エントロピーベースラインの減少よりも高い安定性のスコアを得る。
観測された利得は、より高いエントロピー条件下でより顕著であり、このフレームワークは不確実性の非線形減衰の形式を捉えていることを示唆している。
我々は、基本的な物理法則や機械倫理の完全な理論を主張していない。
代わりに、この研究の貢献は、不確実性、性能、内部構造を統一評価レンズ内で接続するコンパクトで解釈可能なモデリングの観点である。
このフレームワークは、既存のベンチマークアプローチを補完し、AIの安全性、信頼性、ガバナンスに関する継続的な議論をサポートすることを意図している。
関連論文リスト
- Beyond Surface Statistics: Robust Conformal Prediction for LLMs via Internal Representations [36.24681446361556]
本稿では,内部表現を用いた質問応答のためのコンフォメーション・フレームワークを提案する。
本手法は,強いテキストレベルベースラインよりも高い妥当性-効率トレードオフを実現する。
これらの結果から,内部表現は分布シフトの下で表面レベルの不確かさが不安定である場合に,より情報的な整合性スコアを与える可能性が示唆された。
論文 参考訳(メタデータ) (2026-04-17T16:28:31Z) - Stable Reasoning, Unstable Responses: Mitigating LLM Deception via Stability Asymmetry [19.669339224904277]
決定的なリスクは本質的な詐欺であり、モデルがユーザを戦略的に誤解させ、自身の目的を達成させる。
CoT監視に基づく既存のアライメントアプローチは、明確な推論トレースを監督する。
本稿では,この分布非対称性を正規化する新たなアライメント目標である安定非対称性正規化(SAR)を提案する。
論文 参考訳(メタデータ) (2026-03-27T09:47:57Z) - Equivariant Evidential Deep Learning for Interatomic Potentials [55.6997213490859]
不確かさの定量化は、分子動力学シミュレーションにおける機械学習の原子間ポテンシャルの信頼性を評価するために重要である。
既存のMLIPのUQアプローチは、高い計算コストや準最適性能によって制限されることが多い。
我々は,原子間ポテンシャルの定量的深層学習(texte2$IP)を提案する。
論文 参考訳(メタデータ) (2026-02-11T02:00:25Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Trust in One Round: Confidence Estimation for Large Language Models via Structural Signals [13.89434979851652]
大規模言語モデル(LLM)は、エラーが社会的、科学的、安全コストの高い領域にますます展開されている。
本稿では,出力の正確性を予測する単一パスモデル依存フレームワークであるStructure Confidenceを提案する。
論文 参考訳(メタデータ) (2026-02-01T02:35:59Z) - Stability as a Liability:Systematic Breakdown of Linguistic Structure in LLMs [5.96875296117642]
安定なパラメータトラジェクトリが定常解を導出し、経験的分布へのKLの分岐を最小化することを示す。
制御されたフィードバックベースのトレーニングフレームワークを用いて,この効果を実証的に検証する。
これは、最適化の安定性と生成的表現性は本質的に一致していないことを示し、安定性のみが生成的品質の指標として不十分であることを示している。
論文 参考訳(メタデータ) (2026-01-26T15:34:50Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Mechanistic Interpretability as Statistical Estimation: A Variance Analysis of EAP-IG [10.620784202716404]
我々は,回路探索などの解釈可能性の手法を統計的推定器とみなすべきであると論じている。
本稿では,最先端回路探索手法であるEAP-IGの系統的安定性解析を行う。
論文 参考訳(メタデータ) (2025-10-01T12:55:34Z) - Tuning for Trustworthiness -- Balancing Performance and Explanation Consistency in Neural Network Optimization [49.567092222782435]
我々は,異なる特徴帰属法間の合意として定義された,XAI整合性という新しい概念を紹介する。
予測性能と説明のバランスをとる多目的最適化フレームワークを構築した。
本研究は、トレードオフゾーンバランス性能損失とXAI整合性による強靭性向上のモデルについて、今後の研究基盤を提供する。
論文 参考訳(メタデータ) (2025-05-12T13:19:14Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。