論文の概要: Internal Flow Signatures for Self-Checking and Refinement in LLMs
- arxiv url: http://arxiv.org/abs/2602.01897v1
- Date: Mon, 02 Feb 2026 10:05:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.060577
- Title: Internal Flow Signatures for Self-Checking and Refinement in LLMs
- Title(参考訳): LLMにおける自己チェッキング・リファインメントのための内部フローシグナチャ
- Authors: Sungheon Jeong, Sanggeon Yun, Ryozo Masukawa, Wenjun Haung, Hanning Chen, Mohsen Imani,
- Abstract要約: 固定されたブロック間監視境界における深さ方向のダイナミックスから決定生成を監査するエンフェナールフローシグネチャを導入する。
この手法はバイアス中心の監視によりトークンワイズ動作を安定化し、その後、コンパクトな読み出し整列部分空間の軌跡を要約する。
これらのシグネチャに基づいて訓練された軽量GRU検証器は、ベースモデルを変更することなく自己チェックを行う。
- 参考スコア(独自算出の注目度): 8.540143367732949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models can generate fluent answers that are unfaithful to the provided context, while many safeguards rely on external verification or a separate judge after generation. We introduce \emph{internal flow signatures} that audit decision formation from depthwise dynamics at a fixed inter-block monitoring boundary. The method stabilizes token-wise motion via bias-centered monitoring, then summarizes trajectories in compact \emph{moving} readout-aligned subspaces constructed from the top token and its close competitors within each depth window. Neighboring window frames are aligned by an orthogonal transport, yielding depth-comparable transported step lengths, turning angles, and subspace drift summaries that are invariant to within-window basis choices. A lightweight GRU validator trained on these signatures performs self-checking without modifying the base model. Beyond detection, the validator localizes a culprit depth event and enables a targeted refinement: the model rolls back to the culprit token and clamps an abnormal transported step at the identified block while preserving the orthogonal residual. The resulting pipeline provides actionable localization and low-overhead self-checking from internal decision dynamics. \emph{Code is available at} \texttt{github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs}.
- Abstract(参考訳): 大規模言語モデルは、提供された文脈に反する流動的な回答を生成することができるが、多くのセーフガードは、生成後の外部検証や独立した判断に依存している。
固定されたブロック間監視境界における深さ方向のダイナミックスから決定生成を監査する「emph{internal flow signatures」を導入する。
この手法は、バイアス中心の監視によりトークンワイズ動作を安定化し、各深度ウィンドウ内のトップトークンとその近接競合から構築されたコンパクトな 'emph{moving}readout-aligned subspaces にトラジェクトリを要約する。
隣接する窓枠は直交輸送により整列され、窓内ベース選択に不変な深さ対応の搬送ステップ長、回転角、サブスペースドリフトサマリーが得られる。
これらのシグネチャに基づいて訓練された軽量GRU検証器は、ベースモデルを変更することなく自己チェックを行う。
検出の他に、バリケータは、犯人の深度イベントをローカライズし、ターゲットの洗練を可能にする。モデルは、犯人のトークンにロールバックし、直交残差を保ちながら、特定ブロックで異常に輸送されたステップをクランプする。
結果として得られるパイプラインは、動作可能なローカライゼーションと、内部決定ダイナミクスによる低オーバヘッド自己チェックを提供する。
emph{Code は \texttt{github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs} で利用可能である。
関連論文リスト
- Reasoning Stabilization Point: A Training-Time Signal for Stable Evidence and Shortcut Reliance [0.0]
我々は、固定されたプローブ集合上の正規化トークン属性におけるエポック・ツー・エポックな変化として説明ドリフトを定義する。
RSPは内部のドリフトダイナミクスから計算され、アウト・オブ・ディストリビューションデータのチューニングは不要である。
論文 参考訳(メタデータ) (2026-01-12T17:48:05Z) - TIE: A Training-Inversion-Exclusion Framework for Visually Interpretable and Uncertainty-Guided Out-of-Distribution Detection [11.599035626374409]
ディープニューラルネットワークは、入力がトレーニング経験外にあることを認識するのに苦労することが多い。
視覚的・不確実性誘導型異常検出のためのトレーニング--Inversion--Exclusion フレームワーク textbfTIE を提案する。
論文 参考訳(メタデータ) (2025-11-28T22:06:01Z) - BlockCert: Certified Blockwise Extraction of Transformer Mechanisms [0.0]
本稿では,トランス機構のブロックワイズ抽出のためのフレームワークであるBlockCertを紹介する。
我々は、これらの局所的な保証をグローバルな偏差境界まで引き上げる単純なリプシッツに基づく合成定理をLean 4で定式化します。
以上の結果から,明示的な証明を用いたブロックワイズ抽出は,実際のトランスフォーマー言語モデルで実現可能であることが示唆された。
論文 参考訳(メタデータ) (2025-11-20T06:04:34Z) - PIXEL: Adaptive Steering Via Position-wise Injection with eXact Estimated Levels under Subspace Calibration [17.225716209866086]
ウェブ上での大規模言語モデル(LLM)のための位置対応型アクティベーションステアリングフレームワークを提案する。
PIXELは2つのビューからプロパティ整列部分空間を学習し、制約された幾何学的目的を通して介入強度を選択する。
PIXELは、モデル一般機能を維持しながら、属性アライメントを一貫して改善する。
論文 参考訳(メタデータ) (2025-10-11T13:13:34Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - LoRA-BAM: Input Filtering for Fine-tuned LLMs via Boxed Abstraction Monitors over LoRA Layers [3.674863913115432]
微調整された大きな言語モデル(LLM)は、ドメイン固有のタスクのパフォーマンスを改善するが、過度に適合する可能性があるため、アウト・オブ・ディストリビューション(OoD)クエリでは信頼性が低い。
ボックス化された抽象化を用いて,OoD検出モニタをLoRA層に追加し,モデルの能力を超えた質問をフィルタリングする手法であるLoRA-BAMを提案する。
論文 参考訳(メタデータ) (2025-06-01T12:58:32Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Self-Supervised 3D Scene Flow Estimation and Motion Prediction using
Local Rigidity Prior [100.98123802027847]
点群における3次元シーンフロー推定とクラス非依存動作予測について検討した。
我々は,一方向の剛性動作推定により,自己教師型学習のための擬似シーンフローラベルを生成する。
本手法は,自己監督型シーンフロー学習における最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-17T14:06:55Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。