論文の概要: Microsaccade-Inspired Probing: Positional Encoding Perturbations Reveal LLM Misbehaviours
- arxiv url: http://arxiv.org/abs/2510.01288v1
- Date: Wed, 01 Oct 2025 01:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.792786
- Title: Microsaccade-Inspired Probing: Positional Encoding Perturbations Reveal LLM Misbehaviours
- Title(参考訳): マイクロサケードにインスパイアされた探究:位置エンコード摂動がLLMの悪影響を調査
- Authors: Rui Melo, Rui Abreu, Corina S. Pasareanu,
- Abstract要約: 我々は、人間の知覚の隠れたダイナミクスを明らかにする小さな不随意眼球運動であるマイクロサケードからインスピレーションを得ている。
大規模言語モデル(LLM)の類似した探索法を提案する。
本手法では、微調整やタスク固有の監視は必要とせず、多様な設定で障害を検出する。
- 参考スコア(独自算出の注目度): 5.465971544087648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We draw inspiration from microsaccades, tiny involuntary eye movements that reveal hidden dynamics of human perception, to propose an analogous probing method for large language models (LLMs). Just as microsaccades expose subtle but informative shifts in vision, we show that lightweight position encoding perturbations elicit latent signals that indicate model misbehaviour. Our method requires no fine-tuning or task-specific supervision, yet detects failures across diverse settings including factuality, safety, toxicity, and backdoor attacks. Experiments on multiple state-of-the-art LLMs demonstrate that these perturbation-based probes surface misbehaviours while remaining computationally efficient. These findings suggest that pretrained LLMs already encode the internal evidence needed to flag their own failures, and that microsaccade-inspired interventions provide a pathway for detecting and mitigating undesirable behaviours.
- Abstract(参考訳): 我々は、人間の知覚の隠れたダイナミクスを明らかにする小さな不随意眼球運動であるマイクロサケードからインスピレーションを得て、大規模言語モデル(LLM)の類似した探索法を提案する。
マイクロサケードが視覚の微妙だが情報的な変化を露呈するのと同じように、摂動を符号化する軽量な位置は、モデルの誤動作を示す潜伏信号を引き起こす。
本手法では, 微調整やタスク固有の監視は必要としないが, 事実, 安全性, 毒性, バックドア攻撃など, さまざまな状況で障害を検出する。
複数の最先端のLSMの実験では、これらの摂動に基づくプローブが計算効率を保ちながら表面の誤動作を示す。
これらの結果は、事前訓練されたLSMが、自己の失敗を通知するために必要な内部証拠をすでにエンコードしており、マイクロサケードにインスパイアされた介入が、望ましくない行動を検知し緩和する経路を提供することを示唆している。
関連論文リスト
- Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering [83.63437999696954]
大規模言語モデル(MLLM)における幻覚は、ビデオ領域において重要かつ未適応な課題として持続する。
本稿では,幻覚に敏感なモジュールを適応的に識別し,操作するビデオLLMのための時間認識型アクティベーションエンジニアリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:12:06Z) - Seeing What's Not There: Spurious Correlation in Multimodal LLMs [47.651861502104715]
我々は,人間の監督なしに刺激的な視覚的手がかりを自動的に識別するパイプラインであるSpurLensを紹介した。
MLLM(Multimodal Large Language Models)において,スプリアス相関が2つの大きな障害モードを引き起こすことが明らかとなった。
相関関係の持続性を明らかにすることにより,MLLMの信頼性を高めるため,より厳密な評価手法と緩和戦略が求められた。
論文 参考訳(メタデータ) (2025-03-11T20:53:00Z) - Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - LLMScan: Causal Scan for LLM Misbehavior Detection [12.411972858200594]
大規模言語モデル(LLM)は、非現実的でバイアスがあり、有害な応答を生成する。
この研究は、因果解析に基づく革新的なモニタリング技術であるLLMScanを導入している。
論文 参考訳(メタデータ) (2024-10-22T02:27:57Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。