論文の概要: Sparse Neurons Carry Strong Signals of Question Ambiguity in LLMs
- arxiv url: http://arxiv.org/abs/2509.13664v1
- Date: Wed, 17 Sep 2025 03:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.70485
- Title: Sparse Neurons Carry Strong Signals of Question Ambiguity in LLMs
- Title(参考訳): LLMにおける問合せの強いシグナルを伝達するスパースニューロン
- Authors: Zhuoxuan Zhang, Jinhao Duan, Edward Kim, Kaidi Xu,
- Abstract要約: 我々は,大言語モデル(LLM)の内部表現に不明瞭さが線形に符号化されていることを示す。
我々は,LLMが質問あいまいさのコンパクトな内部表現を形成し,解釈可能かつ制御可能な振る舞いを可能にすることを示す。
- 参考スコア(独自算出の注目度): 23.900061215331338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ambiguity is pervasive in real-world questions, yet large language models (LLMs) often respond with confident answers rather than seeking clarification. In this work, we show that question ambiguity is linearly encoded in the internal representations of LLMs and can be both detected and controlled at the neuron level. During the model's pre-filling stage, we identify that a small number of neurons, as few as one, encode question ambiguity information. Probes trained on these Ambiguity-Encoding Neurons (AENs) achieve strong performance on ambiguity detection and generalize across datasets, outperforming prompting-based and representation-based baselines. Layerwise analysis reveals that AENs emerge from shallow layers, suggesting early encoding of ambiguity signals in the model's processing pipeline. Finally, we show that through manipulating AENs, we can control LLM's behavior from direct answering to abstention. Our findings reveal that LLMs form compact internal representations of question ambiguity, enabling interpretable and controllable behavior.
- Abstract(参考訳): 曖昧さは現実世界の質問では広まっていますが、大きな言語モデル(LLM)は明確化を求めるのではなく、自信を持って答えます。
本研究では,LLMの内部表現に不明瞭さが線形に符号化されており,ニューロンレベルでも検出・制御可能であることを示す。
モデルの事前充足段階において、少数のニューロンが、わずか1つで、問合せのあいまいさ情報を符号化していると同定する。
これらのAmbiguity-Encoding Neurons(AEN)に基づいてトレーニングされたプローブは、あいまいさの検出とデータセット間の一般化において強力なパフォーマンスを実現し、プロンプトベースのベースラインと表現ベースのベースラインよりも優れています。
レイヤワイズ分析により、AENは浅い層から出現し、モデルの処理パイプラインにおけるあいまいな信号の早期エンコーディングが示唆される。
最後に, AENを操作することで, LLMの振舞いを, 直接応答から棄却まで制御できることを示す。
この結果から,LLMは質問のあいまいさをコンパクトに表現し,解釈可能かつ制御可能な動作を可能にすることがわかった。
関連論文リスト
- When Truthful Representations Flip Under Deceptive Instructions? [28.51629358895544]
大規模言語モデル(LLM)は、偽りの応答を生成するために悪意のある命令に従う傾向がある。
知覚的命令は、真理に富んだ命令と比較してLLMの内部表現を変化させる。
我々の分析は、指示された不当さの階層的および特徴レベルの相関をピンポイントで示す。
論文 参考訳(メタデータ) (2025-07-29T18:27:13Z) - HalluShift: Measuring Distribution Shifts towards Hallucination Detection in LLMs [14.005452985740849]
大規模言語モデル(LLM)は、最近、与えられたプロンプトに対する革新的な応答を生成できるため、広く注目を集めている。
本研究では,LLMの内部動態から幻覚が生じると仮定する。
本研究では,内部状態空間における分布変化を解析するための革新的アプローチであるHaluShiftを導入する。
論文 参考訳(メタデータ) (2025-04-13T08:35:22Z) - Emergent Symbol-like Number Variables in Artificial Neural Networks [34.388552536773034]
単純化されたシンボリックアルゴリズム(SA)のレンズを用いて生のNN活性を解釈できることが示される。
我々はDASフレームワークをより広範なアライメント関数のクラスに拡張し、SAからの解釈可能な変数の観点からNNアクティビティをより柔軟にキャプチャする。
繰り返しモデルでは, 神経活動において, 次数的, 記号的数変数が生成できることが示されている。
論文 参考訳(メタデータ) (2025-01-10T18:03:46Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - The Curious Case of Hallucinatory (Un)answerability: Finding Truths in
the Hidden States of Over-Confident Large Language Models [46.990141872509476]
本研究では,大言語モデル (LLM) の問合せ時の動作について検討する。
この結果から,入力クエリの応答性を符号化したモデルが強く示唆され,最初の復号化トークンの表現が強い指標であることが示唆された。
論文 参考訳(メタデータ) (2023-10-18T11:01:09Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models [124.90671698586249]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。