論文の概要: Feeling the Strength but Not the Source: Partial Introspection in LLMs
- arxiv url: http://arxiv.org/abs/2512.12411v1
- Date: Sat, 13 Dec 2025 17:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.250063
- Title: Feeling the Strength but Not the Source: Partial Introspection in LLMs
- Title(参考訳): LLMにおける部分検査
- Authors: Ely Hahami, Lavik Jain, Ishaan Sinha,
- Abstract要約: 人類学的な主張では、フロンティアモデルは時々、活性化方向として表される「概念」を検知し、名前を付けることができる。
われわれは、Meta-Llama-3.1-8B-Instruct上で、Arthropicのマルチターン「エマージェントイントロスペクション」の結果を再現する。
イントロスペクションは、非常に大きなモデルや有能なモデルに限らない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work from Anthropic claims that frontier models can sometimes detect and name injected "concepts" represented as activation directions. We test the robustness of these claims. First, we reproduce Anthropic's multi-turn "emergent introspection" result on Meta-Llama-3.1-8B-Instruct, finding that the model identifies and names the injected concept 20 percent of the time under Anthropic's original pipeline, exactly matching their reported numbers and thus showing that introspection is not exclusive to very large or capable models. Second, we systematically vary the inference prompt and find that introspection is fragile: performance collapses on closely related tasks such as multiple-choice identification of the injected concept or different prompts of binary discrimination of whether a concept was injected at all. Third, we identify a contrasting regime of partial introspection: the same model can reliably classify the strength of the coefficient of a normalized injected concept vector (as weak / moderate / strong / very strong) with up to 70 percent accuracy, far above the 25 percent chance baseline. Together, these results provide more evidence for Anthropic's claim that language models effectively compute a function of their baseline, internal representations during introspection; however, these self-reports about those representations are narrow and prompt-sensitive. Our code is available at https://github.com/elyhahami18/CS2881-Introspection.
- Abstract(参考訳): アントロピックによる最近の研究は、フロンティアモデルが時に活性化方向を表す「概念」を検知し、名前を付けることができると主張している。
これらの主張の堅牢性をテストする。
まず,マルチターンイントロスペクションの結果をMeta-Llama-3.1-8B-Instructに再現し,インジェクトされた概念の20%をArthropicの元々のパイプラインで同定し,その数値を正確に一致させ,イントロスペクションが非常に大きなモデルや有能なモデルに限らないことを示す。
第二に、インジェクションプロンプトを体系的に変更し、インスペクションが脆弱であることを見出す: インジェクションされた概念の多重選択識別や、全くインジェクションされたかどうかのバイナリ識別の異なるプロンプトなど、密接に関連するタスクのパフォーマンスが崩壊する。
第三に、対立する部分的イントロスペクションの状況を特定する:同じモデルは、正規化された射出概念ベクトル(弱/中/強/強/強)の係数の強さを、最大70%の精度で確実に分類することができる。
これらの結果は、言語モデルがイントロスペクション中のベースライン、内部表現の関数を効果的に計算する、というアントロピックの主張を裏付けるものであるが、これらの表現に関するこれらの自己報告は狭く、即効性がある。
私たちのコードはhttps://github.com/elyhahami18/CS2881-Introspectionで公開されています。
関連論文リスト
- Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。
自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。
以上の結果から, SDE 動態下での反実的推論が可能となった。
論文 参考訳(メタデータ) (2025-06-05T16:02:07Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Concept Incongruence: An Exploration of Time and Death in Role Playing [20.847291173760567]
我々は、概念的矛盾の下でモデル行動を定義し、分析する第一歩を踏み出します。
非ロールプレイ設定と比較して、モデルが死亡後に停止せず、精度低下に悩まされることが示される。
論文 参考訳(メタデータ) (2025-05-20T20:59:59Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - GAPX: Generalized Autoregressive Paraphrase-Identification X [24.331570697458954]
このパフォーマンス低下の主な原因は、ネガティブな例によって導入されたバイアスである。
我々は、推論中にどれだけの重量を与えるべきかを効果的に、かつ自動的に決定できるパープレキシティーに基づくアウト・オブ・ディストリビューション・メトリックを導入する。
論文 参考訳(メタデータ) (2022-10-05T01:23:52Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z) - Contrastive Reasoning in Neural Networks [26.65337569468343]
因果クラス依存性を識別する機能に基づいて構築された推論は、フィードフォワード推論と呼ばれる。
本稿では,コントラスト推論の構造を形式化し,ニューラルネットワークのコントラスト概念を抽出する手法を提案する。
平均精度の3.47%、2.56%、5.48%の改善を報告することにより、歪み下での対比認識の価値を実証する。
論文 参考訳(メタデータ) (2021-03-23T05:54:36Z) - Dependency Decomposition and a Reject Option for Explainable Models [4.94950858749529]
近年のディープラーニングモデルは様々な推論タスクにおいて非常によく機能する。
最近の進歩は特徴を視覚化し、入力の属性を記述する方法を提供します。
本稿では, 目的の画像分類出力に対する確率分布に関する依存性を初めて解析する。
論文 参考訳(メタデータ) (2020-12-11T17:39:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。