論文の概要: CBMAS: Cognitive Behavioral Modeling via Activation Steering
- arxiv url: http://arxiv.org/abs/2601.06109v1
- Date: Sat, 03 Jan 2026 13:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.578758
- Title: CBMAS: Cognitive Behavioral Modeling via Activation Steering
- Title(参考訳): CBMAS:アクティベーションステアリングによる認知行動モデリング
- Authors: Ahmed H. Ismail, Anthony Kuang, Ayo Akinkugbe, Kevin Zhu, Sean O'Brien,
- Abstract要約: 大規模言語モデル(LLM)は、しばしばプロンプト、レイヤ、コンテキスト間で予測不可能な認知行動を符号化する。
CBMASは, 連続的アクティベーションステアリングのための診断フレームワークである。
- 参考スコア(独自算出の注目度): 5.131778762865578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often encode cognitive behaviors unpredictably across prompts, layers, and contexts, making them difficult to diagnose and control. We present CBMAS, a diagnostic framework for continuous activation steering, which extends cognitive bias analysis from discrete before/after interventions to interpretable trajectories. By combining steering vector construction with dense α-sweeps, logit lens-based bias curves, and layer-site sensitivity analysis, our approach can reveal tipping points where small intervention strengths flip model behavior and show how steering effects evolve across layer depth. We argue that these continuous diagnostics offer a bridge between high-level behavioral evaluation and low-level representational dynamics, contributing to the cognitive interpretability of LLMs. Lastly, we provide a CLI and datasets for various cognitive behaviors at the project repository, https://github.com/shimamooo/CBMAS.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしばプロンプト、レイヤ、コンテキストにわたって予測不可能な認知行動を符号化し、診断と制御が困難になる。
CBMASは、認知バイアス分析を、個別の前後の介入から解釈可能な軌跡まで拡張する、連続的アクティベーションステアリングのための診断フレームワークである。
ステアリングベクトル構造を高密度α-スウィープ,ロジットレンズベースのバイアス曲線,および層間感度解析と組み合わせることで,小さな介入強度がモデル挙動を反転させるチップポイントを明らかにし,ステアリング効果が層深部にわたってどのように変化するかを示すことができる。
これらの連続診断は、高レベルの行動評価と低レベルの表現力学の橋渡しとなり、LCMの認知的解釈可能性に寄与する。
最後に、プロジェクトのリポジトリであるhttps://github.com/shimamooo/CBMASで、さまざまな認知行動のためのCLIとデータセットを提供します。
関連論文リスト
- Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering [33.3588824921581]
メタ認知的自己補正プロセスをシミュレートするトレーニングフリー推論フレームワークであるVision-Language Introspection (VLI)を導入する。
VLIは高度なモデルで最先端のパフォーマンスを実現し、MMHal-Benchではオブジェクト幻覚率を12.67%削減し、POPEでは精度を5.8%向上した。
論文 参考訳(メタデータ) (2026-01-08T17:49:13Z) - Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs [10.99947795031516]
大きな言語モデルは、その世代において暗黙の個性を示すが、特定のニーズを満たすためにこれらの特性を確実に制御または調整することは、未解決の課題である。
本稿では,大きな5つのパーソナリティ特性を用いて,変圧器層から隠れ状態のアクティベーションを抽出するパイプラインを提案する。
本研究により, 人格特性が低ランク共有部分空間を占有し, これらの潜在構造を有効操舵機構に変換できることが判明した。
論文 参考訳(メタデータ) (2025-10-29T05:56:39Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Fuzzy, Symbolic, and Contextual: Enhancing LLM Instruction via Cognitive Scaffolding [3.553493344868413]
本研究では,指導対話における大規模言語モデル(LLM)の認知行動に,素早いレベルの帰納的バイアスがどう影響するかを検討する。
本稿では,適応的,構造化された推論を促進するために,短期記憶スキーマと組み合わせたシンボリックスキャフォールディング手法を提案する。
予備的な結果は、我々の完全なシステムがベースラインの変種を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-08-28T20:46:13Z) - Revealing Neurocognitive and Behavioral Patterns by Unsupervised Manifold Learning from Dynamic Brain Data [29.522638794625536]
本稿では,神経認知と行動パターンの探索を目的とした,一般化不可能な深層多様体学習について紹介する。
提案されたBrain-dynamic Convolutional-Network-based Embedding (BCNE)は、データ内の時間空間相関を解読することによって脳状態の軌跡を捉える。
その結果、視覚的かつ定量的に、様々な興味深いパターンと解釈可能なパターンが明らかになった。
論文 参考訳(メタデータ) (2025-08-07T23:36:52Z) - Dynamic Programming Techniques for Enhancing Cognitive Representation in Knowledge Tracing [125.75923987618977]
認知表現動的プログラミングに基づく知識追跡(CRDP-KT)モデルを提案する。
質問の難易度とそれらの間の性能間隔に基づいて認知表現を最適化する動的プログラミングアルゴリズムである。
これは、その後のモデルトレーニングのためにより正確で体系的な入力機能を提供し、それによって認知状態のシミュレーションにおける歪みを最小限にする。
論文 参考訳(メタデータ) (2025-06-03T14:44:48Z) - Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - An Explainable Model for EEG Seizure Detection based on Connectivity
Features [0.0]
我々は、特定のデータウィンドウが発作に属しているか否かを検出するディープニューラルネットワークを学習することを提案する。
10個のサブウィンドウのシーケンスとしてデータを取り込み、注意、CNN、BiLstm、および完全に接続されたレイヤを用いて最適なディープラーニングモデルを設計することを目的としている。
私たちの最高のモデルアーキテクチャは、バランスの取れたMITBIHデータサブセットを使用して97.03%の精度を実現した。
論文 参考訳(メタデータ) (2020-09-26T11:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。