論文の概要: Neural Transparency: Mechanistic Interpretability Interfaces for Anticipating Model Behaviors for Personalized AI
- arxiv url: http://arxiv.org/abs/2511.00230v1
- Date: Fri, 31 Oct 2025 20:03:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.682304
- Title: Neural Transparency: Mechanistic Interpretability Interfaces for Anticipating Model Behaviors for Personalized AI
- Title(参考訳): ニューラルネットワーク: パーソナライズされたAIのためのモデル行動予測のための機械的解釈可能性インタフェース
- Authors: Sheer Karny, Anthony Baez, Pat Pataranutaporn,
- Abstract要約: チャットボットの設計中に言語モデルの内部を露出することで、神経透過性を実現するインターフェースを導入する。
本手法は, 対立する動作を誘発する対照的なシステムプロンプト間のニューラルアクティベーションの差を計算することで, 行動特性ベクトルを抽出する。
この研究は、非技術ユーザに対して解釈可能性をどのように運用するかの道を提供し、より安全でより整合した人間とAIのインタラクションのための基盤を確立する。
- 参考スコア(独自算出の注目度): 9.383958408772694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Millions of users now design personalized LLM-based chatbots that shape their daily interactions, yet they can only loosely anticipate how their design choices will manifest as behaviors in deployment. This opacity is consequential: seemingly innocuous prompts can trigger excessive sycophancy, toxicity, or inconsistency, degrading utility and raising safety concerns. To address this issue, we introduce an interface that enables neural transparency by exposing language model internals during chatbot design. Our approach extracts behavioral trait vectors (empathy, toxicity, sycophancy, etc.) by computing differences in neural activations between contrastive system prompts that elicit opposing behaviors. We predict chatbot behaviors by projecting the system prompt's final token activations onto these trait vectors, normalizing for cross-trait comparability, and visualizing results via an interactive sunburst diagram. To evaluate this approach, we conducted an online user study using Prolific to compare our neural transparency interface against a baseline chatbot interface without any form of transparency. Our analyses suggest that users systematically miscalibrated AI behavior: participants misjudged trait activations for eleven of fifteen analyzable traits, motivating the need for transparency tools in everyday human-AI interaction. While our interface did not change design iteration patterns, it significantly increased user trust and was enthusiastically received. Qualitative analysis indicated that users' had nuanced experiences with the visualization that may enrich future work designing neurally transparent interfaces. This work offers a path for how mechanistic interpretability can be operationalized for non-technical users, establishing a foundation for safer, more aligned human-AI interactions.
- Abstract(参考訳): 今や数百万のユーザが、毎日の対話を形作るパーソナライズされたLLMベースのチャットボットを設計している。
一見無害なプロンプトは過剰な梅毒、毒性、不整合を誘発し、実用性を低下させ、安全性の懸念を高める。
この問題に対処するために,チャットボット設計中に言語モデルの内部を露出することで,神経透過性を実現するインタフェースを導入する。
提案手法は, 対立する行動を引き起こす対照的なシステムプロンプト間のニューラルアクティベーションの差を計算することにより, 行動特性ベクトル(共感, 毒性, 梅毒等)を抽出する。
システムプロンプトの最終トークンアクティベーションをこれらの特性ベクトルに投射し、双方向のコンパビリティを正規化し、インタラクティブなサンバースト図を用いて結果を可視化することにより、チャットボットの挙動を予測する。
このアプローチを評価するために,我々はProlificを用いたオンラインユーザスタディを行い,私たちの神経透過性インターフェースとベースラインチャットボットインターフェースを比較した。
参加者は、15個の分析可能な特徴のうち11個の特性アクティベーションを誤って判断し、日々の人間とAIのインタラクションにおける透明性ツールの必要性を動機付けている。
私たちのインターフェースはデザインのイテレーションパターンを変更しませんでしたが、ユーザの信頼を著しく向上させ、熱心に受け入れられました。
質的な分析により、ユーザーは、ニューラルネットワークの透明なインターフェースを設計する将来の作業に富むような視覚化に関して、微妙な経験を積んだことが示唆された。
この研究は、非技術ユーザに対して機械的解釈可能性をどのように運用するかの道を提供し、より安全でより整合した人間とAIのインタラクションのための基盤を確立する。
関連論文リスト
- Evaluating Node-tree Interfaces for AI Explainability [0.5437050212139087]
本研究では,ノードツリーインタフェースとチャットボットという,2つの異なるAIインターフェースを用いたユーザエクスペリエンスを評価する。
我々のノードツリーインタフェースは、AI生成した応答を階層的に整理された対話的なノードに視覚的に構造化する。
この結果から,構造化された可視化と会話形式を切り替えることのできるAIインターフェースが,AIシステムにおける透明性とユーザ信頼性を著しく向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-10-07T20:48:08Z) - Dark Patterns Meet GUI Agents: LLM Agent Susceptibility to Manipulative Interfaces and the Role of Human Oversight [51.53020962098759]
本研究では,エージェント,ヒト参加者,ヒトAIチームが,さまざまなシナリオにまたがる16種類の暗黒パターンにどのように反応するかを検討する。
フェーズ1では、エージェントが暗黒パターンを認識するのに失敗することが多く、たとえ認識されたとしても、保護行動よりもタスク完了を優先することが強調される。
第2段階では、認知的ショートカットと習慣的コンプライアンスにより、人間はしゃがみ込み、エージェントは手続き的な盲点から遠ざかる。
論文 参考訳(メタデータ) (2025-09-12T22:26:31Z) - Interpretability as Alignment: Making Internal Understanding a Design Principle [3.6704226968275253]
解釈可能性(Interpretability)は、アウトプットを駆動する計算を明らかにすることによって、内部透明性への道筋を提供する。
我々は、解釈可能性、特に機械的アプローチは、補助的な診断ツールではなく、アライメントのための設計原則として扱うべきであると論じている。
論文 参考訳(メタデータ) (2025-09-10T13:45:59Z) - Visual Agents as Fast and Slow Thinkers [88.1404921693082]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。
FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (2024-08-16T17:44:02Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Occlusion-Aware Crowd Navigation Using People as Sensors [8.635930195821263]
このような設定では、センサーの視野が限られているため、オクルージョンが非常に一般的である。
これまでの研究では、人間のエージェントの観察された対話的行動が潜在的な障害を推定するために用いられることが示されている。
本稿では,このような社会的推論手法を計画パイプラインに統合することを提案する。
論文 参考訳(メタデータ) (2022-10-02T15:18:32Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Affect-Aware Deep Belief Network Representations for Multimodal
Unsupervised Deception Detection [3.04585143845864]
ラベルを必要とせず、ビデオの現実世界、高い盗難を検出するための教師なしのアプローチ。
本稿では,感情を意識しないDeep Belief Networks (DBN) の新たなアプローチを提案する。
また、DBNモデルを訓練する機能として顔の感情を使用するだけでなく、音声・視覚表現の整列器として顔の感情を利用するDBN訓練手順も導入する。
論文 参考訳(メタデータ) (2021-08-17T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。