論文の概要: The Compositional Architecture of Regret in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.15617v1
- Date: Wed, 18 Jun 2025 16:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.743125
- Title: The Compositional Architecture of Regret in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるレグレトの構成構造
- Authors: Xiangxiang Cui, Shu Yang, Tianjin Huang, Wanyu Lin, Lijie Hu, Di Wang,
- Abstract要約: モデル出力における後悔表現を識別し,その内部表現を解析する。
この分析では、情報処理がニューロンレベルで発生するモデルの隠れ状態を調べる必要がある。
本稿では,戦略的に設計したプロンプトシナリオを通じて,包括的な後悔データセットを構築するワークフローを提案する。
- 参考スコア(独自算出の注目度): 17.125362667633922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Regret in Large Language Models refers to their explicit regret expression when presented with evidence contradicting their previously generated misinformation. Studying the regret mechanism is crucial for enhancing model reliability and helps in revealing how cognition is coded in neural networks. To understand this mechanism, we need to first identify regret expressions in model outputs, then analyze their internal representation. This analysis requires examining the model's hidden states, where information processing occurs at the neuron level. However, this faces three key challenges: (1) the absence of specialized datasets capturing regret expressions, (2) the lack of metrics to find the optimal regret representation layer, and (3) the lack of metrics for identifying and analyzing regret neurons. Addressing these limitations, we propose: (1) a workflow for constructing a comprehensive regret dataset through strategically designed prompting scenarios, (2) the Supervised Compression-Decoupling Index (S-CDI) metric to identify optimal regret representation layers, and (3) the Regret Dominance Score (RDS) metric to identify regret neurons and the Group Impact Coefficient (GIC) to analyze activation patterns. Our experimental results successfully identified the optimal regret representation layer using the S-CDI metric, which significantly enhanced performance in probe classification experiments. Additionally, we discovered an M-shaped decoupling pattern across model layers, revealing how information processing alternates between coupling and decoupling phases. Through the RDS metric, we categorized neurons into three distinct functional groups: regret neurons, non-regret neurons, and dual neurons.
- Abstract(参考訳): 大規模言語モデルにおけるレグレト(Regret in Large Language Models)は、前述した誤報と矛盾する証拠を提示するときに、その明確な後悔表現を指す。
後悔のメカニズムを研究することは、モデルの信頼性を高め、ニューラルネットワークで認識がどのようにコード化されているかを明らかにするのに役立つ。
このメカニズムを理解するためには、まずモデル出力における後悔表現を識別し、その内部表現を分析する必要がある。
この分析では、情報処理がニューロンレベルで発生するモデルの隠れ状態を調べる必要がある。
しかし、これは(1)後悔表現を捉える特別なデータセットの欠如、(2)最適な後悔表現層を見つけるための指標の欠如、(3)後悔ニューロンの識別と解析のための指標の欠如という3つの大きな課題に直面している。
これらの制約に対処するため,(1)戦略的に設計したシナリオを通じて包括的な後悔データセットを構築するワークフロー,(2)最適な後悔表現層を特定するためのS-CDIメトリック,(3)後悔ニューロンを識別するためのRegret Dominance Score(RDS)メトリック,および活性化パターンを分析するためのグループインパクト係数(GIC)メトリクスを提案する。
実験の結果,S-CDI測定値を用いて最適な後悔表現層を同定し,プローブ分類実験の性能を著しく向上させた。
さらに、モデル層にまたがるM字型疎結合パターンを発見し、情報処理が結合と疎結合の相をどのように交互に行うかを明らかにした。
RDS測定により、我々はニューロンを3つの異なる機能群(後悔ニューロン、非反射ニューロン、二重ニューロン)に分類した。
関連論文リスト
- Knowledge-Guided Prompt Learning for Lifespan Brain MR Image Segmentation [53.70131202548981]
本稿では,脳MRIにKGPL(Knowledge-Guided Prompt Learning)を用いた2段階のセグメンテーションフレームワークを提案する。
具体的には,大規模データセットと準最適ラベルを用いたトレーニング前セグメンテーションモデルについて述べる。
知識的プロンプトの導入は、解剖学的多様性と生物学的プロセスの間の意味的関係を捉えている。
論文 参考訳(メタデータ) (2024-07-31T04:32:43Z) - Self-Supervised Pretext Tasks for Alzheimer's Disease Classification using 3D Convolutional Neural Networks on Large-Scale Synthetic Neuroimaging Dataset [11.173478552040441]
アルツハイマー病(Alzheimer's Disease, AD)は、脳の局所的および広範な神経変性を誘導する疾患である。
本研究では、下流ADとCN分類のための特徴抽出器を訓練するための教師なし手法をいくつか評価した。
論文 参考訳(メタデータ) (2024-06-20T11:26:32Z) - Spiking representation learning for associative memories [0.0]
本稿では、教師なし表現学習と連想記憶操作を行う新しい人工スパイクニューラルネットワーク(SNN)を提案する。
モデルの構造は新皮質列状構造から派生し,隠れた表現を学習するためのフィードフォワードプロジェクションと,連想記憶を形成するための繰り返しプロジェクションを組み合わせたものである。
論文 参考訳(メタデータ) (2024-06-05T08:30:11Z) - BrainODE: Dynamic Brain Signal Analysis via Graph-Aided Neural Ordinary Differential Equations [67.79256149583108]
本稿では,脳波を連続的にモデル化するBrainODEというモデルを提案する。
遅延初期値とニューラルODE関数を不規則な時系列から学習することにより、BrainODEは任意の時点の脳信号を効果的に再構築する。
論文 参考訳(メタデータ) (2024-04-30T10:53:30Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - NeuroInspect: Interpretable Neuron-based Debugging Framework through
Class-conditional Visualizations [28.552283701883766]
本稿では,ディープラーニング(DL)モデルのための解釈可能なニューロンベースのデバッグフレームワークであるNeuroInspectを紹介する。
我々のフレームワークはまず、ネットワークのミスの原因となるニューロンをピンポイントし、次に人間の解釈可能なニューロンに埋め込まれた特徴を視覚化する。
現実の環境では最悪の性能のクラスに対して,誤相関に対処し,推論を改善することで,我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2023-10-11T04:20:32Z) - NeuroExplainer: Fine-Grained Attention Decoding to Uncover Cortical
Development Patterns of Preterm Infants [73.85768093666582]
我々はNeuroExplainerと呼ばれる説明可能な幾何学的深層ネットワークを提案する。
NeuroExplainerは、早産に伴う幼児の皮質発達パターンの解明に使用される。
論文 参考訳(メタデータ) (2023-01-01T12:48:12Z) - Neural-Symbolic Recursive Machine for Systematic Generalization [113.22455566135757]
我々は、基底記号システム(GSS)のコアとなるニューラル・シンボリック再帰機械(NSR)を紹介する。
NSRは神経知覚、構文解析、意味推論を統合している。
我々はNSRの有効性を,系統的一般化能力の探索を目的とした4つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-10-04T13:27:38Z) - Voxel-wise Cross-Volume Representation Learning for 3D Neuron
Reconstruction [27.836007480393953]
本稿では,エンコーダとデコーダのセグメンテーションモデルに基づいて,新しいボクセルレベルのクロスボリューム表現学習パラダイムを提案する。
我々の手法は推論中に余分なコストを伴わない。
提案手法は,BigNeuronプロジェクトから得られた42個の3次元ニューロン画像に基づいて,元のセグメンテーションモデルの学習能力を向上させる。
論文 参考訳(メタデータ) (2021-08-14T12:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。