論文の概要: A Unified Representation Underlying the Judgment of Large Language Models
- arxiv url: http://arxiv.org/abs/2510.27328v2
- Date: Tue, 04 Nov 2025 12:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 14:27:17.387069
- Title: A Unified Representation Underlying the Judgment of Large Language Models
- Title(参考訳): 大規模言語モデルの判断に基づく統一表現
- Authors: Yi-Long Lu, Jiajun Song, Wei Wang,
- Abstract要約: 生物学的および人工知能両方のアーキテクチャ上の問題は、判断が特別なモジュールに依存するか、あるいは統一されたドメイン・ジェネラル・リソースに依存しているかである。
評価判断が支配的次元に沿って計算されることを示し、これをVAA(Valence-Assent Axis)と呼ぶ。
VAAは生成過程の制御信号として機能し、実際の精度を犠牲にしても、その評価状態と整合した合理性を構築する。
- 参考スコア(独自算出の注目度): 6.674085049223262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central architectural question for both biological and artificial intelligence is whether judgment relies on specialized modules or a unified, domain-general resource. While the discovery of decodable neural representations for distinct concepts in Large Language Models (LLMs) has suggested a modular architecture, whether these representations are truly independent systems remains an open question. Here we provide evidence for a convergent architecture for evaluative judgment. Across a range of LLMs, we find that diverse evaluative judgments are computed along a dominant dimension, which we term the Valence-Assent Axis (VAA). This axis jointly encodes subjective valence ("what is good") and the model's assent to factual claims ("what is true"). Through direct interventions, we demonstrate this axis drives a critical mechanism, which is identified as the subordination of reasoning: the VAA functions as a control signal that steers the generative process to construct a rationale consistent with its evaluative state, even at the cost of factual accuracy. Our discovery offers a mechanistic account for response bias and hallucination, revealing how an architecture that promotes coherent judgment can systematically undermine faithful reasoning.
- Abstract(参考訳): 生物学的および人工知能両方のアーキテクチャ上の問題は、判断が特別なモジュールに依存するか、あるいは統一されたドメイン・ジェネラル・リソースに依存しているかである。
LLM(Large Language Models)における異なる概念のためのデオード可能なニューラル表現の発見はモジュラーアーキテクチャを示唆しているが、これらの表現が真に独立したシステムであるかどうかは未解決のままである。
ここでは、評価判断のための収束アーキテクチャの証拠を提供する。
様々な LLM の範囲で, 様々な評価判断が支配的次元に沿って計算され, VAA (Valence-Assent Axis) と呼ばれる。
この軸は主観的原子価("What is good")と、モデルが事実的主張("What is true")を共に符号化する。
直接的介入を通じて、この軸は重要なメカニズムを駆動し、これは推論のサブオーディネーションとして認識され、VAAは生成過程を制御信号として機能し、実際的精度の犠牲を伴っても、その評価状態と整合した合理性を構築する。
私たちの発見は、応答バイアスと幻覚に関する力学的な説明を提供し、一貫性のある判断を促進するアーキテクチャが、体系的に忠実な推論を損なうことを明らかにする。
関連論文リスト
- RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - REMA: A Unified Reasoning Manifold Framework for Interpreting Large Language Model [29.40036398095681]
推論多様体(Reasoning Manifold)は、すべての正しく推論された世代に対応する内部表現によって形成される潜在低次元幾何学構造である。
誤りと正しい推論サンプルに対応する内部モデル表現の空間的関係を定量的に比較することにより,障害の起源を説明するフレームワークであるREMAを構築した。
多様な言語およびマルチモーダルモデルおよびタスクに関する実験は、推論多様体の低次元の性質と誤った推論表現と正しい推論表現の間の高い分離性を示す。
論文 参考訳(メタデータ) (2025-09-26T16:02:27Z) - On the Fundamental Impossibility of Hallucination Control in Large Language Models [0.0]
不合理性理論:非自明な知識集約を行うLLMは、真理的な知識表現、意味情報保存、関連する知識の啓示を同時に達成できない。
提案手法は,アイデアのオークションとして推論をモデル化し,分散コンポーネントが符号化された知識を用いて応答に影響を与えることを証明している。
幻覚と想像力は数学的に同一であり、どちらも4つの重要な性質のうちの少なくとも1つに反する。
論文 参考訳(メタデータ) (2025-06-04T23:28:39Z) - The Unified Cognitive Consciousness Theory for Language Models: Anchoring Semantics, Thresholds of Activation, and Emergent Reasoning [2.0800882594868293]
統一認知意識理論(UCCT)は、これらを巨大な無意識パターンリポジトリとみなしている。
UCCTはこの過程を、事前学習で学んだ統計的事前学習と文脈駆動のターゲットパターンの間のベイズ的競争として定式化している。
我々はこの理論を、しきい値交差、モダリティ、密度距離予測力の3つの原理で基礎づける。
論文 参考訳(メタデータ) (2025-06-02T18:12:43Z) - Disentangling Representations through Multi-task Learning [0.0]
分類タスクを最適に解決するエージェントにおいて,不整合表現の出現を保証する実験および理論的結果を提供する。
マルチタスクに訓練されたRNNにおいて、これらの予測を実験的に検証し、連続的な誘引子の形で非絡み合った表現を学習する。
私たちは、トランスフォーマーが特に、そのユニークな世界理解能力を説明するような、無関係な表現に向いていることに気付きました。
論文 参考訳(メタデータ) (2024-07-15T21:32:58Z) - Identifiable Causal Representation Learning: Unsupervised, Multi-View, and Multi-Environment [10.814585613336778]
因果表現学習は、機械学習のコアとなる強みと因果性を組み合わせることを目的としている。
この論文は、CRLが直接の監督なしに何が可能であるかを調査し、理論的基礎に寄与する。
論文 参考訳(メタデータ) (2024-06-19T09:14:40Z) - Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z) - CausalVAE: Structured Causal Disentanglement in Variational Autoencoder [52.139696854386976]
変分オートエンコーダ(VAE)の枠組みは、観測から独立した因子をアンタングルするために一般的に用いられる。
本稿では, 因果内因性因子を因果内因性因子に変換する因果層を含むVOEベースの新しいフレームワークCausalVAEを提案する。
その結果、CausalVAEが学習した因果表現は意味論的に解釈可能であり、DAG(Directed Acyclic Graph)としての因果関係は精度良く同定された。
論文 参考訳(メタデータ) (2020-04-18T20:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。