論文の概要: Interpreting Multi-Attribute Confounding through Numerical Attributes in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.04053v1
- Date: Thu, 06 Nov 2025 04:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.303715
- Title: Interpreting Multi-Attribute Confounding through Numerical Attributes in Large Language Models
- Title(参考訳): 大規模言語モデルにおける数値属性による多属性合成の解釈
- Authors: Hirohane Takagi, Gouki Minegishi, Shota Kizawa, Issey Sukeda, Hitomi Yanaka,
- Abstract要約: 大規模言語モデル(LLM)は,実世界の数値相関を符号化するが,体系的に増幅する傾向があることを示す。
無関係な文脈は、モデルサイズによって異なる下流効果で、等級表現の一貫性のあるシフトを誘導します。
これらの知見は,多属性絡み合い下でのより公平な表現認識制御の基礎となった。
- 参考スコア(独自算出の注目度): 13.5805504750573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although behavioral studies have documented numerical reasoning errors in large language models (LLMs), the underlying representational mechanisms remain unclear. We hypothesize that numerical attributes occupy shared latent subspaces and investigate two questions:(1) How do LLMs internally integrate multiple numerical attributes of a single entity? (2)How does irrelevant numerical context perturb these representations and their downstream outputs? To address these questions, we combine linear probing with partial correlation analysis and prompt-based vulnerability tests across models of varying sizes. Our results show that LLMs encode real-world numerical correlations but tend to systematically amplify them. Moreover, irrelevant context induces consistent shifts in magnitude representations, with downstream effects that vary by model size. These findings reveal a vulnerability in LLM decision-making and lay the groundwork for fairer, representation-aware control under multi-attribute entanglement.
- Abstract(参考訳): 行動学的研究は、大規模言語モデル(LLM)における数値推論誤差を文書化してきたが、基礎となる表現機構はいまだ不明である。
数値属性が共有潜在部分空間を占めるという仮説を立て,(1)LLMが単一エンティティの複数の数値属性を内部的にどのように統合するか,という2つの疑問を考察する。
2)これらの表現とその下流出力の無関係な数値的摂動はどのようにして起こるのか?
これらの問題に対処するために、線形探索と部分相関解析と、様々なサイズのモデルにまたがるプロンプトベースの脆弱性テストを組み合わせる。
その結果,LLMは実世界の数値相関を符号化するが,体系的に増幅する傾向があることがわかった。
さらに、無関係な文脈は、モデルサイズによって異なる下流効果を持つ等級表現の一貫性のあるシフトを誘導する。
これらの結果から,LLM意思決定における脆弱性が明らかとなり,多属性の絡み合い下での公平かつ表現に配慮した制御の基礎となった。
関連論文リスト
- Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - When can isotropy help adapt LLMs' next word prediction to numerical domains? [53.98633183204453]
文脈埋め込み空間におけるLLM埋め込みの等方性は表現の基盤構造を保存することが示されている。
実験により、数値データとモデルアーキテクチャの異なる特性が等方性に異なる影響があることが示されている。
論文 参考訳(メタデータ) (2025-05-22T05:10:34Z) - Can adversarial attacks by large language models be attributed? [1.2289361708127877]
本研究では,Large Language Models (LLM) のクラスは,出力のみから識別できないことを示す。
近年では, 与えられた出力に対して, 可算モデル起源数の爆発を定量化している。
論文 参考訳(メタデータ) (2024-11-12T18:28:57Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。
本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。
以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-24T20:29:16Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。