論文の概要: Do Language Models Encode Semantic Relations? Probing and Sparse Feature Analysis
- arxiv url: http://arxiv.org/abs/2603.17624v1
- Date: Wed, 18 Mar 2026 11:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.671578
- Title: Do Language Models Encode Semantic Relations? Probing and Sparse Feature Analysis
- Title(参考訳): 言語モデルは意味的関係を符号化しているか? 探索とスパース特徴分析
- Authors: Andor Diera, Ansgar Scherp,
- Abstract要約: Pythia-70M, GPT-2, Llama 3.1 8Bの3種類の拡大スケールモデルについて検討した。
我々は4つの意味的関係(同義語、無反語、超語、偽語)に焦点を当てる。
以上の結果から,LLM内の意味的関係がどの程度確実に表現されているかが明らかとなった。
- 参考スコア(独自算出の注目度): 1.3750624267664158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding whether large language models (LLMs) capture structured meaning requires examining how they represent concept relationships. In this work, we study three models of increasing scale: Pythia-70M, GPT-2, and Llama 3.1 8B, focusing on four semantic relations: synonymy, antonymy, hypernymy, and hyponymy. We combine linear probing with mechanistic interpretability techniques, including sparse autoencoders (SAE) and activation patching, to identify where these relations are encoded and how specific features contribute to their representation. Our results reveal a directional asymmetry in hierarchical relations: hypernymy is encoded redundantly and resists suppression, while hyponymy relies on compact features that are more easily disrupted by ablation. More broadly, relation signals are diffuse but exhibit stable profiles: they peak in the mid-layers and are stronger in post-residual/MLP pathways than in attention. Difficulty is consistent across models (antonymy easiest, synonymy hardest). Probe-level causality is capacity-dependent: on Llama 3.1, SAE-guided patching reliably shifts these signals, whereas on smaller models the shifts are weak or unstable. Our results clarify where and how reliably semantic relations are represented inside LLMs, and provide a reproducible framework for relating sparse features to probe-level causal evidence.
- Abstract(参考訳): 大きな言語モデル(LLM)が構造化された意味をキャプチャするかどうかを理解するには、どのように概念関係を表現するかを検討する必要がある。
本研究では,Pythia-70M,GPT-2,Llama 3.1 8Bの3つの拡張スケールモデルについて検討し,同義語,無調語,ハイパーナミー,偽名という4つの意味関係に着目した。
線形探索と、スパースオートエンコーダ(SAE)やアクティベーションパッチなどの機械的解釈可能性技術を組み合わせて、それらの関係がどこにエンコードされているか、特定の特徴が表現にどのように寄与するかを特定する。
ハイパーネミーは冗長に符号化され、抑制に抵抗するが、低ネミーはアブレーションによりより容易に破壊されるコンパクトな特徴に依存している。
より広い範囲では、関係シグナルは拡散するが安定なプロファイルを示す:それらは中層にピークを持ち、残留後/MLP経路において注意よりも強い。
難易度はモデル間で一貫性がある(匿名性が最も簡単、同義語は最も難しい)。
Llama 3.1では、SAE誘導パッチはこれらの信号を確実にシフトさせるが、より小さなモデルでは、シフトは弱いか不安定である。
本研究では,LLM内の意味的関係がどの程度確実に表現されているかを明らかにするとともに,スパース特徴とプローブレベルの因果関係を関連づけるための再現可能な枠組みを提供する。
関連論文リスト
- Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文 参考訳(メタデータ) (2026-03-03T18:48:15Z) - Sparse Semantic Dimension as a Generalization Certificate for LLMs [53.681678236115836]
Sparse Semantic Dimension (SSD)は,モデル層上で訓練されたSparse Autoencoder (SAE)のアクティブな特徴語彙から導かれる複雑性尺度である。
我々はGPT-2 Small と Gemma-2B でこの枠組みを検証し、実際のサンプルサイズで非空き証明書を提供することを実証した。
論文 参考訳(メタデータ) (2026-02-11T21:45:18Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows [9.617220633655716]
textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
論文 参考訳(メタデータ) (2026-02-04T02:25:40Z) - DiffER: Diffusion Entity-Relation Modeling for Reversal Curse in Diffusion Large Language Models [30.614075347670635]
逆の呪い(Reversal curse)とは、大きな言語モデルが双方向関係を処理する際に主に一方向の振る舞いを示す現象である。
DiffER(Diffusion Entity-Relation Modeling)を提案する。
論文 参考訳(メタデータ) (2026-01-12T09:22:10Z) - Sensitivity of Small Language Models to Fine-tuning Data Contamination [0.0]
小言語モデル(SLM)は、資源に制約のある環境にますますデプロイされている。
命令チューニング中の構文的および意味的変換タイプに対する感受性を計測する。
文字反転はサイズや家族に関係なく、すべてのモデルでほぼ完全に失敗する。
セマンティック・トランスフォーメーションは、異なるしきい値の挙動を示し、コア言語能力においてより強いレジリエンスを示す。
論文 参考訳(メタデータ) (2025-11-10T06:44:29Z) - Signal in the Noise: Polysemantic Interference Transfers and Predicts Cross-Model Influence [46.548276232795466]
多意味性は言語モデルに広く浸透しており、解釈とモデル行動制御の大きな課題である。
2つの小さなモデルの多意味的トポロジをマッピングし、意味的に無関係だがモデル内の干渉を示す特徴対を同定する。
我々は4つのloci(prompt, token, feature, neuron)に介入し、次のトーケン予測分布における変化を計測し、これらのモデルに体系的な脆弱性を露呈する多意味構造を明らかにする。
論文 参考訳(メタデータ) (2025-05-16T18:20:42Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - DisARM: Displacement Aware Relation Module for 3D Detection [38.4380420322491]
Displacement Aware Relation Module (DisARM)は、ポイントクラウドシーンにおける3Dオブジェクト検出の性能を向上させるニューラルネットワークモジュールである。
アンカーを見つけるために,まず,対象性を考慮したサンプリング手法を用いて予備的な関係アンカーモジュールを実行する。
この軽量なリレーショナルモジュールは、最先端検出器に差し込む際にオブジェクトインスタンス検出の精度を著しく向上させる。
論文 参考訳(メタデータ) (2022-03-02T14:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。