論文の概要: Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language
- arxiv url: http://arxiv.org/abs/2510.06378v1
- Date: Tue, 07 Oct 2025 18:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.153852
- Title: Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language
- Title(参考訳): Semantic Regexes:構造化言語によるLLM機能の自動解釈
- Authors: Angie Boggust, Donghao Ren, Yannick Assogba, Dominik Moritz, Arvind Satyanarayan, Fred Hohman,
- Abstract要約: 本稿では,大言語モデル(LLM)の機能のセマンティクス,構造化言語記述を紹介する。
セマンティクスは自然言語の精度と一致し、より簡潔で一貫した特徴記述が得られる。
- 参考スコア(独自算出の注目度): 29.636642657652455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated interpretability aims to translate large language model (LLM) features into human understandable descriptions. However, these natural language feature descriptions are often vague, inconsistent, and require manual relabeling. In response, we introduce semantic regexes, structured language descriptions of LLM features. By combining primitives that capture linguistic and semantic feature patterns with modifiers for contextualization, composition, and quantification, semantic regexes produce precise and expressive feature descriptions. Across quantitative benchmarks and qualitative analyses, we find that semantic regexes match the accuracy of natural language while yielding more concise and consistent feature descriptions. Moreover, their inherent structure affords new types of analyses, including quantifying feature complexity across layers, scaling automated interpretability from insights into individual features to model-wide patterns. Finally, in user studies, we find that semantic regex descriptions help people build accurate mental models of LLM feature activations.
- Abstract(参考訳): Automated Interpretabilityは、大きな言語モデル(LLM)機能を人間の理解可能な記述に変換することを目的としている。
しかしながら、これらの自然言語の特徴記述は曖昧で一貫性がなく、手動のレバーベリングを必要とすることが多い。
そこで本研究では,LLM特徴の言語記述を構造化したセマンティックレジェクシスを提案する。
言語的特徴パターンと意味的特徴パターンを捕捉するプリミティブと、文脈化、構成、定量化のための修飾子を組み合わせることで、意味的語彙は正確で表現力豊かな特徴記述を生成する。
定量的なベンチマークと定性的な分析により、意味的語彙は自然言語の精度と一致し、より簡潔で一貫した特徴記述が得られることがわかった。
さらに、それらの固有の構造は、レイヤ間の機能の複雑さの定量化、個々の機能に対する洞察からモデルワイドパターンへの自動解釈可能性のスケーリングなど、新しいタイプの分析を可能にする。
最後に,LLM機能アクティベーションの正確なメンタルモデルを構築する上で,意味的リジェクス記述が有効であることを示す。
関連論文リスト
- Towards Corpus-Grounded Agentic LLMs for Multilingual Grammatical Analysis [0.5545791216381869]
本稿では, エージェント型大規模言語モデル (LLM) を用いて, 注釈付きコーパスの体系的解析を効率化する方法について検討する。
本稿では,自然言語タスク解釈などの概念を統合したコーパスグラウンド文法解析のためのエージェントフレームワークを提案する。
We test the system on multilingual grammatical tasks by the World Atlas of Language Structures (WALS) (英語)
論文 参考訳(メタデータ) (2025-11-28T21:27:58Z) - Temporal Sparse Autoencoders: Leveraging the Sequential Nature of Language for Interpretability [31.30541946703775]
モデルの内部表現と計算を人間が理解できる概念に変換することが、解釈可能性の重要な目標である。
スパースオートエンコーダのような最近の辞書学習手法は、人間の解釈可能な特徴を発見するための有望な経路を提供する。
しかし、彼らは「文の始めの「The」というフレーズ」のような浅い、トークン特有の、または騒々しい特徴に偏りを呈している。
論文 参考訳(メタデータ) (2025-10-30T17:59:30Z) - RELIC: Evaluating Compositional Instruction Following via Language Recognition [37.49115450182637]
大規模言語モデル(LLM)は、コンテキストで提供されるタスクの仕様に基づいてのみタスクを実行することがますます期待されている。
本稿では,言語認識を用いたインコンテキスト認識(RELIC)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-06-05T16:17:24Z) - Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition [50.86415025650168]
マスク付き画像モデリング(MIM)は、局所的な構造を利用して視覚パターンを再構築する傾向があり、言語知識は限られている。
本稿では,言語情報とMIMの復号過程を別ブランチで関連づける,言語学対応の仮面画像モデリング(LMIM)手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T14:53:35Z) - Unnatural Languages Are Not Bugs but Features for LLMs [92.8332103170009]
大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。
我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。
論文 参考訳(メタデータ) (2025-03-02T12:10:17Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Syntactic Substitutability as Unsupervised Dependency Syntax [31.488677474152794]
依存関係関係や構文置換可能性の定義において、より一般的な性質を暗黙的にモデル化する。
この性質は、依存関係の両端にある単語が、同じカテゴリの単語で置き換えられるという事実を捉えている。
使用する代替品の数を増やすことで、自然データに対する解析精度が向上することを示す。
論文 参考訳(メタデータ) (2022-11-29T09:01:37Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - AUTOLEX: An Automatic Framework for Linguistic Exploration [93.89709486642666]
本稿では言語学者による言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークを提案する。
具体的には、この枠組みを用いて、形態的一致、ケースマーキング、単語順序の3つの現象について記述を抽出する。
本研究では,言語専門家の助けを借りて記述を評価し,人間の評価が不可能な場合に自動評価を行う手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T20:37:30Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。