論文の概要: Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language
- arxiv url: http://arxiv.org/abs/2510.06378v1
- Date: Tue, 07 Oct 2025 18:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.153852
- Title: Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language
- Title(参考訳): Semantic Regexes:構造化言語によるLLM機能の自動解釈
- Authors: Angie Boggust, Donghao Ren, Yannick Assogba, Dominik Moritz, Arvind Satyanarayan, Fred Hohman,
- Abstract要約: 本稿では,大言語モデル(LLM)の機能のセマンティクス,構造化言語記述を紹介する。
セマンティクスは自然言語の精度と一致し、より簡潔で一貫した特徴記述が得られる。
- 参考スコア(独自算出の注目度): 29.636642657652455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated interpretability aims to translate large language model (LLM) features into human understandable descriptions. However, these natural language feature descriptions are often vague, inconsistent, and require manual relabeling. In response, we introduce semantic regexes, structured language descriptions of LLM features. By combining primitives that capture linguistic and semantic feature patterns with modifiers for contextualization, composition, and quantification, semantic regexes produce precise and expressive feature descriptions. Across quantitative benchmarks and qualitative analyses, we find that semantic regexes match the accuracy of natural language while yielding more concise and consistent feature descriptions. Moreover, their inherent structure affords new types of analyses, including quantifying feature complexity across layers, scaling automated interpretability from insights into individual features to model-wide patterns. Finally, in user studies, we find that semantic regex descriptions help people build accurate mental models of LLM feature activations.
- Abstract(参考訳): Automated Interpretabilityは、大きな言語モデル(LLM)機能を人間の理解可能な記述に変換することを目的としている。
しかしながら、これらの自然言語の特徴記述は曖昧で一貫性がなく、手動のレバーベリングを必要とすることが多い。
そこで本研究では,LLM特徴の言語記述を構造化したセマンティックレジェクシスを提案する。
言語的特徴パターンと意味的特徴パターンを捕捉するプリミティブと、文脈化、構成、定量化のための修飾子を組み合わせることで、意味的語彙は正確で表現力豊かな特徴記述を生成する。
定量的なベンチマークと定性的な分析により、意味的語彙は自然言語の精度と一致し、より簡潔で一貫した特徴記述が得られることがわかった。
さらに、それらの固有の構造は、レイヤ間の機能の複雑さの定量化、個々の機能に対する洞察からモデルワイドパターンへの自動解釈可能性のスケーリングなど、新しいタイプの分析を可能にする。
最後に,LLM機能アクティベーションの正確なメンタルモデルを構築する上で,意味的リジェクス記述が有効であることを示す。
関連論文リスト
- RELIC: Evaluating Compositional Instruction Following via Language Recognition [37.49115450182637]
大規模言語モデル(LLM)は、コンテキストで提供されるタスクの仕様に基づいてのみタスクを実行することがますます期待されている。
本稿では,言語認識を用いたインコンテキスト認識(RELIC)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-06-05T16:17:24Z) - Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition [50.86415025650168]
マスク付き画像モデリング(MIM)は、局所的な構造を利用して視覚パターンを再構築する傾向があり、言語知識は限られている。
本稿では,言語情報とMIMの復号過程を別ブランチで関連づける,言語学対応の仮面画像モデリング(LMIM)手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T14:53:35Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Syntactic Substitutability as Unsupervised Dependency Syntax [31.488677474152794]
依存関係関係や構文置換可能性の定義において、より一般的な性質を暗黙的にモデル化する。
この性質は、依存関係の両端にある単語が、同じカテゴリの単語で置き換えられるという事実を捉えている。
使用する代替品の数を増やすことで、自然データに対する解析精度が向上することを示す。
論文 参考訳(メタデータ) (2022-11-29T09:01:37Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - AUTOLEX: An Automatic Framework for Linguistic Exploration [93.89709486642666]
本稿では言語学者による言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークを提案する。
具体的には、この枠組みを用いて、形態的一致、ケースマーキング、単語順序の3つの現象について記述を抽出する。
本研究では,言語専門家の助けを借りて記述を評価し,人間の評価が不可能な場合に自動評価を行う手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T20:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。