論文の概要: AILA--First Experiments with Localist Language Models
- arxiv url: http://arxiv.org/abs/2511.03559v1
- Date: Wed, 05 Nov 2025 15:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.468792
- Title: AILA--First Experiments with Localist Language Models
- Title(参考訳): AILA--ローカリスト言語モデルによる最初の実験
- Authors: Joachim Diederich,
- Abstract要約: 本稿では,トランス言語モデルにおける制御可能な局所性の実証実験について述べる。
2層トランスアーキテクチャを用いたWikiTextコーパスの実験を行った。
予測実験により、中間的局所性値は解釈可能性と性能のトレードオフを最適化することが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the first empirical demonstration of controllable locality in transformer language models, a novel architectural framework that enables continuous control over the degree of representation localization through a tunable locality dial parameter. Unlike traditional language models that rely exclusively on distributed representations, our approach allows dynamic interpolation between highly interpretable localist encodings and efficient distributed representations without requiring model retraining. We conducted experiments on the WikiText corpus using a two-layer transformer architecture, systematically varying the locality parameter {\lambda} across the full spectrum from 1.0 (fully localist) to 0.0 (fully distributed). Our results demonstrate that localist configurations achieve dramatically lower attention entropy, with {\lambda} = 1.0 yielding 5.36 bits compared to 7.18 bits at {\lambda} = 0.0, while maintaining substantially higher pointer fidelity scores reflecting stronger alignment with rule-specified targets. Prediction experiments reveal that intermediate locality values optimize the tradeoff between interpretability and performance, with {\lambda} = 0.6 achieving test perplexity of 4.65 and accuracy of 84.7%. These findings establish that localist language models provide a practical framework for applications in regulated domains requiring both transparency and capability, offering precise mathematical control over the interpretability-performance spectrum through explicit penalty thresholds and information-theoretic design principles.
- Abstract(参考訳): 本稿では,変換言語モデルにおける制御可能な局所性の実証実験として,可変な局所性ダイアルパラメータによる表現の局所化の度合いを連続的に制御できる新しいアーキテクチャフレームワークを提案する。
分散表現にのみ依存する従来の言語モデルとは異なり、本手法はモデル再訓練を必要とせず、高度に解釈可能なローカリストエンコーディングと効率的な分散表現との動的補間を可能にする。
We performed the WikiText corpus using a two-layer transformer architecture, systemally to the locality parameter {\lambda} across the full spectrum from 1.0 (fully localist) to 0.0 (fully distributed)。
その結果, ローカリスト構成は, 規則指定対象との整合性の向上を反映した, ポインター忠実度スコアを著しく高く保ちながら, {\lambda} = 1.0で7.18ビットに対して5.36ビットを出力し, ローカリスト構成が劇的に低い注意エントロピーを実現していることが示された。
予測実験により、中間ローカリティ値は解釈可能性と性能のトレードオフを最適化し、 ラムダ = 0.6 でテストパープレキシティ 4.65 と精度 84.7% を達成していることが明らかになった。
これらの結果は、ローカリスト言語モデルが、透明性と能力の両方を必要とする規制領域における応用のための実践的なフレームワークを提供し、明示的なペナルティ閾値と情報理論設計原則を通じて、解釈可能性-性能スペクトルを正確に数学的に制御するものであることを証明している。
関連論文リスト
- GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Interpretable AI for Time-Series: Multi-Model Heatmap Fusion with Global Attention and NLP-Generated Explanations [1.331812695405053]
本稿では,ResNetが生成するヒートマップと,グローバルに重み付けされた入力サリエンシを備えた再構成された2次元変換器を統合することで,モデル解釈可能性を向上させる新しいフレームワークを提案する。
本手法は、勾配重み付きアクティベーションマップ(ResNet)とトランスフォーマーのアテンションロールアウトを統合可視化にマージし、空間的・時間的アライメントを実現する。
臨床(ECG不整脈検出)および産業データセットに関する実証的評価は,有意な改善を示した。
論文 参考訳(メタデータ) (2025-06-30T20:04:35Z) - Syntactic Control of Language Models by Posterior Inference [53.823006836309695]
言語モデルによって生成されたテキストの構文構造を制御することは、明快さ、スタイリスティックな一貫性、解釈可能性を必要とするアプリケーションにとって重要である。
後部推論に基づくサンプリングアルゴリズムは、生成中に対象の選挙区構造を効果的に強制することができると論じる。
提案手法では,提案分布からのサンプリングにより後続分布を推定するモンテカルロ法と,各生成したトークンが所望の構文構造に整合することを保証する統語タグを併用する。
論文 参考訳(メタデータ) (2025-06-08T14:01:34Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - RustRepoTrans: Repository-level Code Translation Benchmark Targeting Rust [50.65321080814249]
RustRepoTransは、インクリメンタル翻訳をターゲットにした、最初のリポジトリレベルのコンテキストコード変換ベンチマークである。
複雑な翻訳シナリオの制約を評価するために, 7つの代表的なLLMを評価し, それらの誤差を分析した。
論文 参考訳(メタデータ) (2024-11-21T10:00:52Z) - ULTra: Unveiling Latent Token Interpretability in Transformer-Based Understanding and Segmentation [14.84547724351634]
ULTraはトランスフォーマーの埋め込みを解釈し、意味のある意味的パターンを明らかにするためのフレームワークである。
モデルを変更することなく外部変換行列を学習し,セグメンテーション性能を向上する自己教師型トレーニング手法を提案する。
我々は、オブジェクト選択や解釈可能なテキスト要約を含む、合成シナリオと実世界のシナリオの両方において、モデル解釈のためのULTraを検証する。
論文 参考訳(メタデータ) (2024-11-15T19:36:50Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - Disentangled Federated Learning for Tackling Attributes Skew via
Invariant Aggregation and Diversity Transferring [104.19414150171472]
属性は、クライアント間の一貫した最適化方向から、現在の連邦学習(FL)フレームワークを歪めます。
本稿では,ドメイン固有属性とクロス不変属性を2つの補足枝に分離するために,非絡み付きフェデレーション学習(DFL)を提案する。
実験により、DFLはSOTA FL法と比較して高い性能、より良い解釈可能性、より高速な収束率でFLを促進することが確認された。
論文 参考訳(メタデータ) (2022-06-14T13:12:12Z) - Latency Adjustable Transformer Encoder for Language Understanding [0.8287206589886879]
本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。
提案手法は,重要でないシークエンス要素(ワードベクター)を検出し,Actent Context Contribution (ACC) メトリックを用いて,各エンコーダ層でそれらを除去する。
提案手法は,BERT_base と GPT-2 の推論遅延を最大4.8倍,3.72倍に改善し,0.75% の精度低下と平均パープレキシティが可能である。
論文 参考訳(メタデータ) (2022-01-10T13:04:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。