論文の概要: Progressive Localisation in Localist LLMs
- arxiv url: http://arxiv.org/abs/2511.18375v2
- Date: Fri, 28 Nov 2025 10:44:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 15:47:02.717896
- Title: Progressive Localisation in Localist LLMs
- Title(参考訳): ローカリストLSMにおけるプログレッシブ・ローカライゼーション
- Authors: Joachim Diederich,
- Abstract要約: 本稿では,解釈可能な大言語モデル(LLM)を作成する上で,プログレッシブローカライゼーションが最適アーキテクチャであることを示す。
本稿では,ネットワーク奥行きを戦略的に適用しながら,解釈可能性制約を自然な意味構造に整合させることができるかを検討する。
本研究では,セマンティックブロックと急激な適応的局所性スケジュールを組み合わせた進行的セマンティックローカライゼーションが,解釈可能な注意パターンを提供しながら,ほぼベースライン言語モデリング性能を実現することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper demonstrates that progressive localization, the gradual increase of attention locality from early distributed layers to late localized layers, represents the optimal architecture for creating interpretable large language models (LLMs) while preserving performance. Through systematic experimentation with GPT-2 fine-tuned on The Psychology of Artificial Superintelligence, we evaluate seven locality configurations ranging from fully distributed to strictly localist, with five progressive schedules implementing polynomial increases (linear through quintic). We investigate whether interpretability constraints can be aligned with natural semantic structure while being applied strategically across network depth. We demonstrate that progressive semantic localization, combining adaptive semantic block partitioning with steep polynomial locality schedules, achieves near-baseline language modeling performance while providing interpretable attention patterns. Multiple independent training runs with different random seeds establish that results are statistically robust and highly reproducible. The approach dramatically outperforms both fixed-window localization and naive uniform locality constraints. Analysis reveals that maintaining flexibility through low-fidelity constraints preserves model capacity while providing interpretability benefits, and that steep schedules concentrating locality in decision-critical final layers while preserving distributed learning in early layers achieve near-baseline attention distribution characteristics. These findings demonstrate that interpretability mechanisms should align with semantic structure to achieve practical performance-interpretability tradeoffs for trustworthy AI systems.
- Abstract(参考訳): 本稿では,早期の分散層から後期の局所層への注目局所性の漸進的増加が,性能を保ちながら解釈可能な大規模言語モデル(LLM)を作成するための最適アーキテクチャであることを示す。
人工超知能の心理学を微調整した GPT-2 を用いた系統的な実験により, 完全分散から厳密な局所主義者までの7つの局所性構成を, 多項式増加(キネティックによる線形)を実装する5つの段階的なスケジュールで評価した。
本稿では,ネットワーク奥行きを戦略的に適用しながら,解釈可能性制約を自然な意味構造に整合させることができるかを検討する。
適応的セマンティックブロック分割と急激な多項式局所性スケジュールを組み合わせたプログレッシブセマンティックなセマンティックローカライゼーションは、解釈可能な注意パターンを提供しながら、ほぼベースライン言語モデリング性能を実現することを実証する。
異なるランダムな種で複数の独立した訓練が実行され、結果が統計的に堅牢で再現性が高いことが証明される。
この手法は固定ウィンドウの局所化と一様局所性制約の両方を劇的に上回る。
低忠実度制約による柔軟性の維持は、解釈可能性の利点を提供しながらモデルのキャパシティを保ち、早期層における分散学習を維持しながら決定クリティカルな最終層における局所性に集中する急激なスケジュールは、ほぼベースラインの注意分布特性を達成することを明らかにする。
これらの結果から,信頼性の高いAIシステムに対して,解釈可能性機構が意味構造と整合し,実用的な性能-解釈可能性トレードオフを実現することが示唆された。
関連論文リスト
- AILA--First Experiments with Localist Language Models [0.0]
本稿では,トランス言語モデルにおける制御可能な局所性の実証実験について述べる。
2層トランスアーキテクチャを用いたWikiTextコーパスの実験を行った。
予測実験により、中間的局所性値は解釈可能性と性能のトレードオフを最適化することが明らかとなった。
論文 参考訳(メタデータ) (2025-11-05T15:43:54Z) - Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models [73.19077622773075]
本稿では,空間知能を段階的に構築するための包括的方法論を提案する。
オブジェクトローカライゼーション、単一画像、マルチビュー、ビデオ空間推論タスクにまたがる26,610のサンプルを含むマルチモーダルデータセットであるSpatialLadder-26kを紹介する。
本研究では,物体の局所化による空間知覚の確立,多次元空間的タスクによる空間理解の発達,および検証可能な報酬を用いた強化学習による複雑な推論の強化を目的とした3段階のプログレッシブ・トレーニング・フレームワークを設計する。
論文 参考訳(メタデータ) (2025-10-09T17:50:54Z) - PDE Solvers Should Be Local: Fast, Stable Rollouts with Learned Local Stencils [20.49015396991881]
有限差分に着想を得たニューラルネットワークであるFINOは、厳密な局所性を強制する。
FINOは固定有限差分ステンシル係数を学習可能な畳み込みカーネルに置き換える。
最先端のオペレータ-ラーニングベースラインよりも最大44%低いエラー、最大2倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-09-30T12:42:32Z) - The Remarkable Robustness of LLMs: Stages of Inference? [5.346230590800585]
本研究では,Large Language Models (LLM) の構造的介入に対するロバスト性について検討する。
驚くべきことに、モデルは微調整なしでオリジナルのトップ1予測精度の72-95%を維持している。
論文 参考訳(メタデータ) (2024-06-27T17:57:03Z) - Understanding How Consistency Works in Federated Learning via Stage-wise
Relaxed Initialization [84.42306265220274]
フェデレートラーニング(Federated Learning, FL)は、大規模なローカルクライアントを協調してグローバルモデルをトレーニングする分散パラダイムである。
従来の研究は、FLがローカルクライアント間の矛盾した最適性によって引き起こされるクライアント・ドリフトの問題に悩まされていることを暗黙的に研究してきた。
FLにおけるクライアントドリフトの負の影響を緩和し,その物質を探索するために,我々はまず,効率的なFLアルゴリズム textitFedInit を設計する。
論文 参考訳(メタデータ) (2023-06-09T06:55:15Z) - Manifold-Aware Self-Training for Unsupervised Domain Adaptation on
Regressing 6D Object Pose [69.14556386954325]
視覚的回帰における合成データと実データとのドメインギャップは,グローバルな特徴アライメントと局所的な改善によって橋渡しされる。
提案手法は明示的な自己教師付き多様体正規化を取り入れ,領域間の一貫した累積的対象依存性を明らかにする。
暗黙的ニューラルファンクションを学習して、最も近いクラスビンへの相対的な方向と目標の距離を推定し、ターゲット分類予測を洗練することを目的としている。
論文 参考訳(メタデータ) (2023-05-18T08:42:41Z) - Delving into Sequential Patches for Deepfake Detection [64.19468088546743]
近年の顔偽造技術は、ほとんど追跡不可能なディープフェイクビデオを生み出しており、悪意のある意図で活用することができる。
従来の研究では、ディープフェイク法にまたがる一般化を追求する上で、局所的な低レベルな手がかりと時間的情報の重要性が指摘されてきた。
本稿では,局所的・時間的変換をベースとしたDeepfake Detectionフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-06T16:46:30Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。