論文の概要: Progressive Localisation in Localist LLMs
- arxiv url: http://arxiv.org/abs/2511.18375v1
- Date: Sun, 23 Nov 2025 09:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.806336
- Title: Progressive Localisation in Localist LLMs
- Title(参考訳): ローカリストLSMにおけるプログレッシブ・ローカライゼーション
- Authors: Joachim Diederich,
- Abstract要約: 本稿では,解釈可能な大規模言語モデルを作成する上で,プログレッシブローカライゼーションが最適アーキテクチャであることを示す。
私たちの重要な発見は、レイトレイヤのローカライゼーションがAIの安全性アプリケーションに不可欠であることです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper demonstrates that progressive localization, the gradual increase of attention locality from early distributed layers to late localized layers, represents the optimal architecture for creating interpretable large language models while preserving performance. Through systematic experimentation with GPT-2 fine tuned on The Psychology of Artificial Superintelligence, we evaluate seven locality configurations ranging from fully distributed to strictly localist, with five progressive schedules implementing polynomial increases (linear through quintic). Our key finding is that late-layer localization is critical for AI safety applications: the progressive quintic schedule achieves perplexity of 14.64, only 1.89 times worse than the fully distributed baseline while providing interpretable attention patterns in output layers where safety-critical decisions are made. This represents an 84.2% improvement over previous localist implementations and narrows the performance gap from 6.6 times to 1.89 times. The systematic relationship between localization schedule steepness and performance validates the hypothesis that early layers require distributed processing for feature extraction while late layers benefit from localized, interpretable attention for decision-making. These findings establish progressive localization as the principled approach for building transparent AI systems in safety-critical domains, where human oversight of model reasoning is essential.
- Abstract(参考訳): 本稿では,早期の分散層から後期の局所層への注目局所性の段階的増加である進行的局所化が,性能を保ちながら解釈可能な大規模言語モデルを作成する上で最適なアーキテクチャであることを示す。
人工超知能の心理学に基づいて, GPT-2 を用いた系統的な実験を行い, 完全分散から厳密な局所主義者までの7つの局所性構成を評価し, 多項式増加(キネティックによる線形化)を5つの段階的に実施した。
プログレッシブ・クインティック・スケジュールは14.64で、完全に分散されたベースラインのわずか1.89倍の精度で、安全クリティカルな決定がなされた出力層で解釈可能な注意パターンを提供する。
これは、以前のローカリスト実装よりも84.2%改善され、パフォーマンスギャップが6.6倍から1.89倍に縮小されたことを意味する。
局所化スケジュールの急激さと性能の体系的関係は、初期層が特徴抽出に分散処理を必要とするのに対して、後期層は局所化して解釈可能な意思決定に注意を払っているという仮説を検証する。
これらの知見は、モデル推論の人間の監督が不可欠である安全クリティカルな領域において、透明なAIシステムを構築するための原則的アプローチとして、進歩的ローカライゼーションを確立している。
関連論文リスト
- AILA--First Experiments with Localist Language Models [0.0]
本稿では,トランス言語モデルにおける制御可能な局所性の実証実験について述べる。
2層トランスアーキテクチャを用いたWikiTextコーパスの実験を行った。
予測実験により、中間的局所性値は解釈可能性と性能のトレードオフを最適化することが明らかとなった。
論文 参考訳(メタデータ) (2025-11-05T15:43:54Z) - Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models [73.19077622773075]
本稿では,空間知能を段階的に構築するための包括的方法論を提案する。
オブジェクトローカライゼーション、単一画像、マルチビュー、ビデオ空間推論タスクにまたがる26,610のサンプルを含むマルチモーダルデータセットであるSpatialLadder-26kを紹介する。
本研究では,物体の局所化による空間知覚の確立,多次元空間的タスクによる空間理解の発達,および検証可能な報酬を用いた強化学習による複雑な推論の強化を目的とした3段階のプログレッシブ・トレーニング・フレームワークを設計する。
論文 参考訳(メタデータ) (2025-10-09T17:50:54Z) - PDE Solvers Should Be Local: Fast, Stable Rollouts with Learned Local Stencils [20.49015396991881]
有限差分に着想を得たニューラルネットワークであるFINOは、厳密な局所性を強制する。
FINOは固定有限差分ステンシル係数を学習可能な畳み込みカーネルに置き換える。
最先端のオペレータ-ラーニングベースラインよりも最大44%低いエラー、最大2倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-09-30T12:42:32Z) - The Remarkable Robustness of LLMs: Stages of Inference? [5.346230590800585]
本研究では,Large Language Models (LLM) の構造的介入に対するロバスト性について検討する。
驚くべきことに、モデルは微調整なしでオリジナルのトップ1予測精度の72-95%を維持している。
論文 参考訳(メタデータ) (2024-06-27T17:57:03Z) - Understanding How Consistency Works in Federated Learning via Stage-wise
Relaxed Initialization [84.42306265220274]
フェデレートラーニング(Federated Learning, FL)は、大規模なローカルクライアントを協調してグローバルモデルをトレーニングする分散パラダイムである。
従来の研究は、FLがローカルクライアント間の矛盾した最適性によって引き起こされるクライアント・ドリフトの問題に悩まされていることを暗黙的に研究してきた。
FLにおけるクライアントドリフトの負の影響を緩和し,その物質を探索するために,我々はまず,効率的なFLアルゴリズム textitFedInit を設計する。
論文 参考訳(メタデータ) (2023-06-09T06:55:15Z) - Manifold-Aware Self-Training for Unsupervised Domain Adaptation on
Regressing 6D Object Pose [69.14556386954325]
視覚的回帰における合成データと実データとのドメインギャップは,グローバルな特徴アライメントと局所的な改善によって橋渡しされる。
提案手法は明示的な自己教師付き多様体正規化を取り入れ,領域間の一貫した累積的対象依存性を明らかにする。
暗黙的ニューラルファンクションを学習して、最も近いクラスビンへの相対的な方向と目標の距離を推定し、ターゲット分類予測を洗練することを目的としている。
論文 参考訳(メタデータ) (2023-05-18T08:42:41Z) - Delving into Sequential Patches for Deepfake Detection [64.19468088546743]
近年の顔偽造技術は、ほとんど追跡不可能なディープフェイクビデオを生み出しており、悪意のある意図で活用することができる。
従来の研究では、ディープフェイク法にまたがる一般化を追求する上で、局所的な低レベルな手がかりと時間的情報の重要性が指摘されてきた。
本稿では,局所的・時間的変換をベースとしたDeepfake Detectionフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-06T16:46:30Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。