論文の概要: Progressive Localisation in Localist LLMs
- arxiv url: http://arxiv.org/abs/2511.18375v2
- Date: Fri, 28 Nov 2025 10:44:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 15:47:02.717896
- Title: Progressive Localisation in Localist LLMs
- Title(参考訳): ローカリストLSMにおけるプログレッシブ・ローカライゼーション
- Authors: Joachim Diederich,
- Abstract要約: 本稿では,解釈可能な大言語モデル(LLM)を作成する上で,プログレッシブローカライゼーションが最適アーキテクチャであることを示す。
本稿では,ネットワーク奥行きを戦略的に適用しながら,解釈可能性制約を自然な意味構造に整合させることができるかを検討する。
本研究では,セマンティックブロックと急激な適応的局所性スケジュールを組み合わせた進行的セマンティックローカライゼーションが,解釈可能な注意パターンを提供しながら,ほぼベースライン言語モデリング性能を実現することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper demonstrates that progressive localization, the gradual increase of attention locality from early distributed layers to late localized layers, represents the optimal architecture for creating interpretable large language models (LLMs) while preserving performance. Through systematic experimentation with GPT-2 fine-tuned on The Psychology of Artificial Superintelligence, we evaluate seven locality configurations ranging from fully distributed to strictly localist, with five progressive schedules implementing polynomial increases (linear through quintic). We investigate whether interpretability constraints can be aligned with natural semantic structure while being applied strategically across network depth. We demonstrate that progressive semantic localization, combining adaptive semantic block partitioning with steep polynomial locality schedules, achieves near-baseline language modeling performance while providing interpretable attention patterns. Multiple independent training runs with different random seeds establish that results are statistically robust and highly reproducible. The approach dramatically outperforms both fixed-window localization and naive uniform locality constraints. Analysis reveals that maintaining flexibility through low-fidelity constraints preserves model capacity while providing interpretability benefits, and that steep schedules concentrating locality in decision-critical final layers while preserving distributed learning in early layers achieve near-baseline attention distribution characteristics. These findings demonstrate that interpretability mechanisms should align with semantic structure to achieve practical performance-interpretability tradeoffs for trustworthy AI systems.
- Abstract(参考訳): 本稿では,早期の分散層から後期の局所層への注目局所性の漸進的増加が,性能を保ちながら解釈可能な大規模言語モデル(LLM)を作成するための最適アーキテクチャであることを示す。
人工超知能の心理学を微調整した GPT-2 を用いた系統的な実験により, 完全分散から厳密な局所主義者までの7つの局所性構成を, 多項式増加(キネティックによる線形)を実装する5つの段階的なスケジュールで評価した。
本稿では,ネットワーク奥行きを戦略的に適用しながら,解釈可能性制約を自然な意味構造に整合させることができるかを検討する。
適応的セマンティックブロック分割と急激な多項式局所性スケジュールを組み合わせたプログレッシブセマンティックなセマンティックローカライゼーションは、解釈可能な注意パターンを提供しながら、ほぼベースライン言語モデリング性能を実現することを実証する。
異なるランダムな種で複数の独立した訓練が実行され、結果が統計的に堅牢で再現性が高いことが証明される。
この手法は固定ウィンドウの局所化と一様局所性制約の両方を劇的に上回る。
低忠実度制約による柔軟性の維持は、解釈可能性の利点を提供しながらモデルのキャパシティを保ち、早期層における分散学習を維持しながら決定クリティカルな最終層における局所性に集中する急激なスケジュールは、ほぼベースラインの注意分布特性を達成することを明らかにする。
これらの結果から,信頼性の高いAIシステムに対して,解釈可能性機構が意味構造と整合し,実用的な性能-解釈可能性トレードオフを実現することが示唆された。
関連論文リスト
- StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training [94.568675548967]
実環境における訓練強化学習(RL)システムは、ノイズの多い監視とドメイン外の一般化が不十分なため、依然として困難である。
近年の分布RL法は、複数の量子点を持つ値をモデル化することでロバスト性を向上させるが、スカラーとして各量子点を独立に学習する。
DFPOは、時間ステップをまたいだ連続フローとして値をモデル化する、ロバストな分散RLフレームワークである。
論文 参考訳(メタデータ) (2026-02-05T17:07:42Z) - Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - AILA--First Experiments with Localist Language Models [0.0]
本稿では,トランス言語モデルにおける制御可能な局所性の実証実験について述べる。
2層トランスアーキテクチャを用いたWikiTextコーパスの実験を行った。
予測実験により、中間的局所性値は解釈可能性と性能のトレードオフを最適化することが明らかとなった。
論文 参考訳(メタデータ) (2025-11-05T15:43:54Z) - Localist LLMs with Recruitment Learning [0.0]
連続的に調整可能な内部表現を持つ大規模言語モデルを訓練するための新しいフレームワークを提案する。
主な革新は,(1) モデルの再訓練を必要とせず,訓練と推論の双方において局所化の度合いを動的に制御する局所性ダイヤル,(2) セマンティックブロックを必要に応じて適応的に割り当てる情報理論的採用機構である。
論文 参考訳(メタデータ) (2025-10-20T09:58:34Z) - Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - Localist LLMs -- A Mathematical Framework for Dynamic Locality Control [0.0]
鍵となる革新はローカリティダイヤル(Locality dial)であり、モデル再トレーニングを必要とせず、トレーニングと推論の両方で局所化の度合いを動的に制御する調整可能なパラメータである。
群間隔のペナルティが一定のしきい値を超えると、モデルの注意機構は意味論的に関連するブロックに集中し、無視可能な誤りでエントロピーが低く、忠実度が高いことを証明する。
論文 参考訳(メタデータ) (2025-10-10T12:44:59Z) - SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models [73.19077622773075]
本稿では,空間知能を段階的に構築するための包括的方法論を提案する。
オブジェクトローカライゼーション、単一画像、マルチビュー、ビデオ空間推論タスクにまたがる26,610のサンプルを含むマルチモーダルデータセットであるSpatialLadder-26kを紹介する。
本研究では,物体の局所化による空間知覚の確立,多次元空間的タスクによる空間理解の発達,および検証可能な報酬を用いた強化学習による複雑な推論の強化を目的とした3段階のプログレッシブ・トレーニング・フレームワークを設計する。
論文 参考訳(メタデータ) (2025-10-09T17:50:54Z) - PDE Solvers Should Be Local: Fast, Stable Rollouts with Learned Local Stencils [20.49015396991881]
有限差分に着想を得たニューラルネットワークであるFINOは、厳密な局所性を強制する。
FINOは固定有限差分ステンシル係数を学習可能な畳み込みカーネルに置き換える。
最先端のオペレータ-ラーニングベースラインよりも最大44%低いエラー、最大2倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-09-30T12:42:32Z) - Boosting Neural Language Inference via Cascaded Interactive Reasoning [38.125341836302525]
自然言語推論(NLI)は、与えられた前提と仮説の間の論理的関係の確認に焦点を当てている。
この課題は、多様な言い回し、意味的複雑さ、文脈的ニュアンスといった固有の言語的特徴により、重大な課題を提起する。
NLIにおける深い意味理解のために設計された新しいアーキテクチャであるCascaded Interactive Reasoning Network (CIRN)を紹介する。
論文 参考訳(メタデータ) (2025-05-10T11:37:15Z) - Stochastic Layer-wise Learning: Scalable and Efficient Alternative to Backpropagation [1.0285749562751982]
バックプロパゲーションは現代のディープラーニングを支えるものだが、グローバル同期への依存はスケーラビリティを制限し、高いメモリコストを発生させる。
対照的に、完全に局所的な学習ルールはより効率的であるが、コヒーレントなグローバルラーニングに必要な層間調整を維持するのに苦労することが多い。
本稿では,グローバルな目標を協調的なレイヤローカル更新に分解するレイヤワイズ学習アルゴリズムであるレイヤワイズ学習(SLL)を紹介する。
論文 参考訳(メタデータ) (2025-05-08T12:32:29Z) - The Remarkable Robustness of LLMs: Stages of Inference? [5.346230590800585]
本研究では,Large Language Models (LLM) の構造的介入に対するロバスト性について検討する。
驚くべきことに、モデルは微調整なしでオリジナルのトップ1予測精度の72-95%を維持している。
論文 参考訳(メタデータ) (2024-06-27T17:57:03Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - Adaptive Global-Local Representation Learning and Selection for
Cross-Domain Facial Expression Recognition [54.334773598942775]
ドメインシフトは、クロスドメイン顔表情認識(CD-FER)において重要な課題となる
適応的グローバルローカル表現学習・選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-20T02:21:41Z) - Understanding How Consistency Works in Federated Learning via Stage-wise
Relaxed Initialization [84.42306265220274]
フェデレートラーニング(Federated Learning, FL)は、大規模なローカルクライアントを協調してグローバルモデルをトレーニングする分散パラダイムである。
従来の研究は、FLがローカルクライアント間の矛盾した最適性によって引き起こされるクライアント・ドリフトの問題に悩まされていることを暗黙的に研究してきた。
FLにおけるクライアントドリフトの負の影響を緩和し,その物質を探索するために,我々はまず,効率的なFLアルゴリズム textitFedInit を設計する。
論文 参考訳(メタデータ) (2023-06-09T06:55:15Z) - Manifold-Aware Self-Training for Unsupervised Domain Adaptation on
Regressing 6D Object Pose [69.14556386954325]
視覚的回帰における合成データと実データとのドメインギャップは,グローバルな特徴アライメントと局所的な改善によって橋渡しされる。
提案手法は明示的な自己教師付き多様体正規化を取り入れ,領域間の一貫した累積的対象依存性を明らかにする。
暗黙的ニューラルファンクションを学習して、最も近いクラスビンへの相対的な方向と目標の距離を推定し、ターゲット分類予測を洗練することを目的としている。
論文 参考訳(メタデータ) (2023-05-18T08:42:41Z) - Delving into Sequential Patches for Deepfake Detection [64.19468088546743]
近年の顔偽造技術は、ほとんど追跡不可能なディープフェイクビデオを生み出しており、悪意のある意図で活用することができる。
従来の研究では、ディープフェイク法にまたがる一般化を追求する上で、局所的な低レベルな手がかりと時間的情報の重要性が指摘されてきた。
本稿では,局所的・時間的変換をベースとしたDeepfake Detectionフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-06T16:46:30Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。