論文の概要: What Is the Minimum Architecture for Prolepsis? Early Irrevocable Commitment Across Tasks in Small Transformers
- arxiv url: http://arxiv.org/abs/2604.15010v1
- Date: Thu, 16 Apr 2026 13:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.92432
- Title: What Is the Minimum Architecture for Prolepsis? Early Irrevocable Commitment Across Tasks in Small Transformers
- Title(参考訳): プロレプシスの最小構造とは何か? : 小形変圧器におけるタスク間の初期不可解なコミット
- Authors: Éric Jacopin,
- Abstract要約: textbfprolepsisを導入します: トランスフォーマーが早期にコミットし、タスク固有のアテンションヘッドがコミットメントを持続し、レイヤがそれを修正します。
すべての実験は1つの消費者向けGPU(16,GB VRAM)で実行される
- 参考スコア(独自算出の注目度): 0.7310043452300737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When do transformers commit to a decision, and what prevents them from correcting it? We introduce \textbf{prolepsis}: a transformer commits early, task-specific attention heads sustain the commitment, and no layer corrects it. Replicating \citeauthor{lindsey2025biology}'s (\citeyear{lindsey2025biology}) planning-site finding on open models (Gemma~2 2B, Llama~3.2 1B), we ask five questions. (Q1)~Planning is invisible to six residual-stream methods; CLTs are necessary. (Q2)~The planning-site spike replicates with identical geometry. (Q3)~Specific attention heads route the decision to the output, filling a gap flagged as invisible to attribution graphs. (Q4)~Search requires ${\leq}16$ layers; commitment requires more. (Q5)~Factual recall shows the same motif at a different network depth, with zero overlap between recurring planning heads and the factual top-10. Prolepsis is architectural: the template is shared, the routing substrates differ. All experiments run on a single consumer GPU (16\,GB VRAM).
- Abstract(参考訳): トランスフォーマーはいつ意思決定をコミットするのでしょうか。
トランスフォーマーが早期コミットし、タスク固有のアテンションヘッドがコミットメントを持続し、レイヤがそれを修正します。
開モデル (Gemma~2B, Llama~3.21B) 上の計画的サイト探索を再現して、5つの質問を行う。
(Q1)〜プランニングは6つの残留流法には見えないが、CLTは必要である。
(Q2)~計画部位スパイクは同じ形状で複製する。
(Q3)〜特筆すべき注意は、その決定を出力にルートし、帰属グラフに見えないようにフラグ付けされたギャップを埋める。
(Q4)~Searchは${\leq}16$レイヤを必要とする。
(Q5)~Factualリコールは、異なるネットワーク深さで同じモチーフを示し、繰り返し発生する計画ヘッドと実際のトップ10の重複はゼロである。
Prolepsisはアーキテクチャであり、テンプレートは共有され、ルーティング基板が異なる。
すべての実験は、単一のコンシューマGPU(16,GB VRAM)で実行される。
関連論文リスト
- ARGOS: Who, Where, and When in Agentic Multi-Camera Person Search [49.61286310968402]
我々は,対話型推論問題として,マルチカメラの人物探索を再構成する最初のベンチマークとフレームワークであるARGOSを紹介する。
ARGOSエージェントはあいまいな目撃声明を受け取り、何を尋ねるか、いつ空間的または時間的ツールを呼び出すか、不明瞭な応答をどう解釈するかを判断しなければならない。
このベンチマークは、意味的知覚(Who)、空間的推論(Where)、時間的推論(When)の3つのプログレッシブトラックにおいて、14の現実世界シナリオにまたがる2,691のタスクからなる。
論文 参考訳(メタデータ) (2026-04-14T14:06:19Z) - GraphWalker: Agentic Knowledge Graph Question Answering via Synthetic Trajectory Curriculum [22.56991897386462]
エージェント知識グラフ質問応答(KGQA)は、エージェントが知識グラフ(KG)と反復的に対話する必要がある。
既存のアプローチではエージェント探索が制限されることが多いが、現在のトレーニングパイプラインは通常、事前に定義された軌道に対する推論を限定する。
本稿では,これらの課題に対処するエージェントKGQAフレームワークである textitGraphWalker を提案する。
論文 参考訳(メタデータ) (2026-03-30T14:56:59Z) - Tabula RASA: Exposing and Breaking the Relational Bottleneck in Transformers [0.0]
RASA(Relation-Aware Sparse Attention)は、リレーショナル推論のための構造的帰納バイアスを提供する最小限のアーキテクチャ修正である。
以上の結果から,複雑性理論解析に基づく最小限のアーキテクチャ変更は,マルチホップ推論を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2026-02-02T21:35:39Z) - Automated Circuit Interpretation via Probe Prompting [0.0]
本稿では、帰属グラフをコンパクトで解釈可能な部分グラフに変換する自動パイプラインであるプローブプロンプトを提案する。
5つのプロンプトにまたがって、プローブプロンプトされたサブグラフは、複雑さを圧縮しながら高い説明的カバレッジを保っている。
幾何学的クラスタリングベースラインと比較すると、概念整列群はより高い行動コヒーレンスを示す。
論文 参考訳(メタデータ) (2025-11-10T11:53:36Z) - Exploring Diffusion Transformer Designs via Grafting [82.91123758506876]
計算予算の少ない新しいアーキテクチャを実現するために,事前に訓練された拡散変換器(DiT)を編集する簡単な手法であるグラフト方式を提案する。
演算子置換からアーキテクチャ再構成に至るまで,事前訓練したDiTをグラフトすることで,新しい拡散モデルの設計を探索できることが示されている。
論文 参考訳(メタデータ) (2025-06-05T17:59:40Z) - Attention Map Guided Transformer Pruning for Edge Device [98.42178656762114]
視覚トランスフォーマー (ViT) は, 全体的かつ隠蔽された人物再識別 (Re-ID) タスクにおいて, 有望な成功を収めた。
本稿では、冗長なトークンとヘッドの両方を除去する新しいアテンションマップガイド(AMG)トランスフォーマープルーニング法を提案する。
Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-04T01:51:53Z) - Graph Attention with Hierarchies for Multi-hop Question Answering [19.398300844233837]
本稿では,HotpotQAに対するSOTA Graph Neural Network(GNN)モデルの拡張について述べる。
HotpotQAの実験は、提案された修正の効率を実証している。
論文 参考訳(メタデータ) (2023-01-27T15:49:50Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [97.03772272417599]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。