Fugu-MT 論文翻訳(概要): Wave-Attractor-Tree: A Hierarchical Binary Tree Reduction Architecture for Efficient Sequence Modeling

論文の概要: Wave-Attractor-Tree: A Hierarchical Binary Tree Reduction Architecture for Efficient Sequence Modeling

arxiv url: http://arxiv.org/abs/2603.00812v1
Date: Sat, 28 Feb 2026 21:17:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.370647
Title: Wave-Attractor-Tree: A Hierarchical Binary Tree Reduction Architecture for Efficient Sequence Modeling
Title（参考訳）: Wave-Attractor-Tree:効率的なシーケンスモデリングのための階層型バイナリツリー削減アーキテクチャ
Authors: Igor Berezkin,
Abstract要約: 作業は階層的なバイナリツリーベースのリダクションを導入し、通常の自己アテンションを置き換える。このモデルは、コンバージェンス速度と長距離構造上の依存関係の精度の両方において、標準トランスフォーマーを著しく上回っている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Work introduces a hierarchical binary tree-based reduction that replaces standard self-attention. The core idea is to use a recursive Gated Linear Unit merge operation, achieving O(n) total merge operations O(log n) parallel depth O(n d^2) total work and O(n) space complexity. In these experiments, the model significantly outperforms standard Transformers in both convergence speed and accuracy on long-range structural dependencies, specifically where hierarchical inductive bias is critical.
Abstract（参考訳）: 作業は階層的なバイナリツリーベースのリダクションを導入し、通常の自己アテンションを置き換える。中心となる考え方は、再帰的な Gated Linear Unit メルジ演算を使い、O(n) トータルマージ演算 O(log n) 並列深さ O(n d^2) トータルワークと O(n) 空間複雑性を達成することである。これらの実験では、このモデルは収束速度と長距離構造依存の精度の両方において標準変換器よりも著しく優れており、特に階層的帰納バイアスが重要である。

関連論文リスト

PRISM: Parallel Residual Iterative Sequence Model [52.26239951489612]
我々はこの緊張を解決するためにPRISM(Parallel Residual Iterative Sequence Model)を提案する。 PRISMは、パラレル化可能な形で多段階精製の重要な構造特性を捉える、ソルバに着想を得た帰納バイアスを導入している。この定式化が Rank-$L$ の蓄積を達成することを証明し、更新多様体を単一ステップの Rank-$1$ ボトルネックを超えて構造的に拡張する。
論文参考訳（メタデータ） (2026-02-11T12:39:41Z)
Hinge Regression Tree: A Newton Method for Oblique Regression Tree Splitting [18.562483381753804]
2つの線形予測器上での非線形最小二乗問題として分割するHynge Regression Tree(HRT)を提案する。このノードレベルの最適化を解析し、バックトラックライン探索の変種について、局所的な目的が単調に減少し収束することを証明する。合成および実世界のベンチマークで、HRTはよりコンパクトな構造を持つ単木ベースラインにマッチするか、より優れることを示す。
論文参考訳（メタデータ） (2026-02-05T06:49:01Z)
RS-ORT: A Reduced-Space Branch-and-Bound Algorithm for Optimal Regression Trees [2.612627266839037]
MIP(Mixed-integer Programming)は最適な決定木を学習するための強力なフレームワークとして登場した。連続的な特徴を内在的にバイナライズすることは、グローバルな最適性を犠牲にし、しばしば不必要に深い木を産み出す。最適回帰木学習を2段階最適化問題として再放送し、RS-ORT(Reduceed-Space Optimal Regression Trees)を提案する。 RS-ORTは木構造変数のみに枝分かれする特殊分岐結合(BB)アルゴリズムである。
論文参考訳（メタデータ） (2025-10-27T22:17:09Z)
Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文参考訳（メタデータ） (2025-06-12T17:32:02Z)
GrootVL: Tree Topology is All You Need in State Space Model [66.36757400689281]
GrootVLは、視覚的タスクとテキストタスクの両方に適用できる多目的マルチモーダルフレームワークである。本手法は, 画像分類, オブジェクト検出, セグメンテーションにおいて, 既存の構造化状態空間モデルよりも大幅に優れる。大規模言語モデルの微調整により,本手法は訓練コストの少ない複数のテキストタスクにおいて一貫した改善を実現する。
論文参考訳（メタデータ） (2024-06-04T15:09:29Z)
Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)
Differentiable Tree Operations Promote Compositional Generalization [106.59434079287661]
微分可能ツリーマシン(DTM)アーキテクチャは、インタプリタと外部メモリとエージェントを統合し、ツリー操作をシーケンシャルに選択することを学ぶ。 DTMは100%、Transformer、Tree Transformer、LSTM、Tree2Tree LSTMといった既存のベースラインは30%以下である。
論文参考訳（メタデータ） (2023-06-01T14:46:34Z)
On Single-Objective Sub-Graph-Based Mutation for Solving the Bi-Objective Minimum Spanning Tree Problem [0.0]
我々は、進化的計算を取り入れた$mathcalNP$-hard multi-objective least- spanning tree problem (moMST)の効率的な近似に寄与する。得られた知見に基づいて、高バイアスのサブグラフベースの突然変異演算子を設計する。その結果,サブグラフベースの演算子が文献のベースラインアルゴリズムに勝っていることを確認した。
論文参考訳（メタデータ） (2023-05-31T22:35:17Z)
ORCHARD: A Benchmark For Measuring Systematic Generalization of Multi-Hierarchical Reasoning [8.004425059996963]
本稿では,Transformer と LSTM のモデルが体系的一般化において驚くほど失敗することを示す。また、階層間の参照の増加に伴い、Transformerはランダムにしか動作しないことを示す。
論文参考訳（メタデータ） (2021-11-28T03:11:37Z)
Robustifying Algorithms of Learning Latent Trees with Vector Variables [92.18777020401484]
Recursive Grouping (RG) と Chow-Liu Recursive Grouping (CLRG) のサンプル複雑性について述べる。 RG,CLRG,Neighbor Joining (NJ) およびSpectral NJ (SNJ) をトラッピングした内積を用いて強化する。我々は、潜在木の構造学習において、最初の既知のインスタンス依存の不合理性の結果を導出する。
論文参考訳（メタデータ） (2021-06-02T01:37:52Z)
Spectral Top-Down Recovery of Latent Tree Models [13.681975313065477]
スペクトルトップダウン・リカバリ (STDR) は、大きな潜在木モデルを推定するための分割・コンカレントアプローチである。 STDRの分割ステップは非ランダムです。代わりに、観測されたノードに関連する適切なラプラシア行列のFiedlerベクトルに基づいている。私達はSTDRが統計的に一貫性があることを証明し、高い確率で木を正確に回復するために必要なサンプルの数を縛ります。
論文参考訳（メタデータ） (2021-02-26T02:47:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。