Fugu-MT 論文翻訳(概要): Why Training-Free Token Reduction Collapses: The Inherent Instability of Pairwise Scoring Signals

論文の概要: Why Training-Free Token Reduction Collapses: The Inherent Instability of Pairwise Scoring Signals

arxiv url: http://arxiv.org/abs/2604.16745v1
Date: Fri, 17 Apr 2026 23:26:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.155576
Title: Why Training-Free Token Reduction Collapses: The Inherent Instability of Pairwise Scoring Signals
Title（参考訳）: トレーニングフリーのトーケン低減が崩壊する理由 : ペアワイズ・スコーリング・シグナルの因果的不安定性
Authors: Yang Shanglin,
Abstract要約: ビジョントランスフォーマーのトレーニング不要なトークン削減方法は異なるスコアリング機構を用いるが、高い圧縮で密に一致した崖のような崩壊を共有できる。我々は,(1)信号非依存のエラー増幅器に分解する2つのツールを用いて,一貫性のランキング $_s$ と非対角相関 $_textoff$ を作成した。我々はCATISを構成的検証として構築し、単一信号はトリガー閾値を上昇させ、トリアージは利得を抑制する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training-free token reduction methods for Vision Transformers (ToMe, ToFu, PiToMe, and MCTF) employ different scoring mechanisms, yet they share a closely matched cliff-like collapse at high compression. This paper explains \emph{why}. We develop a diagnostic framework with two tools, ranking consistency $ρ_s$ and off-diagonal correlation $ρ_\text{off}$, that decomposes the collapse into (1)a signal-agnostic error amplifier inherent to layer-wise reduction, predicting convex Pareto curves and $r_{\text{crit}} \propto 1/L$; and (2)shared reliance on \emph{pairwise} similarity signals whose ranking consistency degrades from $ρ_s{=}0.88$ to $0.27$ in deep layers. Pairwise rankings are inherently unstable ($O(N_p^2)$ joint perturbations) while unary signals enjoy greater stability ($O(N_p)$ perturbations, CLT). From three design principles derived from this diagnosis, we construct CATIS as a constructive validation: unary signals raise the trigger threshold, triage suppresses the gain. On ViT-Large at 63% FLOPs reduction, CATIS retains 96.9% of vanilla accuracy (81.0%) on ImageNet-1K where all baselines collapse to 43--65%.
Abstract（参考訳）: ビジョン変換器(ToMe、ToFu、PiToMe、MCTF)のトレーニング不要なトークン削減手法は、異なるスコアリング機構を採用しているが、高い圧縮で密に一致した崖のような崩壊を共有する。本稿では,「emph{why}」を解説する。そこで我々は,(1)信号非依存の誤差増幅器,(1)凸パレート曲線および$r_{\text{crit}} \propto 1/L$,(2)ランク一貫性が $ρ_s{=}0.88$ から $0.27$ に低下した \emph{pairwise} 類似性信号へのシェード依存,という2つのツールを用いた診断フレームワークを開発した。ペアワイズランキングは本質的に不安定(O(N_p^2)$関節摂動)であるが、ユニタリ信号はより安定した(O(N_p)$摂動、CLT)。この診断から導かれた3つの設計原則から、一意的な信号がトリガー閾値を上昇させ、トリアージが利得を抑制するという構成的検証としてCATISを構築する。 FLOPsの63%のVT-Largeでは、CATISはImageNet-1Kの96.9%のバニラ精度(81.0%)を維持しており、すべてのベースラインが43～65%に崩壊している。

関連論文リスト

Hardware Validation of DAGI via a Modular "Ridge" Signature and High-Order Synergistic Information [0.0]
IBM Quantumハードウェア上でのDAGI(Directed Acyclic Graph Information)フレームワーク。理想的な出力分布が低次元モジュラー多様体(リッジ)に制約される小さな制御された実験キーリカバリはチャンスを超えた:ショット毎の精度0.1689(チャンス0.125,95% Wilson CI[0.1610, 0.1772]) これらの結果は、DAGIが非自明でハードウェアに耐性のある情報構造を検出し、定量化するという主張を支持する。
論文参考訳（メタデータ） (2026-04-16T14:16:59Z)
When Self-Reference Fails to Close: Matrix-Level Dynamics in Large Language Models [0.0]
自己参照的ステートメントとメタ認知的プロンプトは、主要な崩壊関連メトリクスのパラドックス的自己参照よりも安定している。我々は、NCTRが有限深度変圧器をこれらの問題に集中する力学系へ強制することを提案する。
論文参考訳（メタデータ） (2026-04-13T23:23:02Z)
Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。 GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文参考訳（メタデータ） (2026-03-17T08:41:50Z)
Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文参考訳（メタデータ） (2026-02-10T21:08:53Z)
Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文参考訳（メタデータ） (2026-01-24T05:32:50Z)
Spectral Sentinel: Scalable Byzantine-Robust Decentralized Federated Learning via Sketched Random Matrix Theory on Blockchain [0.0]
ビザンチンのクライアントは、不均一な(Non-IID)データの下での濃度勾配を中毒する。本稿では,ビザンチン検出・集約フレームワークであるSpectral Sentinelを提案する。 Polygonネットワーク上でブロックチェーンを統合することで,完全なシステムを実現しています。
論文参考訳（メタデータ） (2025-12-14T09:43:03Z)
INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。 $mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文参考訳（メタデータ） (2025-11-16T20:14:28Z)
Numerical Fragility in Transformers: A Layer-wise Theory for Explaining, Forecasting, and Mitigating Instability [0.0]
エラーがいつどこで発生するかを予測する一階のモジュールワイズ理論を提示する。自己注意のために、3つの解釈可能な診断に分解する層間境界を導出する。また、精度と幅を意識したLayerNormインジケータ$rho_rm LN$も導入する。
論文参考訳（メタデータ） (2025-10-17T01:03:02Z)
Label Distributionally Robust Losses for Multi-class Classification: Consistency, Robustness and Adaptivity [55.29408396918968]
多クラス分類のためのラベル分布ロバスト(LDR)損失という損失関数群について検討した。我々の貢献は、多クラス分類のためのLDR損失のトップ$kの一貫性を確立することによって、一貫性と堅牢性の両方を含んでいる。本稿では,各インスタンスのクラスラベルの雑音度に個別化温度パラメータを自動的に適応させる適応型LDR損失を提案する。
論文参考訳（メタデータ） (2021-12-30T00:27:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。