Fugu-MT 論文翻訳(概要): RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer

論文の概要: RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer

arxiv url: http://arxiv.org/abs/2304.05659v1
Date: Wed, 12 Apr 2023 07:34:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-13 15:47:30.399284
Title: RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer
Title（参考訳）: RIFormer:Token Mixerを外しながらビジョンバックボーンを効果的に保つ
Authors: Jiahao Wang, Songyang Zhang, Yong Liu, Taiqiang Wu, Yujiu Yang, Xihui Liu, Kai Chen, Ping Luo, Dahua Lin
Abstract要約: 本稿では,基本構造ブロックのトークンミキサーを除去しながら,視覚バックボーンを効果的に維持する方法について検討する。視覚変換器(ViT)の自己アテンション(自己アテンション)としてのトークンミキサーは、異なる空間トークン間での情報通信を行うが、かなりの計算コストと遅延に悩まされる。
参考スコア（独自算出の注目度）: 95.71132572688143
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper studies how to keep a vision backbone effective while removing token mixers in its basic building blocks. Token mixers, as self-attention for vision transformers (ViTs), are intended to perform information communication between different spatial tokens but suffer from considerable computational cost and latency. However, directly removing them will lead to an incomplete model structure prior, and thus brings a significant accuracy drop. To this end, we first develop an RepIdentityFormer base on the re-parameterizing idea, to study the token mixer free model architecture. And we then explore the improved learning paradigm to break the limitation of simple token mixer free backbone, and summarize the empirical practice into 5 guidelines. Equipped with the proposed optimization strategy, we are able to build an extremely simple vision backbone with encouraging performance, while enjoying the high efficiency during inference. Extensive experiments and ablative analysis also demonstrate that the inductive bias of network architecture, can be incorporated into simple network structure with appropriate optimization strategy. We hope this work can serve as a starting point for the exploration of optimization-driven efficient network design. Project page: https://techmonsterwang.github.io/RIFormer/.
Abstract（参考訳）: 本稿では,基本構造ブロックのトークンミキサーを除去しながら,視覚バックボーンを効果的に維持する方法について検討する。視覚変換器(ViT)の自己注意としてのトークンミキサーは、異なる空間トークン間の情報通信を意図しているが、かなりの計算コストと遅延に悩まされている。しかし、それらを直接取り除くと、以前に不完全なモデル構造になり、その結果、かなりの精度が低下する。そこで我々はまず,トークンミキサーフリーモデルアーキテクチャの研究のために,再パラメータ化アイデアに基づくRepIdentityFormerベースを開発する。そして、改良された学習パラダイムを探求し、単純なトークンミキサーフリーバックボーンの制限を破り、経験的実践を5つのガイドラインにまとめる。提案した最適化戦略により、推論時に高い効率を享受しながら、性能を向上する非常に単純なビジョンバックボーンを構築することができる。広範な実験とアブレイティブ解析は、ネットワークアーキテクチャの帰納的バイアスを適切な最適化戦略で単純なネットワーク構造に組み込むことができることを示した。この作業が、最適化駆動の効率的なネットワーク設計の出発点になることを期待しています。プロジェクトページ: https://techmonsterwang.github.io/riformer/

関連論文リスト

Token Reduction Should Go Beyond Efficiency in Generative Models -- From Vision, Language to Multimodality [29.531450446701175]
本稿では, トークン削減は, 大規模生成モデルの時代において, 従来の効率重視の役割を超越すべきであると主張する。トークンの削減は、より深いマルチモーダル統合とアライメントを促進し、長い入力に対するコヒーレンスを維持し、トレーニングの安定性を高めることができると我々は主張する。我々は、アルゴリズム設計、強化学習誘導トークン削減、文脈内学習のためのトークン最適化、より広範なMLおよび科学領域を含む将来的な方向性について概説する。
論文参考訳（メタデータ） (2025-05-23T11:30:30Z)
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文参考訳（メタデータ） (2025-05-15T17:59:39Z)
Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次のトークン予測は,大規模言語モデル(LLM)のトレーニングの基本原則であるシーングラフデータセット上で,教師付き微調整(SFT)により学習したマルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。ノードレベルの報酬、エッジレベルの報酬、フォーマットの整合性報酬を統合したグラフ中心の報酬関数を設計する。
論文参考訳（メタデータ） (2025-04-18T10:46:22Z)
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers? [5.2768199606089095]
学習可能なアクティベーション関数(KAN)は、学習可能なアクティベーション関数で構成され、データからより複雑な関係を捉えることができる。本稿では,バニラ視覚変換器(ViT)のための一般学習可能なKolmogorov-Arnold Attention(KArAt)を最初に設計する。
論文参考訳（メタデータ） (2025-03-13T17:59:52Z)
Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning [54.956037293979506]
本論文は、視覚バックボーンと視覚バックボーンの相互作用と、その相互依存現象であるtextittextbfbackbonetextbfoptimizer textbfcoupling textbfbias (BOCB) について述べる。我々は、VGGやResNetのような標準CNNがSGDファミリとの顕著な共存を示すのに対し、ViTsやConvNeXtといった最近のアーキテクチャは適応学習率と密接な結合性を持っていることを観察する。
論文参考訳（メタデータ） (2024-10-08T21:14:23Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。 ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
PRANCE: Joint Token-Optimization and Structural Channel-Pruning for Adaptive ViT Inference [44.77064952091458]
PRANCEはVision Transformer圧縮フレームワークで、アクティベートされたチャネルを共同で最適化し、入力の特性に基づいてトークンを削減する。本稿では,ViTの推論過程を逐次決定プロセスとしてモデル化する,新しい「結果と結果」学習機構を提案する。我々のフレームワークは、プルーニング、マージング、プルーニングマージングといった様々なトークン最適化手法と互換性があることが示されている。
論文参考訳（メタデータ） (2024-07-06T09:04:27Z)
Neural Network Pruning by Gradient Descent [7.427858344638741]
我々は,Gumbel-Softmaxテクニックを取り入れた,新しい,かつ簡単なニューラルネットワークプルーニングフレームワークを提案する。ネットワークパラメータの0.15%しか持たないMNISTデータセット上で、高い精度を維持しながら、例外的な圧縮能力を実証する。我々は,ディープラーニングプルーニングと解釈可能な機械学習システム構築のための,有望な新たな道を開くと信じている。
論文参考訳（メタデータ） (2023-11-21T11:12:03Z)
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文参考訳（メタデータ） (2023-05-25T10:58:46Z)
LegoNet: A Fast and Exact Unlearning Architecture [59.49058450583149]
機械学習は、トレーニングされたモデルから削除された要求に対する特定のトレーニングサンプルの影響を削除することを目的としている。固定エンコーダ+複数アダプタのフレームワークを採用した新しいネットワークである textitLegoNet を提案する。我々は、LegoNetが許容できる性能を維持しつつ、高速かつ正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを示す。
論文参考訳（メタデータ） (2022-10-28T09:53:05Z)
Multi-Agent Feedback Enabled Neural Networks for Intelligent Communications [28.723523146324002]
本稿では,新しいマルチエージェントフィードバック対応ニューラルネットワーク(MAFENN)フレームワークを提案する。 MAFENNフレームワークは理論的には3人プレイのFeedback Stackelbergゲームに定式化され、このゲームはFeedback Stackelberg平衡に収束することが証明される。無線通信におけるMAFENNフレームワークの実現可能性を検証するため,マルチエージェントMAFENNベースの等化器(MAFENN-E)を開発した。
論文参考訳（メタデータ） (2022-05-22T05:28:43Z)
Backbone is All Your Need: A Simplified Architecture for Visual Object Tracking [69.08903927311283]
既存のトラッキングアプローチはカスタマイズされたサブモジュールに依存しており、アーキテクチャの選択に事前知識が必要である。本稿では,コンバータバックボーンを用いた簡易なトラッキングアーキテクチャ(SimTrack)を提案する。我々のSimTrackは、LaSOT/TNL2Kで2.5%/2.6%のAUCゲインでベースラインを改善し、ベルやホイッスルのない他の特殊な追跡アルゴリズムと競合する結果を得る。
論文参考訳（メタデータ） (2022-03-10T12:20:58Z)
Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。この問題を軽減するため, 単純で効果的な蒸留法を提案する。本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文参考訳（メタデータ） (2020-10-29T17:55:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。