Fugu-MT 論文翻訳(概要): Vision-LSTM: xLSTM as Generic Vision Backbone

論文の概要: Vision-LSTM: xLSTM as Generic Vision Backbone

arxiv url: http://arxiv.org/abs/2406.04303v1
Date: Thu, 6 Jun 2024 17:49:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 13:30:41.737031
Title: Vision-LSTM: xLSTM as Generic Vision Backbone
Title（参考訳）: Vision-LSTM: ジェネリックビジョンバックボーンとしてのxLSTM
Authors: Benedikt Alkin, Maximilian Beck, Korbinian Pöppel, Sepp Hochreiter, Johannes Brandstetter,
Abstract要約: コンピュータビジョンに対する xLSTM ビルディングブロックの適応である Vision-LSTM (ViL) を導入する。 ViLはxLSTMブロックのスタックで構成され、奇異ブロックはパッチトークンのシーケンスを上から下へ処理する。
参考スコア（独自算出の注目度）: 15.268672785769525
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers are widely used as generic backbones in computer vision, despite initially introduced for natural language processing. Recently, the Long Short-Term Memory (LSTM) has been extended to a scalable and performant architecture - the xLSTM - which overcomes long-standing LSTM limitations via exponential gating and parallelizable matrix memory structure. In this report, we introduce Vision-LSTM (ViL), an adaption of the xLSTM building blocks to computer vision. ViL comprises a stack of xLSTM blocks where odd blocks process the sequence of patch tokens from top to bottom while even blocks go from bottom to top. Experiments show that ViL holds promise to be further deployed as new generic backbone for computer vision architectures.
Abstract（参考訳）: トランスフォーマーは、自然言語処理に最初に導入されたにもかかわらず、コンピュータビジョンの一般的なバックボーンとして広く使われている。最近、Long Short-Term Memory (LSTM) が拡張され、拡張性のあるアーキテクチャ xLSTM が拡張され、指数的ゲーティングと並列化可能な行列メモリ構造によって長期にわたるLSTMの制限を克服した。本稿では, xLSTM ビルディングブロックをコンピュータビジョンに適用した Vision-LSTM (ViL) を紹介する。 ViLはxLSTMブロックのスタックで構成されており、奇異ブロックはパッチトークンのシーケンスを上から下へ処理し、ブロックも下から上へと処理する。実験によると、ViLはコンピュータビジョンアーキテクチャのための新しい一般的なバックボーンとして、さらにデプロイされることを約束している。

関連論文リスト

From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion [91.35078719566472]
VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。 CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
論文参考訳（メタデータ） (2026-01-15T18:59:10Z)
LLaVA-UHD v3: Progressive Visual Compression for Efficient Native-Resolution Encoding in MLLMs [52.24096832965001]
提案するプログレッシブ・ビジュアル・圧縮(PVC)法を中心としたMLLMであるLLaVA-UHD v3を提案する。 PVC法は、視覚変換器(ViT)にシームレスに統合して、効率的なネイティブ解像度符号化を可能にする。 ViT-UHDをベースとしたLLaVA-UHD v3はQwen2-VLとの競合性能も達成し、TTFTを1.9倍削減した。
論文参考訳（メタデータ） (2025-11-26T08:11:10Z)
Language-Unlocked ViT (LUViT): Empowering Self-Supervised Vision Transformers with LLMs [89.76543013729594]
ビジョントランスフォーマー(ViT)は、視覚のみのタスクのために、Large Language Model (LLM)ブロックと統合することができる。直接核融合はしばしばLSMのポテンシャルを完全に活用できず、不安定な微調整に悩まされる。 LUViTは、このモダリティミスマッチを相乗的な事前訓練戦略を通じて橋渡しする。
論文参考訳（メタデータ） (2025-07-01T13:58:21Z)
The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer [68.71557348281007]
本稿では,単一変圧器統合多モーダル大言語モデル(MLLM)であるSAILを紹介する。事前訓練された視覚変換器(ViT)に依存している既存のモジュール型MLLMとは異なり、SAILは別個の視覚エンコーダを必要としない。我々は,SAILの特性(スケーラビリティ,クロスモーダル情報フローパターン,視覚表現能力など)をモジュール型MLLMと体系的に比較した。
論文参考訳（メタデータ） (2025-04-14T17:50:20Z)
xLSTM-SENet: xLSTM for Single-Channel Speech Enhancement [19.76560732937885]
本稿では,最初のxLSTMに基づく単一チャネル音声強調システムであるxLSTM-SENetを紹介する。我々の最良のxLSTMベースモデルであるxLSTM-SENet2は、Voicebank+DEMANDデータセット上で最先端のMambaおよびConformerベースのシステムより優れています。
論文参考訳（メタデータ） (2025-01-10T18:10:06Z)
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。コードとモデルはリリースされます。
論文参考訳（メタデータ） (2024-12-12T18:59:26Z)
HiVeGen -- Hierarchical LLM-based Verilog Generation for Scalable Chip Design [55.54477725000291]
HiVeGenは階層的なVerilog生成フレームワークで、生成タスクを階層的なサブモジュールに分解する。自動設計空間探索(DSE)を階層対応のプロンプト生成に変換し、コードの再利用を強化するために重みに基づく検索を導入する。エラー補正コストを低減し、生成した設計の質を大幅に向上させる。
論文参考訳（メタデータ） (2024-12-06T19:37:53Z)
LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文参考訳（メタデータ） (2024-11-05T05:36:17Z)
Beam Prediction based on Large Language Models [51.45077318268427]
ミリ波(mmWave)通信は次世代無線ネットワークに期待できるが、パス損失は大きい。長短期記憶(LSTM)のような従来のディープラーニングモデルでは、ビーム追跡精度が向上するが、ロバスト性や一般化が不足している。本稿では,大規模言語モデル(LLM)を用いて,ビーム予測の堅牢性を向上させる。
論文参考訳（メタデータ） (2024-08-16T12:40:01Z)
xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart [13.812935743270517]
医用画像セグメンテーションのバックボーンとしてVision-LSTM(xLSTM)を利用するUNet構造化ディープラーニングニューラルネットワークであるxLSTM-UNetを提案する。 xLSTMはLong Short-Term Memory (LSTM) ネットワークの後継として最近提案された。以上の結果から,XLSTM-UNetはCNNベース,Transformerベース,およびMambaベースセグメンテーションネットワークの性能を一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-07-01T17:59:54Z)
Are Vision xLSTM Embedded UNet More Reliable in Medical 3D Image Segmentation? [3.1777394653936937]
本稿では,CNNとVision-xLSTM(Vision-xLSTM)モデルの統合について,UVixLSTMと呼ばれる新しいアプローチを導入することにより検討する。 Vision-xLSTMブロックは、CNN特徴マップから抽出されたパッチ内の時間的およびグローバルな関係をキャプチャする。 UVixLSTMは、公開データセットの最先端ネットワークよりも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-06-24T08:01:05Z)
Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images [1.5954224931801726]
本研究は、リモートセンシング画像のセマンティックセグメンテーションにおけるビジョン-LSTMの有効性を評価するための最初の試みである。セグメンテーションにおけるVision-LSTMの性能は,ほとんどの比較試験において,Vision-TransformersベースのモデルとVision-Mambaベースのモデルよりも限定的であり,概して劣っていることがわかった。
論文参考訳（メタデータ） (2024-06-20T08:01:28Z)
xLSTM: Extended Long Short-Term Memory [26.607656211983155]
1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。正規化と安定化を適切に行う指数ゲーティングを導入する。 i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
論文参考訳（メタデータ） (2024-05-07T17:50:21Z)
LiteLSTM Architecture Based on Weights Sharing for Recurrent Neural Networks [1.1602089225841632]
長期記憶(Long Short-term memory、LSTM)は、シーケンシャルデータを学習するための堅牢なリカレントニューラルネットワークアーキテクチャの1つである。本稿では,LiteLSTMアーキテクチャを提案する。提案したLiteLSTMは、計算予算を小さくしながら、他の最先端のリカレントアーキテクチャに匹敵する精度を持つ。
論文参考訳（メタデータ） (2023-01-12T03:39:59Z)
Learning Bounded Context-Free-Grammar via LSTM and the Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文参考訳（メタデータ） (2021-12-16T19:56:44Z)
Working Memory Connections for LSTM [51.742526187978726]
ワーキングメモリ接続は,様々なタスクにおけるLSTMの性能を常に向上することを示す。数値的な結果は、細胞状態がゲート構造に含まれる価値のある情報を含んでいることを示唆している。
論文参考訳（メタデータ） (2021-08-31T18:01:30Z)
Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文参考訳（メタデータ） (2021-03-29T06:23:20Z)
Future Vector Enhanced LSTM Language Model for LVCSR [67.03726018635174]
本稿では,将来ベクトルを用いた拡張長短期メモリ(LSTM)LMを提案する。実験の結果,提案したLSTM LMはBLEUスコアよりも長期のシーケンス予測に有効であることがわかった。新たなLSTM LMと従来のLSTM LMを併用することで,単語誤り率を大幅に向上させることができる。
論文参考訳（メタデータ） (2020-07-31T08:38:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。