論文の概要: WISE-TTT:Worldwide Information Segmentation Enhancement
- arxiv url: http://arxiv.org/abs/2504.00879v1
- Date: Tue, 01 Apr 2025 15:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:50.103204
- Title: WISE-TTT:Worldwide Information Segmentation Enhancement
- Title(参考訳): WISE-TTT:世界規模の情報セグメンテーション強化
- Authors: Fenglei Hao, Yuliang Yang, Ruiyuan Su, Zhengran Zhao, Yukun Qiao, Mengyu Zhu,
- Abstract要約: WISE-TTTは,テスト時間トレーニング(TTT)機構とトランスフォーマーアーキテクチャを併用した,協調設計による相乗的アーキテクチャである。
TTT層は、過去の時間データを圧縮し、世界情報を含む隠蔽状態を生成する。
グローバルな情報がセグメンテーションのパフォーマンスに重大な影響を及ぼすという,最初の体系的な証拠を提供する。
- 参考スコア(独自算出の注目度): 0.1826915781917785
- License:
- Abstract: Video multi-target segmentation remains a major challenge in long sequences, mainly due to the inherent limitations of existing architectures in capturing global temporal dependencies. We introduce WISE-TTT, a synergistic architecture integrating Test-Time Training (TTT) mechanisms with the Transformer architecture through co-design. The TTT layer systematically compresses historical temporal data to generate hidden states containing worldwide information(Lossless memory to maintain long contextual integrity), while achieving multi-stage contextual aggregation through splicing. Crucially, our framework provides the first empirical validation that implementing worldwide information across multiple network layers is essential for optimal dependency utilization.Ablation studies show TTT modules at high-level features boost global modeling. This translates to 3.1% accuracy improvement(J&F metric) on Davis2017 long-term benchmarks -- the first proof of hierarchical context superiority in video segmentation. We provide the first systematic evidence that worldwide information critically impacts segmentation performance.
- Abstract(参考訳): ビデオのマルチターゲットセグメンテーションは、主にグローバルな時間的依存関係をキャプチャする上で、既存のアーキテクチャに固有の制限があるため、長いシーケンスにおいて依然として大きな課題である。
WISE-TTTは,テスト時間トレーニング(TTT)機構とトランスフォーマーアーキテクチャを協調設計により統合した相乗的アーキテクチャである。
TTT層は、歴史的時間データを体系的に圧縮し、世界情報を含む隠された状態(長期のコンテキスト整合性を維持するためにロスレスメモリ)を生成し、スプライシングにより多段階のコンテキストアグリゲーションを実現する。
本フレームワークは,複数のネットワーク層にまたがるグローバルな情報の実装が,依存性の最適利用に不可欠であることを示す実証的検証を初めて実施し,高レベルのTTTモジュールがグローバルなモデリングを促進することを示す。
これは、Davis2017の長期ベンチマークにおける3.1%の精度向上(J&Fメトリック)を意味し、ビデオセグメンテーションにおける階層的コンテキスト優位性の最初の証明である。
グローバルな情報がセグメンテーションのパフォーマンスに重大な影響を及ぼすという,最初の体系的な証拠を提供する。
関連論文リスト
- HiFiSeg: High-Frequency Information Enhanced Polyp Segmentation with Global-Local Vision Transformer [5.96521715927858]
HiFiSegは、高周波情報処理を強化する、大腸ポリープセグメンテーションのための新しいネットワークである。
GLIMは並列構造を用いてグローバルおよびローカル情報を複数のスケールで融合し、より微細な特徴を効果的にキャプチャする。
SAMは、高レベルの特徴からのセマンティック情報と低レベルの特徴から境界の詳細を選択的に統合し、ポリープを正確に検出し、セグメント化するモデルの能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-10-03T14:36:22Z) - Enhancing Automatic Modulation Recognition through Robust Global Feature
Extraction [12.868218616042292]
変調信号は長時間の時間依存性を示す。
人間の専門家は星座図のパターンを分析し、変調スキームを分類する。
古典的な畳み込みベースのネットワークは、局所的な特徴を抽出することに長けているが、グローバルな関係を捉えるのに苦労している。
論文 参考訳(メタデータ) (2024-01-02T06:31:24Z) - ConSlide: Asynchronous Hierarchical Interaction Transformer with
Breakup-Reorganize Rehearsal for Continual Whole Slide Image Analysis [24.078490055421852]
医用画像コミュニティではWSI解析がますます重要になっている。
本稿では,WSI分析のためのFIRST連続学習フレームワークであるConSlideを提案する。
論文 参考訳(メタデータ) (2023-08-25T11:58:25Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Video Is Graph: Structured Graph Module for Video Action Recognition [34.918667614077805]
ビデオシーケンスをグラフに変換して,時間的フレーム間の直接的な長期的依存関係を求める。
特に、SGMは各ノードの隣人を複数の時間領域に分割し、グローバルな構造情報を抽出する。
報告された性能と分析により、SGMは計算複雑性を小さくして優れた精度を達成できることを示した。
論文 参考訳(メタデータ) (2021-10-12T11:27:29Z) - Spatio-Temporal Representation Factorization for Video-based Person
Re-Identification [55.01276167336187]
本稿では、re-IDのための時空間表現分解モジュール(STRF)を提案する。
STRFはフレキシブルな新しい計算ユニットであり、re-IDのための既存のほとんどの3D畳み込みニューラルネットワークアーキテクチャと併用することができる。
実験により、STRFは様々なベースラインアーキテクチャの性能を向上し、新しい最先端の成果を示す。
論文 参考訳(メタデータ) (2021-07-25T19:29:37Z) - Auto-Panoptic: Cooperative Multi-Component Architecture Search for
Panoptic Segmentation [144.50154657257605]
本稿では、バックボーン、セグメンテーションブランチ、フィーチャーフュージョンモジュールを含むすべての主要コンポーネントを同時に検索する効率的なフレームワークを提案する。
検索したアーキテクチャ、すなわちAuto-Panopticは、挑戦的なCOCOとADE20Kベンチマークに関する新しい最先端技術を実現します。
論文 参考訳(メタデータ) (2020-10-30T08:34:35Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。