論文の概要: GISE-TTT:A Framework for Global InformationSegmentation and Enhancement
- arxiv url: http://arxiv.org/abs/2504.00879v2
- Date: Wed, 30 Apr 2025 00:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.361923
- Title: GISE-TTT:A Framework for Global InformationSegmentation and Enhancement
- Title(参考訳): GISE-TTT:グローバル情報セグメンテーションと拡張のためのフレームワーク
- Authors: Fenglei Hao, Yuliang Yang, Ruiyuan Su, Zhengran Zhao, Yukun Qiao, Mengyu Zhu,
- Abstract要約: GISE-TTTはテンポラルトランスフォーマー層をトランスフォーマーベースのフレームワークに統合する新しいアーキテクチャである。
本稿では,ビデオオブジェクト用ビデオオブジェクト(VOS)の長いビデオシーケンスにおいて,グローバルな時間依存性を捉えるという課題に対処する。
- 参考スコア(独自算出の注目度): 0.1826915781917785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenge of capturing global temporaldependencies in long video sequences for Video Object Segmentation (VOS). Existing architectures often fail to effectively model these dependencies acrossextended temporal horizons. To overcome this limitation, we introduce GISE-TTT, anovel architecture that integrates Temporal Transformer (TTT) layers intotransformer-based frameworks through a co-designed hierarchical approach.The TTTlayer systematically condenses historical temporal information into hidden states thatencode globally coherent contextual representations. By leveraging multi-stagecontextual aggregation through hierarchical concatenation, our frameworkprogressively refines spatiotemporal dependencies across network layers. This designrepresents the first systematic empirical evidence that distributing global informationacross multiple network layers is critical for optimal dependency utilization in videosegmentation tasks.Ablation studies demonstrate that incorporating TTT modules athigh-level feature stages significantly enhances global modeling capabilities, therebyimproving the network's ability to capture long-range temporal relationships. Extensive experiments on DAVIS 2017 show that GISE-TTT achieves a 3.2%improvement in segmentation accuracy over the baseline model, providingcomprehensive evidence that global information should be strategically leveragedthroughout the network architecture.The code will be made available at:https://github.com/uuool/GISE-TTT.
- Abstract(参考訳): 本稿では,ビデオオブジェクトセグメンテーション(VOS)の長いビデオシーケンスにおいて,グローバルな時間依存性を捉えるという課題に対処する。
既存のアーキテクチャは、時間的地平線を越えてこれらの依存関係を効果的にモデル化することができないことが多い。
この制限を克服するために、GISE-TTTは、テンポラルトランスフォーマー(TTT)層を共設計の階層的アプローチによりトランスフォーマーベースのフレームワークに統合するアノベルアーキテクチャである。
階層的結合による多段階のコンテクストアグリゲーションを活用することで,ネットワーク層間の時空間依存性をプログレッシブに洗練する。
本研究は,複数のネットワーク層にまたがるグローバルな情報配信が,ビデオデグメンテーションタスクにおける最適な依存性利用に不可欠であることを示す最初の体系的実証的証拠であり,高レベル機能段階におけるTTTモジュールの導入は,グローバルなモデリング能力を著しく向上させ,長期の時間的関係を捕捉するネットワーク能力の向上を図っている。
DAVIS 2017の大規模な実験によると、GISE-TTTはベースラインモデルよりもセグメンテーションの精度が3.2%向上し、グローバル情報がネットワークアーキテクチャ全体を通して戦略的に活用されるべきという包括的証拠を提供する。
関連論文リスト
- Structural and Statistical Texture Knowledge Distillation and Learning for Segmentation [70.15341084443236]
セマンティックセグメンテーションと関連する知識蒸留タスクのためのディープネットワークにおける低レベルのテクスチャ情報を再強調する。
セグメンテーションのための構造的・統計的テクスチャ知識蒸留(SSTKD)フレームワークを提案する。
特に、低レベルの特徴を分解するためにContourlet Decomposition Module (CDM)が導入されている。
テクスチャ強度等化モジュール(TIEM)は、統計テクスチャ知識を抽出し、強化するために設計されている。
論文 参考訳(メタデータ) (2025-03-11T04:49:25Z) - HiFiSeg: High-Frequency Information Enhanced Polyp Segmentation with Global-Local Vision Transformer [5.96521715927858]
HiFiSegは、高周波情報処理を強化する、大腸ポリープセグメンテーションのための新しいネットワークである。
GLIMは並列構造を用いてグローバルおよびローカル情報を複数のスケールで融合し、より微細な特徴を効果的にキャプチャする。
SAMは、高レベルの特徴からのセマンティック情報と低レベルの特徴から境界の詳細を選択的に統合し、ポリープを正確に検出し、セグメント化するモデルの能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-10-03T14:36:22Z) - ConSlide: Asynchronous Hierarchical Interaction Transformer with
Breakup-Reorganize Rehearsal for Continual Whole Slide Image Analysis [24.078490055421852]
医用画像コミュニティではWSI解析がますます重要になっている。
本稿では,WSI分析のためのFIRST連続学習フレームワークであるConSlideを提案する。
論文 参考訳(メタデータ) (2023-08-25T11:58:25Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - DS-TDNN: Dual-stream Time-delay Neural Network with Global-aware Filter
for Speaker Verification [3.0831477850153224]
本稿では,グローバル・アウェア・フィルタ・レイヤ(GF層)と呼ばれる新しいモジュールについて紹介する。
本稿では、自動話者検証(ASV)のためのDS-TDNNと呼ばれるデュアルストリームTDNNアーキテクチャを提案する。
VoxcelebとSITWデータベースの実験は、DS-TDNNが相対的に10%改善し、相対的に計算コストが20%低下したことを示している。
論文 参考訳(メタデータ) (2023-03-20T10:58:12Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Trajectory-User Linking via Hierarchical Spatio-Temporal Attention
Networks [39.6505270702036]
トラジェクトリ・ユーザ・リンク(TUL)は、トラジェクトリをユーザへリンクすることで、人間のモビリティ・モデリングに不可欠である。
既存の作業は主に、トラジェクトリにおける時間的依存関係を符号化するニューラルネットワークフレームワークに依存している。
この研究は、TULの局所軌道遷移パターンとグローバル空間依存性を符号化する、AttnTULと呼ばれる新しい階層的時間的注意ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-11T06:22:50Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - HS3: Learning with Proper Task Complexity in Hierarchically Supervised
Semantic Segmentation [81.87943324048756]
本稿では,タスクの複雑さによって意味のある表現を学習するためのセグメンテーションネットワークの中間層を監督するトレーニングスキームである階層的意味論(Hierarchically Supervised Semantic,HS3)を提案する。
提案するHS3-Fuseフレームワークはセグメンテーション予測をさらに改善し、2つの大きなセグメンテーションベンチマークであるNYUD-v2とCityscapesで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-03T16:33:29Z) - Video Is Graph: Structured Graph Module for Video Action Recognition [34.918667614077805]
ビデオシーケンスをグラフに変換して,時間的フレーム間の直接的な長期的依存関係を求める。
特に、SGMは各ノードの隣人を複数の時間領域に分割し、グローバルな構造情報を抽出する。
報告された性能と分析により、SGMは計算複雑性を小さくして優れた精度を達成できることを示した。
論文 参考訳(メタデータ) (2021-10-12T11:27:29Z) - Spatio-Temporal Representation Factorization for Video-based Person
Re-Identification [55.01276167336187]
本稿では、re-IDのための時空間表現分解モジュール(STRF)を提案する。
STRFはフレキシブルな新しい計算ユニットであり、re-IDのための既存のほとんどの3D畳み込みニューラルネットワークアーキテクチャと併用することができる。
実験により、STRFは様々なベースラインアーキテクチャの性能を向上し、新しい最先端の成果を示す。
論文 参考訳(メタデータ) (2021-07-25T19:29:37Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Auto-Panoptic: Cooperative Multi-Component Architecture Search for
Panoptic Segmentation [144.50154657257605]
本稿では、バックボーン、セグメンテーションブランチ、フィーチャーフュージョンモジュールを含むすべての主要コンポーネントを同時に検索する効率的なフレームワークを提案する。
検索したアーキテクチャ、すなわちAuto-Panopticは、挑戦的なCOCOとADE20Kベンチマークに関する新しい最先端技術を実現します。
論文 参考訳(メタデータ) (2020-10-30T08:34:35Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。