Fugu-MT 論文翻訳(概要): Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation

論文の概要: Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation

arxiv url: http://arxiv.org/abs/2303.12782v3
Date: Mon, 21 Aug 2023 12:46:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-23 00:35:27.022240
Title: Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation
Title（参考訳）: Tube-Link: ユニバーサルビデオセグメンテーションのための柔軟なクロスチューブフレームワーク
Authors: Xiangtai Li, Haobo Yuan, Wenwei Zhang, Guangliang Cheng, Jiangmiao Pang, Chen Change Loy
Abstract要約: Tube-Linkは、ビデオセグメンテーションの複数のコアタスクを統一アーキテクチャで処理する汎用フレームワークである。我々のフレームワークは、短いサブクリップを入力として取り、対応する時空間管マスクを出力するほぼオンラインアプローチである。
参考スコア（独自算出の注目度）: 83.65774845267622
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video segmentation aims to segment and track every pixel in diverse scenarios accurately. In this paper, we present Tube-Link, a versatile framework that addresses multiple core tasks of video segmentation with a unified architecture. Our framework is a near-online approach that takes a short subclip as input and outputs the corresponding spatial-temporal tube masks. To enhance the modeling of cross-tube relationships, we propose an effective way to perform tube-level linking via attention along the queries. In addition, we introduce temporal contrastive learning to instance-wise discriminative features for tube-level association. Our approach offers flexibility and efficiency for both short and long video inputs, as the length of each subclip can be varied according to the needs of datasets or scenarios. Tube-Link outperforms existing specialized architectures by a significant margin on five video segmentation datasets. Specifically, it achieves almost 13% relative improvements on VIPSeg and 4% improvements on KITTI-STEP over the strong baseline Video K-Net. When using a ResNet50 backbone on Youtube-VIS-2019 and 2021, Tube-Link boosts IDOL by 3% and 4%, respectively.
Abstract（参考訳）: ビデオセグメンテーションは、さまざまなシナリオで各ピクセルを正確にセグメンテーションし、追跡することを目的としている。本稿では,ビデオセグメンテーションの複数のコアタスクを統一アーキテクチャで処理する汎用フレームワークであるTube-Linkを提案する。我々のフレームワークは、短いサブクリップを入力として取り、対応する時空間管マスクを出力するほぼオンラインアプローチである。クロスチューブ関係のモデリングを強化するために,クエリに沿って注目してチューブレベルのリンクを行う効果的な方法を提案する。さらに, 時間的コントラスト学習を, チューブレベルの関連性に対するインスタンス単位の識別的特徴に導入する。我々のアプローチは、データセットやシナリオのニーズに応じて各サブクリップの長さを変更できるため、短いビデオ入力と長いビデオ入力の両方に柔軟性と効率性を提供します。 Tube-Linkは5つのビデオセグメンテーションデータセットにおいて、既存の特殊なアーキテクチャよりも優れたパフォーマンスを示している。具体的には、VIPSegの相対的な13%の改善と、強力なベースラインであるVideo K-NetよりもKITTI-STEPの4%改善を実現している。 Youtube-VIS-2019 と 2021 で ResNet50 のバックボーンを使用する場合、Tune-Link は IDOL を 3% と 4% に向上させる。

関連論文リスト

Event-Anchored Frame Selection for Effective Long-Video Understanding [67.56884568828508]
Event-Anchored Frame Selection (EFS)は階層的なイベント認識パイプラインである。トレーニング不要のプラグイン・アンド・プレイモジュールとして、EFSは既製のLVLMにシームレスに統合できる。
論文参考訳（メタデータ） (2026-03-01T08:25:37Z)
Towards Effective and Efficient Long Video Understanding of Multimodal Large Language Models via One-shot Clip Retrieval [57.88666884515147]
ワンショットビデオクリップに基づく検索オーグメンテーション(OneClip-RAG)を提案する。 OneClip-RAGは、ビデオ理解のためのビデオクリップの利点をフル活用している。また、新しいクエリ誘導ビデオチャンキングアルゴリズムも備えている。
論文参考訳（メタデータ） (2025-12-09T09:40:20Z)
VideoPASTA: 7K Preference Pairs That Matter for Video-LLM Alignment [0.6854849895338531]
ビデオ言語モデル(Video-LLMs)は、ビデオコンテンツを理解するのに優れているが、空間的関係、時間的順序付け、フレーム間の連続性に苦慮している。対象の選好最適化を通じてビデオLLMを強化するフレームワークであるVideoPASTAを紹介する。
論文参考訳（メタデータ） (2025-04-18T22:28:03Z)
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation [16.80010133425332]
長距離コヒーレンスとリッチコンテンツを備えた15秒ビデオを生成するために設計された,新しいビデオ拡散モデルであるPrestoを紹介する。 PrestoはVBench Semantic Scoreで78.5%、Dynamic Degreeで100%のスプリットを達成した。
論文参考訳（メタデータ） (2024-12-02T09:32:36Z)
Making Every Frame Matter: Continuous Video Understanding for Large Models via Adaptive State Modeling [14.450847211200292]
マルチモダリティアプリケーションの台頭に伴い、ビデオ理解はますます重要になっている。適応状態モデリングによりこれらの問題を克服する新しいシステムC-VUEを導入する。 C-VUEには3つの重要な設計がある。第1に、歴史的ビデオ情報を保持するためにビデオ認識アプローチを使用する長距離履歴モデリング技術である。 2つ目は空間冗長性低減手法で、時間的関係に基づく歴史モデリングの効率を高める。
論文参考訳（メタデータ） (2024-10-19T05:50:00Z)
Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-02T20:00:49Z)
Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文参考訳（メタデータ） (2024-08-20T08:08:32Z)
DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。 CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文参考訳（メタデータ） (2023-12-20T03:01:33Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
In Defense of Clip-based Video Relation Detection [32.05021939177942]
ビデオ視覚関係検出(VidVRD)は、空間的境界ボックスと時間的境界を用いて、ビデオ内の視覚的関係三重項を検出することを目的としている。ビデオクリップに基づくオブジェクトベースの空間コンテキストと関係ベースの時間コンテキストを豊かにする階層型コンテキストモデル(HCM)を提案する。我々のHCMは、クリップベースパラダイムに高度な空間的・時間的コンテキストモデリングを組み込むことの有効性を強調し、新しい最先端性能を実現する。
論文参考訳（メタデータ） (2023-07-18T05:42:01Z)
Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文参考訳（メタデータ） (2022-03-03T17:00:11Z)
STC: Spatio-Temporal Contrastive Learning for Video Instance Segmentation [47.28515170195206]
ビデオインスタンス(VIS)は、ビデオ内の分類、セグメンテーション、インスタンスアソシエーションを同時に必要とするタスクである。最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。本稿では,インスタンスセグメンテーション手法であるConInstをベースとした,シンプルで効率的な単一ステージVISフレームワークを提案する。
論文参考訳（メタデータ） (2022-02-08T09:34:26Z)
Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文参考訳（メタデータ） (2021-07-28T03:57:12Z)
Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。 fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文参考訳（メタデータ） (2021-04-30T07:38:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。