論文の概要: LTCA: Long-range Temporal Context Attention for Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2510.08305v1
- Date: Thu, 09 Oct 2025 14:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.146636
- Title: LTCA: Long-range Temporal Context Attention for Referring Video Object Segmentation
- Title(参考訳): LTCA:ビデオオブジェクトセグメンテーション参照のための長距離時間文脈アテンション
- Authors: Cilin Yan, Jingyun Wang, Guoliang Kang,
- Abstract要約: 本研究では,グローバルな文脈情報をオブジェクトの特徴に集約する,効果的な長期時間的コンテキストアテンション(LTCA)機構を提案する。
提案手法は,4つの参照ビデオセグメンテーションベンチマークにおいて,新しい最先端技術を実現することを示す。
- 参考スコア(独自算出の注目度): 14.277537679679101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Video Segmentation (RVOS) aims to segment objects in videos given linguistic expressions. The key to solving RVOS is to extract long-range temporal context information from the interactions of expressions and videos to depict the dynamic attributes of each object. Previous works either adopt attention across all the frames or stack dense local attention to achieve a global view of temporal context. However, they fail to strike a good balance between locality and globality, and the computation complexity significantly increases with the increase of video length. In this paper, we propose an effective long-range temporal context attention (LTCA) mechanism to aggregate global context information into object features. Specifically, we aggregate the global context information from two aspects. Firstly, we stack sparse local attentions to balance the locality and globality. We design a dilated window attention across frames to aggregate local context information and perform such attention in a stack of layers to enable a global view. Further, we enable each query to attend to a small group of keys randomly selected from a global pool to enhance the globality. Secondly, we design a global query to interact with all the other queries to directly encode the global context information. Experiments show our method achieves new state-of-the-art on four referring video segmentation benchmarks. Notably, our method shows an improvement of 11.3% and 8.3% on the MeViS valu and val datasets respectively.
- Abstract(参考訳): Referring Video Segmentation (RVOS)は、言語表現が与えられたビデオにオブジェクトをセグメントすることを目的としている。
RVOSを解く鍵は、各オブジェクトの動的属性を記述するために、表現とビデオの相互作用から長距離の時間的コンテキスト情報を抽出することである。
それまでの作業は、すべてのフレームに注意を向けるか、時間的文脈のグローバルな見方を達成するために、局所的な注意を集中的に集めるかのどちらかである。
しかし、局所性とグローバル性の間には十分なバランスが取れず、ビデオ長の増加とともに計算の複雑さが著しく増大する。
本稿では,グローバルな文脈情報をオブジェクトの特徴に集約する,効果的な長期的コンテキストアテンション(LTCA)機構を提案する。
具体的には、グローバルコンテキスト情報を2つの側面から集約する。
まず、局所性とグローバル性のバランスをとるために、局所的な注意を緩やかに積み重ねる。
我々は,局所的なコンテキスト情報を集約するために,フレームをまたいだ拡張窓の注意を設計し,グローバルなビューを実現するために,レイヤのスタック内でそのような注意を行う。
さらに、グローバルプールからランダムに選択されたキーの小さなグループに各クエリが参加できるようにし、グローバル性を高める。
次に、グローバルなコンテキスト情報を直接エンコードするために、他のすべてのクエリと対話するグローバルなクエリを設計する。
実験により,提案手法は4つの参照ビデオセグメンテーションベンチマークにおいて,新たな最先端技術を実現することを示す。
特に,本手法では,MeViS値とvalデータセットでそれぞれ11.3%,8.3%の改善が見られた。
関連論文リスト
- Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Local-Global Context Aware Transformer for Language-Guided Video
Segmentation [103.35509224722097]
言語誘導ビデオセグメンテーション(LVS)の課題について検討する。
そこで我々は,Transformerアーキテクチャを有限メモリで拡張し,動画全体を言語表現で効率的にクエリするLocaterを提案する。
LVSモデルの視覚的接地能力を徹底的に検討するため、新しいLVSデータセットであるA2D-S+をA2D-Sデータセット上に構築する。
論文 参考訳(メタデータ) (2022-03-18T07:35:26Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z) - Global Context Aware RCNN for Object Detection [1.1939762265857436]
我々はGCA (Global Context Aware) RCNNと呼ばれる新しいエンドツーエンドのトレーニング可能なフレームワークを提案する。
GCAフレームワークの中核となるコンポーネントは、グローバルな特徴ピラミッドとアテンション戦略の両方を特徴抽出と特徴改善に使用する、コンテキスト認識メカニズムである。
最後に,モデルの複雑さと計算負担をわずかに増加させる軽量バージョンを提案する。
論文 参考訳(メタデータ) (2020-12-04T14:56:46Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z) - Memory Enhanced Global-Local Aggregation for Video Object Detection [33.624831537299734]
ビデオ中のオブジェクトを認識するための重要な方法として,グローバルな意味情報と局所的な位置情報という2つがある,と我々は主張する。
メモリ拡張グローバルローカルアグリゲーション(MEGA)ネットワークを導入する。
提案手法は,ImageNet VIDデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2020-03-26T17:59:38Z) - See More, Know More: Unsupervised Video Object Segmentation with
Co-Attention Siamese Networks [184.4379622593225]
教師なしビデオオブジェクトセグメンテーションタスクに対処するため,CO-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入する。
我々は,ビデオフレーム間の固有相関の重要性を強調し,グローバルなコアテンション機構を取り入れた。
本稿では、ビデオ内のリッチなコンテキストをマイニングするために、異なるコアテンションの変種を導出する、統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-19T11:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。