Fugu-MT 論文翻訳(概要): Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS

論文の概要: Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS

arxiv url: http://arxiv.org/abs/2408.16431v1
Date: Thu, 29 Aug 2024 10:47:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-30 14:12:45.205078
Title: Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS
Title（参考訳）: 識別型空間セマンティックVOSソリューション:第6回SVOSにおける第1位ソリューション
Authors: Deshui Miao, Yameng Gu, Xin Li, Zhenyu He, Yaowei Wang, Ming-Hsuan Yang,
Abstract要約: ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要な課題である。現在のVOS法は複雑なシーンと長い物体の動きに苦しむ。本報告では,空間時空間VOSモデルについて述べる。
参考スコア（独自算出の注目度）: 68.47681139026666
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Video object segmentation (VOS) is a crucial task in computer vision, but current VOS methods struggle with complex scenes and prolonged object motions. To address these challenges, the MOSE dataset aims to enhance object recognition and differentiation in complex environments, while the LVOS dataset focuses on segmenting objects exhibiting long-term, intricate movements. This report introduces a discriminative spatial-temporal VOS model that utilizes discriminative object features as query representations. The semantic understanding of spatial-semantic modules enables it to recognize object parts, while salient features highlight more distinctive object characteristics. Our model, trained on extensive VOS datasets, achieved first place (\textbf{80.90\%} $\mathcal{J \& F}$) on the test set of the 6th LSVOS challenge in the VOS Track, demonstrating its effectiveness in tackling the aforementioned challenges. The code will be available at \href{https://github.com/yahooo-m/VOS-Solution}{code}.
Abstract（参考訳）: ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要な課題であるが、現在のVOSメソッドは複雑なシーンと長い物体の動きに悩まされている。これらの課題に対処するため、MOSEデータセットは複雑な環境におけるオブジェクトの認識と識別を強化することを目的としており、LVOSデータセットは長期的な複雑な動きを示すセグメンテーションオブジェクトに焦点を当てている。本稿では,識別対象の特徴を問合せ表現として利用する空間時空間VOSモデルを提案する。空間意味的モジュールの意味的理解により、オブジェクトの部分を認識することができる。我々のモデルは、VOSトラックの第6回LSVOSチャレンジのテストセットにおいて、VOSデータセットに基づいてトレーニングされ、第1位(\textbf{80.90\%} $\mathcal{J \&F}$)を達成した。コードは \href{https://github.com/yahooo-m/VOS-Solution}{code} で入手できる。

関連論文リスト

EagleVision: Object-level Attribute Multimodal LLM for Remote Sensing [3.3072144045024396]
EagleVisionは、オブジェクトの検出と属性の理解に優れるリモートセンシング用に設計されたMLLMである。 EVAttrs-95Kは、命令チューニングのためのRSにおいて、最初の大規模オブジェクト属性理解データセットである。 EagleVisionは、細粒度オブジェクト検出とオブジェクト属性理解タスクの両方で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-03-30T06:13:13Z)
HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文参考訳（メタデータ） (2024-10-04T06:19:29Z)
Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文参考訳（メタデータ） (2024-07-10T15:36:00Z)
Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs [38.02017186215372]
大きな言語モデル(LLM)を視覚領域タスクに統合し、視覚的なLLM(V-LLM)を実現することにより、視覚言語タスクにおける例外的なパフォーマンスを実現している。しかし、既存のV-LLMは空間的推論と局所化認識が弱い。画像空間座標に基づく微調整目標が空間認識をV-LLMに注入する方法について検討する。
論文参考訳（メタデータ） (2024-04-11T03:09:34Z)
Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文参考訳（メタデータ） (2024-04-01T14:53:36Z)
DOZE: A Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments [28.23284296418962]
Zero-Shot Object Navigation (ZSON)は、エージェントが不慣れな環境で見えないオブジェクトを自律的に見つけ、アプローチすることを要求する。 ZSONアルゴリズムを開発するための既存のデータセットには、動的な障害、オブジェクトの多様性、シーンテキストが考慮されていない。動的環境(DOZE)におけるオープンボキャブラリゼロショットオブジェクトナビゲーションのためのデータセットを提案する。 DOZEは18k以上のタスクを持つ10の高忠実な3Dシーンで構成されており、複雑な動的現実世界のシナリオを模倣することを目的としている。
論文参考訳（メタデータ） (2024-02-29T10:03:57Z)
MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文参考訳（メタデータ） (2023-02-03T17:20:03Z)
DQnet: Cross-Model Detail Querying for Camouflaged Object Detection [54.82390534024954]
カモフラージュされた物体検出のための畳み込みニューラルネットワーク(CNN)は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向がある。本稿では,CNNの内在的特性から部分的活性化が引き起こされることを論じる。完全なオブジェクト範囲を活性化できる特徴マップを得るために,クロスモデル詳細クエリネットワーク(DQnet)と呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-16T06:23:58Z)
Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。 AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文参考訳（メタデータ） (2022-03-22T03:33:27Z)
Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文参考訳（メタデータ） (2020-03-10T22:12:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。