論文の概要: Segment Any Events via Weighted Adaptation of Pivotal Tokens
- arxiv url: http://arxiv.org/abs/2312.16222v1
- Date: Sun, 24 Dec 2023 12:47:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 20:28:26.071879
- Title: Segment Any Events via Weighted Adaptation of Pivotal Tokens
- Title(参考訳): pivotalトークンの重み付き適応によるイベントのセグメント化
- Authors: Zhiwen Chen, Zhiyu Zhu, Yifan Zhang, Junhui Hou, Guangming Shi, and
Jinjian Wu
- Abstract要約: 本稿では,Segment Anything Models (SAM) をイベントデータと統合する上で,難易度の高い課題に焦点を当てる。
本稿では,RGB画像とイベントデータからのトークン埋め込みのアライメントを最適化するマルチスケールな特徴蒸留手法を提案する。
- 参考スコア(独自算出の注目度): 85.39087004253163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we delve into the nuanced challenge of tailoring the Segment
Anything Models (SAMs) for integration with event data, with the overarching
objective of attaining robust and universal object segmentation within the
event-centric domain. One pivotal issue at the heart of this endeavor is the
precise alignment and calibration of embeddings derived from event-centric data
such that they harmoniously coincide with those originating from RGB imagery.
Capitalizing on the vast repositories of datasets with paired events and RGB
images, our proposition is to harness and extrapolate the profound knowledge
encapsulated within the pre-trained SAM framework. As a cornerstone to
achieving this, we introduce a multi-scale feature distillation methodology.
This methodology rigorously optimizes the alignment of token embeddings
originating from event data with their RGB image counterparts, thereby
preserving and enhancing the robustness of the overall architecture.
Considering the distinct significance that token embeddings from intermediate
layers hold for higher-level embeddings, our strategy is centered on accurately
calibrating the pivotal token embeddings. This targeted calibration is aimed at
effectively managing the discrepancies in high-level embeddings originating
from both the event and image domains. Extensive experiments on different
datasets demonstrate the effectiveness of the proposed distillation method.
Code in http://github.com/happychenpipi/EventSAM.
- Abstract(参考訳): 本稿では,イベント中心領域内での堅牢で普遍的なオブジェクトセグメンテーションを実現することを目的とした,イベントデータ統合のためのセグメンテーション・アシング・モデル(SAM)の調整という難題を掘り下げる。
この取り組みの核となる問題のひとつは、イベント中心のデータから得られる埋め込みの正確なアライメントとキャリブレーションである。
ペア化されたイベントとRGBイメージを持つ膨大なデータセットのレポジトリを活用して、事前トレーニングされたSAMフレームワークにカプセル化された深い知識を活用して、外挿することを提案する。
これを実現するための基盤として,マルチスケールな特徴蒸留手法を導入する。
この手法は、イベントデータから派生したトークン埋め込みとRGBイメージのアライメントを厳格に最適化し、全体的なアーキテクチャの堅牢性を維持し、強化する。
中間層からのトークンの埋め込みが高レベルな埋め込みを担っていることの明確な意義を考えると,我々の戦略は重要なトークンの埋め込みを正確に調整することに集中している。
このターゲットキャリブレーションは、イベントドメインとイメージドメインの両方に由来するハイレベルな埋め込みの非一貫性を効果的に管理することを目的としている。
異なるデータセットに関する広範囲な実験により, 蒸留法の有効性が示された。
コード: http://github.com/happychenpipi/eventsam。
関連論文リスト
- Rotated Multi-Scale Interaction Network for Referring Remote Sensing
Image Segmentation [66.31941110777734]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Event Camera Data Dense Pre-training [12.27119620314554]
本稿では,イベントカメラデータを用いた高密度予測タスクに適したニューラルネットワークの事前学習を目的とした,自己教師付き学習フレームワークを提案する。
フレームワークをトレーニングするために、さまざまなシーンと動きパターンを特徴とする合成イベントカメラデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-11-20T04:36:19Z) - Clothes Grasping and Unfolding Based on RGB-D Semantic Segmentation [21.950751953721817]
セグメンテーションのための双方向フラクタルクロスフュージョンネットワーク(BiFCNet)を提案する。
我々は、Fractal Cross FusionモジュールがRGBと深度データを融合するネットワークへの入力として、リッチな色特徴を持つRGB画像を使用する。
実データ収集のコストを削減するため,敵対的戦略に基づくデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-05-05T03:21:55Z) - Discriminative Co-Saliency and Background Mining Transformer for
Co-Salient Object Detection [111.04994415248736]
我々は差別的共存とバックグラウンドマイニング・トランスフォーマー・フレームワーク(DMT)を提案する。
我々は2種類の事前定義されたトークンを用いて、コントラスト誘起画素間相関モジュールとコサリエンストークン間相関モジュールを用いて、コサリエンシと背景情報をマイニングする。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-30T15:56:47Z) - Unseen Object Instance Segmentation with Fully Test-time RGB-D
Embeddings Adaptation [14.258456366985444]
最近では、大規模な合成データのRGB-D機能を活用し、実世界のシナリオにモデルを適用するのが一般的である。
本稿では,Sim2Realドメイン間の適応プロセスを再強調する。
本稿では,BatchNorm層のパラメータに基づいて,完全テスト時間RGB-D埋め込み適応(FTEA)を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:20Z) - Multi-domain Collaborative Feature Representation for Robust Visual
Object Tracking [32.760681454334765]
本稿では,フレームドメインとイベントドメインの相補的特徴を効果的に表現し,活用することに焦点を当てる。
2つのドメインの特徴を学習するために、スパイキングニューラルネットワークに基づくイベントのためのユニークなエクストラクタ(UEE)を利用する。
標準RGBベンチマークと実イベント追跡データセットの実験は、提案手法の有効性を実証している。
論文 参考訳(メタデータ) (2021-08-10T09:01:42Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Cluster-level Feature Alignment for Person Re-identification [16.01713931617725]
本稿では、データセット全体にわたるクラスタレベルの特徴アライメントという、別の特徴アライメントのモダリティを探索する。
クラスタレベルの特徴アライメントは,データセットの概要から反復的なアグリゲーションとアライメントから構成される。
論文 参考訳(メタデータ) (2020-08-15T23:47:47Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。