Fugu-MT 論文翻訳(概要): Segment Any Events via Weighted Adaptation of Pivotal Tokens

論文の概要: Segment Any Events via Weighted Adaptation of Pivotal Tokens

arxiv url: http://arxiv.org/abs/2312.16222v1
Date: Sun, 24 Dec 2023 12:47:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 20:28:26.071879
Title: Segment Any Events via Weighted Adaptation of Pivotal Tokens
Title（参考訳）: pivotalトークンの重み付き適応によるイベントのセグメント化
Authors: Zhiwen Chen, Zhiyu Zhu, Yifan Zhang, Junhui Hou, Guangming Shi, and Jinjian Wu
Abstract要約: 本稿では,Segment Anything Models (SAM) をイベントデータと統合する上で,難易度の高い課題に焦点を当てる。本稿では,RGB画像とイベントデータからのトークン埋め込みのアライメントを最適化するマルチスケールな特徴蒸留手法を提案する。
参考スコア（独自算出の注目度）: 85.39087004253163
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we delve into the nuanced challenge of tailoring the Segment Anything Models (SAMs) for integration with event data, with the overarching objective of attaining robust and universal object segmentation within the event-centric domain. One pivotal issue at the heart of this endeavor is the precise alignment and calibration of embeddings derived from event-centric data such that they harmoniously coincide with those originating from RGB imagery. Capitalizing on the vast repositories of datasets with paired events and RGB images, our proposition is to harness and extrapolate the profound knowledge encapsulated within the pre-trained SAM framework. As a cornerstone to achieving this, we introduce a multi-scale feature distillation methodology. This methodology rigorously optimizes the alignment of token embeddings originating from event data with their RGB image counterparts, thereby preserving and enhancing the robustness of the overall architecture. Considering the distinct significance that token embeddings from intermediate layers hold for higher-level embeddings, our strategy is centered on accurately calibrating the pivotal token embeddings. This targeted calibration is aimed at effectively managing the discrepancies in high-level embeddings originating from both the event and image domains. Extensive experiments on different datasets demonstrate the effectiveness of the proposed distillation method. Code in http://github.com/happychenpipi/EventSAM.
Abstract（参考訳）: 本稿では,イベント中心領域内での堅牢で普遍的なオブジェクトセグメンテーションを実現することを目的とした,イベントデータ統合のためのセグメンテーション・アシング・モデル(SAM)の調整という難題を掘り下げる。この取り組みの核となる問題のひとつは、イベント中心のデータから得られる埋め込みの正確なアライメントとキャリブレーションである。ペア化されたイベントとRGBイメージを持つ膨大なデータセットのレポジトリを活用して、事前トレーニングされたSAMフレームワークにカプセル化された深い知識を活用して、外挿することを提案する。これを実現するための基盤として,マルチスケールな特徴蒸留手法を導入する。この手法は、イベントデータから派生したトークン埋め込みとRGBイメージのアライメントを厳格に最適化し、全体的なアーキテクチャの堅牢性を維持し、強化する。中間層からのトークンの埋め込みが高レベルな埋め込みを担っていることの明確な意義を考えると,我々の戦略は重要なトークンの埋め込みを正確に調整することに集中している。このターゲットキャリブレーションは、イベントドメインとイメージドメインの両方に由来するハイレベルな埋め込みの非一貫性を効果的に管理することを目的としている。異なるデータセットに関する広範囲な実験により, 蒸留法の有効性が示された。コード: http://github.com/happychenpipi/eventsam。

関連論文リスト

IAM: Enhancing RGB-D Instance Segmentation with New Benchmarks [4.3266254914862445]
RGB-Dセグメンテーションは、RGBのみの手法よりもリッチなシーン理解を約束する。インスタンスレベルのRGB-Dセグメンテーションデータセットは比較的少ない。インスタンスレベルで区別された3つのRGB-Dインスタンスセグメンテーションベンチマークを導入する。本稿では,RGB-Dデータ統合のための簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2025-01-03T08:03:24Z)
Mixture of Scale Experts for Alignment-free RGBT Video Object Detection and A Unified Benchmark [5.068440399797739]
既存のRGB-Thermal Video Object Detection (RGBT VOD) 法は、画像ペアの手動アライメントに依存している。我々はMixture of Scale Experts Network(MSENet)と呼ばれる新しいフレームワークを提案する。 MSENetは、異なる知覚スケールで訓練された複数の専門家を統合し、RGBと熱画像のペア間のスケールの差異をキャプチャすることを可能にする。
論文参考訳（メタデータ） (2024-10-16T01:06:12Z)
Depth-Guided Semi-Supervised Instance Segmentation [62.80063539262021]
Semi-Supervised Instance (SSIS)は、トレーニング中にラベルなしデータの量を活用することを目的としている。従来のフレームワークは主に、ラベルなし画像のRGB情報を利用して擬似ラベルを生成する。この制限を克服するために、Depth-Guided (DG)フレームワークを導入します。
論文参考訳（メタデータ） (2024-06-25T09:36:50Z)
NubbleDrop: A Simple Way to Improve Matching Strategy for Prompted One-Shot Segmentation [2.2559617939136505]
マッチング戦略の有効性とロバスト性を高めるための,単純で訓練のない手法を提案する。中心となる概念は、マッチングプロセス中にランダムに特徴チャネル(0に設定する)をドロップすることである。この手法は、病理的なヌブルの破棄を模倣し、他の類似性コンピューティングのシナリオにシームレスに適用することができる。
論文参考訳（メタデータ） (2024-05-19T08:00:38Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Clothes Grasping and Unfolding Based on RGB-D Semantic Segmentation [21.950751953721817]
セグメンテーションのための双方向フラクタルクロスフュージョンネットワーク(BiFCNet)を提案する。我々は、Fractal Cross FusionモジュールがRGBと深度データを融合するネットワークへの入力として、リッチな色特徴を持つRGB画像を使用する。実データ収集のコストを削減するため,敵対的戦略に基づくデータ拡張手法を提案する。
論文参考訳（メタデータ） (2023-05-05T03:21:55Z)
Discriminative Co-Saliency and Background Mining Transformer for Co-Salient Object Detection [111.04994415248736]
我々は差別的共存とバックグラウンドマイニング・トランスフォーマー・フレームワーク(DMT)を提案する。我々は2種類の事前定義されたトークンを用いて、コントラスト誘起画素間相関モジュールとコサリエンストークン間相関モジュールを用いて、コサリエンシと背景情報をマイニングする。 3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2023-04-30T15:56:47Z)
Multi-domain Collaborative Feature Representation for Robust Visual Object Tracking [32.760681454334765]
本稿では,フレームドメインとイベントドメインの相補的特徴を効果的に表現し,活用することに焦点を当てる。 2つのドメインの特徴を学習するために、スパイキングニューラルネットワークに基づくイベントのためのユニークなエクストラクタ(UEE)を利用する。標準RGBベンチマークと実イベント追跡データセットの実験は、提案手法の有効性を実証している。
論文参考訳（メタデータ） (2021-08-10T09:01:42Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
Cluster-level Feature Alignment for Person Re-identification [16.01713931617725]
本稿では、データセット全体にわたるクラスタレベルの特徴アライメントという、別の特徴アライメントのモダリティを探索する。クラスタレベルの特徴アライメントは,データセットの概要から反復的なアグリゲーションとアライメントから構成される。
論文参考訳（メタデータ） (2020-08-15T23:47:47Z)
Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文参考訳（メタデータ） (2020-04-28T08:40:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。