論文の概要: SIMON: Saliency-aware Integrative Multi-view Object-centric Neural Decoding
- arxiv url: http://arxiv.org/abs/2605.00401v1
- Date: Fri, 01 May 2026 04:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.848528
- Title: SIMON: Saliency-aware Integrative Multi-view Object-centric Neural Decoding
- Title(参考訳): SIMON: 汎用性を考慮した多視点オブジェクト指向ニューラルデコード
- Authors: YuSheng Lin, Ji-Hwa Tsai, Chun-Shu Wei,
- Abstract要約: SIMONは、ゼロショット脳波画像検索のためのサリエンシ対応マルチビューフレームワークである。
THINGS-EEGでは、SIMONはオブジェクト内設定とオブジェクト間設定の両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 1.491109220586182
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent EEG-to-image retrieval methods leverage pretrained vision encoders and foveation-inspired priors, but typically assume a fixed, center-focused view. This center bias conflicts with content-driven human attention, creating a geometric-semantic dissociation between visual features and EEG responses. We propose SIMON, a saliency-aware multi-view framework for zero-shot EEG-to-image retrieval. SIMON combines foreground segmentation and saliency prediction to select fixation centers via Saliency-Aware Sampling (SAS), then generates foveated views that emphasize informative object regions while suppressing background clutter. On THINGS-EEG, SIMON achieves state-of-the-art performance in both intra-subject and inter-subject settings, reaching an average Top-1 accuracy of 69.7% and 19.6%, respectively, consistently outperforming recent competitive baselines. Analyses across sampling granularity, EEG channel topology, and visual/brain encoder backbones further support the robustness of saliency-aware multi-view integration. Our code and models are publicly available at https://github.com/simonlink666/SIMON.
- Abstract(参考訳): 近年の脳波画像検索法は、事前訓練された視覚エンコーダと、前者から着想を得た前者を利用するが、通常は固定された中心的な視点を前提としている。
この中心バイアスは、コンテンツ駆動型人間の注意と矛盾し、視覚的特徴と脳波反応の間に幾何学的・意味的な解離を生み出す。
ゼロショット脳波画像検索のためのサリエンシ対応マルチビューフレームワークSIMONを提案する。
SIMONはフォアグラウンドセグメンテーションとサリエンシ予測を組み合わせて、SAS(Saliency-Aware Sampling)を介して固定センタを選択する。
THINGS-EEGでは、SIMONはオブジェクト内設定とオブジェクト間設定の両方で最先端のパフォーマンスを達成し、それぞれ69.7%と19.6%のTop-1精度を達成し、最近の競争ベースラインを一貫して上回っている。
サンプリングされた粒度、EEGチャネルトポロジ、視覚/脳エンコーダのバックボーンの分析により、サリエンシ対応のマルチビュー統合の堅牢性はさらに向上する。
私たちのコードとモデルはhttps://github.com/simonlink666/SIMON.comで公開されています。
関連論文リスト
- Subject-Aware Multi-Granularity Alignment for Zero-Shot EEG-to-Image Retrieval [6.9700202682590024]
ゼロショット脳波画像検索のための主観的マルチグラニュラリティアライメント(SAMGA)フレームワークを提案する。
SAMGAは、まず、事前学習された視覚エンコーダから複数の中間表現を適応的に集約することにより、対象を意識した視覚監視ターゲットを構築する。
THINGS-EEGベンチマークの実験では、提案手法はオブジェクト内設定で91.3%のTop-1と98.8%のTop-5の精度、オブジェクト間設定で34.4%のTop-1と64.8%のTop-5の精度を達成した。
論文 参考訳(メタデータ) (2026-04-20T04:10:30Z) - Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction [47.01100029571904]
本研究では,ビデオにおける視点の異なるオブジェクトレベルの視覚的対応を確立するタスクについて検討し,エゴセントリックからエゴセントリックへ,エゴセントリックからエゴセントリックへという挑戦的なシナリオに着目した。
条件付きバイナリセグメンテーションに基づいて,オブジェクトクエリマスクを潜在表現に符号化し,対象ビデオ中の対応するオブジェクトのローカライゼーションを誘導する,シンプルで効果的なフレームワークを提案する。
Ego-Exo4D と HANDAL-X のベンチマーク実験により,最適化目標とTTT 戦略の有効性を実証し,最先端性能を実現した。
論文 参考訳(メタデータ) (2026-02-22T00:53:03Z) - SPORTS: Simultaneous Panoptic Odometry, Rendering, Tracking and Segmentation for Urban Scenes Understanding [0.0]
本稿では,全体像理解のための新しいフレームワーク SPORTS を提案する。
Video Panoptic (VPS)、Visual Odometry (VO)、Scene Renderingタスクを反復的で統一された視点に統合する。
我々の注意に基づく特徴融合は、計測、追跡、セグメンテーション、新しいビュータスクにおいて、既存の最先端の合成方法よりも優れています。
論文 参考訳(メタデータ) (2025-10-14T17:28:19Z) - CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations [52.251569042852815]
CRIAは、可変長および可変チャネルコーディングを使用して、異なるデータセット間でEEGデータの統一表現を実現する適応フレームワークである。
このモデルでは、時間的、スペクトル的、空間的特徴を効果的に融合させるクロスアテンション機構を採用している。
テンプル大学脳波コーパスとCHB-MITデータセットによる実験結果から、CRIAは既存の方法よりも、同じ事前学習条件で優れていることが示された。
論文 参考訳(メタデータ) (2025-06-19T06:31:08Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - High Pileup Particle Tracking with Object Condensation [7.962871190916326]
近年の研究では、荷電粒子追跡のための従来のアルゴリズムの性能とグラフニューラルネットワーク(GNN)が一致できることが示されている。
我々は、任意の数のオブジェクト(トラック)に属するポイント(hits)をクラスタリングし、各オブジェクトのプロパティを回帰するように設計された多目的学習フレームワークである、オブジェクト凝縮(OC)に基づく代替案を検討する。
論文 参考訳(メタデータ) (2023-12-06T19:00:00Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。