論文の概要: Structured Click Control in Transformer-based Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2405.04009v1
- Date: Tue, 7 May 2024 04:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 15:18:57.176626
- Title: Structured Click Control in Transformer-based Interactive Segmentation
- Title(参考訳): 変換器を用いた対話型セグメンテーションにおける構造的クリック制御
- Authors: Long Xu, Yongquan Chen, Rui Huang, Feng Wu, Shiwu Lai,
- Abstract要約: グラフニューラルネットワークに基づく構造化クリックインテントモデルを提案する。
グラフノードは、構造化されたインタラクション機能を得るために集約される。
デュアル・クロス・アテンションは、構造化された相互作用機能を視覚変換器に注入するために使用される。
- 参考スコア(独自算出の注目度): 36.49641677493008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Click-point-based interactive segmentation has received widespread attention due to its efficiency. However, it's hard for existing algorithms to obtain precise and robust responses after multiple clicks. In this case, the segmentation results tend to have little change or are even worse than before. To improve the robustness of the response, we propose a structured click intent model based on graph neural networks, which adaptively obtains graph nodes via the global similarity of user-clicked Transformer tokens. Then the graph nodes will be aggregated to obtain structured interaction features. Finally, the dual cross-attention will be used to inject structured interaction features into vision Transformer features, thereby enhancing the control of clicks over segmentation results. Extensive experiments demonstrated the proposed algorithm can serve as a general structure in improving Transformer-based interactive segmenta?tion performance. The code and data will be released at https://github.com/hahamyt/scc.
- Abstract(参考訳): クリックポイントに基づくインタラクティブセグメンテーションは、その効率性から広く注目を集めている。
しかし、既存のアルゴリズムでは、複数クリックで正確で堅牢な応答を得るのは難しい。
この場合、セグメンテーションの結果は変化が少ないか、以前よりもさらに悪い傾向にある。
ユーザクリックトランスフォーマートークンのグローバルな類似性を利用してグラフノードを適応的に取得するグラフニューラルネットワークに基づく構造化クリックインテントモデルを提案する。
次にグラフノードを集約して、構造化された相互作用機能を得る。
最後に、デュアル・クロスアテンションを使用して、構造化された相互作用機能を視覚変換器機能に注入し、セグメンテーション結果のクリック制御を強化する。
大規模な実験により、提案アルゴリズムはTransformerベースの対話セグメントを改善するための一般的な構造として機能するか?
オン・パフォーマンス
コードとデータはhttps://github.com/hahamyt/scc.orgで公開される。
関連論文リスト
- AdaRC: Mitigating Graph Structure Shifts during Test-Time [66.40525136929398]
テスト時間適応(TTA)は、ソースドメインに再アクセスすることなく、トレーニング済みのモデルをターゲットドメインに適応できる能力によって注目を集めている。
AdaRCは,グラフの構造シフトに効果的かつ効率的な適応を意図した,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-10-09T15:15:40Z) - Scale Disparity of Instances in Interactive Point Cloud Segmentation [15.865365305312174]
我々はClickFormerを提案する。ClickFormerは革新的なインタラクティブなポイントクラウドセグメンテーションモデルで、物と物の両方のインスタンスを正確にセグメンテーションする。
我々は、偽陽性の発生リスクを軽減するために、クエリ・ボクセル変換器にグローバルな注意を払っている。
ClickFormerは、屋内と屋外の両方のデータセットで、既存のインタラクティブなポイントクラウドセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-07-19T03:45:48Z) - RAT: Retrieval-Augmented Transformer for Click-Through Rate Prediction [68.34355552090103]
本稿では, 試料内および試料間における微細な特徴相互作用の獲得を目的とした検索-拡張変換器(RAT)を開発した。
次に、トランスフォーマー層をカスケードされた注意で構築し、イントラサンプルとクロスサンプルの両方の機能インタラクションをキャプチャします。
実世界のデータセットの実験は、RATの有効性を裏付け、ロングテールシナリオにおいてその利点を示唆している。
論文 参考訳(メタデータ) (2024-04-02T19:14:23Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Transforming the Interactive Segmentation for Medical Imaging [34.57242805353604]
本研究の目的は,人間のパフォーマンスに遅れる難易度の高い構造物の自動セグメンテーションをインタラクティブに洗練することである。
対話型(TIS)のための新しいトランスフォーマーアーキテクチャを提案する。
提案アーキテクチャはトランスフォーマーデコーダの変種で構成されており,アテンション機構と機能比較を自然に行う。
論文 参考訳(メタデータ) (2022-08-20T03:28:23Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Edge-augmented Graph Transformers: Global Self-attention is Enough for
Graphs [24.796242917673755]
本稿では,変圧器の残差エッジチャネルに対する簡易かつ強力な拡張を提案する。
結果として得られるフレームワークは、Edge-augmented Graph Transformer (EGT)と呼ばれ、ノード情報だけでなく、構造情報を直接受け入れ、処理し、出力することができる。
我々のフレームワークはグローバルノードの特徴集約に依存しており、グラフ畳み込みネットワーク(GCN)よりも優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-08-07T02:18:11Z) - Relation Transformer Network [25.141472361426818]
本稿では,シーングラフ生成と関係予測のためのトランスフォーメーションを提案する。
我々はトランスのエンコーダ・デコーダアーキテクチャを利用して,ノードとエッジのリッチな機能埋め込みを行う。
我々の関係予測モジュールは学習ノードとエッジ埋め込みから有向関係を分類する。
論文 参考訳(メタデータ) (2020-04-13T20:47:01Z) - FAIRS -- Soft Focus Generator and Attention for Robust Object
Segmentation from Extreme Points [70.65563691392987]
本稿では,ユーザ入力からオブジェクトのセグメンテーションを極端点と補正クリックの形で生成する手法を提案する。
提案手法は,エクストリームポイント,クリック誘導,修正クリックを原則として組み込んだ,高品質なトレーニングデータを生成する能力とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2020-04-04T22:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。