論文の概要: Trustworthy Self-Attention: Enabling the Network to Focus Only on the Most Relevant References
- arxiv url: http://arxiv.org/abs/2403.00211v2
- Date: Wed, 27 Mar 2024 01:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 21:54:06.788909
- Title: Trustworthy Self-Attention: Enabling the Network to Focus Only on the Most Relevant References
- Title(参考訳): 信頼できる自己注意:ネットワークを最も関連性の高い参照のみにフォーカスさせる
- Authors: Yu Jing, Tan Yujuan, Ren Ao, Liu Duo,
- Abstract要約: 近年の手法では、自己相似性の仮定に基づいて、隠蔽点の光学的流れを推定するための基準として、関連する非閉塞点を見つけるために自己注意を用いる。
我々は, 閉塞性拡張視覚特徴と2つの強い制約を構築するために, オンライン閉塞性認識情報をフル活用する。
Sintel Albedo パス上の最新 GMA-base 法である MATCHFlow(GMA) を用いて,全点,非包含点,非包含点,非包含点に対して 18.6%,16.2%,20.1% の誤差低減を実現した。
- 参考スコア(独自算出の注目度): 0.8249694498830561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prediction of optical flow for occluded points is still a difficult problem that has not yet been solved. Recent methods use self-attention to find relevant non-occluded points as references for estimating the optical flow of occluded points based on the assumption of self-similarity. However, they rely on visual features of a single image and weak constraints, which are not sufficient to constrain the trained network to focus on erroneous and weakly relevant reference points. We make full use of online occlusion recognition information to construct occlusion extended visual features and two strong constraints, allowing the network to learn to focus only on the most relevant references without requiring occlusion ground truth to participate in the training of the network. Our method adds very few network parameters to the original framework, making it very lightweight. Extensive experiments show that our model has the greatest cross-dataset generalization. Our method achieves much greater error reduction, 18.6%, 16.2%, and 20.1% for all points, non-occluded points, and occluded points respectively from the state-of-the-art GMA-base method, MATCHFlow(GMA), on Sintel Albedo pass. Furthermore, our model achieves state-of-the-art performance on the Sintel bench-marks, ranking \#1 among all published methods on Sintel clean pass. The code will be open-source.
- Abstract(参考訳): 閉塞点の光学的流れの予測は、まだ解決されていない難しい問題である。
近年の手法では、自己相似性の仮定に基づいて、隠蔽点の光学的流れを推定するための基準として、関連する非閉塞点を見つけるために自己注意を用いる。
しかし、それらは単一の画像の視覚的特徴と弱い制約に依存しており、トレーニングされたネットワークが誤った、そして弱い関連のある参照ポイントに焦点を絞るのに十分ではない。
ネットワークは,網のトレーニングに参加するために,隠蔽基盤の真理を必要とせず,最も関連性の高い参照のみに焦点を絞ることを学ぶことができる。
我々の手法は、元のフレームワークに非常に少ないネットワークパラメータを追加し、非常に軽量化します。
大規模な実験により、我々のモデルは最大のデータセット間一般化を持つことが示された。
Sintel Albedo パス上の最新 GMA-base 法である MATCHFlow(GMA) を用いて,全点,非包含点,非包含点,非包含点に対して 18.6%,16.2%,20.1% の誤差低減を実現した。
さらに,本モデルでは,Sintel のベンチマーク上での最先端性能を達成し,Sintel のクリーンパスに関する全手法のうち,#1 にランク付けした。
コードはオープンソースになる。
関連論文リスト
- Weakly Supervised LiDAR Semantic Segmentation via Scatter Image Annotation [38.715754110667916]
画像アノテーションを用いたLiDARセマンティックセマンティックセマンティックセマンティクスを実装した。
また、パフォーマンスギャップを減らすための3つの重要な戦略を含むネットワークであるScatterNetを提案する。
本手法は,完全教師付き手法の95%以上の性能を達成するために,ラベル付き点の0.02%未満を必要とする。
論文 参考訳(メタデータ) (2024-04-19T13:01:30Z) - An Efficient MLP-based Point-guided Segmentation Network for Ore Images
with Ambiguous Boundary [12.258442550351178]
本稿では,エッジバーリングの問題を解決することを目的とした,MLP(Multi-Layer Perceptron)に基づく軽量フレームワークを提案する。
提案手法は, 73MBのモデルサイズで, 毎秒27フレーム以上の処理速度を実現する。
提案手法は,性能スコアが60.4,48.9 in$AP_50box$と$AP_50mask$の順に高い精度を提供する。
論文 参考訳(メタデータ) (2024-02-27T10:09:29Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Weakly Supervised Semantic Segmentation for Large-Scale Point Cloud [69.36717778451667]
大規模なポイントクラウドセマンティックセグメンテーションのための既存の方法は、高価な、退屈でエラーを起こしやすい手動のポイントワイドアノテーションを必要とする。
この問題を解決するために,2つのコンポーネントを含む効果的な弱教師付き手法を提案する。
実験結果から,既存の弱教師付き手法と完全教師付き手法を比較検討した。
論文 参考訳(メタデータ) (2022-12-09T09:42:26Z) - MT-ORL: Multi-Task Occlusion Relationship Learning [38.21973582100365]
我々はOcclusion-shared and Path-separated Network (OPNet)と呼ばれる新しいアーキテクチャを提案する。
本手法は, PIOD/BSDSオーナシップデータセット上でのバウンダリーAPの6.1%/8.3%, オリエンテーションAPの6.5%/10%を超越する手法である。
論文 参考訳(メタデータ) (2021-08-12T13:06:25Z) - Revisiting Point Cloud Shape Classification with a Simple and Effective
Baseline [111.3236030935478]
評価手法の違い,データ拡張戦略,損失関数などの補助的要因が,性能に大きな違いをもたらすことがわかった。
SimpleViewと呼ばれるプロジェクションベースのメソッドは驚くほどうまく機能します。
ポイントネット++の半分のサイズでありながら、ModelNet40の洗練された最先端メソッドよりも同等かそれ以上の結果が得られる。
論文 参考訳(メタデータ) (2021-06-09T18:01:11Z) - Learning to Estimate Hidden Motions with Global Motion Aggregation [71.12650817490318]
閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。
最初の画像でピクセル間の長距離依存性を見つけるために,グローバルモーションアグリゲーションモジュールを導入する。
遮蔽領域における光流量推定が非遮蔽領域における性能を損なうことなく大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2021-04-06T10:32:03Z) - Relation-aware Instance Refinement for Weakly Supervised Visual
Grounding [44.33411132188231]
visual groundingは、ビジュアルオブジェクトとその言語エンティティ間の対応を構築することを目的としている。
本稿では,オブジェクトの細粒化とエンティティ関係モデリングを組み込んだ,新しい弱教師付き学習手法を提案する。
2つの公開ベンチマークの実験は、我々のフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2021-03-24T05:03:54Z) - Mixed-Privacy Forgetting in Deep Networks [114.3840147070712]
大規模画像分類タスクにおいてトレーニングされたネットワークの重みからトレーニングサンプルのサブセットの影響を除去できることを示す。
そこで本研究では,混合プライバシー設定における「忘れ」という新しい概念を導入する。
提案手法は,モデル精度のトレードオフを伴わずに忘れることができることを示す。
論文 参考訳(メタデータ) (2020-12-24T19:34:56Z) - SOE-Net: A Self-Attention and Orientation Encoding Network for Point
Cloud based Place Recognition [50.9889997200743]
我々は、自己アテンション・指向性符号化ネットワーク(SOE-Net)を用いて、ポイントクラウドデータから位置認識する問題に取り組む。
SOE-Netは、ポイント間の関係を完全に探求し、長距離コンテキストをポイントワイドなローカル記述子に組み込む。
様々なベンチマークデータセットの実験では、現在の最先端アプローチよりも提案したネットワークの性能が優れていることが示されている。
論文 参考訳(メタデータ) (2020-11-24T22:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。