このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220305となっている論文です。

PDF登録状況(公開日: 20220305)

TitleAuthorsAbstract論文公表日・翻訳日
# 車両インターネットにおけるm2m通信のためのai支援交通制御方式

AI-aided Traffic Control Scheme for M2M Communications in the Internet of Vehicles ( http://arxiv.org/abs/2204.03504v1 )

ライセンス: Link先を確認
Haijun Zhang, Minghui Jiang, Xiangnan Liu, Keping Long, and Victor C.M.Leung(参考訳) 車両のインターネット(IoV)におけるデータ転送の急速な増加により,アクセス混雑を効果的に緩和する手法の発見が課題となっている。 近年,多くの交通制御手法が研究されている。 それでも、トラフィックのダイナミクスと異なるiovアプリケーションの不均一性要件は、既存のほとんどの研究では考慮されていない。 本稿では,ハイブリッドトラヒック制御方式を検討し,それに取り組むために近位政策最適化(ppo)手法を用いる。 まず、IoVデバイスは遅延特性に基づいて様々なクラスに分けられる。 成功率制約付きパケットの送信を最大化する目標を確立する。 そして、最適化目標をマークフ決定プロセス(MDP)モデルに変換する。 最後に、PPO法に基づいてアクセスクラスバーリング(ACB)係数を求め、アクセスデバイスの成功数を最大化する。 提案手法の性能をシミュレーションにより検証した。

Due to the rapid growth of data transmissions in internet of vehicles (IoV), finding schemes that can effectively alleviate access congestion has become an important issue. Recently, many traffic control schemes have been studied. Nevertheless, the dynamics of traffic and the heterogeneous requirements of different IoV applications are not considered in most existing studies, which is significant for the random access resource allocation. In this paper, we consider a hybrid traffic control scheme and use proximal policy optimization (PPO) method to tackle it. Firstly, IoV devices are divided into various classes based on delay characteristics. The target of maximizing the successful transmission of packets with the success rate constraint is established. Then, the optimization objective is transformed into a markov decision process (MDP) model. Finally, the access class barring (ACB) factors are obtained based on the PPO method to maximize the number of successful access devices. The performance of the proposal algorithm in respect of successful events and delay compared to existing schemes is verified by simulations.
翻訳日:2022-04-10 11:08:09 公開日:2022-03-05
# (参考訳) wssamnet: 暗黙の医療画像登録ネットワーク [全文訳有]

WSSAMNet: Weakly Supervised Semantic Attentive Medical Image Registration Network ( http://arxiv.org/abs/2203.07114v1 )

ライセンス: CC BY 4.0
Sahar Almahfouz Nasser, Nikhil Cherian Kurian, Saqib Shamsi, Mohit Meena, and Amit Sethi(参考訳) 医用画像登録のための弱教師付き方法であるWSSAMNetを提案する。 wesは2段階の手法であり、最初のステップは固定ボリュームと移動ボリュームのセグメンテーションマスクの計算である。 これらのマスクは入力ボリュームに対応するために使用され、第2のステップで登録ネットワークへの入力として提供される。 登録ネットワークは変形フィールドを演算し、固定ボリュームと移動ボリュームのアライメントを行う。 本手法がアリおよびボクセルモルフに対するbratsregチャレンジデータに与える影響について検討し,本手法が競争的に有効であることを示す。

We present WSSAMNet, a weakly supervised method for medical image registration. Ours is a two step method, with the first step being the computation of segmentation masks of the fixed and moving volumes. These masks are then used to attend to the input volume, which are then provided as inputs to a registration network in the second step. The registration network computes the deformation field to perform the alignment between the fixed and the moving volumes. We study the effectiveness of our technique on the BraTSReg challenge data against ANTs and VoxelMorph, where we demonstrate that our method performs competitively.
翻訳日:2022-03-21 00:10:44 公開日:2022-03-05
# KPF-AE-LSTM:高太陽シナリオにおけるネットロード予測の深い確率モデル

KPF-AE-LSTM: A Deep Probabilistic Model for Net-Load Forecasting in High Solar Scenarios ( http://arxiv.org/abs/2203.04401v1 )

ライセンス: Link先を確認
Deepthi Sen, Indrasis Chakraborty, Soumya Kundu, Andrew P. Reiman, Ian Beil, Andy Eiden(参考訳) 配電網内における太陽透過率の上昇が予想されるため、ネット負荷を確実に予測し、その不確実性と変動を正確に定量化できる時系列予測手法の開発が必要となる。 本稿では, 日頭ネット負荷の確率的予測を15分分解能, 様々な太陽透過レベルで生成する深層学習手法を提案する。 提案したディープラーニングアーキテクチャは,高次元入力から低次元潜在空間へ,畳み込みオートエンコーダ(AE)を介して,次元の削減を利用する。 AEから抽出した特徴は、カーネル埋め込みのPerron-Frobenius (kPF)演算子を通して特徴を渡すことにより、潜在空間全体にわたる確率分布を生成する。 最後に、Long Short-term memory (LSTM) レイヤを用いて、潜在空間分布から予測されたネット負荷の時系列確率分布を合成する。 これらのモデルは、既存のベンチマークモデルと比較して優れたトレーニング効率を維持するとともに、優れた予測パフォーマンス(いくつかの指標による)を提供することが示されている。 様々な太陽浸透レベル(最大50\%)、予測地平線(例えば15\,min、24\,hr前方)、住宅の集合レベル、および欠測測定値に対するロバスト性を評価するために、詳細な分析を行った。

With the expected rise in behind-the-meter solar penetration within the distribution networks, there is a need to develop time-series forecasting methods that can reliably predict the net-load, accurately quantifying its uncertainty and variability. This paper presents a deep learning method to generate probabilistic forecasts of day-ahead net-load at 15-min resolution, at various solar penetration levels. Our proposed deep-learning based architecture utilizes the dimensional reduction, from a higher-dimensional input to a lower-dimensional latent space, via a convolutional Autoencoder (AE). The extracted features from AE are then utilized to generate probability distributions across the latent space, by passing the features through a kernel-embedded Perron-Frobenius (kPF) operator. Finally, long short-term memory (LSTM) layers are used to synthesize time-series probability distributions of the forecasted net-load, from the latent space distributions. The models are shown to deliver superior forecast performance (as per several metrics), as well as maintain superior training efficiency, in comparison to existing benchmark models. Detailed analysis is carried out to evaluate the model performance across various solar penetration levels (up to 50\%), prediction horizons (e.g., 15\,min and 24\,hr ahead), and aggregation level of houses, as well as its robustness against missing measurements.
翻訳日:2022-03-10 16:59:16 公開日:2022-03-05
# (参考訳) ロバストマニピュレーションのためのコンタクトリッチシステムのチャンス制約最適化 [全文訳有]

Chance-Constrained Optimization in Contact-Rich Systems for Robust Manipulation ( http://arxiv.org/abs/2203.02616v1 )

ライセンス: CC BY 4.0
Yuki Shirai, Devesh K. Jha, Arvind Raghunathan and Diego Romeres(参考訳) 本稿では,操作時のロバストな軌道最適化のための確率制約式を提案する。 特に,確率離散時間線形補完システム(SDLCS)の確率制約最適化について述べる。 最適化問題を解くため,MIQPCC (Mixed-Integer Quadratic Programming with Chance Constraints) を定式化する。 我々の定式化では、相補性に対する合同確率制約と、ダイナミクスの確率的進化を捉える状態を明確に検討する。 複数のシステムのシミュレーションにおいて最適化された軌道の堅牢性を評価する。 提案手法は,最近のsdlcのロバスト軌道最適化手法よりも優れている。

This paper presents a chance-constrained formulation for robust trajectory optimization during manipulation. In particular, we present a chance-constrained optimization for Stochastic Discrete-time Linear Complementarity Systems (SDLCS). To solve the optimization problem, we formulate Mixed-Integer Quadratic Programming with Chance Constraints (MIQPCC). In our formulation, we explicitly consider joint chance constraints for complementarity as well as states to capture the stochastic evolution of dynamics. We evaluate robustness of our optimized trajectories in simulation on several systems. The proposed approach outperforms some recent approaches for robust trajectory optimization for SDLCS.
翻訳日:2022-03-10 09:30:40 公開日:2022-03-05
# (参考訳) 機械学習による分子・遷移状態分割関数の低コスト予測 [全文訳有]

Low-cost prediction of molecular and transition state partition functions via machine learning ( http://arxiv.org/abs/2203.02621v1 )

ライセンス: CC BY 4.0
Evan Komp, St\'ephanie Valleau(参考訳) 我々は30000以上の有機化学気相分配関数のオープンソースデータセットを作成した。 このデータを用いて、未知の有機化学ガス相転移状態の分配関数を予測するために、機械学習深層ニューラルネットワーク推定器を訓練した。 この推定器は反応および積測度と分割関数にのみ依存する。 第2の機械学習ディープニューラルネットワークは、化学種の分割関数をその幾何学から予測するために訓練された。 本モデルでは,テストセット分割関数の対数を最大2.7%の絶対誤差で正確に予測する。 したがって、このアプローチは反応速度定数ab initioの計算コストを削減する手段を提供する。 このモデルは遷移状態理論の反応速度定数を定式化するためにも用いられ、結果は対数スケールで98.3%の精度で対応するab initio計算と定量的に一致した。

We have generated an open-source dataset of over 30000 organic chemistry gas phase partition functions. With this data, a machine learning deep neural network estimator was trained to predict partition functions of unknown organic chemistry gas phase transition states. This estimator only relies on reactant and product geometries and partition functions. A second machine learning deep neural network was trained to predict partition functions of chemical species from their geometry. Our models accurately predict the logarithm of test set partition functions with a maximum mean absolute error of 2.7%. Thus, this approach provides a means to reduce the cost of computing reaction rate constants ab initio. The models were also used to compute transition state theory reaction rate constants prefactors and the results were in quantitative agreement with the corresponding ab initio calculations with an accuracy of 98.3% on the log scale.
翻訳日:2022-03-10 09:12:21 公開日:2022-03-05
# (参考訳) ターゲットネットワークと切断が$q$-learningで致命的な三つ組を克服 [全文訳有]

Target Network and Truncation Overcome The Deadly triad in $Q$-Learning ( http://arxiv.org/abs/2203.02628v1 )

ライセンス: CC BY 4.0
Zaiwei Chen, John Paul Clarke, and Siva Theja Maguluri(参考訳) Q$-learning with function approximation は、理論上は謎の強化学習(RL)アルゴリズムの実証的な成功の1つであり、Sutton (1999) では、RLコミュニティで最も重要な理論上のオープンな問題の一つとして特定されている。 基本線形関数近似設定においても、よく知られた発散例がある。 本研究では,対象ネットワークと切断を用いた線形関数近似を用いた$q$-learningの安定設計を提案し,その有限サンプル保証を確立する。 我々の結果は、関数近似誤差まで、$\mathcal{O}(\epsilon^{-2})$サンプルの複雑さを意味する。 これは線形関数近似による$Q$-learningの最初の変種であり、強い仮定や問題パラメータを変更することなく確実に安定であり、最適なサンプル複雑性を実現する。

$Q$-learning with function approximation is one of the most empirically successful while theoretically mysterious reinforcement learning (RL) algorithms, and was identified in Sutton (1999) as one of the most important theoretical open problems in the RL community. Even in the basic linear function approximation setting, there are well-known divergent examples. In this work, we propose a stable design for $Q$-learning with linear function approximation using target network and truncation, and establish its finite-sample guarantees. Our result implies an $\mathcal{O}(\epsilon^{-2})$ sample complexity up to a function approximation error. This is the first variant of $Q$-learning with linear function approximation that is provably stable without requiring strong assumptions or modifying the problem parameters, and achieves the optimal sample complexity.
翻訳日:2022-03-10 09:00:55 公開日:2022-03-05
# (参考訳) サブワード単位を用いた日本語フィクションの言語音声パターン抽出 [全文訳有]

Extracting linguistic speech patterns of Japanese fictional characters using subword units ( http://arxiv.org/abs/2203.02632v1 )

ライセンス: CC BY 4.0
Mika Kishino, Kanako Komiya(参考訳) 本研究は,日本のアニメやゲームキャラクタを特徴付ける言語音声パターンを抽出・分析した。 MeCabのような従来の形態素解析器は高い性能を持つセグメンテーションワードであるが、しばしばアニメやゲームキャラクタの行に現れる辞書に載らない、壊れた表現や発話の終端をセグメント化できない。 この課題を克服するために,深層学習を主目的としたサブワード単位を用いた日本語アニメやゲームキャラクタのセグメンテーションを行い,頻発する文字列を抽出し,発話を特徴付ける表現を得る。 TF/IDFで重み付けされたサブワード単位を,性別,年齢,各アニメキャラクタに応じて分析し,各特徴に特有の言語音声パターンであることを示す。 さらに, 分類実験により, サブワード単位を持つモデルが従来の手法よりも優れていることを示す。

This study extracted and analyzed the linguistic speech patterns that characterize Japanese anime or game characters. Conventional morphological analyzers, such as MeCab, segment words with high performance, but they are unable to segment broken expressions or utterance endings that are not listed in the dictionary, which often appears in lines of anime or game characters. To overcome this challenge, we propose segmenting lines of Japanese anime or game characters using subword units that were proposed mainly for deep learning, and extracting frequently occurring strings to obtain expressions that characterize their utterances. We analyzed the subword units weighted by TF/IDF according to gender, age, and each anime character and show that they are linguistic speech patterns that are specific for each feature. Additionally, a classification experiment shows that the model with subword units outperformed that with the conventional method.
翻訳日:2022-03-10 08:24:25 公開日:2022-03-05
# (参考訳) プライベート属性に関する情報を開示する機能を抑圧したプライバシー保護型ビデオ分析パイプラインのトレーニング [全文訳有]

Training privacy-preserving video analytics pipelines by suppressing features that reveal information about private attributes ( http://arxiv.org/abs/2203.02635v1 )

ライセンス: CC BY 4.0
Chau Yi Li and Andrea Cavallaro(参考訳) ディープニューラルネットワークは、家庭外の広告に晒された人々の注意と反応を評価するなど、シーン分析のためにますますデプロイされている。 しかし、特定のコンセンサス属性(例えば感情)を予測するように訓練されたディープニューラルネットワークによって抽出された特徴は、プライベートで保護された属性(例えば、年齢や性別)に関する情報もエンコードし、明らかにすることができる。 本研究は,推測時間における個人情報の漏洩に焦点をあてる。 我々は、デプロイされたニューラルネットワークの層から抽出された特徴にアクセス可能な敵を考え、これらの特徴を使ってプライベート属性を予測する。 このような攻撃の成功を防ぐために,ネットワークのトレーニングを混乱損失を用いて修正し,敵がプライベート属性を正確に予測することが困難となる特徴の抽出を促進する。 我々は、このトレーニングアプローチを、公開データセットを用いて画像ベースのタスクで検証する。 その結果,提案するプライマリネットは,従来のネットワークと比較して,性別で2.88%,年齢グループで13.06%,タスク精度に最小限の影響で,最先端の感情認識分類器の個人情報の漏洩を低減できることがわかった。

Deep neural networks are increasingly deployed for scene analytics, including to evaluate the attention and reaction of people exposed to out-of-home advertisements. However, the features extracted by a deep neural network that was trained to predict a specific, consensual attribute (e.g. emotion) may also encode and thus reveal information about private, protected attributes (e.g. age or gender). In this work, we focus on such leakage of private information at inference time. We consider an adversary with access to the features extracted by the layers of a deployed neural network and use these features to predict private attributes. To prevent the success of such an attack, we modify the training of the network using a confusion loss that encourages the extraction of features that make it difficult for the adversary to accurately predict private attributes. We validate this training approach on image-based tasks using a publicly available dataset. Results show that, compared to the original network, the proposed PrivateNet can reduce the leakage of private information of a state-of-the-art emotion recognition classifier by 2.88% for gender and by 13.06% for age group, with a minimal effect on task accuracy.
翻訳日:2022-03-10 08:13:23 公開日:2022-03-05
# (参考訳) 一般化ゼロショット学習のためのクラスタベースコントラストディスタング [全文訳有]

Cluster-based Contrastive Disentangling for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2203.02648v1 )

ライセンス: CC BY 4.0
Yi Gao and Chenwei Tang and Jiancheng Lv(参考訳) Generalized Zero-Shot Learning (GZSL) は、見えないクラスのみをトレーニングすることで、目に見えないクラスと見えないクラスの両方を認識することを目的としている。 本稿では,意味的ギャップとドメインシフト問題を緩和し,gzslを改善するためのクラスタ型コントラスト・ディスタング(ccd)手法を提案する。 具体的には、まずバッチデータをクラスタ化して、同様のクラスを含む複数のセットを形成します。 次に、視覚的特徴をセマンティック非特異変数とセマンティック整合変数に分解し、さらにクラスタリング結果に応じてセマンティック整合変数をクラス共有変数とクラス固有変数に分解する。 ランダムスワップとセマンティクス・ビジュアルアライメントを備えた不連続学習モジュールは、セマンティクスギャップを橋渡しする。 さらに,セマンティクスマッチング変数とクラス統一変数の対比学習を導入し,クラス内およびクラス内類似性,およびクラス間判別性について学習する。 そして、生成された視覚特徴は、一般画像の基盤特性に準拠し、強力な識別情報を有し、ドメインシフト問題をよく緩和する。 提案手法を4つのデータセットで評価し,従来型と一般化型の両方で最新の結果を得る。

Generalized Zero-Shot Learning (GZSL) aims to recognize both seen and unseen classes by training only the seen classes, in which the instances of unseen classes tend to be biased towards the seen class. In this paper, we propose a Cluster-based Contrastive Disentangling (CCD) method to improve GZSL by alleviating the semantic gap and domain shift problems. Specifically, we first cluster the batch data to form several sets containing similar classes. Then, we disentangle the visual features into semantic-unspecific and semantic-matched variables, and further disentangle the semantic-matched variables into class-shared and class-unique variables according to the clustering results. The disentangled learning module with random swapping and semantic-visual alignment bridges the semantic gap. Moreover, we introduce contrastive learning on semantic-matched and class-unique variables to learn high intra-set and intra-class similarity, as well as inter-set and inter-class discriminability. Then, the generated visual features conform to the underlying characteristics of general images and have strong discriminative information, which alleviates the domain shift problem well. We evaluate our proposed method on four datasets and achieve state-of-the-art results in both conventional and generalized settings.
翻訳日:2022-03-10 08:04:35 公開日:2022-03-05
# (参考訳) フレームレートアップコンバージョンのための適応しきい値に基づく三重動推定とフレーム補間 [全文訳有]

Triple Motion Estimation and Frame Interpolation based on Adaptive Threshold for Frame Rate Up-Conversion ( http://arxiv.org/abs/2203.03621v1 )

ライセンス: CC BY 4.0
Hanieh Naderi, Mohammad Rahmati(参考訳) 本稿では,動き補償フレームレートアップ・コンバージョン(MC-FRUC)アルゴリズムを提案する。 提案手法は,一方的(前後に結合)と両側的運動推定を用いて,まず動きベクトルを推定することで補間フレームを作成する。 そして、適応しきい値に基づいて動きベクトルを結合し、高品質な補間フレームを作成し、ブロックアーティファクトを低減する。 片側運動軌道に沿った運動補償フレーム補間が穴をあけるので、この問題を解決するために新しいアルゴリズムが導入された。 実験の結果,提案アルゴリズムを用いた補間フレームの品質は既存のアルゴリズムよりもはるかに高いことがわかった。

In this paper, we propose a novel motion-compensated frame rate up-conversion (MC-FRUC) algorithm. The proposed algorithm creates interpolated frames by first estimating motion vectors using unilateral (jointing forward and backward) and bilateral motion estimation. Then motion vectors are combined based on adaptive threshold, in order to creates high-quality interpolated frames and reduce block artifacts. Since motion-compensated frame interpolation along unilateral motion trajectories yields holes, a new algorithm is introduced to resolve this problem. The experimental results show that the quality of the interpolated frames using the proposed algorithm is much higher than the existing algorithms.
翻訳日:2022-03-10 07:50:55 公開日:2022-03-05
# (参考訳) クロスモーダル注意を考慮した共同特徴表現に基づく音声・視覚音声の分離 [全文訳有]

Audio-visual speech separation based on joint feature representation with cross-modal attention ( http://arxiv.org/abs/2203.02655v1 )

ライセンス: CC BY 4.0
Junwen Xiong, Peng Zhang, Lei Xie, Wei Huang, Yufei Zha, Yanning Zhang(参考訳) マルチモーダル音声分離は,マルチストーカーノイズ環境において,対象文字の分離に特に有利である。 残念なことに、現在の分離戦略のほとんどは、1つのモダリティの機能学習に基づく直接的な融合を好むが、モダライト間の相互関係の十分な考慮からは程遠い。 そこで本研究では,異なるモーダル間の意味的相関によるフレームワーク全体のメリットを活かすために,音声と視覚ストリームの連成特徴表現を注意機構で学習することによって,新たな相互融合戦略を提案する。 音声と視覚の分離をさらに改善するため、唇の動きの濃密な光学的流れを取り入れ、視覚表現の堅牢性を高める。 提案手法の評価は,2つの公開音声・視覚音声分離ベンチマークデータセットを用いて行った。 性能の全体的な改善により、追加のモーションネットワークは、唇画像と音声信号の視覚的表現を効果的に強化し、提案したクロスモーダル融合による全ての指標でベースラインを上回ることを示した。

Multi-modal based speech separation has exhibited a specific advantage on isolating the target character in multi-talker noisy environments. Unfortunately, most of current separation strategies prefer a straightforward fusion based on feature learning of each single modality, which is far from sufficient consideration of inter-relationships between modalites. Inspired by learning joint feature representations from audio and visual streams with attention mechanism, in this study, a novel cross-modal fusion strategy is proposed to benefit the whole framework with semantic correlations between different modalities. To further improve audio-visual speech separation, the dense optical flow of lip motion is incorporated to strengthen the robustness of visual representation. The evaluation of the proposed work is performed on two public audio-visual speech separation benchmark datasets. The overall improvement of the performance has demonstrated that the additional motion network effectively enhances the visual representation of the combined lip images and audio signal, as well as outperforming the baseline in terms of all metrics with the proposed cross-modal fusion.
翻訳日:2022-03-10 07:42:02 公開日:2022-03-05
# (参考訳) 注意から親和性を学ぶ:トランスフォーマーを用いたエンドツーエンドの弱教師付き意味セグメンテーション [全文訳有]

Learning Affinity from Attention: End-to-End Weakly-Supervised Semantic Segmentation with Transformers ( http://arxiv.org/abs/2203.02664v1 )

ライセンス: CC BY 4.0
Lixiang Ru and Yibing Zhan and Baosheng Yu and Bo Du(参考訳) 画像レベルのラベルを持つ弱教師付きセマンティックセグメンテーション(WSSS)は重要かつ困難な課題である。 高いトレーニング効率のため、WSSSのエンドツーエンドソリューションはコミュニティから注目を集めている。 しかし、現在の手法は主に畳み込みニューラルネットワークに基づいており、グローバル情報を適切に探索できないため、通常は不完全な対象領域となる。 本稿では、上記の問題に対処するため、グローバル情報を自然に統合したトランスフォーマーを導入し、エンド・ツー・エンドWSSSのためのより統合された初期擬似ラベルを生成する。 トランスフォーマにおける自己愛着と意味的親和性との固有の一貫性を動機とし,多頭自己愛着(multi-head self-attention, mhsa)から意味親和性を学ぶための注意からの親和性(afa)モジュールを提案する。 学習された親和性は、セグメンテーションのための初期擬似ラベルを洗練するために利用される。 また、afaを監督するための信頼性の高いアフィニティラベルを効率的に導出し、擬似ラベルの局所的一貫性を確保するために、低レベルの画像出現情報を組み込んだ画素適応リファインメントモジュールを考案し、擬似ラベルを洗練する。 我々は広範な実験を行い,pascal voc 2012 と ms coco 2014 のデータセット上で 66.0% と 38.9% の miou をそれぞれ達成した。 コードはhttps://github.com/r ulixiang/afaで入手できる。

Weakly-supervised semantic segmentation (WSSS) with image-level labels is an important and challenging task. Due to the high training efficiency, end-to-end solutions for WSSS have received increasing attention from the community. However, current methods are mainly based on convolutional neural networks and fail to explore the global information properly, thus usually resulting in incomplete object regions. In this paper, to address the aforementioned problem, we introduce Transformers, which naturally integrate global information, to generate more integral initial pseudo labels for end-to-end WSSS. Motivated by the inherent consistency between the self-attention in Transformers and the semantic affinity, we propose an Affinity from Attention (AFA) module to learn semantic affinity from the multi-head self-attention (MHSA) in Transformers. The learned affinity is then leveraged to refine the initial pseudo labels for segmentation. In addition, to efficiently derive reliable affinity labels for supervising AFA and ensure the local consistency of pseudo labels, we devise a Pixel-Adaptive Refinement module that incorporates low-level image appearance information to refine the pseudo labels. We perform extensive experiments and our method achieves 66.0% and 38.9% mIoU on the PASCAL VOC 2012 and MS COCO 2014 datasets, respectively, significantly outperforming recent end-to-end methods and several multi-stage competitors. Code is available at https://github.com/r ulixiang/afa.
翻訳日:2022-03-10 07:34:01 公開日:2022-03-05
# (参考訳) deep-aspects : 脳卒中重症度測定のためのセグメンテーション支援モデル [全文訳有]

Deep-ASPECTS: A Segmentation-Assiste d Model for Stroke Severity Measurement ( http://arxiv.org/abs/2203.03622v1 )

ライセンス: CC BY 4.0
Ujjwal Upadhyay, Mukul Ranjan, Satish Golla, Swetha Tanamala, Preetham Sreenivas, Sasank Chilamkurthy, Jeyaraj Pandian, and Jason Tarpley(参考訳) 脳の動脈が破裂して出血したり、脳への血液供給が遮断されたりするときに脳卒中が起こる。 血液と酸素は、組織死の原因となる破壊や閉塞のために、脳の組織に届かない。 中大脳動脈 (mca) は最大大脳動脈であり、脳卒中において最も一般的に損傷を受けた血管である。 MCAが供給する領域における血流の中断によって引き起こされる集中神経障害の早期発症は、MCA脳卒中として知られている。 アルバータ脳卒中早期CTスコア(ASPECTS)は、MCA脳卒中患者の早期虚血変化の程度を推定するために用いられる。 本研究では,ASPECTSにおけるCTスキャンの深層学習に基づく評価法を提案する。 私たちの作品には3つのハイライトがある。 まず,脳卒中検出のための医用画像分割法を提案する。 第2に,非造影CT(NCCT)スキャンの診断時間を短縮した完全自動ASPECTスコアに対するAIソリューションの有効性を示す。 本アルゴリズムでは, MCA解剖学的区分けでは0.64, 梗塞区分けでは0.72である。 最後に,本モデルの性能は,放射線学者間の可読性に比例することを示す。

A stroke occurs when an artery in the brain ruptures and bleeds or when the blood supply to the brain is cut off. Blood and oxygen cannot reach the brain's tissues due to the rupture or obstruction resulting in tissue death. The Middle cerebral artery (MCA) is the largest cerebral artery and the most commonly damaged vessel in stroke. The quick onset of a focused neurological deficit caused by interruption of blood flow in the territory supplied by the MCA is known as an MCA stroke. Alberta stroke programme early CT score (ASPECTS) is used to estimate the extent of early ischemic changes in patients with MCA stroke. This study proposes a deep learning-based method to score the CT scan for ASPECTS. Our work has three highlights. First, we propose a novel method for medical image segmentation for stroke detection. Second, we show the effectiveness of AI solution for fully-automated ASPECT scoring with reduced diagnosis time for a given non-contrast CT (NCCT) Scan. Our algorithms show a dice similarity coefficient of 0.64 for the MCA anatomy segmentation and 0.72 for the infarcts segmentation. Lastly, we show that our model's performance is inline with inter-reader variability between radiologists.
翻訳日:2022-03-10 07:16:34 公開日:2022-03-05
# (参考訳) この証明はプディングにある:自動定理証明を使って料理のレシピを生成する

The Proof is in the Pudding: Using Automated Theorem Proving to Generate Cooking Recipes ( http://arxiv.org/abs/2203.02683v1 )

ライセンス: CC BY 4.0
Louis Mahon and Carl Vogel(参考訳) 本稿では,料理レシピのルールに基づく自然言語生成プログラムであるfastfoodを提案する。 レシピは、成分と指示を自動定理証明手順を用いて選択し、公理と意味の指示に対応する成分で作成する。 FASTFOODはまた、時間的最適化モジュールも備えており、レシピが炊飯中に野菜を刻むことを規定するなど、レシピを再構成してより時間効率を高めることができる。 このシステムは、自然言語生成をコンテンツ生成、コンテンツ選択、コンテンツ組織、コンテンツ実現の4つのフェーズに分割するフレームワークを用いて詳細に記述されている。 次に、同様の既存のシステムと技術で比較する。

This paper presents FASTFOOD, a rule-based Natural Language Generation Program for cooking recipes. Recipes are generated by using an Automated Theorem Proving procedure to select the ingredients and instructions, with ingredients corresponding to axioms and instructions to implications. FASTFOOD also contains a temporal optimization module which can rearrange the recipe to make it more time-efficient for the user, e.g. the recipe specifies to chop the vegetables while the rice is boiling. The system is described in detail, using a framework which divides Natural Language Generation into 4 phases: content production, content selection, content organisation and content realisation. A comparison is then made with similar existing systems and techniques.
翻訳日:2022-03-10 07:07:57 公開日:2022-03-05
# (参考訳) ドメインと特徴の幻覚を通してのFederated and Generalized Person Re-identification [全文訳有]

Federated and Generalized Person Re-identification through Domain and Feature Hallucinating ( http://arxiv.org/abs/2203.02689v1 )

ライセンス: CC BY 4.0
Fengxiang Yang, Zhun Zhong, Zhiming Luo, Shaozi Li, Nicu Sebe(参考訳) 本稿では,複数の分散ラベル付きソースドメインを用いた一般化モデルを学習することを目的とした,人物再識別(re-ID)のためのフェデレーションドメイン一般化(FedDG)の問題について検討する。 実証的手法(FedAvg)は、個別に局所モデルを訓練し、それらを平均化し、局所的な微調整や未確認ターゲットドメインへの展開のためのグローバルモデルを得る。 fedavgの欠点のひとつは、ローカルトレーニング中に他のクライアントのデータ分散を無視し、ローカルモデルがローカルデータに過度に適合し、一般化されていないグローバルモデルを生成することだ。 そこで本研究では,局所的・大域的モデルを学習するための多種多様な特徴を生み出すために,DFH(Domain and Feature Hallucinating)と呼ばれる新しい手法を提案する。 具体的には、各モデル集約プロセスの後、データプライバシに違反することなく、異なるクライアント間でドメインレベルの特徴統計(DFS)を共有します。 局所訓練中、DFSは、ランダムな重み付けでDFSを再重み付けすることで達成される提案されたドメイン幻覚を用いて、新しいドメイン統計を合成するために使用される。 そこで本研究では,局所的な特徴をスケールし,得られた新規ドメインの分布にシフトすることで多様化する機能幻覚を提案する。 合成された新しい特徴は、元のペアワイズ類似性を保ち、モデルを教師付き方式で最適化することができる。 広範な実験により,提案するdfhがグローバルモデルの一般化能力を効果的に向上できることが確かめられた。 提案手法は4つの大規模re-IDベンチマークにおいてFedDGの最先端性能を実現する。

In this paper, we study the problem of federated domain generalization (FedDG) for person re-identification (re-ID), which aims to learn a generalized model with multiple decentralized labeled source domains. An empirical method (FedAvg) trains local models individually and averages them to obtain the global model for further local fine-tuning or deploying in unseen target domains. One drawback of FedAvg is neglecting the data distributions of other clients during local training, making the local model overfit local data and producing a poorly-generalized global model. To solve this problem, we propose a novel method, called "Domain and Feature Hallucinating (DFH)", to produce diverse features for learning generalized local and global models. Specifically, after each model aggregation process, we share the Domain-level Feature Statistics (DFS) among different clients without violating data privacy. During local training, the DFS are used to synthesize novel domain statistics with the proposed domain hallucinating, which is achieved by re-weighting DFS with random weights. Then, we propose feature hallucinating to diversify local features by scaling and shifting them to the distribution of the obtained novel domain. The synthesized novel features retain the original pair-wise similarities, enabling us to utilize them to optimize the model in a supervised manner. Extensive experiments verify that the proposed DFH can effectively improve the generalization ability of the global model. Our method achieves the state-of-the-art performance for FedDG on four large-scale re-ID benchmarks.
翻訳日:2022-03-10 06:48:58 公開日:2022-03-05
# (参考訳) MISP-GGDスーパーピクセルセグメンテーションによるSAR画像の高分解能海岸線抽出 [全文訳有]

High-resolution Coastline Extraction in SAR Images via MISP-GGD Superpixel Segmentation ( http://arxiv.org/abs/2203.02708v1 )

ライセンス: CC BY 4.0
Odysseas Pappas and Nantheera Anantrasirichai and Byron Adams and Alin Achim(参考訳) sar画像からの高精度な海岸線/海岸線抽出は、多くの海上および沿岸監視アプリケーションにおいて重要なステップである。 一般化ガンマ混合モデルスーパーピクセルアルゴリズム(MISP-GGD)を用いた画像分割手法を提案する。 MISP-GGDは、海岸線のような画像の物体のエッジに非常に精度よく付着したスーパーピクセルを生成する。 テクスチャとラジオメトリーの特徴に従って生成されたスーパーピクセルの教師なしクラスタリングにより、高度に正確な海岸線を抽出できる陸水マスクを生成することができる。 本稿では,様々な特徴を持つ複数のSAR画像に対する提案手法の結果について述べる。

High accuracy coastline/shoreline extraction from SAR imagery is a crucial step in a number of maritime and coastal monitoring applications. We present a method based on image segmentation using the Generalised Gamma Mixture Model superpixel algorithm (MISP-GGD). MISP-GGD produces superpixels adhering with great accuracy to object edges in the image, such as the coastline. Unsupervised clustering of the generated superpixels according to textural and radiometric features allows for generation of a land/water mask from which a highly accurate coastline can be extracted. We present results of our proposed method on a number of SAR images of varying characteristics.
翻訳日:2022-03-10 06:31:24 公開日:2022-03-05
# 変形可能な医用画像登録のためのコーディネートトランスレータ

Coordinate Translator for Learning Deformable Medical Image Registration ( http://arxiv.org/abs/2203.03626v1 )

ライセンス: Link先を確認
Yihao Liu, Lianrui Zuo, Shuo Han, Jerry L. Prince, Aaron Carass(参考訳) 深層学習(DL)に基づく変形可能な画像登録法の大半は、畳み込みニューラルネットワーク(CNN)を用いて、動画像と固定画像のペアから変位場を推定する。 しかし、これはCNNの畳み込みカーネルが入力から強度の特徴を抽出するだけでなく、画像座標系を理解する必要がある。 後者のタスクは従来のCNNでは困難であり、登録タスクのパフォーマンスを制限している。 この問題を解決するために,まず,固定画像と移動画像のマッチング特徴を識別し,それらの座標対応をトレーニングすることなく出力する微分可能なモジュールである coordinate translator (cotr) を導入する。 CNNのイメージ座標系を理解することの負担を解放し、特徴抽出に集中できるようにする。 次に,cnnエンコーダから抽出した階層的特徴を持つ複数のcotrを用いて,粗面から細かな変形場を出力する,新しい変形可能な登録ネットワークim2gridを提案する。 我々は,im2gridを最先端のDL法および非DL法と比較し,教師なし3次元磁気共鳴画像の登録を行った。 実験の結果,Im2gridは定性的・定量的にこれらの手法より優れていた。

The majority of deep learning (DL) based deformable image registration methods use convolutional neural networks (CNNs) to estimate displacement fields from pairs of moving and fixed images. This, however, requires the convolutional kernels in the CNN to not only extract intensity features from the inputs but also understand image coordinate systems. We argue that the latter task is challenging for traditional CNNs, limiting their performance in registration tasks. To tackle this problem, we first introduce Coordinate Translator (CoTr), a differentiable module that identifies matched features between the fixed and moving image and outputs their coordinate correspondences without the need for training. It unloads the burden of understanding image coordinate systems for CNNs, allowing them to focus on feature extraction. We then propose a novel deformable registration network, im2grid, that uses multiple CoTr's with the hierarchical features extracted from a CNN encoder and outputs a deformation field in a coarse-to-fine fashion. We compared im2grid with the state-of-the-art DL and non-DL methods for unsupervised 3D magnetic resonance image registration. Our experiments show that im2grid outperforms these methods both qualitatively and quantitatively.
翻訳日:2022-03-09 15:50:36 公開日:2022-03-05
# 被サンプリング医用画像再構成のための計測条件付雑音拡散確率モデル

Measurement-conditio ned Denoising Diffusion Probabilistic Model for Under-sampled Medical Image Reconstruction ( http://arxiv.org/abs/2203.03623v1 )

ライセンス: Link先を確認
Yutong Xie and Quanzheng Li(参考訳) DDPMに基づく医用画像再構成のための,新しい,統一された計測条件付き拡散確率モデル(MC-DDPM)を提案する。 前作と異なり、mc-ddpmは測定領域(mri再構成のk空間など)で定義され、アンダーサンプリングマスクで処理される。 本手法をMRI再建の高速化に応用し, 高い性能, 完全な監督基準, 最先端のスコアベース再構築法を立案した。 その生成性のため、MC-DDPMは再構成の不確実性も定量化できる。 コードはgithubから入手できます。

We propose a novel and unified method, measurement-conditio ned denoising diffusion probabilistic model (MC-DDPM), for under-sampled medical image reconstruction based on DDPM. Different from previous works, MC-DDPM is defined in measurement domain (e.g. k-space in MRI reconstruction) and conditioned on under-sampling mask. We apply this method to accelerate MRI reconstruction and the experimental results show excellent performance, outperforming full supervision baseline and the state-of-the-art score-based reconstruction method. Due to its generative nature, MC-DDPM can also quantify the uncertainty of reconstruction. Our code is available on github.
翻訳日:2022-03-09 15:13:31 公開日:2022-03-05
# 単一露光補正と多露光融合のための核融合補正ネットワーク

Fusion-Correction Network for Single-Exposure Correction and Multi-Exposure Fusion ( http://arxiv.org/abs/2203.03624v1 )

ライセンス: Link先を確認
Jin Liang, Anran Zhang, Jun Xu, Hui Li, Xiantong Zhen(参考訳) デジタルカメラで撮影された写真は、通常、露光過剰や露光不足の問題に苦しむ。 単一露光補正(SEC)と多露光融合(MEF)は、画像露出向上のための画像処理タスクとして広く研究されている。 しかし、現在のSECとMEFはSECとMEFの相互関係を無視し、異なる枠組みで提案されている。 さらに、ほとんどのmefメソッドは、通常、露出不足または過剰な画像のみを含むシーケンスを処理するのに失敗する。 本稿では,これらの問題を緩和するために,SECとMEFのタスクを同時に処理するための統合フレームワークを開発する。 ラプラシアンピラミッド(lp)分解を基盤として,多レベルスキームで画像シーケンスを逐次的に融合修正する新しい核融合補正ネットワーク(fcnet)を提案する。 各lpレベルにおいて、画像シーケンスは、連続した画像融合および露光補正のための融合ブロック及び補正ブロックに供給される。 補正された画像は、アップサンプリングされ、次レベルの高周波ディテールコンポーネントで再構成され、次レベルのブロックのベースシーケンスを生成する。 ベンチマークデータセットの実験では、当社のFCNetがSECとMEFの両方のタスクに有効であることが示された。

The photographs captured by digital cameras usually suffer from over-exposure or under-exposure problems. The Single-Exposure Correction (SEC) and Multi-Exposure Fusion (MEF) are two widely studied image processing tasks for image exposure enhancement. However, current SEC and MEF methods ignore the internal correlation between SEC and MEF, and are proposed under distinct frameworks. What's more, most MEF methods usually fail at processing a sequence containing only under-exposed or over-exposed images. To alleviate these problems, in this paper, we develop an integrated framework to simultaneously tackle the SEC and MEF tasks. Built upon the Laplacian Pyramid (LP) decomposition, we propose a novel Fusion-Correction Network (FCNet) to fuse and correct an image sequence sequentially in a multi-level scheme. In each LP level, the image sequence is feed into a Fusion block and a Correction block for consecutive image fusion and exposure correction. The corrected image is upsampled and re-composed with the high-frequency detail components in next-level, producing the base sequence for the next-level blocks. Experiments on the benchmark dataset demonstrate that our FCNet is effective on both the SEC and MEF tasks.
翻訳日:2022-03-09 15:13:18 公開日:2022-03-05
# (参考訳) 効率的・スケーラブルなシャープネス最小化に向けて [全文訳有]

Towards Efficient and Scalable Sharpness-Aware Minimization ( http://arxiv.org/abs/2203.02714v1 )

ライセンス: CC BY 4.0
Yong Liu, Siqi Mai, Xiangning Chen, Cho-Jui Hsieh, Yang You(参考訳) 近年,ロスランドスケープの幾何学と一般化を結びつけるシャープネス・アウェアの最小化(SAM)が,視覚トランスフォーマーなどの大規模モデルのトレーニングにおいて,大幅な性能向上を実現している。 しかし、SAMの更新ルールは、各ステップで2つの逐次(並列化不可能な)勾配計算を必要とするため、計算オーバーヘッドは2倍になる。 本論文では,内勾配上昇を周期的にのみ計算し,SAMのトレーニングコストを大幅に削減する新しいアルゴリズムであるLookSAMを提案する。 LookSAMは、SGDやAdamのような一階最適化器と同等の計算複雑性を享受しています。 lookamの性能と拡張性をさらに評価するため,我々は,階層的な修正と,シャープなローカルミニマに収束しやすい大規模バッチトレーニングシナリオにおける実験を行う。 Vision Transformer (ViTs) のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。 64kのバッチサイズで、競争性能を維持しながら、スクラッチから数分でViTをトレーニングすることができます。

Recently, Sharpness-Aware Minimization (SAM), which connects the geometry of the loss landscape and generalization, has demonstrated significant performance boosts on training large-scale models such as vision transformers. However, the update rule of SAM requires two sequential (non-parallelizable) gradient computations at each step, which can double the computational overhead. In this paper, we propose a novel algorithm LookSAM - that only periodically calculates the inner gradient ascent, to significantly reduce the additional training cost of SAM. The empirical results illustrate that LookSAM achieves similar accuracy gains to SAM while being tremendously faster - it enjoys comparable computational complexity with first-order optimizers such as SGD or Adam. To further evaluate the performance and scalability of LookSAM, we incorporate a layer-wise modification and perform experiments in the large-batch training scenario, which is more prone to converge to sharp local minima. We are the first to successfully scale up the batch size when training Vision Transformers (ViTs). With a 64k batch size, we are able to train ViTs from scratch in minutes while maintaining competitive performance.
翻訳日:2022-03-09 13:10:56 公開日:2022-03-05
# (参考訳) ビデオ超解像のための新しいデュアルデンス接続ネットワーク [全文訳有]

A Novel Dual Dense Connection Network for Video Super-resolution ( http://arxiv.org/abs/2203.02723v1 )

ライセンス: CC BY 4.0
Guofang Li and Yonggui Zhu(参考訳) ビデオ超解像(VSR)とは、対応する低解像度(LR)ビデオから高解像度(HR)ビデオの再構成を指す。 近年、VSRは注目されている。 本稿では,高品質な超解像(SR)を生成できる新しい二重高密度接続ネットワークを提案する。 入力フレームは、異なる期間の情報を表す基準フレーム、時間前グループ、時間後グループに創造的に分割される。 時間情報障害を生じさせることなく、異なる期間の正確な情報を提供する。 一方,新たな損失関数が生成され,モデルの収束能力の向上に寄与する。 実験により,本モデルはvid4データセットおよびspmcs-11データセットの他の先進モデルよりも優れていることが示された。

Video super-resolution (VSR) refers to the reconstruction of high-resolution (HR) video from the corresponding low-resolution (LR) video. Recently, VSR has received increasing attention. In this paper, we propose a novel dual dense connection network that can generate high-quality super-resolution (SR) results. The input frames are creatively divided into reference frame, pre-temporal group and post-temporal group, representing information in different time periods. This grouping method provides accurate information of different time periods without causing time information disorder. Meanwhile, we produce a new loss function, which is beneficial to enhance the convergence ability of the model. Experiments show that our model is superior to other advanced models in Vid4 datasets and SPMCS-11 datasets.
翻訳日:2022-03-09 12:30:52 公開日:2022-03-05
# (参考訳) 深部ニューラルネットワークを用いたシーム彫刻検出のためのエンドツーエンドアプローチ [全文訳有]

An End-to-End Approach for Seam Carving Detection using Deep Neural Networks ( http://arxiv.org/abs/2203.02728v1 )

ライセンス: CC BY 4.0
Thierry P. Moreira, Marcos Cleison S. Santana, Leandro A. Passos Jo\~ao Paulo Papa, and Kelton Augusto P. da Costa(参考訳) シーム・カービング(Seam Carving)は、画像形状ではなく、その内容に基づいて画像の縮小と拡大の両面を縮小する計算方法である。 この手法は主に、同じ強度の画素からなる領域のような冗長な情報を扱うために用いられるが、関連するオブジェクトを挿入または削除することで画像の改ざんにも使用できる。 したがって、このようなプロセスの検出は、画像セキュリティ領域において極めて重要である。 しかし、シーム彫り画像の認識は人間の目でも簡単な作業ではなく、そのような変化を識別できる堅牢な計算ツールが非常に望ましい。 本稿では,最先端の成果を得られる自動シーム彫刻検出の課題に対処するためのエンドツーエンドアプローチを提案する。 パブリックデータセットとプライベートデータセットでいくつかの改ざん設定を使った実験は、提案されたモデルの適合性を示している。

Seam carving is a computational method capable of resizing images for both reduction and expansion based on its content, instead of the image geometry. Although the technique is mostly employed to deal with redundant information, i.e., regions composed of pixels with similar intensity, it can also be used for tampering images by inserting or removing relevant objects. Therefore, detecting such a process is of extreme importance regarding the image security domain. However, recognizing seam-carved images does not represent a straightforward task even for human eyes, and robust computation tools capable of identifying such alterations are very desirable. In this paper, we propose an end-to-end approach to cope with the problem of automatic seam carving detection that can obtain state-of-the-art results. Experiments conducted over public and private datasets with several tampering configurations evidence the suitability of the proposed model.
翻訳日:2022-03-09 12:19:48 公開日:2022-03-05
# (参考訳) MaxDropoutV2:畳み込みニューラルネットワークにおけるニューロンの排除方法の改善 [全文訳有]

MaxDropoutV2: An Improved Method to Drop out Neurons in Convolutional Neural Networks ( http://arxiv.org/abs/2203.02740v1 )

ライセンス: CC BY 4.0
Claudio Filipi Goncalves do Santos, Mateus Roder, Leandro A. Passos, and Jo\~ao P. Papa(参考訳) 過去10年間、指数関数的データ成長は機械学習ベースのアルゴリズムの能力を提供し、日々の生活での利用を可能にした。 さらに、このような改善は、より複雑なモデルで終わる単純なアーキテクチャのスタックのようなディープラーニング技術の出現によって部分的に説明される。 どちらの要因も優れた結果をもたらすが、複雑なモデルのトレーニングは高価なタスクを示し、その結果はトレーニングデータに過度に適合する可能性があるため、学習プロセスに関しても欠点がある。 maxdropoutと呼ばれる教師付き正規化手法が最近提案され、従来の正規化アプローチに関するいくつかの改善が提供されている。 本稿では,改良版であるMaxDropoutV2を紹介する。 2つの公開データセットを考慮すると、モデルが標準バージョンよりも高速に動作し、ほとんどの場合、より正確な結果が得られます。

In the last decade, exponential data growth supplied the machine learning-based algorithms' capacity and enabled their usage in daily life activities. Additionally, such an improvement is partially explained due to the advent of deep learning techniques, i.e., stacks of simple architectures that end up in more complex models. Although both factors produce outstanding results, they also pose drawbacks regarding the learning process since training complex models denotes an expensive task and results are prone to overfit the training data. A supervised regularization technique called MaxDropout was recently proposed to tackle the latter, providing several improvements concerning traditional regularization approaches. In this paper, we present its improved version called MaxDropoutV2. Results considering two public datasets show that the model performs faster than the standard version and, in most cases, provides more accurate results.
翻訳日:2022-03-09 11:30:48 公開日:2022-03-05
# (参考訳) Flurry: 再現可能な多層プロヴァンスグラフ表現学習のための高速フレームワーク [全文訳有]

Flurry: a Fast Framework for Reproducible Multi-layered Provenance Graph Representation Learning ( http://arxiv.org/abs/2203.02744v1 )

ライセンス: CC BY 4.0
Maya Kapoor, Joshua Melton, Michael Ridenhour, Mahalavanya Sriram, Thomas Moyer, Siddharth Krishnan(参考訳) 知識グラフのような複雑なヘテロジニアスな動的ネットワークは、コンピュータシステムからのデータ証明をモデル化するのに使用できる強力な構造である。 セキュリティの観点からは、これらの帰結グラフは、無数のサイバー攻撃を分析するために因果分析とトレースを可能にする。 しかし、システム実行と証明を機械学習タスクに使用可能なグラフ表現に変換するパイプラインの体系的な開発には、あいまいさがある。 このインスツルメンテーションの欠如は、再現性を妨げ、グラフニューラルネットワークのような技術にとって重要なデータの可用性を制限することによって、プロフェランスグラフ機械学習の科学的進歩を著しく阻害する。 このニーズを満たすために、Flurryは、サイバー攻撃をシミュレートし、これらの攻撃から発生したデータを複数のシステムおよびアプリケーション層でキャプチャし、これらの攻撃からの監査ログをデータプロファイランスグラフに変換し、このデータを、実際のレジリエントシステムにおける分析のための事前設定またはカスタム設計モデルをサポートするディープニューラルネットワークモデルのトレーニングフレームワークに組み込む、エンドツーエンドのデータパイプラインである。 本稿では,複数のシステム攻撃からのデータを処理し,現在のベンチマークグラフ表現学習フレームワークを用いたグラフ分類による異常検出を行う。 Flurryは、高速でカスタマイズ可能、拡張可能、透過的なソリューションを提供し、サイバーセキュリティの専門家に大量のデータを提供する。

Complex heterogeneous dynamic networks like knowledge graphs are powerful constructs that can be used in modeling data provenance from computer systems. From a security perspective, these attributed graphs enable causality analysis and tracing for analyzing a myriad of cyberattacks. However, there is a paucity in systematic development of pipelines that transform system executions and provenance into usable graph representations for machine learning tasks. This lack of instrumentation severely inhibits scientific advancement in provenance graph machine learning by hindering reproducibility and limiting the availability of data that are critical for techniques like graph neural networks. To fulfill this need, we present Flurry, an end-to-end data pipeline which simulates cyberattacks, captures provenance data from these attacks at multiple system and application layers, converts audit logs from these attacks into data provenance graphs, and incorporates this data with a framework for training deep neural models that supports preconfigured or custom-designed models for analysis in real-world resilient systems. We showcase this pipeline by processing data from multiple system attacks and performing anomaly detection via graph classification using current benchmark graph representational learning frameworks. Flurry provides a fast, customizable, extensible, and transparent solution for providing this much needed data to cybersecurity professionals.
翻訳日:2022-03-09 11:20:44 公開日:2022-03-05
# (参考訳) 差別化プライバシが集団格差緩和に及ぼす影響 [全文訳有]

The Impact of Differential Privacy on Group Disparity Mitigation ( http://arxiv.org/abs/2203.02745v1 )

ライセンス: CC BY-SA 4.0
Victor Petr\'en Bach Hansen, Atula Tejaswi Neerkaje, Ramit Sawhney, Lucie Flek, Anders S{\o}gaard(参考訳) ディファレンシャルプライバシのパフォーマンスコストは、一部のアプリケーションではマイノリティグループの方が高いことが示されており、逆にフェアネスは、そのようなグループのメンバーのプライバシを不釣り合いに損なうことが示されている。 この分野の作業のほとんどはコンピュータビジョンとリスクアセスメントに限定されている。 本稿では,4つの課題にまたがる公平性に対する差分プライバシーの影響を評価し,プライバシー侵害とグループ間のパフォーマンス差の軽減が相互にどのように作用するかを考察する。 この目的のために、経験的リスク最小化と群分布的堅牢なトレーニング目標を備えた$(\varepsilon,\delta )$-differentially private modelを訓練する。 従来の知見と一致して,基本設定におけるグループ間性能差は群間性能差を増大させるが,より興味深いことに,ロバスト設定におけるグループ間性能差を減少させる。 差分プライバシーを正規化として再解釈することで、これを説明します。

The performance cost of differential privacy has, for some applications, been shown to be higher for minority groups; fairness, conversely, has been shown to disproportionally compromise the privacy of members of such groups. Most work in this area has been restricted to computer vision and risk assessment. In this paper, we evaluate the impact of differential privacy on fairness across four tasks, focusing on how attempts to mitigate privacy violations and between-group performance differences interact: Does privacy inhibit attempts to ensure fairness? To this end, we train $(\varepsilon,\delta )$-differentially private models with empirical risk minimization and group distributionally robust training objectives. Consistent with previous findings, we find that differential privacy increases between-group performance differences in the baseline setting; but more interestingly, differential privacy reduces between-group performance differences in the robust setting. We explain this by reinterpreting differential privacy as regularization.
翻訳日:2022-03-09 11:06:03 公開日:2022-03-05
# (参考訳) AIによる意思決定支援で人間の意思決定を促進する [全文訳有]

Boosting human decision-making with AI-generated decision aids ( http://arxiv.org/abs/2203.02776v1 )

ライセンス: CC BY 4.0
Frederic Becker, Julian Skirzy\'nski, Bas van Opheusden, Falk Lieder(参考訳) 人間の意思決定は多くの体系的な誤りに悩まされている。 これらのエラーの多くは、意思決定者が重要な情報に参加し、合理的な決定戦略に従ってそれを統合するための意思決定支援を提供することによって回避できる。 このような意思決定支援を設計するのは面倒な手作業です。 認知科学の進歩は、将来このプロセスを自動化できるかもしれない。 我々は最近,人間の意思決定に最適な戦略を発見する機械学習手法と,それらの戦略を説明する自動手法を導入した。 この方法で構築された意思決定補助は、人間の意思決定を改善することができた。 しかし、この方法による記述に従えば、非常に面倒である。 我々は,自動検出された決定戦略を一連の自然言語指示として伝達することで,この問題を克服できると仮定した。 実験1では,前回手法による意思決定支援よりも手続き指示の理解が容易であった。 そこで本研究では,提案手法の出力を手続き的命令に変換するアルゴリズムを開発した。 本研究では,自然計画課題(道路計画)と自然計画決定課題(住宅ローン選択)に対する意思決定支援を自動的に生成する改良手法を適用した。 実験2では,これらの自動意思決定は,道路旅行計画や住宅ローン選択における人々のパフォーマンスを著しく向上させた。 これらの結果は、AIによる強化が現実世界における人間の意思決定を改善する可能性を示唆している。

Human decision-making is plagued by many systematic errors. Many of these errors can be avoided by providing decision aids that guide decision-makers to attend to the important information and integrate it according to a rational decision strategy. Designing such decision aids is a tedious manual process. Advances in cognitive science might make it possible to automate this process in the future. We recently introduced machine learning methods for discovering optimal strategies for human decision-making automatically and an automatic method for explaining those strategies to people. Decision aids constructed by this method were able to improve human decision-making. However, following the descriptions generated by this method is very tedious. We hypothesized that this problem can be overcome by conveying the automatically discovered decision strategy as a series of natural language instructions for how to reach a decision. Experiment 1 showed that people do indeed understand such procedural instructions more easily than the decision aids generated by our previous method. Encouraged by this finding, we developed an algorithm for translating the output of our previous method into procedural instructions. We applied the improved method to automatically generate decision aids for a naturalistic planning task (i.e., planning a road trip) and a naturalistic decision task (i.e., choosing a mortgage). Experiment 2 showed that these automatically generated decision-aids significantly improved people's performance in planning a road trip and choosing a mortgage. These findings suggest that AI-powered boosting has potential for improving human decision-making in the real world.
翻訳日:2022-03-09 10:47:42 公開日:2022-03-05
# (参考訳) 肺癌の診断・治療・予後における機械学習の応用

Machine Learning Applications in Diagnosis, Treatment and Prognosis of Lung Cancer ( http://arxiv.org/abs/2203.02794v1 )

ライセンス: CC BY 4.0
Yawei Li, Xin Wu, Ping Yang, Guoqian Jiang, Yuan Luo(参考訳) 最近の画像およびシークエンシング技術の進歩は、肺癌の臨床研究における体系的な進歩をもたらす。 一方、人間の心は、そのような膨大な量のデータの蓄積を効果的に処理し、完全に活用することに制限されている。 機械学習に基づくアプローチは、これらの大規模で複雑なデータセットの統合と分析において重要な役割を果たす。 本稿では,早期診断,補助診断,予後予測,免疫療法など,肺癌の診断・治療のさまざまな側面を強化する機械学習ベースのアプローチの概要を紹介する。 さらに,肺癌における機械学習の今後の応用に向けた課題と機会を強調した。

The recent development of imaging and sequencing technologies enables systematic advances in the clinical study of lung cancer. Meanwhile, the human mind is limited in effectively handling and fully utilizing the accumulation of such enormous amounts of data. Machine learning-based approaches play a critical role in integrating and analyzing these large and complex datasets, which have extensively characterized lung cancer through the use of different perspectives from these accrued data. In this article, we provide an overview of machine learning-based approaches that strengthen the varying aspects of lung cancer diagnosis and therapy, including early detection, auxiliary diagnosis, prognosis prediction and immunotherapy practice. Moreover, we highlight the challenges and opportunities for future applications of machine learning in lung cancer.
翻訳日:2022-03-09 10:21:32 公開日:2022-03-05
# (参考訳) オブジェクト指向プロセス予測分析

Object-centric Process Predictive Analytics ( http://arxiv.org/abs/2203.02801v1 )

ライセンス: CC BY 4.0
Riccardo Galanti, Massimiliano de Leoni, Nicol\`o Navarin, Alan Marazzi(参考訳) オブジェクト中心のプロセス(つまりアーティファクト中心のプロセス)は、あるプロセスのインスタンスが独立して実行されるのではなく、同一または他のプロセスの他のインスタンスと相互作用するパラダイムの実装である。 インタラクションは、インスタンスがデータ交換を行うブリッジイベントを通じて行われる。 オブジェクト中心のプロセスは、多くのアプリケーションシナリオでその性質が観察されるため、近年学界や業界で人気を集めています。 これは、多対多の関連によって相互に関連づけられるプロセスインスタンスの複雑な複雑さのため、予測分析において重要な課題となる。 既存の研究ではこれらの相互作用の利点を直接活用できないため、予測品質が制限される。 本稿では,オブジェクトの相互作用に関する情報を予測モデルに組み込むアプローチを提案する。 このアプローチは、異なるKPIを使用して、実際のオブジェクト中心のプロセスイベントデータに基づいて評価される。 結果は、オブジェクト間の相互作用を見落とし、予測品質に対するそれらの使用の利点を示そうとする、素直なアプローチと比較される。

Object-centric processes (a.k.a. Artifact-centric processes) are implementations of a paradigm where an instance of one process is not executed in isolation but interacts with other instances of the same or other processes. Interactions take place through bridging events where instances exchange data. Object-centric processes are recently gaining popularity in academia and industry, because their nature is observed in many application scenarios. This poses significant challenges in predictive analytics due to the complex intricacy of the process instances that relate to each other via many-to-many associations. Existing research is unable to directly exploit the benefits of these interactions, thus limiting the prediction quality. This paper proposes an approach to incorporate the information about the object interactions into the predictive models. The approach is assessed on real-life object-centric process event data, using different KPIs. The results are compared with a naive approach that overlooks the object interactions, thus illustrating the benefits of their use on the prediction quality.
翻訳日:2022-03-09 10:20:40 公開日:2022-03-05
# (参考訳) Tabula: セキュアニューラルネットワーク推論のための非線形活性化関数の効率的な計算 [全文訳有]

Tabula: Efficiently Computing Nonlinear Activation Functions for Secure Neural Network Inference ( http://arxiv.org/abs/2203.02833v1 )

ライセンス: CC BY 4.0
Maximilian Lam, Michael Mitzenmacher, Vijay Janapa Reddi, Gu-Yeon Wei, David Brooks(参考訳) セキュアなニューラルネットワーク推論へのマルチパーティ計算のアプローチは、伝統的に、非線形アクティベーション関数を安全に実行するためにガーブル回路に依存している。 しかし、ガーブロード回路はサーバとクライアント間の過剰な通信が必要であり、ストレージのオーバーヘッドが大きく、実行時のペナルティが大きい。 これらのコストを回避するため,セキュアなルックアップテーブルに基づくアルゴリズムであるTabulaを提案する。 Tabulaはニューラルネットワークの量子化能力を活用し、ニューラルネットワークの非線形アクティベーション関数を効率的に、安全に、正確に計算するためのセキュアなルックアップテーブルアプローチを採用している。 量子化された入力を持つgarbled回路と比較すると、個々の非線形関数を計算する場合、タブラは35 \times$-70 \times$ 通信を少なくし、100\times$ 以上高速で、同等のストレージを使用する。 これにより、ニューラルネットワークのセキュアな推論中に量子化された入力を持つgarbled回路よりも大幅にパフォーマンスが向上する。 tabulaは、全体の通信を最大9 \times$まで削減し、最大50 \times$まで高速化すると同時に、同等のストレージコストを実現している。

Multiparty computation approaches to secure neural network inference traditionally rely on garbled circuits for securely executing nonlinear activation functions. However, garbled circuits require excessive communication between server and client, impose significant storage overheads, and incur large runtime penalties. To eliminate these costs, we propose an alternative to garbled circuits: Tabula, an algorithm based on secure lookup tables. Tabula leverages neural networks' ability to be quantized and employs a secure lookup table approach to efficiently, securely, and accurately compute neural network nonlinear activation functions. Compared to garbled circuits with quantized inputs, when computing individual nonlinear functions, our experiments show Tabula uses between $35 \times$-$70 \times$ less communication, is over $100\times$ faster, and uses a comparable amount of storage. This leads to significant performance gains over garbled circuits with quantized inputs during secure inference on neural networks: Tabula reduces overall communication by up to $9 \times$ and achieves a speedup of up to $50 \times$, while imposing comparable storage costs.
翻訳日:2022-03-09 10:16:35 公開日:2022-03-05
# (参考訳) 補助変数による再帰的モンテカルロと変分推論 [全文訳有]

Recursive Monte Carlo and Variational Inference with Auxiliary Variables ( http://arxiv.org/abs/2203.02836v1 )

ライセンス: CC BY 4.0
Alexander K. Lew, Marco Cusumano-Towner, and Vikash K. Mansinghka(参考訳) モンテカルロと変分推論(VI)を適用する上での鍵となる課題は、後部を正確に近似できるほど柔軟だが、トラクタブル密度と変分境界を許容できるほど単純である提案と変分族の設計である。 本稿では、モンテカルロとVIのアルゴリズムにおいて、フレキシブルな提案(例えば、関連するシミュレーションや確率最適化に基づく)を利用するための新しいフレームワークである再帰的補助変数推論(RAVI)を提案する。 重要なアイデアは、メタ参照によって難解な提案密度を見積もることである: モデルではなく、提案をターゲットとしたモンテカルロや変分推論の追加。 RAVIは、メタ推論アルゴリズムの特定の選択に対応する表現的近似族を用いた推論法を一般化し、統一し、それらのバイアスと分散を解析するための新しい理論を提供する。 RAVIの設計フレームワークと定理を,Salimans et al. (2015) の Markov Chain Variational Inference を用いて分析・改善し,Drichlet プロセス混合物の新たなサンプルを設計し,天文学からの標準ベンチマークデータセットとメディケア病院データによる挑戦的なデータクリーニングタスクに基づいて実現した。

A key challenge in applying Monte Carlo and variational inference (VI) is the design of proposals and variational families that are flexible enough to closely approximate the posterior, but simple enough to admit tractable densities and variational bounds. This paper presents recursive auxiliary-variable inference (RAVI), a new framework for exploiting flexible proposals, for example based on involved simulations or stochastic optimization, within Monte Carlo and VI algorithms. The key idea is to estimate intractable proposal densities via meta-inference: additional Monte Carlo or variational inference targeting the proposal, rather than the model. RAVI generalizes and unifies several existing methods for inference with expressive approximating families, which we show correspond to specific choices of meta-inference algorithm, and provides new theory for analyzing their bias and variance. We illustrate RAVI's design framework and theorems by using them to analyze and improve upon Salimans et al. (2015)'s Markov Chain Variational Inference, and to design a novel sampler for Dirichlet process mixtures, achieving state-of-the-art results on a standard benchmark dataset from astronomy and on a challenging data-cleaning task with Medicare hospital data.
翻訳日:2022-03-09 09:58:59 公開日:2022-03-05
# 深部部分多重ネットワーク埋め込み

Deep Partial Multiplex Network Embedding ( http://arxiv.org/abs/2203.02656v1 )

ライセンス: Link先を確認
Qifan Wang, Yi Fang, Anirudh Ravula, Ruining He, Bin Shen, Jingang Wang, Xiaojun Quan, Dongfang Liu(参考訳) ネットワーク埋め込みは、ネットワーク内のノードの低次元表現を学ぶ効果的な手法である。 現実世界のネットワークは通常、多重化や異なる関係のマルチビュー表現を持つ。 近年,多重データへのネットワーク埋め込みへの関心が高まっている。 しかしながら、既存のmultiplexアプローチの多くは、データがすべてのビューで完結していると仮定している。 しかし、実際のアプリケーションでは、各ビューがデータ欠落に苦しんでいる場合が多く、結果として部分多重データが発生する。 本稿では,不完全データを扱うための新しいDeep partial Multiplex Network Embedding手法を提案する。 特に、オートエンコーダニューラルネットワークによるディープリコンストラクション損失の最小化と、共通の潜在部分空間学習によるビュー間のデータ一貫性の強化、グラフラプラシアンによる同一ネットワーク内のデータトポロジ構造保持を同時に行うことで、ネットワーク埋め込みを学習する。 さらに,学習埋め込みの直交不変特性を証明し,このアプローチをバイナリ埋め込み手法と結びつける。 4つの多重ベンチマークの実験では、ノード分類、リンク予測、クラスタリングタスクに関するいくつかの最先端手法よりも提案手法の方が優れた性能を示した。

Network embedding is an effective technique to learn the low-dimensional representations of nodes in networks. Real-world networks are usually with multiplex or having multi-view representations from different relations. Recently, there has been increasing interest in network embedding on multiplex data. However, most existing multiplex approaches assume that the data is complete in all views. But in real applications, it is often the case that each view suffers from the missing of some data and therefore results in partial multiplex data. In this paper, we present a novel Deep Partial Multiplex Network Embedding approach to deal with incomplete data. In particular, the network embeddings are learned by simultaneously minimizing the deep reconstruction loss with the autoencoder neural network, enforcing the data consistency across views via common latent subspace learning, and preserving the data topological structure within the same network through graph Laplacian. We further prove the orthogonal invariant property of the learned embeddings and connect our approach with the binary embedding techniques. Experiments on four multiplex benchmarks demonstrate the superior performance of the proposed approach over several state-of-the-art methods on node classification, link prediction and clustering tasks.
翻訳日:2022-03-08 18:41:59 公開日:2022-03-05
# Meta Mirror Descent: 高速収束のための最適学習

Meta Mirror Descent: Optimiser Learning for Fast Convergence ( http://arxiv.org/abs/2203.02711v1 )

ライセンス: Link先を確認
Boyan Gao, Henry Gouk, Hae Beom Lee, Timothy M. Hospedales(参考訳) optimisersは機械学習モデルのトレーニングに不可欠なコンポーネントであり、その設計は学習のスピードと一般化に影響を与える。 いくつかの研究は、最適化パラメータに関して一般化誤差を最小化する二段階最適化問題を解くことによって、より効果的な勾配偏光オプティマイザの学習を試みた。 しかし、既存のオプティマイザ学習手法の多くは、明確な理論的支援なしに直感的に動機づけられている。 私たちは、勾配降下ではなくミラー降下から始まり、対応するブレグマン分岐のメタラーニングから異なる視点を取る。 このパラダイム内では、後悔の限界を最小化する新しいメタ学習目標を定式化する。 結果、MetaMD(Meta Mirror Descent)と呼ばれるフレームワークは、最適化速度の高速化を学ぶ。 多くのメタ学習オプティマイザとは異なり、コンバージェンスと一般化の保証をサポートし、バリデーションデータを必要としない。 我々は,収束率と一般化誤差の観点から様々なタスクやアーキテクチャの枠組みを評価し,高い性能を示す。

Optimisers are an essential component for training machine learning models, and their design influences learning speed and generalisation. Several studies have attempted to learn more effective gradient-descent optimisers via solving a bi-level optimisation problem where generalisation error is minimised with respect to optimiser parameters. However, most existing optimiser learning methods are intuitively motivated, without clear theoretical support. We take a different perspective starting from mirror descent rather than gradient descent, and meta-learning the corresponding Bregman divergence. Within this paradigm, we formalise a novel meta-learning objective of minimising the regret bound of learning. The resulting framework, termed Meta Mirror Descent (MetaMD), learns to accelerate optimisation speed. Unlike many meta-learned optimisers, it also supports convergence and generalisation guarantees and uniquely does so without requiring validation data. We evaluate our framework on a variety of tasks and architectures in terms of convergence rate and generalisation error and demonstrate strong performance.
翻訳日:2022-03-08 18:41:42 公開日:2022-03-05
# 浅水方程式解に対する深層学習型サロゲートを用いたベースメータインバージョン

Bathymetry Inversion using a Deep-Learning-Based Surrogate for Shallow Water Equations Solvers ( http://arxiv.org/abs/2203.02821v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Yalan Song, Chaopeng Shen(参考訳) 河川の水質測定は水資源管理の多くの面において重要である。 浅層水方程式の解法として,深層学習型サロゲートを用いたバストメトリインバージョン法を提案する。 surrogateはconvolutional autoencoderとshared-encoder, separate-decoderアーキテクチャを使用している。 入力のバスメトリとデコードをエンコードし、フローフィールド変数の出力を分離する。 勾配に基づくオプティマイザは、トレーニングされたサロゲートでバスメトリ反転を行うために使用される。 逆損失正則化法として, 床高と斜面の物理的制約を2つ加え, 使用可能な逆解析結果を得る必要がある。 正規化パラメータを決定するために「L曲線」基準を用いてヒューリスティックなアプローチが提案された。 代理モデルと逆アルゴリズムの両方が優れた性能を示す。 バストメトリ・インバージョン法には2つの異なる段階があり,初期ブロードブラッシュ・カルビングの彫刻的過程と最終詳細化に類似している。 フロー予測誤差による逆損失は、第1段階で最小値に達し、その後ほぼ一定となる。 斜面の上昇値と斜面の定式化は、最も可能性の高い溶液を選択する第2段階において支配的な役割を担っている。 また,サロゲート構造(流速・水面上昇・流速のみの場合)は逆解析結果に有意な影響を及ぼさないことがわかった。

River bathymetry is critical for many aspects of water resources management. We propose and demonstrate a bathymetry inversion method using a deep-learning-based surrogate for shallow water equations solvers. The surrogate uses the convolutional autoencoder with a shared-encoder, separate-decoder architecture. It encodes the input bathymetry and decodes to separate outputs for flow-field variables. A gradient-based optimizer is used to perform bathymetry inversion with the trained surrogate. Two physically-based constraints on both bed elevation value and slope have to be added as inversion loss regularizations to obtain usable inversion results. Using the "L-curve" criterion, a heuristic approach was proposed to determine the regularization parameters. Both the surrogate model and the inversion algorithm show good performance. We found the bathymetry inversion process has two distinctive stages, which resembles the sculptural process of initial broad-brush calving and final detailing. The inversion loss due to flow prediction error reaches its minimum in the first stage and remains almost constant afterward. The bed elevation value and slope regularizations play the dominant role in the second stage in selecting the most probable solution. We also found the surrogate architecture (whether with both velocity and water surface elevation or velocity only as outputs) does not show significant impact on inversion result.
翻訳日:2022-03-08 18:40:50 公開日:2022-03-05
# IDmUNet:スパース特徴分割のための新しい画像分解誘導ネットワーク

IDmUNet: A new image decomposition induced network for sparse feature segmentation ( http://arxiv.org/abs/2203.02690v1 )

ライセンス: Link先を確認
Yumeng Ren (1), Yiming Gao (2), Chunlin Wu (1), Xue-cheng Tai (3) ((1) School of Mathematical Sciences, Nankai University, Tianjin, China (2) College of Science, Nanjing University of Aeronautics and Astronautics, Nanjing, China (3) Department of Mathematics, Hong Kong Baptist University, China )(参考訳) unetとその変種は、医用画像セグメンテーションの最も一般的な方法である。 タスク一般性の成功にもかかわらず、そのほとんどは特定のアプリケーションの背後にある数学的モデリングをほとんど考慮していない。 本稿では,スパース特徴分節タスクに着目し,対象対象物を疎分散し,背景を数学的にモデル化し難いタスク指向ネットワーク設計を行う。 本稿では,空間正規化を伴う画像分解モデルから始め,反復解法に基づく深層展開ネットワークであるIDNet,乗算器のスケール化方向法(スケール化ADMM)を提案する。 IDNetは生の入力を二重の機能層に分割する。 次に、提案したIDNetとミニUNetに基づいて、IDmUNetと呼ばれるタスク指向セグメンテーションネットワークを構築する。 このIDmUNetは、構造設計における事前および深部展開の手法のため、数学的モデリングとデータ駆動アプローチの利点を組み合わせたものである。 第一に,本手法は数学的解釈可能性が高く,学習可能なパラメータをはるかに少なくして良好な性能が得られる。 第二に、IDmUNetは説明可能な振る舞いを持つ単純なエンドツーエンドのトレーニングで堅牢です。 網膜血管セグメンテーション(RVS)の実験では、IDmUNetは0.07mのパラメータしか持たず、SA-UNetは0.54mと元のUNet 31.04mを含む。 さらに,ネットワークのトレーニング手順はオーバーフィッティング現象を伴わずに高速に収束する。 この分解に基づくネットワーク構築戦略は、数学的に明確な目標と複雑な背景を持つ他の問題に一般化することができる。

UNet and its variants are among the most popular methods for medical image segmentation. Despite their successes in task generality, most of them consider little mathematical modeling behind specific applications. In this paper, we focus on the sparse feature segmentation task and make a task-oriented network design, in which the target objects are sparsely distributed and the background is hard to be mathematically modeled. We start from an image decomposition model with sparsity regularization, and propose a deep unfolding network, namely IDNet, based on an iterative solver, scaled alternating direction method of multipliers (scaled-ADMM). The IDNet splits raw inputs into double feature layers. Then a new task-oriented segmentation network is constructed, dubbed as IDmUNet, based on the proposed IDNets and a mini-UNet. Because of the sparsity prior and deep unfolding method in the structure design, this IDmUNet combines the advantages of mathematical modeling and data-driven approaches. Firstly, our approach has mathematical interpretability and can achieve favorable performance with far fewer learnable parameters. Secondly, our IDmUNet is robust in a simple end-to-end training with explainable behaviors. In the experiments of retinal vessel segmentation (RVS), IDmUNet produces the state-of-the-art results with only 0.07m parameters, whereas SA-UNet, one of the latest variants of UNet, contains 0.54m and the original UNet 31.04m. Moreover, the training procedure of our network converges faster without overfitting phenomenon. This decomposition-based network construction strategy can be generalized to other problems with mathematically clear targets and complicated unclear backgrounds.
翻訳日:2022-03-08 18:36:02 公開日:2022-03-05
# 過完全テンソル分解のためのロバストスペクトルアルゴリズム

A Robust Spectral Algorithm for Overcomplete Tensor Decomposition ( http://arxiv.org/abs/2203.02790v1 )

ライセンス: Link先を確認
Samuel B. Hopkins, Tselil Schramm, Jonathan Shi(参考訳) 我々は、超完全次数 4 のテンソルを分解するスペクトルアルゴリズムを与えるが、それらの成分がほとんどすべての(すべての代数的測度が 0$ である)テンソルを $(\mathbb{r}^d)^{\otimes 4}$ でランク $n \le d^2$ で持つ代数的非退化条件を満たす限り、スペクトルアルゴリズムを与える。 我々のアルゴリズムは、有界スペクトルノルムの逆摂動に頑健である。 我々のアルゴリズムは、半定値プログラム階層(Ma, Shi, and Steurer STOC'16, arXiv:1610.0 1980)を用いており、同様の代数的仮定の下で同等の頑健性と過剰完全性を保証する。 しかし,本アルゴリズムは半定値プログラミングを回避し,一連の線形代数演算として実装することができる。 我々のアルゴリズムは、入力サイズ$d^4$(入力テンソルの条件数に関連する要因を抑える)のサブクワッドラティックである$\tilde O(n^2d^3) \le \tilde O(d^7)$で実行されます。

We give a spectral algorithm for decomposing overcomplete order-4 tensors, so long as their components satisfy an algebraic non-degeneracy condition that holds for nearly all (all but an algebraic set of measure $0$) tensors over $(\mathbb{R}^d)^{\otimes 4}$ with rank $n \le d^2$. Our algorithm is robust to adversarial perturbations of bounded spectral norm. Our algorithm is inspired by one which uses the sum-of-squares semidefinite programming hierarchy (Ma, Shi, and Steurer STOC'16, arXiv:1610.01980), and we achieve comparable robustness and overcompleteness guarantees under similar algebraic assumptions. However, our algorithm avoids semidefinite programming and may be implemented as a series of basic linear-algebraic operations. We consequently obtain a much faster running time than semidefinite programming methods: our algorithm runs in time $\tilde O(n^2d^3) \le \tilde O(d^7)$, which is subquadratic in the input size $d^4$ (where we have suppressed factors related to the condition number of the input tensor).
翻訳日:2022-03-08 18:32:07 公開日:2022-03-05
# モデル予測制御に対するベイズ学習アプローチ

Bayesian Learning Approach to Model Predictive Control ( http://arxiv.org/abs/2203.02720v1 )

ライセンス: Link先を確認
Namhoon Cho, Seokwon Lee, Hyo-Sang Shin, Antonios Tsourdos(参考訳) 本研究では,モデル予測制御アルゴリズムに対するベイズ学習の視点を示す。 ベイズ学習とサンプリングに基づくモデル予測制御に関する以前の研究で、ハイレベルフレームワークが別々に開発された。 一方、ベイズ学習規則は、特別なインスタンスとして様々な機械学習アルゴリズムを生成できる汎用フレームワークを提供する。 一方、動的ミラー降下モデル予測制御フレームワークは、サンプルロールアウトに基づく制御アルゴリズムを多様化することができる。 しかしながら、2つのフレームワーク間の接続は、確率的最適制御の文脈ではまだ完全には評価されていない。 本研究では,モデル予測制御をオンライン学習者として理解することからインスピレーションを得て,ベイズ学習ルールの視点をモデル予測制御設定に組み合わせる。 変分定式化のための後方クラスおよび自然勾配近似の選択は、モデル予測制御に対するベイズ学習アプローチにおけるモデル予測制御アルゴリズムの多様化を規定する。 この代替的な視点は、設計選択の説明を合理化し、動的ミラー降下フレームワークを補完する。

This study presents a Bayesian learning perspective towards model predictive control algorithms. High-level frameworks have been developed separately in the earlier studies on Bayesian learning and sampling-based model predictive control. On one hand, the Bayesian learning rule provides a general framework capable of generating various machine learning algorithms as special instances. On the other hand, the dynamic mirror descent model predictive control framework is capable of diversifying sample-rollout-based control algorithms. However, connections between the two frameworks have still not been fully appreciated in the context of stochastic optimal control. This study combines the Bayesian learning rule point of view into the model predictive control setting by taking inspirations from the view of understanding model predictive controller as an online learner. The selection of posterior class and natural gradient approximation for the variational formulation governs diversification of model predictive control algorithms in the Bayesian learning approach to model predictive control. This alternative viewpoint complements the dynamic mirror descent framework through streamlining the explanation of design choices.
翻訳日:2022-03-08 18:27:11 公開日:2022-03-05
# 現在の群集距離を用いたNSGA-IIの近似保証の改善

Better Approximation Guarantees for the NSGA-II by Using the Current Crowding Distance ( http://arxiv.org/abs/2203.02693v1 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr(参考訳) 最近のランタイム解析 (Zheng, Liu, Doerr (2022)) では、NSGA-II アルゴリズムの変種は、集団サイズがパレート前面よりも大きい定数因子で 1MinMax 問題の完全パレートフロントを効率的に計算できるが、人口サイズがパレートフロントサイズに等しい場合にのみ、これは不可能であることを示した。 本研究では,NSGA-IIが正面全体を計算できない場合にパレートフロントをどの程度よく近似するかを解析する。 我々は,人口がパレートフロントサイズの半分である場合,パレートフロントの比較的大きな隙間が残っていることを実験的に,数学的に観察する。 この現象の理由は、選択段階のnsga-iiが1回群集距離を計算した後、各除去後の群集距離を更新せずに最小群集距離の個体を反復除去するからである。 本稿では,短時間の群集距離を用いたNSGA-IIの効率的な実装法を提案する。 我々の実験では、このアルゴリズムはパレートフロントを以前のバージョンよりもはるかによく近似する。 また、パレートフロントのギャップは、理論上の最小値よりも少なくとも大きな定数因子であることを示す。

A recent runtime analysis (Zheng, Liu, Doerr (2022)) has shown that a variant of the NSGA-II algorithm can efficiently compute the full Pareto front of the OneMinMax problem when the population size is by a constant factor larger than the Pareto front, but that this is not possible when the population size is only equal to the Pareto front size. In this work, we analyze how well the NSGA-II approximates the Pareto front when it cannot compute the whole front. We observe experimentally and by mathematical means that already when the population size is half the Pareto front size, relatively large gaps in the Pareto front remain. The reason for this phenomenon is that the NSGA-II in the selection stage computes the crowding distance once and then repeatedly removes individuals with smallest crowding distance without updating the crowding distance after each removal. We propose an efficient way to implement the NSGA-II using the momentary crowding distance. In our experiments, this algorithm approximates the Pareto front much better than the previous version. We also prove that the gaps in the Pareto front are at most a constant factor larger than the theoretical minimum.
翻訳日:2022-03-08 17:52:37 公開日:2022-03-05
# neuraldps: 雑音制御波形生成のためのマルチバンド励起を用いた神経決定論的+確率モデル

NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband Excitation for Noise-Controllable Waveform Generation ( http://arxiv.org/abs/2203.02678v1 )

ライセンス: Link先を確認
Tao Wang, Ruibo Fu, Jiangyan Yi, Jianhua Tao, Zhengqi Wen(参考訳) 従来のボコーダは高い合成効率、強い解釈性、音声編集性という利点があるが、ニューラルボコーダは高い合成品質の利点を持っている。 本稿では,従来の決定論的・確率的モデルにインスパイアされた2つのボコーダの利点を組み合わせるために,ニューラルDPSと呼ばれるニューラルボコーダを提案する。 まず、このフレームワークは、決定的ソースモジュール、確率的ソースモジュール、ニューラルV/UV決定モジュール、ニューラルフィルタモジュールの4つのモジュールを含む。 ボコーダが要求する入力はスペクトルパラメータのみであり、f0のような追加パラメータを推定することで生じるエラーを避ける。 第二に、異なる周波数帯域が決定論的成分と確率的成分の比率が異なるという問題を解決するために、より正確な励起信号を生成し、ニューラルネットワークの負担を軽減するためにマルチバンド励起戦略を用いる。 第3に,音声の雑音成分を制御する手法を提案する。 これにより、音声の信号対雑音比(SNR)を容易に調整できる。 主観的および主観的な実験結果から,提案するNeuralDPSボコーダはWaveNetと同等の性能を示し,ウェーブネットよりも少なくとも280倍高速な波形を生成する。 また、単一のCPUコア上でのWaveGANの合成効率よりも28%高速である。 また,本手法が予測音声の雑音成分を効果的に制御し,音声のSNRを調整できることを実験により検証した。 生成された音声の例はhttps://hairuo55.git hub.io/NeuralDPSにある。

The traditional vocoders have the advantages of high synthesis efficiency, strong interpretability, and speech editability, while the neural vocoders have the advantage of high synthesis quality. To combine the advantages of two vocoders, inspired by the traditional deterministic plus stochastic model, this paper proposes a novel neural vocoder named NeuralDPS which can retain high speech quality and acquire high synthesis efficiency and noise controllability. Firstly, this framework contains four modules: a deterministic source module, a stochastic source module, a neural V/UV decision module and a neural filter module. The input required by the vocoder is just the spectral parameter, which avoids the error caused by estimating additional parameters, such as F0. Secondly, to solve the problem that different frequency bands may have different proportions of deterministic components and stochastic components, a multiband excitation strategy is used to generate a more accurate excitation signal and reduce the neural filter's burden. Thirdly, a method to control noise components of speech is proposed. In this way, the signal-to-noise ratio (SNR) of speech can be adjusted easily. Objective and subjective experimental results show that our proposed NeuralDPS vocoder can obtain similar performance with the WaveNet and it generates waveforms at least 280 times faster than the WaveNet vocoder. It is also 28% faster than WaveGAN's synthesis efficiency on a single CPU core. We have also verified through experiments that this method can effectively control the noise components in the predicted speech and adjust the SNR of speech. Examples of generated speech can be found at https://hairuo55.git hub.io/NeuralDPS.
翻訳日:2022-03-08 17:48:16 公開日:2022-03-05
# newton-pnp:自律トイドロンのリアルタイムビジュアルナビゲーション

Newton-PnP: Real-time Visual Navigation for Autonomous Toy-Drones ( http://arxiv.org/abs/2203.02686v1 )

ライセンス: Link先を確認
Ibrahim Jubran, Fares Fares, Yuval Alfassi, Firas Ayoub, Dan Feldman(参考訳) パースペクティブ・n・ポイント問題は、2D撮像画像点対をモデル内の対応する3D点に整列させることにより、校正された単眼カメラと既知の3Dモデルとの相対的なポーズを推定することを目的としている。 我々は、弱いIoTデバイス上でリアルタイムに動作するアルゴリズムを提案するが、実行時間と正確性の両方について、証明可能な理論的保証を提供する。 既存のソルバは、これらの要件の1つしか提供しない。 私たちの主な動機は、人気のDJIのTello Drone (<90gr, <\$100)を、Raspberry PI Zero (<9gr, <\$25)を装着するだけで、外部の人間/ラップトップ/センサーなしで屋内環境を移動できる自律ドローンに変えることだった。 この小さなマイクロプロセッサは、小さなRGBカメラからリアルタイムでビデオを入力し、PnPソルバをオンボードで動かす。 大規模な実験結果、オープンソースコード、デモビデオが含まれている。

The Perspective-n-Point problem aims to estimate the relative pose between a calibrated monocular camera and a known 3D model, by aligning pairs of 2D captured image points to their corresponding 3D points in the model. We suggest an algorithm that runs on weak IoT devices in real-time but still provides provable theoretical guarantees for both running time and correctness. Existing solvers provide only one of these requirements. Our main motivation was to turn the popular DJI's Tello Drone (<90gr, <\$100) into an autonomous drone that navigates in an indoor environment with no external human/laptop/sensor, by simply attaching a Raspberry PI Zero (<9gr, <\$25) to it. This tiny micro-processor takes as input a real-time video from a tiny RGB camera, and runs our PnP solver on-board. Extensive experimental results, open source code, and a demonstration video are included.
翻訳日:2022-03-08 17:46:07 公開日:2022-03-05
# DrawingInStyles:空間条件付スタイルGANによる画像生成と編集

DrawingInStyles: Portrait Image Generation and Editing with Spatially Conditioned StyleGAN ( http://arxiv.org/abs/2203.02762v1 )

ライセンス: Link先を確認
Wanchao Su, Hui Ye, Shu-Yu Chen, Lin Gao, Hongbo Fu(参考訳) スケッチ・ツー・ポートレイト生成の研究テーマは、ディープラーニング技術による進歩の促進を目の当たりにしている。 最近提案されたStyleGANアーキテクチャは最先端の生成能力を実現するが、オリジナルのStyleGANは非条件生成性のためスケッチベースの生成には適していない。 この問題に対処するため,我々は,StyleGANフレームワークの下で空間情報をよりよく保存するための直接条件付け戦略を提案する。 具体的には,空間条件付きスタイルGAN(SC-StyleGAN,略してSC-StyleGAN)を導入し,空間制約を元のスタイルGAN生成プロセスに明示的に注入する。 2つの入力モダリティ、スケッチ、セマンティックマップを探索し、ユーザが望む生成結果をより正確に簡単に表現できるようにする。 SC-StyleGANに基づいてDrawingInStylesを提案する。DrawingInStylesは、プロでないユーザのための新しい描画インタフェースで、スクラッチから、あるいは既存の画像の編集から、正確に制御された高品質でリアルな顔画像を容易に作成できる。 定性的および定量的評価は,本手法の既存および代替ソリューションよりも優れた生成能力を示す。 本システムのユーザビリティと表現性は,ユーザスタディによって確認される。

The research topic of sketch-to-portrait generation has witnessed a boost of progress with deep learning techniques. The recently proposed StyleGAN architectures achieve state-of-the-art generation ability but the original StyleGAN is not friendly for sketch-based creation due to its unconditional generation nature. To address this issue, we propose a direct conditioning strategy to better preserve the spatial information under the StyleGAN framework. Specifically, we introduce Spatially Conditioned StyleGAN (SC-StyleGAN for short), which explicitly injects spatial constraints to the original StyleGAN generation process. We explore two input modalities, sketches and semantic maps, which together allow users to express desired generation results more precisely and easily. Based on SC-StyleGAN, we present DrawingInStyles, a novel drawing interface for non-professional users to easily produce high-quality, photo-realistic face images with precise control, either from scratch or editing existing ones. Qualitative and quantitative evaluations show the superior generation ability of our method to existing and alternative solutions. The usability and expressiveness of our system are confirmed by a user study.
翻訳日:2022-03-08 17:45:47 公開日:2022-03-05
# デジタルチェスト共生におけるリブ抑制

Rib Suppression in Digital Chest Tomosynthesis ( http://arxiv.org/abs/2203.02772v1 )

ライセンス: Link先を確認
Yihua Sun, Qingsong Yao, Yuanyuan Lyu, Jianji Wang, Yi Xiao, Hongen Liao, S. Kevin Zhou(参考訳) digital chest tomo synthesis (dct) は、肺疾患スクリーニングのためのヒト胸部断面3d画像の作成技術であり、2d x線投影は非常に限られた角度で撮影される。 しかし、限られた角度のシナリオでは、DCTはリブの存在によって引き起こされる強いアーティファクトを含み、肺領域の画像品質を妨害する。 近年,1枚のx線画像において肺のテクスチャが明瞭になるため,リブ抑制が大きな進歩を遂げている。 まず,ソフトウェアレベルでのリブ抑制問題を3Dケースに拡張する。 3dリブコンポーネントをモデル化し、リブフリーなdctを提供するために、$\textbf{t}$omo synthesis $\textbf{ri}$b su$\textbf{p}$pressionと$\textbf{l}$ung$\textbf{e}$nhancement $\textbf{net}$work (triple-net)を提案する。 TRIPLE-Netは2Dドメインと3Dドメインの両方の利点を生かし、それぞれDCTのリブをFBPプロシージャと3D深度情報でモデル化する。 シミュレーションデータセットと臨床データを用いた実験により, TRIPLE-Netが肺の細部を保存し, 肺疾患の画像品質を向上させる効果が示された。 最後に、専門家によるユーザー調査の結果を確認します。

Digital chest tomosynthesis (DCT) is a technique to produce sectional 3D images of a human chest for pulmonary disease screening, with 2D X-ray projections taken within an extremely limited range of angles. However, under the limited angle scenario, DCT contains strong artifacts caused by the presence of ribs, jamming the imaging quality of the lung area. Recently, great progress has been achieved for rib suppression in a single X-ray image, to reveal a clearer lung texture. We firstly extend the rib suppression problem to the 3D case at the software level. We propose a $\textbf{T}$omosynthesis $\textbf{RI}$b Su$\textbf{P}$pression and $\textbf{L}$ung $\textbf{E}$nhancement $\textbf{Net}$work (TRIPLE-Net) to model the 3D rib component and provide a rib-free DCT. TRIPLE-Net takes the advantages from both 2D and 3D domains, which model the ribs in DCT with the exact FBP procedure and 3D depth information, respectively. The experiments on simulated datasets and clinical data have shown the effectiveness of TRIPLE-Net to preserve lung details as well as improve the imaging quality of pulmonary diseases. Finally, an expert user study confirms our findings.
翻訳日:2022-03-08 17:45:24 公開日:2022-03-05
# MetaFormer: ファイングラインド認識のための統一メタフレームワーク

MetaFormer: A Unified Meta Framework for Fine-Grained Recognition ( http://arxiv.org/abs/2203.02751v1 )

ライセンス: Link先を確認
Qishuai Diao, Yi Jiang, Bin Wen, Jia Sun, Zehuan Yuan(参考訳) Fine-Grained Visual Classification (FGVC) は、スーパーカテゴリの複数の下位カテゴリに属するオブジェクトを認識することを必要とするタスクである。 最近の最先端の手法は通常、この課題に取り組むために洗練された学習パイプラインを設計する。 しかし、視覚情報だけでは、きめ細かい視覚カテゴリーを正確に区別するには不十分であることが多い。 今日では、メタ情報(時空間先行、属性、テキスト記述など)が画像とともに現れるのが一般的である。 統一的でシンプルなフレームワークを使用して、さまざまなメタ情報を使用して、きめ細かい識別を支援することは可能ですか? この問題に対処するため,我々は細粒度視覚分類のための統一的で強力なメタフレームワーク(metaformer)を探索する。 実際にMetaFormerは、視覚と様々なメタ情報の共同学習に対処するための、シンプルで効果的なアプローチを提供する。 さらにMetaFormerは、ベルやホイッスルなしでFGVCに強力なベースラインを提供する。 広範囲な実験により、MetaFormerは様々なメタ情報を利用して、きめ細かい認識の性能を向上させることができる。 公正な比較として、MetaFormerは、iNaturalist2017とiNaturalist2018データセットのビジョン情報のみを使用して、現在のSotAアプローチより優れている。 メタ情報を追加することで、metaformerは現在のsotaアプローチを5.9%と5.3%上回ることができる。 さらに、metaformerはcub-200-2011とnabirdsで92.3%と92.7%を達成できる。 ソースコードと事前トレーニングされたモデルはhttps://github.com/d qshuai/MetaFormer.co mで公開されている。

Fine-Grained Visual Classification(FGVC) is the task that requires recognizing the objects belonging to multiple subordinate categories of a super-category. Recent state-of-the-art methods usually design sophisticated learning pipelines to tackle this task. However, visual information alone is often not sufficient to accurately differentiate between fine-grained visual categories. Nowadays, the meta-information (e.g., spatio-temporal prior, attribute, and text description) usually appears along with the images. This inspires us to ask the question: Is it possible to use a unified and simple framework to utilize various meta-information to assist in fine-grained identification? To answer this problem, we explore a unified and strong meta-framework(MetaF ormer) for fine-grained visual classification. In practice, MetaFormer provides a simple yet effective approach to address the joint learning of vision and various meta-information. Moreover, MetaFormer also provides a strong baseline for FGVC without bells and whistles. Extensive experiments demonstrate that MetaFormer can effectively use various meta-information to improve the performance of fine-grained recognition. In a fair comparison, MetaFormer can outperform the current SotA approaches with only vision information on the iNaturalist2017 and iNaturalist2018 datasets. Adding meta-information, MetaFormer can exceed the current SotA approaches by 5.9% and 5.3%, respectively. Moreover, MetaFormer can achieve 92.3% and 92.7% on CUB-200-2011 and NABirds, which significantly outperforms the SotA approaches. The source code and pre-trained models are released athttps://github.com /dqshuai/MetaFormer.
翻訳日:2022-03-08 17:21:46 公開日:2022-03-05
# 半教師付きセマンティックセマンティックセグメンテーションにおける空間ワーピングの相違

Adversarial Dual-Student with Differentiable Spatial Warping for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2203.02792v1 )

ライセンス: Link先を確認
Cong Cao, Tianwei Lin, Dongliang He, Fu Li, Huanjing Yue, Jingyu Yang, Errui Ding(参考訳) 堅牢なセマンティックセグメンテーションに共通する課題は、高価なデータアノテーションコストである。 既存の半教師付きソリューションは、この問題を解決する大きな可能性を示している。 彼らのキーとなる考え方は、モデルトレーニングのためのラベルなしデータからの教師なしデータ拡張による一貫性の正規化である。 ラベルなしデータの摂動は、半教師付きセマンティックセグメンテーションの恩恵を受ける一貫性トレーニング損失を可能にする。 しかし、これらの摂動はイメージコンテキストを破壊し、意味的セグメンテーションに有害な非自然境界を導入する。 さらに,学生モデルが最終的に教師モデルに収束すると,一般教師による半教師学習フレームワークである平均教師は,パフォーマンスの制限を受ける。 In this paper, first of all, we propose a context friendly differentiable geometric warping to conduct unsupervised data augmentation; secondly, a novel adversarial dual-student framework is proposed to improve the Mean-Teacher from the following two aspects: (1) dual student models are learnt independently except for a stabilization constraint to encourage exploiting model diversities; (2) adversarial training scheme is applied to both students and the discriminators are resorted to distinguish reliable pseudo-label of unlabeled data for self-training. PASCAL VOC2012とCitescapesの広範な実験を通じて有効性を検証する。 我々のソリューションは、両方のデータセットで得られるパフォーマンスと最先端の結果を大幅に改善します。 注目すべきは、完全な監督と比較すると、PASCAL VOC2012の注釈付きデータをわずか12.5%使用して、73.4%のmIoUを達成したことです。

A common challenge posed to robust semantic segmentation is the expensive data annotation cost. Existing semi-supervised solutions show great potential toward solving this problem. Their key idea is constructing consistency regularization with unsupervised data augmentation from unlabeled data for model training. The perturbations for unlabeled data enable the consistency training loss, which benefits semi-supervised semantic segmentation. However, these perturbations destroy image context and introduce unnatural boundaries, which is harmful for semantic segmentation. Besides, the widely adopted semi-supervised learning framework, i.e. mean-teacher, suffers performance limitation since the student model finally converges to the teacher model. In this paper, first of all, we propose a context friendly differentiable geometric warping to conduct unsupervised data augmentation; secondly, a novel adversarial dual-student framework is proposed to improve the Mean-Teacher from the following two aspects: (1) dual student models are learnt independently except for a stabilization constraint to encourage exploiting model diversities; (2) adversarial training scheme is applied to both students and the discriminators are resorted to distinguish reliable pseudo-label of unlabeled data for self-training. Effectiveness is validated via extensive experiments on PASCAL VOC2012 and Citescapes. Our solution significantly improves the performance and state-of-the-art results are achieved on both datasets. Remarkably, compared with fully supervision, our solution achieves comparable mIoU of 73.4% using only 12.5% annotated data on PASCAL VOC2012.
翻訳日:2022-03-08 17:21:21 公開日:2022-03-05
# ノイズハイパースペクトル画像の分割のためのディリクレ過程ガウス混合の評価

Evaluation of Dirichlet Process Gaussian Mixtures for Segmentation on Noisy Hyperspectral Images ( http://arxiv.org/abs/2203.02820v1 )

ライセンス: Link先を確認
Kiran Mantripragada and Faisal Z. Qureshi(参考訳) 画像セグメンテーションはリモートセンシング画像の解釈の基本的なステップである。 クラスタリングやセグメンテーションメソッドは通常、分類タスクに先行し、手動ラベリングのサポートツールとして使用される。 k平均、平均シフト、MSSのような最も一般的なアルゴリズムは、スケールパラメータを見つけるために追加の手動ステップを必要とする。 パラメータが正しく調整されず、最適な値から逸脱した場合、セグメンテーション結果は深刻な影響を受ける。 さらに、最適スケールの探索は、包括的なハイパーパラメーター探索を必要とするため、コストがかかる作業である。 本稿では,ディリクレ過程ガウス混合モデルを用いた超スペクトル画像のセグメンテーション法を提案し,評価する。 我々のモデルは、与えられたデータセットのスケールの最適な値とクラスタの数を見つけるまでパラメータを自己制御することができる。 提案手法は, 最適パラメータの手動探索の負担を回避しつつ, ハイパースペクトル画像中の物体を探索する可能性を示す。 また,従来の研究ではノイズ低減とスペクトル平滑化のための前処理処理が必要であった。

Image segmentation is a fundamental step for the interpretation of Remote Sensing Images. Clustering or segmentation methods usually precede the classification task and are used as support tools for manual labeling. The most common algorithms, such as k-means, mean-shift, and MRS, require an extra manual step to find the scale parameter. The segmentation results are severely affected if the parameters are not correctly tuned and diverge from the optimal values. Additionally, the search for the optimal scale is a costly task, as it requires a comprehensive hyper-parameter search. This paper proposes and evaluates a method for segmentation of Hyperspectral Images using the Dirichlet Process Gaussian Mixture Model. Our model can self-regulate the parameters until it finds the optimal values of scale and the number of clusters in a given dataset. The results demonstrate the potential of our method to find objects in a Hyperspectral Image while bypassing the burden of manual search of the optimal parameters. In addition, our model also produces similar results on noisy datasets, while previous research usually required a pre-processing task for noise reduction and spectral smoothing.
翻訳日:2022-03-08 17:20:51 公開日:2022-03-05
# 分類タスクのための類似性に基づくフレームワーク

A Similarity-based Framework for Classification Task ( http://arxiv.org/abs/2203.02669v1 )

ライセンス: Link先を確認
Zhongchen Ma, and Songcan Chen(参考訳) 類似性に基づく手法は,複数ラベル学習のための新しい手法のクラスを生み出し,有望な性能を達成する。 本稿では,この手法を一般化し,分類タスクのための新しい枠組みを提案する。 具体的には、類似性に基づく学習と一般化線形モデルを組み合わせて、両世界のベストを達成する。 これにより、クラス間の相互依存性をキャプチャし、騒がしいクラスのパフォーマンスを損なうのを防ぐことができます。 モデルの各学習パラメータは、あるクラスから別のクラスへの貢献を明らかにすることができ、ある程度の解釈性を提供する。 実験結果から,マルチクラス・マルチラベルデータセットにおける提案手法の有効性が示された。

Similarity-based method gives rise to a new class of methods for multi-label learning and also achieves promising performance. In this paper, we generalize this method, resulting in a new framework for classification task. Specifically, we unite similarity-based learning and generalized linear models to achieve the best of both worlds. This allows us to capture interdependencies between classes and prevent from impairing performance of noisy classes. Each learned parameter of the model can reveal the contribution of one class to another, providing interpretability to some extent. Experiment results show the effectiveness of the proposed approach on multi-class and multi-label datasets
翻訳日:2022-03-08 17:09:29 公開日:2022-03-05
# 埋設空間におけるオフポリティ評価

Off-Policy Evaluation in Embedded Spaces ( http://arxiv.org/abs/2203.02807v1 )

ライセンス: Link先を確認
Jaron J. R. Lee, David Arbour, Georgios Theocharous(参考訳) 提案手法は推薦システムや検索エンジンにおいて重要であり、古いロギングポリシーの下で収集されたデータは、新しいターゲットポリシーの性能を予測するために使用される。 しかし、実際にはほとんどのシステムは、可能なアクションのほとんどを推奨することができない。これは、既存の手法では、ログポリシーの確率がゼロでない場合(絶対連続性と呼ばれる)、アイテムを推奨するターゲットポリシーの確率はゼロでないことが要求されるためである。 この問題を回避するために,アクション埋め込みの利用について検討する。 コンテキストとアクションを埋め込み空間で表現することで、以前目にしたことのないアクションやコンテキストの振る舞いを外挿するための情報を共有できます。

Off-policy evaluation methods are important in recommendation systems and search engines, whereby data collected under an old logging policy is used to predict the performance of a new target policy. However, in practice most systems are not observed to recommend most of the possible actions, which is an issue since existing methods require that the probability of the target policy recommending an item can only be non-zero when the probability of the logging policy is non-zero (known as absolute continuity). To circumvent this issue, we explore the use of action embeddings. By representing contexts and actions in an embedding space, we are able to share information to extrapolate behaviors for actions and contexts previously unseen.
翻訳日:2022-03-08 17:09:19 公開日:2022-03-05
# cptgraphsum: 言語横断的抽象要約を手掛かりにしましょう。

CptGraphSum: Let key clues guide the cross-lingual abstractive summarization ( http://arxiv.org/abs/2203.02797v1 )

ライセンス: Link先を確認
Shuyu Jiang, Dengbiao Tu, Xingshu Chen, Rui Tang, Wenxian Wang, Haizhou Wang(参考訳) 言語間要約(CLS)は、ある言語における記事の要約を生成するタスクである。 CLSに関するこれまでの研究は主にパイプライン方式を採用し、翻訳された並列データを使ってエンドツーエンドモデルを訓練していた。 しかし、生成した言語間要約の品質は、さらなる改善が必要であり、モデル性能は手書きのCLSデータセットで評価されることはなかった。 そこで本研究では,まず,言語間要約の質を向上させるための手掛かり付き言語間要約手法を提案し,その評価のために新しい手書きclsデータセットを構築した。 具体的には,入力記事のキーワード,名前付きエンティティ等を要約の手がかりとして抽出し,手掛かり案内アルゴリズムを設計すれば,ノイズの少ない文をグラフに変換することができる。 1つのグラフエンコーダは文の意味と記事の構造を学習するために作られ、1つの手掛かりエンコーダは鍵となる手掛かりをエンコードし翻訳し、重要な部分の情報が生成された要約に格納されるようにする。 これら2つのエンコーダは1つのデコーダで接続され、言語間セマンティクスを直接学習する。 実験の結果,提案手法はより長い入力に対して強い強靭性を有し,高いベースライン上での性能向上を実現し,既存のSOTAよりも8.55ROUGE-1と2.13MoverScoreのスコア向上を実現した。

Cross-Lingual Summarization (CLS) is the task to generate a summary in one language for an article in a different language. Previous studies on CLS mainly take pipeline methods or train the end-to-end model using the translated parallel data. However, the quality of generated cross-lingual summaries needs more further efforts to improve, and the model performance has never been evaluated on the hand-written CLS dataset. Therefore, we first propose a clue-guided cross-lingual abstractive summarization method to improve the quality of cross-lingual summaries, and then construct a novel hand-written CLS dataset for evaluation. Specifically, we extract keywords, named entities, etc. of the input article as key clues for summarization and then design a clue-guided algorithm to transform an article into a graph with less noisy sentences. One Graph encoder is built to learn sentence semantics and article structures and one Clue encoder is built to encode and translate key clues, ensuring the information of important parts are reserved in the generated summary. These two encoders are connected by one decoder to directly learn cross-lingual semantics. Experimental results show that our method has stronger robustness for longer inputs and substantially improves the performance over the strong baseline, achieving an improvement of 8.55 ROUGE-1 (English-to-Chinese summarization) and 2.13 MoverScore (Chinese-to-English summarization) scores over the existing SOTA.
翻訳日:2022-03-08 16:23:33 公開日:2022-03-05
# ランキングパターンの学習を促進する

Boosting the Learning for Ranking Patterns ( http://arxiv.org/abs/2203.02696v1 )

ライセンス: Link先を確認
Nassim Belmecheri and Noureddine Aribi and Nadjib Lazaar and Yahia Lebbah and Samir Loudni(参考訳) 特定のユーザに関連するパターンを発見することは、依然としてデータマイニングにおいて難しい課題である。 ユーザ固有のパターンランキング機能を学ぶためのいくつかのアプローチが提案されている。 これらのアプローチはうまく一般化するが、実行時間を犠牲にしている。 一方で、パターンの面白さを評価するために、ユーザ固有のランキングに可能な限り近いランキングを明らかにするために、いくつかの尺度がしばしば用いられる。 本稿では,多基準意思決定問題として,パターンランキング関数の学習問題を定式化する。 提案手法は,パッシブモードとアクティブモードの両方で動作する対話型学習手順を用いて,異なる興味度尺度を単一の重み付け線形ランキング関数に集約する。 高速学習ステップは、対比較によりすべての測定値の重みを求めるために用いられる。 このアプローチは、分析階層プロセス(ahp)と、ユーザ固有の興味に基づいて測定値の重要性を比較する、嗜好行列を構築するためのユーザランクパターンのセットに基づいている。 ユーザランキングクエリの少ない高品質な結果を保証するため,アクティブな学習モードに対して感度に基づくヒューリスティックを提案する。 良く知られたデータセットを用いて行った実験により、我々のアプローチはランニング時間を大幅に削減し、正確なパターンランキングを返す一方で、最先端のアプローチに比べてユーザエラーに対して堅牢であることが示された。

Discovering relevant patterns for a particular user remains a challenging tasks in data mining. Several approaches have been proposed to learn user-specific pattern ranking functions. These approaches generalize well, but at the expense of the running time. On the other hand, several measures are often used to evaluate the interestingness of patterns, with the hope to reveal a ranking that is as close as possible to the user-specific ranking. In this paper, we formulate the problem of learning pattern ranking functions as a multicriteria decision making problem. Our approach aggregates different interestingness measures into a single weighted linear ranking function, using an interactive learning procedure that operates in either passive or active modes. A fast learning step is used for eliciting the weights of all the measures by mean of pairwise comparisons. This approach is based on Analytic Hierarchy Process (AHP), and a set of user-ranked patterns to build a preference matrix, which compares the importance of measures according to the user-specific interestingness. A sensitivity based heuristic is proposed for the active learning mode, in order to insure high quality results with few user ranking queries. Experiments conducted on well-known datasets show that our approach significantly reduces the running time and returns precise pattern ranking, while being robust to user-error compared with state-of-the-art approaches.
翻訳日:2022-03-08 16:19:28 公開日:2022-03-05
# 多面的注意による集団カウントの強化

Boosting Crowd Counting via Multifaceted Attention ( http://arxiv.org/abs/2203.02636v1 )

ライセンス: Link先を確認
Hui Lin and Zhiheng Ma and Rongrong Ji and Yaowei Wang and Xiaopeng Hong(参考訳) 本稿は,群衆の集計課題に注目する。 群衆画像には大規模な変動がしばしば存在するため、CNNの固定サイズの畳み込みカーネルや、最近の視覚変換器の固定サイズの注意は、このような変動をうまく扱えない。 この問題に対処するために,局所空間関係符号化におけるトランスフォーマモデルを改善するための多面的注意ネットワーク(MAN)を提案する。 manは、バニラ変圧器からのグローバル注意、学習可能なローカル注意、そしてインスタンス注意を計数モデルに組み込む。 まず,局所学習可能領域注意(lra)を提案し,各特徴位置に対して動的に注意を割り当てる。 第2に,LRAの訓練を監督するローカルアテンション規則化を設計し,異なる特徴点に対する注意のずれを最小限に抑える。 最後に、トレーニング中に最も重要なインスタンスを動的にフォーカスするインスタンス注意メカニズムを提供します。 shanghaitech, ucf-qnrf, jhu++, nwpuの4つの挑戦的クラウドカウントデータセットに関する広範な実験により,提案手法が検証された。 コード:https://github.com/ LoraLinH/Boosting-Cr owd-Counting-via-Mul tifaceted-Attention。

This paper focuses on the challenging crowd counting task. As large-scale variations often exist within crowd images, neither fixed-size convolution kernel of CNN nor fixed-size attention of recent vision transformers can well handle this kind of variation. To address this problem, we propose a Multifaceted Attention Network (MAN) to improve transformer models in local spatial relation encoding. MAN incorporates global attention from a vanilla transformer, learnable local attention, and instance attention into a counting model. Firstly, the local Learnable Region Attention (LRA) is proposed to assign attention exclusively for each feature location dynamically. Secondly, we design the Local Attention Regularization to supervise the training of LRA by minimizing the deviation among the attention for different feature locations. Finally, we provide an Instance Attention mechanism to focus on the most important instances dynamically during training. Extensive experiments on four challenging crowd counting datasets namely ShanghaiTech, UCF-QNRF, JHU++, and NWPU have validated the proposed method. Codes: https://github.com/L oraLinH/Boosting-Cro wd-Counting-via-Mult ifaceted-Attention.
翻訳日:2022-03-08 16:16:57 公開日:2022-03-05
# セグメントレベルのビデオコピー検出のための大規模総合データセットとコピーオーバラップ認識評価プロトコル

A Large-scale Comprehensive Dataset and Copy-overlap Aware Evaluation Protocol for Segment-level Video Copy Detection ( http://arxiv.org/abs/2203.02654v1 )

ライセンス: Link先を確認
Sifeng He, Xudong Yang, Chen Jiang, Gang Liang, Wei Zhang, Tan Pan, Qing Wang, Furong Xu, Chunguang Li, Jingxiong Liu, Hui Xu, Kaiming Huang, Yuan Cheng, Feng Qian, Xiaobo Zhang, Lei Yang(参考訳) 本稿では,新しい包括的セグメントレベルアノテートビデオコピーデータセット vcsl (video copy segment localization) を紹介する。 ビデオレベルのアノテーションまたは小規模で制限された既存のコピー検出データセットと比較して、VCSLは2桁以上のセグメントレベルのラベル付きデータを持つだけでなく、280k以上のローカライズされたコピーセグメントペアを含む160kのリアルなビデオコピーペアを持つとともに、様々なビデオカテゴリと幅広いビデオ持続時間もカバーしている。 収集されたビデオペア内の全てのコピーセグメントは手動で抽出され、正確に注釈付き開始および終了タイムスタンプが添付される。 また,データセットとともに,ビデオペア間で重複するセグメントの予測精度を向上し,異なるシナリオにおける適応性の向上を示す新しい評価プロトコルを提案する。 提案したデータセットと評価基準を用いて,いくつかのベースラインと最先端のセグメントレベルのビデオコピー検出手法をベンチマークすることにより,現在のアプローチの長所と短所を明らかにする包括的分析を行い,今後の作業に期待できる方向性を開拓する。 VCSLデータセット、メトリック、ベンチマークコードはhttps://github.com/a lipay/VCSLで公開されている。

In this paper, we introduce VCSL (Video Copy Segment Localization), a new comprehensive segment-level annotated video copy dataset. Compared with existing copy detection datasets restricted by either video-level annotation or small-scale, VCSL not only has two orders of magnitude more segment-level labelled data, with 160k realistic video copy pairs containing more than 280k localized copied segment pairs, but also covers a variety of video categories and a wide range of video duration. All the copied segments inside each collected video pair are manually extracted and accompanied by precisely annotated starting and ending timestamps. Alongside the dataset, we also propose a novel evaluation protocol that better measures the prediction accuracy of copy overlapping segments between a video pair and shows improved adaptability in different scenarios. By benchmarking several baseline and state-of-the-art segment-level video copy detection methods with the proposed dataset and evaluation metric, we provide a comprehensive analysis that uncovers the strengths and weaknesses of current approaches, hoping to open up promising directions for future works. The VCSL dataset, metric and benchmark codes are all publicly available at https://github.com/a lipay/VCSL.
翻訳日:2022-03-08 16:16:36 公開日:2022-03-05
# Zoom In and Out:カモフラージュ物体検出のための混合スケールトリプレットネットワーク

Zoom In and Out: A Mixed-scale Triplet Network for Camouflaged Object Detection ( http://arxiv.org/abs/2203.02688v1 )

ライセンス: Link先を確認
Pang Youwei, Zhao Xiaoqi, Xiang Tian-Zhu, Zhang Lihe, Lu Huchuan(参考訳) 最近提案されたcamouflaged object detection (COD)は、現実のシナリオでは極めて複雑で難しい、視覚的に周囲に混入したオブジェクトを分割しようとする試みである。 カモフラージュされた物体とその背景の間の高い内在的な類似性は別として、通常、物体はスケールが多様であり、外観が曖昧であり、さらにはひどく遮蔽されている。 これらの問題に対処するため,我々は,ぼやけた画像,すなわちズームイン/アウトを観察する時の人間の振る舞いを模倣する混合スケールトリプルトネットワークである \textbf{zoomnet} を提案する。 具体的には、zoomnetでは、設計したスケール統合ユニットと階層的ミックススケールユニットによる識別的ミックススケールセマンティクスを学ぶために、zoom戦略を採用しています。 さらに,不明瞭なテクスチャから生じる不確実性とあいまいさを考慮し,不確実性を考慮した簡易な正則化制約を構築し,候補領域の信頼性の高い予測を正確に生成する。 提案するタスクフレンドリなモデルは,4つの公開データセットにおいて,既存の23の最先端メソッドを一貫して上回っています。 さらに,SODタスクにおける最近の最先端モデルよりも優れた性能を示し,本モデルの有効性と汎用性を検証した。 コードは \url{https://github.com/l artpang/ZoomNet} で入手できる。

The recently proposed camouflaged object detection (COD) attempts to segment objects that are visually blended into their surroundings, which is extremely complex and difficult in real-world scenarios. Apart from high intrinsic similarity between the camouflaged objects and their background, the objects are usually diverse in scale, fuzzy in appearance, and even severely occluded. To deal with these problems, we propose a mixed-scale triplet network, \textbf{ZoomNet}, which mimics the behavior of humans when observing vague images, i.e., zooming in and out. Specifically, our ZoomNet employs the zoom strategy to learn the discriminative mixed-scale semantics by the designed scale integration unit and hierarchical mixed-scale unit, which fully explores imperceptible clues between the candidate objects and background surroundings. Moreover, considering the uncertainty and ambiguity derived from indistinguishable textures, we construct a simple yet effective regularization constraint, uncertainty-aware loss, to promote the model to accurately produce predictions with higher confidence in candidate regions. Without bells and whistles, our proposed highly task-friendly model consistently surpasses the existing 23 state-of-the-art methods on four public datasets. Besides, the superior performance over the recent cutting-edge models on the SOD task also verifies the effectiveness and generality of our model. The code will be available at \url{https://github.com/l artpang/ZoomNet}.
翻訳日:2022-03-08 16:16:11 公開日:2022-03-05
# 不安定なループテンソルネットワークのトレーニング方法

How to Train Unstable Looped Tensor Network ( http://arxiv.org/abs/2203.02617v1 )

ライセンス: Link先を確認
Anh-Huy Phan, Konstantin Sobolev, Dmitry Ermilov, Igor Vorona, Nikolay Kozyrskiy, Petr Tichavsky and Andrzej Cichocki(参考訳) 深層ニューラルネットワークの圧縮における上昇問題は、畳み込み核のパラメータの数とそれらの層の複雑さを低ランクテンソル近似によって減少させる方法である。 正準多進テンソル分解(CPD)とタッカーテンソル分解(TKD)はこの問題に対する2つの解であり、有望な結果をもたらす。 しかし、CPDは縮退のためにしばしば失敗し、ネットワークは不安定で微調整が難しい。 TKDは、コアテンソルが大きければあまり圧縮を提供しない。 これは cpd と tkd のハイブリッドモデルを用いて、ブロック項分解 (btd) と呼ばれる小さな核テンソルを持つ複数のタッカーモデルによる分解を動機付ける。 本稿では,BTDのコアテンソルを同一にすることでBTDをさらに圧縮する,よりコンパクトなモデルを提案する。 共有パラメータを持つBTDとループ連鎖テンソルネットワーク(TC)のリンクを確立する。 残念ながら、そのような強い制約のあるテンソルネットワーク(ループを持つ)は、y (Landsberg, 2012) と (Handschuh, 2015a) によって証明されたような深刻な数値不安定性に遭遇する。 連鎖テンソルネットワークの摂動を研究し,tcにおける不安定性の解釈を行い,この問題を実証する。 本研究では, 分解結果の安定性, ネットワークの頑健性, より良い近似値を得るための新しい手法を提案する。 実験結果から,cnnの圧縮とtc分解における提案手法の優れていることを確認する。

A rising problem in the compression of Deep Neural Networks is how to reduce the number of parameters in convolutional kernels and the complexity of these layers by low-rank tensor approximation. Canonical polyadic tensor decomposition (CPD) and Tucker tensor decomposition (TKD) are two solutions to this problem and provide promising results. However, CPD often fails due to degeneracy, making the networks unstable and hard to fine-tune. TKD does not provide much compression if the core tensor is big. This motivates using a hybrid model of CPD and TKD, a decomposition with multiple Tucker models with small core tensor, known as block term decomposition (BTD). This paper proposes a more compact model that further compresses the BTD by enforcing core tensors in BTD identical. We establish a link between the BTD with shared parameters and a looped chain tensor network (TC). Unfortunately, such strongly constrained tensor networks (with loop) encounter severe numerical instability, as proved by y (Landsberg, 2012) and (Handschuh, 2015a). We study perturbation of chain tensor networks, provide interpretation of instability in TC, demonstrate the problem. We propose novel methods to gain the stability of the decomposition results, keep the network robust and attain better approximation. Experimental results will confirm the superiority of the proposed methods in compression of well-known CNNs, and TC decomposition under challenging scenarios
翻訳日:2022-03-08 15:55:48 公開日:2022-03-05
# 消去ロバスト設計によるプレコンディショニングラッソに対する分布硬度

Distributional Hardness Against Preconditioned Lasso via Erasure-Robust Designs ( http://arxiv.org/abs/2203.02824v1 )

ライセンス: Link先を確認
Jonathan A. Kelner, Frederic Koehler, Raghu Meka, Dhruv Rohatgi(参考訳) 非条件のガウス的ランダムな設計を持つスパース線形回帰は、統計的/計算的ギャップを示すと広く信じられているが、アルゴリズムの制限されたクラスでは難しい例であっても、この信念に対する公式な証拠は驚くほど少ない。 最近の研究により、ある共分散行列に対して、幅広いプレコンディショニング・ラッソ・プログラムは、サブ線形数のサンプルを持つ多対数的にスパース信号に成功できないことが示されている。 しかし、この下限はすべてのプレコンディショナーに対して、回復に失敗する信号が少なくとも1つ存在することを示している。 これにより、例えば、複数の異なるプリコンディショナーを試すと、スパース線形回帰問題がすべて解決する可能性がある。 この研究では、この問題を克服するより強い下界を証明します。 適切な共分散行列に対して、任意の可逆条件付きlassoプログラムが線形なサンプル数を受信しなければ高い確率で失敗する単一の信号分布を構築する。 意外なことに、我々の下界の心臓部は、圧縮センシングの新たなポジティブな結果である。 標準的なスパースランダム設計は、もし$b$が消去された場合、信号の座標の全てを$O(b)$が情報理論的に識別できるという意味で、逆測定消去に対して高い確率で頑健であることを示す。 我々の知る限り、消去下での任意のスパース信号の部分的回復性が圧縮センシングで研究されたのはこれが初めてである。

Sparse linear regression with ill-conditioned Gaussian random designs is widely believed to exhibit a statistical/computat ional gap, but there is surprisingly little formal evidence for this belief, even in the form of examples that are hard for restricted classes of algorithms. Recent work has shown that, for certain covariance matrices, the broad class of Preconditioned Lasso programs provably cannot succeed on polylogarithmically sparse signals with a sublinear number of samples. However, this lower bound only shows that for every preconditioner, there exists at least one signal that it fails to recover successfully. This leaves open the possibility that, for example, trying multiple different preconditioners solves every sparse linear regression problem. In this work, we prove a stronger lower bound that overcomes this issue. For an appropriate covariance matrix, we construct a single signal distribution on which any invertibly-precondit ioned Lasso program fails with high probability, unless it receives a linear number of samples. Surprisingly, at the heart of our lower bound is a new positive result in compressed sensing. We show that standard sparse random designs are with high probability robust to adversarial measurement erasures, in the sense that if $b$ measurements are erased, then all but $O(b)$ of the coordinates of the signal are still information-theoreti cally identifiable. To our knowledge, this is the first time that partial recoverability of arbitrary sparse signals under erasures has been studied in compressed sensing.
翻訳日:2022-03-08 15:52:35 公開日:2022-03-05
# 連続関係抽出のための一貫性表現学習

Consistent Representation Learning for Continual Relation Extraction ( http://arxiv.org/abs/2203.02721v1 )

ライセンス: Link先を確認
Kang Zhao and Hua Xu and Jiangong Yang and Kai Gao(参考訳) 連続関係抽出(cre)は、古い関係を忘れずに、新しい関係を持つデータに関するモデルを継続的に訓練することを目的としている。 いくつかの以前の研究は、古い関係の典型的なサンプルを保存し、新しい関係を学ぶ際にそれらを再生することは、事実上忘れることを避けることを証明している。 しかし、これらのメモリベースのメソッドは、メモリサンプルに過剰に適合し、不均衡なデータセットでは性能が低下する傾向がある。 これらの課題を解決するために,記憶再生時の対比学習と知識蒸留を取り入れ,関係埋め込みの安定性を維持する一貫した表現学習手法を提案する。 具体的には、メモリバンクに基づく教師付きコントラスト学習を用いて、まず、モデルが関係表現を効果的に学習できるように、新しいタスクを訓練する。 そして、メモリ内のサンプルの対比再生を行い、モデルに記憶知識蒸留による歴史的関係の知識を保持させ、古いタスクが壊滅的に忘れ去られるのを防ぐ。 提案手法は, 一貫性のある表現を学習し, 忘れを効果的に緩和する。 FewRelとTACREDデータセットの大規模な実験により、我々の手法は最先端のベースラインを著しく上回り、不均衡なデータセットに強い堅牢性をもたらすことが示された。

Continual relation extraction (CRE) aims to continuously train a model on data with new relations while avoiding forgetting old ones. Some previous work has proved that storing a few typical samples of old relations and replaying them when learning new relations can effectively avoid forgetting. However, these memory-based methods tend to overfit the memory samples and perform poorly on imbalanced datasets. To solve these challenges, a consistent representation learning method is proposed, which maintains the stability of the relation embedding by adopting contrastive learning and knowledge distillation when replaying memory. Specifically, supervised contrastive learning based on a memory bank is first used to train each new task so that the model can effectively learn the relation representation. Then, contrastive replay is conducted of the samples in memory and makes the model retain the knowledge of historical relations through memory knowledge distillation to prevent the catastrophic forgetting of the old task. The proposed method can better learn consistent representations to alleviate forgetting effectively. Extensive experiments on FewRel and TACRED datasets show that our method significantly outperforms state-of-the-art baselines and yield strong robustness on the imbalanced dataset.
翻訳日:2022-03-08 15:51:58 公開日:2022-03-05
# 学んだことを理解することで必要なものを与える

Feeding What You Need by Understanding What You Learned ( http://arxiv.org/abs/2203.02753v1 )

ライセンス: Link先を確認
Xiaoqiang Wang, Bang Liu, Fangli Xu, Bo Long, Siliang Tang, Lingfei Wu(参考訳) Machine Reading Comprehension (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える能力を明らかにする。 mrcにおける既存の研究は、正確なマッチング(em$)や$f_1$などのメトリクスによって評価されるパフォーマンスを改善するために、大規模モデルとコーパスに大きく依存している。 しかし、そのようなパラダイムはモデル能力に対する十分な解釈を欠いており、大きなコーパスで効率的にモデルを訓練することはできない。 本稿では,モデル能力とデータ特性を深く理解することで,学習状況に基づいた適切なトレーニングデータでモデルに与えることができることを論じる。 具体的には,モデルを多次元かつ説明可能な方法で評価するMDC機能評価フレームワークを設計する。 それに基づいて、さまざまなデータプロパティとモデルパフォーマンスの間の接続をさらに解明し、分離します。 最後に,提案手法の有効性を検証するために,本手法をカリキュラム学習パイプラインに統合し,データ価値を最大化し,トレーニング効率を向上させるためのモデル能力に基づくトレーニングを行う能力境界ブレイクスルーカリキュラム(cbbc)戦略を考案する。 大規模な実験により,提案手法は性能を著しく向上し,EM$/$F_1$の最大11.22%/8.71%の改善が達成された。

Machine Reading Comprehension (MRC) reveals the ability to understand a given text passage and answer questions based on it. Existing research works in MRC rely heavily on large-size models and corpus to improve the performance evaluated by metrics such as Exact Match ($EM$) and $F_1$. However, such a paradigm lacks sufficient interpretation to model capability and can not efficiently train a model with a large corpus. In this paper, we argue that a deep understanding of model capabilities and data properties can help us feed a model with appropriate training data based on its learning status. Specifically, we design an MRC capability assessment framework that assesses model capabilities in an explainable and multi-dimensional manner. Based on it, we further uncover and disentangle the connections between various data properties and model performance. Finally, to verify the effectiveness of the proposed MRC capability assessment framework, we incorporate it into a curriculum learning pipeline and devise a Capability Boundary Breakthrough Curriculum (CBBC) strategy, which performs a model capability-based training to maximize the data value and improve training efficiency. Extensive experiments demonstrate that our approach significantly improves performance, achieving up to an 11.22% / 8.71% improvement of $EM$ / $F_1$ on MRC tasks.
翻訳日:2022-03-08 15:51:36 公開日:2022-03-05
# 高次元調査データにおける特徴選択のためのファジィフォレスト--2020年アメリカ合衆国大統領選挙への適用

Fuzzy Forests For Feature Selection in High-Dimensional Survey Data: An Application to the 2020 U.S. Presidential Election ( http://arxiv.org/abs/2203.02818v1 )

ライセンス: Link先を確認
Sreemanti Dey and R. Michael Alvarez(参考訳) 社会科学の分野においてますます一般的な方法論的問題は、伝統的な帰納的研究の枠組みとは無関係な高次元かつ高相関なデータセットである。 2020年の大統領選挙における候補者選択の分析は、この問題自体が提示される分野の一つであり、選挙の結果を説明する多くの理論をテストするためには、何百という高い相関性を持つ2020年共同選挙研究共通コンテンツなどのデータを使用する必要がある。 本稿では,一般的なランダムフォレストアンサンブル手法の変種であるファジィフォレストアルゴリズムを,最小バイアスで特徴空間を削減し,ランダムフォレストやロジットのような一般的なアルゴリズムと同等の予測性能を維持する効率的な手法として提示する。 ファジィ・フォレスト(Fizzy Forests)を駆使して、候補者選択の上位相関関係を分離し、パルチザンの分極が2020年の大統領選挙における最強の要因であることを見出した。

An increasingly common methodological issue in the field of social science is high-dimensional and highly correlated datasets that are unamenable to the traditional deductive framework of study. Analysis of candidate choice in the 2020 Presidential Election is one area in which this issue presents itself: in order to test the many theories explaining the outcome of the election, it is necessary to use data such as the 2020 Cooperative Election Study Common Content, with hundreds of highly correlated features. We present the Fuzzy Forests algorithm, a variant of the popular Random Forests ensemble method, as an efficient way to reduce the feature space in such cases with minimal bias, while also maintaining predictive performance on par with common algorithms like Random Forests and logit. Using Fuzzy Forests, we isolate the top correlates of candidate choice and find that partisan polarization was the strongest factor driving the 2020 presidential election.
翻訳日:2022-03-08 15:27:34 公開日:2022-03-05
# 視覚・言語ナビゲーションのための離散環境と連続環境の学習ギャップを埋める

Bridging the Gap Between Learning in Discrete and Continuous Environments for Vision-and-Language Navigation ( http://arxiv.org/abs/2203.02764v1 )

ライセンス: Link先を確認
Yicong Hong, Zun Wang, Qi Wu, Stephen Gould(参考訳) ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における既存のほとんどの研究は、個別または連続的な環境に焦点を当てている。 この2つの設定の基本的な違いは、離散的なナビゲーションが環境の接続グラフの事前の知識を前提とすることで、エージェントがナビゲーションの問題を低レベル制御で効果的にノードからノードへジャンプさせることを可能にすることである。 離散対連続ギャップを橋渡しするために,ナビゲーション中に候補の経路ポイントを生成できる予測器を提案し,高レベルな動作で設計されたエージェントを連続環境で移動・訓練できるようにする。 我々は,Matterport3Dの接続グラフを改良して連続Habitat-Matterport3D に適合させ,改良されたグラフでウェイポイント予測器を訓練し,各ステップでアクセス可能なウェイポイントを生成する。 さらに,学習中に予測されたウェイポイントを拡張して,ビューやパスの多様化を実現し,エージェントの一般化能力を高めることを示す。 広範にわたる実験により、予測された経路点を持つ連続環境を航行するエージェントは、低レベルなアクションを使用するエージェントよりもはるかに優れた性能を示し、これにより絶対的な離散連続的ギャップを11.76%減らすことができる。 我々のエージェントは、単純な模倣学習目標で訓練され、R2R-CEデータセットとRxR-CEデータセットの試験環境において、従来の手法よりも大きなマージンで性能を向上する。

Most existing works in vision-and-language navigation (VLN) focus on either discrete or continuous environments, training agents that cannot generalize across the two. The fundamental difference between the two setups is that discrete navigation assumes prior knowledge of the connectivity graph of the environment, so that the agent can effectively transfer the problem of navigation with low-level controls to jumping from node to node with high-level actions by grounding to an image of a navigable direction. To bridge the discrete-to-continuo us gap, we propose a predictor to generate a set of candidate waypoints during navigation, so that agents designed with high-level actions can be transferred to and trained in continuous environments. We refine the connectivity graph of Matterport3D to fit the continuous Habitat-Matterport3D , and train the waypoints predictor with the refined graphs to produce accessible waypoints at each time step. Moreover, we demonstrate that the predicted waypoints can be augmented during training to diversify the views and paths, and therefore enhance agent's generalization ability. Through extensive experiments we show that agents navigating in continuous environments with predicted waypoints perform significantly better than agents using low-level actions, which reduces the absolute discrete-to-continuo us gap by 11.76% Success Weighted by Path Length (SPL) for the Cross-Modal Matching Agent and 18.24% SPL for the Recurrent VLN-BERT. Our agents, trained with a simple imitation learning objective, outperform previous methods by a large margin, achieving new state-of-the-art results on the testing environments of the R2R-CE and the RxR-CE datasets.
翻訳日:2022-03-08 15:26:03 公開日:2022-03-05
# パフォーマンスを犠牲にすることなく、sparse-to-sparse ganトレーニング。

Don't Be So Dense: Sparse-to-Sparse GAN Training Without Sacrificing Performance ( http://arxiv.org/abs/2203.02770v1 )

ライセンス: Link先を確認
Shiwei Liu, Yuesong Tian, Tianlong Chen, Li Shen(参考訳) generative adversarial networks (gans) は、生成データの高品質のために提案されて以来、高い関心を集めている。 ますます印象的な結果を達成する一方で、大きなモデルサイズに関連するリソース要求は、リソース制限シナリオにおけるGANの使用を妨げる。 推論のために、既存のモデル圧縮技術は、同等の性能でモデルの複雑さを低減できる。 しかし,GANの脆弱なトレーニングプロセスのため,GANのトレーニング効率は低下している。 本稿では,スパークス GAN をスクラッチから直接訓練する可能性について,高密度あるいは事前学習のステップを伴わずに検討する。 さらに、本提案手法は、スクラッチから非常にスパースな発電機でスパース非バランスなGANを直接訓練することができる。 完全なGANをトレーニングする代わりに、スパースGANから始めて、トレーニングを通じてジェネレータにまたがるパラメータ空間を動的に探索します。 このようなスパース・ツー・スパースなトレーニング手順は、高いスパース・ジェネレータのキャパシティを段階的に向上させ、一定の小さなパラメータ予算に固執し、魅力的なトレーニングと推論効率の向上をもたらす。 最新のGANアーキテクチャを用いた大規模な実験により,本手法の有効性が検証された。 当社のsparsified ganは、1回のランニングでスクラッチからトレーニングされ、高価な反復的な刈り取りと再トレーニングで学んだものよりも優れています。 おそらく最も重要なことは、高価な事前訓練されたGANからパラメータを継承する代わりに、スクラッチから直接スパースGANをトレーニングする方がずっと効率的なソリューションになるということです。 例えば、80%のスパースジェネレータと70%のスパースディミネータでのみトレーニングを行うことで、より高密度なBigGANよりも優れた性能が得られる。

Generative adversarial networks (GANs) have received an upsurging interest since being proposed due to the high quality of the generated data. While achieving increasingly impressive results, the resource demands associated with the large model size hinders the usage of GANs in resource-limited scenarios. For inference, the existing model compression techniques can reduce the model complexity with comparable performance. However, the training efficiency of GANs has less been explored due to the fragile training process of GANs. In this paper, we, for the first time, explore the possibility of directly training sparse GAN from scratch without involving any dense or pre-training steps. Even more unconventionally, our proposed method enables directly training sparse unbalanced GANs with an extremely sparse generator from scratch. Instead of training full GANs, we start with sparse GANs and dynamically explore the parameter space spanned over the generator throughout training. Such a sparse-to-sparse training procedure enhances the capacity of the highly sparse generator progressively while sticking to a fixed small parameter budget with appealing training and inference efficiency gains. Extensive experiments with modern GAN architectures validate the effectiveness of our method. Our sparsified GANs, trained from scratch in one single run, are able to outperform the ones learned by expensive iterative pruning and re-training. Perhaps most importantly, we find instead of inheriting parameters from expensive pre-trained GANs, directly training sparse GANs from scratch can be a much more efficient solution. For example, only training with a 80% sparse generator and a 70% sparse discriminator, our method can achieve even better performance than the dense BigGAN.
翻訳日:2022-03-08 15:23:09 公開日:2022-03-05
# 足歩行における安全強化学習

Safe Reinforcement Learning for Legged Locomotion ( http://arxiv.org/abs/2203.02638v1 )

ライセンス: Link先を確認
Tsung-Yen Yang, Tingnan Zhang, Linda Luu, Sehoon Ha, Jie Tan, Wenhao Yu(参考訳) 足の移動に対する制御ポリシーの設計は、動作不足と非連続的なロボット力学のために複雑である。 モデルなし強化学習は、この課題に取り組むための有望なツールを提供する。 しかし、モデルレス強化学習を現実世界に適用する際の大きなボトルネックは安全性である。 本稿では,ロボットが安全でない状態に入るのを防ぐ安全回復政策と,タスクを完了させるために最適化された学習者ポリシーとを切り替える安全な強化学習フレームワークを提案する。 安全回復ポリシーは、学習者ポリシーが安全制約に違反した場合に制御を引き継ぎ、将来の安全違反がない場合は制御を手渡す。 我々は,学習プロセスに最小限の介入をしながら,足歩行の安全性を確保する安全回復政策を設計する。 さらに,提案するフレームワークを理論的に解析し,タスク性能に上限を与える。 提案手法は, 4脚歩行, キャットウォーク, 2脚バランス, ペーシングという, シミュレーションおよび実四足歩行ロボットによる4つの移動作業において検証される。 提案手法は, 平均48.6%のフォールと, シミュレーションにおけるベースライン法よりも優れた報奨を得られる。 実世界の四足歩行ロボットに配備すると、トレーニングパイプラインは効率の良い歩行のエネルギー効率が34%向上し、キャットウォークの足の配置が40.9%狭くなり、2足バランスでのジャンプ時間が2倍向上した。 本手法は,115分間のハードウェア時間において,5回未満のフォールを達成できる。

Designing control policies for legged locomotion is complex due to the under-actuated and non-continuous robot dynamics. Model-free reinforcement learning provides promising tools to tackle this challenge. However, a major bottleneck of applying model-free reinforcement learning in real world is safety. In this paper, we propose a safe reinforcement learning framework that switches between a safe recovery policy that prevents the robot from entering unsafe states, and a learner policy that is optimized to complete the task. The safe recovery policy takes over the control when the learner policy violates safety constraints, and hands over the control back when there are no future safety violations. We design the safe recovery policy so that it ensures safety of legged locomotion while minimally intervening in the learning process. Furthermore, we theoretically analyze the proposed framework and provide an upper bound on the task performance. We verify the proposed framework in four locomotion tasks on a simulated and real quadrupedal robot: efficient gait, catwalk, two-leg balance, and pacing. On average, our method achieves 48.6% fewer falls and comparable or better rewards than the baseline methods in simulation. When deployed it on real-world quadruped robot, our training pipeline enables 34% improvement in energy efficiency for the efficient gait, 40.9% narrower of the feet placement in the catwalk, and two times more jumping duration in the two-leg balance. Our method achieves less than five falls over the duration of 115 minutes of hardware time.
翻訳日:2022-03-08 15:20:23 公開日:2022-03-05
# ecmg:exemplarベースのコミットメッセージ生成

ECMG: Exemplar-based Commit Message Generation ( http://arxiv.org/abs/2203.02700v1 )

ライセンス: Link先を確認
Ensheng Shia, Yanlin Wangb, Lun Du, Hongyu Zhang, Shi Han, Dongmei Zhang, Hongbin Sun(参考訳) コミットメッセージは、コード差分(コード変更)の内容とその背後にある意図を簡潔に記述します。 近年,コミットメッセージを自動生成する手法が多数提案されている。 情報検索に基づく方法は類似したコード差分のコミットメッセージを再利用し、ニューラルネットワークはコード差分とコミットメッセージの間のセマンティックな接続を学習する。 しかし、再利用されたコミットメッセージはコード差分の内容やインテントを正確に記述するものではなく、ニューラルベースのメソッドはコーパス内で頻繁で反復的なトークンを生成する傾向がある。 本稿では,これら2つの技術経路の利点を組み合わせることで,類似したコミットメッセージを例示として扱い,ニューラルネットワークモデルをガイドして正確なコミットメッセージを生成する,新たな例題ベースのニューラルコミットメッセージ生成モデルを提案する。 広範な実験を行い,本モデルの有効性を確認した。

Commit messages concisely describe the content of code diffs (i.e., code changes) and the intent behind them. Recently, many approaches have been proposed to generate commit messages automatically. The information retrieval-based methods reuse the commit messages of similar code diffs, while the neural-based methods learn the semantic connection between code diffs and commit messages. However, the reused commit messages might not accurately describe the content/intent of code diffs and neural-based methods tend to generate high-frequent and repetitive tokens in the corpus. In this paper, we combine the advantages of the two technical routes and propose a novel exemplar-based neural commit message generation model, which treats the similar commit message as an exemplar and leverages it to guide the neural network model to generate an accurate commit message. We perform extensive experiments and the results confirm the effectiveness of our model.
翻訳日:2022-03-08 15:19:39 公開日:2022-03-05
# 時間依存信頼度解析のためのクープマン演算子

Koopman operator for time-dependent reliability analysis ( http://arxiv.org/abs/2203.02658v1 )

ライセンス: Link先を確認
Navaneeth N. and Souvik Chakraborty(参考訳) 非線形力学系の時間依存構造的信頼性解析は非自明であり、従って、構造的信頼性解析手法の大部分の範囲は時間依存的信頼性解析に限られる。 本研究では非線形力学系の時間依存信頼度解析のためのkoopman演算子に基づく手法を提案する。 クープマン表現は任意の非線形力学系を線型力学系に変換することができるので、非線形あるいはカオス的な振る舞いにかかわらず、クープマン作用素によって動的系の時間発展がシームレスに得られる。 クープマン理論は昔から唱えられてきたが、本質的な座標の同定は難しい課題であり、この問題に対処するため、クープマン観測器を学習し、動的応答の進行に時間的に利用するエンド・ツー・エンドのディープラーニングアーキテクチャを提案する。 純粋なデータ駆動アプローチとは異なり、提案されたアプローチは不確実性が存在する場合でも堅牢である。 本稿では,システムがランダム初期条件を受ける場合の時間依存信頼性解析に適したアーキテクチャと,システムパラメータに不確実性がある場合に適したアーキテクチャを提案する。 提案手法は頑健であり、未知の環境(分布外予測)に一般化する。 提案手法の有効性を3つの数値例を用いて示す。 その結果、純粋にデータ駆動型自己回帰型ニューラルネットワークと長期記憶ネットワークと比較して、提案手法の優位性が示唆された。

Time-dependent structural reliability analysis of nonlinear dynamical systems is non-trivial; subsequently, scope of most of the structural reliability analysis methods is limited to time-independent reliability analysis only. In this work, we propose a Koopman operator based approach for time-dependent reliability analysis of nonlinear dynamical systems. Since the Koopman representations can transform any nonlinear dynamical system into a linear dynamical system, the time evolution of dynamical systems can be obtained by Koopman operators seamlessly regardless of the nonlinear or chaotic behavior. Despite the fact that the Koopman theory has been in vogue a long time back, identifying intrinsic coordinates is a challenging task; to address this, we propose an end-to-end deep learning architecture that learns the Koopman observables and then use it for time marching the dynamical response. Unlike purely data-driven approaches, the proposed approach is robust even in the presence of uncertainties; this renders the proposed approach suitable for time-dependent reliability analysis. We propose two architectures; one suitable for time-dependent reliability analysis when the system is subjected to random initial condition and the other suitable when the underlying system have uncertainties in system parameters. The proposed approach is robust and generalizes to unseen environment (out-of-distribution prediction). Efficacy of the proposed approached is illustrated using three numerical examples. Results obtained indicate supremacy of the proposed approach as compared to purely data-driven auto-regressive neural network and long-short term memory network.
翻訳日:2022-03-08 15:14:31 公開日:2022-03-05
# 半教師付き学習による自律運転のための重要物体識別

Important Object Identification with Semi-Supervised Learning for Autonomous Driving ( http://arxiv.org/abs/2203.02634v1 )

ライセンス: Link先を確認
Jiachen Li and Haiming Gang and Hengbo Ma and Masayoshi Tomizuka and Chiho Choi(参考訳) シーンにおける重要な物体の正確な識別は、複雑な動的環境をナビゲートするインテリジェントエージェント(例えば自動運転車)の安全で高品質な意思決定と動作計画の前提条件である。 既存のほとんどのアプローチでは、様々なタスク(軌道予測など)を通じて、各オブジェクトに関連する重みを間接的に学習するために注意機構を採用しようとしている。 対照的に、このタスクを明示的な方法で取り組み、バイナリ分類(重要(important))あるいは非重要(unimportant))問題として定式化する。 我々は,シーン内のオブジェクトに対する関係推論を伴う自己中心駆動シナリオにおいて,重要なオブジェクト識別のための新しいアプローチを提案する。 さらに,人間のアノテーションは限定的かつ費用がかかるため,半教師あり学習パイプラインを提供し,無制限のラベルなしデータからモデルが学習できるようにする。 さらに,ego車両行動予測の補助タスクを活用し,重要度推定の精度をさらに高めることを提案する。 提案手法は,複雑なトラヒックシナリオで収集したh3d(public egocentric driving dataset)上で評価される。 各モデルコンポーネントの有効性とトレーニング戦略を示すために,詳細なアブレーション研究を行った。 我々のアプローチはルールベースのベースラインを大きく上回っている。

Accurate identification of important objects in the scene is a prerequisite for safe and high-quality decision making and motion planning of intelligent agents (e.g., autonomous vehicles) that navigate in complex and dynamic environments. Most existing approaches attempt to employ attention mechanisms to learn importance weights associated with each object indirectly via various tasks (e.g., trajectory prediction), which do not enforce direct supervision on the importance estimation. In contrast, we tackle this task in an explicit way and formulate it as a binary classification ("important" or "unimportant") problem. We propose a novel approach for important object identification in egocentric driving scenarios with relational reasoning on the objects in the scene. Besides, since human annotations are limited and expensive to obtain, we present a semi-supervised learning pipeline to enable the model to learn from unlimited unlabeled data. Moreover, we propose to leverage the auxiliary tasks of ego vehicle behavior prediction to further improve the accuracy of importance estimation. The proposed approach is evaluated on a public egocentric driving dataset (H3D) collected in complex traffic scenarios. A detailed ablative study is conducted to demonstrate the effectiveness of each model component and the training strategy. Our approach also outperforms rule-based baselines by a large margin.
翻訳日:2022-03-08 14:40:00 公開日:2022-03-05
# フィルタプルーニングのためのアンサンブル知識誘導サブネットワーク探索と微調整

Ensemble Knowledge Guided Sub-network Search and Fine-tuning for Filter Pruning ( http://arxiv.org/abs/2203.02651v1 )

ライセンス: Link先を確認
Seunghyun Lee, Byung Cheol Song(参考訳) 従来のnasベースのプルーニングアルゴリズムは、最高の検証性能を持つサブネットワークを見つけることを目的としている。 しかし、検証性能はテスト性能、すなわち潜在的なパフォーマンスをうまく表さない。 また、性能低下を回復するために刈り取られたネットワークを微調整することは避けられないプロセスであるが、この問題を扱う研究はほとんどない。 本稿では,Ensemble Knowledge Guidance (EKG) と呼ばれる新しいサブネットワーク検索と微調整手法を提案する。 まず,損失景観のゆらぎが潜在的な性能を評価する有効な指標であることを実験的に証明する。 最も滑らかな損失景観を持つサブネットワークを低コストで探索するために,アンサンブルサブネットワーク知識蒸留により構築した疑似スーパーネットを提案する。 次に,検索段階の情報を再利用する新しい微調整手法を提案する。 我々は、中間サブネットワーク、すなわち検索フェーズの副産物を格納し、それらの知識を刈り取られたネットワークに転送する。 EKGは簡単にプラグインでき、計算効率が良いことに注意。 例えば、ResNet-50の場合、FLOPSの約45%は、わずか315GPU時間でパフォーマンスが低下することなく削除される。 実装されたコードはhttps://github.com/s seung0703/EKGで入手できる。

Conventional NAS-based pruning algorithms aim to find the sub-network with the best validation performance. However, validation performance does not successfully represent test performance, i.e., potential performance. Also, although fine-tuning the pruned network to restore the performance drop is an inevitable process, few studies have handled this issue. This paper proposes a novel sub-network search and fine-tuning method that is named Ensemble Knowledge Guidance (EKG). First, we experimentally prove that the fluctuation of the loss landscape is an effective metric to evaluate the potential performance. In order to search a sub-network with the smoothest loss landscape at a low cost, we propose a pseudo-supernet built by an ensemble sub-network knowledge distillation. Next, we propose a novel fine-tuning that re-uses the information of the search phase. We store the interim sub-networks, that is, the by-products of the search phase, and transfer their knowledge into the pruned network. Note that EKG is easy to be plugged-in and computationally efficient. For example, in the case of ResNet-50, about 45% of FLOPS is removed without any performance drop in only 315 GPU hours. The implemented code is available at https://github.com/s seung0703/EKG.
翻訳日:2022-03-08 14:38:58 公開日:2022-03-05
# Just Rank: 単語と文の類似性による評価の再考

Just Rank: Rethinking Evaluation with Word and Sentence Similarities ( http://arxiv.org/abs/2203.02679v1 )

ライセンス: Link先を確認
Bin Wang, C.-C. Jay Kuo, Haizhou Li(参考訳) 単語と文の埋め込みは自然言語処理において有用な特徴表現である。 しかし、組み込みの本質的な評価は遅れており、過去10年間、重要な更新は行われていない。 単語と文の類似性タスクがデファクト評価手法となっている。 これはモデルをそのような評価に過度に適合させ、埋め込みモデルの開発に悪影響を及ぼす。 本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。 さらに,下流タスクとより強い相関を示すevalrankと呼ばれる新しい本質的評価手法を提案する。 大規模な実験は60以上のモデルと一般的なデータセットに基づいて行われ、判断を認証する。 最後に、将来のベンチマークのために実用的な評価ツールキットがリリースされる。

Word and sentence embeddings are useful feature representations in natural language processing. However, intrinsic evaluation for embeddings lags far behind, and there has been no significant update since the past decade. Word and sentence similarity tasks have become the de facto evaluation method. It leads models to overfit to such evaluations, negatively impacting embedding models' development. This paper first points out the problems using semantic similarity as the gold standard for word and sentence embedding evaluations. Further, we propose a new intrinsic evaluation method called EvalRank, which shows a much stronger correlation with downstream tasks. Extensive experiments are conducted based on 60+ models and popular datasets to certify our judgments. Finally, the practical evaluation toolkit is released for future benchmarking purposes.
翻訳日:2022-03-08 14:37:55 公開日:2022-03-05
# 弱教師付きセマンティックセグメンテーションのためのクロス言語画像マッチング

Cross Language Image Matching for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2203.02668v1 )

ライセンス: Link先を確認
Jinheng Xie, Xianxu Hou, Kai Ye, Linlin Shen(参考訳) CAM(Class Activation Map)は、通常、識別対象領域のみを活性化し、多くのオブジェクト関連背景を含むことが広く知られている。 画像レベルのオブジェクトラベルの固定セットのみがWSSS(弱教師付きセマンティックセグメンテーション)モデルで利用可能であるため、オープンセットオブジェクトからなる様々な背景領域を抑圧することは非常に困難である。 本稿では,WSSS 向けに最近導入された Contrastive Language- Image Pre-training (CLIP) モデルに基づく新しいクロス言語画像マッチング (CLIMS) フレームワークを提案する。 我々のフレームワークの中核となる考え方は、より完全なオブジェクト領域を活性化し、密接に関連するオープンバックグラウンド領域を抑えるために自然言語の監督を導入することである。 特に、各カテゴリのCAMに対して、より合理的な対象領域をエキサイティングするために、オブジェクト、背景領域、テキストラベルの損失を誘導する。 さらに,モデルが関連する背景領域をアクティベートするのを防ぐために,クラス関連背景テキスト記述の事前定義されたセットを用いて,共起的背景抑圧損失を設計する。 これらの設計により、提案されたCLIMSはターゲットオブジェクトに対してより完全でコンパクトなアクティベーションマップを生成することができる。 PASCAL VOC2012データセットの大規模な実験により、我々のCLIMSは従来の最先端手法よりも大幅に優れていた。 コードは利用可能だ。

It has been widely known that CAM (Class Activation Map) usually only activates discriminative object regions and falsely includes lots of object-related backgrounds. As only a fixed set of image-level object labels are available to the WSSS (weakly supervised semantic segmentation) model, it could be very difficult to suppress those diverse background regions consisting of open set objects. In this paper, we propose a novel Cross Language Image Matching (CLIMS) framework, based on the recently introduced Contrastive Language-Image Pre-training (CLIP) model, for WSSS. The core idea of our framework is to introduce natural language supervision to activate more complete object regions and suppress closely-related open background regions. In particular, we design object, background region and text label matching losses to guide the model to excite more reasonable object regions for CAM of each category. In addition, we design a co-occurring background suppression loss to prevent the model from activating closely-related background regions, with a predefined set of class-related background text descriptions. These designs enable the proposed CLIMS to generate a more complete and compact activation map for the target objects. Extensive experiments on PASCAL VOC2012 dataset show that our CLIMS significantly outperforms the previous state-of-the-art methods. Code will be available.
翻訳日:2022-03-08 14:35:03 公開日:2022-03-05
# 産業用ビンピッキングのためのロバストなパートアウェアインスタンスセグメンテーション

Towards Robust Part-aware Instance Segmentation for Industrial Bin Picking ( http://arxiv.org/abs/2203.02767v1 )

ライセンス: Link先を確認
Yidan Feng, Biqi Yang, Xianzhi Li, Chi-Wing Fu, Rui Cao, Kai Chen, Qi Dou, Mingqiang Wei, Yun-Hui Liu, and Pheng-Ann Heng(参考訳) 産業用ビンピッキングは、個々のオブジェクトインスタンスの正確かつ堅牢なセグメンテーションを必要とする困難なタスクである。 特に工業用物体は、細く凹凸な不規則な形状を持つことがあるが、ビンピッキングのシナリオでは、しばしば強い閉塞で密集している。 これらの課題に対処するために、新しい部分認識インスタンスセグメンテーションパイプラインを定式化する。 中心となる考え方は、工業オブジェクトを近似凸部に分解し、部分レベルセグメンテーションによるオブジェクトレベルのセグメンテーションを強化することである。 我々は、部品マスクと部品間オフセットを予測する部分認識ネットワークを設計し、続いて認識された部品をインスタンスに組み立てる部分集約モジュールを設計する。 また,ネットワーク学習を指導するために,インスタンスレベルラベルから基底部レベルラベルを生成する自動ラベル分離方式を提案する。 最後に、薄い、非自明な形状のさまざまな産業用オブジェクトを含む、最初のインスタンスセグメンテーションデータセットをコントリビュートします。 様々な産業分野における広範な実験結果から,本手法は最先端の手法と比較して,最適なセグメンテーション結果が得られることが示された。

Industrial bin picking is a challenging task that requires accurate and robust segmentation of individual object instances. Particularly, industrial objects can have irregular shapes, that is, thin and concave, whereas in bin-picking scenarios, objects are often closely packed with strong occlusion. To address these challenges, we formulate a novel part-aware instance segmentation pipeline. The key idea is to decompose industrial objects into correlated approximate convex parts and enhance the object-level segmentation with part-level segmentation. We design a part-aware network to predict part masks and part-to-part offsets, followed by a part aggregation module to assemble the recognized parts into instances. To guide the network learning, we also propose an automatic label decoupling scheme to generate ground-truth part-level labels from instance-level labels. Finally, we contribute the first instance segmentation dataset, which contains a variety of industrial objects that are thin and have non-trivial shapes. Extensive experimental results on various industrial objects demonstrate that our method can achieve the best segmentation results compared with the state-of-the-art approaches.
翻訳日:2022-03-08 14:33:06 公開日:2022-03-05
# unfreeze with care:空間効率の良い意味解析モデルの微調整

Unfreeze with Care: Space-Efficient Fine-Tuning of Semantic Parsing Models ( http://arxiv.org/abs/2203.02652v1 )

ライセンス: Link先を確認
Weiqi Sun, Haidar Khan, Nicolas Guenon des Mesnards, Melanie Rubino, Konstantine Arkoudas(参考訳) 意味解析は自然言語を構造化された意味表現にマッピングする重要なNLPタスクである。 他の多くのNLPタスクと同様に、意味解析におけるSOTAのパフォーマンスは、大きな事前訓練された言語モデル(PLM)を微調整することで達成されている。 このアプローチは効果的ではあるが、複数の下流タスクが存在する場合、PLMのすべてのパラメータに対する新しい値セットを個別に格納する必要があるため、非効率である。 最近の研究は、パラメータの大半(または全て)を凍結させながら、下流タスクにPLMを適用する方法を模索している。 接頭辞調律とバイアス項調律の2つの有望な手法,特に意味解析について検討した。 2つの異なるセマンティック解析データセットで比較し、また、ショット数と従来のデータ設定の両方で、フルおよび部分的な微調整と比較します。 プレフィックスのチューニングは、セマンティクス解析タスクを棚から外すには不十分であることが示されていますが、特別なトークン埋め込みを追加することで、パラメータの節約を損なうことなく、非常に強力なパフォーマンスを実現します。

Semantic parsing is a key NLP task that maps natural language to structured meaning representations. As in many other NLP tasks, SOTA performance in semantic parsing is now attained by fine-tuning a large pretrained language model (PLM). While effective, this approach is inefficient in the presence of multiple downstream tasks, as a new set of values for all parameters of the PLM needs to be stored for each task separately. Recent work has explored methods for adapting PLMs to downstream tasks while keeping most (or all) of their parameters frozen. We examine two such promising techniques, prefix tuning and bias-term tuning, specifically on semantic parsing. We compare them against each other on two different semantic parsing datasets, and we also compare them against full and partial fine-tuning, both in few-shot and conventional data settings. While prefix tuning is shown to do poorly for semantic parsing tasks off the shelf, we modify it by adding special token embeddings, which results in very strong performance without compromising parameter savings.
翻訳日:2022-03-08 14:31:42 公開日:2022-03-05
# グラフ要約によるR-GCNのスケーリングトレーニング

Scaling R-GCN Training with Graph Summarization ( http://arxiv.org/abs/2203.02622v1 )

ライセンス: Link先を確認
Alessandro Generale and Till Blume and Michael Cochez(参考訳) 関係グラフ畳み込みネットワーク(r-gcn)のトレーニングは、グラフのサイズに合わせてうまくスケールしない。 実世界のグラフのトレーニング中に格納する必要がある勾配情報の量は、ほとんどのGPUで利用可能なメモリ量には大きすぎることが多い。 本研究では,グラフを圧縮し,必要なメモリ量を削減するために,グラフ要約手法を用いて実験を行った。 グラフ要約に基づいてR-GCNを訓練した後、重みを元のグラフに戻し、それを推論しようとする。 AIFB, MUTAG, AMデータセットについて妥当な結果を得た。 これは、グラフ表現が小さくなり、大きな知識グラフを扱う新しい機械学習モデルに関わる計算オーバーヘッドが削減されるグラフ要約手法の重要性と関連性をサポートする。 しかし、これは非常に大きなグラフにも当てはまるかどうかを評価するためにはさらなる実験が必要である。

Training of Relation Graph Convolutional Networks (R-GCN) does not scale well with the size of the graph. The amount of gradient information that needs to be stored during training for real-world graphs is often too large for the amount of memory available on most GPUs. In this work, we experiment with the use of graph summarization techniques to compress the graph and hence reduce the amount of memory needed. After training the R-GCN on the graph summary, we transfer the weights back to the original graph and attempt to perform inference on it. We obtain reasonable results on the AIFB, MUTAG and AM datasets. This supports the importance and relevancy of graph summarization methods, whose smaller graph representations scale and reduce the computational overhead involved with novel machine learning models dealing with large Knowledge Graphs. However, further experiments are needed to evaluate whether this also holds true for very large graphs.
翻訳日:2022-03-08 14:31:23 公開日:2022-03-05
# 地域研修におけるフェデレーション学習の促進

Acceleration of Federated Learning with Alleviated Forgetting in Local Training ( http://arxiv.org/abs/2203.02645v1 )

ライセンス: Link先を確認
Chencheng Xu, Zhiwei Hong, Minlie Huang, Tao Jiang(参考訳) フェデレートラーニング(FL)は、各クライアント上のローカルモデルを独立してトレーニングし、中央サーバ上でパラメータを集約することで、プライバシーを保護しながら機械学習モデルの分散最適化を可能にする。 様々なFLアルゴリズムが提案されているが、その訓練効率は、データが独立にではなく、異なるクライアントに均等に分散していないときにも低い。 既存の手法の収束速度は(少なくとも部分的には)各クライアントの局所的な訓練段階における悲惨な忘れ問題によって引き起こされ、他のクライアントにおける以前のトレーニングデータに関する損失関数が大幅に増加することが観察された。 本稿では,グローバルモデルが学習した過去のトレーニングデータの知識をエンコードした,生成された疑似データの損失を伴う局所学習パラメータを規則化することにより,局所学習段階における知識忘れを緩和したflを高速化するアルゴリズムであるfeedregを提案する。 我々の包括的な実験は、FedRegがFLの収束率を著しく改善するだけでなく、特にニューラルネットワークアーキテクチャが深く、クライアントのデータが極めて非等号である場合にも、分類問題においてプライバシーを保護し、勾配反転攻撃に対してより堅牢であることを示した。 コードはhttps://github.com/z oesgithub/fedreg。

Federated learning (FL) enables distributed optimization of machine learning models while protecting privacy by independently training local models on each client and then aggregating parameters on a central server, thereby producing an effective global model. Although a variety of FL algorithms have been proposed, their training efficiency remains low when the data are not independently and identically distributed (non-i.i.d.) across different clients. We observe that the slow convergence rates of the existing methods are (at least partially) caused by the catastrophic forgetting issue during the local training stage on each individual client, which leads to a large increase in the loss function concerning the previous training data at the other clients. Here, we propose FedReg, an algorithm to accelerate FL with alleviated knowledge forgetting in the local training stage by regularizing locally trained parameters with the loss on generated pseudo data, which encode the knowledge of previous training data learned by the global model. Our comprehensive experiments demonstrate that FedReg not only significantly improves the convergence rate of FL, especially when the neural network architecture is deep and the clients' data are extremely non-i.i.d., but is also able to protect privacy better in classification problems and more robust against gradient inversion attacks. The code is available at: https://github.com/Z oesgithub/FedReg.
翻訳日:2022-03-08 14:31:10 公開日:2022-03-05
# fuchs dystrophy を伴う角膜内皮の鏡像のセグメンテーションにおける非局所的フィードバックによる高密度化

DenseUNets with feedback non-local attention for the segmentation of specular microscopy images of the corneal endothelium with Fuchs dystrophy ( http://arxiv.org/abs/2203.01882v2 )

ライセンス: Link先を確認
Juan P. Vigueras-Guill\' ;en and Jeroen van Rooij and Bart T.H. van Dooren and Hans G. Lemij and Esma Islamaj and Lucas J. van Vliet and Koenraad A. Vermeer(参考訳) 角膜内皮細胞性ジストロフィー (Fuchs endothelial dystrophy) を呈する顕微鏡画像から角膜内皮細胞パラメータを推定するために, フィードバック非局所的注意 (fNLA) と呼ばれる新しい注意機構を含む新しい深層学習手法を提案する。 提案手法はまず,まず細胞縁を推定し,よく検出された細胞を選択し,最後に誤りを訂正するために後処理法を適用し,角膜パラメータを推定する二分節(細胞密度[ECD],変動係数[CV],六角性[HEX])を提供する。 本研究では,topcon sp-1p顕微鏡で取得した1203枚の画像を分析した。 全画像で手動セグメンテーションが行われた。 我々は、異なるネットワーク(UNet, ResUNeXt, DenseUNets, UNet++)の結果を比較し、fNLAのDenseUNetsは、ECDで23.16[cells/mm$^{2}$]、CVで1.28[%]、HEXで3.13[%]という平均的な絶対誤差で、Topconのビルトインソフトウェアで得られたエラーの3-6倍の誤差で、最高のパフォーマンスを提供することがわかった。 我々のアプローチでは, ガッタが影響を受ける細胞を著しく良好に処理し, 小さいガッタが占める細胞縁を検知し, 大きなガッタが覆う領域を廃棄した。 fNLAは局所情報を利用し、腸骨領域の鋭い縁を提供し、よく検出された細胞の選択により良い結果をもたらした。 総じて,本手法は,この課題を適切に解決した文献において,最初の手法であるguttaeを用いて,極めて困難な鏡像の信頼性と精度を推定する手法である。 コードはGitHubで入手可能です。

To estimate the corneal endothelial parameters from specular microscopy images depicting cornea guttata (Fuchs endothelial dystrophy), we propose a new deep learning methodology that includes a novel attention mechanism named feedback non-local attention (fNLA). Our approach first infers the cell edges, then selects the cells that are well detected, and finally applies a postprocessing method to correct mistakes and provide the binary segmentation from which the corneal parameters are estimated (cell density [ECD], coefficient of variation [CV], and hexagonality [HEX]). In this study, we analyzed 1203 images acquired with a Topcon SP-1P microscope, 500 of which contained guttae. Manual segmentation was performed in all images. We compared the results of different networks (UNet, ResUNeXt, DenseUNets, UNet++) and found that DenseUNets with fNLA provided the best performance, with a mean absolute error of 23.16 [cells/mm$^{2}$] in ECD, 1.28 [%] in CV, and 3.13 [%] in HEX, which was 3-6 times smaller than the error obtained by Topcon's built-in software. Our approach handled the cells affected by guttae remarkably well, detecting cell edges occluded by small guttae while discarding areas covered by large guttae. fNLA made use of the local information, providing sharper edges in guttae areas and better results in the selection of well-detected cells. Overall, the proposed method obtained reliable and accurate estimations in extremely challenging specular images with guttae, being the first method in the literature to solve this problem adequately. Code is available in our GitHub.
翻訳日:2022-03-08 12:22:41 公開日:2022-03-05
# 手書き数式認識のための構文認識ネットワーク

Syntax-Aware Network for Handwritten Mathematical Expression Recognition ( http://arxiv.org/abs/2203.01601v2 )

ライセンス: Link先を確認
Ye Yuan, Xiao Liu, Wondimu Dikubab, Hui Liu, Zhilong Ji, Zhongqin Wu, Xiang Bai(参考訳) 手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。 HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。 しかし、これらの手法は「ある文字から別の文字へ」予測されるというパラダイムを踏襲しており、数学的表現やカニ足跡の複雑な構造によって必然的に予測誤差が生じる。 本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。 具体的には,各表現のラテックスマークアップシーケンスを解析木に変換するための文法規則のセットを示し,そのマークアップシーケンス予測をディープニューラルネットワークを用いてツリートラバースプロセスとしてモデル化する。 このように,提案手法はhmerの構造予測誤差を回避し,表現の構文文脈を効果的に記述することができる。 2つのベンチマークデータセットを用いた実験により,本手法の認識性能は先行技術よりも有意に向上した。 本手法の有効性をさらに検証するために,1万の書き手から取得した10万の手書き数式画像からなる大規模データセットを作成する。 この作業のソースコード、新しいデータセット、事前トレーニングされたモデルが公開される。

Handwritten mathematical expression recognition (HMER) is a challenging task that has many potential applications. Recent methods for HMER have achieved outstanding performance with an encoder-decoder architecture. However, these methods adhere to the paradigm that the prediction is made "from one character to another", which inevitably yields prediction errors due to the complicated structures of mathematical expressions or crabbed handwritings. In this paper, we propose a simple and efficient method for HMER, which is the first to incorporate syntax information into an encoder-decoder network. Specifically, we present a set of grammar rules for converting the LaTeX markup sequence of each expression into a parsing tree; then, we model the markup sequence prediction as a tree traverse process with a deep neural network. In this way, the proposed method can effectively describe the syntax context of expressions, avoiding the structure prediction errors of HMER. Experiments on two benchmark datasets demonstrate that our method achieves significantly better recognition performance than prior arts. To further validate the effectiveness of our method, we create a large-scale dataset consisting of 100k handwritten mathematical expression images acquired from ten thousand writers. The source code, new dataset, and pre-trained models of this work will be publicly available.
翻訳日:2022-03-08 12:21:38 公開日:2022-03-05
# TCTrack: 航空追跡のための時間的コンテキスト

TCTrack: Temporal Contexts for Aerial Tracking ( http://arxiv.org/abs/2203.01885v2 )

ライセンス: Link先を確認
Ziang Cao, Ziyuan Huang, Liang Pan, Shiwei Zhang, Ziwei Liu, Changhong Fu(参考訳) 連続するフレーム間の時間的コンテキストは、既存のビジュアルトラッカーで完全に活用されるには程遠い。 本稿では,航空追跡のための時間的コンテキストを完全に活用するための総合的なフレームワークであるTCTrackを提案する。 時間文脈は \textbf{two level} に組み込まれ、これは \textbf{features} の抽出と \textbf{similarity map} の洗練である。 具体的には,先行するフレームに応じて畳み込み重みを動的に調整することにより,時間的情報を用いて空間的特徴を高めるために,オンラインの時間適応畳み込みを提案する。 まず,類似度マップの正確な調整のために時間知識が復号される前に,時間知識をメモリ効率のよい方法で効果的に符号化する適応時相変換器を提案する。 TCTrackは効率的かつ効率的で、4つの航空追跡ベンチマークの評価は、その印象的なパフォーマンスを示している。現実世界のUAVテストはNVIDIA Jetson AGX Xavier上で27FPS以上の高速さを示している。

Temporal contexts among consecutive frames are far from being fully utilized in existing visual trackers. In this work, we present TCTrack, a comprehensive framework to fully exploit temporal contexts for aerial tracking. The temporal contexts are incorporated at \textbf{two levels}: the extraction of \textbf{features} and the refinement of \textbf{similarity maps}. Specifically, for feature extraction, an online temporally adaptive convolution is proposed to enhance the spatial features using temporal information, which is achieved by dynamically calibrating the convolution weights according to the previous frames. For similarity map refinement, we propose an adaptive temporal transformer, which first effectively encodes temporal knowledge in a memory-efficient way, before the temporal knowledge is decoded for accurate adjustment of the similarity map. TCTrack is effective and efficient: evaluation on four aerial tracking benchmarks shows its impressive performance; real-world UAV tests show its high speed of over 27 FPS on NVIDIA Jetson AGX Xavier.
翻訳日:2022-03-08 12:21:18 公開日:2022-03-05