このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220328となっている論文です。

PDF登録状況(公開日: 20220328)

TitleAuthorsAbstract論文公表日・翻訳日
# デカップリングネットワークを用いた教師なし低光度画像強調

Unsupervised Low-light Image Enhancement with Decoupled Networks ( http://arxiv.org/abs/2005.02818v2 )

ライセンス: Link先を確認
Wei Xiong, Ding Liu, Xiaohui Shen, Chen Fang, Jiebo Luo(参考訳) 本稿では,実世界の低光度画像の高ノイズ化を教師なし方式で解決する。 従来の教師なし学習に基づくアプローチは通常、画像間翻訳モデルを用いて低照度画像強調問題に取り組む。 主に照明やコントラストの強化に重点を置いているが、現実の低照度条件下で撮影された画像に広く見られるノイズを抑えることができない。 この問題に対処するため、このタスクを照明の強化とノイズ抑制という2つのサブタスクに明示的に分離します。 我々は、実世界の低照度画像を教師なしで拡張する2段階のGANベースのフレームワークを学習することを提案する。 モデルの教師なし学習を容易にするため,擬似ラベルを用いたサンプルを構築した。 さらに,照明強度に基づいて異なる領域における実画像ノイズを抑制する適応的コンテンツ損失を提案する。 従来のベンチマークデータセットに加えて、新しいアンペアの低照度画像強調データセットを構築し、モデルの性能を徹底的に評価する。 広汎な実験により,提案手法は照度向上と雑音低減の両面から,最先端の教師なし画像強調法よりも優れていた。

In this paper, we tackle the problem of enhancing real-world low-light images with significant noise in an unsupervised fashion. Conventional unsupervised learning-based approaches usually tackle the low-light image enhancement problem using an image-to-image translation model. They focus primarily on illumination or contrast enhancement but fail to suppress the noise that ubiquitously exists in images taken under real-world low-light conditions. To address this issue, we explicitly decouple this task into two sub-tasks: illumination enhancement and noise suppression. We propose to learn a two-stage GAN-based framework to enhance the real-world low-light images in a fully unsupervised fashion. To facilitate the unsupervised training of our model, we construct samples with pseudo labels. Furthermore, we propose an adaptive content loss to suppress real image noise in different regions based on illumination intensity. In addition to conventional benchmark datasets, a new unpaired low-light image enhancement dataset is built and used to thoroughly evaluate the performance of our model. Extensive experiments show that our proposed method outperforms the state-of-the-art unsupervised image enhancement methods in terms of both illumination enhancement and noise reduction.
翻訳日:2022-12-06 06:07:46 公開日:2022-03-28
# P-ADMMiRNN: 効率的並列ADMMアプローチによる安定収束学習RNN

P-ADMMiRNN: Training RNN with Stable Convergence via An Efficient and Paralleled ADMM Approach ( http://arxiv.org/abs/2006.05622v3 )

ライセンス: Link先を確認
Yu Tang, Zhigang Kan, Dequan Sun, Jingjing Xiao, Zhiquan Lai, Linbo Qiao, Dongsheng Li(参考訳) リカレントニューラルネットワーク(RNN)を安定した収束で訓練することは困難であり、繰り返しユニットの重みが繰り返し繰り返されるため、勾配の消滅や爆発的な問題を避けることは困難である。 さらに、RNNはウェイトとバイアスの初期化に敏感であり、トレーニングに困難をもたらす。 Alternating Direction Method of Multipliers (ADMM) は、従来の確率勾配アルゴリズムを超えて、勾配のない特徴と不満足な条件に対する免疫をトレーニングするための有望なアルゴリズムとなっている。 しかし、ADMMはリカレントユニットの状態がタイムステップで繰り返し更新されるため、RNNのトレーニングに直接適用することはできない。 したがって、この研究はADMMiRNNという新しいフレームワークをRNNの展開形式に基づいて構築し、上記の課題を同時に解決する。 また,新しい更新ルールと理論的収束解析を提供する。 我々は,バニラADMMの代わりに各サブプロブレムに対して構築された近似手法と解を用いて,ADMMiRNNの繰り返しにおける重要な更新ルールを明示的に規定する。 mnist, imdb, テキスト分類タスクについて数値実験を行った。 ADMMiRNNは収束結果を達成し、比較したベースラインより優れる。 さらに、ADMMiRNNは確率勾配アルゴリズムよりも勾配の消失や爆発なしにRNNを安定的に訓練する。 また,ADMMiRNNの並列化アルゴリズムとして,Synchronous Parallel ADMMiRNN (SP-ADMMiRNN) とAsynchronous Parallel ADMMiRNN (AP-ADMMiRNN) がある。 ソースコードは公開されている。

It is hard to train Recurrent Neural Network (RNN) with stable convergence and avoid gradient vanishing and exploding problems, as the weights in the recurrent unit are repeated from iteration to iteration. Moreover, RNN is sensitive to the initialization of weights and bias, which brings difficulties in training. The Alternating Direction Method of Multipliers (ADMM) has become a promising algorithm to train neural networks beyond traditional stochastic gradient algorithms with the gradient-free features and immunity to unsatisfactory conditions. However, ADMM could not be applied to train RNN directly since the state in the recurrent unit is repetitively updated over timesteps. Therefore, this work builds a new framework named ADMMiRNN upon the unfolded form of RNN to address the above challenges simultaneously. We also provide novel update rules and theoretical convergence analysis. We explicitly specify essential update rules in the iterations of ADMMiRNN with constructed approximation techniques and solutions to each sub-problem instead of vanilla ADMM. Numerical experiments are conducted on MNIST, IMDb, and text classification tasks. ADMMiRNN achieves convergent results and outperforms the compared baselines. Furthermore, ADMMiRNN trains RNN more stably without gradient vanishing or exploding than stochastic gradient algorithms. We also provide a distributed paralleled algorithm regarding ADMMiRNN, named P-ADMMiRNN, including Synchronous Parallel ADMMiRNN (SP-ADMMiRNN) and Asynchronous Parallel ADMMiRNN (AP-ADMMiRNN), which is the first to train RNN with ADMM in an asynchronous parallel manner. The source code is publicly available.
翻訳日:2022-11-23 04:20:21 公開日:2022-03-28
# ディープグラフ埋め込みによるRNA二次構造の折りたたみ景観の解明

Uncovering the Folding Landscape of RNA Secondary Structure with Deep Graph Embeddings ( http://arxiv.org/abs/2006.06885v3 )

ライセンス: Link先を確認
Egbert Castro, Andrew Benz, Alexander Tong, Guy Wolf, Smita Krishnaswamy(参考訳) 生体分子グラフ解析は近年,幾何学的深層学習の新たな分野において注目されている。 ここでは、生体分子グラフを有意義な関係とそれらの間のバリエーションを明らかにする方法で整理することに焦点を当てる。 このようなグラフ埋め込みを学習するための幾何散乱オートエンコーダ(GSAE)ネットワークを提案する。 まず,最近提案する幾何散乱変換を用いて,リッチグラフを抽出した。 次に、半教師付き変分オートエンコーダを利用して、これらの特徴の情報を保持し、分子特性の予測とグラフのキャラクタリゼーションを可能にする低次元埋め込みを抽出する。 GSAEは、構造とエネルギーの両方でRNAグラフを整理し、ビスタブルRNA構造を正確に反映していることを示す。 また、モデルは生成的であり、新しい折りたたみ形をサンプリングできる。

Biomolecular graph analysis has recently gained much attention in the emerging field of geometric deep learning. Here we focus on organizing biomolecular graphs in ways that expose meaningful relations and variations between them. We propose a geometric scattering autoencoder (GSAE) network for learning such graph embeddings. Our embedding network first extracts rich graph features using the recently proposed geometric scattering transform. Then, it leverages a semi-supervised variational autoencoder to extract a low-dimensional embedding that retains the information in these features that enable prediction of molecular properties as well as characterize graphs. We show that GSAE organizes RNA graphs both by structure and energy, accurately reflecting bistable RNA structures. Also, the model is generative and can sample new folding trajectories.
翻訳日:2022-11-22 02:33:27 公開日:2022-03-28
# 多次元オンライン意思決定のための確率的低ランクテンソルバンド

Stochastic Low-rank Tensor Bandits for Multi-dimensional Online Decision Making ( http://arxiv.org/abs/2007.15788v2 )

ライセンス: Link先を確認
Jie Zhou, Botao Hao, Zheng Wen, Jingfei Zhang, Will Wei Sun(参考訳) 多次元オンライン意思決定は、オンラインレコメンデーションやデジタルマーケティングなど、多くの実アプリケーションにおいて重要な役割を果たす。 これらの問題において、各時点の決定は、異なる種類のエンティティからの選択の組み合わせである。 そこで我々は,低ランクテンソルとして平均報酬を表現できる帯域幅のクラスである確率的低ランクテンソルバンドビットを導入する。 コンテキストのないテンソルバンディットとコンテキストを持つテンソルバンディットの2つの設定を考える。 最初の設定では、プラットフォームは最も期待される報酬、すなわち真の報酬テンソルの最大のエントリーで最適な決定を見つけることを目的としている。 第二の設定では、テンソルのいくつかのモードは文脈であり、残りモードは決定であり、ゴールは文脈情報から最適な決定を見つけることである。 本研究では,コンテキストのないテンソルバンディットに対して,2つの学習アルゴリズムのテンソル除去とテンソルepoch-greedyを提案する。 既存の競争法と比較すると、テンソルの除去は全体的後悔の最良の境界を持ち、テンソルのエポックグリーディは報酬テンソルの次元へのよりシャープな依存を持つ。 さらに,コンテキスト付きテンソルバンディットに対するテンソルアンサンブルサンプリングと呼ばれる事実上有効ベイズアルゴリズムを開発した。 数値実験により解析結果が裏付けられ, テンソル低ランク構造を無視する様々な最先端手法よりもアルゴリズムが優れていることが示された。 文脈情報を持つオンライン広告アプリケーションでは,テンソルアンサンブルサンプリングにより,ベンチマーク手法と比較して累積後悔を75%低減する。

Multi-dimensional online decision making plays a crucial role in many real applications such as online recommendation and digital marketing. In these problems, a decision at each time is a combination of choices from different types of entities. To solve it, we introduce stochastic low-rank tensor bandits, a class of bandits whose mean rewards can be represented as a low-rank tensor. We consider two settings, tensor bandits without context and tensor bandits with context. In the first setting, the platform aims to find the optimal decision with the highest expected reward, a.k.a, the largest entry of true reward tensor. In the second setting, some modes of the tensor are contexts and the rest modes are decisions, and the goal is to find the optimal decision given the contextual information. We propose two learning algorithms tensor elimination and tensor epoch-greedy for tensor bandits without context, and derive finite-time regret bounds for them. Comparing with existing competitive methods, tensor elimination has the best overall regret bound and tensor epoch-greedy has a sharper dependency on dimensions of the reward tensor. Furthermore, we develop a practically effective Bayesian algorithm called tensor ensemble sampling for tensor bandits with context. Numerical experiments back up our theoretical findings and show that our algorithms outperform various state-of-the-art approaches that ignore the tensor low-rank structure. In an online advertising application with contextual information, our tensor ensemble sampling reduces the cumulative regret by 75% compared to the benchmark method.
翻訳日:2022-11-04 05:54:16 公開日:2022-03-28
# マルチアームバンディットにおける統計的にロバストなリスク回避型ベストアーム識別

Statistically Robust, Risk-Averse Best Arm Identification in Multi-Armed Bandits ( http://arxiv.org/abs/2008.13629v2 )

ライセンス: Link先を確認
Anmol Kagrecha, Jayakrishnan Nair, and Krishna Jagannathan(参考訳) 伝統的なマルチアーム・バンディット(MAB)の定式化は、通常、支持体の境界やその尾の振舞いなど、基礎となる腕の分布について特定の仮定を行う。 さらに、そのようなパラメトリック情報はアルゴリズムに'baked'される。 本稿では,パラメータが誤って特定された場合に,パラメータ情報を利用した特殊アルゴリズムが不整合学習性能を損なう傾向があることを示す。 私たちの重要な貢献は2つあります 一 固定予算純探索環境下で統計的に堅牢なMABアルゴリズムの基本性能限界を確立すること。 (ii)漸近的に最適に近いアルゴリズムを2種類提案する。 さらに,各腕に関連付けられた目的が,危険時の平均値と条件値の線形結合(CVaR)である,ベストアーム識別のためのリスク対応基準を検討する。 を仮定することで、統一されたフレームワーク内で、明るい尾の分布と重い尾の分布の両方を扱うことができます。

Traditional multi-armed bandit (MAB) formulations usually make certain assumptions about the underlying arms' distributions, such as bounds on the support or their tail behaviour. Moreover, such parametric information is usually 'baked' into the algorithms. In this paper, we show that specialized algorithms that exploit such parametric information are prone to inconsistent learning performance when the parameter is misspecified. Our key contributions are twofold: (i) We establish fundamental performance limits of statistically robust MAB algorithms under the fixed-budget pure exploration setting, and (ii) We propose two classes of algorithms that are asymptotically near-optimal. Additionally, we consider a risk-aware criterion for best arm identification, where the objective associated with each arm is a linear combination of the mean and the conditional value at risk (CVaR). Throughout, we make a very mild 'bounded moment' assumption, which lets us work with both light-tailed and heavy-tailed distributions within a unified framework.
翻訳日:2022-10-24 01:39:24 公開日:2022-03-28
# 幾何散乱ネットワークのデータ駆動学習

Data-Driven Learning of Geometric Scattering Networks ( http://arxiv.org/abs/2010.02415v3 )

ライセンス: Link先を確認
Alexander Tong, Frederik Wenkel, Kincaid MacDonald, Smita Krishnaswamy, Guy Wolf(参考訳) 本稿では、グラフウェーブレットフィルタのカスケードからなる、最近提案された幾何散乱変換の緩和に基づく新しいグラフニューラルネットワーク(gnn)モジュールを提案する。 学習可能な幾何散乱(legs)モジュールにより、ウェーブレットの適応チューニングが可能となり、学習表現にバンドパス特徴が出現する。 GNN に LEGS-加群を組み込むことで、多くの人気のある GNN と比較して、より長い範囲のグラフ関係の学習が可能になる。 さらに、ウェーブレットの優先順位は、競合であるgnnに比べて学習パラメータが大幅に少ないシンプルなアーキテクチャになる。 本稿では,グラフ分類ベンチマークによる脚型ネットワークの予測性能と,生化学グラフデータ探索タスクにおける学習特徴の記述的品質を示す。

We propose a new graph neural network (GNN) module, based on relaxations of recently proposed geometric scattering transforms, which consist of a cascade of graph wavelet filters. Our learnable geometric scattering (LEGS) module enables adaptive tuning of the wavelets to encourage band-pass features to emerge in learned representations. The incorporation of our LEGS-module in GNNs enables the learning of longer-range graph relations compared to many popular GNNs, which often rely on encoding graph structure via smoothness or similarity between neighbors. Further, its wavelet priors result in simplified architectures with significantly fewer learned parameters compared to competing GNNs. We demonstrate the predictive performance of LEGS-based networks on graph classification benchmarks, as well as the descriptive quality of their learned features in biochemical graph data exploration tasks.
翻訳日:2022-10-10 05:44:57 公開日:2022-03-28
# 中国語理解のための多レベル単語アダプタによる単語情報の注入

Injecting Word Information with Multi-Level Word Adapter for Chinese Spoken Language Understanding ( http://arxiv.org/abs/2010.03903v3 )

ライセンス: Link先を確認
Dechuan Teng, Libo Qin, Wanxiang Che, Sendong Zhao, Ting Liu(参考訳) 本稿では,単語情報を注入することで中国語音声理解(slu)を改善する。 従来の中国SLUの研究では、単語情報は考慮されておらず、意図の検出やスロットフィリングに有用な単語境界の検出に失敗した。 この問題に対処するために,(1)単語情報と文字情報の文表現を直接融合して意図検出を行う文レベル単語アダプタと、(2)単語情報と文字情報との重み付けを選択的に制御するために各文字に適用される文字レベル単語アダプタとからなる中国語sluに単語情報を注入する多レベル単語アダプタを提案する。 2つの中国のSLUデータセットによる実験結果から,我々のモデルは有用な単語情報を捕捉し,最先端の性能を実現することができることがわかった。

In this paper, we improve Chinese spoken language understanding (SLU) by injecting word information. Previous studies on Chinese SLU do not consider the word information, failing to detect word boundaries that are beneficial for intent detection and slot filling. To address this issue, we propose a multi-level word adapter to inject word information for Chinese SLU, which consists of (1) sentence-level word adapter, which directly fuses the sentence representations of the word information and character information to perform intent detection and (2) character-level word adapter, which is applied at each character for selectively controlling weights on word information as well as character information. Experimental results on two Chinese SLU datasets show that our model can capture useful word information and achieve state-of-the-art performance.
翻訳日:2022-10-09 12:17:21 公開日:2022-03-28
# AutoMLに基づく作物と雑草の分類

Crop and weed classification based on AutoML ( http://arxiv.org/abs/2010.14708v2 )

ライセンス: Link先を確認
Xuetao Jiang, Binbin Yong, Soheila Garshasbi, Jun Shen, Meiyu Jiang and Qingguo Zhou(参考訳) CNNモデルは、文献に報告されている95%以上の精度で作物と雑草の分類において、すでに重要な役割を担っている。 しかし、手動でディープラーニングモデルを選択・微調整するには、多くの伝統的なプラクティスや研究で苦労し、不可欠になります。 さらに、従来の目的関数は農耕作業と完全に互換性がないため、対応するモデルが雑草の種別を間違えることに苦しむ。 本稿では,作物と雑草の分類に新たな目的関数を付加した自律型機械学習を適用し,より精度が高く,農作物を雑草として識別する速度)の低下を図った。 実験の結果,提案手法はResNetやVGG19といった最先端アプリケーションよりも優れていることがわかった。

CNN models already play an important role in classification of crop and weed with high accuracy, more than 95% as reported in literature. However, to manually choose and fine-tune the deep learning models becomes laborious and indispensable in most traditional practices and research. Moreover, the classic objective functions are not thoroughly compatible with agricultural farming tasks as the corresponding models suffer from misclassifying crop to weed, often more likely than in other deep learning application domains. In this paper, we applied autonomous machine learning with a new objective function for crop and weed classification, achieving higher accuracy and lower crop killing rate (rate of identifying a crop as a weed). The experimental results show that our method outperforms state-of-the-art applications, for example, ResNet and VGG19.
翻訳日:2022-10-02 04:35:07 公開日:2022-03-28
# 高次元強化学習問題に対するハミルトニアンモンテカルロサンプリングの適用について

On Using Hamiltonian Monte Carlo Sampling for Reinforcement Learning Problems in High-dimension ( http://arxiv.org/abs/2011.05927v3 )

ライセンス: Link先を確認
Udari Madhushani, Biswadip Dey, Naomi Ehrich Leonard, Amit Chakraborty(参考訳) 値関数に基づく強化学習(RL)アルゴリズム、例えば$Q$-learningでは、アクション、報酬、状態遷移のデータセットから最適なポリシを学ぶ。 しかし、基礎となる状態遷移ダイナミクスが確率的かつ高次元空間上で進化する場合、これらのデータセットを作成するための独立かつ同一分散(iid)データサンプルを生成することは、関連する正規化積分の難解性のために大きな課題となる。 これらのシナリオにおいて、ハミルトンモンテカルロサンプリング(HMC)は、RLアルゴリズムを訓練するためのデータを生成する計算可能な方法を提供する。 本稿では,HMCのアクション,報酬,状態遷移のサンプルによって生成されたデータセットから$Q$値が学習できることを理論的にも実証的にも示す,‘textit{Hamiltonian $Q$-Learning}’というフレームワークを紹介する。 さらに、$Q$関数の下位の低ランク構造を利用するために、Hamiltonian $Q$-Learningは、更新された$Q$関数を、より小さな状態-作用ペアのサブセット上での$Q$値更新から再構築するための行列補完アルゴリズムを使用する。 したがって、確率的かつ高次元の設定でq$-learningを適用する効率的な方法を提供することにより、提案手法は実世界のアプリケーションに対するrlアルゴリズムの範囲を広げる。

Value function based reinforcement learning (RL) algorithms, for example, $Q$-learning, learn optimal policies from datasets of actions, rewards, and state transitions. However, when the underlying state transition dynamics are stochastic and evolve on a high-dimensional space, generating independent and identically distributed (IID) data samples for creating these datasets poses a significant challenge due to the intractability of the associated normalizing integral. In these scenarios, Hamiltonian Monte Carlo (HMC) sampling offers a computationally tractable way to generate data for training RL algorithms. In this paper, we introduce a framework, called \textit{Hamiltonian $Q$-Learning}, that demonstrates, both theoretically and empirically, that $Q$ values can be learned from a dataset generated by HMC samples of actions, rewards, and state transitions. Furthermore, to exploit the underlying low-rank structure of the $Q$ function, Hamiltonian $Q$-Learning uses a matrix completion algorithm for reconstructing the updated $Q$ function from $Q$ value updates over a much smaller subset of state-action pairs. Thus, by providing an efficient way to apply $Q$-learning in stochastic, high-dimensional settings, the proposed approach broadens the scope of RL algorithms for real-world applications.
翻訳日:2022-09-27 01:14:04 公開日:2022-03-28
# (参考訳) 圧力スイング吸着系への応用によるサロゲート支援進化多目的最適化

Surrogate Assisted Evolutionary Multi-objective Optimisation applied to a Pressure Swing Adsorption system ( http://arxiv.org/abs/2204.12585v1 )

ライセンス: CC BY 4.0
Liezl Stander and Matthew Woolway and Terence L. Van Zyl(参考訳) 化学プラントの設計と最適化は、これらの現実世界のシステムの複雑さのために難しいことが証明されている。 結果として生じる複雑性は、これらのシステムの数学的定式化とシミュレーションモデルに対する高い計算コストをもたらす。 最適化中の計算コストの高いモデルの代用として機械学習サロゲートモデルを使用することの利点が研究によって示されている。 本稿では, 化学プラント設計と運転の最適化に関する最近の研究を拡張した。 この研究は、原プラント設計のより複雑なバリエーションと、並列およびフィードバックコンポーネントを含むような最適化問題において、サロゲート支援遺伝的アルゴリズム(SA-GA)をさらに探求する。 本研究で提案されているアルゴリズムの新たな拡張であるsurrogate assisted nsga-\romannum{2} (sa-nsga) を,一般的な文献例である圧力スイング吸着 (psa) システムを用いて検証した。 さらに,様々なメタヒューリスティック最適化手法と多数の機械学習モデルを代理として比較し,広範な実験を行う。 いずれのシステムにおいても,複雑な化学プラントシステム設計のための最適化フレームワークとしての遺伝的アルゴリズムの利用と,単一および多目的シナリオの最適化のメリットが示されている。 我々は,ランダムフォレストサロゲート型進化アルゴリズムを並列およびフィードバック成分を持つ複雑な化学系にスケールできることを確認した。 さらに,長期的シミュレーションモデルの代替として遺伝的アルゴリズムフレームワークと機械学習サロゲートモデルを組み合わせることで,計算効率が大幅に向上し,複雑化例の1.7~1.84倍,加圧スウィング吸着系の2.7倍の高速化が得られた。

Chemical plant design and optimisation have proven challenging due to the complexity of these real-world systems. The resulting complexity translates into high computational costs for these systems' mathematical formulations and simulation models. Research has illustrated the benefits of using machine learning surrogate models as substitutes for computationally expensive models during optimisation. This paper extends recent research into optimising chemical plant design and operation. The study further explores Surrogate Assisted Genetic Algorithms (SA-GA) in more complex variants of the original plant design and optimisation problems, such as the inclusion of parallel and feedback components. The novel extension to the original algorithm proposed in this study, Surrogate Assisted NSGA-\Romannum{2} (SA-NSGA), was tested on a popular literature case, the Pressure Swing Adsorption (PSA) system. We further provide extensive experimentation, comparing various meta-heuristic optimisation techniques and numerous machine learning models as surrogates. The results for both sets of systems illustrate the benefits of using Genetic Algorithms as an optimisation framework for complex chemical plant system design and optimisation for both single and multi-objective scenarios. We confirm that Random Forest surrogate assisted Evolutionary Algorithms can be scaled to increasingly complex chemical systems with parallel and feedback components. We further find that combining a Genetic Algorithm framework with Machine Learning Surrogate models as a substitute for long-running simulation models yields significant computational efficiency improvements, 1.7 - 1.84 times speedup for the increased complexity examples and a 2.7 times speedup for the Pressure Swing Adsorption system.
翻訳日:2022-05-01 10:01:21 公開日:2022-03-28
# (参考訳) 生成設計の考え方:自然言語生成アプローチ

Generative Design Ideation: A Natural Language Generation Approach ( http://arxiv.org/abs/2204.09658v1 )

ライセンス: CC BY 4.0
Qihao Zhu and Jianxi Luo(参考訳) 本稿では,人工知能(AI)における最新の事前学習言語モデルの適用により,知識に基づく設計概念の生成的アプローチを検討することを目的とする。 具体的には,USPTO特許データベースを用いて生成前訓練トランスを微調整する方法を提案する。 AI生成されたアイデアは、簡潔で理解可能な言語だけではなく、制御可能な知識距離を持つ外部知識ソースでターゲット設計を合成することができる。 本手法は, 転がり玩具設計のケーススタディにおいて試験され, 実験結果から, 近距離場および遠距離フィールドの知識を持つ様々な新規性の概念を創出する上で, 優れた性能を示した。

This paper aims to explore a generative approach for knowledge-based design ideation by applying the latest pre-trained language models in artificial intelligence (AI). Specifically, a method of fine-tuning the generative pre-trained transformer using the USPTO patent database is proposed. The AI-generated ideas are not only in concise and understandable language but also able to synthesize the target design with external knowledge sources with controllable knowledge distance. The method is tested in a case study of rolling toy design and the results show good performance in generating ideas of varied novelty with near-field and far-field source knowledge.
翻訳日:2022-04-24 23:54:34 公開日:2022-03-28
# (参考訳) MITボイスネームシステム

The MIT Voice Name System ( http://arxiv.org/abs/2204.09657v1 )

ライセンス: CC BY 4.0
Brian Subirana and Harry Levinson and Ferran Hueto and Prithvi Rajasekaran and Alexander Gaidis and Esteve Tarrag\'o and Peter Oliveira-Soens(参考訳) このRFCホワイトペーパーは、MIT Voice Name System(VNS)とHueyの進歩をまとめたものです。 VNSはDNSと似た名前と機能を持ち、人工知能(AI)デバイスを起動するために「覚醒語」を予約して使用するシステムである。 appleのパーソナルアシスタントをアクティベートするために"hey siri"と言うように、スマートスピーカーや他のデバイスでvnsを使って"on off"や"open grocery shopping list"、"271, start flash card review of my computer vision class"といったコマンドに基づいてウェイクリクエストをルーティングすることを提案します。 AIデバイスと対話するための曖昧な自然言語であるHueyも紹介します。 我々は、電話番号などの他のシステムと同様のユニバーサルリーチに音声対話を標準化することを目的としており、ワールドワイドウェブ、FTP、Eメールなどのポピュラーなサービスの普及に寄与した、番号の割り当てと使用に関する合意された世界的アプローチ、または標準命名システムによるインターネットのDNSを定めている。 これらの標準が「中立的」であるように、我々はVNSに「覚醒の中立性」を授け、各参加者が独自のデジタル音声を発達させることも目指している。 音声は、IoTオブジェクトと対話するための出発点であり、VNSが、コンピュータビジョンやニューラルインターフェースを含む、人から機械までの会話を可能にする他のAI技術にどのように拡張されるかを簡単に説明する。 MIT Open AI(MOA)は、標準的な"Wake Words"や"Shopping Lists"や"Flash Card Reviews"といったNLPコマンド、Piや271といったパーソナリティを備えた一般的な会話型コマースインフラストラクチャの開発の出発点となるリファレンスアーキテクチャを含む。 プライバシーとセキュリティは、音声からテキストへの誤りと音声サンプルに含まれる個人情報の量によって考慮される重要な要素である。

This RFC white Paper summarizes our progress on the MIT Voice Name System (VNS) and Huey. The VNS, similar in name and function to the DNS, is a system to reserve and use "wake words" to activate Artificial Intelligence (AI) devices. Just like you can say "Hey Siri" to activate Apple's personal assistant, we propose using the VNS in smart speakers and other devices to route wake requests based on commands such as "turn off", "open grocery shopping list" or "271, start flash card review of my computer vision class". We also introduce Huey, an unambiguous Natural Language to interact with AI devices. We aim to standardize voice interactions to a universal reach similar to that of other systems such as phone numbering, with an agreed world-wide approach to assign and use numbers, or the Internet's DNS, with a standard naming system, that has helped flourish popular services including the World-Wide-Web, FTP, and email. Just like these standards are "neutral", we also aim to endow the VNS with "wake neutrality" so that each participant can develop its own digital voice. We focus on voice as a starting point to talk to any IoT object and explain briefly how the VNS may be expanded to other AI technologies enabling person-to-machine conversations (really machine-to-machine), including computer vision or neural interfaces. We also describe briefly considerations for a broader set of standards, MIT Open AI (MOA), including a reference architecture to serve as a starting point for the development of a general conversational commerce infrastructure that has standard "Wake Words", NLP commands such as "Shopping Lists" or "Flash Card Reviews", and personalities such as Pi or 271. Privacy and security are key elements considered because of speech-to-text errors and the amount of personal information contained in a voice sample.
翻訳日:2022-04-24 23:47:25 公開日:2022-03-28
# データサイエンスの語彙の進化と利用。 13年でどのくらい変わりましたか。

Evolution and use of data science vocabulary. How much have we changed in 13 years? ( http://arxiv.org/abs/2204.10174v1 )

ライセンス: Link先を確認
Igor Barahona(参考訳) ここでは,過去13年間のデータサイエンスにおける語彙の進化と利用について検討する。 厳密な統計分析に基づいて、「データサイエンス」のタイトル、抽象語、キーワードを含む12,787の文書からなるデータベースを解析する。 この分野の進化を、出現、成長、ブームの3つの期間に分類することが提案されている。 各期間ごとに特徴ある単語や先駆的な文書が識別される。 データサイエンスの特有な語彙と関連するトピックを提案し、時代によって分類することで、これらの結果はこの分野の科学コミュニティに価値を与えます。

Here I present an investigation on the evolution and use of vocabulary in data science in the last 13 years. Based on a rigorous statistical analysis, a database with 12,787 documents containing the words "data science" in the title, abstract or keywords is analyzed. It is proposed to classify the evolution of this discipline in three periods: emergence, growth and boom. Characteristic words and pioneering documents are identified for each period. By proposing the distinctive vocabulary and relevant topics of data science and classified in time periods, these results add value to the scientific community of this discipline.
翻訳日:2022-04-24 16:43:42 公開日:2022-03-28
# (参考訳) 金融規制書類における階層的改革モデルを用いた材料情報の発見

Discovering material information using hierarchical Reformer model on financial regulatory filings ( http://arxiv.org/abs/2204.05979v1 )

ライセンス: CC BY 4.0
Francois Mercier, Makesh Narsimhan(参考訳) 金融に対する機械学習のほとんどの応用は、投資決定のための予測タスクに関連している。 その代わり、機械学習技術で金融市場の理解を深めることを目指している。 自然言語処理のためのディープラーニングモデルの大幅な進歩を生かして、大容量文書レベルのデータセットであるSEDARを処理する階層的改革者([15])モデルを、カナダの金融規制書類から構築する。 このモデルを用いて,規制書類を用いて取引量の変化を予測できることを示す。 我々は,hibert ([36]) の事前学習タスクを適応させ,大きなラベルなし文書データセットを用いた文章レベルの表現を得る。 取引量の変化をうまく予測するためにモデルを微調整することは、このモデルが金融市場からの見解を捉え、規制書類の処理が有益であることを示している。 本モデルで注目パターンを解析した結果,投資家や金融規制当局の市場監視業務に極めて関係のある,明示的なトレーニングをせずに資料情報の表示を検出できることが判明した。

Most applications of machine learning for finance are related to forecasting tasks for investment decisions. Instead, we aim to promote a better understanding of financial markets with machine learning techniques. Leveraging the tremendous progress in deep learning models for natural language processing, we construct a hierarchical Reformer ([15]) model capable of processing a large document level dataset, SEDAR, from canadian financial regulatory filings. Using this model, we show that it is possible to predict trade volume changes using regulatory filings. We adapt the pretraining task of HiBERT ([36]) to obtain good sentence level representations using a large unlabelled document dataset. Finetuning the model to successfully predict trade volume changes indicates that the model captures a view from financial markets and processing regulatory filings is beneficial. Analyzing the attention patterns of our model reveals that it is able to detect some indications of material information without explicit training, which is highly relevant for investors and also for the market surveillance mandate of financial regulators.
翻訳日:2022-04-17 09:07:28 公開日:2022-03-28
# 最適化と機械学習を用いたバイアニソトロピックな地表面の逆設計と実験的検証

Inverse Design and Experimental Verification of a Bianisotropic Metasurface Using Optimization and Machine Learning ( http://arxiv.org/abs/2204.00433v1 )

ライセンス: Link先を確認
Stewart Pearson, Parinaz Naseri, and Sean V. Hum(参考訳) 電磁メタサイトは、最近、その低プロファイルと有利な応用により、大きな関心を集めている。 実際には、多くのメタサーフェスの設計は放射された遠方界(例えば主ビーム方向(s)や側ローブレベル)に対する一連の制約から始まり、表面に対する不均一な物理的構造で終わる。 この問題は極めて困難である、なぜなら必要な接場変換は散乱場にのみ制約を課すときに完全には分かっていないからである。 したがって、必要な表面特性を解析的に解くことはできない。 さらに、所望の表面特性の物理単位セルへの変換は、しばしば大きな解空間における一対多のマッピングであるため、時間がかかり、困難である。 ここでは,逆設計過程をマクロ・微視的設計ステップという2つのステップに分割する。 前者では,特定の制約を満たす遠方界パターンを放射する表面特性を求めるために反復最適化法を用いる。 この反復プロセスは非放射電流を利用して受動的で損失のない設計を確実にする。 微視的なステップでは、これらの最適化された表面特性は、機械学習サロゲートモデルを用いて物理単位セルで実現される。 このエンド・ツー・エンド合成プロセスの有効性をビームスプリッティングプロトタイプの測定結果から実証した。

Electromagnetic metasurfaces have attracted significant interest recently due to their low profile and advantageous applications. Practically, many metasurface designs start with a set of constraints for the radiated far-field, such as main-beam direction(s) and side lobe levels, and end with a non-uniform physical structure for the surface. This problem is quite challenging, since the required tangential field transformations are not completely known when only constraints are placed on the scattered fields. Hence, the required surface properties cannot be solved for analytically. Moreover, the translation of the desired surface properties to the physical unit cells can be time-consuming and difficult, as it is often a one-to-many mapping in a large solution space. Here, we divide the inverse design process into two steps: a macroscopic and microscopic design step. In the former, we use an iterative optimization process to find the surface properties that radiate a far-field pattern that complies with specified constraints. This iterative process exploits non-radiating currents to ensure a passive and lossless design. In the microscopic step, these optimized surface properties are realized with physical unit cells using machine learning surrogate models. The effectiveness of this end-to-end synthesis process is demonstrated through measurement results of a beam-splitting prototype.
翻訳日:2022-04-10 11:13:19 公開日:2022-03-28
# 可変トレーサビリティのための高速かつ効率的な条件学習-精度とロバストさの相違

A Fast and Efficient Conditional Learning for Tunable Trade-Off between Accuracy and Robustness ( http://arxiv.org/abs/2204.00426v1 )

ライセンス: Link先を確認
Souvik Kundu, Sairam Sundaresan, Massoud Pedram, Peter A. Beerel(参考訳) クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。 これらの層は多くの新しいパラメータを必要とし、ハイパーパラメータに敏感である。 これにより、トレーニング時間、メモリコスト、潜在的なレイテンシが大幅に増加し、リソース制限やリアルタイムアプリケーションにコストがかかります。 本稿では,既存のフィルムベースのコンディショニングに代えて,パラメータ数,トレーニング時間,ネットワーク遅延が通常のコンディショニングに比較して著しく増加することのない,独自の重み付け条件付き学習を提案する。 特に、重みテンソルに構成可能なスケールノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。 大規模な実験により、FLOATは、鮮明な画像分類と摂動画像分類の両方を最大6%、そして約10%改善できる。 さらに、実際のハードウェア測定では、FLOATはトレーニング時間を最大1.43倍まで短縮でき、FiLMベースの代替モデルと比較して、等高パラメータ設定で最大1.47倍のモデルパラメータを削減できる。 さらに,メモリ効率をさらに向上させるために,非イテレーティブモデルプルーニングの形式であるfloat sparse (floats)を導入し,これら新しいタイプのプルーニング条件付きモデルに対して,3方向精度・ロバスト性・複雑度トレードオフを提供するための詳細な経験的分析を提供する。

Existing models that achieve state-of-the-art (SOTA) performance on both clean and adversarially-perturbed images rely on convolution operations conditioned with feature-wise linear modulation (FiLM) layers. These layers require many new parameters and are hyperparameter sensitive. They significantly increase training time, memory cost, and potential latency which can prove costly for resource-limited or real-time applications. In this paper, we present a fast learnable once-for-all adversarial training (FLOAT) algorithm, which instead of the existing FiLM-based conditioning, presents a unique weight conditioned learning that requires no additional layer, thereby incurring no significant increase in parameter count, training time, or network latency compared to standard adversarial training. In particular, we add configurable scaled noise to the weight tensors that enables a trade-off between clean and adversarial performance. Extensive experiments show that FLOAT can yield SOTA performance improving both clean and perturbed image classification by up to ~6% and ~10%, respectively. Moreover, real hardware measurement shows that FLOAT can reduce the training time by up to 1.43x with fewer model parameters of up to 1.47x on iso-hyperparameter settings compared to the FiLM-based alternatives. Additionally, to further improve memory efficiency we introduce FLOAT sparse (FLOATS), a form of non-iterative model pruning and provide detailed empirical analysis to provide a three way accuracy-robustness-complexity trade-off for these new class of pruned conditionally trained models.
翻訳日:2022-04-10 10:35:41 公開日:2022-03-28
# (参考訳) v2x情報に基づく深部強化学習支援小隊制御

Deep Reinforcement Learning Aided Platoon Control Relying on V2X Information ( http://arxiv.org/abs/2203.15781v1 )

ライセンス: CC BY 4.0
Lei Lei, Tong Liu, Kan Zheng and Lajos Hanzo(参考訳) 車両間通信(V2X)が小隊制御性能に及ぼす影響について検討した。 プラトン制御は基本的にシーケンシャル確率決定問題(SSDP)であり、これは深層強化学習(DRL)によって解決され、小隊を先導する車両の動作における制御制約と不確実性の両方に対処できる。 この文脈では、DRLベースの小隊制御装置におけるV2X通信の値は、不確実性を低減するシステム状態に外因性情報を含む利点と、寸法の呪いによる性能侵食とのトレードオフに重点を置いて検討される。 我々の目標は、最も適切な状態空間を構築するために、車両間で共有されるべき特定の情報セットを見つけることである。 SSDPモデルは、「正しい」情報を考慮し、異なる情報トポロジ(IFT)の下で小隊制御のために考案される。 さらに、最適ポリシーのパフォーマンスを比較するために定理が確立される。 DRLに基づく制御ポリシを改善するために、情報の一部が送信されるべきか否かを決定するために、遷移モデルの条件付きKL分散を導出して、その値を定量化する。 状態空間に含むことは、より高い状態次元を持つ負の効果をオフセットする確率が高いため、より優れた情報が伝達に優先される。 最後に、理論解析を説明するためにシミュレーション結果を提供する。

The impact of Vehicle-to-Everything (V2X) communications on platoon control performance is investigated. Platoon control is essentially a sequential stochastic decision problem (SSDP), which can be solved by Deep Reinforcement Learning (DRL) to deal with both the control constraints and uncertainty in the platoon leading vehicle's behavior. In this context, the value of V2X communications for DRL-based platoon controllers is studied with an emphasis on the tradeoff between the gain of including exogenous information in the system state for reducing uncertainty and the performance erosion due to the curse-of-dimensionality. Our objective is to find the specific set of information that should be shared among the vehicles for the construction of the most appropriate state space. SSDP models are conceived for platoon control under different information topologies (IFT) by taking into account `just sufficient' information. Furthermore, theorems are established for comparing the performance of their optimal policies. In order to determine whether a piece of information should or should not be transmitted for improving the DRL-based control policy, we quantify its value by deriving the conditional KL divergence of the transition models. More meritorious information is given higher priority in transmission, since including it in the state space has a higher probability in offsetting the negative effect of having higher state dimensions. Finally, simulation results are provided to illustrate the theoretical analysis.
翻訳日:2022-04-02 16:48:05 公開日:2022-03-28
# (参考訳) 衝突の学習:学習ハッシュ関数を用いた推薦システムモデル圧縮

Learning to Collide: Recommendation System Model Compression with Learned Hash Functions ( http://arxiv.org/abs/2203.15837v1 )

ライセンス: CC BY 4.0
Benjamin Ghaemmaghami, Mustafa Ozdal, Rakesh Komuravelli, Dmitriy Korchev, Dheevatsa Mudigere, Krishnakumar Nair, Maxim Naumov(参考訳) 深いレコメンデーションモデルの重要な特徴は、埋め込みテーブルの膨大なメモリ要求である。 これらの埋め込みテーブルは、しばしば数百ギガバイトに達するため、ハードウェア要件とトレーニングコストが増加する。 モデルサイズを減らす一般的なテクニックは、すべてのカテゴリ変数識別子(ids)を小さな空間にハッシュすることです。 このハッシュにより、埋め込みテーブルに格納しなければならないユニークな表現の数が減少し、サイズが減少する。 しかし、このアプローチは、モデル品質を低下させる意味的に異なるid間の衝突をもたらす。 我々は代わりに、意味的に類似したID間の衝突を促進する新しいマッピング関数であるLearned Hash Functionsを導入する。 この学習したマッピングを履歴データから導き、アクセスパターンを埋め込む。 我々は,本手法を生産モデル上で実験し,アクセス頻度と学習した低次元埋め込みの組合せによるマッピングが最も効果的であることを示す。 我々は,ハッシングトリックや他の衝突関連圧縮技術と比較して,小さな改善を示す。 これは、カテゴリID衝突が推奨モデルの品質に与える影響と、モデル性能を改善するためにそれらの衝突を制御する方法について検討している。

A key characteristic of deep recommendation models is the immense memory requirements of their embedding tables. These embedding tables can often reach hundreds of gigabytes which increases hardware requirements and training cost. A common technique to reduce model size is to hash all of the categorical variable identifiers (ids) into a smaller space. This hashing reduces the number of unique representations that must be stored in the embedding table; thus decreasing its size. However, this approach introduces collisions between semantically dissimilar ids that degrade model quality. We introduce an alternative approach, Learned Hash Functions, which instead learns a new mapping function that encourages collisions between semantically similar ids. We derive this learned mapping from historical data and embedding access patterns. We experiment with this technique on a production model and find that a mapping informed by the combination of access frequency and a learned low dimension embedding is the most effective. We demonstrate a small improvement relative to the hashing trick and other collision related compression techniques. This is ongoing work that explores the impact of categorical id collisions on recommendation model quality and how those collisions may be controlled to improve model performance.
翻訳日:2022-04-02 16:14:11 公開日:2022-03-28
# (参考訳) 言語認識のための部分空間に基づく表現と学習

Subspace-based Representation and Learning for Phonotactic Spoken Language Recognition ( http://arxiv.org/abs/2203.15576v1 )

ライセンス: CC BY 4.0
Hung-Shin Lee, Yu Tsao, Shyh-Kang Jeng, Hsin-Min Wang(参考訳) 音声発話を多項分布または電話イベントとして表現することにより、言語を識別するためにフォノタティック制約を用いることができる。 本研究では,言語検証と方言/アクセント識別のために,発話から隠された音節構造を抽出するサブスペース表現に基づく新しい学習機構を提案する。 主に2つの連続する部分を含む。 第1部は部分空間構成である。 具体的には、各発話を音韻ポストリエータで満たされたベクトル列にデコードし、ベクトル列を低ランク行列分解や動的線形モデリングに基づいて線形直交部分空間に変換する。 第2部では、サポートベクターマシンや新たに開発されたサブスペースベースニューラルネットワーク(SNN)など、カーネルマシンに基づくサブスペース学習を取り上げている。 snnの入力層は、サブスペースで表されるサンプルのために特別に設計されている。 トポロジーは、同じ出力が同じ部分空間から導出されることを保証し、従来のフィードフォワードパスを変更して、部分空間の類似性の数学的定義に適合させる。 NIST LRE 2007の"General LR"テストに基づいて,提案手法は,PPR-LM法,PPR-VSM法,PPR-IVEC法および格子ベースのPPR-LM法に対して,それぞれ52%,46%,56%,27%の相対誤差率の低下を達成した。 さらに、NIST LRE 2009の方言/アクセント識別タスクでは、SNNベースのシステムは上記の4つのベースライン法よりも優れていた。

Phonotactic constraints can be employed to distinguish languages by representing a speech utterance as a multinomial distribution or phone events. In the present study, we propose a new learning mechanism based on subspace-based representation, which can extract concealed phonotactic structures from utterances, for language verification and dialect/accent identification. The framework mainly involves two successive parts. The first part involves subspace construction. Specifically, it decodes each utterance into a sequence of vectors filled with phone-posteriors and transforms the vector sequence into a linear orthogonal subspace based on low-rank matrix factorization or dynamic linear modeling. The second part involves subspace learning based on kernel machines, such as support vector machines and the newly developed subspace-based neural networks (SNNs). The input layer of SNNs is specifically designed for the sample represented by subspaces. The topology ensures that the same output can be derived from identical subspaces by modifying the conventional feed-forward pass to fit the mathematical definition of subspace similarity. Evaluated on the "General LR" test of NIST LRE 2007, the proposed method achieved up to 52%, 46%, 56%, and 27% relative reductions in equal error rates over the sequence-based PPR-LM, PPR-VSM, and PPR-IVEC methods and the lattice-based PPR-LM method, respectively. Furthermore, on the dialect/accent identification task of NIST LRE 2009, the SNN-based system performed better than the aforementioned four baseline methods.
翻訳日:2022-04-02 16:01:09 公開日:2022-03-28
# (参考訳) テンソルネットワークのスタック操作

Stack operation of tensor networks ( http://arxiv.org/abs/2203.16338v1 )

ライセンス: CC BY 4.0
Tianning Zhang, L. K. Ang, Tianqi Chen, Bo Yang, Erping Li(参考訳) テンソルネットワークは、テンソルの事実化として、加算、縮小、積み重ねなどの通常のテンソルに共通な演算を実行することを目的としている。 しかし、その非単調なネットワーク構造のため、テンソルネットワークの収縮のみが十分に定義されている。 本稿では,その構造や構成を変更することなく,大量のテンソルネットワークを単一のネットワークに圧縮する,テンソルネットワークスタックアプローチの数学的に厳密な定義を提案する。 本稿では、行列製品状態に基づく機械学習を例として、主なアイデアを例に挙げる。 本結果は,CPUおよびGPU上でのforループと効率的な符号化手法と比較した。

The tensor network, as a facterization of tensors, aims at performing the operations that are common for normal tensors, such as addition, contraction and stacking. However, due to its non-unique network structure, only the tensor network contraction is so far well defined. In this paper, we propose a mathematically rigorous definition for the tensor network stack approach, that compress a large amount of tensor networks into a single one without changing their structures and configurations. We illustrate the main ideas with the matrix product states based machine learning as an example. Our results are compared with the for loop and the efficient coding method on both CPU and GPU.
翻訳日:2022-04-01 11:26:43 公開日:2022-03-28
# (参考訳) PPGを用いた心拍モニタリングのロバスト化と省エネルギー化

Robust and Energy-efficient PPG-based Heart-Rate Monitoring ( http://arxiv.org/abs/2203.16339v1 )

ライセンス: CC BY-SA 4.0
Matteo Risso, Alessio Burrello, Daniele Jahier Pagliari, Simone Benatti, Enrico Macii, Luca Benini, Massimo Poncino(参考訳) 軽量アルゴリズムと組み合わされた手首型ppgセンサはmcu上で動作し、非侵襲的かつ快適な監視を可能にするが、運動アーチファクトの存在下でのロバストなppgベースの心拍モニタリングは依然として課題である。 最近の最先端アルゴリズムはppgと慣性信号を組み合わせて運動アーチファクトの効果を緩和している。 しかし、これらのアプローチは限定的な一般性に苦しむ。 さらに、MCUベースのエッジノードへのデプロイメントも検討されていない。 本研究では,ハードウェアフレンドリーな時相畳み込みネットワーク(TCN)をPPGベースの心推定に活用することを提案する。 単一の"シード"TCNから始まり、NAS(Neural Architecture Search)アプローチを利用して、リッチなモデルのファミリーを導出します。 そのうち、過去最大のPPGデータセット(PPGDalia)で最先端のTCNを取得し、わずか3.84 Beats Per Minute(BPM)の平均絶対誤差(MAE)を達成する。 さらに、我々は、商業MCU(STM32L4)にデプロイでき、5kパラメータしか必要とせず、推論あたり0.21mJしか消費しない17.1msのレイテンシに到達できる、より小さな(5.64 - 6.29BPMのMAE)ネットワークもテストしました。

A wrist-worn PPG sensor coupled with a lightweight algorithm can run on a MCU to enable non-invasive and comfortable monitoring, but ensuring robust PPG-based heart-rate monitoring in the presence of motion artifacts is still an open challenge. Recent state-of-the-art algorithms combine PPG and inertial signals to mitigate the effect of motion artifacts. However, these approaches suffer from limited generality. Moreover, their deployment on MCU-based edge nodes has not been investigated. In this work, we tackle both the aforementioned problems by proposing the use of hardware-friendly Temporal Convolutional Networks (TCN) for PPG-based heart estimation. Starting from a single "seed" TCN, we leverage an automatic Neural Architecture Search (NAS) approach to derive a rich family of models. Among them, we obtain a TCN that outperforms the previous state-of-the-art on the largest PPG dataset available (PPGDalia), achieving a Mean Absolute Error (MAE) of just 3.84 Beats Per Minute (BPM). Furthermore, we tested also a set of smaller yet still accurate (MAE of 5.64 - 6.29 BPM) networks that can be deployed on a commercial MCU (STM32L4) which require as few as 5k parameters and reach a latency of 17.1 ms consuming just 0.21 mJ per inference.
翻訳日:2022-04-01 11:08:17 公開日:2022-03-28
# (参考訳) 森林火災リスク予測 : 最適な火災危険指標

Wildfire risk forecast: An optimizable fire danger index ( http://arxiv.org/abs/2203.15558v1 )

ライセンス: CC BY 4.0
Eduardo Rodrigues, Bianca Zadrozny, Campbell Watson(参考訳) 森林火災は世界中の多くの場所で深刻な被害をもたらし、気候変動に伴い増加すると予想されている。 長年にわたり、早期の火災を識別し、一度火の挙動をシミュレートする技術が開発されてきた。 もう一つの有用な技術は火災リスク指標であり、火災リスクの高度な予測を行うために気象を強制する。 火災リスク指標の予測は、例えば、リスクの高い場所でリソースを割り当てるために使用することができる。 これらの指標は、長年にわたって実験室実験やフィールドテストで推定されたパラメータを持つ実験モデルとして開発されてきた。 しかし、これらのパラメータは、これらのモデルが使用されるすべての場所に適合しない可能性がある。 本稿では,1つの指標(NFDRS IC)を微分可能な関数として,勾配降下による内部パラメータの最適化が可能な新しい実装を提案する。 既存の機械学習フレームワーク(PyTorch)を活用してモデルを構築します。 このアプローチには,(1)NFDRS ICパラメータを実際に観測された火災イベントを用いて各領域で改善し,(2)内部変数は従来のニューラルネットワークのように無意味な隠蔽層ではなく,専門家による解釈のためにそのまま維持する,という2つの利点がある。 本稿では,米国と欧州の現場における実際の火災イベントによる戦略を評価する。

Wildfire events have caused severe losses in many places around the world and are expected to increase with climate change. Throughout the years many technologies have been developed to identify fire events early on and to simulate fire behavior once they have started. Another particularly helpful technology is fire risk indices, which use weather forcing to make advanced predictions of the risk of fire. Predictions of fire risk indices can be used, for instance, to allocate resources in places with high risk. These indices have been developed over the years as empirical models with parameters that were estimated in lab experiments and field tests. These parameters, however, may not fit well all places where these models are used. In this paper we propose a novel implementation of one index (NFDRS IC) as a differentiable function in which one can optimize its internal parameters via gradient descent. We leverage existing machine learning frameworks (PyTorch) to construct our model. This approach has two benefits: (1) the NFDRS IC parameters can be improved for each region using actual observed fire events, and (2) the internal variables remain intact for interpretations by specialists instead of meaningless hidden layers as in traditional neural networks. In this paper we evaluate our strategy with actual fire events for locations in the USA and Europe.
翻訳日:2022-04-01 10:55:53 公開日:2022-03-28
# (参考訳) TraHGR: 筋電図による手指ジェスチャー認識のためのFew-shot Learning

TraHGR: Few-shot Learning for Hand Gesture Recognition via ElectroMyography ( http://arxiv.org/abs/2203.16336v1 )

ライセンス: CC BY 4.0
Soheil Zabihi, Elahe Rahimian, Amir Asif, Arash Mohammadi(参考訳) 表面筋電図(sEMG)信号による深層学習に基づくハンドジェスチャ認識(HGR)は,近年,高度な筋電義歯の開発に有意な可能性を示唆している。 既存のディープラーニングアプローチは、通常、1つのモデルしか含まないため、シナリオを変える際に許容できる一般化性能をほとんど維持できない。 本稿では,ハイブリッドモデルとトランスフォーマの最近の進歩を活かして,この課題に取り組むことを目的とする。 言い換えると、我々はトランスフォーマーアーキテクチャに基づくハイブリッドフレームワークを提案し、これは比較的新しくて革新的なディープラーニングモデルである。 TraHGR(Transformer for Hand Gesture Recognition)と呼ばれる提案されたハイブリッドアーキテクチャは、2つの並列パスと、各モジュールの利点を統合し、異なるシナリオに対して堅牢性を提供する融合センターとして機能する線形レイヤで構成されている。 提案アーキテクチャであるTraHGRをDB2と呼ばれる2番目のNinaproデータセットに基づいて評価した。 DB2データセットのsEMG信号は、40人の健康ユーザから実生活環境で測定され、それぞれ49のジェスチャーを実行する。 我々は提案したTraHGRアーキテクチャのテストと検証のために広範囲な実験を行い、その達成可能な精度を、同じデータセット上で最近提案された5つ以上のHGR分類アルゴリズムと比較した。 また、提案したTraHGRアーキテクチャの結果を個々の経路と比較し、提案したハイブリッドアーキテクチャの識別能力を実証した。 提案するtrahgrアーキテクチャの認識精度は86.18%,88.91%,81.44%,93.84%であり,それぞれ2.48%,5.12%,8.82%,4.30%がdb2 (49ジェスチャ),db2-b (17ジェスチャ),db2-c (23ジェスチャ),db2-d (9ジェスチャ) である。

Deep learning-based Hand Gesture Recognition (HGR) via surface Electromyogram (sEMG) signals has recently shown significant potential for development of advanced myoelectric-controlled prosthesis. Existing deep learning approaches, typically, include only one model as such can hardly maintain acceptable generalization performance in changing scenarios. In this paper, we aim to address this challenge by capitalizing on the recent advances of hybrid models and transformers. In other words, we propose a hybrid framework based on the transformer architecture, which is a relatively new and revolutionizing deep learning model. The proposed hybrid architecture, referred to as the Transformer for Hand Gesture Recognition (TraHGR), consists of two parallel paths followed by a linear layer that acts as a fusion center to integrate the advantage of each module and provide robustness over different scenarios. We evaluated the proposed architecture TraHGR based on the commonly used second Ninapro dataset, referred to as the DB2. The sEMG signals in the DB2 dataset are measured in the real-life conditions from 40 healthy users, each performing 49 gestures. We have conducted extensive set of experiments to test and validate the proposed TraHGR architecture, and have compared its achievable accuracy with more than five recently proposed HGR classification algorithms over the same dataset. We have also compared the results of the proposed TraHGR architecture with each individual path and demonstrated the distinguishing power of the proposed hybrid architecture. The recognition accuracies of the proposed TraHGR architecture are 86.18%, 88.91%, 81.44%, and 93.84%, which are 2.48%, 5.12%, 8.82%, and 4.30% higher than the state-ofthe-art performance for DB2 (49 gestures), DB2-B (17 gestures), DB2-C (23 gestures), and DB2-D (9 gestures), respectively.
翻訳日:2022-04-01 10:44:43 公開日:2022-03-28
# (参考訳) 確率EMアルゴリズムを用いた多成分信号の瞬時周波数推定

Instantaneous Frequency Estimation In Multi-Component Signals Using Stochastic EM Algorithm ( http://arxiv.org/abs/2203.16334v1 )

ライセンス: CC BY 4.0
Quentin Legros, Dominique Fourer, Sylvain Meignen, Marcelo A. Colominas(参考訳) 本稿では、任意の分散雑音の存在下で観測された非定常混合信号のモードを推定する問題に対処する。 観測信号のスペクトログラムからモデルパラメータを推定するために新しいベイズモデルを導入し, 後方分布からの計算コストの高い関節パラメータ推定を回避するために, EMアルゴリズムの確率バージョンに頼った。 提案手法は,最先端手法との比較実験により評価する。 その結果,提案手法の有効性を,モード推定性能の向上に注目して検証した。

This paper addresses the problem of estimating the modes of an observed non-stationary mixture signal in the presence of an arbitrary distributed noise. A novel Bayesian model is introduced to estimate the model parameters from the spectrogram of the observed signal, by resorting to the stochastic version of the EM algorithm to avoid the computationally expensive joint parameters estimation from the posterior distribution. The proposed method is assessed through comparative experiments with state-of-the-art methods. The obtained results validate the proposed approach by highlighting an improvement of the modes estimation performance.
翻訳日:2022-04-01 10:25:54 公開日:2022-03-28
# (参考訳) 文脈比較:計量テンソルを用いたコサイン類似度尺度の改善

Comparing in context: Improving cosine similarity measures with a metric tensor ( http://arxiv.org/abs/2203.14996v1 )

ライセンス: CC BY 4.0
Isa M. Apallius de Vos, Ghislaine L. van den Boogerd, Mara D. Fennema, Adriana D. Correia(参考訳) コサイン類似性は、言語モデリングの目標に基づいて訓練された事前訓練された単語埋め込みの関連性の尺度として広く用いられている。 wordsim-353やsimlex-999といったデータセットは、人間のアノテータによる単語の類似度を評価し、言語モデルのパフォーマンスを評価するためにしばしば使用される。 したがって、単語類似性タスクの改善には、単語表現の改善が必要である。 本稿では,そのタスクの性能向上のための拡張されたコサイン類似度尺度を,解釈可能性の向上とともに提案する。 単語類似度対が同じ文脈を共有し、異なる文脈で類似度を学習できる場合、このアプローチは特に有用である、という仮説を探求する。 まず、Richie et al. (2020) のデータセットを用いて文脈化メトリクスを学習し、標準コサイン類似度尺度を用いて得られた基準値と比較し、改善点を一貫して示す。 また、simlex-999とwordsim-353の両方のコンテキスト化類似度尺度をトレーニングし、結果と対応するベースラインを比較し、これらのデータセットをコンテキスト化されたデータセットで学習した全コンテキスト類似度尺度の独立したテストセットとして使用し、多くのテストでポジティブな結果を得た。

Cosine similarity is a widely used measure of the relatedness of pre-trained word embeddings, trained on a language modeling goal. Datasets such as WordSim-353 and SimLex-999 rate how similar words are according to human annotators, and as such are often used to evaluate the performance of language models. Thus, any improvement on the word similarity task requires an improved word representation. In this paper, we propose instead the use of an extended cosine similarity measure to improve performance on that task, with gains in interpretability. We explore the hypothesis that this approach is particularly useful if the word-similarity pairs share the same context, for which distinct contextualized similarity measures can be learned. We first use the dataset of Richie et al. (2020) to learn contextualized metrics and compare the results with the baseline values obtained using the standard cosine similarity measure, which consistently shows improvement. We also train a contextualized similarity measure for both SimLex-999 and WordSim-353, comparing the results with the corresponding baselines, and using these datasets as independent test sets for the all-context similarity measure learned on the contextualized dataset, obtaining positive results for a number of tests.
翻訳日:2022-04-01 10:20:03 公開日:2022-03-28
# (参考訳) digital elevation model (dem) fusionの系統的レビューとメタ分析:前処理, 方法, 応用

A systematic review and meta-analysis of Digital Elevation Model (DEM) fusion: pre-processing, methods and applications ( http://arxiv.org/abs/2203.15026v1 )

ライセンス: CC BY 4.0
Chukwuma Okolie and Julian Smit(参考訳) リモートセンシングコミュニティは、データ融合が21世紀の重要な課題の1つだと認識している。 2次元(2次元)空間における画像融合の主題は、いくつかのレビューで取り上げられている。 しかし、2.5D/3Dデジタル標高モデル(DEM)融合の特別な例は、現在まで言及されていない。 DEM融合はリモートセンシングにおけるデータ融合の重要な応用である。 マルチソースDEMの補完的な特性を利用して、より完全で正確で信頼性の高い標高データセットを提供する。 DEMを融合させるいくつかの方法が開発されているが、十分に網羅されたレビューがないため、研究者やエンドユーザーの間での拡散は制限されている。 複数の研究から得た知識を組み合わせて総合的な視点を示し、さらなる研究を導くことがしばしば必要である。 そこで本論文では,DEM融合の体系的レビューとして,メタ分析により拡張された事前処理ワークフロー,メソッド,アプリケーションについて述べる。 議論と比較分析を通じて未解決の課題とオープンな課題が特定され,今後の研究の方向性が提案された。 このレビューは、リモートセンシングと空間情報科学、およびデータ融合コミュニティ全体における研究者にとって、タイムリーな解決策であり、貴重な情報源である。

The remote sensing community has identified data fusion as one of the key challenging topics of the 21st century. The subject of image fusion in two-dimensional (2D) space has been covered in several published reviews. However, the special case of 2.5D/3D Digital Elevation Model (DEM) fusion has not been addressed till date. DEM fusion is a key application of data fusion in remote sensing. It takes advantage of the complementary characteristics of multi-source DEMs to deliver a more complete, accurate and reliable elevation dataset. Although several methods for fusing DEMs have been developed, the absence of a well-rounded review has limited their proliferation among researchers and end-users. It is often required to combine knowledge from multiple studies to inform a holistic perspective and guide further research. In response, this paper provides a systematic review of DEM fusion: the pre-processing workflow, methods and applications, enhanced with a meta-analysis. Through the discussion and comparative analysis, unresolved challenges and open issues were identified, and future directions for research were proposed. This review is a timely solution and an invaluable source of information for researchers within the fields of remote sensing and spatial information science, and the data fusion community at large.
翻訳日:2022-04-01 10:06:52 公開日:2022-03-28
# (参考訳) 社会調和型ナビゲーションデータセット(SCAND) : ソーシャルナビゲーションのための大規模データ集合

Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of Demonstrations for Social Navigation ( http://arxiv.org/abs/2203.15041v1 )

ライセンス: CC BY 4.0
Haresh Karnan, Anirudh Nair, Xuesu Xiao, Garrett Warnell, Soeren Pirk, Alexander Toshev, Justin Hart, Joydeep Biswas, Peter Stone(参考訳) 社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で「社会的に適合した」方法でナビゲートする能力である。 ヒトの生活環境(例えば家庭やレストランの家庭内サービスロボットや公共歩道のフードデリバリーロボット)における自律的な移動ロボットの出現に伴い、これらのロボットに社会に適合したナビゲーション行動を導入することは、安全で快適な人間のロボット共存を保証するために重要となる。 この課題に対処するため、模倣学習は有望な枠組みであり、複雑な多目的ソーシャルナビゲーションの設定を正確に捉える報酬関数を定式化するのではなく、人間がソーシャルナビゲーションのタスクを実演することが容易である。 しかし、モバイルロボットのソーシャルナビゲーションにおける模倣学習と逆強化学習の利用は、現在、社会に適応したロボットナビゲーションのデモを撮影する大規模なデータセットの欠如によって妨げられている。 このギャップを埋めるために,我々は,ソーシャルに準拠したナビゲーションデータセット(scand)を,ソーシャルに準拠したナビゲーションデモの大規模かつファーストパーソンビューデータセットとして紹介する。 当社のデータセットは、8.7時間138トラジェクタ、25マイルの社会的に準拠した人間の遠隔操作による運転デモを含み、3dlidar、ジョイスティックコマンド、オドメトリ、視覚および慣性情報を含むマルチモーダルデータストリームで構成され、形態的に異なる2つの移動ロボット、boston dynamics spotと、屋内および屋外の4つの異なる人間のデモ参加者によるclearpath jackalで収集されています。 さらに,実世界のロボット実験を通して予備分析と検証を行い,模倣学習によって学習されたナビゲーション方針が社会的に適合した行動を生み出すことを示す。

Social navigation is the capability of an autonomous agent, such as a robot, to navigate in a 'socially compliant' manner in the presence of other intelligent agents such as humans. With the emergence of autonomously navigating mobile robots in human populated environments (e.g., domestic service robots in homes and restaurants and food delivery robots on public sidewalks), incorporating socially compliant navigation behaviors on these robots becomes critical to ensuring safe and comfortable human robot coexistence. To address this challenge, imitation learning is a promising framework, since it is easier for humans to demonstrate the task of social navigation rather than to formulate reward functions that accurately capture the complex multi objective setting of social navigation. The use of imitation learning and inverse reinforcement learning to social navigation for mobile robots, however, is currently hindered by a lack of large scale datasets that capture socially compliant robot navigation demonstrations in the wild. To fill this gap, we introduce Socially CompliAnt Navigation Dataset (SCAND) a large scale, first person view dataset of socially compliant navigation demonstrations. Our dataset contains 8.7 hours, 138 trajectories, 25 miles of socially compliant, human teleoperated driving demonstrations that comprises multi modal data streams including 3D lidar, joystick commands, odometry, visual and inertial information, collected on two morphologically different mobile robots a Boston Dynamics Spot and a Clearpath Jackal by four different human demonstrators in both indoor and outdoor environments. We additionally perform preliminary analysis and validation through real world robot experiments and show that navigation policies learned by imitation learning on SCAND generate socially compliant behaviors
翻訳日:2022-04-01 10:05:42 公開日:2022-03-28
# (参考訳) ビッグデータとAIの時代におけるAUCの最大化:調査

AUC Maximization in the Era of Big Data and AI: A Survey ( http://arxiv.org/abs/2203.15046v1 )

ライセンス: CC BY 4.0
Tianbao Yang, Yiming Ying(参考訳) ROC曲線の下の領域(AUC)は、不均衡なデータに対する分類器のパフォーマンスを評価するための選択肢である。 AUC最大化(AUC maximization)とは、AUCスコアを直接最大化することで予測モデルを学ぶ学習パラダイムである。 90年代後半まで遡る20年以上にわたって研究され、それ以来AUCの最大化に多くの研究が注がれている。 近年,ビッグデータの確率的AUC最大化とディープラーニングの深層AUC最大化が注目され,現実世界の問題解決に劇的な影響を与えた。 しかし、我々の知る限り、AUCの最大化に関する包括的な研究は行われていない。 本稿は,過去20年間の文献のレビューを通じて,このギャップに対処することを目的とする。 文献の全体像だけでなく、定式化からアルゴリズム、理論的保証まで、さまざまな論文の詳細な説明と比較を提示する。 また,深層 auc の最大化のための課題と今後の課題を特定し,議論し,今後の課題の提案を行う。

Area under the ROC curve, a.k.a. AUC, is a measure of choice for assessing the performance of a classifier for imbalanced data. AUC maximization refers to a learning paradigm that learns a predictive model by directly maximizing its AUC score. It has been studied for more than two decades dating back to late 90s and a huge amount of work has been devoted to AUC maximization since then. Recently, stochastic AUC maximization for big data and deep AUC maximization for deep learning have received increasing attention and yielded dramatic impact for solving real-world problems. However, to the best our knowledge there is no comprehensive survey of related works for AUC maximization. This paper aims to address the gap by reviewing the literature in the past two decades. We not only give a holistic view of the literature but also present detailed explanations and comparisons of different papers from formulations to algorithms and theoretical guarantees. We also identify and discuss remaining and emerging issues for deep AUC maximization, and provide suggestions on topics for future work.
翻訳日:2022-04-01 09:50:14 公開日:2022-03-28
# (参考訳) 疾患分類のためのフォローアップX線系列を用いた深層学習手法

A Deep Learning Technique using a Sequence of Follow Up X-Rays for Disease classification ( http://arxiv.org/abs/2203.15060v1 )

ライセンス: CC BY 4.0
Sairamvinay Vijayaraghavan, David Haddad, Shikun Huang, Seongwoo Choi(参考訳) 深層学習技術を用いて肺と心臓の疾患を予測する能力は多くの研究者、特に世界中の医学分野の中心である。 本稿では,X線を用いた疾患分類の難解な問題点について考察する。 我々は,最新の胸部X線画像の追跡履歴を含む患者のX線は,内部CNNを用いて入力した胸部X線画像と比較して,疾患分類の面では良好である,という仮説を提示する。 この問題を解決するために提案する汎用的な深層学習アーキテクチャが,各患者に対してサンプル毎に3つの入力x線画像で良好に機能することを発見した。 本報告では,cnnモデルでは,出力分類の前に追加の層がなければ,各患者に対する疾患ラベルの予測性能が向上することを示す。 我々はROC曲線とAUROCスコアで結果を提供してきた。 深層学習モデルの訓練のために3つのX線画像を集める新しいアプローチを定義し,そのモデルの性能を明らかに改善した。 我々は、ResNetが機能抽出フェーズで使われる他のどのCNNモデルよりも良い結果が得られることを示した。 データ前処理、イメージトレーニング、トレーニング済みモデルに対する当社のアプローチにより、現在の研究は世界中の多くの医療機関を支援し、患者の症状の予測を改善し、より正確な治療法で診断すると考えている。

The ability to predict lung and heart based diseases using deep learning techniques is central to many researchers, particularly in the medical field around the world. In this paper, we present a unique outlook of a very familiar problem of disease classification using X-rays. We present a hypothesis that X-rays of patients included with the follow up history of their most recent three chest X-ray images would perform better in disease classification in comparison to one chest X-ray image input using an internal CNN to perform feature extraction. We have discovered that our generic deep learning architecture which we propose for solving this problem performs well with 3 input X ray images provided per sample for each patient. In this paper, we have also established that without additional layers before the output classification, the CNN models will improve the performance of predicting the disease labels for each patient. We have provided our results in ROC curves and AUROC scores. We define a fresh approach of collecting three X-ray images for training deep learning models, which we have concluded has clearly improved the performance of the models. We have shown that ResNet, in general, has a better result than any other CNN model used in the feature extraction phase. With our original approach to data pre-processing, image training, and pre-trained models, we believe that the current research will assist many medical institutions around the world, and this will improve the prediction of patients' symptoms and diagnose them with more accurate cure.
翻訳日:2022-04-01 09:49:11 公開日:2022-03-28
# (参考訳) 反復非線形最適化とアニメーションによる意味運動補正

Semantic Motion Correction Via Iterative Nonlinear Optimization and Animation ( http://arxiv.org/abs/2203.15072v1 )

ライセンス: CC BY 4.0
Sairamvinay Vijayaraghavan, Jinxiao Song, Wan-Jhen Lin, Michael J Livanos(参考訳) 本稿では,ペナルティキックをブロックしようとするゴールキーパーに対して2次元アニメーションを作成し,その動作を反復的非線形最適化手法を用いて補正する手法を提案する。 入力は、ポーズとオブジェクト検出ネットワークに入力された生のビデオで、ゴールキーパーとボールの骨格を見つける。 出力は、補正された動きに関連付けられた骨格のキーフレームのセットであり、ゴールキーパーがボールを逃したら、アニメーションがそれをうまく偏向させる。 我々の手法は、ゴールキーパーが十分に突破しなかったり、間違った側に飛び込んだりといった、さまざまな間違いを正し得るほど堅牢です。 また,本手法はゴールキーパーの本来の動作と意味的に類似することを目的としており,実際の人間の行動に関してアニメーションの基盤を保つのに役立つ。

Here, we present an end-to-end method to create 2D animation for a goalkeeper attempting to block a penalty kick, and then correct that motion using an iterative nonlinear optimization scheme. The input is a raw video that is fed into pose and object detection networks to find the skeleton of the goalkeeper and the ball. The output is a set of key frames of the skeleton associated with the corrected motion so that if the goalkeeper missed the ball, the animation will show then successfully deflecting it. Our method is robust enough correct different kinds of mistakes the goalkeeper can make, such as not lunging far enough or jumping to the incorrect side. Our method is also meant to be semantically similar to the goalkeeper's original motion, which helps keep our animation grounded with respect to actual human behavior.
翻訳日:2022-04-01 09:41:24 公開日:2022-03-28
# (参考訳) ドライバ衝突警告に対するニューロシンボリックハイブリッドアプローチ

Neurosymbolic hybrid approach to driver collision warning ( http://arxiv.org/abs/2203.15076v1 )

ライセンス: CC BY 4.0
Kyongsik Yun, Thomas Lu, Alexander Huyen, Patrick Hammer, Pei Wang(参考訳) 1つのディープニューラルネットワークが、センサー入力を直接適切な警告と駆動応答にマッピングすることを学習するエンド・ツー・エンドシステムである。 2)個々の意味的特徴を検出する独立したモジュールを組み合わせることで,システムを構成するハイブリッド認識システム。 ディープラーニングはどんな問題でも解決できると考える研究者もいるが、データが少ない複雑な環境に対処するためには、より工学的で象徴的なアプローチが必要であると考える研究者もいる。 深層学習だけでも、複雑なゲームプレイからタンパク質構造予測に至るまで、多くの分野で最先端の結果を達成している。 特に画像分類と認識では、ディープラーニングモデルは人間と同じくらい高い精度を達成している。 しかし、ディープラーニングモデルが機能しない場合、デバッグが非常に難しい場合もあります。 ディープラーニングモデルは脆弱性があり、データ分散の変化に非常に敏感である。 一般化は問題になりうる。 それが機能する理由を証明するのは通常困難です。 ディープラーニングモデルは、敵の攻撃にも脆弱である。 本稿では,学習に基づく物体認識と追跡を,知覚系列に基づく概念を構築し,その環境に適応可能な適応型ニューロシンボリックネットワークエージェントであるnars(non-axiomatic reasoning system)と組み合わせる。 cocoデータ事前学習モデルのiou 0.31と比較して,適応リトレーニングモデルでは0.65のiouオブジェクト認識性能が向上した。 シミュレーション環境におけるRADARセンサを用いた物体検出限界を改良し,深層学習に基づく物体検出と追跡とニューロシンボリックモデルを組み合わせることにより,ウィービング車検出能力を実証した。

There are two main algorithmic approaches to autonomous driving systems: (1) An end-to-end system in which a single deep neural network learns to map sensory input directly into appropriate warning and driving responses. (2) A mediated hybrid recognition system in which a system is created by combining independent modules that detect each semantic feature. While some researchers believe that deep learning can solve any problem, others believe that a more engineered and symbolic approach is needed to cope with complex environments with less data. Deep learning alone has achieved state-of-the-art results in many areas, from complex gameplay to predicting protein structures. In particular, in image classification and recognition, deep learning models have achieved accuracies as high as humans. But sometimes it can be very difficult to debug if the deep learning model doesn't work. Deep learning models can be vulnerable and are very sensitive to changes in data distribution. Generalization can be problematic. It's usually hard to prove why it works or doesn't. Deep learning models can also be vulnerable to adversarial attacks. Here, we combine deep learning-based object recognition and tracking with an adaptive neurosymbolic network agent, called the Non-Axiomatic Reasoning System (NARS), that can adapt to its environment by building concepts based on perceptual sequences. We achieved an improved intersection-over-union (IOU) object recognition performance of 0.65 in the adaptive retraining model compared to IOU 0.31 in the COCO data pre-trained model. We improved the object detection limits using RADAR sensors in a simulated environment, and demonstrated the weaving car detection capability by combining deep learning-based object detection and tracking with a neurosymbolic model.
翻訳日:2022-04-01 09:33:21 公開日:2022-03-28
# (参考訳) 視覚・自己教師あり音声モデルにおける単語発見

Word Discovery in Visually Grounded, Self-Supervised Speech Models ( http://arxiv.org/abs/2203.15081v1 )

ライセンス: CC BY 4.0
Puyuan Peng and David Harwath(参考訳) 本稿では,視覚的単語探索手法を提案する。 HuBERT または wav2vec2.0 モデルを用いて、音声キャプションを自然な画像に関連づける訓練を行った結果、強力な単語セグメンテーションとクラスタリング能力がモデルの自己注意ヘッド内に出現することを示した。 私たちの実験では、この能力はhubertとwav2vec2.0のモデルではほとんど同じ程度には存在せず、視覚的な接地作業が私たちが観察する単語発見能力の重要な構成要素であることを示唆している。 また,いくつかの測定値において,現在公開されているすべての手法を上回って,buckeye単語分割とzerospeech音声単語発見タスクの手法を評価した。

We present a method for visually-grounded spoken term discovery. After training either a HuBERT or wav2vec2.0 model to associate spoken captions with natural images, we show that powerful word segmentation and clustering capability emerges within the model's self-attention heads. Our experiments reveal that this ability is not present to nearly the same extent in the base HuBERT and wav2vec2.0 models, suggesting that the visual grounding task is a crucial component of the word discovery capability we observe. We also evaluate our method on the Buckeye word segmentation and ZeroSpeech spoken term discovery tasks, where we outperform all currently published methods on several metrics.
翻訳日:2022-04-01 09:23:22 公開日:2022-03-28
# (参考訳) 反復的, ディープ・シンセティック・アパーチャ・ソナー画像分割法

Iterative, Deep Synthetic Aperture Sonar Image Segmentation ( http://arxiv.org/abs/2203.15082v1 )

ライセンス: CC BY 4.0
Yung-Chen Sun, Isaac D. Gerg, and Vishal Monga(参考訳) 合成開口ソナー(SAS)システムは海底環境の高解像度画像を生成する。 さらに、ディープラーニングは、画像分析を自動化するための堅牢な特徴を見つける上で優れた能力を示している。 しかし、深層学習の成功は、ラベル付きトレーニングデータが多くあることを前提としているが、SAS画像の寛大なピクセルレベルのアノテーションを得ることは、事実上不可能であることが多い。 この課題は、SASセグメンテーションのためのディープラーニング手法の採用をこれまで制限してきた。 SASイメージを教師なしで分割するアルゴリズムは存在するが、最先端の学習手法の利点が欠けており、その結果は改善の余地がかなりある。 本稿では,スーパーピクセル形成,深層学習,従来のクラスタリング手法を組み合わせた,教師なしSAS画像分割のための新しい反復アルゴリズムを提案する。 我々はこの手法を反復的非教師なしセグメンテーション (idus) と呼ぶ。 IDUSは教師なし学習フレームワークであり、次の4つのステップに分けられる。 1)深層ネットワークはクラス割り当てを推定する。 2) 深層ネットワークの低レベル画像特徴をスーパーピクセルにクラスタ化する。 3) スーパーピクセルは$k$-meansを使ってクラス割り当て(擬似ラベルと呼ぶ)にクラスタ化されます。 4) 深層ネットワーク予測の損失バックプロパゲーションには擬似ラベルが使用される。 これら4つのステップは収束するまで反復的に実行される。 SAS画像セグメンテーションのための現実的なベンチマークデータセット上で、IDUSと現在の最先端手法の比較は、IDUSが推論(テスト画像の実際のラベル付け)中にはるかに少ない計算負担を発生させたとしても、提案手法の利点を示す。 最後に、IDUSのIDSSと呼ばれる半教師付き拡張(SS)も開発し、同じラベル付きトレーニング画像を利用する教師付き代替画像よりも性能を向上できることを示した。

Synthetic aperture sonar (SAS) systems produce high-resolution images of the seabed environment. Moreover, deep learning has demonstrated superior ability in finding robust features for automating imagery analysis. However, the success of deep learning is conditioned on having lots of labeled training data, but obtaining generous pixel-level annotations of SAS imagery is often practically infeasible. This challenge has thus far limited the adoption of deep learning methods for SAS segmentation. Algorithms exist to segment SAS imagery in an unsupervised manner, but they lack the benefit of state-of-the-art learning methods and the results present significant room for improvement. In view of the above, we propose a new iterative algorithm for unsupervised SAS image segmentation combining superpixel formation, deep learning, and traditional clustering methods. We call our method Iterative Deep Unsupervised Segmentation (IDUS). IDUS is an unsupervised learning framework that can be divided into four main steps: 1) A deep network estimates class assignments. 2) Low-level image features from the deep network are clustered into superpixels. 3) Superpixels are clustered into class assignments (which we call pseudo-labels) using $k$-means. 4) Resulting pseudo-labels are used for loss backpropagation of the deep network prediction. These four steps are performed iteratively until convergence. A comparison of IDUS to current state-of-the-art methods on a realistic benchmark dataset for SAS image segmentation demonstrates the benefits of our proposal even as the IDUS incurs a much lower computational burden during inference (actual labeling of a test image). Finally, we also develop a semi-supervised (SS) extension of IDUS called IDSS and demonstrate experimentally that it can further enhance performance while outperforming supervised alternatives that exploit the same labeled training imagery.
翻訳日:2022-04-01 09:10:06 公開日:2022-03-28
# (参考訳) クロマグラムに基づくピッチ認識リミックスによる歌声分離の改善

Improved singing voice separation with chromagram-based pitch-aware remixing ( http://arxiv.org/abs/2203.15092v1 )

ライセンス: CC BY 4.0
Siyuan Yuan, Zhepei Wang, Umut Isik, Ritwik Giri, Jean-Marc Valin, Michael M. Goodwin, Arvindh Krishnaswamy(参考訳) 歌声分離は、音楽をボーカルと伴奏コンポーネントに分離することを目的としている。 このタスクの主な制約の1つは、分離されたボーカルによるトレーニングデータの限られた量である。 ランダムソースミキシングのようなデータ拡張技術は、既存のデータをより有効活用し、モデル性能を軽度に改善する。 本稿では,高音高アライメントの音楽セグメントを混合した新しいデータ拡張手法であるchromagramベースのピッチアウェアリミックスを提案する。 教師付きとセミ教師付きの両方で制御実験を行うことで,ピッチアウェアリミックスを用いたトレーニングモデルがsdr(test signal-to-distortion ratio)を大幅に改善することを示す。

Singing voice separation aims to separate music into vocals and accompaniment components. One of the major constraints for the task is the limited amount of training data with separated vocals. Data augmentation techniques such as random source mixing have been shown to make better use of existing data and mildly improve model performance. We propose a novel data augmentation technique, chromagram-based pitch-aware remixing, where music segments with high pitch alignment are mixed. By performing controlled experiments in both supervised and semi-supervised settings, we demonstrate that training models with pitch-aware remixing significantly improves the test signal-to-distortion ratio (SDR)
翻訳日:2022-04-01 08:46:28 公開日:2022-03-28
# (参考訳) LogicInference:seq2seqモデルに論理推論を教える新しいデータセット

LogicInference: A New Dataset for Teaching Logical Inference to seq2seq Models ( http://arxiv.org/abs/2203.15099v1 )

ライセンス: CC BY 4.0
Santiago Ontanon, Joshua Ainslie, Vaclav Cvicek and Zachary Fisher(参考訳) TransformerやLSTMといった機械学習モデルは、推論や推論など、本質的に構成的なタスクと競合する。 構成一般化を評価するために多くのデータセットが存在するが、推論能力を評価する場合、選択肢はより限られている。 本稿では,論理推論を行うモデルの能力を評価する新しいデータセットであるlogicinferenceを提案する。 データセットは命題論理を用いた推論と、半形式論理表記と自然言語の両方で表される一階述語論理の小さなサブセットに焦点を当てている。 また、このデータセットの初期ベースラインを確立するために、機械学習モデルの集合を用いて初期結果を報告する。

Machine learning models such as Transformers or LSTMs struggle with tasks that are compositional in nature such as those involving reasoning/inference. Although many datasets exist to evaluate compositional generalization, when it comes to evaluating inference abilities, options are more limited. This paper presents LogicInference, a new dataset to evaluate the ability of models to perform logical inference. The dataset focuses on inference using propositional logic and a small subset of first-order logic, represented both in semi-formal logical notation, as well as in natural language. We also report initial results using a collection of machine learning models to establish an initial baseline in this dataset.
翻訳日:2022-04-01 08:37:56 公開日:2022-03-28
# (参考訳) 最大重み独立集合問題に対するメタヒューリスティックアルゴリズム

A Metaheuristic Algorithm for Large Maximum Weight Independent Set Problems ( http://arxiv.org/abs/2203.15805v1 )

ライセンス: CC BY 4.0
Yuanyuan Dong, Andrew V. Goldberg, Alexander Noe, Nikos Parotsidis, Mauricio G.C. Resende, Quico Spaen(参考訳) ノード重み付きグラフが与えられた場合、ノード重みが最大となる独立した(相互に非隣接な)ノードの集合を見つける。 このアプリケーションで放送されるグラフの中には、数十万のノードと数億のエッジを持つ大きなものもあります。 このサイズの例を解決するために, greedy randomized adaptive search (grasp) フレームワークにおけるメタヒューリスティックな新しい局所探索アルゴリズムを開発した。 このアルゴリズムはmetamisと呼ばれ、以前に文献に記述したよりも、より広い範囲の単純なローカル検索操作を使用する。 これらの操作を効率的にするデータ構造を導入します。 局所的最適から逃れるために新しいパスリリンクを導入し、アルゴリズム性能を改善する新しい交互拡張パスローカル検索も導入した。 我々は,アルゴリズムの実装を,数億の頂点を持つ大規模インスタンスを含む,公開ベンチマークセット上の最先端の公開コードと比較した。 我々のアルゴリズムは一般に競争力があり、大規模な車両ルーティングインスタンス上でこの公開コードより優れています。 結果がMWISアルゴリズムの改善につながることを期待しています。

Motivated by a real-world vehicle routing application, we consider the maximum-weight independent set problem: Given a node-weighted graph, find a set of independent (mutually nonadjacent) nodes whose node-weight sum is maximum. Some of the graphs airsing in this application are large, having hundreds of thousands of nodes and hundreds of millions of edges. To solve instances of this size, we develop a new local search algorithm, which is a metaheuristic in the greedy randomized adaptive search (GRASP) framework. This algorithm, which we call METAMIS, uses a wider range of simple local search operations than previously described in the literature. We introduce data structures that make these operations efficient. A new variant of path-relinking is introduced to escape local optima and so is a new alternating augmenting-path local search move that improves algorithm performance. We compare an implementation of our algorithm with a state-of-the-art openly available code on public benchmark sets, including some large instances with hundreds of millions of vertices. Our algorithm is, in general, competitive and outperforms this openly available code on large vehicle routing instances. We hope that our results will lead to even better MWIS algorithms.
翻訳日:2022-04-01 08:24:04 公開日:2022-03-28
# FlexFringe:確率的オートマタ学習によるソフトウェア行動モデリング

FlexFringe: Modeling Software Behavior by Learning Probabilistic Automata ( http://arxiv.org/abs/2203.16331v1 )

ライセンス: Link先を確認
Sicco Verwer and Christian Hammerschmidt(参考訳) 本稿ではFlexFringeで利用可能な確率的決定論的有限オートマトン学習法の効率的な実装について述べる。 これらはステートマージのためのよく知られた戦略を実装しており、実際のパフォーマンスを改善するためのいくつかの修正が含まれている。 実験により,これらのアルゴリズムはデフォルト実装よりも競争結果と大幅な改善が得られた。 また、FlexFringeを使ってソフトウェアログから解釈可能なモデルを学習し、これらを異常検出に利用する方法を実証する。 より複雑なモデルを学習することで、異常検出におけるFlexFringeの性能が向上し、ニューラルネットに基づく既存のソリューションよりも優れていることを示す。

We present the efficient implementations of probabilistic deterministic finite automaton learning methods available in FlexFringe. These implement well-known strategies for state-merging including several modifications to improve their performance in practice. We show experimentally that these algorithms obtain competitive results and significant improvements over a default implementation. We also demonstrate how to use FlexFringe to learn interpretable models from software logs and use these for anomaly detection. Although less interpretable, we show that learning smaller more convoluted models improves the performance of FlexFringe on anomaly detection, outperforming an existing solution based on neural nets.
翻訳日:2022-03-31 16:55:37 公開日:2022-03-28
# 垂直ジャンプ高さ推定のための極V800スポーツウォッチの信頼性と妥当性

Reliability and Validity of the Polar V800 Sports Watch for Estimating Vertical Jump Height ( http://arxiv.org/abs/2203.16442v1 )

ライセンス: Link先を確認
Manuel-Vicente Garnacho-Casta\~no, Marcos Faundez-Zanuy, Noemi Serra-Pay\'a, J. L. Mat\'e-Mu\~noz, Josep L\'opez-Xarbau, M. Vila-Blanch(参考訳) 本研究の目的は、垂直跳躍高さを測定するために極V800の信頼性と妥当性を評価することである。 22.89 +- 4.23歳、体重70.74 +- 8.04 kg、身長1.74 +- 0.76 mの身体に活発な男性22名がこの研究に採用された。 信頼性は、polar v800で得られた測定値と1週間の異なる2つのテストセッションを比較して評価した。 また,squat jump (sj) および countermovement jump (cmj) 試験において,force platform (gold standard) とhigh-speed camera,polar v800 を同時に測定し,妥当性を評価した。 試験・試験信頼性では極性V800において高いクラス内相関係数(ICCs)が観測された(平均0.90, SJ, CMJ)。 テスト-テストの間に有意な系統的バイアス+ランダムエラー(p > 0.05)はなかった。 極性V800における両ジャンプにおいて, 変動係数 (5%) の低値が検出された。 有効性評価では, デバイス間で同様のジャンプ高さが検出された(p > 0.05)。 極V800とSJテストとCMJテストの力のプラットフォーム(平均ICC=0.95、SJの系統的バイアス+ランダムエラー:-0.38 +- 2.10 cm, p > 0.05)のほぼ完全な一致があった。 極性v800と高速カメラの平均iccはsjおよびcmjテストでは0.91であったが、cmjテストでは系統的バイアス+ランダム誤差(0.97 +- 2.60 cm; p = 0.01)が検出された。 Polar V800は、力のプラットフォームと比較して有効であり、身体に活発な健康な若い男性の垂直ジャンプハイトパフォーマンスに関する信頼できる情報を提供する。

This study aimed to assess the reliability and validity of the Polar V800 to measure vertical jump height. Twenty-two physically active healthy men (age: 22.89 +- 4.23 years; body mass: 70.74 +- 8.04 kg; height: 1.74 +- 0.76 m) were recruited for the study. The reliability was evaluated by comparing measurements acquired by the Polar V800 in two identical testing sessions one week apart. Validity was assessed by comparing measurements simultaneously obtained using a force platform (gold standard), high-speed camera and the Polar V800 during squat jump (SJ) and countermovement jump (CMJ) tests. In the test-retest reliability, high intraclass correlation coefficients (ICCs) were observed (mean: 0.90, SJ and CMJ) in the Polar V800. There was no significant systematic bias +- random errors (p > 0.05) between test-retest. Low coefficients of variation (<5%) were detected in both jumps in the Polar V800. In the validity assessment, similar jump height was detected among devices (p > 0.05). There was almost perfect agreement between the Polar V800 compared to a force platform for the SJ and CMJ tests (Mean ICCs = 0.95; no systematic bias +- random errors in SJ mean: -0.38 +- 2.10 cm, p > 0.05). Mean ICC between the Polar V800 versus high-speed camera was 0.91 for the SJ and CMJ tests, however, a significant systematic bias +- random error (0.97 +- 2.60 cm; p = 0.01) was detected in CMJ test. The Polar V800 offers valid, compared to force platform, and reliable information about vertical jump height performance in physically active healthy young men.
翻訳日:2022-03-31 16:54:50 公開日:2022-03-28
# 異なる取得スタイラスの相互運用のための手書き圧力正規化について

On handwriting pressure normalization for interoperability of different acquisition stylus ( http://arxiv.org/abs/2203.16337v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Olga Brotons-Rufes, Carles Paul-Recarens, R\'ejean Plamondon(参考訳) 本稿では,オンライン手書き取得のための圧力特性と正規化手順を提案する。 オンラインシグネチャデータベースMCYTを用いた生体認証実験(識別と検証)において,330名のユーザによるシグネチャで構成されている。 目標は、ユーザがひとつのスタイラスで登録した実際のミスマッチシナリオを分析し、その後、異なる圧力応答を持つ異なるスタイラスモデルを使用して、いくつかのテストサンプルを生成することだ。 実験結果: 1)圧力信号の飽和挙動 2)異なるスタイラスにおける異なる動的範囲の研究 3【圧力信号正規化による生体認証精度の向上】及び不一致条件における性能劣化 4) 圧力正規化により異なるスタイラス間の相互運用性が得られる。 正規化は、ミスマッチしたシナリオと比較して、7%(絶対値)以上の署名識別率を改善する。

In this paper, we present a pressure characterization and normalization procedure for online handwritten acquisition. Normalization process has been tested in biometric recognition experiments (identification and verification) using online signature database MCYT, which consists of the signatures from 330 users. The goal is to analyze the real mismatch scenarios where users are enrolled with one stylus and then, later on, they produce some testing samples using a different stylus model with different pressure response. Experimental results show: 1) a saturation behavior in pressure signal 2) different dynamic ranges in the different stylus studied 3) improved biometric recognition accuracy by means of pressure signal normalization as well as a performance degradation in mismatched conditions 4) interoperability between different stylus can be obtained by means of pressure normalization. Normalization produces an improvement in signature identification rates higher than 7% (absolute value) when compared with mismatched scenarios.
翻訳日:2022-03-31 16:20:50 公開日:2022-03-28
# (参考訳) 試験試料の定量化による分布外精度の理解

Understanding out-of-distribution accuracies through quantifying difficulty of test samples ( http://arxiv.org/abs/2203.15100v1 )

ライセンス: CC BY 4.0
Berfin Simsek, Melissa Hall, Levent Sagun(参考訳) 既存の研究によると、現代のニューラルネットワークは、In-distribution (ID)データセット上で顕著な一般化性能を達成するが、精度はout-of-distribution (OOD)データセット \cite{recht2018cifar, recht2019imagenet} で著しく低下する。 OODデータセットにおいて、様々なモデルが一貫してミスを犯す理由を理解するために、トレーニングデータセットとモデルの相互作用に依存するテストイメージ(IDまたはOOD)の難易度を定量化する新しい指標を提案する。 特に,訓練モデルのアンサンブルによって推定されるクラス条件付き確率に基づいて,与えられたテスト画像における不一致量を定量化するラベルフリーな画像難易度尺度として, \textit{confusion score}を導入する。 混乱スコアを用いて, CIFAR-10とそのOOD誘導体について検討した。 次に,テストデータセットとOODデータセットをその混乱スコアで分割することにより,各種アーキテクチャにおけるIDとOODの精度の関係を予測する。 これにより、IDテストラベルのみを用いて、与えられたモデルのOOD精度の推定値を得ることができる。 この精度低下に対する最も大きな貢献は、高い混乱スコアを持つ画像によるものであることを示す。 さらに調べると、混乱スコアによってグループ化された誤分類画像の性質について報告する。 (i) 混乱スコアの高い画像は、トレーニングデータ内の複数のクラスに出現し、明確な \textit{class-specific features} と \textit{を欠いた \textit{weak spurious correlations} を含む。 (ii) 混乱スコアの低い画像は、他のクラスに属する刺激相関、すなわち、textit{class-specific spurious correlations}を示す。

Existing works show that although modern neural networks achieve remarkable generalization performance on the in-distribution (ID) dataset, the accuracy drops significantly on the out-of-distribution (OOD) datasets \cite{recht2018cifar, recht2019imagenet}. To understand why a variety of models consistently make more mistakes in the OOD datasets, we propose a new metric to quantify the difficulty of the test images (either ID or OOD) that depends on the interaction of the training dataset and the model. In particular, we introduce \textit{confusion score} as a label-free measure of image difficulty which quantifies the amount of disagreement on a given test image based on the class conditional probabilities estimated by an ensemble of trained models. Using the confusion score, we investigate CIFAR-10 and its OOD derivatives. Next, by partitioning test and OOD datasets via their confusion scores, we predict the relationship between ID and OOD accuracies for various architectures. This allows us to obtain an estimator of the OOD accuracy of a given model only using ID test labels. Our observations indicate that the biggest contribution to the accuracy drop comes from images with high confusion scores. Upon further inspection, we report on the nature of the misclassified images grouped by their confusion scores: \textit{(i)} images with high confusion scores contain \textit{weak spurious correlations} that appear in multiple classes in the training data and lack clear \textit{class-specific features}, and \textit{(ii)} images with low confusion scores exhibit spurious correlations that belong to another class, namely \textit{class-specific spurious correlations}.
翻訳日:2022-03-31 11:37:33 公開日:2022-03-28
# (参考訳) フェデレートされた名前付きエンティティ認識

Federated Named Entity Recognition ( http://arxiv.org/abs/2203.15101v1 )

ライセンス: CC BY 4.0
Joel Mathew, Dimitris Stripelis, Jos\'e Luis Ambite(参考訳) 本稿では,自然言語処理タスクであるnamed-entity recognition (ner) におけるフェデレーション学習の性能分析を行う。 評価では,言語に依存しないCoNLL-2003データセットをベンチマークデータセットとし,ベンチマークNERモデルとしてBi-LSTM-CRFモデルを用いた。 フェデレーショントレーニングは集中型モデルとほぼ同等の性能を示すが,学習環境がさらに異質になるにつれて性能が低下する。 また,NERに対するフェデレーションモデルの収束率を示す。 最後に,今後の研究方向性を育むnlpアプリケーションにおける連合学習の課題について述べる。

We present an analysis of the performance of Federated Learning in a paradigmatic natural-language processing task: Named-Entity Recognition (NER). For our evaluation, we use the language-independent CoNLL-2003 dataset as our benchmark dataset and a Bi-LSTM-CRF model as our benchmark NER model. We show that federated training reaches almost the same performance as the centralized model, though with some performance degradation as the learning environments become more heterogeneous. We also show the convergence rate of federated models for NER. Finally, we discuss existing challenges of Federated Learning for NLP applications that can foster future research directions.
翻訳日:2022-03-31 11:20:16 公開日:2022-03-28
# (参考訳) セマンティクスのセグメンテーションを再考する:プロトタイプビュー

Rethinking Semantic Segmentation: A Prototype View ( http://arxiv.org/abs/2203.15102v1 )

ライセンス: CC BY 4.0
Tianfei Zhou, Wenguan Wang, Ender Konukoglu, Luc Van Gool(参考訳) 一般的なセマンティックセグメンテーションソリューションは、異なるネットワーク設計(FCNベースまたはアテンションベース)やマスクデコード戦略(パラメトリックソフトマックスベースまたはピクセルクエリベース)にもかかわらず、ソフトマックス重みまたはクエリベクトルを学習可能なクラスプロトタイプとして考慮し、一つのカテゴリに配置することができる。 このプロトタイプの観点から,パラメトリックセグメンテーションのいくつかの限界を明らかにし,非学習可能なプロトタイプに基づく非パラメトリックな代替案を提案する。 従来の方法でクラスごとに単一の重み/クエリベクトルを完全パラメトリックに学習するのではなく,各クラスを学習可能なプロトタイプの集合として表現し,そのクラス内の複数のトレーニングピクセルの平均的特徴のみに依存する。 したがって、この密度予測は、非パラメトリックな最も近いプロトタイプ検索によって達成される。 これにより,組込み画素と固定プロトタイプとの配置を最適化することにより,画素埋め込み空間を直接形成することができる。 任意の数のクラスを一定量の学習可能なパラメータで処理することができる。 FCNベースのセグメンテーションモデル(HRNet, Swin, SegFormer)とバックボーン(ResNet, HRNet, Swin, MiT)により、我々の非パラメトリックなフレームワークは、複数のデータセット(ADE20K, Cityscapes, COCO-Stuff)に対して魅力的な結果をもたらし、大語彙の状況でうまく機能することを実証的に示す。 この作業は、現在の事実上のセマンティクスセグメンテーションモデル設計の再検討をもたらすと期待しています。

Prevalent semantic segmentation solutions, despite their different network designs (FCN based or attention based) and mask decoding strategies (parametric softmax based or pixel-query based), can be placed in one category, by considering the softmax weights or query vectors as learnable class prototypes. In light of this prototype view, this study uncovers several limitations of such parametric segmentation regime, and proposes a nonparametric alternative based on non-learnable prototypes. Instead of prior methods learning a single weight/query vector for each class in a fully parametric manner, our model represents each class as a set of non-learnable prototypes, relying solely on the mean features of several training pixels within that class. The dense prediction is thus achieved by nonparametric nearest prototype retrieving. This allows our model to directly shape the pixel embedding space, by optimizing the arrangement between embedded pixels and anchored prototypes. It is able to handle arbitrary number of classes with a constant amount of learnable parameters. We empirically show that, with FCN based and attention based segmentation models (i.e., HRNet, Swin, SegFormer) and backbones (i.e., ResNet, HRNet, Swin, MiT), our nonparametric framework yields compelling results over several datasets (i.e., ADE20K, Cityscapes, COCO-Stuff), and performs well in the large-vocabulary situation. We expect this work will provoke a rethink of the current de facto semantic segmentation model design.
翻訳日:2022-03-31 11:12:16 公開日:2022-03-28
# (参考訳) 逆行性複合機能のための逆行性前駆体

Adversarial Motion Priors Make Good Substitutes for Complex Reward Functions ( http://arxiv.org/abs/2203.15103v1 )

ライセンス: CC BY 4.0
Alejandro Escontrela, Xue Bin Peng, Wenhao Yu, Tingnan Zhang, Atil Iscen, Ken Goldberg, and Pieter Abbeel(参考訳) 未特定報酬機能を持つ高次元シミュレーションエージェントを訓練することで、エージェントは現実世界に配備するときに効果のない物理的に実現不可能な戦略を学ぶことができる。 これらの不自然な行動を緩和するために、強化学習実践者は複雑な報酬関数を使い、身体的に妥当な行動を奨励する。 しかし、プラットフォームやタスクをまたいで簡単に一般化できない手作りの報酬を作成するには、退屈な労働集約的なチューニングプロセスがしばしば必要となる。 そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」を用いた複雑な報酬関数の置換を提案する。 学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。 これらの自然な戦略は現実世界への移動を促進することができる。 我々は、参照動作のデータセットからスタイル報酬をエンコードするコンピュータグラフィックス領域からのアプローチである、Adversarial Motion Priorsに基づいて、トレーニングポリシーに対する敵のアプローチが、複雑な報酬関数を必要とせずに、実際の四足歩行ロボットに転送する振る舞いを生成できることを実証する。 また、ドイツのシェパードから収集された数秒間のモーションキャプチャデータから効果的なスタイル報酬が学習され、自然歩行遷移を伴うエネルギー効率の高い移動戦略が導かれることを示した。

Training a high-dimensional simulated agent with an under-specified reward function often leads the agent to learn physically infeasible strategies that are ineffective when deployed in the real world. To mitigate these unnatural behaviors, reinforcement learning practitioners often utilize complex reward functions that encourage physically plausible behaviors. However, a tedious labor-intensive tuning process is often required to create hand-designed rewards which might not easily generalize across platforms and tasks. We propose substituting complex reward functions with "style rewards" learned from a dataset of motion capture demonstrations. A learned style reward can be combined with an arbitrary task reward to train policies that perform tasks using naturalistic strategies. These natural strategies can also facilitate transfer to the real world. We build upon Adversarial Motion Priors -- an approach from the computer graphics domain that encodes a style reward from a dataset of reference motions -- to demonstrate that an adversarial approach to training policies can produce behaviors that transfer to a real quadrupedal robot without requiring complex reward functions. We also demonstrate that an effective style reward can be learned from a few seconds of motion capture data gathered from a German Shepherd and leads to energy-efficient locomotion strategies with natural gait transitions.
翻訳日:2022-03-31 10:46:30 公開日:2022-03-28
# (参考訳) よくできたテキストは半分だ! 多様な条件生成のための組成サンプリング

A Well-Composed Text is Half Done! Composition Sampling for Diverse Conditional Generation ( http://arxiv.org/abs/2203.15108v1 )

ライセンス: CC BY 4.0
Shashi Narayan, Gon\c{c}alo Sim\~oes, Yao Zhao, Joshua Maynez, Dipanjan Das, Michael Collins and Mirella Lapata(参考訳) 本研究では,従来の確率的復号法と比較して,条件付き高品質な出力を生成するための簡易かつ効果的な構成サンプリング法を提案する。 これは最近提案された計画ベースのニューラルジェネレーションモデル(Narayan et al, 2021)に基づいて構築され、まず出力の合成を作成し、それと入力を条件付けして生成するように訓練されている。 提案手法は,まずエンティティチェーンの形で合成をサンプリングし,次にビームサーチを用いて,このエンティティチェーンを基盤とした最高のテキストを生成することによって,テキストの劣化を回避する。 cnn/dailymail, xsum) と質問生成(squad)の実験では,現在提案されている既存の自動メトリクスと人間に基づく評価を併用して,合成サンプリングが多様な有意義な出力を生成するための最善のデコード戦略であることを実証する。

We propose Composition Sampling, a simple but effective method to generate diverse outputs for conditional generation of higher quality compared to previous stochastic decoding strategies. It builds on recently proposed plan-based neural generation models (Narayan et al, 2021) that are trained to first create a composition of the output and then generate by conditioning on it and the input. Our approach avoids text degeneration by first sampling a composition in the form of an entity chain and then using beam search to generate the best possible text grounded to this entity chain. Experiments on summarization (CNN/DailyMail and XSum) and question generation (SQuAD), using existing and newly proposed automatic metrics together with human-based evaluation, demonstrate that Composition Sampling is currently the best available decoding strategy for generating diverse meaningful outputs.
翻訳日:2022-03-31 10:25:44 公開日:2022-03-28
# (参考訳) RGB-Dカメラ用ビジュアルオドメトリー

Visual Odometry for RGB-D Cameras ( http://arxiv.org/abs/2203.15119v1 )

ライセンス: CC BY-SA 4.0
Afonso Fontes, Jose Everardo Bessa Maia(参考訳) ビジュアル・オドメトリー(Visual odometry)は、カメラの位置と方向を、それに関連する画像を分析して推定する過程である。 本稿では,静止環境を走行する移動RGB-Dカメラの高速かつ高精度な計測手法を開発した。 提案アルゴリズムは,SURF (Speeded Up Robust Features) を特徴抽出器として,RANSAC (Random Sample Consensus) を用いて結果と最小平均角をフィルタリングし,連続するビデオフレーム間の6つのパラメータの剛性変換を推定する。 kinectカメラのデータはテストで使用された。 その結果、このアプローチは実現可能で有望であり、公開データセットを使用したテストにおいて、ICP(Interactive Closest Point)とSfM(Structure from Motion)のアルゴリズムの性能を上回ります。

Visual odometry is the process of estimating the position and orientation of a camera by analyzing the images associated to it. This paper develops a quick and accurate approach to visual odometry of a moving RGB-D camera navigating on a static environment. The proposed algorithm uses SURF (Speeded Up Robust Features) as feature extractor, RANSAC (Random Sample Consensus) to filter the results and Minimum Mean Square to estimate the rigid transformation of six parameters between successive video frames. Data from a Kinect camera were used in the tests. The results show that this approach is feasible and promising, surpassing in performance the algorithms ICP (Interactive Closest Point) and SfM (Structure from Motion) in tests using a publicly available dataset.
翻訳日:2022-03-31 09:53:51 公開日:2022-03-28
# (参考訳) LocalBins: 局所分布学習による深さ推定の改善

LocalBins: Improving Depth Estimation by Learning Local Distributions ( http://arxiv.org/abs/2203.15132v1 )

ライセンス: CC BY 4.0
Shariq Farooq Bhat, Ibraheem Alhashim, Peter Wonka(参考訳) 単一画像からの深度推定のための新しいアーキテクチャを提案する。 アーキテクチャ自体は、すべての高密度回帰タスクの出発点として頻繁に使用される一般的なエンコーダ・デコーダアーキテクチャに基づいている。 我々は,入力画像の深さ値のグローバル分布を推定するAdaBins上に構築し,アーキテクチャを2つの方法で進化させる。 まず,グローバルな深度分布を予測する代わりに,各画素の局所的な深度分布を予測する。 第二に、デコーダの端にのみ深さ分布を予測する代わりに、デコーダのすべての層を巻き込みます。 この新しいアーキテクチャをLocalBinsと呼びます。 以上の結果から,NYU-Depth V2データセットのすべての指標において,最先端よりも明確な改善が示された。 コードと事前訓練されたモデルは公開されます。

We propose a novel architecture for depth estimation from a single image. The architecture itself is based on the popular encoder-decoder architecture that is frequently used as a starting point for all dense regression tasks. We build on AdaBins which estimates a global distribution of depth values for the input image and evolve the architecture in two ways. First, instead of predicting global depth distributions, we predict depth distributions of local neighborhoods at every pixel. Second, instead of predicting depth distributions only towards the end of the decoder, we involve all layers of the decoder. We call this new architecture LocalBins. Our results demonstrate a clear improvement over the state-of-the-art in all metrics on the NYU-Depth V2 dataset. Code and pretrained models will be made publicly available.
翻訳日:2022-03-31 09:44:27 公開日:2022-03-28
# (参考訳) エンド・ツー・エンド統一シーンテキスト検出とレイアウト解析に向けて

Towards End-to-End Unified Scene Text Detection and Layout Analysis ( http://arxiv.org/abs/2203.15143v1 )

ライセンス: CC BY 4.0
Shangbang Long, Siyang Qin, Dmitry Panteleev, Alessandro Bissacco, Yasuhisa Fujii, Michalis Raptis(参考訳) シーンテキスト検出と文書レイアウト解析は、長い間、異なる画像領域における2つの別々のタスクとして扱われてきた。 本稿では,これらを組み合わせて,シーンテキストの統一検出とレイアウト分析の課題を紹介する。 この新たな研究課題を実現するために、第1階層的なシーンテキストデータセットが導入された。 また,シーンテキストを同時検出し,テキストクラスタを統一的に形成できる新しい手法を提案する。 総合実験の結果,統一モデルは複数のベースライン法よりも優れた性能を実現することがわかった。 さらに、このモデルは複雑な後処理を必要とせず、複数のシーンテキスト検出データセットで最先端の結果を得る。 データセットとコード:https://github.com/google-research-datasets/hiertext

Scene text detection and document layout analysis have long been treated as two separate tasks in different image domains. In this paper, we bring them together and introduce the task of unified scene text detection and layout analysis. The first hierarchical scene text dataset is introduced to enable this novel research task. We also propose a novel method that is able to simultaneously detect scene text and form text clusters in a unified way. Comprehensive experiments show that our unified model achieves better performance than multiple well-designed baseline methods. Additionally, this model achieves state-of-the-art results on multiple scene text detection datasets without the need of complex post-processing. Dataset and code: https://github.com/google-research-datasets/hiertext.
翻訳日:2022-03-31 09:43:35 公開日:2022-03-28
# (参考訳) ミシガン神経障害スクリーニング装置を用いた糖尿病性感覚神経症に対する機械学習による重症度予測ツール

A machine learning-based severity prediction tool for diabetic sensorimotor polyneuropathy using Michigan neuropathy screening instrumentations ( http://arxiv.org/abs/2203.15151v1 )

ライセンス: CC BY 4.0
Fahmida Haque, Mamun B. I. Reaz, Muhammad E. H. Chowdhury, Rayaz Malik, Mohammed Alhatou, Syoji Kobashi, Iffat Ara, Sawal H. M. Ali, Ahmad A. A Bakar, Geetika Srivastava(参考訳) 背景: 糖尿病性感作性ポリニューロパチー(DSPN)は, 痛み性ニューロパチー, 足の潰瘍, 切断を伴う糖尿病患者の長期合併症である。 ミシガン神経障害スクリーニング装置(MNSI)は、DSPNの最も一般的なスクリーニング手法の1つであるが、直接重度評価システムを提供していない。 方法: MNSIのDSPN重症度評価システムを設計・モデル化するために, 糖尿病インターベンション・合併症(EDIC)臨床治験19年間のデータを用いた。 DSPNの同定に高い関連性を有する特徴を特定するため,機械学習ツールを用いてMNSI変数と患者結果を検討した。 多変量ロジスティック回帰に基づくノモグラムが生成され、dspnの重症度評価のために検証された。 結果:10gmのフィラメント, 振動知覚(R), 振動知覚(L), 以前の糖尿病性ニューロパチー, 変形の出現, カルスの出現, 亀裂の出現といったMNSIの上位7つの特徴を, 追加木モデルを用いてDSPNを同定するための重要な特徴として同定した。 内部および外部データセットのノモグラムの曲線(AUC)の下の領域はそれぞれ0.9421と0.946であった。 開発したノモグラムから DSPN の確率を予測し, MNSI の DSPN 重症度スコアシステムを開発した。 モデルの性能は独立したデータセットで検証された。 患者は、DSPNの確率が50%未満、75%から90%未満、90%以上、それぞれカットオフ値10.5, 12.7, 15を用いて、欠失、中等度、重症の4つの重症度に分類した。 結論:本研究はDSPN患者の予後と管理を定義するための,簡便で使いやすい,信頼性の高いアルゴリズムを提供する。

Background: Diabetic Sensorimotor polyneuropathy (DSPN) is a major long-term complication in diabetic patients associated with painful neuropathy, foot ulceration and amputation. The Michigan neuropathy screening instrument (MNSI) is one of the most common screening techniques for DSPN, however, it does not provide any direct severity grading system. Method: For designing and modelling the DSPN severity grading systems for MNSI, 19 years of data from Epidemiology of Diabetes Interventions and Complications (EDIC) clinical trials were used. MNSI variables and patient outcomes were investigated using machine learning tools to identify the features having higher association in DSPN identification. A multivariable logistic regression-based nomogram was generated and validated for DSPN severity grading. Results: The top-7 ranked features from MNSI: 10-gm filament, Vibration perception (R), Vibration perception (L), previous diabetic neuropathy, the appearance of deformities, appearance of callus and appearance of fissure were identified as key features for identifying DSPN using the extra tree model. The area under the curve (AUC) of the nomogram for the internal and external datasets were 0.9421 and 0.946, respectively. From the developed nomogram, the probability of having DSPN was predicted and a DSPN severity scoring system for MNSI was developed from the probability score. The model performance was validated on an independent dataset. Patients were stratified into four severity levels: absent, mild, moderate, and severe using a cut-off value of 10.5, 12.7 and 15 for a DSPN probability less than 50%, 75% to 90%, and above 90%, respectively. Conclusions: This study provides a simple, easy-to-use and reliable algorithm for defining the prognosis and management of patients with DSPN.
翻訳日:2022-03-31 09:26:23 公開日:2022-03-28
# wav2vec 2.0を用いた変換器によるロバスト話者認識

Robust Speaker Recognition with Transformers Using wav2vec 2.0 ( http://arxiv.org/abs/2203.15095v1 )

ライセンス: Link先を確認
Sergey Novoselov, Galina Lavrentyeva, Anastasia Avdeeva, Vladimir Volokhov, Aleksei Gusev(参考訳) 教師なし音声表現学習の最近の進歩は、新しいアプローチを発見し、多様な音声処理タスクのための新しい最先端技術を提供する。 本稿では,wav2vec 2.0深部音声表現を用いた話者認識について検討する。 簡易なTDNNによるwav2vec 2.0の微調整手順と,加法的角縁損失を用いた統計的プールバックエンドにより,様々な領域でよく一般化された深層話者埋め込み抽出器が得られる。 コントラスト予測符号化事前学習方式はラベルなしデータのパワーを効果的に活用し,強力なトランスフォーマベース話者認識システムへの扉を開く。 本研究で得られた実験結果は,比較的小さなセットとクリーンなデータに対して微調整を行うことができることを示した。 微調整中にデータ拡張を使用することで、話者検証のパフォーマンスがさらに向上する。 本研究では,VoxCeleb1 クリーン化テストセット,NIST SRE 18 開発セット,NIST SRE 2016 および NIST SRE 2019 評価セット,VOiCES 評価セット,NIST 2021 SRE および CTS 課題セットについて,話者認識システムの解析を行った。

Recent advances in unsupervised speech representation learning discover new approaches and provide new state-of-the-art for diverse types of speech processing tasks. This paper presents an investigation of using wav2vec 2.0 deep speech representations for the speaker recognition task. The proposed fine-tuning procedure of wav2vec 2.0 with simple TDNN and statistic pooling back-end using additive angular margin loss allows to obtain deep speaker embedding extractor that is well-generalized across different domains. It is concluded that Contrastive Predictive Coding pretraining scheme efficiently utilizes the power of unlabeled data, and thus opens the door to powerful transformer-based speaker recognition systems. The experimental results obtained in this study demonstrate that fine-tuning can be done on relatively small sets and a clean version of data. Using data augmentation during fine-tuning provides additional performance gains in speaker verification. In this study speaker recognition systems were analyzed on a wide range of well-known verification protocols: VoxCeleb1 cleaned test set, NIST SRE 18 development set, NIST SRE 2016 and NIST SRE 2019 evaluation set, VOiCES evaluation set, NIST 2021 SRE, and CTS challenges sets.
翻訳日:2022-03-30 17:10:23 公開日:2022-03-28
# FedADMM: 部分的に参加可能なフェデレーションプリマルデュアルアルゴリズム

FedADMM: A Federated Primal-Dual Algorithm Allowing Partial Participation ( http://arxiv.org/abs/2203.15104v1 )

ライセンス: Link先を確認
Han Wang, Siddartha Marella, James Anderson(参考訳) 連合学習は分散最適化のためのフレームワークであり、コミュニケーション効率を重視している。 特に、クライアントサーバのブロードキャストモデルに従い、クライアントの計算とストレージリソース、非i.i.d.データ仮定、データプライバシの異質性に対応できるため、特に魅力的である。 提案手法は,非スムース正規化器を用いた非凸合成最適化問題を解くための,新しいフェデレーション学習アルゴリズムfeadmmを提供することである。 非常に一般的なサンプリングモデルの下で、すべてのクライアントが所定の通信ラウンドに参加できない場合に、FedADMMの収束を証明します。

Federated learning is a framework for distributed optimization that places emphasis on communication efficiency. In particular, it follows a client-server broadcast model and is particularly appealing because of its ability to accommodate heterogeneity in client compute and storage resources, non-i.i.d. data assumptions, and data privacy. Our contribution is to offer a new federated learning algorithm, FedADMM, for solving non-convex composite optimization problems with non-smooth regularizers. We prove converges of FedADMM for the case when not all clients are able to participate in a given communication round under a very general sampling model.
翻訳日:2022-03-30 17:09:59 公開日:2022-03-28
# 深部話者埋め込み型検証システムにおける異なるキャリブレーション手法の検討

Investigation of Different Calibration Methods for Deep Speaker Embedding based Verification Systems ( http://arxiv.org/abs/2203.15106v1 )

ライセンス: Link先を確認
Galina Lavrentyeva, Sergey Novoselov, Andrey Shulipa, Marina Volkova, Aleksandr Kozlov(参考訳) ディープスピーカー埋込抽出器は,すでに話者検証分野における最先端システムとなっている。 しかし,このようなシステムの検証スコア校正の問題は,しばしば注目されていない。 無関係なスコアキャリブレーションは、特に未知の音響条件の場合、しきい値のない指標で強い話者検証システムを使用したとしても、深刻な問題を引き起こす。 本稿では,ロジスティック回帰モデルに基づく古典的アプローチ,訓練された深層話者抽出器のプーリング層からのアクティベーションを利用した最近提示された大きさ推定ネットワーク磁力,および分離スケールとオフセット予測ニューラルネットワークに基づくそのようなアプローチの一般化について検討する。 この研究のさらなる焦点は、スコア正規化がシステムの校正性能に与える影響を推定することである。 その結果,キャリブレーションチューニングにドメイン内開発データを用いる場合,深刻な問題はないことがわかった。 そうでなければ、優れたキャリブレーション性能としきい値のないシステム品質のトレードオフが発生する。 ほとんどの場合、適応sノルムはスコア分布の安定化とシステム性能の向上に役立つ。 一方、いくつかの実験では、新しいアプローチがいくつかのデータセットのスコア安定化に限界があることが示されている。

Deep speaker embedding extractors have already become new state-of-the-art systems in the speaker verification field. However, the problem of verification score calibration for such systems often remains out of focus. An irrelevant score calibration leads to serious issues, especially in the case of unknown acoustic conditions, even if we use a strong speaker verification system in terms of threshold-free metrics. This paper presents an investigation over several methods of score calibration: a classical approach based on the logistic regression model; the recently presented magnitude estimation network MagnetO that uses activations from the pooling layer of the trained deep speaker extractor and generalization of such approach based on separate scale and offset prediction neural networks. An additional focus of this research is to estimate the impact of score normalization on the calibration performance of the system. The obtained results demonstrate that there are no serious problems if in-domain development data are used for calibration tuning. Otherwise, a trade-off between good calibration performance and threshold-free system quality arises. In most cases using adaptive s-norm helps to stabilize score distributions and to improve system performance. Meanwhile, some experiments demonstrate that novel approaches have their limits in score stabilization on several datasets.
翻訳日:2022-03-30 17:09:49 公開日:2022-03-28
# オーディオディープフェイクのアタッカー属性

Attacker Attribution of Audio Deepfakes ( http://arxiv.org/abs/2203.15563v1 )

ライセンス: Link先を確認
Nicolas M. M\"uller and Franziska Dieckmann and Jennifer Williams(参考訳) ディープフェイクは、しばしば悪意のある意図で考案された合成メディアである。 大規模トレーニングデータセットであるadvanced neural networksでは、ますます説得力を増している。 これらの偽物は、詐欺、偽情報、詐欺で容易に誤用されている。 このため、対策開発のための集中的な研究も拡大している。 しかし、最近の研究は、オーディオが本物か偽物かを予測するディープフェイク検出のみに限られている。 これは、アトリビューション(誰が偽物を作ったのか?)が、サイバーセキュリティの分野で長年行われていたように、より大きな防衛戦略の重要な構成要素であるという事実にもかかわらずである。 本稿では,音声領域におけるディープフェイク攻撃の帰属問題を考察する。 低レベル音響記述子と機械学習埋め込みを用いてアタッカーシグネチャを作成する方法を提案する。 音声信号の特徴は攻撃者の署名を識別するのに不十分であることを示す。 しかし、リカレントニューラルネットワークからの埋め込みは、既知の攻撃者および未知の攻撃者の両方からの攻撃をうまく特徴づけることができることを示す。 私たちのアタックシグネチャの埋め込みは、目に見えないオーディオのディープフェイクの両方に異なるクラスタをもたらします。 これらの埋め込みを下流タスクで高効果に利用し,攻撃者id分類において97.10%の精度を示す。

Deepfakes are synthetically generated media often devised with malicious intent. They have become increasingly more convincing with large training datasets advanced neural networks. These fakes are readily being misused for slander, misinformation and fraud. For this reason, intensive research for developing countermeasures is also expanding. However, recent work is almost exclusively limited to deepfake detection - predicting if audio is real or fake. This is despite the fact that attribution (who created which fake?) is an essential building block of a larger defense strategy, as practiced in the field of cybersecurity for a long time. This paper considers the problem of deepfake attacker attribution in the domain of audio. We present several methods for creating attacker signatures using low-level acoustic descriptors and machine learning embeddings. We show that speech signal features are inadequate for characterizing attacker signatures. However, we also demonstrate that embeddings from a recurrent neural network can successfully characterize attacks from both known and unknown attackers. Our attack signature embeddings result in distinct clusters, both for seen and unseen audio deepfakes. We show that these embeddings can be used in downstream-tasks to high-effect, scoring 97.10% accuracy in attacker-id classification.
翻訳日:2022-03-30 17:06:28 公開日:2022-03-28
# 対話的軌道予測のためのドメイン知識駆動型擬似ラベル

Domain Knowledge Driven Pseudo Labels for Interpretable Goal-Conditioned Interactive Trajectory Prediction ( http://arxiv.org/abs/2203.15112v1 )

ライセンス: Link先を確認
Lingfeng Sun, Chen Tang, Yaru Niu, Enna Sachdeva, Chiho Cho, Teruhisa Misu, Masayoshi Tomizuka, Wei Zhan(参考訳) 高度にインタラクティブなシナリオにおける動き予測は、自動運転において難しい問題である。 このようなシナリオでは、自律走行車の安全かつ効率的な航行を確保するために、相互作用するエージェントの協調行動を正確に予測する必要がある。 近年,軌道分布のマルチモーダリティを捉える能力や性能上有利な点から,目標条件付き手法が注目されている。 本研究では,目標条件付きフレームワークを用いた共同軌道予測問題について検討する。 特に,条件変分オートエンコーダ(CVAE)モデルを導入し,異なる相互作用モードを潜在空間に明示的にエンコードする。 しかし,バニラ模型は後方崩壊に悩まされており,望まれる情報的潜在空間を誘導できないことが判明した。 これらの問題に対処するため,我々はklの消失を回避し,擬似ラベルを持つ解釈可能な対話的潜在空間を誘導する新しい手法を提案する。 擬似ラベルは相互作用に任意のドメイン知識を組み込むことができます。 具体的玩具の例を用いて提案手法の動機付けを行う。 さらに,waymo open motionデータセット上で定量的・質的評価を行い,その枠組みを検証する。

Motion forecasting in highly interactive scenarios is a challenging problem in autonomous driving. In such scenarios, we need to accurately predict the joint behavior of interacting agents to ensure the safe and efficient navigation of autonomous vehicles. Recently, goal-conditioned methods have gained increasing attention due to their advantage in performance and their ability to capture the multimodality in trajectory distribution. In this work, we study the joint trajectory prediction problem with the goal-conditioned framework. In particular, we introduce a conditional-variational-autoencoder-based (CVAE) model to explicitly encode different interaction modes into the latent space. However, we discover that the vanilla model suffers from posterior collapse and cannot induce an informative latent space as desired. To address these issues, we propose a novel approach to avoid KL vanishing and induce an interpretable interactive latent space with pseudo labels. The pseudo labels allow us to incorporate arbitrary domain knowledge on interaction. We motivate the proposed method using an illustrative toy example. In addition, we validate our framework on the Waymo Open Motion Dataset with both quantitative and qualitative evaluations.
翻訳日:2022-03-30 16:47:04 公開日:2022-03-28
# トランジットサービスのための確率的トリップ要求を用いた動的車両ルーティング問題のオンライン解法

An Online Approach to Solve the Dynamic Vehicle Routing Problem with Stochastic Trip Requests for Paratransit Services ( http://arxiv.org/abs/2203.15127v1 )

ライセンス: Link先を確認
Michael Wilbur, Salah Uddin Kadir, Youngseo Kim, Geoffrey Pettet, Ayan Mukhopadhyay, Philip Pugliese, Samitha Samaranayake, Aron Laszka and Abhishek Dubey(参考訳) パラトランジットとマイクロトランジットを運用する多くの交通機関は、不確実性の下での厳密な組合せとシーケンシャルな意思決定問題を解決することを必要とする、リアルタイムで到着する旅行要求に応答する必要がある。 長期的には著しく非効率となる決定を避けるため、非筋電ユーティリティ機能を最適化したり、リクエストをまとめて筋電ユーティリティ機能を最適化したりすることで、車両を要求に割り当てるべきである。 前者のアプローチは通常オフラインだが、後者はオンラインで実行できる。 このようなアプローチをパラトランジットサービスに適用する場合の2つの大きな問題を指摘した。 まず、時間的に疎いため、パラトランジットリクエストのバッチ化が困難である。 第二に、交通機関が活動する環境(例えば交通条件)が動的に変化し、オフラインで学習された推定が停滞する。 これらの課題に対処するため,建設に伴う環境動態の変化に頑健な時間窓や確率的移動要求を伴う動的車両ルーティング問題(DVRP)を解決するための完全オンラインアプローチを提案する。 私たちの問題は、パラトランジットサービスのアプリケーションによって動機付けられています。 我々はDVRPをマルコフ決定過程として定式化し、モンテカルロ木探索を用いて任意の状態に対する行動を評価する。 非ミオピック効用関数を最適化しながら確率的要求を計算することは計算的に難しい;実際、そのような問題に対する作用空間は、実際、難解に大きい。 大きなアクション空間に取り組むために、我々は、木探索に有望なアクションをサンプリングできるヒューリスティックを設計するために、問題の構造を利用する。 実世界の実世界データを用いた実験の結果,提案手法は性能とロバスト性の両方において,既存の最先端手法よりも優れていることがわかった。

Many transit agencies operating paratransit and microtransit services have to respond to trip requests that arrive in real-time, which entails solving hard combinatorial and sequential decision-making problems under uncertainty. To avoid decisions that lead to significant inefficiency in the long term, vehicles should be allocated to requests by optimizing a non-myopic utility function or by batching requests together and optimizing a myopic utility function. While the former approach is typically offline, the latter can be performed online. We point out two major issues with such approaches when applied to paratransit services in practice. First, it is difficult to batch paratransit requests together as they are temporally sparse. Second, the environment in which transit agencies operate changes dynamically (e.g., traffic conditions), causing estimates that are learned offline to become stale. To address these challenges, we propose a fully online approach to solve the dynamic vehicle routing problem (DVRP) with time windows and stochastic trip requests that is robust to changing environmental dynamics by construction. We focus on scenarios where requests are relatively sparse - our problem is motivated by applications to paratransit services. We formulate DVRP as a Markov decision process and use Monte Carlo tree search to evaluate actions for any given state. Accounting for stochastic requests while optimizing a non-myopic utility function is computationally challenging; indeed, the action space for such a problem is intractably large in practice. To tackle the large action space, we leverage the structure of the problem to design heuristics that can sample promising actions for the tree search. Our experiments using real-world data from our partner agency show that the proposed approach outperforms existing state-of-the-art approaches both in terms of performance and robustness.
翻訳日:2022-03-30 16:46:46 公開日:2022-03-28
# 一般ゲームにおけるnash平衡を産出する人工障壁を用いた適応学習

Adaptive Learning with Artificial Barriers Yielding Nash Equilibria in General Games ( http://arxiv.org/abs/2203.15780v1 )

ライセンス: Link先を確認
Ismail Hassan, Anis Yazidi, B. John Oommen(参考訳) 学習オートマタ(LA)における人工障壁は、1980年代に初めて提案されたが、強力で未探索のコンセプトである。 人工的な非吸収バリアの導入により、LAスキームは吸収バリアに閉じ込められることに耐性があり、これは確率においてロックと呼ばれる現象であり、収束後の1つのアクションの排他的選択につながる。 LAの分野と強化学習の分野には、理論的な研究と人工障壁を持つスキームの適用の犠牲がある。 本稿では,確率的ビマトリクスの一般的な形式を解くために,人工バリア付きLAを考案する。 古典的なLAシステムは吸収障壁の性質を持ち、ゲーム理論において強力な道具であり、限られた情報の下でのナッシュ均衡のゲームに収束することが示されている。 しかし、laにおけるゲーム理論問題を解くための作品の流れは、純粋戦略においてゲームの鞍点が存在する場合にのみ解決することができ、純粋な戦略に対して鞍点が存在しない場合、混合ナッシュ平衡に達することができない。 本稿では, 人工バリアの強力な概念を活かして, 純粋な戦略が実行された場合に, サドルポイントが存在しないとしても, 最適混合ナッシュ平衡に収束するLAを提案する。 当社の展開方式は,la方式を吸収する線形報酬非反応(l_{r-i}$)であるが,高名なl_{r-i}$スキームが提案するアルゴリズムの具体例として見ることができ,エレガントで自然な方法で人工的バリアを導入することで,非吸収を図っている。 さらに、私たちは、L_{R-I}$のようにフィードバックが連続的でバイナリではない、$S$学習環境を扱うことができる、吸収障壁を持つLAの$S$学習バージョンを提示します。

Artificial barriers in Learning Automata (LA) is a powerful and yet under-explored concept although it was first proposed in the 1980s. Introducing artificial non-absorbing barriers makes the LA schemes resilient to being trapped in absorbing barriers, a phenomenon which is often referred to as lock in probability leading to an exclusive choice of one action after convergence. Within the field of LA and reinforcement learning in general, there is a sacristy of theoretical works and applications of schemes with artificial barriers. In this paper, we devise a LA with artificial barriers for solving a general form of stochastic bimatrix game. Classical LA systems possess properties of absorbing barriers and they are a powerful tool in game theory and were shown to converge to game's of Nash equilibrium under limited information. However, the stream of works in LA for solving game theoretical problems can merely solve the case where the Saddle Point of the game exists in a pure strategy and fail to reach mixed Nash equilibrium when no Saddle Point exists for a pure strategy. In this paper, by resorting to the powerful concept of artificial barriers, we suggest a LA that converges to an optimal mixed Nash equilibrium even though there may be no Saddle Point when a pure strategy is invoked. Our deployed scheme is of Linear Reward-Inaction ($L_{R-I}$) flavor which is originally an absorbing LA scheme, however, we render it non-absorbing by introducing artificial barriers in an elegant and natural manner, in the sense that that the well-known legacy $L_{R-I}$ scheme can be seen as an instance of our proposed algorithm for a particular choice of the barrier. Furthermore, we present an $S$ Learning version of our LA with absorbing barriers that is able to handle $S$-Learning environment in which the feedback is continuous and not binary as in the case of the $L_{R-I}$.
翻訳日:2022-03-30 16:43:11 公開日:2022-03-28
# Filler 単語の検出と分類:データセットとベンチマーク

Filler Word Detection and Classification: A Dataset and Benchmark ( http://arxiv.org/abs/2203.15135v1 )

ライセンス: Link先を確認
Ge Zhu, Juan-Pablo Caceres, Justin Salamon(参考訳) uh」や「um」といったフィラー語は、人々が考えていることを暗示するために使う音や単語である。 録音からフィラー語の検索と削除は、メディア編集において一般的で面倒な作業である。 補充語の自動検出と分類は、この課題に大いに役立つが、この問題に関する研究はほとんど発表されていない。 重要な理由は、トレーニングと評価のために注釈付きフィラーワードを持つデータセットがないことである。 本稿では,新しい音声データセットpodcastfillersについて紹介する。3kの注釈付きフィラーワードと,息や笑い,単語の繰り返しといったポッドキャストで一般的に発生する他の音の5kアノテーションを備える。 本研究では,vadとasrを利用してフィラー候補を検出するパイプラインと,フィラーワードタイプを識別する分類器を提案する。 提案するパイプラインをPodcastFillersで評価し,いくつかのベースラインと比較し,詳細なアブレーション実験を行った。 特に,asrの使用の重要性と,キーワードスポッティングに類似した無転写アプローチとの比較について検討した。 我々のパイプラインは最先端の結果を得ることができ、ASRの活用はキーワードスポッティングのアプローチよりも優れていることを示す。 PodcastFillersを一般公開し、私たちの研究が将来の研究のベンチマークになることを期待しています。

Filler words such as `uh' or `um' are sounds or words people use to signal they are pausing to think. Finding and removing filler words from recordings is a common and tedious task in media editing. Automatically detecting and classifying filler words could greatly aid in this task, but few studies have been published on this problem. A key reason is the absence of a dataset with annotated filler words for training and evaluation. In this work, we present a novel speech dataset, PodcastFillers, with 35K annotated filler words and 50K annotations of other sounds that commonly occur in podcasts such as breaths, laughter, and word repetitions. We propose a pipeline that leverages VAD and ASR to detect filler candidates and a classifier to distinguish between filler word types. We evaluate our proposed pipeline on PodcastFillers, compare to several baselines, and present a detailed ablation study. In particular, we evaluate the importance of using ASR and how it compares to a transcription-free approach resembling keyword spotting. We show that our pipeline obtains state-of-the-art results, and that leveraging ASR strongly outperforms a keyword spotting approach. We make PodcastFillers publicly available, and hope our work serves as a benchmark for future research.
翻訳日:2022-03-30 16:42:12 公開日:2022-03-28
# テキストによるピアツーピアメンタルヘルス支援における人間とAIのコラボレーション

Human-AI Collaboration Enables More Empathic Conversations in Text-based Peer-to-Peer Mental Health Support ( http://arxiv.org/abs/2203.15144v1 )

ライセンス: Link先を確認
Ashish Sharma, Inna W. Lin, Adam S. Miner, David C. Atkins, Tim Althoff(参考訳) 人工知能(AI)の進歩は、人間と協力し、ミーティングのスケジューリングや文法チェックテキストなどのシンプルで機械的なタスクを遂行するシステムを可能にする。 しかしながら、このような人間とAIのコラボレーションは、複雑な人間の感情とこれらのタスクのオープンな性質を理解する上でAIシステムが困難であるため、共感的な会話を行うなど、より複雑で創造的なタスクに挑戦する。 ここでは、ピアツーピアのメンタルヘルスサポート、つまり、共感が成功に不可欠である状況に注目し、AIが人間と協調して、テキストによるオンラインサポート会話においてピア共感を促進する方法について検討する。 我々は,支援者(支援者)が支援者(支援者)に対して共感的に反応するのを助けるために,ジャストインタイムのフィードバックを提供するai-in-the-loopエージェントであるhaileyを開発した。 本研究では,大規模オンラインピアツーピアサポートプラットフォームであるTalkLife (N=300) 上で,実世界のピアサポーターによる非クリニカルランダム化制御試験におけるヘイリーの評価を行った。 我々の人間とAIのコラボレーションアプローチは、ピア間での会話の共感を19.60%増加させます。 さらに,支援の難しさを自認するピアサポーターのサブサンプルでは,38.88%の共感の増加が見られた。 我々は、Human-AIコラボレーションパターンを体系的に分析し、ピアサポーターが、改善された自己効力後フィードバックを報告しながら、AIに過度に依存することなく、直接と間接の両方でAIフィードバックを使用できることを発見した。 本研究は、共感的な会話など、オープンでソーシャルで創造的なタスクで人間を力づける、フィードバック駆動のai-in-the-loopライティングシステムの可能性を示すものである。

Advances in artificial intelligence (AI) are enabling systems that augment and collaborate with humans to perform simple, mechanistic tasks like scheduling meetings and grammar-checking text. However, such Human-AI collaboration poses challenges for more complex, creative tasks, such as carrying out empathic conversations, due to difficulties of AI systems in understanding complex human emotions and the open-ended nature of these tasks. Here, we focus on peer-to-peer mental health support, a setting in which empathy is critical for success, and examine how AI can collaborate with humans to facilitate peer empathy during textual, online supportive conversations. We develop Hailey, an AI-in-the-loop agent that provides just-in-time feedback to help participants who provide support (peer supporters) respond more empathically to those seeking help (support seekers). We evaluate Hailey in a non-clinical randomized controlled trial with real-world peer supporters on TalkLife (N=300), a large online peer-to-peer support platform. We show that our Human-AI collaboration approach leads to a 19.60% increase in conversational empathy between peers overall. Furthermore, we find a larger 38.88% increase in empathy within the subsample of peer supporters who self-identify as experiencing difficulty providing support. We systematically analyze the Human-AI collaboration patterns and find that peer supporters are able to use the AI feedback both directly and indirectly without becoming overly reliant on AI while reporting improved self-efficacy post-feedback. Our findings demonstrate the potential of feedback-driven, AI-in-the-loop writing systems to empower humans in open-ended, social, creative tasks such as empathic conversations.
翻訳日:2022-03-30 16:41:52 公開日:2022-03-28
# 深い対話型学習に基づく全スライド画像の卵巣癌分節化によるBRCA変異の形態学的解析

Deep Interactive Learning-based ovarian cancer segmentation of H&E-stained whole slide images to study morphological patterns of BRCA mutation ( http://arxiv.org/abs/2203.15015v1 )

ライセンス: Link先を確認
David Joon Ho, M. Herman Chui, Chad M. Vanderbilt, Jiwon Jung, Mark E. Robson, Chan-Sik Park, Jin Roh, Thomas J. Fuchs(参考訳) 深層学習は、デジタル化されたヘマトキシリンとエオシン(H&E)によるスライド画像全体の病理組織学的解析に広く用いられている。 深層学習を用いた自動癌セグメンテーションは悪性腫瘍の診断や、分子サブタイプを予測する新しい形態学的パターンを見つけるために用いられる。 ピクセル単位でのがんセグメンテーションモデルをトレーニングするには、病理学者の手動アノテーションが一般的にボトルネックとなる。 本稿では,異なるがんタイプから事前訓練したセグメンテーションモデルを用いたDeep Interactive Learningを提案し,手動のアノテーション時間を短縮する。 ガンおよび非がん領域からのすべてのピクセルをgiga-pixel全体のスライドイメージにアノテートする代わりに、セグメンテーションモデルから誤記された領域にアノテートし、追加のアノテーションでモデルをトレーニング/微調整する反復プロセスが時間を短縮することができる。 特に、事前訓練されたセグメンテーションモデルを使用することで、アノテーションをスクラッチから始めるよりも時間が短縮できる。 術前乳房分節モデルを用いた卵巣癌分節モデルの訓練を3.5時間行い,0.74,0.86,精度0.84を達成した。 卵巣癌を自動抽出し,BRCA変異を予測するための深部学習モデルを構築した。 セグメンテーションモデルとコードはhttps://github.com/MSKCC-Computational-Pathology/DMMN-ovaryでリリースされた。

Deep learning has been widely used to analyze digitized hematoxylin and eosin (H&E)-stained histopathology whole slide images. Automated cancer segmentation using deep learning can be used to diagnose malignancy and to find novel morphological patterns to predict molecular subtypes. To train pixel-wise cancer segmentation models, manual annotation from pathologists is generally a bottleneck due to its time-consuming nature. In this paper, we propose Deep Interactive Learning with a pretrained segmentation model from a different cancer type to reduce manual annotation time. Instead of annotating all pixels from cancer and non-cancer regions on giga-pixel whole slide images, an iterative process of annotating mislabeled regions from a segmentation model and training/finetuning the model with the additional annotation can reduce the time. Especially, employing a pretrained segmentation model can further reduce the time than starting annotation from scratch. We trained an accurate ovarian cancer segmentation model with a pretrained breast segmentation model by 3.5 hours of manual annotation which achieved intersection-over-union of 0.74, recall of 0.86, and precision of 0.84. With automatically extracted high-grade serous ovarian cancer patches, we attempted to train another deep learning model to predict BRCA mutation. The segmentation model and code have been released at https://github.com/MSKCC-Computational-Pathology/DMMN-ovary.
翻訳日:2022-03-30 16:37:30 公開日:2022-03-28
# 顔認証バイパス

Face Verification Bypass ( http://arxiv.org/abs/2203.15068v1 )

ライセンス: Link先を確認
Sanjana Sarda(参考訳) 顔認証システムは、特徴ベクトルと距離メトリクスを用いて、請求項の同一性を検証することを目的としている。 しかし、同じ特徴ベクトルで制約された生成された画像を用いてそのようなシステムをバイパスする試みは行われていない。 本研究では、stargan v2 を訓練し、類似した特徴ベクトルを持つが質的に異なる人間のユーザに基づいて多様な画像を生成する。 次に,類似の顔認証システムを利用するデートアプリケーション上で,ブラックボックスで同じ概念を示すことによって,カスタム顔認証システムにおける概念実証とクレームの検証を行う。

Face verification systems aim to validate the claimed identity using feature vectors and distance metrics. However, no attempt has been made to bypass such a system using generated images that are constrained by the same feature vectors. In this work, we train StarGAN v2 to generate diverse images based on a human user, that have similar feature vectors yet qualitatively look different. We then demonstrate a proof of concept on a custom face verification system and verify our claims by demonstrating the same proof of concept in a black box setting on dating applications that utilize similar face verification systems.
翻訳日:2022-03-30 16:36:59 公開日:2022-03-28
# 深層学習に基づくアクセス制御に向けて

Toward Deep Learning Based Access Control ( http://arxiv.org/abs/2203.15124v1 )

ライセンス: Link先を確認
Mohammad Nur Nobi, Ram Krishnan, Yufei Huang, Mehrnoosh Shakarami, Ravi Sandhu(参考訳) 現在のアクセス制御アプローチの共通の特徴は、抽象的で直感的なアクセス制御モデルを設計する必要があることである。 これは、ロール(rbac)、属性(abac)、リレーションシップ(rebac)という形でアクセス制御情報を設計することを含み、その後アクセス制御ルールを設計する。 このフレームワークにはメリットがあるが、人間の管理者がシステムの正確なアクセス制御状態を維持することが困難であるため、動的で複雑で大規模である現代のシステムのコンテキストにおいて大きな制限がある。 本稿では,この問題の潜在的な解決策として,ディープラーニング技術の大幅な進歩を活用することで,DLBAC(Deep Learning Based Access Control)を提案する。 DLBACが補完し、長期的には、古典的なアクセス制御モデルをニューラルネットワークに置き換える可能性があり、アクセス制御モデルのエンジニアリングと更新の負担を軽減できると考えています。 一般性を失うことなく、実世界のデータセットと合成データセットの両方を用いて、DLBAC_alphaと呼ばれる候補DLBACモデルを徹底的に調査する。 提案手法は,正確性,一般化,説明可能性に関する問題に対処することで実現可能性を示す。 課題と今後の研究方向性についても論じる。

A common trait of current access control approaches is the challenging need to engineer abstract and intuitive access control models. This entails designing access control information in the form of roles (RBAC), attributes (ABAC), or relationships (ReBAC) as the case may be, and subsequently, designing access control rules. This framework has its benefits but has significant limitations in the context of modern systems that are dynamic, complex, and large-scale, due to which it is difficult to maintain an accurate access control state in the system for a human administrator. This paper proposes Deep Learning Based Access Control (DLBAC) by leveraging significant advances in deep learning technology as a potential solution to this problem. We envision that DLBAC could complement and, in the long-term, has the potential to even replace, classical access control models with a neural network that reduces the burden of access control model engineering and updates. Without loss of generality, we conduct a thorough investigation of a candidate DLBAC model, called DLBAC_alpha, using both real-world and synthetic datasets. We demonstrate the feasibility of the proposed approach by addressing issues related to accuracy, generalization, and explainability. We also discuss challenges and future research directions.
翻訳日:2022-03-30 16:30:44 公開日:2022-03-28
# 1石で2羽の鳥を殺す:部分fcによる顔認識cnnの効率的かつロバストな訓練

Killing Two Birds with One Stone:Efficient and Robust Training of Face Recognition CNNs by Partial FC ( http://arxiv.org/abs/2203.15565v1 )

ライセンス: Link先を確認
Xiang An and Jiankang Deng and Jia Guo and Ziyong Feng and Xuhan Zhu and Jing Yang and Tongliang Liu(参考訳) 百万規模のインザワイルドデータセットとマージンベースのソフトマックス損失を用いたディープラーニングの深層特徴埋め込みは、顔認識の現在の最先端のアプローチである。 しかし、Fully Connected (FC)層のメモリと計算コストは、トレーニングセット内のIDの数まで線形にスケールする。 さらに、大規模なトレーニングデータは必然的にクラス間紛争とロングテール分布に苦しむ。 本稿では,PFC (Partial FC) という名前の FC 層を簡潔に更新する手法を提案する。 各イテレーションで正のクラスセンタと負のクラスセンタのランダムサブセットを選択し、マージンベースのソフトマックス損失を計算する。 すべてのクラスセンターはトレーニングプロセス全体を通して維持されるが、各イテレーションでサブセットのみが選択され更新される。 したがって、計算要求、クラス間競合の確率、テールクラスセンターにおけるパッシブ更新の頻度は劇的に減少する。 異なるトレーニングデータとバックボーン(cnnやvitなど)にまたがる広範な実験により、提案するpfcの有効性、堅牢性、効率性が確認された。 ソースコードはhttps://github.com/deepinsight/insightface/tree/master/recognitionで入手できる。

Learning discriminative deep feature embeddings by using million-scale in-the-wild datasets and margin-based softmax loss is the current state-of-the-art approach for face recognition. However, the memory and computing cost of the Fully Connected (FC) layer linearly scales up to the number of identities in the training set. Besides, the large-scale training data inevitably suffers from inter-class conflict and long-tailed distribution. In this paper, we propose a sparsely updating variant of the FC layer, named Partial FC (PFC). In each iteration, positive class centers and a random subset of negative class centers are selected to compute the margin-based softmax loss. All class centers are still maintained throughout the whole training process, but only a subset is selected and updated in each iteration. Therefore, the computing requirement, the probability of inter-class conflict, and the frequency of passive update on tail class centers, are dramatically reduced. Extensive experiments across different training data and backbones (e.g. CNN and ViT) confirm the effectiveness, robustness and efficiency of the proposed PFC. The source code is available at \https://github.com/deepinsight/insightface/tree/master/recognition.
翻訳日:2022-03-30 15:41:26 公開日:2022-03-28
# X-Pool:テキストビデオ検索のためのクロスプラットフォーム言語ビデオアテンション

X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval ( http://arxiv.org/abs/2203.15086v1 )

ライセンス: Link先を確認
Satya Krishna Gorti, Noel Vouitsis, Junwei Ma, Keyvan Golestan, Maksims Volkovs, Animesh Garg, Guangwei Yu(参考訳) テキスト・ビデオ検索では、テキストとビデオの相互モーダル類似度関数を学習し、関連するテキスト・ビデオ対を無関係対よりも上位にランク付けする。 しかし、ビデオは本質的にテキストよりもずっと広い範囲の情報を表現している。 その代わり、テキストはビデオ全体のサブリージョンをキャプチャし、ビデオ内の特定のフレームに最もセマンティックに類似している。 したがって、あるテキストに対して、検索モデルはテキストの最も意味的に類似したビデオサブリージョンに焦点を当て、より関連性の高い比較を行う必要がある。 しかし、既存の作品の多くはテキストを直接考慮せずにビデオ全体を集約している。 一般的なテキストに依存しないアグリゲーションスキームには、フレーム上の平均プーリングや自己注意が含まれるが、これらは与えられたテキストに記述されていない誤解を招く視覚情報をエンコードする可能性が高い。 そこで本稿では,テキストと動画のフレーム間を理由とするクロスモーダル注意モデルであるx-poolを提案する。 私たちのコアメカニズムは、テキストが最もセマンティックに類似したフレームに参加するための、スケールしたドット製品アテンションです。 次に、フレーム上のテキストの注意重みに基づいて、集約されたビデオ表現を生成する。 MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセットを用いて, Recall@1の相対的改善率を最大12%向上した。 以上の結果から,テキストによる視覚手がかり抽出におけるテキスト・ビデオ共同推論の重要性が浮き彫りになった。 完全なコードとデモは、https://layer6ai-labs.github.io/xpool/で見ることができる。

In text-video retrieval, the objective is to learn a cross-modal similarity function between a text and a video that ranks relevant text-video pairs higher than irrelevant pairs. However, videos inherently express a much wider gamut of information than texts. Instead, texts often capture sub-regions of entire videos and are most semantically similar to certain frames within videos. Therefore, for a given text, a retrieval model should focus on the text's most semantically similar video sub-regions to make a more relevant comparison. Yet, most existing works aggregate entire videos without directly considering text. Common text-agnostic aggregations schemes include mean-pooling or self-attention over the frames, but these are likely to encode misleading visual information not described in the given text. To address this, we propose a cross-modal attention model called X-Pool that reasons between a text and the frames of a video. Our core mechanism is a scaled dot product attention for a text to attend to its most semantically similar frames. We then generate an aggregated video representation conditioned on the text's attention weights over the frames. We evaluate our method on three benchmark datasets of MSR-VTT, MSVD and LSMDC, achieving new state-of-the-art results by up to 12% in relative improvement in Recall@1. Our findings thereby highlight the importance of joint text-video reasoning to extract important visual cues according to text. Full code and demo can be found at: https://layer6ai-labs.github.io/xpool/
翻訳日:2022-03-30 14:14:39 公開日:2022-03-28
# tl-gan: 自動運転のためのデータ合成による交通光認識の改善

TL-GAN: Improving Traffic Light Recognition via Data Synthesis for Autonomous Driving ( http://arxiv.org/abs/2203.15006v1 )

ライセンス: Link先を確認
Danfeng Wang and Xin Ma and Xiaodong Yang(参考訳) 自動運転車の知覚モジュールの重要な要素である交通光認識は、インテリジェントな輸送システムにおいて重要な役割を果たす。 一般的なディープラーニングベースのトラヒック光認識手法は、トレーニングデータの大量かつ豊富な多様性に大きく依存している。 しかし, 点滅, ブラックアウト, 極端な天候などの稀なシナリオでデータを収集することは極めて困難であり, 結果としてトレーニングデータの不均衡分布が生じ, 希少なクラスを認識する上での劣化性能が低下する。 本稿では,データ合成を活用し,交通光認識の改善を目指す。 我々は、gans(generative adversarial networks)に触発されて、希少クラスのデータを合成し、自動運転のための交通光認識を改善する新しい交通光生成手法tl-ganを提案する。 TL-GANは、トラフィック光シーケンス生成を画像合成とシーケンス組み立てに切り離す。 画像合成段階では、条件付き生成により生成された交通光画像の色をフルに制御できる。 シーケンス合成段階において,スタイル混合と適応テンプレートをデザインし,リアルで多様な交通光列を合成する。 大規模な実験により,提案したTL-GANは,生成したデータを用いることなく,ベースラインに対して顕著な改善を施し,一般画像合成やデータ不均衡処理に使用される競合アルゴリズムと比較して最先端の性能が向上することが示された。

Traffic light recognition, as a critical component of the perception module of self-driving vehicles, plays a vital role in the intelligent transportation systems. The prevalent deep learning based traffic light recognition methods heavily hinge on the large quantity and rich diversity of training data. However, it is quite challenging to collect data in various rare scenarios such as flashing, blackout or extreme weather, thus resulting in the imbalanced distribution of training data and consequently the degraded performance in recognizing rare classes. In this paper, we seek to improve traffic light recognition by leveraging data synthesis. Inspired by the generative adversarial networks (GANs), we propose a novel traffic light generation approach TL-GAN to synthesize the data of rare classes to improve traffic light recognition for autonomous driving. TL-GAN disentangles traffic light sequence generation into image synthesis and sequence assembling. In the image synthesis stage, our approach enables conditional generation to allow full control of the color of the generated traffic light images. In the sequence assembling stage, we design the style mixing and adaptive template to synthesize realistic and diverse traffic light sequences. Extensive experiments show that the proposed TL-GAN renders remarkable improvement over the baseline without using the generated data, leading to the state-of-the-art performance in comparison with the competing algorithms that are used for general image synthesis and data imbalance tackling.
翻訳日:2022-03-30 14:02:45 公開日:2022-03-28
# 明示的に暗黙に登録する:単一画像からの高忠実な衣料メッシュ再構築に向けて

Registering Explicit to Implicit: Towards High-Fidelity Garment mesh Reconstruction from Single Images ( http://arxiv.org/abs/2203.15007v1 )

ライセンス: Link先を確認
Heming Zhu, Lingteng Qiu, Yuda Qiu, Xiaoguang Han(参考訳) 深層学習技術と暗黙的な形状学習の力によって、最近の画像のデジタル化の進歩は前例のない精度に達し、衣服のしわのようなきめ細かな表面の細部を復元することができる。 しかしながら、暗黙的手法の一般的な問題は、現在の3Dコンテンツ作成パイプラインにおいて不可欠である、各衣服に対して分離されたトポロジに一貫性のあるメッシュを生成できないことである。 この問題に対処するために,一画像から予測される全身暗黙フィールドに明示的な衣服テンプレートを登録することにより,トポロジに一貫性のある衣服メッシュを再構築する新しい幾何学推論フレームワークReEFを提案する。 実験により,本手法は,単像の層状衣料の再現において特に優れており,高品質なデジタル資産をコンテンツ制作に活用できることを示した。

Fueled by the power of deep learning techniques and implicit shape learning, recent advances in single-image human digitalization have reached unprecedented accuracy and could recover fine-grained surface details such as garment wrinkles. However, a common problem for the implicit-based methods is that they cannot produce separated and topology-consistent mesh for each garment piece, which is crucial for the current 3D content creation pipeline. To address this issue, we proposed a novel geometry inference framework ReEF that reconstructs topology-consistent layered garment mesh by registering the explicit garment template to the whole-body implicit fields predicted from single images. Experiments demonstrate that our method notably outperforms its counterparts on single-image layered garment reconstruction and could bring high-quality digital assets for further content creation.
翻訳日:2022-03-30 14:02:22 公開日:2022-03-28
# 非教師なし超スペクトル画像セグメンテーションのための分布依存ムンフォード・シャーモデル

A distribution-dependent Mumford-Shah model for unsupervised hyperspectral image segmentation ( http://arxiv.org/abs/2203.15058v1 )

ライセンス: Link先を確認
Jan-Christopher Cohrs, Chandrajit Bajaj, Benjamin Berkels(参考訳) ハイパースペクトル画像は、各ピクセルのスペクトルのリッチな表現を提供し、画素単位での分類/分類を異なるクラスにすることができる。 ラベル付きトレーニングデータの取得は非常に時間がかかるため、ハイパースペクトル画像解析において教師なしの手法が重要となる。 ハイパースペクトルデータのスペクトル変動性とノイズは、この課題を非常に困難にし、そのような方法の特別な要件を定義する。 本稿では,教師なしハイパースペクトルセグメンテーションフレームワークを提案する。 これは、MNF(Minimum Noise Fraction)変換によって、デノゲーションと次元の低減ステップから始まる。 次に、mumford-shah(ms)セグメンテーション機能を適用してデータをセグメンテーションする。 我々は高スペクトルデータの特徴的問題に対処するために,MS関数に新しい頑健な分布依存型インジケータ関数を組み込んだ。 閉形式解が存在しないパラメータに関して,目的関数を最適化するために,効率的な固定点反復スキームを提案する。 4つのベンチマークデータセットにおける数値実験により,3つのデータセットにおいて2つの最先端手法を実質的に上回る競争結果が得られた。

Hyperspectral images provide a rich representation of the underlying spectrum for each pixel, allowing for a pixel-wise classification/segmentation into different classes. As the acquisition of labeled training data is very time-consuming, unsupervised methods become crucial in hyperspectral image analysis. The spectral variability and noise in hyperspectral data make this task very challenging and define special requirements for such methods. Here, we present a novel unsupervised hyperspectral segmentation framework. It starts with a denoising and dimensionality reduction step by the well-established Minimum Noise Fraction (MNF) transform. Then, the Mumford-Shah (MS) segmentation functional is applied to segment the data. We equipped the MS functional with a novel robust distribution-dependent indicator function designed to handle the characteristic challenges of hyperspectral data. To optimize our objective function with respect to the parameters for which no closed form solution is available, we propose an efficient fixed point iteration scheme. Numerical experiments on four public benchmark datasets show that our method produces competitive results, which outperform two state-of-the-art methods substantially on three of these datasets.
翻訳日:2022-03-30 14:02:05 公開日:2022-03-28
# DeepShadow: シャドーからの神経形

DeepShadow: Neural Shape from Shadow ( http://arxiv.org/abs/2203.15065v1 )

ライセンス: Link先を確認
Asaf Karnieli, Ohad Fried, Yacov Hel-Or(参考訳) 本稿では,フォトメトリックステレオシャドーマップから深度マップと表面正規分布を復元するワンショット手法であるdeepshadowを提案する。 光度ステレオ画像から表面の正常さを回復しようとする以前の研究は、キャストシャドウを外乱として扱う。 本研究は, 自己および鋳型影が3次元再構成を妨害するだけでなく, 深度マップや表面の正常を回復するために, 強力な学習信号として単独で使用できることを示す。 影からの3次元再構成は、特定の場合においてシェーディングの形状よりも優れることを示す。 我々の知る限りでは、ニューラルネットワークを用いて影から3次元形状を再構築する最初の方法である。 この方法は事前トレーニングや高価なラベル付きデータを必要とせず、推論時に最適化される。

This paper presents DeepShadow, a one-shot method for recovering the depth map and surface normals from photometric stereo shadow maps. Previous works that try to recover the surface normals from photometric stereo images treat cast shadows as a disturbance. We show that the self and cast shadows not only do not disturb 3D reconstruction, but can be used alone, as a strong learning signal, to recover the depth map and surface normals. We demonstrate that 3D reconstruction from shadows can even outperform shape-from-shading in certain cases. To the best of our knowledge, our method is the first to reconstruct 3D shape-from-shadows using neural networks. The method does not require any pre-training or expensive labeled data, and is optimized during inference time.
翻訳日:2022-03-30 14:01:46 公開日:2022-03-28
# CD-Net:ピラミッドコンテキスト詳細ネットワークを用いた病理組織学的表現学習

CD-Net: Histopathology Representation Learning using Pyramidal Context-Detail Network ( http://arxiv.org/abs/2203.15078v1 )

ライセンス: Link先を確認
Saarthak Kapse, Srijan Das, Prateek Prasanna(参考訳) all slide histology images (wsis) から細胞密度や配列などの豊富な表現型情報を抽出するには、より大きな視野、すなわちよりコンテックスな情報の解析が必要である。 これはデジタルスライドを低解像度で解析することで実現できる。 潜在的な欠点は、より高い解像度にある詳細について欠落している。 複数の解像度からの補完情報を協調的に活用するために,新しいトランスフォーマーをベースとしたPraamidal Context-Detail Network(CD-Net)を提案する。 CD-Netは、複数の解像度からの入力を操作する提案されたContextとDetail Modulesの協調トレーニングを通じてWSIピラミッド構造を利用する。 モジュール間の残りの接続は、WSIの自己教師型表現を学習しながら、共同トレーニングパラダイムを可能にする。 cd-netは扁平上皮癌の肺腺癌の分類に有用である。

Extracting rich phenotype information, such as cell density and arrangement, from whole slide histology images (WSIs), requires analysis of large field of view, i.e more contexual information. This can be achieved through analyzing the digital slides at lower resolution. A potential drawback is missing out on details present at a higher resolution. To jointly leverage complementary information from multiple resolutions, we present a novel transformer based Pyramidal Context-Detail Network (CD-Net). CD-Net exploits the WSI pyramidal structure through co-training of proposed Context and Detail Modules, which operate on inputs from multiple resolutions. The residual connections between the modules enable the joint training paradigm while learning self-supervised representation for WSIs. The efficacy of CD-Net is demonstrated in classifying Lung Adenocarcinoma from Squamous cell carcinoma.
翻訳日:2022-03-30 14:01:33 公開日:2022-03-28
# DAMNETS: Markovian Network Time Series を生成するための深い自己回帰モデル

DAMNETS: A Deep Autoregressive Model for Generating Markovian Network Time Series ( http://arxiv.org/abs/2203.15009v1 )

ライセンス: Link先を確認
Jase Clarkson, Mihai Cucuringu, Andrew Elliott, Gesine Reinert(参考訳) 本稿では,マルコフネットワーク時系列の深部生成モデルであるDAMNETSを紹介する。 時系列ネットワークは、経済における取引や支払いネットワーク、疫学におけるコンタクトネットワーク、ソーシャルメディア投稿など、多くの分野で見られる。 このようなデータの生成モデルは、データのプライバシとモデル適合性の両方において興味深いモンテカルロ推定とデータセット拡張に有用である。 グラフニューラルネットワーク(GNN)の最近の考え方を用いて,エンコーダGNNが入力グラフの潜在表現を学習する新しいGNNエンコーダデコーダ構造を導入し,デコーダGNNはこの表現を用いてネットワークダイナミクスをシミュレートする。 DAMNETSは、コミュニティ構造や優先的なアタッチメントの変化など、実世界で観測された時間にわたってネットワークトポロジの特徴を再現できる合成データセットを用いて示す。 DAMNETSは、実データと合成データに比較して、サンプル品質のすべての尺度で競合する手法より優れている。

In this work, we introduce DAMNETS, a deep generative model for Markovian network time series. Time series of networks are found in many fields such as trade or payment networks in economics, contact networks in epidemiology or social media posts over time. Generative models of such data are useful for Monte-Carlo estimation and data set expansion, which is of interest for both data privacy and model fitting. Using recent ideas from the Graph Neural Network (GNN) literature, we introduce a novel GNN encoder-decoder structure in which an encoder GNN learns a latent representation of the input graph, and a decoder GNN uses this representation to simulate the network dynamics. We show using synthetic data sets that DAMNETS can replicate features of network topology across time observed in the real world, such as changing community structure and preferential attachment. DAMNETS outperforms competing methods on all of our measures of sample quality over several real and synthetic data sets.
翻訳日:2022-03-30 13:58:29 公開日:2022-03-28
# 木探索とグラフニューラルネットワークを用いた時間制御性制限下での不確実性を持つ分断時間ネットワークの解法

Solving Disjunctive Temporal Networks with Uncertainty under Restricted Time-Based Controllability using Tree Search and Graph Neural Networks ( http://arxiv.org/abs/2203.15030v1 )

ライセンス: Link先を確認
Kevin Osanlou, Jeremy Frank, Andrei Bursuc, Tristan Cazenave, Eric Jacopin, Christophe Guettier and J. Benton(参考訳) 本研究では,不確実性のある時間ネットワーク(DTNU)と呼ばれるスケジューリング問題に対して,木探索とグラフ機械学習に基づく新しい手法を提案する。 DTNUの動的制御可能性(DC)は、制御不能な動作時間に対する時間的制約を満たすために、リアクティブなスケジューリング戦略を求める。 本稿では、時間に基づく動的制御可能性(TDC)とTDCの制限されたサブセットであるR-TDCを紹介する。 DTNUがR-TDCであるか否かを判定する木探索アルゴリズムを設計する。 さらに,木探索誘導のヒューリスティックとしてグラフニューラルネットワークを利用する。 最後に、R-TDCがDCに関して顕著な完全性を維持しつつ、証明が高速であることを示す既知のベンチマーク実験を行う。 その結果,直流の直流分解器が同じ時間予算で行うよりも,R-TDCのDTNU問題の方が50%多いことがわかった。 また,グラフニューラルネットワークの探索誘導は,より複雑なDTNUのベンチマークにおいて,ベースライン木探索の最大11倍の問題を解き、大幅な性能向上をもたらすことも確認した。

We present a novel approach based on tree search and graph machine learning for the scheduling problem known as Disjunctive Temporal Networks with Uncertainty (DTNU). Dynamic Controllability (DC) of DTNUs seeks a reactive scheduling strategy to satisfy temporal constraints in response to uncontrollable action durations. We introduce new semantics for reactive scheduling: Time-based Dynamic Controllability (TDC) and a restricted subset of TDC, R-TDC. We design a tree search algorithm to determine whether or not a DTNU is R-TDC. Moreover, we leverage a graph neural network as a heuristic for tree search guidance. Finally, we conduct experiments on a known benchmark on which we show R-TDC to retain significant completeness with regard to DC, while being faster to prove. This results in the tree search processing fifty percent more DTNU problems in R-TDC than the state-of-the-art DC solver does in DC with the same time budget. We also observe that graph neural network search guidance leads to substantial performance gains on benchmarks of more complex DTNUs, with up to eleven times more problems solved than the baseline tree search.
翻訳日:2022-03-30 13:55:26 公開日:2022-03-28
# 実世界ラベルのない光学的流れ, 深さ, シーンフローの学習

Learning Optical Flow, Depth, and Scene Flow without Real-World Labels ( http://arxiv.org/abs/2203.15089v1 )

ライセンス: Link先を確認
Vitor Guizilini, Kuan-Hui Lee, Rares Ambrus, Adrien Gaidon(参考訳) ロボットは生のビデオストリームから3D知覚を学習することができる。 このスケーラブルなアプローチは、射影幾何学とエゴモーションを利用して、世界がほとんど静的であると仮定して、ビュー合成を通して学ぶ。 自律運転や人間とロボットのインタラクションに共通する動的なシーンは、この前提に反する。 そのため、例えば、ピクセルワイド3Dモーション、すなわちシーンフローを推定することで、動的オブジェクトを明示的にモデリングする必要がある。 しかし, 深度とシーンフローの同時学習は, 無限に多くの組み合わせが存在するため, 同一の3次元点が得られる。 本稿では,合成データと幾何学的自己スーパービジョンを組み合わせることにより,深度,光流,シーンフローを共同学習できる新しい手法を提案する。 RAFTアーキテクチャ上に構築した光学フローは,三角測量による奥行きのブートストラップとシーンフロー学習の中間タスクとして学習する。 また,タスク間の時間的・幾何学的整合性損失を利用してマルチタスク学習を改善する。 我々のDRAFTアーキテクチャは、標準KITTIベンチマークにおける自己監督単分子設定において、3つのタスクすべてにおいて、同時に新しい技術状態を確立する。 プロジェクトページ: https://sites.google.com/tri.global/draft.com

Self-supervised monocular depth estimation enables robots to learn 3D perception from raw video streams. This scalable approach leverages projective geometry and ego-motion to learn via view synthesis, assuming the world is mostly static. Dynamic scenes, which are common in autonomous driving and human-robot interaction, violate this assumption. Therefore, they require modeling dynamic objects explicitly, for instance via estimating pixel-wise 3D motion, i.e. scene flow. However, the simultaneous self-supervised learning of depth and scene flow is ill-posed, as there are infinitely many combinations that result in the same 3D point. In this paper we propose DRAFT, a new method capable of jointly learning depth, optical flow, and scene flow by combining synthetic data with geometric self-supervision. Building upon the RAFT architecture, we learn optical flow as an intermediate task to bootstrap depth and scene flow learning via triangulation. Our algorithm also leverages temporal and geometric consistency losses across tasks to improve multi-task learning. Our DRAFT architecture simultaneously establishes a new state of the art in all three tasks in the self-supervised monocular setting on the standard KITTI benchmark. Project page: https://sites.google.com/tri.global/draft.
翻訳日:2022-03-30 13:44:47 公開日:2022-03-28
# 新しいピラミッド型ハイブリッドテクスチャとディープ機能に基づく皮膚癌自動分類モデル:アンサンブルダークネットとテクスチャ特徴抽出器

New pyramidal hybrid textural and deep features based automatic skin cancer classification model: Ensemble DarkNet and textural feature extractor ( http://arxiv.org/abs/2203.15090v1 )

ライセンス: Link先を確認
Mehmet Baygin, Turker Tuncer, Sengul Dogan(参考訳) 背景:皮膚癌は世界中で広く見られるがんの1つであり、皮膚癌の自動分類は正確な診断のために皮膚科臨床に有用である。 したがって、機械学習に基づく皮膚がんの自動検出モデルを開発する必要がある。 材料及び方法:本研究は、皮膚がんの自動検出問題を克服することに関心を持つ。 色付き皮膚がん画像データセットを使用する。 このデータセットは、2つのクラスを持つ3297のイメージを含んでいる。 自動多段階テクスチャおよびディープ特徴ベースモデルを提案する。 離散ウェーブレット変換(dwt)、局所位相量子化(lpq)、局所バイナリパターン(lbp)、事前訓練されたdarknet19、darknet53を用いたマルチレベルヒューズ特徴生成により、皮膚がん画像の特徴を生成し、閾値に基づく近傍成分分析(nca)によりトップ1000の特徴を選択する。 選ばれた上位1000の機能は、10倍のクロスバリデーション技術を使って分類される。 結果:結果を得るために10倍のクロスバリデーションを用い,推奨ピラミッド型ハイブリッド特徴生成器とncaセレクタベースモデルを用いて91.54%の分類精度を得た。 また、各種の訓練・試験分離比(90:10,80:20,70:30,60:40,50:50)を用い、90:10分離比を用いて最大分類率を95.74%とする。 結論: このモデルは皮膚科・病理診療所において皮膚がん検出プロセスを簡素化し, 医師の助けとなることが示唆された。

Background: Skin cancer is one of the widely seen cancer worldwide and automatic classification of skin cancer can be benefited dermatology clinics for an accurate diagnosis. Hence, a machine learning-based automatic skin cancer detection model must be developed. Material and Method: This research interests to overcome automatic skin cancer detection problem. A colored skin cancer image dataset is used. This dataset contains 3297 images with two classes. An automatic multilevel textural and deep features-based model is presented. Multilevel fuse feature generation using discrete wavelet transform (DWT), local phase quantization (LPQ), local binary pattern (LBP), pre-trained DarkNet19, and DarkNet53 are utilized to generate features of the skin cancer images, top 1000 features are selected threshold value-based neighborhood component analysis (NCA). The chosen top 1000 features are classified using the 10-fold cross-validation technique. Results: To obtain results, ten-fold cross-validation is used and 91.54% classification accuracy results are obtained by using the recommended pyramidal hybrid feature generator and NCA selector-based model. Further, various training and testing separation ratios (90:10, 80:20, 70:30, 60:40, 50:50) are used and the maximum classification rate is calculated as 95.74% using the 90:10 separation ratio. Conclusions: The findings and accuracies calculated are denoted that this model can be used in dermatology and pathology clinics to simplify the skin cancer detection process and help physicians.
翻訳日:2022-03-30 13:44:28 公開日:2022-03-28
# ロバスト3次元物体検出のためのLiDAR降雪シミュレーション

LiDAR Snowfall Simulation for Robust 3D Object Detection ( http://arxiv.org/abs/2203.15118v1 )

ライセンス: Link先を確認
Martin Hahner, Christos Sakaridis, Mario Bijelic, Felix Heide, Fisher Yu, Dengxin Dai, Luc Van Gool(参考訳) 3Dオブジェクト検出は、悪天候があっても周囲の交通機関をローカライズし分類する必要がある自動運転などの応用において中心的な課題である。 本稿では,降雪時のLiDARによる3次元物体検出の問題点について述べる。 そこで,本研究では,実降雪がlidar点雲に与える影響をシミュレートする物理的手法を提案する。 本手法では,LiDAR線毎に2次元空間の雪粒子を採取し,各LiDAR線の測定値の修正に誘導幾何を用いる。 さらに,降雪が地面の湿気を生じさせるため,LiDAR点雲上での地表面の湿気をシミュレートする。 我々はシミュレーションを用いて、部分的に合成された雪のLiDARデータを生成し、これらのデータを利用して、降雪に頑健な3次元物体検出モデルを訓練する。 本研究では,最先端の3dオブジェクト検出手法を用いて広範囲な評価を行い,晴天時の性能を犠牲にすることなく,実雪のstfデータセットにおいて,クリア・ウェザーベースラインや競合するシミュレーション手法と比較して,一貫して有意な性能向上をもたらすことを示す。 私たちのコードはwww.github.com/SysCV/LiDAR_snow_simで利用可能です。

3D object detection is a central task for applications such as autonomous driving, in which the system needs to localize and classify surrounding traffic agents, even in the presence of adverse weather. In this paper, we address the problem of LiDAR-based 3D object detection under snowfall. Due to the difficulty of collecting and annotating training data in this setting, we propose a physically based method to simulate the effect of snowfall on real clear-weather LiDAR point clouds. Our method samples snow particles in 2D space for each LiDAR line and uses the induced geometry to modify the measurement for each LiDAR beam accordingly. Moreover, as snowfall often causes wetness on the ground, we also simulate ground wetness on LiDAR point clouds. We use our simulation to generate partially synthetic snowy LiDAR data and leverage these data for training 3D object detection models that are robust to snowfall. We conduct an extensive evaluation using several state-of-the-art 3D object detection methods and show that our simulation consistently yields significant performance gains on the real snowy STF dataset compared to clear-weather baselines and competing simulation approaches, while not sacrificing performance in clear weather. Our code is available at www.github.com/SysCV/LiDAR_snow_sim.
翻訳日:2022-03-30 13:44:00 公開日:2022-03-28
# 記述するものを分離する:言語に基づく音源分離

Separate What You Describe: Language-Queried Audio Source Separation ( http://arxiv.org/abs/2203.15147v1 )

ライセンス: Link先を確認
Xubo Liu, Haohe Liu, Qiuqiang Kong, Xinhao Mei, Jinzheng Zhao, Qiushi Huang, Mark D. Plumbley, Wenwu Wang(参考訳) 本稿では,対象ソースの自然言語クエリに基づいて,対象ソースと音声混合物を分離することを目的とした言語クエリ音声ソース分離(lass)の課題を紹介する(例えば,「男は冗談を言って笑いながら冗談を言う」など)。 LASSのユニークな課題は、自然言語記述の複雑さとオーディオソースとの関係にある。 この問題に対処するために,音響情報と言語情報を協調的に処理し,言語クエリと一致したターゲットソースをオーディオミックスから分離する,エンドツーエンドのニューラルネットワークLASS-Netを提案する。 提案システムの性能をAudioCapsデータセットから作成したデータセットを用いて評価する。 実験の結果,LASS-Netはベースライン法よりも大幅に改善されていることがわかった。 さらに、LASS-Netは、多種多様な人文記述をクエリとして使用する場合に有望な一般化結果を達成し、実世界のシナリオでの利用の可能性を示している。 分離されたオーディオサンプルとソースコードはhttps://liuxubo717.github.io/LASS-demopageで入手できる。

In this paper, we introduce the task of language-queried audio source separation (LASS), which aims to separate a target source from an audio mixture based on a natural language query of the target source (e.g., "a man tells a joke followed by people laughing"). A unique challenge in LASS is associated with the complexity of natural language description and its relation with the audio sources. To address this issue, we proposed LASS-Net, an end-to-end neural network that is learned to jointly process acoustic and linguistic information, and separate the target source that is consistent with the language query from an audio mixture. We evaluate the performance of our proposed system with a dataset created from the AudioCaps dataset. Experimental results show that LASS-Net achieves considerable improvements over baseline methods. Furthermore, we observe that LASS-Net achieves promising generalization results when using diverse human-annotated descriptions as queries, indicating its potential use in real-world scenarios. The separated audio samples and source code are available at https://liuxubo717.github.io/LASS-demopage.
翻訳日:2022-03-30 13:40:45 公開日:2022-03-28
# 完全クロストランスを用いたFew-Shotオブジェクト検出

Few-Shot Object Detection with Fully Cross-Transformer ( http://arxiv.org/abs/2203.15021v1 )

ライセンス: Link先を確認
Guangxing Han, Jiawei Ma, Shiyuan Huang, Long Chen, Shih-Fu Chang(参考訳) ごく少数のトレーニング例を用いて新しい物体を検出することを目的としたFew-shot Object Detection (FSOD) は、最近コミュニティで大きな関心を集めている。 メトリクス学習に基づく手法は,2分岐型シアムネットワークを用いてこの課題に有効であることが実証され,画像領域と少数ショット例の類似性を計算する。 しかし、以前の研究では、2つのブランチ間の相互作用は検出ヘッドでのみ制限され、残りの数百のレイヤは別々の特徴抽出のために残されている。 近年の視覚変換器と視覚言語変換器の研究に触発されて,機能バックボーンと検出ヘッドの両方にクロストランスを組み込むことで,FSODのための新しい完全クロストランスモデル(FCT)を提案する。 バッチサイズが異なる2つのブランチから鍵情報を集約するために,非対称なクロスアテンションを提案する。 本モデルでは,マルチレベルインタラクションを導入することで,2つのブランチ間の類似性学習を改善できる。 PASCAL VOCとMSCOCO FSODベンチマークの総合的な実験により,本モデルの有効性が示された。

Few-shot object detection (FSOD), with the aim to detect novel objects using very few training examples, has recently attracted great research interest in the community. Metric-learning based methods have been demonstrated to be effective for this task using a two-branch based siamese network, and calculate the similarity between image regions and few-shot examples for detection. However, in previous works, the interaction between the two branches is only restricted in the detection head, while leaving the remaining hundreds of layers for separate feature extraction. Inspired by the recent work on vision transformers and vision-language transformers, we propose a novel Fully Cross-Transformer based model (FCT) for FSOD by incorporating cross-transformer into both the feature backbone and detection head. The asymmetric-batched cross-attention is proposed to aggregate the key information from the two branches with different batch sizes. Our model can improve the few-shot similarity learning between the two branches by introducing the multi-level interactions. Comprehensive experiments on both PASCAL VOC and MSCOCO FSOD benchmarks demonstrate the effectiveness of our model.
翻訳日:2022-03-30 13:40:27 公開日:2022-03-28
# 変形性および高齢者の音声認識におけるオンザフライ特徴に基づく話者適応

On-the-fly Feature Based Speaker Adaptation for Dysarthric and Elderly Speech Recognition ( http://arxiv.org/abs/2203.14593v1 )

ライセンス: Link先を確認
Mengzhe Geng, Xurong Xie, Rongfeng Su, Jianwei Yu, Zi Ye, Xunying Liu, Helen Meng(参考訳) 歩行障害と高齢者音声の自動認識 : 難易度の高い課題 話者レベルの不均一性は、通常音声に見られるアクセントや性別に起因し、年齢や言語障害の重大度に集約された場合、話者間で大きな多様性を生み出す。 話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たす。 彼らのモビリティ問題は、モデルベースの適応に利用可能な話者レベルデータの量を制限する。 そこで本研究では,高速話者適応法に基づく2種類の特徴量について検討する。 1つは、話者レベルの分散正規化スペクトルベース埋め込み(SBEVR)機能に基づいており、もう1つは、話者レベルのスペクトル特徴に基づいて調整されたオンザフライ学習隠れユニットコントリビューション(LHUC)変換を使用する。 uaspeech dysarthric and dimentiabank pitt elderly speech datasetで行った実験によると、sbevrの特徴に基づく適応は、平均的なオンザフライi-vectorのハイブリッドtdnn/dnnシステムを最大2.48%の絶対 (7.92%の相対的) の単語誤り率 (wer) の低減と、全話者レベルデータを用いたオフラインバッチモードモデルに基づくlhuc適応で0.78%の絶対 (2.41%相対的) に上回っている。

Automatic recognition of dysarthric and elderly speech highly challenging tasks to date. Speaker-level heterogeneity attributed to accent or gender commonly found in normal speech, when aggregated with age and speech impairment severity, create large diversity among speakers. Speaker adaptation techniques play a crucial role in personalization of ASR systems for such users. Their mobility issues limit the amount of speaker-level data available for model based adaptation. To this end, this paper investigates two novel forms of feature based on-the-fly rapid speaker adaptation approaches. The first is based on speaker-level variance regularized spectral basis embedding (SBEVR) features, while the other uses on-the-fly learning hidden unit contributions (LHUC) transforms conditioned on speaker-level spectral features. Experiments conducted on the UASpeech dysarthric and DimentiaBank Pitt elderly speech datasets suggest the proposed SBEVR features based adaptation statistically significantly outperform both the baseline on-the-fly i-Vector adapted hybrid TDNN/DNN systems by up to 2.48% absolute (7.92% relative) reduction in word error rate (WER), and offline batch mode model based LHUC adaptation using all speaker-level data by 0.78% absolute (2.41% relative) in WER reduction.
翻訳日:2022-03-30 13:37:12 公開日:2022-03-28
# booleanルール説明によるユーザ駆動モデル調整

User Driven Model Adjustment via Boolean Rule Explanations ( http://arxiv.org/abs/2203.15071v1 )

ライセンス: Link先を確認
Elizabeth M. Daly, Massimiliano Mattetti, \"Oznur Alkan, Rahul Nair(参考訳) AIソリューションは、入力トレーニングデータの質と正確性に大きく依存するが、トレーニングデータは、常に最新のポリシーの状況を完全に反映しているか、ビジネスロジックを欠いている可能性がある。 説明可能性の進歩により、ユーザがML予測の解釈可能な説明と対話して、システムの現在の現実をより正確に反映する修正や制約を注入することが可能になった。 本稿では,MLモデルの予測能力を活用しながら,ユーザが決定境界に対する修正を指定できるソリューションを提案する。 当社のインタラクティブオーバーレイアプローチでは,モデルの再トレーニングを必要とせずにこの目標を達成しています。 ユーザフィードバックルールをML予測に階層化して即時変更を提供することで,少ないデータで学習を支援することを実証する。

AI solutions are heavily dependant on the quality and accuracy of the input training data, however the training data may not always fully reflect the most up-to-date policy landscape or may be missing business logic. The advances in explainability have opened the possibility of allowing users to interact with interpretable explanations of ML predictions in order to inject modifications or constraints that more accurately reflect current realities of the system. In this paper, we present a solution which leverages the predictive power of ML models while allowing the user to specify modifications to decision boundaries. Our interactive overlay approach achieves this goal without requiring model retraining, making it appropriate for systems that need to apply instant changes to their decision making. We demonstrate that user feedback rules can be layered with the ML predictions to provide immediate changes which in turn supports learning with less data.
翻訳日:2022-03-30 13:36:22 公開日:2022-03-28
# CMGAN:音声強調のためのコンバータベースメトリックGAN

CMGAN: Conformer-based Metric GAN for Speech Enhancement ( http://arxiv.org/abs/2203.15149v1 )

ライセンス: Link先を確認
Ruizhe Cao, Sherif Abdulatif, Bin Yang(参考訳) 近年,畳み込み拡張変換器(Conformer)は,音声信号の局所的および大域的依存関係を捕捉し,音声認識(ASR)と時間領域音声強調(SE)において有望な性能を実現している。 本稿では、時間周波数(TF)領域におけるSEのためのコンバータベース計量生成逆ネットワーク(CMGAN)を提案する。 生成器では2段コンバータブロックを用いて時間と周波数の双方の依存性をモデル化し,全等級および複雑なスペクトログラム情報を集約する。 マグニチュードと複素スペクトログラムの推定はデコーダの段階でデカップリングされ、統合されて拡張音声を再構築する。 さらに、対応する評価スコアに対してジェネレータを最適化することにより、拡張推定音声の品質をさらに向上させるために、計量判別器を用いる。 Voice Bank+DEMANDデータセットの定量的分析は、CMGANが、マージン3.41のPSSQと11.10dBのSSNRといった、様々な過去のモデルを上回る能力を示している。

Recently, convolution-augmented transformer (Conformer) has achieved promising performance in automatic speech recognition (ASR) and time-domain speech enhancement (SE), as it can capture both local and global dependencies in the speech signal. In this paper, we propose a conformer-based metric generative adversarial network (CMGAN) for SE in the time-frequency (TF) domain. In the generator, we utilize two-stage conformer blocks to aggregate all magnitude and complex spectrogram information by modeling both time and frequency dependencies. The estimation of magnitude and complex spectrogram is decoupled in the decoder stage and then jointly incorporated to reconstruct the enhanced speech. In addition, a metric discriminator is employed to further improve the quality of the enhanced estimated speech by optimizing the generator with respect to a corresponding evaluation score. Quantitative analysis on Voice Bank+DEMAND dataset indicates the capability of CMGAN in outperforming various previous models with a margin, i.e., PESQ of 3.41 and SSNR of 11.10 dB.
翻訳日:2022-03-30 13:36:08 公開日:2022-03-28
# 非パラメトリック混合学習のための超多項下限

A super-polynomial lower bound for learning nonparametric mixtures ( http://arxiv.org/abs/2203.15150v1 )

ライセンス: Link先を確認
Bryon Aragam, Wai Ming Tai(参考訳) 有限混合系で非パラメトリック分布を学習する問題について検討し、そのモデルにおける成分分布を学習するサンプル複雑性の超多項下界を確立する。 すなわち、$f$ where$f=\sum_{i=1}^k w_i f_i, \quad\sum_{i=1}^k w_i=1, \quad w_i>0 $$ のサンプルが与えられる。 f_i$の仮定がなければ、この問題は正しくない。 成分 $f_i$ を識別するために、各$f_i$ はガウスの畳み込みとコンパクトに支持された密度 $\nu_i$ と $\text{supp}(\nu_i)\cap \text{supp}(\nu_j)=\emptyset$ と書けると仮定する。 我々の主な結果は、$\Omega((\frac{1}{\varepsilon})^{C\log \frac{1}{\varepsilon}})$サンプルが各$f_i$を推定するために必要であることを示している。 この証明はガウスの近似の速さに依存しており、これは独立興味を持つかもしれない。 この結果は、機械学習アプリケーションで発生するより一般的な非パラメトリック潜在変数モデルを学ぶことの難しさに重要な意味を持つ。

We study the problem of learning nonparametric distributions in a finite mixture, and establish a super-polynomial lower bound on the sample complexity of learning the component distributions in such models. Namely, we are given i.i.d. samples from $f$ where $$ f=\sum_{i=1}^k w_i f_i, \quad\sum_{i=1}^k w_i=1, \quad w_i>0 $$ and we are interested in learning each component $f_i$. Without any assumptions on $f_i$, this problem is ill-posed. In order to identify the components $f_i$, we assume that each $f_i$ can be written as a convolution of a Gaussian and a compactly supported density $\nu_i$ with $\text{supp}(\nu_i)\cap \text{supp}(\nu_j)=\emptyset$. Our main result shows that $\Omega((\frac{1}{\varepsilon})^{C\log\log \frac{1}{\varepsilon}})$ samples are required for estimating each $f_i$. The proof relies on a fast rate for approximation with Gaussians, which may be of independent interest. This result has important implications for the hardness of learning more general nonparametric latent variable models that arise in machine learning applications.
翻訳日:2022-03-30 13:33:48 公開日:2022-03-28
# 非知覚エンティティへの一般化のためのパラメータ化タスク構造学習

Learning Parameterized Task Structure for Generalization to Unseen Entities ( http://arxiv.org/abs/2203.15034v1 )

ライセンス: Link先を確認
Anthony Z. Liu, Sungryull Sohn, Mahdi Qazwini, and Honglak Lee(参考訳) 現実世界のタスクは階層的で構成的です。 タスクは、互いに依存する複数のサブタスク(またはサブゴール)で構成されることができる。 これらのサブタスクはエンティティ(例えば、"apple", "pear")によって定義され、新しいサブタスク(例えば、"pickup apple"、"pickup pear")を形成するために再結合することができる。 これらのタスクを効率的に解決するには、エージェントはサブタスクの依存関係を推測し(例えば、エージェントは"place apple in pot"の前に"pickup apple"を実行しなければならない)、推論された依存関係を新しいサブタスクに一般化する必要がある(例えば "place apple in pot" は "place apple in pan" に似ている)。 さらに、エージェントは目に見えないタスクを解決する必要があるかもしれない。 この目的のために、パラメータ化サブタスクグラフ推論(PSGI)を定式化し、サブタスクエンティティを持つ一階述語論理を用いてサブタスク依存をモデル化する。 これを容易にするために、パラメータ化サブタスクグラフの量化子(例: "is_pickable(X)")として使用されるエンティティ属性をゼロショットで学習する。 提案手法は, 階層的および構成的タスクの潜在構造を従来よりも効率的に学習し, 適応中に見えないサブタスクの構造をモデル化することでPSGIを一般化できることを示す。

Real world tasks are hierarchical and compositional. Tasks can be composed of multiple subtasks (or sub-goals) that are dependent on each other. These subtasks are defined in terms of entities (e.g., "apple", "pear") that can be recombined to form new subtasks (e.g., "pickup apple", and "pickup pear"). To solve these tasks efficiently, an agent must infer subtask dependencies (e.g. an agent must execute "pickup apple" before "place apple in pot"), and generalize the inferred dependencies to new subtasks (e.g. "place apple in pot" is similar to "place apple in pan"). Moreover, an agent may also need to solve unseen tasks, which can involve unseen entities. To this end, we formulate parameterized subtask graph inference (PSGI), a method for modeling subtask dependencies using first-order logic with subtask entities. To facilitate this, we learn entity attributes in a zero-shot manner, which are used as quantifiers (e.g. "is_pickable(X)") for the parameterized subtask graph. We show this approach accurately learns the latent structure on hierarchical and compositional tasks more efficiently than prior work, and show PSGI can generalize by modelling structure on subtasks unseen during adaptation.
翻訳日:2022-03-30 12:54:40 公開日:2022-03-28
# 量子アニーリングによる凸非負行列分解

Convex Non-negative Matrix Factorization Through Quantum Annealing ( http://arxiv.org/abs/2203.15634v1 )

ライセンス: Link先を確認
Ahmed Zaiou, Basarab Matei, Youn\`es Bennani and Mohamed Hibti(参考訳) 本稿では,D波量子アニールを用いたConvex非負行列分解アルゴリズム(Convex-NMF)の量子バージョンを提案する。 より正確には、D-wave 2000Q を用いて、X-XWG 差のフロベニウスノルムが最小となるような2つの非負行列係数 W と G の積による固定実数値行列 X の低階近似を求める。 この最適化問題を解決するために、我々は2つのステップで進める。 最初のステップでは、W,G に依存する大域的な実最適化問題を、それぞれ W と G に依存する2つの2次非制約バイナリ最適化問題 (QUBO) に変換する。 第2のステップでは、wとgに対応する2つのqubo問題の代替戦略を使用して、グローバルソリューションを見つけます。 D-wave 2000Q上のこれらの2つのQUBO問題の実行には、D-wave 2000Qのキメラグラフへの埋め込みが必要となるが、この埋め込みはD-wave 2000Qのキュービット数によって制限される。 本研究では,d-wave 2000qにおける実データ利用の最大数について検討する。 提案手法は,各実変数を表すために使用される量子ビットの数に基づく。 また、d-wave 2000qのアプローチをランダムに生成されたいくつかのデータセットでテストして、私たちのアプローチが従来のアプローチよりも高速であること、最高の結果が得られることを証明しました。

In this paper we provide the quantum version of the Convex Non-negative Matrix Factorization algorithm (Convex-NMF) by using the D-wave quantum annealer. More precisely, we use D-wave 2000Q to find the low rank approximation of a fixed real-valued matrix X by the product of two non-negative matrices factors W and G such that the Frobenius norm of the difference X-XWG is minimized. In order to solve this optimization problem we proceed in two steps. In the first step we transform the global real optimization problem depending on W,G into two quadratic unconstrained binary optimization problems (QUBO) depending on W and G respectively. In the second step we use an alternative strategy between the two QUBO problems corresponding to W and G to find the global solution. The running of these two QUBO problems on D-wave 2000Q need to use an embedding to the chimera graph of D-wave 2000Q, this embedding is limited by the number of qubits of D-wave 2000Q. We perform a study on the maximum number of real data to be used by our approach on D-wave 2000Q. The proposed study is based on the number of qubits used to represent each real variable. We also tested our approach on D-Wave 2000Q with several randomly generated data sets to prove that our approach is faster than the classical approach and also to prove that it gets the best results.
翻訳日:2022-03-30 12:54:13 公開日:2022-03-28
# 自己教師付き適応グラフアライメントによる多言語知識グラフ補完

Multilingual Knowledge Graph Completion with Self-Supervised Adaptive Graph Alignment ( http://arxiv.org/abs/2203.14987v1 )

ライセンス: Link先を確認
Zijie Huang, Zheng Li, Haoming Jiang, Tianyu Cao, Hanqing Lu, Bing Yin, Karthik Subbian, Yizhou Sun and Wei Wang(参考訳) 知識グラフ(KG)における不足事実の予測は、現代のKGが完成には程遠いため、極めて重要である。 労働集約的なラベル付けにより、この現象は様々な言語で表される知識を扱う際に悪化する。 本稿では,複数言語からの集合的知識を受け入れるために,限られた種子アライメントをブリッジとして活用する多言語KG補完について検討する。 しかし、以前の作品で使われる言語アライメントは、(1)アライメントペアは、平行なエンティティを最大に近づけるために等しく扱われ、kgの容量の不一致を無視する、(2)種子アライメントが不足し、新しいアライメントの識別は通常、不注意な方法で行われない、といった、まだ十分に活用されていない。 そこで本研究では,自己教師付き適応グラフアライメント(ss-aga)法を提案する。 具体的には、SS-AGAはすべてのKGをグラフ全体として新しいエッジタイプとしてアライメントする。 したがって、KG間の情報伝達とノイズの影響は、関係認識の注意重みによって適応的に制御できる。 一方、SS-AGAは新しいペアジェネレータを備えており、自己監督パラダイムで潜在的アライメントペアを動的にキャプチャする。 公共多言語DBPedia KGと新生産業多言語EコマースKGの複合実験によるSS-AGの有効性の実証実験

Predicting missing facts in a knowledge graph (KG) is crucial as modern KGs are far from complete. Due to labor-intensive human labeling, this phenomenon deteriorates when handling knowledge represented in various languages. In this paper, we explore multilingual KG completion, which leverages limited seed alignment as a bridge, to embrace the collective knowledge from multiple languages. However, language alignment used in prior works is still not fully exploited: (1) alignment pairs are treated equally to maximally push parallel entities to be close, which ignores KG capacity inconsistency; (2) seed alignment is scarce and new alignment identification is usually in a noisily unsupervised manner. To tackle these issues, we propose a novel self-supervised adaptive graph alignment (SS-AGA) method. Specifically, SS-AGA fuses all KGs as a whole graph by regarding alignment as a new edge type. As such, information propagation and noise influence across KGs can be adaptively controlled via relation-aware attention weights. Meanwhile, SS-AGA features a new pair generator that dynamically captures potential alignment pairs in a self-supervised paradigm. Extensive experiments on both the public multilingual DBPedia KG and newly-created industrial multilingual E-commerce KG empirically demonstrate the effectiveness of SS-AG
翻訳日:2022-03-30 12:42:39 公開日:2022-03-28
# Salient ImageNet を用いたコアリスク最小化

Core Risk Minimization using Salient ImageNet ( http://arxiv.org/abs/2203.15566v1 )

ライセンス: Link先を確認
Sahil Singla, Mazda Moayeri, Soheil Feizi(参考訳) ディープニューラルネットワークは、特に予測にスプリアス機能を多用すると、現実世界では信頼できない場合がある。 最近、Singla & Feizi (2022)は、232クラスのImagenetのコアと52kのサンプルをアノテートし、ローカライズすることで、Salient Imagenetデータセットを導入した。 このデータセットは、事前訓練されたモデルの予備的な特徴への依存を評価するのに有用であるが、その小さなサイズは、トレーニングモデルに対する有用性を制限している。 本研究では,1000のImagenetクラスのコアとスプリアス機能をローカライズした100万以上のソフトマスクを備えたSalient Imagenet-1Mデータセットについて紹介する。 このデータセットを用いて、まず、いくつかのimagenetプリトレーニングモデル(合計42)のスプリアス機能への依存度を評価し、それを観察します。 (i)変圧器はコンネットに比べて刺激的な特徴に敏感である。 (ii)ゼロショットCLIP変換器は、刺激的な特徴に非常に敏感である。 次に,コアリスク最小化(core risk minimization, corm)と呼ばれる新しい学習パラダイムを導入する。 実験的なリスク最小化によって訓練されたモデルと比較して,コームの解法を異なる計算手法で評価し,(ノイズで非コア領域が破損した場合の精度)コア精度を有意に高く(+12%)達成した。

Deep neural networks can be unreliable in the real world especially when they heavily use spurious features for their predictions. Recently, Singla & Feizi (2022) introduced the Salient Imagenet dataset by annotating and localizing core and spurious features of ~52k samples from 232 classes of Imagenet. While this dataset is useful for evaluating the reliance of pretrained models on spurious features, its small size limits its usefulness for training models. In this work, we first introduce the Salient Imagenet-1M dataset with more than 1 million soft masks localizing core and spurious features for all 1000 Imagenet classes. Using this dataset, we first evaluate the reliance of several Imagenet pretrained models (42 total) on spurious features and observe that: (i) transformers are more sensitive to spurious features compared to Convnets, (ii) zero-shot CLIP transformers are highly susceptible to spurious features. Next, we introduce a new learning paradigm called Core Risk Minimization (CoRM) whose objective ensures that the model predicts a class using its core features. We evaluate different computational approaches for solving CoRM and achieve significantly higher (+12%) core accuracy (accuracy when non-core regions corrupted using noise) with no drop in clean accuracy compared to models trained via Empirical Risk Minimization.
翻訳日:2022-03-30 12:40:22 公開日:2022-03-28
# Text2Pos: Text-to-Point-Cloudクロスモーダルローカライゼーション

Text2Pos: Text-to-Point-Cloud Cross-Modal Localization ( http://arxiv.org/abs/2203.15125v1 )

ライセンス: Link先を確認
Manuel Kolmet, Qunjie Zhou, Aljosa Osep, Laura Leal-Taixe(参考訳) モバイル機器や家電機器との自然言語によるコミュニケーションがますます普及し、将来モバイルロボットとのコミュニケーションが自然になる可能性がある。 この目的に向けて,車両のピックアップや商品の配送場所などの指定が可能な,クロスモーダルなテキストからポイント・クラウドへのローカライズについて検討する。 特に,テキスト記述と局所化キューとの整合性を粗い方法で学習するクロスモーダルなローカライゼーションモジュールであるText2Posを提案する。 環境の点雲が与えられたとき、Text2Posは自然言語ベースの環境記述を通じて指定された位置を特定する。 Text2Posをトレーニングし、その性能を研究するために、最近導入されたKITTI360データセットに基づいて、このタスクのための最初のデータセットであるKITTI360Poseを構築した。 実験の結果,テキストクエリの65%を15m距離でローカライズできることが分かった。 これは言語ベースのナビゲーションに向けた今後の発展を期待する出発点です。

Natural language-based communication with mobile devices and home appliances is becoming increasingly popular and has the potential to become natural for communicating with mobile robots in the future. Towards this goal, we investigate cross-modal text-to-point-cloud localization that will allow us to specify, for example, a vehicle pick-up or goods delivery location. In particular, we propose Text2Pos, a cross-modal localization module that learns to align textual descriptions with localization cues in a coarse- to-fine manner. Given a point cloud of the environment, Text2Pos locates a position that is specified via a natural language-based description of the immediate surroundings. To train Text2Pos and study its performance, we construct KITTI360Pose, the first dataset for this task based on the recently introduced KITTI360 dataset. Our experiments show that we can localize 65% of textual queries within 15m distance to query locations for top-10 retrieved locations. This is a starting point that we hope will spark future developments towards language-based navigation.
翻訳日:2022-03-30 12:22:36 公開日:2022-03-28
# 潜在変換によるサイクル整合反事実

Cycle-Consistent Counterfactuals by Latent Transformations ( http://arxiv.org/abs/2203.15064v1 )

ライセンス: Link先を確認
Saeed Khorram, Li Fuxin(参考訳) CounterFactual (CF) 視覚的説明は、視覚系の決定を特定の結果に変更するクエリ画像に似た画像を見つけようとする。 既存の手法では、推論時間最適化を必要とするか、生成敵モデルとの合同トレーニングを必要とする。 生成モデルの潜在空間内でのステアリングによって視覚的CFを自動的に生成する潜時変換を学習する,潜時変換による循環連続対実法 (C3LT) を提案する。 我々の方法は、クエリとCF遅延表現の間のサイクル一貫性を使い、トレーニングがより良いソリューションを見つけるのに役立ちます。 c3ltは、最先端のトレーニング済み生成ネットワークに簡単に接続できる。 これにより、ImageNetのような高解像度で高品質で解釈可能なCF画像を生成することができる。 提案手法は, CF説明評価のための確立された指標に加えて, 生成したCF例の品質評価や, 提案手法の有効性を, 広範囲な実験で検証するための新しい指標を提案する。

CounterFactual (CF) visual explanations try to find images similar to the query image that change the decision of a vision system to a specified outcome. Existing methods either require inference-time optimization or joint training with a generative adversarial model which makes them time-consuming and difficult to use in practice. We propose a novel approach, Cycle-Consistent Counterfactuals by Latent Transformations (C3LT), which learns a latent transformation that automatically generates visual CFs by steering in the latent space of generative models. Our method uses cycle consistency between the query and CF latent representations which helps our training to find better solutions. C3LT can be easily plugged into any state-of-the-art pretrained generative network. This enables our method to generate high-quality and interpretable CF images at high resolution such as those in ImageNet. In addition to several established metrics for evaluating CF explanations, we introduce a novel metric tailored to assess the quality of the generated CF examples and validate the effectiveness of our method on an extensive set of experiments.
翻訳日:2022-03-30 12:21:54 公開日:2022-03-28
# (参考訳) 3MASSIV:ソーシャルメディアショートビデオのマルチリンガル、マルチモーダル、マルチアスペクトデータセット

3MASSIV: Multilingual, Multimodal and Multi-Aspect dataset of Social Media Short Videos ( http://arxiv.org/abs/2203.14456v1 )

ライセンス: CC BY 4.0
Vikram Gupta, Trisha Mittal, Puneet Mathur, Vaibhav Mishra, Mayank Maheshwari, Aniket Bera, Debdoot Mukherjee, Dinesh Manocha(参考訳) 本研究では,多言語・多言語・多言語・多言語・多言語対応の短文ビデオデータセットである3massivを提案する。 3MASSIV comprises of 50k short videos (20 seconds average duration) and 100K unlabeled videos in 11 different languages and captures popular short video trends like pranks, fails, romance, comedy expressed via unique audio-visual formats like self-shot videos, reaction videos, lip-synching, self-sung songs, etc. 3MASSIV presents an opportunity for multimodal and multilingual semantic understanding on these unique videos by annotating them for concepts, affective states, media types, and audio language. 我々は、3massivの詳細な分析を行い、強いベースラインを持つ他の現代のポピュラーデータセットと比較して、データセットの多様性とユニークな側面を強調する。 また,3MASSIVにおけるソーシャルメディアの内容が自然界において動的かつ時間的であり,意味理解タスクや言語間分析に利用できることを示す。

We present 3MASSIV, a multilingual, multimodal and multi-aspect, expertly-annotated dataset of diverse short videos extracted from short-video social media platform - Moj. 3MASSIV comprises of 50k short videos (20 seconds average duration) and 100K unlabeled videos in 11 different languages and captures popular short video trends like pranks, fails, romance, comedy expressed via unique audio-visual formats like self-shot videos, reaction videos, lip-synching, self-sung songs, etc. 3MASSIV presents an opportunity for multimodal and multilingual semantic understanding on these unique videos by annotating them for concepts, affective states, media types, and audio language. We present a thorough analysis of 3MASSIV and highlight the variety and unique aspects of our dataset compared to other contemporary popular datasets with strong baselines. We also show how the social media content in 3MASSIV is dynamic and temporal in nature, which can be used for semantic understanding tasks and cross-lingual analysis.
翻訳日:2022-03-30 08:30:28 公開日:2022-03-28
# (参考訳) paedid: 画素レベル欠陥領域セグメンテーションのためのパッチ自動エンコーダベースのディープイメージ分解

PAEDID: Patch Autoencoder Based Deep Image Decomposition For Pixel-level Defective Region Segmentation ( http://arxiv.org/abs/2203.14457v1 )

ライセンス: CC BY-SA 4.0
Shancong Mou, Meng Cao, Haoping Bai, Ping Huang, Jianjun Shi and Jiulong Shan(参考訳) 非教師なし画素レベル欠陥領域分割は、様々な産業用途における画像に基づく異常検出において重要なタスクである。 行列分解法はノイズに強いが複雑な背景画像モデリング能力に欠ける、表現法は欠陥領域の局所化に長けているが、欠陥領域の形状の輪郭抽出の精度に欠ける、再構成法は欠陥領域の検出法は欠陥領域の形状の輪郭とよく一致するがノイズが多い。 両世界の最善の組み合わせとして,未教師付きパッチオートエンコーダを用いた深部画像分解(paedid)法を提案する。 トレーニング段階では、パッチオートエンコーダ(PAE)ネットワークにより、より深い画像として共通の背景を学習する。 推論段階では、深部画像の事前および領域固有の正規化による画像分解問題として異常検出を定式化する。 提案手法を採用することにより、画像中の欠陥領域を教師なしで正確に抽出することができる。 シミュレーション研究におけるpaedid法の有効性と,本事例における産業データの有効性を実証する。

Unsupervised pixel-level defective region segmentation is an important task in image-based anomaly detection for various industrial applications. The state-of-the-art methods have their own advantages and limitations: matrix-decomposition-based methods are robust to noise but lack complex background image modeling capability; representation-based methods are good at defective region localization but lack accuracy in defective region shape contour extraction; reconstruction-based methods detected defective region match well with the ground truth defective region shape contour but are noisy. To combine the best of both worlds, we present an unsupervised patch autoencoder based deep image decomposition (PAEDID) method for defective region segmentation. In the training stage, we learn the common background as a deep image prior by a patch autoencoder (PAE) network. In the inference stage, we formulate anomaly detection as an image decomposition problem with the deep image prior and domain-specific regularizations. By adopting the proposed approach, the defective regions in the image can be accurately extracted in an unsupervised fashion. We demonstrate the effectiveness of the PAEDID method in simulation studies and an industrial dataset in the case study.
翻訳日:2022-03-30 08:06:36 公開日:2022-03-28
# (参考訳) 表現認識のための多モデルアンサンブル学習法

Multi-model Ensemble Learning Method for Human Expression Recognition ( http://arxiv.org/abs/2203.14466v1 )

ライセンス: CC BY 4.0
Jun Yu and Zhongpeng Cai and Peng He and Guocheng Xie and Qiang Ling(参考訳) 人間の影響の分析は、人-コンピュータ相互作用(HCI)システムにおいて重要な役割を果たす。 大量の実データを取り込むのが難しいため、現在の手法の多くは、アプリケーションシナリオを制限するコントロールされた環境に重点を置いている。 この問題に対処するために,アンサンブル学習法に基づく提案手法を提案する。 具体的には、問題を分類タスクとして定式化し、さまざまなバックボーン(resnet, efficientnet, inceptionnet)の表現分類モデルをトレーニングする。 その後、モデルアンサンブル法により複数のモデルの出力を融合して最終結果を予測する。 さらに,マルチフォールドアンサンブル法を導入し,同じアーキテクチャで異なるデータ分布を持つ複数のモデルを学習・アンサンブルし,ソリューションの性能を向上させる。 ABAW2022 ChallengeのAffWild2データセット上で多くの実験を行い、本ソリューションの有効性を実証した。

Analysis of human affect plays a vital role in human-computer interaction (HCI) systems. Due to the difficulty in capturing large amounts of real-life data, most of the current methods have mainly focused on controlled environments, which limit their application scenarios. To tackle this problem, we propose our solution based on the ensemble learning method. Specifically, we formulate the problem as a classification task, and then train several expression classification models with different types of backbones--ResNet, EfficientNet and InceptionNet. After that, the outputs of several models are fused via model ensemble method to predict the final results. Moreover, we introduce the multi-fold ensemble method to train and ensemble several models with the same architecture but different data distributions to enhance the performance of our solution. We conduct many experiments on the AffWild2 dataset of the ABAW2022 Challenge, and the results demonstrate the effectiveness of our solution.
翻訳日:2022-03-30 07:53:47 公開日:2022-03-28
# (参考訳) ヤシ古木における赤ヤシの識別とモニタリングのための新しいリモートセンシング手法

A Novel Remote Sensing Approach to Recognize and Monitor Red Palm Weevil in Date Palm Trees ( http://arxiv.org/abs/2203.14476v1 )

ライセンス: CC BY 4.0
Yashu Kang, Chunlei Chen, Fujian Cheng, Jianyong Zhang(参考訳) レッド・パール・ウィービル(RPW)の普及は、世界中のヤシの木への脅威となっている。 中東では、rpwがパーム・フェニックス・ダクティライフラ(英語版)に広範囲の被害を与えており、農業がパームの生産と環境への影響に影響を与えている。 RPWの早期検出は非常に困難であり、特に大規模である。 本研究は, 植生指標, オブジェクト検出, セマンティックセグメンテーション技術の組み合わせを用いて, ヤシヤシの赤毛を認識・監視するための新しいリモートセンシング手法を提案する。 研究エリアは、健康なヤシ、小さなヤシ、深刻な感染したヤシの3種からなる日付ヤシの木からなる。 提案手法は,テストデータセット上で有望な0.947 F1スコアを達成した。 この作業は、大規模にrpwを監視するための人工知能アプローチの展開の道を開き、実践者へのガイダンスを提供する。

The spread of the Red Pal Weevil (RPW) has become an existential threat for palm trees around the world. In the Middle East, RPW is causing wide-spread damage to date palm Phoenix dactylifera L., having both agricultural impacts on the palm production and environmental impacts. Early detection of RPW is very challenging, especially at large scale. This research proposes a novel remote sensing approach to recognize and monitor red palm weevil in date palm trees, using a combination of vegetation indices, object detection and semantic segmentation techniques. The study area consists of date palm trees with three classes, including healthy palms, smallish palms and severely infected palms. This proposed method achieved a promising 0.947 F1 score on test data set. This work paves the way for deploying artificial intelligence approaches to monitor RPW in large-scale as well as provide guidance for practitioners.
翻訳日:2022-03-30 07:47:37 公開日:2022-03-28
# (参考訳) エッジ支援セマンティックビデオセグメンテーションのためのDNN駆動圧縮オフロード

DNN-Driven Compressive Offloading for Edge-Assisted Semantic Video Segmentation ( http://arxiv.org/abs/2203.14481v1 )

ライセンス: CC BY-SA 4.0
Xuedou Xiao, Juecheng Zhang, Wei Wang, Jianhua He, Qian Zhang(参考訳) ディープラーニングはセマンティックセグメンテーションにおいて素晴らしいパフォーマンスを示しているが、それでもリソース制約のあるモバイルデバイスでは不十分である。 計算タスクのオフロードは有望だが、高いトラフィック要求は限られた帯域幅を超過する。 既存の圧縮アルゴリズムはセマンティックセグメンテーションには適さないが、明らかで集中的な関心領域(RoI)の欠如により、一様圧縮戦略の採用を余儀なくされ、圧縮率や精度が低下する。 本稿では、エッジ支援セマンティックビデオセグメンテーションに適したDNN駆動圧縮スキームSTACを紹介する。 STACは空間適応圧縮のための空間感度指標としてDNNの勾配を初めて利用し、より優れた圧縮比と精度を実現する。 しかし、このコンテンツに基づく圧縮をビデオに適用することは困難である。 実際の問題は、圧縮戦略のフィードバックとオフロードのための空間感度の変化と帯域消費の増大である。 そこで本稿では,(1)部分的戦略生成操作をオフラインで行ない,コミュニケーション負荷を低減し,(2)密集した光フローによるフレーム間の圧縮戦略とセグメント化結果を伝達し,映像コンテンツに適応的にキーフレームをオフロードする時空間適応方式を提案する。 商品用モバイルデバイスにSTACを実装した。 実験の結果、STACは最先端のアルゴリズムと比較して、精度を損なうことなく最大20.95%の帯域幅を節約できることがわかった。

Deep learning has shown impressive performance in semantic segmentation, but it is still unaffordable for resource-constrained mobile devices. While offloading computation tasks is promising, the high traffic demands overwhelm the limited bandwidth. Existing compression algorithms are not fit for semantic segmentation, as the lack of obvious and concentrated regions of interest (RoIs) forces the adoption of uniform compression strategies, leading to low compression ratios or accuracy. This paper introduces STAC, a DNN-driven compression scheme tailored for edge-assisted semantic video segmentation. STAC is the first to exploit DNN's gradients as spatial sensitivity metrics for spatial adaptive compression and achieves superior compression ratio and accuracy. Yet, it is challenging to adapt this content-customized compression to videos. Practical issues include varying spatial sensitivity and huge bandwidth consumption for compression strategy feedback and offloading. We tackle these issues through a spatiotemporal adaptive scheme, which (1) takes partial strategy generation operations offline to reduce communication load, and (2) propagates compression strategies and segmentation results across frames through dense optical flow, and adaptively offloads keyframes to accommodate video content. We implement STAC on a commodity mobile device. Experiments show that STAC can save up to 20.95% of bandwidth without losing accuracy, compared to the state-of-the-art algorithm.
翻訳日:2022-03-30 07:42:26 公開日:2022-03-28
# (参考訳) 臨床関連バイオメトリクスの制約を活用して胎児脳の超音波計測を正確に行うための深層学習モデル

Leveraging Clinically Relevant Biometric Constraints To Supervise A Deep Learning Model For The Accurate Caliper Placement To Obtain Sonographic Measurements Of The Fetal Brain ( http://arxiv.org/abs/2203.14482v1 )

ライセンス: CC0 1.0
H Shankar, A Narayan, S Jain, D Singh, P Vyas, N Hegde, P Kar, A Lad, J Thang, J Atada, D Nguyen, PS Roopa, A Vasudeva, P Radhakrishnan, S Devalla(参考訳) 複数の研究により、中トリメスター超音波検査(USG)から標準化された胎児脳バイオメトリを得ることが、胎児神経発達の確実な評価と中枢神経系(CNS)異常のスクリーニングの鍵であることが示されている。 これらの測定値を得るには、非常に主観的で専門的であり、妊娠中の母親の質の高い出生前ケアを制限し、長年の訓練経験を必要とする。 本研究では,超小脳平面(tc)の2次元usg画像から,それをランドマーク検出問題としてモデル化し,高精度かつ自動キャリパー配置(バイオメトリー当たり2回)まで,3つの重要な胎児脳バイオメトリを計算するための深層学習(dl)手法を提案する。 u-net dlモデルの精度を向上させるために, 臨床関連バイオメトリック制約(校正点間の関係)とドメイン関連データ拡張を活用し, 596 画像, 473 被験者/143 画像, 143 被験者)を行った。 我々は, DLバックボーン, データ拡張, 一般化性の効果を実証し, 広範囲な臨床検査 (DL vs. 7) による最近の最先端アプローチに対するベンチマークを行った。 いずれの場合においても、個々の校正点の配置における平均誤差と計算バイオメトリーは、臨床医の誤差率に匹敵するものであった。 提案フレームワークの臨床的翻訳は, 胎児脳超音波検査の信頼性および標準化評価において, 低リソース環境の初心者ユーザを支援する。

Multiple studies have demonstrated that obtaining standardized fetal brain biometry from mid-trimester ultrasonography (USG) examination is key for the reliable assessment of fetal neurodevelopment and the screening of central nervous system (CNS) anomalies. Obtaining these measurements is highly subjective, expertise-driven, and requires years of training experience, limiting quality prenatal care for all pregnant mothers. In this study, we propose a deep learning (DL) approach to compute 3 key fetal brain biometry from the 2D USG images of the transcerebellar plane (TC) through the accurate and automated caliper placement (2 per biometry) by modeling it as a landmark detection problem. We leveraged clinically relevant biometric constraints (relationship between caliper points) and domain-relevant data augmentation to improve the accuracy of a U-Net DL model (trained/tested on: 596 images, 473 subjects/143 images, 143 subjects). We performed multiple experiments demonstrating the effect of the DL backbone, data augmentation, generalizability and benchmarked against a recent state-of-the-art approach through extensive clinical validation (DL vs. 7 experienced clinicians). For all cases, the mean errors in the placement of the individual caliper points and the computed biometry were comparable to error rates among clinicians. The clinical translation of the proposed framework can assist novice users from low-resource settings in the reliable and standardized assessment of fetal brain sonograms.
翻訳日:2022-03-30 07:24:10 公開日:2022-03-28
# (参考訳) 記号型ライブラリと帰納的組み合わせによる神経数学的推論の強化

Enhancing Neural Mathematical Reasoning by Abductive Combination with Symbolic Library ( http://arxiv.org/abs/2203.14487v1 )

ライセンス: CC BY 4.0
Yangyang Hu, Yang Yu(参考訳) 近年、数学的推論は神経系にとって難しい課題となっている。 表現翻訳,論理推論,数学知識獲得といった能力は,この課題を克服するために不可欠であると思われる。 本稿では,人的知識でプログラムされた離散的なシステムと帰納的な組み合わせによって,いくつかの能力が達成できることを実証する。 数学的推論データセットでは、最近提案された帰納的学習フレームワークを採用し、トランスフォーマーニューラルモデルと記号数学ライブラリを組み合わせたABL-Symアルゴリズムを提案する。 abl-symは補間処理の精度が9.73%向上し、補間処理の精度が47.22%向上した。 オンラインデモ: http://math.polixir.ai

Mathematical reasoning recently has been shown as a hard challenge for neural systems. Abilities including expression translation, logical reasoning, and mathematics knowledge acquiring appear to be essential to overcome the challenge. This paper demonstrates that some abilities can be achieved through abductive combination with discrete systems that have been programmed with human knowledge. On a mathematical reasoning dataset, we adopt the recently proposed abductive learning framework, and propose the ABL-Sym algorithm that combines the Transformer neural models with a symbolic mathematics library. ABL-Sym shows 9.73% accuracy improvement on the interpolation tasks and 47.22% accuracy improvement on the extrapolation tasks, over the state-of-the-art approaches. Online demonstration: http://math.polixir.ai
翻訳日:2022-03-30 07:13:10 公開日:2022-03-28
# (参考訳) ARCS:正確な回転と対応検索

ARCS: Accurate Rotation and Correspondence Search ( http://arxiv.org/abs/2203.14493v1 )

ライセンス: CC BY 4.0
Liangzu Peng and Manolis C. Tsakiris and Rene Vidal(参考訳) 本稿では,より一般的な形式の古いwahba問題について述べる。この問題を「回転と対応の同時探索」と呼ぶ。 この一般化では、それぞれ$m$と$n$の2つの部分重なり合う3$D点集合と$m\geq n$のそれぞれを合わせる回転を見つける必要がある。 まず最初に、$\texttt{ARCS}$という解決法を提案します。 一 一般位置における雑音のない点集合を仮定すること。 ii) 2ドルのイリアーのみを必要とする。 iii)$O(m\log m)$ timeと$O(m)$ spaceを使用し、 例えば、$m,n\sim 10^6$ を約0.1$秒で解決できる。 次に、ノイズに対して$\texttt{ARCS}$をロバスト化し、ロバストな部分空間学習とインターバルスタビングのアイデアを用いたコンセンサス最大化問題を概ね解決する。 第3に、単位四元数空間上のリーマン次階降下法(英語版)(Riemannian subgradient descent approach)によって設定された約定値のコンセンサスを洗練し、これは、$O(\varepsilon^{-4})$イテレーションにおける$\varepsilon$-定常点、あるいは雑音がない場合の線形速度で局所的に基底トラスに収束することを示す。 これらのアルゴリズムを$\texttt{ARCS+}$に組み合わせ、回転と対応を同時に検索する。 実験によると、$\texttt{ARCS+}$は10^6$以上の大規模データセットで、代替メソッドよりも10^4$のタイムスピードアップで最先端のパフォーマンスを達成する。 \url{https://github.com/liangzu/ARCS}

This paper is about the old Wahba problem in its more general form, which we call "simultaneous search of rotation and correspondences". In this generalization we need to find a rotation that best aligns two partially overlapping $3$D point sets, of sizes $m$ and $n$ respectively with $m\geq n$. We first propose a solver, $\texttt{ARCS}$, that i) assumes noiseless point sets in general position, ii) requires only $2$ inliers, iii) uses $O(m\log m)$ time and $O(m)$ space, and iv) can successfully solve the problem even with, e.g., $m,n\sim 10^6$ in about $0.1$ seconds. We next robustify $\texttt{ARCS}$ to noise, for which we approximately solve consensus maximization problems using ideas from robust subspace learning and interval stabbing. Thirdly, we refine the approximately found consensus set by a Riemannian subgradient descent approach over the space of unit quaternions, which we show converges globally to an $\varepsilon$-stationary point in $O(\varepsilon^{-4})$ iterations, or locally to the ground-truth at a linear rate in the absence of noise. We combine these algorithms into $\texttt{ARCS+}$, to simultaneously search for rotations and correspondences. Experiments show that $\texttt{ARCS+}$ achieves state-of-the-art performance on large-scale datasets with more than $10^6$ points with a $10^4$ time-speedup over alternative methods. \url{https://github.com/liangzu/ARCS}
翻訳日:2022-03-30 07:05:39 公開日:2022-03-28
# (参考訳) 生成逆ネットワークに対する共役勾配法

Conjugate Gradient Method for Generative Adversarial Networks ( http://arxiv.org/abs/2203.14495v1 )

ライセンス: CC BY 4.0
Hiroki Naganuma, Hideaki Iiduka(参考訳) 生成モデルには多くの利点があるが、データの密度関数とディープニューラルネットワークのモデルの密度関数のジェンセン=シャノン分散を計算することは不可能であり、そのために様々な代替手法が開発されている。 generative adversarial networks (gans) は、ゲーム理論と局所ナッシュ均衡の文脈で学習を定式化できる2つのモデル、ジェネレータと判別器による判別問題としてこの問題を定式化するために用いられる。 この最適化は単一目的関数の最小化よりも困難であるため,gansの局所ナッシュ平衡問題を解くために共役勾配法を適用することを提案する。 提案手法は,一定の学習率を含む3つの異なる学習率スケジュールを持つ局所nash平衡に収束することを示す,穏やかな仮定の下での証明と収束解析を行う。 さらに,単純な玩具問題の局所nash平衡への収束を実証し,実世界データを用いた実験において,提案手法と他の最適化手法との比較を行い,提案手法が確率勾配降下 (sgd) と運動量sgdよりも優れていることを発見した。

While the generative model has many advantages, it is not feasible to calculate the Jensen-Shannon divergence of the density function of the data and the density function of the model of deep neural networks; for this reason, various alternative approaches have been developed. Generative adversarial networks (GANs) can be used to formulate this problem as a discriminative problem with two models, a generator and a discriminator whose learning can be formulated in the context of game theory and the local Nash equilibrium. Since this optimization is more difficult than minimization of a single objective function, we propose to apply the conjugate gradient method to solve the local Nash equilibrium problem in GANs. We give a proof and convergence analysis under mild assumptions showing that the proposed method converges to a local Nash equilibrium with three different learning-rate schedules including a constant learning rate. Furthermore, we demonstrate the convergence of a simple toy problem to a local Nash equilibrium and compare the proposed method with other optimization methods in experiments using real-world data, finding that the proposed method outperforms stochastic gradient descent (SGD) and momentum SGD.
翻訳日:2022-03-30 06:13:15 公開日:2022-03-28
# (参考訳) ANNA: 質問応答のための言語表現の強化

ANNA: Enhanced Language Representation for Question Answering ( http://arxiv.org/abs/2203.14507v1 )

ライセンス: CC BY-SA 4.0
Changwook Jun, Hansol Jang, Myoseop Sim, Hyun Kim, Jooyoung Choi, Kyungkoo Min, Kyunghoon Bae(参考訳) 事前学習された言語モデルは、様々な自然言語処理タスクのパフォーマンスを大幅に改善した。 最先端の結果を実行する既存のモデルの多くは、データ処理、事前トレーニングタスク、ニューラルネットワークモデリング、微調整といった異なる視点でアプローチを示している。 本稿では,これらのアプローチが個々にパフォーマンスに与える影響を実証し,事前学習モデルにおいて,特定の質問応答タスクに対して言語モデルが最善の結果をもたらすことを示す。 特に,事前学習タスクの拡張と,隣接するトークンにもっと参加して,事前学習言語モデリングにおけるコンテキストの豊かさを捉えるための新しい隣人認識機構を提案する。 我々の最良のモデルは、SQuAD 1.1で95.7\% F1と90.6\% EMの新たな最先端結果を達成するとともに、SQuAD 2.0ベンチマークでRoBERTa、ALBERT、ELECTRA、XLNetといった既存のトレーニング済み言語モデルよりも優れている。

Pre-trained language models have brought significant improvements in performance in a variety of natural language processing tasks. Most existing models performing state-of-the-art results have shown their approaches in the separate perspectives of data processing, pre-training tasks, neural network modeling, or fine-tuning. In this paper, we demonstrate how the approaches affect performance individually, and that the language model performs the best results on a specific question answering task when those approaches are jointly considered in pre-training models. In particular, we propose an extended pre-training task, and a new neighbor-aware mechanism that attends neighboring tokens more to capture the richness of context for pre-training language modeling. Our best model achieves new state-of-the-art results of 95.7\% F1 and 90.6\% EM on SQuAD 1.1 and also outperforms existing pre-trained language models such as RoBERTa, ALBERT, ELECTRA, and XLNet on the SQuAD 2.0 benchmark.
翻訳日:2022-03-30 05:07:37 公開日:2022-03-28
# (参考訳) Encode-in-Style: StyleGAN2を用いた潜在型ビデオ符号化

Encode-in-Style: Latent-based Video Encoding using StyleGAN2 ( http://arxiv.org/abs/2203.14512v1 )

ライセンス: CC BY 4.0
Trevine Oorloff, Yaser Yacoob(参考訳) 本稿では,1つのアイデンティティラテントの低次元編集を最適化することにより,データ効率のよい高品質な映像再生を容易にする。 このアプローチは、StyleGAN2イメージインバージョンとマルチステージの非線形遅延空間編集に基づいて、入力ビデオにほぼ匹敵するビデオを生成する。 経済的には、顔のアイデンティティ、ヘッドポジション、複雑な顔の動きを微妙に捉え、それによって多くの再合成アプローチを妨げる訓練や人体モデリングをバイパスする。 このアプローチは最大データ効率で設計されており、1フレームあたりのW+遅延値と35パラメータが高忠実度ビデオレンダリングを可能にする。 このパイプラインは、操舵(運動移動)にも使用できる。

We propose an end-to-end facial video encoding approach that facilitates data-efficient high-quality video re-synthesis by optimizing low-dimensional edits of a single Identity-latent. The approach builds on StyleGAN2 image inversion and multi-stage non-linear latent-space editing to generate videos that are nearly comparable to input videos. It economically captures face identity, head-pose, and complex facial motions at fine levels, and thereby bypasses training and person modeling which tend to hamper many re-synthesis approaches. The approach is designed with maximum data efficiency, where a single W+ latent and 35 parameters per frame enable high-fidelity video rendering. This pipeline can also be used for puppeteering (i.e., motion transfer).
翻訳日:2022-03-30 04:53:44 公開日:2022-03-28
# (参考訳) ノードダイナミクスの非線形性を考慮した分散有限和制約最適化

Distributed Finite-Sum Constrained Optimization subject to Nonlinearity on the Node Dynamics ( http://arxiv.org/abs/2203.14527v1 )

ライセンス: CC BY 4.0
Mohammadreza Doostmohammadian, Maria Vrakopoulou, Alireza Aghasi, Themistoklis Charalambous(参考訳) 近年のネットワークと並列データ処理の発展により,マルチエージェントネットワーク(MAN)上の資源制約付き凸最適化問題を解くために,分散化および局所化有限サム(固定サム)割り当て手法が検討されている。 このようなネットワークには、コミュニケーション、処理、意思決定が可能な知的実体を表す(スマート)エージェントが含まれる。 特に,例えば,アクチュエータ飽和や量子化通信を受ける移動ロボットのネットワークなどにおいて,エージェントの通信やアクティベーション能力(ノードダイナミクスと呼ばれる)の観点から,エージェントのダイナミクスに実用的な非線形制約を課す問題を考える。 この分散和保存最適化法により、例えば符号ベースの非線形性のような目的のある非線形制約を加えることで、予め定義された時間内に収束したり、障害環境下でのインパルスノイズや乱れに対して頑健になる。 さらに,エージェント間の最小限のネットワーク接続条件下でコンバージェンスを実現することができ,エージェントの移動性や範囲の制限により,チャネルが行き来する動的ネットワーク上でソリューションが適用可能である。 本稿では、最適化問題(例えばリソースの協調配置)における様々な非線形性制約が、分散セットアップ(ネットワーク上の)を介して異なるアプリケーションに対してどのように対処できるかを論じる。

Motivated by recent development in networking and parallel data-processing, we consider a distributed and localized finite-sum (or fixed-sum) allocation technique to solve resource-constrained convex optimization problems over multi-agent networks (MANs). Such networks include (smart) agents representing an intelligent entity capable of communication, processing, and decision-making. In particular, we consider problems subject to practical nonlinear constraints on the dynamics of the agents in terms of their communications and actuation capabilities (referred to as the node dynamics), e.g., networks of mobile robots subject to actuator saturation and quantized communication. The considered distributed sum-preserving optimization solution further enables adding purposeful nonlinear constraints, for example, sign-based nonlinearities, to reach convergence in predefined-time or robust to impulsive noise and disturbances in faulty environments. Moreover, convergence can be achieved under minimal network connectivity requirements among the agents; thus, the solution is applicable over dynamic networks where the channels come and go due to the agent's mobility and limited range. This paper discusses how various nonlinearity constraints on the optimization problem (e.g., collaborative allocation of resources) can be addressed for different applications via a distributed setup (over a network).
翻訳日:2022-03-30 04:51:39 公開日:2022-03-28
# (参考訳) 研究論文のアスペクト的類似性のための特別文書埋め込み

Specialized Document Embeddings for Aspect-based Similarity of Research Papers ( http://arxiv.org/abs/2203.14541v1 )

ライセンス: CC BY 4.0
Malte Ostendorff, Till Blume, Terry Ruas, Bela Gipp, Georg Rehm(参考訳) 文書の埋め込みと類似性は、コンテンツベースのレコメンデーションシステムの下で測定され、文書は単一の汎用的な埋め込みとして一般に表現される。 しかし、単一のベクトル表現で計算される類似性は、文書の類似性に関する1つの視点を提供し、どの側面が2つの文書を類似させるかを無視している。 この制限に対処するため、アスペクトベースの類似度尺度は文書セグメンテーションまたはペアワイズ・マルチクラス文書分類を用いて開発されている。 セグメンテーションは文書のコヒーレンスを損なうが、ペアワイズ分類のアプローチは大規模コーパスに対して不十分である。 本稿では,アスペクト特異的埋め込み空間における古典的なベクトル類似性問題としてアスペクトベース類似性を扱う。 文書は単一の汎用的な埋め込みではなく、複数の特殊な埋め込みとして表現する。 本手法は文書分割を回避し,コーパスサイズを線形にスケールする。 実証研究では,157,606の研究論文を含むコードコーパスを持つ論文を用いて,各研究論文の課題,方法,データセットをその側面として検討する。 研究論文勧告の文脈で,3つの汎用文書埋め込み,6つの特殊文書埋め込み,ペアワイズ分類ベースラインを比較し分析した。 一般的なドキュメントの埋め込みとして、FastText、SciBERT、SPECTERを検討します。 特殊な文書埋め込みを計算するために, 再構成, 微調整, シームズネットワークに触発された3つの代替手法を比較した。 実験では、シャムセ・サイバートが最高点を達成した。 追加分析は、データセットの側面と各研究論文の手法面に対する一般的な文書埋め込みの暗黙の偏りを示している。 アスペクトベースの文書埋め込みのアプローチは、暗黙の偏見から生じる潜在的なリスクを軽減する。

Document embeddings and similarity measures underpin content-based recommender systems, whereby a document is commonly represented as a single generic embedding. However, similarity computed on single vector representations provides only one perspective on document similarity that ignores which aspects make two documents alike. To address this limitation, aspect-based similarity measures have been developed using document segmentation or pairwise multi-class document classification. While segmentation harms the document coherence, the pairwise classification approach scales poorly to large scale corpora. In this paper, we treat aspect-based similarity as a classical vector similarity problem in aspect-specific embedding spaces. We represent a document not as a single generic embedding but as multiple specialized embeddings. Our approach avoids document segmentation and scales linearly w.r.t.the corpus size. In an empirical study, we use the Papers with Code corpus containing 157,606 research papers and consider the task, method, and dataset of the respective research papers as their aspects. We compare and analyze three generic document embeddings, six specialized document embeddings and a pairwise classification baseline in the context of research paper recommendations. As generic document embeddings, we consider FastText, SciBERT, and SPECTER. To compute the specialized document embeddings, we compare three alternative methods inspired by retrofitting, fine-tuning, and Siamese networks. In our experiments, Siamese SciBERT achieved the highest scores. Additional analyses indicate an implicit bias of the generic document embeddings towards the dataset aspect and against the method aspect of each research paper. Our approach of aspect-based document embeddings mitigates potential risks arising from implicit biases by making them explicit.
翻訳日:2022-03-30 04:35:57 公開日:2022-03-28
# (参考訳) UNICON: 一様選択とコントラスト学習によるラベルノイズの燃焼

UNICON: Combating Label Noise Through Uniform Selection and Contrastive Learning ( http://arxiv.org/abs/2203.14542v1 )

ライセンス: CC BY 4.0
Nazmul Karim, Mamshad Nayeem Rizve, Nazanin Rahnavard, Ajmal Mian, Mubarak Shah(参考訳) 教師付きディープラーニングは、注釈付きデータの大規模なリポジトリを必要とするため、ラベルノイズは避けられない。 このようなノイズの多いデータのトレーニングは、ディープニューラルネットワークの一般化性能に悪影響を及ぼす。 ラベルノイズに対処するために、最新の最先端の手法では、データのクリーンなサブセットを選択するために、ある種のサンプル選択メカニズムを使用している。 次に、サンプルをラベル付けされていないデータとして扱う訓練に、既成の半教師付き学習法を用いる。 包括的分析の結果,従来の選択手法は比較的難易度の高いクラスからサンプルを選別しつつ,比較的難易度の高いクラスからサンプルを選別する。 これにより、選択されたクリーンセットにおけるクラス不均衡が生じ、高いラベルノイズ下での性能が低下する。 本研究では,高ラベル雑音に対して頑健な単純かつ効果的なサンプル選択法であるUNICONを提案する。 簡便でハードなサンプルの選択の不釣り合いに対処するために,確率的モデリングやハイパーパラメータチューニングを必要としないjensen-shannon divergenceに基づく一様選択機構を導入する。 我々は,雑音ラベルの記憶化と戦うために,コントラスト学習による選択法を補完する。 複数のベンチマークデータセットに対する大規模な実験では、UNICONの有効性が示され、90%のノイズ率で現在のCIFAR100データセットよりも11.4%改善されている。

Supervised deep learning methods require a large repository of annotated data; hence, label noise is inevitable. Training with such noisy data negatively impacts the generalization performance of deep neural networks. To combat label noise, recent state-of-the-art methods employ some sort of sample selection mechanism to select a possibly clean subset of data. Next, an off-the-shelf semi-supervised learning method is used for training where rejected samples are treated as unlabeled data. Our comprehensive analysis shows that current selection methods disproportionately select samples from easy (fast learnable) classes while reject those from relatively harder ones. This creates class imbalance in the selected clean set and in turn deteriorates performance under high label noise. In this work, we propose UNICON, a simple yet effective sample selection method which is robust to high label noise. To address the disproportionate selection of easy and hard samples, we introduce a Jensen-Shannon divergence based uniform selection mechanism which does not require any probabilistic modelling and hyperparameter tuning. We complement our selection method with contrastive learning to further combat memorization of noisy labels. Extensive experimentation on multiple benchmark datasets demonstrate the effectiveness of UNICON; we obtain 11.4% improvement over the current state-of-the-art on CIFAR100 dataset with 90% noise rate.
翻訳日:2022-03-30 04:15:58 公開日:2022-03-28
# (参考訳) モラル・ディベータ--モラル・フレームの議論の計算的生成に関する研究

The Moral Debater: A Study on the Computational Generation of Morally Framed Arguments ( http://arxiv.org/abs/2203.14563v1 )

ライセンス: CC BY 4.0
Milad Alshomary, Roxanne El Baff, Timon Gurcke, and Henning Wachsmuth(参考訳) 聴衆の事前の信念や道徳は、与えられた議論の影響を受ける可能性を示す強い指標である。 このような知識を利用することで、共有価値に焦点を合わせ、意見の相違を合意へと導くことができる。 しかし、議論技術では、これはほとんど利用されていない。 本稿では,道徳的枠付き議論を自動生成し,異なる観衆に与える影響について検討する。 道徳基盤理論の後に、異なる道徳に着目した議論を効果的に生成するシステムを提案する。 詳細なユーザー調査では、リベラル派や保守派にこれらの議論の影響を評価するよう求めた。 以上の結果から,特に事前の信念に異議を唱える場合,観衆は道徳的枠組みの議論の影響を受けやすいことが示唆された。

An audience's prior beliefs and morals are strong indicators of how likely they will be affected by a given argument. Utilizing such knowledge can help focus on shared values to bring disagreeing parties towards agreement. In argumentation technology, however, this is barely exploited so far. This paper studies the feasibility of automatically generating morally framed arguments as well as their effect on different audiences. Following the moral foundation theory, we propose a system that effectively generates arguments focusing on different morals. In an in-depth user study, we ask liberals and conservatives to evaluate the impact of these arguments. Our results suggest that, particularly when prior beliefs are challenged, an audience becomes more affected by morally framed arguments.
翻訳日:2022-03-30 04:15:00 公開日:2022-03-28
# (参考訳) オープンリサーチ知識グラフにおけるバイオアッセイのデジタル化

The Digitalization of Bioassays in the Open Research Knowledge Graph ( http://arxiv.org/abs/2203.14574v1 )

ライセンス: CC BY-SA 4.0
Jennifer D'Souza and Anita Monteverdi and Muhammad Haris and Marco Anteghini and Kheir Eddine Farfar and Markus Stocker and Vitor A.P. Martins dos Santos and S\"oren Auer(参考訳) 背景:近年は、知識グラフにおける科学的実体のきめ細かいレベルでの学術的知識の分別化の推進力が高まっている。 Open Research Knowledge Graph (ORKG) https://www.orkg.org/ は、この方向の重要なステップであり、構造化され、きめ細かなマシン可読データとして何千もの学術的貢献がある。 しかし、非構造的、非機械可読テキストとして貢献を記録するという伝統的なコミュニティの慣習を変える必要がある。 そのため、学術的貢献の容易かつ正確なセマンティフィケーションを可能にする科学者のために設計されたAIツールが強く求められている。 orkgアッセイというツールを紹介します。 実装: orkg-assaysは、pythonで書かれたフリーで利用可能なaiマイクロサービスで、科学者が三つ組として分離バイオアッセイを得るのを支援するように設計されている。 900以上のバイオアッセイをゴールド標準で評価し、103の述語に対して5,514のユニークな特性値ペアを持つaiベースのクラスタリングアルゴリズムを使用する。 結果と考察結果: 医薬品開発の発展にともなう, バイオケミストや製薬研究者へのスマートな知識アクセスを提供する化学物質および化合物の重要な性質値の集計やチャートに基づく視覚化を通じて, ORKGプラットフォーム上での分離されたアッセイコレクションを調査することができる。

Background: Recent years are seeing a growing impetus in the semantification of scholarly knowledge at the fine-grained level of scientific entities in knowledge graphs. The Open Research Knowledge Graph (ORKG) https://www.orkg.org/ represents an important step in this direction, with thousands of scholarly contributions as structured, fine-grained, machine-readable data. There is a need, however, to engender change in traditional community practices of recording contributions as unstructured, non-machine-readable text. For this in turn, there is a strong need for AI tools designed for scientists that permit easy and accurate semantification of their scholarly contributions. We present one such tool, ORKG-assays. Implementation: ORKG-assays is a freely available AI micro-service in ORKG written in Python designed to assist scientists obtain semantified bioassays as a set of triples. It uses an AI-based clustering algorithm which on gold-standard evaluations over 900 bioassays with 5,514 unique property-value pairs for 103 predicates shows competitive performance. Results and Discussion: As a result, semantified assay collections can be surveyed on the ORKG platform via tabulation or chart-based visualizations of key property values of the chemicals and compounds offering smart knowledge access to biochemists and pharmaceutical researchers in the advancement of drug development.
翻訳日:2022-03-30 03:54:22 公開日:2022-03-28
# (参考訳) オープンリサーチナレッジグラフにおけるエンティティ認識というコンピュータサイエンス

Computer Science Named Entity Recognition in the Open Research Knowledge Graph ( http://arxiv.org/abs/2203.14579v1 )

ライセンス: CC BY-SA 4.0
Jennifer D'Souza and S\"oren Auer(参考訳) コンピュータサイエンス(CS)の学術論文におけるドメイン固有の名前付きエンティティ認識(NER)は、タスクをセットできる様々なアノテーションの目的に対して明らかに困難であり、一般的なドメインではNERよりもあまり研究されていない情報抽出タスクである。 NERに大きな進展が見られたことを踏まえると、学術的な領域固有のNERは今後数年で注目されるだろうと考えている。 現在、この研究の焦点であるCS NERの進歩は、その正確さと、科学的実体や期間を目標とする標準化されたアノテーションの欠如によって部分的に妨げられている。 本研究は,CS NERビズ,研究問題,ソリューション,資源,言語,ツール,方法,データセットの7つの貢献中心の学術エンティティのセットを定義することで標準化されたタスクを提案する。 Following which, its main contributions are: combines existing CS NER resources that maintain their annotation focus on the set or subset of contribution-centric scholarly entities we consider; further, noting the need for big data to train neural NER models, this work additionally supplies thousands of contribution-centric entity annotations from article titles and abstracts, thus releasing a cumulative large novel resource for CS NER; and, finally, trains a sequence labeling CS NER model inspired after state-of-the-art neural architectures from the general domain NER task. 本研究を通じて,デジタル図書館の情報技術設計者にとって有用ないくつかの実践的考察がなされている。

Domain-specific named entity recognition (NER) on Computer Science (CS) scholarly articles is an information extraction task that is arguably more challenging for the various annotation aims that can beset the task and has been less studied than NER in the general domain. Given that significant progress has been made on NER, we believe that scholarly domain-specific NER will receive increasing attention in the years to come. Currently, progress on CS NER -- the focus of this work -- is hampered in part by its recency and the lack of a standardized annotation aim for scientific entities/terms. This work proposes a standardized task by defining a set of seven contribution-centric scholarly entities for CS NER viz., research problem, solution, resource, language, tool, method, and dataset. Following which, its main contributions are: combines existing CS NER resources that maintain their annotation focus on the set or subset of contribution-centric scholarly entities we consider; further, noting the need for big data to train neural NER models, this work additionally supplies thousands of contribution-centric entity annotations from article titles and abstracts, thus releasing a cumulative large novel resource for CS NER; and, finally, trains a sequence labeling CS NER model inspired after state-of-the-art neural architectures from the general domain NER task. Throughout the work, several practical considerations are made which can be useful to information technology designers of the digital libraries.
翻訳日:2022-03-30 03:39:33 公開日:2022-03-28
# (参考訳) 同じスコア: 単語埋め込みのためのコサインベースのバイアススコアの改善

The SAME score: Improved cosine based bias score for word embeddings ( http://arxiv.org/abs/2203.14603v1 )

ライセンス: CC BY 4.0
Sarah Schr\"oder, Alexander Schulz, Philip Kenneweg, Robert Feldhans, Fabian Hinder, Barbara Hammer(参考訳) 近年,全てのNLPタスクのテキスト前処理として単語と文の埋め込みが確立され,これらのタスクのパフォーマンスが大幅に向上した。 残念ながら、これらの埋め込みはトレーニングデータから様々な種類のバイアスを継承し、社会に存在するバイアスをNLPソリューションに渡すことも示されている。 多くの論文は、単語や文の埋め込みにおけるバイアスを定量化し、デバイアス法を評価したり、異なる埋め込みモデルを比較したりしようとした。 しかしながら、これらのスコアが低いバイアスを報告しているにもかかわらず、バイアスは持続し、他のテストで示すことができることを示す研究もある。 実際、最適な解についてのコンセンサスなしに、文献に提案されているバイアススコアやテストは多種多様である。 バイアススコアの振る舞いを研究し、その利点とデメリットを詳述する作業が欠けている。 本稿では,コサインに基づくバイアススコアについて検討する。 論文のアイデアに基づいたバイアス定義を提供し,バイアススコアの新たな要件を導出する。 さらに,既存のコサインに基づくスコアとその制限を徹底的に検討し,これらのスコアが一部の状況においてバイアスを報告できない理由を示す。 最後に,既存のバイアススコアの欠点に対処し,単語埋め込みにおけるバイアスの定量化に適していることを示すために,新たなバイアススコアを提案する。

Over the last years, word and sentence embeddings have established as text preprocessing for all kinds of NLP tasks and improved performances in these tasks significantly. Unfortunately, it has also been shown that these embeddings inherit various kinds of biases from the training data and thereby pass on biases present in society to NLP solutions. Many papers attempted to quantify bias in word or sentence embeddings to evaluate debiasing methods or compare different embedding models, often with cosine-based scores. However, some works have raised doubts about these scores showing that even though they report low biases, biases persist and can be shown with other tests. In fact, there is a great variety of bias scores or tests proposed in the literature without any consensus on the optimal solutions. We lack works that study the behavior of bias scores and elaborate their advantages and disadvantages. In this work, we will explore different cosine-based bias scores. We provide a bias definition based on the ideas from the literature and derive novel requirements for bias scores. Furthermore, we thoroughly investigate the existing cosine-based scores and their limitations in order to show why these scores fail to report biases in some situations. Finally, we propose a new bias score, SAME, to address the shortcomings of existing bias scores and show empirically that SAME is better suited to quantify biases in word embeddings.
翻訳日:2022-03-30 03:22:41 公開日:2022-03-28
# (参考訳) クロスドメイン特徴マップ一貫性強化によるct再構成カーネルへの適応

Adaptation to CT Reconstruction Kernels by Enforcing Cross-domain Feature Maps Consistency ( http://arxiv.org/abs/2203.14616v1 )

ライセンス: CC BY 4.0
Stanislav Shimovolos, Andrey Shushko, Mikhail Belyaev, Boris Shirokikh(参考訳) 深層学習は、診断、重症度評価、セグメンテーションを含む胸部ct画像における新型コロナウイルス(covid-19)の解析において重要な支援を提供する。 先程開発された手法では、データと特定のアノテーションの欠如に対処するが、現在の目標は、利用可能なデータのプールを大きくして、臨床使用のための堅牢なアルゴリズムを構築することである。 より大きなデータセットでは、ドメインシフトの問題が発生し、見えないデータに対するメソッドのパフォーマンスに影響する。 CT画像における領域シフトの重要な原因の1つは、生データ(シングラム)から画像を生成するために使用される再構成カーネルの違いである。 本稿では,スムースで訓練したモデルにおけるcovid-19のセグメンテーション品質が低下し,鋭いレコンストラクションカーネル上でテストされた。 さらに,タスク固有の強化や教師なし対人学習など,この問題に対処するためのいくつかのドメイン適応手法を比較した。 最後に,F-Consistency (F-Consistency) と呼ばれる非教師なし適応手法を提案する。 本手法は,各ペア内の再構成カーネルでのみ異なるラベル付きCT画像ペアの集合を利用する。 これは、ペア化特徴マップ間の平均二乗誤差(mse)を最小化することにより、ネットワーク隠れ表現(フィーチャーマップ)の類似性を強制する。 本手法は,ベースラインモデルの0.56Dice Scoreと比較し,未確認の鋭いカーネルを持つテストデータセット上で0.64Dice Scoreを達成することを示す。 さらに、F-Consistencyは、ペア画像の予測間で0.80Diceスコアをスコアし、ベースラインスコアの0.46をほぼ倍増し、他の方法を上回る。 また、F-Consistencyは、未確認のカーネルをより一般化し、特定のセマンティックな内容(例えば、COVID-19の病変の存在)を含まないことを示す。

Deep learning methods provide significant assistance in analyzing coronavirus disease (COVID-19) in chest computed tomography (CT) images, including identification, severity assessment, and segmentation. Although the earlier developed methods address the lack of data and specific annotations, the current goal is to build a robust algorithm for clinical use, having a larger pool of available data. With the larger datasets, the domain shift problem arises, affecting the performance of methods on the unseen data. One of the critical sources of domain shift in CT images is the difference in reconstruction kernels used to generate images from the raw data (sinograms). In this paper, we show a decrease in the COVID-19 segmentation quality of the model trained on the smooth and tested on the sharp reconstruction kernels. Furthermore, we compare several domain adaptation approaches to tackle the problem, such as task-specific augmentation and unsupervised adversarial learning. Finally, we propose the unsupervised adaptation method, called F-Consistency, that outperforms the previous approaches. Our method exploits a set of unlabeled CT image pairs which differ only in reconstruction kernels within every pair. It enforces the similarity of the network hidden representations (feature maps) by minimizing mean squared error (MSE) between paired feature maps. We show our method achieving 0.64 Dice Score on the test dataset with unseen sharp kernels, compared to the 0.56 Dice Score of the baseline model. Moreover, F-Consistency scores 0.80 Dice Score between predictions on the paired images, which almost doubles the baseline score of 0.46 and surpasses the other methods. We also show F-Consistency to better generalize on the unseen kernels and without the specific semantic content, e.g., presence of the COVID-19 lesions.
翻訳日:2022-03-30 03:03:52 公開日:2022-03-28
# (参考訳) 潰瘍性および非潰瘍性患者の足底軟組織分布と均質性に関するelastographyによる定量的比較

A quantitative comparison of plantar soft tissue strainability distribution and homogeneity between ulcerated and non-ulcerated patients using strain elastography ( http://arxiv.org/abs/2203.14629v1 )

ライセンス: CC BY 4.0
Maaynk Patwari, Panagiotis Chazistergos, Lakshmi Sundar, Nachiappan Chockalingam, Ambadi Ramachandran, Roozbeh Naemi(参考訳) 本研究の目的は, 足底軟部組織の硬さ分布と均一性を正確に定量化する手法を開発することである。 本研究の目的は, 潰瘍性足と非潰瘍性足の軟部組織剛性分布と均質性の違いについて検討することである。 定量ひずみ性 (QS) と相対ひずみ性 (RS) という, 個々の画素剛性の新たな尺度を開発した。 糖尿病性ニューロパチー患者39名(活動性糖尿病足潰瘍9名)から得られたSEデータ。 糖尿病性足部潰瘍の患者は,第1中足骨頭とelastography法が施行されたヒール以外の足部に創傷を負っていた。 RSは, 糖尿病性足部潰瘍患者における足底軟部組織の硬さ分布の変化と勾配を測定するために用いられた。 左前足部上腹方向の足底軟部組織均一性は,非排尿群と比較して潰瘍群で有意に高い(p<0.05)。 均質性の評価は、内部ストレスを増加させる組織の変化の性質をさらに説明できる可能性を示した。 これは糖尿病の軟部組織損傷や潰瘍に対する脆弱性の評価に影響を及ぼす可能性がある。

The primary objective of this study was to develop a method that allows accurate quantification of plantar soft tissue stiffness distribution and homogeneity. The secondary aim of this study is to investigate if the differences in soft tissue stiffness distribution and homogeneity can be detected between ulcerated and non-ulcerated foot. Novel measures of individual pixel stiffness, named as quantitative strainability (QS) and relative strainability (RS) were developed. SE data obtained from 39 (9 with active diabetic foot ulcers) patients with diabetic neuropathy. The patients with active diabetic foot ulcer had wound in parts of the foot other than the first metatarsal head and the heel where the elastography measures were conducted. RS was used to measure changes and gradients in the stiffness distribution of plantar soft tissues in participants with and without active diabetic foot ulcer. The plantar soft tissue homogeneity in superior-inferior direction in the left forefoot was significantly (p<0.05) higher in ulcerated group compared to non-ulcerated group. The assessment of homogeneity showed potentials to further explain the nature of the change in tissue that can increase internal stress . This can have implications in assessing the vulnerability to soft tissue damage and ulceration in diabetes.
翻訳日:2022-03-30 02:40:59 公開日:2022-03-28
# (参考訳) 低リソース言語のための同型言語間埋め込み

Isomorphic Cross-lingual Embeddings for Low-Resource Languages ( http://arxiv.org/abs/2203.14632v1 )

ライセンス: CC BY 4.0
Sonal Sannigrahi and Jesse Read(参考訳) CLWE(Cross-Lingual Word Embeddings)は、高リソース設定から学習した言語情報を低リソースに転送するための重要なコンポーネントである。 言語間表現学習における最近の研究は、その単純さ、計算効率、および最小の並列リソースを扱う能力により、オフラインマッピングアプローチに焦点を当てている。 しかし、それらはほとんど同型な埋め込み空間、すなわち実際には成立しない類似の幾何学的構造を共有するという仮定に大きく依存しており、低リソースと遠方の言語対の性能が低下する原因となっている。 本稿では,関係する高リソース言語を共同で活用することで,低リソース対に対して,アイソメトリを仮定せずにCLWEを学習するフレームワークを提案する。 本研究では,まずオフラインメソッドを用いた低リソースおよび関連言語埋め込み空間の事前評価を行い,イソメトリの仮定を緩和した。 その後、我々は共同学習法を用いて、言語と対象埋め込み空間のためのCLWEを開発する。 最後に,最終CLWEを生成するために,予め整列された低リソース空間とターゲット空間を再マップする。 本研究は,二つの言語対(ネパリ語,フィンランド語,ルーマニア語,グジャラティ語,ハンガリー語,ハンガリー語)において,相同性(bilingual lexicon induction, bli)と固有値類似性(eigenvalue similarity)をそれぞれ測定した。 最後に,本分析では,埋め込みの質を決定する重要な要因として,関連性および関連言語データの量についても言及した。

Cross-Lingual Word Embeddings (CLWEs) are a key component to transfer linguistic information learnt from higher-resource settings into lower-resource ones. Recent research in cross-lingual representation learning has focused on offline mapping approaches due to their simplicity, computational efficacy, and ability to work with minimal parallel resources. However, they crucially depend on the assumption of embedding spaces being approximately isomorphic i.e. sharing similar geometric structure, which does not hold in practice, leading to poorer performance on low-resource and distant language pairs. In this paper, we introduce a framework to learn CLWEs, without assuming isometry, for low-resource pairs via joint exploitation of a related higher-resource language. In our work, we first pre-align the low-resource and related language embedding spaces using offline methods to mitigate the assumption of isometry. Following this, we use joint training methods to develops CLWEs for the related language and the target embed-ding space. Finally, we remap the pre-aligned low-resource space and the target space to generate the final CLWEs. We show consistent gains over current methods in both quality and degree of isomorphism, as measured by bilingual lexicon induction (BLI) and eigenvalue similarity respectively, across several language pairs: {Nepali, Finnish, Romanian, Gujarati, Hungarian}-English. Lastly, our analysis also points to the relatedness as well as the amount of related language data available as being key factors in determining the quality of embeddings achieved.
翻訳日:2022-03-30 02:31:29 公開日:2022-03-28
# (参考訳) シンボリック音楽作曲のための深層学習モデルの主観評価

Subjective Evaluation of Deep Learning Models for Symbolic Music Composition ( http://arxiv.org/abs/2203.14641v1 )

ライセンス: CC BY 4.0
Carlos Hernandez-Olivan, Jorge Abadias Puyuelo and Jose R. Beltran(参考訳) ディープラーニングモデルは通常、与えられたタスクのパフォーマンスを測定し比較するために評価される。 これらのモデルを評価するために一般的に使用されるメトリクスは、異なるタスクに使用される標準メトリクスです。 音楽の作曲や生成の分野では、他の分野で使われる標準的指標は音楽理論において明確な意味を持たない。 本稿では,その音楽経験と知識に基づいて,基本音楽原理に関する質問を異なるユーザに対して行うことにより,aiに基づく楽曲構成システムを評価する主観的手法を提案する。 この手法を用いて,音楽合成の最先端モデルと深層学習を比較した。 本研究では,評価手法の結果を提示し,評価モデル毎のユーザレベルの応答を比較した。

Deep learning models are typically evaluated to measure and compare their performance on a given task. The metrics that are commonly used to evaluate these models are standard metrics that are used for different tasks. In the field of music composition or generation, the standard metrics used in other fields have no clear meaning in terms of music theory. In this paper, we propose a subjective method to evaluate AI-based music composition systems by asking questions related to basic music principles to different levels of users based on their musical experience and knowledge. We use this method to compare state-of-the-art models for music composition with deep learning. We give the results of this evaluation method and we compare the responses of each user level for each evaluated model.
翻訳日:2022-03-30 02:18:14 公開日:2022-03-28
# (参考訳) モデルベース価値拡大の再検討

Revisiting Model-based Value Expansion ( http://arxiv.org/abs/2203.14660v1 )

ライセンス: CC BY 4.0
Daniel Palenicek, Michael Lutter, Jan Peters(参考訳) モデルに基づく価値拡張手法は、価値関数ターゲットの品質向上と、価値関数学習の有効性を約束する。 しかし、これまでのところ、これらの手法は概念的に単純な1ステップの値関数のターゲットを持つdynaスタイルのアルゴリズムに勝っている。 これは、実際には、値展開の理論的な正当化は成り立たないことを示している。 本研究は,複合モデル誤差であると考えられる価値拡大手法の失敗の原因を明らかにするために,徹底的な実証研究を行った。 gpuベースの物理シミュレータを利用することで、モデルベースの強化学習ループ内の分析に真のダイナミクスを効率的に利用することができる。 trueとlearning dynamicsの広範な比較を行うと、このブラックボックスに光が流れます。 本稿では,価値拡大における問題点の理解を深める。 我々は,現在の手法の最大理論性能を実証的に検証することにより,今後の研究の方向性を示す。

Model-based value expansion methods promise to improve the quality of value function targets and, thereby, the effectiveness of value function learning. However, to date, these methods are being outperformed by Dyna-style algorithms with conceptually simpler 1-step value function targets. This shows that in practice, the theoretical justification of value expansion does not seem to hold. We provide a thorough empirical study to shed light on the causes of failure of value expansion methods in practice which is believed to be the compounding model error. By leveraging GPU based physics simulators, we are able to efficiently use the true dynamics for analysis inside the model-based reinforcement learning loop. Performing extensive comparisons between true and learned dynamics sheds light into this black box. This paper provides a better understanding of the actual problems in value expansion. We provide future directions of research by empirically testing the maximum theoretical performance of current approaches.
翻訳日:2022-03-30 02:12:27 公開日:2022-03-28
# (参考訳) 位置認識ニューロンを用いた連合学習

Federated Learning with Position-Aware Neurons ( http://arxiv.org/abs/2203.14666v1 )

ライセンス: CC BY 4.0
Xin-Chun Li and Yi-Chu Xu and Shaoming Song and Bingshuai Li and Yinchuan Li and Yunfeng Shao and De-Chuan Zhan(参考訳) Federated Learning (FL)は、ユーザのデータを集中化せずに、ローカルノードからのコラボレーティブモデルを融合する。 ニューラルネットワークとクライアント間の非i.i.d.データの置換不変性は、局所更新されたパラメータを不規則にアライメントさせ、座標ベースのパラメータ平均化を無効にする。 従来のニューロンは位置情報を明示的に考慮しない。 そこで我々は,位置認識ニューロン(PAN)を代替として,位置関連値(位置エンコーディング)をニューロン出力に融合させる手法を提案する。 panは自身の位置と結合し、異種データの更新でさえも、転位の可能性を最小限に抑える。 我々はPANをオン/オフし、ニューラルネットワークの置換不変性を無効/可能とする。 panはflに適用すると位置と強く結合し、クライアント間のパラメータを事前調整し、座標ベースのパラメータ平均化を容易にする。 panはアルゴリズムに依存しず、既存のflアルゴリズムを普遍的に改善することができる。 さらに、"FL with PANs" は実装が簡単で、計算に親しみやすい。

Federated Learning (FL) fuses collaborative models from local nodes without centralizing users' data. The permutation invariance property of neural networks and the non-i.i.d. data across clients make the locally updated parameters imprecisely aligned, disabling the coordinate-based parameter averaging. Traditional neurons do not explicitly consider position information. Hence, we propose Position-Aware Neurons (PANs) as an alternative, fusing position-related values (i.e., position encodings) into neuron outputs. PANs couple themselves to their positions and minimize the possibility of dislocation, even updating on heterogeneous data. We turn on/off PANs to disable/enable the permutation invariance property of neural networks. PANs are tightly coupled with positions when applied to FL, making parameters across clients pre-aligned and facilitating coordinate-based parameter averaging. PANs are algorithm-agnostic and could universally improve existing FL algorithms. Furthermore, "FL with PANs" is simple to implement and computationally friendly.
翻訳日:2022-03-30 02:07:12 公開日:2022-03-28
# (参考訳) 機械学習を用いたインドヒマラヤ地域の衛星画像時系列からの開地作付け地図の作成

Using Machine Learning to generate an open-access cropland map from satellite images time series in the Indian Himalayan Region ( http://arxiv.org/abs/2203.14673v1 )

ライセンス: CC BY 4.0
Danya Li, Joaquin Gajardo, Michele Volpi and Thijs Defraeye(参考訳) 作物地図は農業のモニタリングや食品管理に不可欠であり、開発途上国におけるコールドサプライチェーンインフラストラクチャの設定など、ドメイン固有のアプリケーションもサポートする。 機械学習(ML)モデルは、無料で利用可能な衛星画像と組み合わせて、コスト効率が高く空間分解能の高い作物地図を作成するために使用できる。 しかし、小規模化や断片化された地理などの要因により、開発途上国では、教師あり学習のための基礎的真理データへのアクセスは特に困難であり、作物の型地図や信頼できる作物の地図が欠如することが多い。 この研究の関心領域はインドのヒマハル・プラデーシュにあり、クル、シムラ、マンディの10mの解像度でオープンアクセス二分地地図を作ることを目指しています。 そこで我々は,Sentinel-2衛星画像時系列に依存するMLパイプラインを開発した。 本研究では,2つの画素ベース教師付き分類器,サポートベクターマシン (SVM) とランダムフォレスト (RF) について検討した。 フィールドサーベイ基準点と超高解像度(VHR)画像の視覚的解釈の組み合わせから, トレーニング, 検証, テストに使用する真実データを手動で注釈付けした。 局所的空間自己相関を考慮に入れた空間交叉法によるモデルの訓練と検証を行い,全体の堅牢性と計算コストの低下からRFモデルを選択した。 我々は,各地区のホールドアウトテストセットに対して,精度,リコール,精度,F1スコアを計算し,選択したモデルの画素レベルでの一般化能力を検証し,RFの平均精度を87%とした。 このモデルを用いて、ヒマハル・プラデーシュの3つの地区で14,600 km2の農地マップを作成し、既存の公共地図の解像度と品質を改善した。

Crop maps are crucial for agricultural monitoring and food management and can additionally support domain-specific applications, such as setting cold supply chain infrastructure in developing countries. Machine learning (ML) models, combined with freely-available satellite imagery, can be used to produce cost-effective and high spatial-resolution crop maps. However, accessing ground truth data for supervised learning is especially challenging in developing countries due to factors such as smallholding and fragmented geography, which often results in a lack of crop type maps or even reliable cropland maps. Our area of interest for this study lies in Himachal Pradesh, India, where we aim at producing an open-access binary cropland map at 10-meter resolution for the Kullu, Shimla, and Mandi districts. To this end, we developed an ML pipeline that relies on Sentinel-2 satellite images time series. We investigated two pixel-based supervised classifiers, support vector machines (SVM) and random forest (RF), which are used to classify per-pixel time series for binary cropland mapping. The ground truth data used for training, validation and testing was manually annotated from a combination of field survey reference points and visual interpretation of very high resolution (VHR) imagery. We trained and validated the models via spatial cross-validation to account for local spatial autocorrelation and selected the RF model due to overall robustness and lower computational cost. We tested the generalization capability of the chosen model at the pixel level by computing the accuracy, recall, precision, and F1-score on hold-out test sets of each district, achieving an average accuracy for the RF (our best model) of 87%. We used this model to generate a cropland map for three districts of Himachal Pradesh, spanning 14,600 km2, which improves the resolution and quality of existing public maps.
翻訳日:2022-03-30 01:15:16 公開日:2022-03-28
# (参考訳) amcad:適応型混合曲率表現に基づく広告検索システム

AMCAD: Adaptive Mixed-Curvature Representation based Advertisement Retrieval System ( http://arxiv.org/abs/2203.14683v1 )

ライセンス: CC BY 4.0
Zhirong Xu, Shiyang Wen, Junshan Wang, Guojun Liu, Liang Wang, Zhi Yang, Lei Ding, Yan Zhang, Di Zhang, Jian Xu, Bo Zheng(参考訳) グラフ埋め込みに基づく検索は、情報検索コミュニティや検索エンジン業界でもっとも人気のある技術の一つとなっている。 古典的パラダイムは主に平面ユークリッド幾何学に依存している。 近年、双曲的(負曲率)表現法と球面的(正曲率)表現法は、それぞれ階層的および周期的データ構造をキャプチャする優越性を示している。 しかし、eコマース支援検索プラットフォームのような産業シナリオでは、大規模な異種クエリ-item-advertisement相互作用グラフは複数の構造を共存させることが多い。 既存の手法では、単一の幾何学空間のみを考えるか、いくつかの空間を手動で組み合わせるかのどちらかであり、実シナリオの複雑さと不均一性をモデル化することができない。 この課題に対処するために,非ユークリッド空間における複雑で異質なグラフ構造を自動的にキャプチャするウェブスケール適応混合グラフ広告検索システム (AMCAD) を提案する。 具体的には、エンティティは適応的な混合曲率空間で表現され、サブスペースの型と曲率を最適な組み合わせとして訓練する。 さらに、局所グラフ構造と関係型に応じて異種ノード間の類似性をモデル化するために、注意エッジワイズ空間プロジェクタが設計されている。 さらに, 数億のユーザを抱える最大のEコマースプラットフォームであるTaobaoにAMCADをデプロイするために, グラフベースの広告検索を行うための効率的な2層オンライン検索フレームワークを設計する。 提案システムの有効性を示すために,実世界のデータセットの広範な評価とオンライントラフィックのa/bテストを実施した。

Graph embedding based retrieval has become one of the most popular techniques in the information retrieval community and search engine industry. The classical paradigm mainly relies on the flat Euclidean geometry. In recent years, hyperbolic (negative curvature) and spherical (positive curvature) representation methods have shown their superiority to capture hierarchical and cyclic data structures respectively. However, in industrial scenarios such as e-commerce sponsored search platforms, the large-scale heterogeneous query-item-advertisement interaction graphs often have multiple structures coexisting. Existing methods either only consider a single geometry space, or combine several spaces manually, which are incapable and inflexible to model the complexity and heterogeneity in the real scenario. To tackle this challenge, we present a web-scale Adaptive Mixed-Curvature ADvertisement retrieval system (AMCAD) to automatically capture the complex and heterogeneous graph structures in non-Euclidean spaces. Specifically, entities are represented in adaptive mixed-curvature spaces, where the types and curvatures of the subspaces are trained to be optimal combinations. Besides, an attentive edge-wise space projector is designed to model the similarities between heterogeneous nodes according to local graph structures and the relation types. Moreover, to deploy AMCAD in Taobao, one of the largest ecommerce platforms with hundreds of million users, we design an efficient two-layer online retrieval framework for the task of graph based advertisement retrieval. Extensive evaluations on real-world datasets and A/B tests on online traffic are conducted to illustrate the effectiveness of the proposed system.
翻訳日:2022-03-30 00:58:30 公開日:2022-03-28
# (参考訳) reptile: 積極的なリアルタイム深層強化学習自己適応フレームワーク

REPTILE: A Proactive Real-Time Deep Reinforcement Learning Self-adaptive Framework ( http://arxiv.org/abs/2203.14686v1 )

ライセンス: CC BY 4.0
Flavio Corradini, Miichele Loreti, Marco Piangerelli and Giacomo Rocchetti(参考訳) 本研究では,運用環境の変化に応じて動作に適応できるソフトウェアシステムの開発を支援するための汎用フレームワークを提案する。 提案したアプローチはREPTILEと呼ばれ、完全にプロアクティブな方法で動作し、システムの期待される振る舞いに影響を与える可能性のあるイベントに反応する深層強化学習ベースのエージェントに依存している。 私たちのフレームワークでは、コンテキスト/環境に関連するものと、物理アーキテクチャ自体に関連するものという2つの新しさが考慮されています。 このフレームワークは、発生前にこれらの新規性を予測し、環境の時間変化モデルを抽出し、リアルタイム設定に適切なマルコフ決定プロセスを使用する。 さらに、我々のRLエージェントのアーキテクチャは、可能なアクションに基づいて進化する。

In this work a general framework is proposed to support the development of software systems that are able to adapt their behaviour according to the operating environment changes. The proposed approach, named REPTILE, works in a complete proactive manner and relies on Deep Reinforcement Learning-based agents to react to events, referred as novelties, that can affect the expected behaviour of the system. In our framework, two types of novelties are taken into account: those related to the context/environment and those related to the physical architecture itself. The framework, predicting those novelties before their occurrence, extracts time-changing models of the environment and uses a suitable Markov Decision Process to deal with the real-time setting. Moreover, the architecture of our RL agent evolves based on the possible actions that can be taken.
翻訳日:2022-03-30 00:32:05 公開日:2022-03-28
# (参考訳) 限られたデータを用いた話者認識システム

Training speaker recognition systems with limited data ( http://arxiv.org/abs/2203.14688v1 )

ライセンス: CC BY 4.0
Nik Vaessen and David A. van Leeuwen(参考訳) 本研究は, 話者認識のためのニューラルネットワークの学習を, 現代の作業に比べてはるかに小さいデータセットサイズで検討するものである。 一般的なVoxCeleb2データセットの3つのサブセットを提案することで、データの量を人工的に制限する。 これらのサブセットは、50kオーディオファイル(利用可能な1mファイル以上)に制限され、話者数とセッション変動の軸によって異なる。 X-vector, ECAPA-TDNN, wav2vec2ネットワークアーキテクチャの3種類の話者認識システムを訓練する。 トレーニングデータに制限がある場合,wav2vec2の自己教師付き事前訓練重量が有意に向上することを示す。 コードとデータサブセットは \url{https://github.com/nikvaessen/w2v2-speaker-few-samples} で入手できる。

This work considers training neural networks for speaker recognition with a much smaller dataset size compared to contemporary work. We artificially restrict the amount of data by proposing three subsets of the popular VoxCeleb2 dataset. These subsets are restricted to 50 k audio files (versus over 1 M files available), and vary on the axis of number of speakers and session variability. We train three speaker recognition systems on these subsets; the X-vector, ECAPA-TDNN, and wav2vec2 network architectures. We show that the self-supervised, pre-trained weights of wav2vec2 substantially improve performance when training data is limited. Code and data subsets are available at \url{https://github.com/nikvaessen/w2v2-speaker-few-samples}.
翻訳日:2022-03-30 00:07:38 公開日:2022-03-28
# (参考訳) LiDARCap:LiDARポイント雲を用いた長距離マーカーレス3Dモーションキャプチャ

LiDARCap: Long-range Marker-less 3D Human Motion Capture with LiDAR Point Clouds ( http://arxiv.org/abs/2203.14698v1 )

ライセンス: CC BY 4.0
Jialian Li, Jingyi Zhang, Zhiyong Wang, Siqi Shen, Chenglu Wen, Yuexin Ma, Lan Xu, Jingyi Yu, Cheng Wang(参考訳) 既存のモーションキャプチャデータセットはほとんどが短距離であり、まだ長距離アプリケーションのニーズに合わない。 この制限を克服するために、LiDARがより長い範囲で捉えた新しい人間のモーションキャプチャーデータセットLiDARHuman26Mを提案する。 我々のデータセットには、IMUシステムによって取得された人間の動きと同期RGB画像も含まれている。 さらに,LiDAR点雲の人体モーションキャプチャのための強力なベースライン手法LiDARCapを提案する。 具体的には、まずポイントの機能を符号化するためにPointNet++を使用し、次に逆キネマティクスソルバとSMPLオプティマイザを使用して、時間的に符号化された機能を階層的に集約することでポーズを回帰する。 定量的および定性的実験により,本手法はRGB画像のみに基づく手法よりも優れていた。 アブレーション実験は、我々のデータセットがさらなる研究に値することを示しています。 最後に、KITTIデータセットとWaymo Open Datasetの実験により、我々の手法が様々なLiDARセンサ設定に一般化可能であることを示す。

Existing motion capture datasets are largely short-range and cannot yet fit the need of long-range applications. We propose LiDARHuman26M, a new human motion capture dataset captured by LiDAR at a much longer range to overcome this limitation. Our dataset also includes the ground truth human motions acquired by the IMU system and the synchronous RGB images. We further present a strong baseline method, LiDARCap, for LiDAR point cloud human motion capture. Specifically, we first utilize PointNet++ to encode features of points and then employ the inverse kinematics solver and SMPL optimizer to regress the pose through aggregating the temporally encoded features hierarchically. Quantitative and qualitative experiments show that our method outperforms the techniques based only on RGB images. Ablation experiments demonstrate that our dataset is challenging and worthy of further research. Finally, the experiments on the KITTI Dataset and the Waymo Open Dataset show that our method can be generalized to different LiDAR sensor settings.
翻訳日:2022-03-29 23:55:24 公開日:2022-03-28
# (参考訳) MSTR: エンドツーエンドのヒューマンオブジェクトインタラクション検出のためのマルチスケールトランス

MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction Detection ( http://arxiv.org/abs/2203.14709v1 )

ライセンス: CC BY 4.0
Bumsoo Kim, Jonghwan Mun, Kyoung-Woon On, Minchul Shin, Junhyun Lee, Eun-Sol Kim(参考訳) human-object interaction(hoi)検出は、画像から<human, object, interaction>トリプレットのセットを識別するタスクである。 最近の研究は、エンドツーエンドのトレーニングを通じてhoi検出において多くのハンドデザインコンポーネントの必要性をなくすトランスフォーマエンコーダ-デコーダアーキテクチャを提案している。 しかし、それらは単一スケールの特徴分解に限られており、人間、物体、および全く異なるスケールと距離との相互作用を含むシーンにおいて、最適なパフォーマンスを提供する。 そこで本稿では,2つの新しいhoiアウェア変形可能な注意モジュールであるdual-entity attentionとentity-conditioned context attentionを用いたhoi検出のためのマルチスケールトランスフォーマ(mstr)を提案する。 既存の変形可能な注意は、HOI検出性能に大きなコストがかかるが、MSTRの注意モジュールは、相互作用を特定するのに不可欠なサンプリングポイントに効果的に出席することを学ぶ。 実験では,2つのhoi検出ベンチマークで新たな最先端性能を実現する。

Human-Object Interaction (HOI) detection is the task of identifying a set of <human, object, interaction> triplets from an image. Recent work proposed transformer encoder-decoder architectures that successfully eliminated the need for many hand-designed components in HOI detection through end-to-end training. However, they are limited to single-scale feature resolution, providing suboptimal performance in scenes containing humans, objects and their interactions with vastly different scales and distances. To tackle this problem, we propose a Multi-Scale TRansformer (MSTR) for HOI detection powered by two novel HOI-aware deformable attention modules called Dual-Entity attention and Entity-conditioned Context attention. While existing deformable attention comes at a huge cost in HOI detection performance, our proposed attention modules of MSTR learn to effectively attend to sampling points that are essential to identify interactions. In experiments, we achieve the new state-of-the-art performance on two HOI detection benchmarks.
翻訳日:2022-03-29 23:54:28 公開日:2022-03-28
# (参考訳) 画像テキスト検索:最近の研究・開発に関する調査

Image-text Retrieval: A Survey on Recent Research and Development ( http://arxiv.org/abs/2203.14713v1 )

ライセンス: CC BY 4.0
Min Cao, Shiping Li, Juntao Li, Liqiang Nie, Min Zhang(参考訳) 近年, クロスモーダル画像テキスト検索 (ITR) は, 優れた研究価値と広い実世界の応用により, 研究コミュニティへの関心が高まっている。 クエリがひとつのモダリティから,検索ギャラリーが別のモダリティから,というシナリオ用に設計されている。 本稿では,4つの視点からitrアプローチに関する包括的かつ最新の調査を行う。 ITRシステムを特徴抽出と特徴整合の2つのプロセスに分割することにより、これらの2つの視点から最近のITRアプローチの進歩を要約する。 さらに,第3の視点として,ITRシステムの効率性に着目した研究を紹介する。 また,4番目の視点として,モーダル間事前学習ITRアプローチの先駆的な概要を述べる。 最後に、itrの共通ベンチマークデータセットと評価指標を概説し、代表的なitrアプローチ間の精度比較を行う。 論文の最後には、いくつかの批判的かつ研究の少ない問題が議論されている。

In the past few years, cross-modal image-text retrieval (ITR) has experienced increased interest in the research community due to its excellent research value and broad real-world application. It is designed for the scenarios where the queries are from one modality and the retrieval galleries from another modality. This paper presents a comprehensive and up-to-date survey on the ITR approaches from four perspectives. By dissecting an ITR system into two processes: feature extraction and feature alignment, we summarize the recent advance of the ITR approaches from these two perspectives. On top of this, the efficiency-focused study on the ITR system is introduced as the third perspective. To keep pace with the times, we also provide a pioneering overview of the cross-modal pre-training ITR approaches as the fourth perspective. Finally, we outline the common benchmark datasets and valuation metric for ITR, and conduct the accuracy comparison among the representative ITR approaches. Some critical yet less studied issues are discussed at the end of the paper.
翻訳日:2022-03-29 23:32:11 公開日:2022-03-28
# (参考訳) PIT(Pruning In Time) - 時間的畳み込みネットワークのための軽量ネットワークアーキテクチャ最適化

Pruning In Time (PIT): A Lightweight Network Architecture Optimizer for Temporal Convolutional Networks ( http://arxiv.org/abs/2203.14768v1 )

ライセンス: CC BY-SA 4.0
Matteo Risso, Alessio Burrello, Daniele Jahier Pagliari, Francesco Conti, Lorenzo Lamberti, Enrico Macii, Luca Benini, Massimo Poncino(参考訳) 時間的畳み込みネットワーク(TCN)は、時系列処理タスクのためのディープラーニングモデルを約束している。 TCNの重要な特徴の1つは時間分割畳み込みであり、その最適化には広範な実験が必要である。 そこで,本研究では,時間軸の重み付けとして問題に取り組む自動拡張オプティマイザを提案し,その拡張因子と重み付けを一つのトレーニングで学習する。 提案手法は,実際のSoCハードウェアターゲットのモデルサイズと推論遅延を最大7.4倍,3倍まで削減する。 また、単一のモデルから始まるパレート最適化TCNの豊富なセットが得られ、サイズと精度の両方で手作りのソリューションよりも優れている。

Temporal Convolutional Networks (TCNs) are promising Deep Learning models for time-series processing tasks. One key feature of TCNs is time-dilated convolution, whose optimization requires extensive experimentation. We propose an automatic dilation optimizer, which tackles the problem as a weight pruning on the time-axis, and learns dilation factors together with weights, in a single training. Our method reduces the model size and inference latency on a real SoC hardware target by up to 7.4x and 3x, respectively with no accuracy drop compared to a network without dilation. It also yields a rich set of Pareto-optimal TCNs starting from a single model, outperforming hand-designed solutions in both size and accuracy.
翻訳日:2022-03-29 23:13:13 公開日:2022-03-28
# (参考訳) 5Gルーティング干渉環境

5G Routing Interfered Environment ( http://arxiv.org/abs/2203.14790v1 )

ライセンス: CC BY 4.0
Barak Gahtan(参考訳) 5gは次世代のセルラーネットワーク技術であり、高密度ユーザに対応するために必要となる帯域幅のクリティカルな要求を満たすことを目標としている。 高密度の \cite{7390965} に対応するために柔軟なアーキテクチャを採用している。 5Gは、30GHzから300GHzの周波数で動作するmmWave通信によって実現されている。 本稿では,5Gルーティング干渉環境(5GRIE)として知られるピソンベースの環境の構築について論じる。 この環境は、定式化された干渉モデルを用いて、パケットをソースと宛先ペアでルーティングするための異なるアルゴリズムを実行することができる。 Stable-Baselines 3 \cite{Raffin_Stable_Baselines3_2020} を使用するDeep Reinforcement Learningアルゴリズムと、ランダムやgreedyのようなヒューリスティックベースのアルゴリズムを利用できる。 Profitableは、提供されるアルゴリズムである。

5G is the next-generation cellular network technology, with the goal of meeting the critical demand for bandwidth required to accommodate a high density of users. It employs flexible architectures to accommodate the high density \cite{7390965}. 5G is enabled by mmWave communication, which operates at frequencies ranging from 30 to 300 GHz. This paper discusses the creation of a python-based environment known as the 5G Routing Interfered Environment (5GRIE). The environment can run different algorithms to route packets with source and destination pairs using a formulated interference model. Deep Reinforcement Learning algorithms that use Stable-Baselines 3 \cite{Raffin_Stable_Baselines3_2020}, as well as heuristic-based algorithms like random or greedy, can be run on it. Profitable is an algorithm that is provided.
翻訳日:2022-03-29 22:46:34 公開日:2022-03-28
# (参考訳) mixnn: ディープラーニングモデルを保護するための設計

MixNN: A design for protecting deep learning models ( http://arxiv.org/abs/2203.14803v1 )

ライセンス: CC BY 4.0
Chao Liu, Hao Chen, Yusen Wu, Rui Jin(参考訳) 本論文では,深層学習モデルの構造とパラメータを保護するために,MixNNと呼ばれる新しい設計を提案する。 MixNNのディープラーニングモデルのレイヤは完全に分散化されています。 混合ネットワークのアイデアを使って、通信アドレス、レイヤパラメータ、オペレーションを隠蔽し、非隣接層間の後方メッセージフローを隠蔽する。 MixNNには次のような利点がある。 1) 敵は、構造及びパラメータを含むモデルのすべての層を完全に制御することはできない。 2)一部の層でも衝突することがあるが、他の正直な層では干渉できない。 3) モデルプライバシはトレーニング段階で保持される。 デプロイメントに関する詳細な説明を提供します。 1つの分類実験で、仮想マシンにデプロイされたニューラルネットワークと、aws ec2上のmixnn設計で同じニューラルネットワークを比較した。 その結果、MixNNは分類精度が0.001以下であり、MixNN全体の実行時間は1つの仮想マシン上で実行されているものよりも約7.5倍遅いことがわかった。

In this paper, we propose a novel design, called MixNN, for protecting deep learning model structure and parameters. The layers in a deep learning model of MixNN are fully decentralized. It hides communication address, layer parameters and operations, and forward as well as backward message flows among non-adjacent layers using the ideas from mix networks. MixNN has following advantages: 1) an adversary cannot fully control all layers of a model including the structure and parameters, 2) even some layers may collude but they cannot tamper with other honest layers, 3) model privacy is preserved in the training phase. We provide detailed descriptions for deployment. In one classification experiment, we compared a neural network deployed in a virtual machine with the same one using the MixNN design on the AWS EC2. The result shows that our MixNN retains less than 0.001 difference in terms of classification accuracy, while the whole running time of MixNN is about 7.5 times slower than the one running on a single virtual machine.
翻訳日:2022-03-29 22:42:36 公開日:2022-03-28
# (参考訳) 部分的に行う:部分入力によるシーンレベルFG-SBIRに向けて

Partially Does It: Towards Scene-Level FG-SBIR with Partial Input ( http://arxiv.org/abs/2203.14804v1 )

ライセンス: CC BY 4.0
Pinaki Nath Chowdhury and Ayan Kumar Bhunia and Viswanatha Reddy Gajjala and Aneeshan Sain and Tao Xiang and Yi-Zhe Song(参考訳) 我々は、シーンレベルのスケッチ研究を行う重要な観察を精査し、シーンスケッチのかなりの部分が「部分的」であることを示した。 簡単なパイロット研究で (i)シーンスケッチは、シーンの主観的包括的解釈により、対応する写真に必ずしもすべての対象を含むとは限らない。 (ii)オブジェクトレベルの抽象化の結果、そして結果として、重要な空(白)領域が存在する。 (3)既存のシーンレベルのきめ細かいスケッチに基づく画像検索手法は、シーンスケッチがより部分的になるにつれて崩壊する。 この「部分的」問題を解決するため,我々は,最適輸送(ot)を用いた簡易な集合ベースアプローチを提唱する。 重要なことに, ot を改良し, モーダル内隣接行列との比較により, 全体的部分性をさらに考慮する。 提案手法はシーンスケッチ部分に対して頑健なだけでなく,既存のデータセット上での最先端の性能も向上する。

We scrutinise an important observation plaguing scene-level sketch research -- that a significant portion of scene sketches are "partial". A quick pilot study reveals: (i) a scene sketch does not necessarily contain all objects in the corresponding photo, due to the subjective holistic interpretation of scenes, (ii) there exists significant empty (white) regions as a result of object-level abstraction, and as a result, (iii) existing scene-level fine-grained sketch-based image retrieval methods collapse as scene sketches become more partial. To solve this "partial" problem, we advocate for a simple set-based approach using optimal transport (OT) to model cross-modal region associativity in a partially-aware fashion. Importantly, we improve upon OT to further account for holistic partialness by comparing intra-modal adjacency matrices. Our proposed method is not only robust to partial scene-sketches but also yields state-of-the-art performance on existing datasets.
翻訳日:2022-03-29 22:30:42 公開日:2022-03-28
# (参考訳) クラウドファンディング成功予測のための画像特徴抽出

Extracting Image Characteristics to Predict Crowdfunding Success ( http://arxiv.org/abs/2203.14806v1 )

ライセンス: CC BY 4.0
S. J. Blanchard, T. J. Noseworthy, E. Pancer, M. Poole(参考訳) クラウドファンディングプラットフォームに関する実証研究の増加と視覚情報の普及にもかかわらず、運用管理とマーケティングの文献は、イメージ特性がクラウドファンディングの成功に果たす役割を探求していない。 この原稿の著者は、視覚処理に関する文献を合成し、クラウドファンディングの成功を形作る可能性のあるいくつかの画像の特徴を特定することから始める。 それぞれの画像特性について詳細な測定を行った後、彼らは機械学習アルゴリズム(ベイジアン加法木)の一部として、プロジェクト特性とテキスト情報とともに、クラウドファンディングの成功を予測する。 その結果、これらの画像特性の包含は、ベースラインのプロジェクト変数に対する予測とテキスト的特徴を大幅に改善することが示された。 さらに、画像特性変数は、画像数と動画数に関連付けられた変数と同様に、重要度が高い。 この研究は、新しい製品の成功を確実にするための視覚情報の役割に関心がある研究者や管理者に貴重な資源を提供する。

Despite an increase in the empirical study of crowdfunding platforms and the prevalence of visual information, operations management and marketing literature has yet to explore the role that image characteristics play in crowdfunding success. The authors of this manuscript begin by synthesizing literature on visual processing to identify several image characteristics that are likely to shape crowdfunding success. After detailing measures for each image characteristic, they use them as part of a machine-learning algorithm (Bayesian additive trees), along with project characteristics and textual information, to predict crowdfunding success. Results show that the inclusion of these image characteristics substantially improves prediction over baseline project variables, as well as textual features. Furthermore, image characteristic variables exhibit high importance, similar to variables linked to the number of pictures and number of videos. This research therefore offers valuable resources to researchers and managers who are interested in the role of visual information in ensuring new product success.
翻訳日:2022-03-29 22:08:51 公開日:2022-03-28
# (参考訳) 算数条件付きデータ認識プロセスの健全性

Soundness of Data-Aware Processes with Arithmetic Conditions ( http://arxiv.org/abs/2203.14809v1 )

ライセンス: CC BY 4.0
Paolo Felli, Marco Montali, Sarah Winkler(参考訳) データ・アウェア・プロセスは単一のモデルにおける構造的および行動的制約を表現・統合し、ビジネスプロセス管理や情報システム工学においてますます研究されている。 このスペクトルでは、単純さと表現性のバランスをとる能力により、データペトリネット(DPN)の人気が高まっている。 データと制御フローの相互作用は、そのようなモデルの正確性、特に音質の周知な特性、重要かつ困難性をチェックする。 DPNの健全性をチェックするための従来のアプローチの最大の欠点は、実世界の具体的なアプリケーションを扱う上で重要な特徴である算術のないデータ条件を考えることである。 本稿では,算術データ条件に富むDPNの健全性を評価するための基礎的かつ運用的な枠組みを提供することにより,このオープンな問題に対処する。 このフレームワークには概念実証実装が付属しており、アドホックな技術に頼るのではなく、既製のSMT技術を採用している。 この実装は、文献の例集と、そのような例から構築された合成変異体上で検証される。

Data-aware processes represent and integrate structural and behavioural constraints in a single model, and are thus increasingly investigated in business process management and information systems engineering. In this spectrum, Data Petri nets (DPNs) have gained increasing popularity thanks to their ability to balance simplicity with expressiveness. The interplay of data and control-flow makes checking the correctness of such models, specifically the well-known property of soundness, crucial and challenging. A major shortcoming of previous approaches for checking soundness of DPNs is that they consider data conditions without arithmetic, an essential feature when dealing with real-world, concrete applications. In this paper, we attack this open problem by providing a foundational and operational framework for assessing soundness of DPNs enriched with arithmetic data conditions. The framework comes with a proof-of-concept implementation that, instead of relying on ad-hoc techniques, employs off-the-shelf established SMT technologies. The implementation is validated on a collection of examples from the literature, and on synthetic variants constructed from such examples.
翻訳日:2022-03-29 21:43:56 公開日:2022-03-28
# (参考訳) 中国における衛星降水ダウンスケーリングのための注意機構に基づく畳み込みネットワーク

An attention mechanism based convolutional network for satellite precipitation downscaling over China ( http://arxiv.org/abs/2203.14812v1 )

ライセンス: CC BY 4.0
Yinghong Jing, Liupeng Lin, Xinghua Li, Tongwen Li, Huanfeng Shen(参考訳) 降水は水循環の重要な部分であり、気候変動の敏感な指標である。 グローバル降水量測定(GPM)ミッション(IMERG)の総合的マルチサテライトE検索は,グローバルおよび地域降水量調査に広く利用されている。 しかし、局所的な応用は比較的粗い空間分解能によって制限される。 そこで本稿では,GPM IMERGの月間降水量のダウンスケールのために,注意機構に基づく畳み込みネットワーク(AMCN)を提案する。 提案手法は,大域的なクロスアテンションモジュール,多要素クロスアテンションモジュール,残留畳み込みモジュールからなるエンド・ツー・エンドネットワークであり,降水と複雑な表面特性の関係を包括的に検討した。 また,低分解能降水に基づく劣化損失関数は,ネットワークトレーニングを物理的に制約し,提案するネットワークのロバスト性を向上させるように設計されている。 実験の結果,提案するネットワークは3つのベースライン法より有意に優れていた。 最後に, 地理的差分解析手法を導入し, 高精度・微粒な降水量推定のためのその場測定を取り入れた。

Precipitation is a key part of hydrological circulation and is a sensitive indicator of climate change. The Integrated Multi-satellitE Retrievals for the Global Precipitation Measurement (GPM) mission (IMERG) datasets are widely used for global and regional precipitation investigations. However, their local application is limited by the relatively coarse spatial resolution. Therefore, in this paper, an attention mechanism based convolutional network (AMCN) is proposed to downscale GPM IMERG monthly precipitation data. The proposed method is an end-to-end network, which consists of a global cross-attention module, a multi-factor cross-attention module, and a residual convolutional module, comprehensively considering the potential relationships between precipitation and complicated surface characteristics. In addition, a degradation loss function based on low-resolution precipitation is designed to physically constrain the network training, to improve the robustness of the proposed network under different time and scale variations. The experiments demonstrate that the proposed network significantly outperforms three baseline methods. Finally, a geographic difference analysis method is introduced to further improve the downscaled results by incorporating in-situ measurements for high-quality and fine-scale precipitation estimation.
翻訳日:2022-03-29 21:20:20 公開日:2022-03-28
# (参考訳) 確率的パラメータ化:確率論的機械学習による時間相関のモデル化

Stochastic Parameterizations: Better Modelling of Temporal Correlations using Probabilistic Machine Learning ( http://arxiv.org/abs/2203.14814v1 )

ライセンス: CC BY 4.0
Raghul Parthipan, Hannah M. Christensen, J. Scott Hosking, Damon J. Wischik(参考訳) 小規模プロセスのモデリングは気候モデルの主要なエラー源であり、パラメータ化によってそのようなプロセスを近似しなければならない低コストモデルの精度を妨げる。 確率性と機械学習を使うことは、よりよいモデルにつながったが、両方の利点を組み合わせる作業が不足している。 確率的枠組み内で物理的に変形したリカレントニューラルネットワークを用いることで,lorenz 96大気シミュレーションのモデルが,従来のベースラインと既存の確率的機械学習(gan)モデルの両方に匹敵することを示した。 これは、標準の1次自己回帰スキームと比較して時間的相関をモデル化する能力が優れているためである。 このモデルは目に見えない体制にも一般化する。 文献から多くの指標を評価するとともに、将来の確率的気候モデルにおいて、確率論的指標が統一的な選択である可能性についても論じる。

The modelling of small-scale processes is a major source of error in climate models, hindering the accuracy of low-cost models which must approximate such processes through parameterization. Using stochasticity and machine learning have led to better models but there is a lack of work on combining the benefits from both. We show that by using a physically-informed recurrent neural network within a probabilistic framework, our resulting model for the Lorenz 96 atmospheric simulation is competitive and often superior to both a bespoke baseline and an existing probabilistic machine-learning (GAN) one. This is due to a superior ability to model temporal correlations compared to standard first-order autoregressive schemes. The model also generalises to unseen regimes. We evaluate across a number of metrics from the literature, but also discuss how the probabilistic metric of likelihood may be a unifying choice for future probabilistic climate models.
翻訳日:2022-03-29 21:01:59 公開日:2022-03-28
# (参考訳) 心配せずにスケッチする: ノイズ耐性のあるスケッチに基づく画像検索

Sketching without Worrying: Noise-Tolerant Sketch-Based Image Retrieval ( http://arxiv.org/abs/2203.14817v1 )

ライセンス: CC BY 4.0
Ayan Kumar Bhunia and Subhadeep Koley and Abdullah Faiz Ur Rahman Khilji and Aneeshan Sain and Pinaki Nath Chowdhury and Tao Xiang and Yi-Zhe Song(参考訳) スケッチによって多くのエキサイティングなアプリケーション、特に画像検索が可能になる。 しかし、恐怖からスケッチへの問題(すなわち「スケッチできない」)は、その普及によって致命的であることが証明されている。 本稿では,この「恐ろしい」見出しに取り組み,ユーザが心配せずにスケッチできる既存の検索モデルのための補助モジュールを初めて提案する。 我々は最初に、ノイズストロークの存在に秘密があることを示すパイロット実験を行ったが、「私はスケッチできない」というほどではなかった。 そこで我々は,検索に肯定的な寄与をもたらすノイズストロークのみを検出可能なストロークサブセットセレクタを設計した。 強化学習に基づく定式化は,与えられた部分集合に存在する各ストロークの重要性を,そのストロークが検索にどの程度寄与するかに基づいて定量化する。 事前学習した検索モデルを前処理モジュールとして組み合わせることで,標準ベースラインよりも8%~10%の大幅な向上を実現し,新たな最先端性能を報告した。 最後に、一度トレーニングされたセレクタをプラグイン・アンド・プレイ方式で使用して、以前は不可能だった方法で様々なスケッチアプリケーションを強化することを実証する。

Sketching enables many exciting applications, notably, image retrieval. The fear-to-sketch problem (i.e., "I can't sketch") has however proven to be fatal for its widespread adoption. This paper tackles this "fear" head on, and for the first time, proposes an auxiliary module for existing retrieval models that predominantly lets the users sketch without having to worry. We first conducted a pilot study that revealed the secret lies in the existence of noisy strokes, but not so much of the "I can't sketch". We consequently design a stroke subset selector that {detects noisy strokes, leaving only those} which make a positive contribution towards successful retrieval. Our Reinforcement Learning based formulation quantifies the importance of each stroke present in a given subset, based on the extent to which that stroke contributes to retrieval. When combined with pre-trained retrieval models as a pre-processing module, we achieve a significant gain of 8%-10% over standard baselines and in turn report new state-of-the-art performance. Last but not least, we demonstrate the selector once trained, can also be used in a plug-and-play manner to empower various sketch applications in ways that were not previously possible.
翻訳日:2022-03-29 20:42:02 公開日:2022-03-28
# (参考訳) ブラケット付き露光・イベントからのHDR再構成

HDR Reconstruction from Bracketed Exposures and Events ( http://arxiv.org/abs/2203.14825v1 )

ライセンス: CC BY 4.0
Richard Shaw, Sibi Catley-Chandar, Ales Leonardis, Eduardo Perez-Pellitero(参考訳) 高品質なHDR画像の再構成は、現代の計算写真の中心にある。 マルチフレームhdr再構成法では,高精細で高精細で高精度な色再現が実現されている。 しかし、フレームのミスアライメントがしばしば目に見えるゴーストアーティファクトをもたらすような、動的または大部分が露出過剰なシーンで失敗する傾向にある。 近年のアプローチでは、照明の2値変化のみを測定するイベントベースカメラ(EBC)を用いてこれを緩和しようとしている。 望まれる高時間分解能とダイナミックレンジ特性にもかかわらず、これらの手法は色情報や低解像度センサの欠如により従来の多フレーム再構成手法よりも優れていなかった。 本稿では, ブラケット付きLDR画像と, 同時にキャプチャしたイベントを両世界の長所として活用し, ブラケット付きLDRから高画質なRGB情報と, イベントからの相補的な高周波およびダイナミックレンジ情報とを両世界の長所から得ることを提案する。 本稿では,注意と多スケール空間アライメントモジュールを用いて,特徴領域におけるブラケット画像とイベントモダリティを融合するマルチモーダル・エンド・ツー・エンド学習型hdrイメージングシステムを提案する。 イベント特徴を自己スーパービジョンで画像空間に変換することを学習する新しいイベント・ツー・イメージ機能蒸留モジュールを提案する。 当社のフレームワークでは,入力イベントストリームをスライディングウィンドウを使ってサブサンプリングすることで,イベントの時間分解能の向上を実現しています。 提案手法は,2dBと1dBのPSNR-LとPSNR-muをそれぞれHdM HDRデータセット上で改良し,合成イベントと実イベントを用いたSoTA多フレームHDR再構成手法を克服する。

Reconstruction of high-quality HDR images is at the core of modern computational photography. Significant progress has been made with multi-frame HDR reconstruction methods, producing high-resolution, rich and accurate color reconstructions with high-frequency details. However, they are still prone to fail in dynamic or largely over-exposed scenes, where frame misalignment often results in visible ghosting artifacts. Recent approaches attempt to alleviate this by utilizing an event-based camera (EBC), which measures only binary changes of illuminations. Despite their desirable high temporal resolution and dynamic range characteristics, such approaches have not outperformed traditional multi-frame reconstruction methods, mainly due to the lack of color information and low-resolution sensors. In this paper, we propose to leverage both bracketed LDR images and simultaneously captured events to obtain the best of both worlds: high-quality RGB information from bracketed LDRs and complementary high frequency and dynamic range information from events. We present a multi-modal end-to-end learning-based HDR imaging system that fuses bracketed images and event modalities in the feature domain using attention and multi-scale spatial alignment modules. We propose a novel event-to-image feature distillation module that learns to translate event features into the image-feature space with self-supervision. Our framework exploits the higher temporal resolution of events by sub-sampling the input event streams using a sliding window, enriching our combined feature representation. Our proposed approach surpasses SoTA multi-frame HDR reconstruction methods using synthetic and real events, with a 2dB and 1dB improvement in PSNR-L and PSNR-mu on the HdM HDR dataset, respectively.
翻訳日:2022-03-29 20:20:03 公開日:2022-03-28
# (参考訳) 多言語同時音声翻訳

Multilingual Simultaneous Speech Translation ( http://arxiv.org/abs/2203.14835v1 )

ライセンス: CC BY 4.0
Shashank Subramanya, Jan Niehues(参考訳) 会議や会議などのイベント中に同時に音声翻訳を行うために設計されたアプリケーションは、優れたユーザエクスペリエンスを提供するために翻訳テキストを表示しながら、品質と遅延のバランスを取る必要がある。 オンライン音声翻訳システムを構築する一般的なアプローチは、オフライン音声翻訳用に構築されたモデルを活用することである。 エンド・ツー・エンドのモノリンガルモデルを適応させる手法に基づいて、オンライン音声翻訳を行う上での多言語モデルと異なるアーキテクチャ(エンド・ツー・エンド、カスケード)について検討する。 多言語TEDxコーパスでは、アプローチが異なるアーキテクチャに一般化されることを示す。 言語やアーキテクチャのレイテンシ低減(40%相対)も同様に向上しています。 しかし、エンドツーエンドアーキテクチャは、オンラインモデルに適応した後、翻訳品質の損失を小さくする。 さらに、このアプローチはゼロショット方向までスケールする。

Applications designed for simultaneous speech translation during events such as conferences or meetings need to balance quality and lag while displaying translated text to deliver a good user experience. One common approach to building online spoken language translation systems is by leveraging models built for offline speech translation. Based on a technique to adapt end-to-end monolingual models, we investigate multilingual models and different architectures (end-to-end and cascade) on the ability to perform online speech translation. On the multilingual TEDx corpus, we show that the approach generalizes to different architectures. We see similar gains in latency reduction (40% relative) across languages and architectures. However, the end-to-end architecture leads to smaller translation quality losses after adapting to the online model. Furthermore, the approach even scales to zero-shot directions.
翻訳日:2022-03-29 20:01:05 公開日:2022-03-28
# (参考訳) Doodle It Yourself:小さめのスケッチを引いて授業のインクリメンタル学習

Doodle It Yourself: Class Incremental Learning by Drawing a Few Sketches ( http://arxiv.org/abs/2203.14843v1 )

ライセンス: CC BY 4.0
Ayan Kumar Bhunia, Viswanatha Reddy Gajjala, Subhadeep Koley, Rohit Kundu, Aneeshan Sain, Tao Xiang and Yi-Zhe Song(参考訳) 人間の視覚システムは、ほんの数例から新しい視覚概念を学ぶのに顕著である。 これはまさに、モデルが"偽造"に苦しめられないようにすることに重点を置いている、数発のクラスインクリメンタルラーニング(FSCIL)の背景にある目標である。 本稿では、そのユビキタスな応用をボトルネックにする2つの重要な問題に対処することで、FSCILの境界をさらに推し進める。 i) モデルが単に写真(人間のように)以外の様々なモダリティから学習できるか、そして (ii)写真のアクセスが容易でない場合(倫理的・プライバシー上の制約により)はどうか。 私たちの重要なイノベーションは、クラスサポートの新しいモダリティとしてスケッチを使うことを提唱することです。 この製品は“doodle it yourself”(diy)のfscilフレームワークで、ユーザが新しいクラスの例を自由にスケッチして、そのクラスの写真を認識できるようになる。 そのために、我々はこのフレームワークを (i)ドメイン不変学習における勾配コンセンサス (ii)旧級情報保存のための知識蒸留 (iii)旧クラスと新クラス間のメッセージパッシングのためのグラフアテンションネットワーク。 FSCILの文脈では,スケッチがテキストよりも優れたクラスサポートであることを実験的に示す。

The human visual system is remarkable in learning new visual concepts from just a few examples. This is precisely the goal behind few-shot class incremental learning (FSCIL), where the emphasis is additionally placed on ensuring the model does not suffer from "forgetting". In this paper, we push the boundary further for FSCIL by addressing two key questions that bottleneck its ubiquitous application (i) can the model learn from diverse modalities other than just photo (as humans do), and (ii) what if photos are not readily accessible (due to ethical and privacy constraints). Our key innovation lies in advocating the use of sketches as a new modality for class support. The product is a "Doodle It Yourself" (DIY) FSCIL framework where the users can freely sketch a few examples of a novel class for the model to learn to recognize photos of that class. For that, we present a framework that infuses (i) gradient consensus for domain invariant learning, (ii) knowledge distillation for preserving old class information, and (iii) graph attention networks for message passing between old and novel classes. We experimentally show that sketches are better class support than text in the context of FSCIL, echoing findings elsewhere in the sketching literature.
翻訳日:2022-03-29 19:52:19 公開日:2022-03-28
# (参考訳) タスク分割によるマルチタスク模倣学習のためのモジュール適応ポリシー選択

Modular Adaptive Policy Selection for Multi-Task Imitation Learning through Task Division ( http://arxiv.org/abs/2203.14855v1 )

ライセンス: CC BY 4.0
Dafni Antotsiou, Carlo Ciliberto and Tae-Kyun Kim(参考訳) 深い模倣学習は、多くの専門家によるデモンストレーションを必要とするが、特に多くのタスクが関与している場合には、取得が困難である。 しかし、異なるタスクはしばしば類似点を共有するため、それらを一緒に学ぶことは彼らにとって大きな利益となり、多くのデモの必要性を軽減できる。 しかし、共同マルチタスク学習はしばしば負の伝達に悩まされ、タスク固有の情報を共有する。 本稿では,タスク特有の特徴を生かしながらマルチタスク模倣を行う手法を提案する。 これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。 プロトポリアは並列に動作し、モジュールと共同で訓練されたセレクタ機構によって適応的に選択される。 異なるタスクセットにおける実験により,単一エージェント,タスクコンディショニングエージェント,マルチヘッドマルチタスクエージェント,最先端のメタ学習エージェントの精度が向上した。 また、タスクを共有行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。

Deep imitation learning requires many expert demonstrations, which can be hard to obtain, especially when many tasks are involved. However, different tasks often share similarities, so learning them jointly can greatly benefit them and alleviate the need for many demonstrations. But, joint multi-task learning often suffers from negative transfer, sharing information that should be task-specific. In this work, we introduce a method to perform multi-task imitation while allowing for task-specific features. This is done by using proto-policies as modules to divide the tasks into simple sub-behaviours that can be shared. The proto-policies operate in parallel and are adaptively chosen by a selector mechanism that is jointly trained with the modules. Experiments on different sets of tasks show that our method improves upon the accuracy of single agents, task-conditioned and multi-headed multi-task agents, as well as state-of-the-art meta learning agents. We also demonstrate its ability to autonomously divide the tasks into both shared and task-specific sub-behaviours.
翻訳日:2022-03-29 19:33:14 公開日:2022-03-28
# (参考訳) HIME:複数例による高能率ヘッドショット画像超解像

HIME: Efficient Headshot Image Super-Resolution with Multiple Exemplars ( http://arxiv.org/abs/2203.14863v1 )

ライセンス: CC BY 4.0
Xiaoyu Xiang, Jon Morton, Fitsum A Reda, Lucas Young, Federico Perazzi, Rakesh Ranjan, Amit Kumar, Andrea Colaco, Jan Allebach(参考訳) 低解像度のヘッドショット画像において、失われた情報を復元するための有望な方向は、同一のアイデンティティから高解像度の例証のセットを活用することである。 参照セットの補完画像は、多くの異なるビューやポーズで生成されたヘッドショットの品質を改善することができる。 しかし、複数の例を最大限に活用することは困難であり、それぞれの例の品質とアライメントは保証できない。 低品質で不整合なイメージを参照として使用すると、結果が損なわれる。 これらの課題を克服するために,HIME (Multiple Exemplars Network) 法を用いたヘッドショット画像超解法を提案する。 従来の手法と比較して,我々のネットワークは,顔の事前処理を必要とせずに,入力と参照のミスアライメントを効果的に処理することができる。 さらに,より詳細な顔特徴を再構築するために,制御可能な空間範囲における局所的なテクスチャの豊かな表現を提供する相関損失を提案する。 実験の結果, 提案手法の計算コストは, 最近のexemplar-guided法に比べて大幅に低減するだけでなく, 質的, 定量的性能も向上した。

A promising direction for recovering the lost information in low-resolution headshot images is utilizing a set of high-resolution exemplars from the same identity. Complementary images in the reference set can improve the generated headshot quality across many different views and poses. However, it is challenging to make the best use of multiple exemplars: the quality and alignment of each exemplar cannot be guaranteed. Using low-quality and mismatched images as references will impair the output results. To overcome these issues, we propose an efficient Headshot Image Super-Resolution with Multiple Exemplars network (HIME) method. Compared with previous methods, our network can effectively handle the misalignment between the input and the reference without requiring facial priors and learn the aggregated reference set representation in an end-to-end manner. Furthermore, to reconstruct more detailed facial features, we propose a correlation loss that provides a rich representation of the local texture in a controllable spatial range. Experimental results demonstrate that the proposed framework not only has significantly fewer computation cost than recent exemplar-guided methods but also achieves better qualitative and quantitative performance.
翻訳日:2022-03-29 19:18:37 公開日:2022-03-28
# (参考訳) フィンランド議会asrコーパスの分析,ベンチマーク,統計

Finnish Parliament ASR corpus - Analysis, benchmarks and statistics ( http://arxiv.org/abs/2203.14876v1 )

ライセンス: CC BY 4.0
Anja Virkkunen and Aku Rouhe and Nhan Phan and Mikko Kurimo(参考訳) 議会の会議記録や書き起こしなどの公開資料は、自動音声認識(ASR)システムの訓練と評価のために、成長を続ける材料を提供する。 本稿では,3000時間を超える発話データと449人の話者からなるフィンランド議会asrコーパスの公開分析を行った。 このコーパスは初期の作業に基づいて構築され、結果としてコーパスは2つの期間から2つのトレーニングサブセットに自然に分割される。 同様に、異なる時間をカバーする2つの公式な修正テストセットがあり、縦方向の分布シフト特性を持つASRタスクを設定している。 公式開発セットも用意されている。 我々は、カルディに基づく完全なデータ準備パイプラインと隠れマルコフモデル(HMM)、ハイブリッドディープニューラルネットワーク(HMM-DNN)、アテンションベースのエンコーダデコーダ(AED)ASRレシピを開発した。 公式のテストセットにベンチマークを設定し、他の複数の最近使われたテストセットにもベンチマークを設定しました。 どちらの時間的コーパスサブセットも既に大きく、その規模を超えて、公式なテストセットのASRパフォーマンスは高められるが、他のドメインは追加データから恩恵を受ける。 HMM-DNN と AED のアプローチは、HMM-DNN システムとよく一致した同値なデータ設定で比較される。 最後に、議会メタデータで利用可能な話者カテゴリー間でasrの精度のばらつきを比較し、性別、年齢、教育などの要因に基づいて潜在的なバイアスを検出する。

Public sources like parliament meeting recordings and transcripts provide ever-growing material for the training and evaluation of automatic speech recognition (ASR) systems. In this paper, we publish and analyse the Finnish parliament ASR corpus, the largest publicly available collection of manually transcribed speech data for Finnish with over 3000 hours of speech and 449 speakers for which it provides rich demographic metadata. This corpus builds on earlier initial work, and as a result the corpus has a natural split into two training subsets from two periods of time. Similarly, there are two official, corrected test sets covering different times, setting an ASR task with longitudinal distribution-shift characteristics. An official development set is also provided. We develop a complete Kaldi-based data preparation pipeline, and hidden Markov model (HMM), hybrid deep neural network (HMM-DNN) and attention-based encoder-decoder (AED) ASR recipes. We set benchmarks on the official test sets, as well as multiple other recently used test sets. Both temporal corpus subsets are already large, and we observe that beyond their scale, ASR performance on the official test sets plateaus, whereas other domains benefit from added data. The HMM-DNN and AED approaches are compared in a carefully matched equal data setting, with the HMM-DNN system consistently performing better. Finally, the variation of the ASR accuracy is compared between the speaker categories available in the parliament metadata to detect potential biases based on factors such as gender, age, and education.
翻訳日:2022-03-29 19:03:51 公開日:2022-03-28
# (参考訳) AWA Part:知識グラフのアダプティブなワークロード対応分割

AWAPart: Adaptive Workload-Aware Partitioning of Knowledge Graphs ( http://arxiv.org/abs/2203.14884v1 )

ライセンス: CC BY 4.0
Amitabh Priyadarshi, Krzysztof J. Kochut(参考訳) 大規模知識グラフは多くの領域でますます一般的になっている。 その大きなサイズは、特にメインメモリに配置された場合、集中型データストアにグラフを格納するシステムの限界を超えることが多い。 これを解決するには、大規模な知識グラフを複数のサブグラフに分割し、分散システムのノードに配置する必要がある。 しかし、これらの断片化されたサブグラフのクエリは、切断エッジを含む分散結合による通信コストの増加など、新たな課題を引き起こす。 これらの問題に対処するため、優れたパーティショニングは、与えられたクエリのワークロードを考慮してエッジカットを減らす必要がある。 しかし、分割されたグラフは、クエリのワークロードの変更に対応し、平均処理時間を維持するために、継続的に再分割する必要がある。 本稿では,大規模知識グラフに対する適応的分割手法を導入し,クエリ処理量の変化に応じて分割を適応させる。 本評価では,知識グラフトリプルの分割を動的に適応することで,クエリの処理時間の性能が向上することを示す。

Large-scale knowledge graphs are increasingly common in many domains. Their large sizes often exceed the limits of systems storing the graphs in a centralized data store, especially if placed in main memory. To overcome this, large knowledge graphs need to be partitioned into multiple sub-graphs and placed in nodes in a distributed system. But querying these fragmented sub-graphs poses new challenges, such as increased communication costs, due to distributed joins involving cut edges. To combat these problems, a good partitioning should reduce the edge cuts while considering a given query workload. However, a partitioned graph needs to be continually re-partitioned to accommodate changes in the query workload and maintain a good average processing time. In this paper, an adaptive partitioning method for large-scale knowledge graphs is introduced, which adapts the partitioning in response to changes in the query workload. Our evaluation demonstrates that the performance of processing time for queries is improved after dynamically adapting the partitioning of knowledge graph triples.
翻訳日:2022-03-29 18:45:21 公開日:2022-03-28
# (参考訳) HUNIS:高性能無監督核インスタンスセグメンテーション

HUNIS: High-Performance Unsupervised Nuclei Instance Segmentation ( http://arxiv.org/abs/2203.14887v1 )

ライセンス: CC BY 4.0
Vasileios Magoulianitis, Yijing Yang and C.-C. Jay Kuo(参考訳) 本研究では,高性能非教師付き核インスタンス分割法(HUNIS)を提案する。 hunisは2段階のブロックワイズ操作からなる。 第1段は以下の通り。 1)画素強度の適応しきい値化 2 核の大きさ・形状の事前の組み入れ及び 3)偽陽性核インスタンスの除去。 そして、HUNISは、第1のステージからガイダンスを受け取って第2のステージセグメンテーションを行う。 第2段は第1段で得られたセグメンテーションマスクを利用し、色と形状の分布を利用してより正確なセグメンテーションを行う。 2段設計の主な目的は、第1段から第2段までのピクセル単位の擬似ラベルを提供することである。 この自己超越メカニズムは新しくて効果的です。 MoNuSegデータセットの実験結果によると、HUNISは他の教師なしの手法よりもかなり優れていた。 また、最先端の監視手法の間でも競争的な立場にある。

A high-performance unsupervised nuclei instance segmentation (HUNIS) method is proposed in this work. HUNIS consists of two-stage block-wise operations. The first stage includes: 1) adaptive thresholding of pixel intensities, 2) incorporation of nuclei size/shape priors and 3) removal of false positive nuclei instances. Then, HUNIS conducts the second stage segmentation by receiving guidance from the first one. The second stage exploits the segmentation masks obtained in the first stage and leverages color and shape distributions for a more accurate segmentation. The main purpose of the two-stage design is to provide pixel-wise pseudo-labels from the first to the second stage. This self-supervision mechanism is novel and effective. Experimental results on the MoNuSeg dataset show that HUNIS outperforms all other unsupervised methods by a substantial margin. It also has a competitive standing among state-of-the-art supervised methods.
翻訳日:2022-03-29 18:09:09 公開日:2022-03-28
# (参考訳) コミュニティ構造を持つABCDeランダムグラフモデルの特性と性能

Properties and Performance of the ABCDe Random Graph Model with Community Structure ( http://arxiv.org/abs/2203.14899v1 )

ライセンス: CC BY 4.0
Bogumi{\l} Kami\'nski, Tomasz Olczak, Bartosz Pankratz, Pawe{\l} Pra{\l}at, Fran\c{c}ois Th\'eberge(参考訳) 本稿では,コミュニティ構造を組み込んだ合成ランダムグラフモデルの特性と性能について検討する。 このようなモデルは自然に制御されないコミュニティ検出アルゴリズムの評価とチューニングに重要である。 本稿では,マルチスレッドを用いたABCDグラフ生成器ABCDeの新たな実装を提案する。 本稿では,本アルゴリズムの実装の詳細を議論するとともに,従来利用可能であったabcdモデルの逐次バージョンと,標準および広く使用されているlfrジェネレータの並列実装と比較する。 ABCDe は NetworKit で提供される LFR の並列実装よりも 10 倍以上高速でスケール可能であることを示す。 さらに、このアルゴリズムは高速であるだけでなく、ABCDが生成したランダムグラフは、元のLFRアルゴリズムが生成したグラフと類似した特性を持つ一方、並列化されたNetworKit実装は、顕著に異なる特性を持つグラフを生成する。

In this paper, we investigate properties and performance of synthetic random graph models with a built-in community structure. Such models are important for evaluating and tuning community detection algorithms that are unsupervised by nature. We propose a new implementation of the ABCD graph generator, ABCDe, that uses multiple-threading. We discuss the implementation details of the algorithm as well as compare it with both the previously available sequential version of the ABCD model and with the parallel implementation of the standard and extensively used LFR generator. We show that ABCDe is more than ten times faster and scales better than the parallel implementation of LFR provided in NetworKit. Moreover, the algorithm is not only faster but random graphs generated by ABCD have similar properties to the ones generated by the original LFR algorithm, while the parallelized NetworKit implementation of LFR produces graphs that have noticeably different characteristics.
翻訳日:2022-03-29 18:00:26 公開日:2022-03-28
# MolGenSurvey: 分子設計のための機械学習モデルに関するシステム調査

MolGenSurvey: A Systematic Survey in Machine Learning Models for Molecule Design ( http://arxiv.org/abs/2203.14500v1 )

ライセンス: Link先を確認
Yuanqi Du, Tianfan Fu, Jimeng Sun, Shengchao Liu(参考訳) 分子設計は分子科学における根本的な問題であり、創薬、物質科学など様々な分野において重要な応用がある。 しかし、大規模な探索空間のため、人間の専門家が湿式実験で全ての分子を列挙してテストすることは不可能である。 近年,機械学習手法,特に生成手法の急速な発展に伴い,分子設計は機械学習モデルを利用して候補分子を生成することで大きな進歩を遂げている。 本稿では、分子設計のための機械学習モデルにおける最も関連する研究を体系的に概観する。 まず,1d文字列,2dグラフ,3dジオメトリを含む,メインストリーム分子の成熟・表現法と一般生成法(深部生成法と組合せ最適化法)について概観する。 次に、既存の分子設計問題をすべて、入力、出力タイプ、目標を含む問題設定に従って複数の場所にまとめる。 最後に、オープンチャレンジで締めくくり、現実世界のアプリケーションにおける分子設計のための機械学習モデルの将来の機会を指摘した。

Molecule design is a fundamental problem in molecular science and has critical applications in a variety of areas, such as drug discovery, material science, etc. However, due to the large searching space, it is impossible for human experts to enumerate and test all molecules in wet-lab experiments. Recently, with the rapid development of machine learning methods, especially generative methods, molecule design has achieved great progress by leveraging machine learning models to generate candidate molecules. In this paper, we systematically review the most relevant work in machine learning models for molecule design. We start with a brief review of the mainstream molecule featurization and representation methods (including 1D string, 2D graph, and 3D geometry) and general generative methods (deep generative and combinatorial optimization methods). Then we summarize all the existing molecule design problems into several venues according to the problem setup, including input, output types and goals. Finally, we conclude with the open challenges and point out future opportunities of machine learning models for molecule design in real-world applications.
翻訳日:2022-03-29 17:44:56 公開日:2022-03-28
# 不均質なフォッグにおける分散タスクマネジメント : 社会的にコンケーブなバンディットゲーム

Distributed Task Management in the Heterogeneous Fog: A Socially Concave Bandit Game ( http://arxiv.org/abs/2203.14572v1 )

ライセンス: Link先を確認
Xiaotong Cheng and Setareh Maghsudi(参考訳) フォグコンピューティングは、モバイルユーザーの爆発的な計算需要に対する潜在的な解決策として登場した。 このポテンシャルは主に、ネットワークエッジにおけるタスクのオフロードとアロケーションの能力に起因しており、遅延を低減し、サービスの品質を改善する。 大きな可能性にもかかわらず、霧ネットワークの性能を最適化することはしばしば困難である。 フォグアーキテクチャでは、計算ノードは異なる能力と能力を持つ異質のスマートデバイスであり、したがって好みである。 また、ランダムなタスク到着を伴う超高密度霧ネットワークでは、集中制御が過大なオーバーヘッドをもたらすため、実現不可能である。 不確実性下における異種フォグコンピューティングネットワークにおける分散タスク割り当て問題について検討する。 この問題をソーシャル・コンケーブゲームとして定式化し、プレイヤーはナッシュ均衡への道のりで後悔を最小化しようとする。 定式化問題を解決するため,我々は2つの無規制意思決定戦略を考案する。 一つの戦略、すなわちbandit gradient ascent with momentumは、banditフィードバックを伴うオンライン凸最適化アルゴリズムである。 もうひとつの戦略であるLipschitz Bandit with Initializationは、EXP3のマルチアームバンディットアルゴリズムである。 両戦略に対する後悔関係を確立し,その収束特性を解析する。 さらに,提案手法をLearning with Linear Rewardsという集中型アロケーション戦略と比較した。 理論的および数値解析により,提案手法は最先端手法と比較して効率的なタスク割当を行うための優れた性能を示す。

Fog computing has emerged as a potential solution to the explosive computational demand of mobile users. This potential mainly stems from the capacity of task offloading and allocation at the network edge, which reduces the delay and improves the quality of service. Despite the significant potential, optimizing the performance of a fog network is often challenging. In the fog architecture, the computing nodes are heterogeneous smart devices with distinct abilities and capacities, thereby, preferences. Besides, in an ultra-dense fog network with random task arrival, centralized control results in excessive overhead, and therefore, it is not feasible. We study a distributed task allocation problem in a heterogeneous fog computing network under uncertainty. We formulate the problem as a social-concave game, where the players attempt to minimize their regret on the path to Nash equilibrium. To solve the formulated problem, we develop two no-regret decision-making strategies. One strategy, namely bandit gradient ascent with momentum, is an online convex optimization algorithm with bandit feedback. The other strategy, Lipschitz Bandit with Initialization, is an EXP3 multi-armed bandit algorithm. We establish a regret bound for both strategies and analyze their convergence characteristics. Moreover, we compare the proposed strategies with a centralized allocation strategy named Learning with Linear Rewards. Theoretical and numerical analysis shows the superior performance of the proposed strategies for efficient task allocation compared to the state-of-the-art methods.
翻訳日:2022-03-29 17:44:41 公開日:2022-03-28
# 終端雑音-ロバスト音声認識のためのデュアルパス型学習

Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition ( http://arxiv.org/abs/2203.14838v1 )

ライセンス: Link先を確認
Yuchen Hu, Nana Hou, Chen Chen, Eng Siong Chng(参考訳) ノイズロスト自動音声認識は、通常フロントエンド音声強調モジュールに存在する過剰抑圧問題に直面して大幅に劣化する。 このような問題を緩和するために, エンドツーエンドノイズロスト自動音声認識(DPSL-ASR)のための新しいデュアルパス学習を提案する。 具体的には, DPSL-ASR方式では, IFF-Net をデュアルパス入力として融合したクリーンな特徴を導入し, 過度に抑圧された情報を復元する。 さらに,融通した特徴をクリーンな特徴にマッピングすることで,詳細な情報や潜伏情報を学ぶためのスタイル学習を提案する。 さらに,2経路間のデコード埋め込み距離を最小化するために,一貫性損失を利用する。 実験の結果,提案手法は,RATS Channel-AデータセットとCHiME-4 1-Channel Trackデータセットを用いて,相対単語誤り率(WER)を10.6%,8.6%削減できることがわかった。 中間埋め込みの可視化は、提案したDPSL-ASRが最良のベースラインよりも詳細を学習できることを示唆している。 私たちのコード実装はgithubで利用可能です。

Noise-robust automatic speech recognition degrades significantly in face of over-suppression problem, which usually exists in the front-end speech enhancement module. To alleviate such issue, we propose novel dual-path style learning for end-to-end noise-robust automatic speech recognition (DPSL-ASR). Specifically, the proposed DPSL-ASR approach introduces clean feature along with fused feature by the IFF-Net as dual-path inputs to recover the over-suppressed information. Furthermore, we propose style learning to learn abundant details and latent information by mapping fused feature to clean feature. Besides, we also utilize the consistency loss to minimize the distance of decoded embeddings between two paths. Experimental results show that the proposed DPSL-ASR approach achieves relative word error rate (WER) reductions of 10.6% and 8.6%, on RATS Channel-A dataset and CHiME-4 1-Channel Track dataset, respectively. The visualizations of intermediate embeddings also indicate that the proposed DPSL-ASR can learn more details than the best baseline. Our code implementation is available at Github: https://github.com/YUCHEN005/DPSL-ASR.
翻訳日:2022-03-29 17:44:22 公開日:2022-03-28
# 4ボソン正規化群極限サイクルに関する新しい知見

New insights into four-boson renormalization group limit cycles ( http://arxiv.org/abs/2203.14597v1 )

ライセンス: Link先を確認
Bastian Kaspschak, Ulf.-G. Mei{\ss}ner(参考訳) 機械学習技術を用いて,単位極限を超える再正規化群制限サイクルの出現が,3ボソンサブシステムから4ボソンシステム全体へ伝達されることを検証する。 4つの同一ボソンに着目して、変分オートエンコーダの強化されたアンサンブルの潜在空間内で合成特異ポテンシャルの集団を生成する。 制限サイクルの挙動から与えられた再正規化群フローの偏差を測定するための制限サイクル損失を導入した後, 得られた集団にエリート的遺伝的アルゴリズムを適用して最小化する。 フィットテストポテンシャルは逆二乗ポテンシャルの周りに蓄積し、4つのボソンの極限サイクルを生成し、既に3つのボソン系で極限サイクルを生成することが知られている。 これはまた、4体の項が先行する順序で低エネルギーの観測値に入り込まないことを示唆している。

Using machine learning techniques, we verify that the emergence of renormalization group limit cycles beyond the unitary limit is transferred from the three-boson subsystems to the whole four-boson system. Focussing on four identical bosons, we first generate populations of synthetic singular potentials within the latent space of a boosted ensemble of variational autoencoders. After introducing the limit cycle loss for measuring the deviation of a given renormalization group flow from limit cycle behavior, we minimize it by applying an elitist genetic algorithm to the generated populations. The fittest potentials are observed to accumulate around the inverse-square potential, which we prove to generate limit cycles for four bosons and which is already known to produce limit cycles in the three-boson system. This also indicates that a four-body term does not enter low-energy observables at leading order, since we do not observe any additional scale to emerge.
翻訳日:2022-03-29 17:43:40 公開日:2022-03-28
# フローベース変分量子モンテカルロの数値的および幾何学的側面

Numerical and geometrical aspects of flow-based variational quantum Monte Carlo ( http://arxiv.org/abs/2203.14824v1 )

ライセンス: Link先を確認
James Stokes, Brian Chen, Shravan Veerapaneni(参考訳) 本稿では,流れに基づく変分量子モンテカルロ法を用いて連続変数量子系をシミュレートするための近年の取り組みを要約し,場の振幅(四分数)に基づくボソンの例に着目した。 特に、時間依存の変動原理の確率的推定と情報幾何学との関係を慎重に検討し、変動実時間および想像時間進化問題に重点を置いている。 pytorchコードの実装を導くための実践的な手順がいくつか提供されている。 このレビューは、機械学習と量子情報科学に関心のある研究者が利用できることを意図している。

This article aims to summarize recent and ongoing efforts to simulate continuous-variable quantum systems using flow-based variational quantum Monte Carlo techniques, focusing for pedagogical purposes on the example of bosons in the field amplitude (quadrature) basis. Particular emphasis is placed on the variational real- and imaginary-time evolution problems, carefully reviewing the stochastic estimation of the time-dependent variational principles and their relationship with information geometry. Some practical instructions are provided to guide the implementation of a PyTorch code. The review is intended to be accessible to researchers interested in machine learning and quantum information science.
翻訳日:2022-03-29 17:42:35 公開日:2022-03-28
# (参考訳) WawPart: 知識グラフの作業負荷対応分割

WawPart: Workload-Aware Partitioning of Knowledge Graphs ( http://arxiv.org/abs/2203.14888v1 )

ライセンス: CC BY 4.0
Amitabh Priyadarshi, Krzysztof J. Kochut(参考訳) 知識グラフという形での大規模なデータセットは、今日では多くのドメインでよく使われている。 ナレッジグラフのサイズはしばしば単一のコンピュータシステムの容量を超え、特にグラフをメインメモリに保存しなければならない場合である。 これを克服するために、知識グラフを複数のサブグラフに分割し、多くの計算ノードにシャードとして分散することができる。 しかしながら、クエリなどのグラフ上で実行される多くの共通タスクのパフォーマンスは、結果として低下する。 これは分割を横断(切断)するグラフエッジによって要求される分散結合に起因する。 本稿では,一連のクエリ(作業負荷)を考慮した知識グラフ分割手法を提案する。 結果として生じる分割は、分散結合の数を減らし、ワークロードパフォーマンスを改善することを目的としている。 クエリワークロードとナレッジグラフで識別される重要な機能は、クエリをクラスタ化し、グラフを分割するために使用される。 クエリはグラフのパーティショニングを考慮して書き直される。 評価結果は,ワークロード処理時間の性能改善を示す。

Large-scale datasets in the form of knowledge graphs are often used in numerous domains, today. A knowledge graphs size often exceeds the capacity of a single computer system, especially if the graph must be stored in main memory. To overcome this, knowledge graphs can be partitioned into multiple sub-graphs and distributed as shards among many computing nodes. However, performance of many common tasks performed on graphs, such as querying, suffers, as a result. This is due to distributed joins mandated by graph edges crossing (cutting) the partitions. In this paper, we propose a method of knowledge graph partitioning that takes into account a set of queries (workload). The resulting partitioning aims to reduces the number of distributed joins and improve the workload performance. Critical features identified in the query workload and the knowledge graph are used to cluster the queries and then partition the graph. Queries are rewritten to account for the graph partitioning. Our evaluation results demonstrate the performance improvement in workload processing time.
翻訳日:2022-03-29 17:41:54 公開日:2022-03-28
# FS6D:新しい物体のFew-Shot 6D Pose Estimation

FS6D: Few-Shot 6D Pose Estimation of Novel Objects ( http://arxiv.org/abs/2203.14628v1 )

ライセンス: Link先を確認
Yisheng He, Yao Wang, Haoqiang Fan, Jian Sun, Qifeng Chen(参考訳) 6次元オブジェクトポーズ推定ネットワークは、近接した仮定と高忠実度オブジェクトCADモデルに依存するため、多数のオブジェクトインスタンスにスケールする能力に制限されている。 本研究では,未知の物体の6次元位置を,予備のトレーニングなしで数回の支持ビューで推定する,数ショットの6次元物体のポーズ推定という新しいオープン集合問題について検討する。 この問題に対処するため,我々は,与えられたサポートビューとクエリシーンパッチの外観と幾何学的関係を十分に検討することの重要性を指摘し,高密度rgbdプロトタイプとトランスフォーマーの抽出・マッチングによる高密度プロトタイプマッチングフレームワークを提案する。 さらに,ネットワーク事前学習のための大規模rgbdフォトリアリスティックデータセット(shapenet6d)を提案する。 簡易かつ効果的なオンラインテクスチャブレンディングアプローチも導入され、低コストで外観の多様性を豊かにする合成データセットからドメインギャップを取り除く。 最後に、この問題に対する解決策を議論し、今後の研究を促進するために人気のあるデータセットのベンチマークを確立する。 プロジェクトページは \url{https://fs6d.github.io/} にある。

6D object pose estimation networks are limited in their capability to scale to large numbers of object instances due to the close-set assumption and their reliance on high-fidelity object CAD models. In this work, we study a new open set problem; the few-shot 6D object poses estimation: estimating the 6D pose of an unknown object by a few support views without extra training. To tackle the problem, we point out the importance of fully exploring the appearance and geometric relationship between the given support views and query scene patches and propose a dense prototypes matching framework by extracting and matching dense RGBD prototypes with transformers. Moreover, we show that the priors from diverse appearances and shapes are crucial to the generalization capability under the problem setting and thus propose a large-scale RGBD photorealistic dataset (ShapeNet6D) for network pre-training. A simple and effective online texture blending approach is also introduced to eliminate the domain gap from the synthesis dataset, which enriches appearance diversity at a low cost. Finally, we discuss possible solutions to this problem and establish benchmarks on popular datasets to facilitate future research. The project page is at \url{https://fs6d.github.io/}.
翻訳日:2022-03-29 17:30:48 公開日:2022-03-28
# 長期記憶に基づくインターベンショナルMRI再構成のためのリカレントニューラルネットワーク

A Long Short-term Memory Based Recurrent Neural Network for Interventional MRI Reconstruction ( http://arxiv.org/abs/2203.14769v1 )

ライセンス: Link先を確認
Ruiyang Zhao, Zhao He, Tao Wang, Suhao Qiu, Pawel Herman, Yanle Hu, Chencheng Zhang, Dinggang Shen, Bomin Sun, Guang-Zhong Yang, and Yuan Feng(参考訳) 外科的指導のためのインターベンショナル磁気共鳴イメージング(i-MRI)は、深部脳刺激(DBS)のような介入過程を可視化し、手術のパフォーマンスと患者の結果を改善するのに役立つ。 従来のダイナミックイメージングにおける振り返り再構成とは異なり、DBS用のi-MRIは、介入画像の連続的取得と再構成をオンラインで行う必要がある。 そこで本研究では,convolutional long short-term memory (conv-lstm) を用いたリカレントニューラルネットワーク (recurrent neural network, convlr) を提案する。 初期化器とConv-LSTMブロックを用いることで、前操作参照画像と術中フレームの先行を現在のフレームの再構築に利用した。 放射状サンプリングのためのデータ一貫性をソフト投射法により実現した。 再現精度を向上させるために,逆学習戦略を採用した。 術前および術後のMR画像に基づく介入画像のセットをシミュレーションし,アルゴリズムによる検証を行った。 その結果、10個のラジアルスポークしか得られず、ConvLRは最先端の手法と比較して最高の性能を示し、最大40倍の加速を実現した。 提案アルゴリズムは,DBSのリアルタイムi-MRIを実現する可能性があり,汎用的なMR誘導介入に使用できる。

Interventional magnetic resonance imaging (i-MRI) for surgical guidance could help visualize the interventional process such as deep brain stimulation (DBS), improving the surgery performance and patient outcome. Different from retrospective reconstruction in conventional dynamic imaging, i-MRI for DBS has to acquire and reconstruct the interventional images sequentially online. Here we proposed a convolutional long short-term memory (Conv-LSTM) based recurrent neural network (RNN), or ConvLR, to reconstruct interventional images with golden-angle radial sampling. By using an initializer and Conv-LSTM blocks, the priors from the pre-operative reference image and intra-operative frames were exploited for reconstructing the current frame. Data consistency for radial sampling was implemented by a soft-projection method. An adversarial learning strategy was adopted to improve the reconstruction accuracy. A set of interventional images based on the pre-operative and post-operative MR images were simulated for algorithm validation. Results showed with only 10 radial spokes, ConvLR provided the best performance compared with state-of-the-art methods, giving an acceleration up to 40 folds. The proposed algorithm has the potential to achieve real-time i-MRI for DBS and can be used for general purpose MR-guided intervention.
翻訳日:2022-03-29 17:30:27 公開日:2022-03-28
# LiDAR蒸留:3次元物体検出のためのビーム誘起領域ギャップのブリッジ

LiDAR Distillation: Bridging the Beam-Induced Domain Gap for 3D Object Detection ( http://arxiv.org/abs/2203.14956v1 )

ライセンス: Link先を確認
Yi Wei, Zibu Wei, Yongming Rao, Jiaxin Li, Jie Zhou, Jiwen Lu(参考訳) 本稿では,異なるLiDARビームによる3次元物体検出のための領域ギャップをブリッジするLiDAR蒸留法を提案する。 多くの現実世界の応用において、大量生産されたロボットや車両が使用するLiDARポイントは通常、大規模な公開データセットよりもビームが少ない。 さらに、LiDARはビーム量が異なる他の製品モデルにアップグレードされるため、以前のバージョンの高解像度センサーが取得したラベル付きデータを利用するのは難しい。 領域適応型3D検出の最近の進歩にもかかわらず、ほとんどの手法はビーム誘起領域ギャップを取り除くのに苦労している。 トレーニングプロセス中に、ソースドメインのポイントクラウド密度とターゲットドメインのポイントクラウド密度を一致させることが不可欠であることがわかった。 この発見に触発されて、ビーム誘起ドメインシフトを緩和するプログレッシブフレームワークを提案する。 各イテレーションにおいて、ハイビーム点雲をダウンサンプリングすることで、まず低ビーム擬似LiDARを生成する。 次に、教師学習フレームワークを用いて、より多くのビームでデータからリッチな情報を蒸留する。 Waymo、nuScenes、KITTIの3つの異なるLiDARベースの検出器による大規模な実験は、我々のLiDAR蒸留の有効性を実証している。 特に、我々の手法は推論の計算コストを増大させません。

In this paper, we propose the LiDAR Distillation to bridge the domain gap induced by different LiDAR beams for 3D object detection. In many real-world applications, the LiDAR points used by mass-produced robots and vehicles usually have fewer beams than that in large-scale public datasets. Moreover, as the LiDARs are upgraded to other product models with different beam amount, it becomes challenging to utilize the labeled data captured by previous versions' high-resolution sensors. Despite the recent progress on domain adaptive 3D detection, most methods struggle to eliminate the beam-induced domain gap. We find that it is essential to align the point cloud density of the source domain with that of the target domain during the training process. Inspired by this discovery, we propose a progressive framework to mitigate the beam-induced domain shift. In each iteration, we first generate low-beam pseudo LiDAR by downsampling the high-beam point clouds. Then the teacher-student framework is employed to distill rich information from the data with more beams. Extensive experiments on Waymo, nuScenes and KITTI datasets with three different LiDAR-based detectors demonstrate the effectiveness of our LiDAR Distillation. Notably, our approach does not increase any additional computation cost for inference.
翻訳日:2022-03-29 17:30:05 公開日:2022-03-28
# ランダム化実験における汎用機械学習による異種処理効果の統計的推測

Statistical Inference for Heterogeneous Treatment Effects Discovered by Generic Machine Learning in Randomized Experiments ( http://arxiv.org/abs/2203.14511v1 )

ライセンス: Link先を確認
Kosuke Imai, Michael Lingzhi Li(参考訳) 研究者たちは、ランダム化実験における因果不均一性を調べるために、機械学習(ML)アルゴリズムに目を向けている。 その約束にもかかわらず、MLアルゴリズムは、多くの共変量と小さなサンプルサイズを持つ実用的な設定の下で、不均一な処理効果を正確に確認できないかもしれない。 さらに、推定の不確実性の定量化は依然として課題である。 汎用MLアルゴリズムによって発見された不均一な処理効果の統計的推測に対する一般手法を開発する。 本研究では,Neymanの繰り返しサンプリングフレームワークを,MLアルゴリズムを用いて条件平均処理効果を推定し,推定した効果の大きさに基づいてサンプルを複数のグループに分割する,共通の設定に適用する。 本研究は,各群の平均治療効果を推定する方法を示し,有効信頼区間を構築する。 さらに, 群間における治療効果の均一性, 群内平均治療効果のランク一貫性に関する非パラメトリックテストを行った。 本手法の有効性は,処理代入のランダム化と単位のランダムサンプリングにのみ依存するため,MLアルゴリズムの特性に依存しない。 最後に,データのランダム分割によって引き起こされる付加的不確実性を考慮し,提案手法をクロスフィッティング手法に一般化する。

Researchers are increasingly turning to machine learning (ML) algorithms to investigate causal heterogeneity in randomized experiments. Despite their promise, ML algorithms may fail to accurately ascertain heterogeneous treatment effects under practical settings with many covariates and small sample size. In addition, the quantification of estimation uncertainty remains a challenge. We develop a general approach to statistical inference for heterogeneous treatment effects discovered by a generic ML algorithm. We apply the Neyman's repeated sampling framework to a common setting, in which researchers use an ML algorithm to estimate the conditional average treatment effect and then divide the sample into several groups based on the magnitude of the estimated effects. We show how to estimate the average treatment effect within each of these groups, and construct a valid confidence interval. In addition, we develop nonparametric tests of treatment effect homogeneity across groups, and rank-consistency of within-group average treatment effects. The validity of our methodology does not rely on the properties of ML algorithms because it is solely based on the randomization of treatment assignment and random sampling of units. Finally, we generalize our methodology to the cross-fitting procedure by accounting for the additional uncertainty induced by the random splitting of data.
翻訳日:2022-03-29 17:27:10 公開日:2022-03-28
# 高密度部分グラフによる相関 Erd\H{o}s-R\enyi グラフの検出しきい値

Detection threshold for correlated Erd\H{o}s-R\'enyi graphs via densest subgraphs ( http://arxiv.org/abs/2203.14573v1 )

ライセンス: Link先を確認
Jian Ding, Hang Du(参考訳) n$ の非ラベルノード上の 2 つの erd\h{o}s-r\'enyi ランダムグラフ間の辺相関を検出する問題は、仮説検定問題として定式化することができる: ヌル仮説の下では、2つのグラフは独立にサンプリングされる; 代替として、2つのグラフは erd\h{o}s-r\'enyi $\mathbf{g}(n, p)$ の親グラフから独立にサブサンプリングされる。 p = n^{-\alpha+o(1)}$ for $\alpha\in (0, 1]$ が、Wu, Xu, Yu の最近の研究で定数因子をシャープ化するとき、鋭い情報理論しきい値を確立する。 我々の研究における重要な新規性は、検出問題と Erd\H{o}s-R\'enyi グラフの最も密度の高い部分グラフの間の興味深い関係である。

The problem of detecting edge correlation between two Erd\H{o}s-R\'enyi random graphs on $n$ unlabeled nodes can be formulated as a hypothesis testing problem: under the null hypothesis, the two graphs are sampled independently; under the alternative, the two graphs are independently sub-sampled from a parent graph which is Erd\H{o}s-R\'enyi $\mathbf{G}(n, p)$ (so that their marginal distributions are the same as the null). We establish a sharp information-theoretic threshold when $p = n^{-\alpha+o(1)}$ for $\alpha\in (0, 1]$ which sharpens a constant factor in a recent work by Wu, Xu and Yu. A key novelty in our work is an interesting connection between the detection problem and the densest subgraph of an Erd\H{o}s-R\'enyi graph.
翻訳日:2022-03-29 17:26:52 公開日:2022-03-28
# 線形システム同定における無限次元スパース学習

Infinite-Dimensional Sparse Learning in Linear System Identification ( http://arxiv.org/abs/2203.14731v1 )

ライセンス: Link先を確認
Mingzhou Yin, Mehmet Tolga Akan, Andrea Iannelli, Roy S. Smith(参考訳) 正規化法は既知のモデル構造を持たないシステム同定問題に広く適用されている。 本稿では,原子ノルム正規化に基づく無限次元スパース学習アルゴリズムを提案する。 原子ノルム正規化は、伝達関数を一階原子モデルに分解し、粗い極の集合を選択し、対応する係数を識別する群ラスソ問題を解く。 この問題を解決することの難しさは、可能な原子モデルが無限に存在するという事実にある。 本研究は,既存の問題の最適条件の破れを最大化する新しい候補原子モデルを生成する欲望アルゴリズムを提案する。 このアルゴリズムは、無限次元群ラッソ問題を高精度に解くことができる。 このアルゴリズムはさらに、反復的に重み付けされた適応群ラスソと相補的なペア安定性の選択により、極位置推定におけるバイアスの低減と偽陽性の否定のために拡張される。 数値計算により,提案アルゴリズムは,インパルス応答フィッティングと極位置推定の両方の観点から,ベンチマークパラメータ化および正規化手法よりも優れた性能を示した。

Regularized methods have been widely applied to system identification problems without known model structures. This paper proposes an infinite-dimensional sparse learning algorithm based on atomic norm regularization. Atomic norm regularization decomposes the transfer function into first-order atomic models and solves a group lasso problem that selects a sparse set of poles and identifies the corresponding coefficients. The difficulty in solving the problem lies in the fact that there are an infinite number of possible atomic models. This work proposes a greedy algorithm that generates new candidate atomic models maximizing the violation of the optimality condition of the existing problem. This algorithm is able to solve the infinite-dimensional group lasso problem with high precision. The algorithm is further extended to reduce the bias and reject false positives in pole location estimation by iteratively reweighted adaptive group lasso and complementary pairs stability selection respectively. Numerical results demonstrate that the proposed algorithm performs better than benchmark parameterized and regularized methods in terms of both impulse response fitting and pole location estimation.
翻訳日:2022-03-29 17:26:26 公開日:2022-03-28
# 量子回路を用いた最適無分類と密度推定

Optimisation-free Classification and Density Estimation with Quantum Circuits ( http://arxiv.org/abs/2203.14452v1 )

ライセンス: Link先を確認
Vladimir Vargas-Calder\'on, Fabio A. Gonz\'alez, and Herbert Vinck-Posada(参考訳) 量子回路を用いた分類と確率密度推定のための新しい機械学習フレームワークの実装を実証する。 このフレームワークは、トレーニングデータセットまたは単一のデータサンプルを、量子特徴マップを介して物理システムの量子状態にマップする。 任意の大きなトレーニングデータセットの量子状態は、その確率分布を有限次元の量子波動関数で要約する。 新しいデータサンプルの量子状態をトレーニングデータセットの量子状態に投影することにより、統計を導出して、新しいデータサンプルの密度を分類または推定することができる。 注目すべきは、実際の量子デバイスに対する我々のフレームワークの実装は、量子回路パラメータの最適化を必要としないことである。 それにもかかわらず、我々はこのフレームワークの量子長所を活用できる変分量子回路アプローチについて論じる。

We demonstrate the implementation of a novel machine learning framework for classification and probability density estimation using quantum circuits. The framework maps a training data set or a single data sample to the quantum state of a physical system through quantum feature maps. The quantum state of the arbitrarily large training data set summarises its probability distribution in a finite-dimensional quantum wave function. By projecting the quantum state of a new data sample onto the quantum state of the training data set, one can derive statistics to classify or estimate the density of the new data sample. Remarkably, the implementation of our framework on a real quantum device does not require any optimisation of quantum circuit parameters. Nonetheless, we discuss a variational quantum circuit approach that could leverage quantum advantage for our framework.
翻訳日:2022-03-29 17:20:11 公開日:2022-03-28
# 薬物・薬物相互作用予測のための多視点サブ構造学習

Multi-View Substructure Learning for Drug-Drug Interaction Prediction ( http://arxiv.org/abs/2203.14513v1 )

ライセンス: Link先を確認
Zimeng Li, Shichao Zhu, Bin Shao, Tie-Yan Liu, Xiangxiang Zeng and Tong Wang(参考訳) 薬物と薬物の相互作用(DDI)予測は、体系的に有効な治療のための薬物の組み合わせ戦略を提供する。 先行研究は通常、薬物自体のような単一視点に制約された薬物情報をモデル化し、不完全でノイズの多い情報となり、DDI予測の精度が制限される。 本研究では,単剤 (intra-view) と対 (inter-view) の両方の表現から化学サブストラクチャーを学習し,そのサブストラクチャーを用いて反復的に薬物表現を更新するddi予測(msn-ddi)のための新しい多視点薬物サブストラクチャーネットワークを提案する。 総合的な評価では、MSN-DDIは、トランスダクティブ・セッティングの下で比較的改善された19.32%と99%以上の精度を達成することで、既存の薬物に対するDDI予測をほぼ解決したことを示している。 さらに重要なことは、MSN-DDIはより困難な誘導シナリオの下で、比較的改善された7.07%の精度で薬物を発見できるより良い一般化能力を示す。 最後に、MSN-DDIは、新しい薬物に対する現実世界のDDIアプリケーションの予測性能を改善する。

Drug-drug interaction (DDI) prediction provides a drug combination strategy for systemically effective treatment. Previous studies usually model drug information constrained on a single view such as the drug itself, leading to incomplete and noisy information, which limits the accuracy of DDI prediction. In this work, we propose a novel multi- view drug substructure network for DDI prediction (MSN-DDI), which learns chemical substructures from both the representations of the single drug (intra-view) and the drug pair (inter-view) simultaneously and utilizes the substructures to update the drug representation iteratively. Comprehensive evaluations demonstrate that MSN-DDI has almost solved DDI prediction for existing drugs by achieving a relatively improved accuracy of 19.32% and an over 99% accuracy under the transductive setting. More importantly, MSN-DDI exhibits better generalization ability to unseen drugs with a relatively improved accuracy of 7.07% under more challenging inductive scenarios. Finally, MSN-DDI improves prediction performance for real-world DDI applications to new drugs.
翻訳日:2022-03-29 17:20:01 公開日:2022-03-28
# 動的環境における最適オンライン凸最適化

Optimistic Online Convex Optimization in Dynamic Environments ( http://arxiv.org/abs/2203.14520v1 )

ライセンス: Link先を確認
Qing-xin Meng, Jian-wei Liu(参考訳) 本稿では,動的環境における楽観的なオンライン凸最適化問題について検討する。 既存の研究によると、Ader は $O\left(\sqrt{\left(1+P_T\right)T}\right)$ dynamic regret upper bound を楽しみ、$T$ はラウンド数、$P_T$ は参照戦略列のパス長である。 しかし、Aderは環境適応的ではない。 最適化が環境適応性を実現するためのフレームワークを提供するという事実に基づいて,Ader の Greedy Projection (GP) と Normalized Exponentated Subgradient (NES) をそれぞれOptimistic-GP と Optimistic-NES に置き換え,対応するアルゴリズム ONES-OGP を命名する。 さらに2倍のトリックを適応的なトリックに拡張し、m_t$, $\widetilde{m}_t$, $v_t+1_{l^2\rho\left(\rho+2 p_t\right)\leqslant\varrho^2 v_t}d_t$という3つの特性項を導入することで、動的後悔の上限である$t$の依存性を置き換える。 我々は,ONES-OGPの適応的トリックとその段階的変動バージョンを詳述し,これらはすべて環境適応型である。

In this paper, we study the optimistic online convex optimization problem in dynamic environments. Existing works have shown that Ader enjoys an $O\left(\sqrt{\left(1+P_T\right)T}\right)$ dynamic regret upper bound, where $T$ is the number of rounds, and $P_T$ is the path length of the reference strategy sequence. However, Ader is not environment-adaptive. Based on the fact that optimism provides a framework for implementing environment-adaptive, we replace Greedy Projection (GP) and Normalized Exponentiated Subgradient (NES) in Ader with Optimistic-GP and Optimistic-NES respectively, and name the corresponding algorithm ONES-OGP. We also extend the doubling trick to the adaptive trick, and introduce three characteristic terms naturally arise from optimism, namely $M_T$, $\widetilde{M}_T$ and $V_T+1_{L^2\rho\left(\rho+2 P_T\right)\leqslant\varrho^2 V_T}D_T$, to replace the dependence of the dynamic regret upper bound on $T$. We elaborate ONES-OGP with adaptive trick and its subgradient variation version, all of which are environment-adaptive.
翻訳日:2022-03-29 17:19:41 公開日:2022-03-28
# SEによる視覚オブザーバの方向性ランドマーク配置の最適化(3)

Optimization of Directional Landmark Deployment for Visual Observer on SE(3) ( http://arxiv.org/abs/2203.14485v1 )

ライセンス: Link先を確認
Zike Lei, Xi Chen, Ying Tan, Xiang Chen, Li Chai(参考訳) 本稿では, 3次元タスク空間内の任意の領域内の方向ランドマーク数(位置とポーズ)を新たに配置するための最適化手法を提案する。 この新しい展開技術はランドマークとモノクラーカメラの両方の幾何学モデルに基づいて構築されている。 特に、カメラが固定位置で同時にカバーする少なくともn個のランドマークの確率を特徴付けるために、MCP(Multiple Coverage Probability)という新しい概念が定義される。 この最適化は、与えられた3次元空間をグローバルに探索することでmcpを最大化するために与えられたランドマークの数と位置について行われる。 除去遺伝的アルゴリズムを採用することにより、大域的最適解を得ることができ、実演例としてSE(3)上の視覚観察者の収束性能を改善するために応用される。 提案手法の有効性を検証するため,シミュレーションと実験を行った。

An optimization method is proposed in this paper for novel deployment of given number of directional landmarks (location and pose) within a given region in the 3-D task space. This new deployment technique is built on the geometric models of both landmarks and the monocular camera. In particular, a new concept of Multiple Coverage Probability (MCP) is defined to characterize the probability of at least n landmarks being covered simultaneously by a camera at a fixed position. The optimization is conducted with respect to the position and pose of the given number of landmarks to maximize MCP through globally exploration of the given 3-D space. By adopting the elimination genetic algorithm, the global optimal solutions can be obtained, which are then applied to improve the convergent performance of the visual observer on SE(3) as a demonstration example. Both simulation and experimental results are presented to validate the effectiveness of the proposed landmark deployment optimization method.
翻訳日:2022-03-29 17:17:20 公開日:2022-03-28
# Open-VICO:人間-ロボットコラボレーションにおけるマルチカメラベースの骨格追跡のためのオープンソースのガゼボツールキット

Open-VICO: An Open-Source Gazebo Toolkit for Multi-Camera-based Skeleton Tracking in Human-Robot Collaboration ( http://arxiv.org/abs/2203.14733v1 )

ライセンス: Link先を確認
Luca Fortini (1), Mattia Leonori (1), Juan M. Gandarias (1), Arash Ajoudani (1) ((1) Human-Robot Interfaces and Physical Interaction, Istituto Italiano di Tecnologia)(参考訳) シミュレーションツールはロボット研究、特にヒューマン・ロボティクス・コラボレーション(HRC)のような安全性が重要である分野において不可欠である。 しかし、人間の振る舞いをシミュレートすることは困難であり、既存のロボットシミュレータは機能的人間モデルを統合していない。 Open-VICO~\footnote{\url{https://gitlab.iit.it/hrii-public/open-vico}}はガゼボで仮想人間モデルを統合するオープンソースツールキットである。 特にOpen-VICOは、現実的な人間の運動モデル、マルチカメラビジョンのセットアップ、そして人間の追跡技術、そしてGazeboのおかげで多くのロボットやセンサーモデルを組み合わせることができる。 予め記録された人間の骨格運動をモーションキャプチャーシステムに組み込むことは、人間-ロボットインタラクション(HRI)設定における人間のパフォーマンス行動解析の景観を広げる。 機能とストレスを説明するために,本研究のシミュレーションツールを用いて,関連する文献課題の中から選択した4つの具体例について述べる。 一 シミュレーションにおける3次元マルチRGB-Dカメラキャリブレーション ii)openposeに基づく人工ヒト骨格追跡データセットの作成 三 シミュレーションにおけるヒト骨格追跡のためのマルチカメラシナリオ iv) 人間とロボットの相互作用例。 この研究の鍵は、軽量な人間追跡と柔軟な人間ロボットアプリケーションのための新しいビジョンベースのアルゴリズムと方法論の研究を動機付ける、素直なパイプラインを作ることだ。

Simulation tools are essential for robotics research, especially for those domains in which safety is crucial, such as Human-Robot Collaboration (HRC). However, it is challenging to simulate human behaviors, and existing robotics simulators do not integrate functional human models. This work presents Open-VICO~\footnote{\url{https://gitlab.iit.it/hrii-public/open-vico}}, an open-source toolkit to integrate virtual human models in Gazebo focusing on vision-based human tracking. In particular, Open-VICO allows to combine in the same simulation environment realistic human kinematic models, multi-camera vision setups, and human-tracking techniques along with numerous robot and sensor models thanks to Gazebo. The possibility to incorporate pre-recorded human skeleton motion with Motion Capture systems broadens the landscape of human performance behavioral analysis within Human-Robot Interaction (HRI) settings. To describe the functionalities and stress the potential of the toolkit four specific examples, chosen among relevant literature challenges in the field, are developed using our simulation utils: i) 3D multi-RGB-D camera calibration in simulation, ii) creation of a synthetic human skeleton tracking dataset based on OpenPose, iii) multi-camera scenario for human skeleton tracking in simulation, and iv) a human-robot interaction example. The key of this work is to create a straightforward pipeline which we hope will motivate research on new vision-based algorithms and methodologies for lightweight human-tracking and flexible human-robot applications.
翻訳日:2022-03-29 17:17:06 公開日:2022-03-28
# 三次元感情認識における音声・視覚融合の連関モデル

A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition ( http://arxiv.org/abs/2203.14779v1 )

ライセンス: Link先を確認
Gnana Praveen Rajasekar, Wheidima Carneiro de Melo, Nasib Ullah, Haseeb Aslam, Osama Zeeshan, Th\'eo Denorme, Marco Pedersoli, Alessandro Koerich, Patrick Cardinal, and Eric Granger(参考訳) マルチモーダル感情認識は,複数のモーダル(音声,視覚,生体信号など)に対する多様かつ相補的な関係を活用でき,ノイズモーダルに対してある程度の堅牢性を提供できるため,近年注目を集めている。 オーディオ・ヴィジュアル(A-V)融合の最先端手法の多くは、A-Vの相補的な性質を効果的に活用しない再帰的ネットワークや従来の注意機構に依存している。 本稿では,ビデオから抽出した顔と声のモーダリティの融合に基づく,次元的感情認識に焦点をあてる。 具体的には,原子価と覚醒の連続値の正確な予測を可能にするために,a-vモダリティにまたがるサルエント特徴を抽出するための相補的関係に依存する結合的クロス・アテンションモデルを提案する。 提案する融合モデルはモーダル間関係を効率的に活用し,特徴間の不均一性を低減できる。 特に、合成特徴表現と個々のモダリティの相関関係に基づいて、クロスアテンション重みを計算する。 結合したA-V特徴表現をクロスアテンションモジュールにデプロイすることで、当社の融合モジュールの性能はバニラクロスアテンションモジュールよりも大幅に向上する。 AffWild2データセットによる検証セットビデオの実験結果から,提案したA-V融合モデルが,最先端のアプローチよりも優れたコスト効率のソリューションを提供することが示された。 コードはGitHubで入手できる。 https://github.com/praveena2j/JointCrossAttentional-AV-Fusion。

Multimodal emotion recognition has recently gained much attention since it can leverage diverse and complementary relationships over multiple modalities (e.g., audio, visual, biosignals, etc.), and can provide some robustness to noisy modalities. Most state-of-the-art methods for audio-visual (A-V) fusion rely on recurrent networks or conventional attention mechanisms that do not effectively leverage the complementary nature of A-V modalities. In this paper, we focus on dimensional emotion recognition based on the fusion of facial and vocal modalities extracted from videos. Specifically, we propose a joint cross-attention model that relies on the complementary relationships to extract the salient features across A-V modalities, allowing for accurate prediction of continuous values of valence and arousal. The proposed fusion model efficiently leverages the inter-modal relationships, while reducing the heterogeneity between the features. In particular, it computes the cross-attention weights based on correlation between the combined feature representation and individual modalities. By deploying the combined A-V feature representation into the cross-attention module, the performance of our fusion module improves significantly over the vanilla cross-attention module. Experimental results on validation-set videos from the AffWild2 dataset indicate that our proposed A-V fusion model provides a cost-effective solution that can outperform state-of-the-art approaches. The code is available on GitHub: https://github.com/praveena2j/JointCrossAttentional-AV-Fusion.
翻訳日:2022-03-29 17:16:38 公開日:2022-03-28
# 全光学的定量位相顕微鏡の微分顕微鏡設計

Differentiable Microscopy Designs an All Optical Quantitative Phase Microscope ( http://arxiv.org/abs/2203.14944v1 )

ライセンス: Link先を確認
Kithmini Herath, Udith Haputhanthri, Ramith Hettiarachchi, Hasindu Kariyawasam, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan Wadduwage(参考訳) 16世紀後半のザカリアス・ヤンセンによる最初の顕微鏡以来、科学者たちは様々なタスクのために新しいタイプの顕微鏡を発明してきた。 新たなアーキテクチャを作るには、何十年も、科学的な経験と創造性が必要になります。 本研究では,深層学習に基づく設計パラダイムである微分顕微鏡(\partial\mu$)を導入し,新しい解釈可能な顕微鏡アーキテクチャの設計を支援する。 微分可能な顕微鏡は、まず一般的な物理ベースの光学系をモデル化するが、トレーニング可能な光学素子は光学経路上の重要な位置にある。 事前に取得したデータを使用して、関心のあるタスクのためにモデルエンドツーエンドをトレーニングします。 学習デザインの提案は、学習した光学要素を解釈することで単純化することができる。 まず,光学式4-$f$システムを用いて,計算後再構成を必要としない全光学的定量的位相顕微鏡(qpm)設計を提案する。 続く文献調査では、学習アーキテクチャは20年前に開発された一般化フェーズの概念と似ていることが示唆された。 次に、一般化位相コントラストの概念を取り入れ、学習手順を簡素化する。 さらに、この物理光学装置は、D2NN(diffractive Deep Neural Network)を用いて小型化される。 我々は、複数のデータセットで全光位相-強度変換を行うための既存のベンチマークを上回り、D2NN上でこの種のデモを初めて行った。 提案された微分可能な顕微鏡フレームワークは、新しい光学系を設計する創造的なプロセスを補完するものであり、おそらくは従来と変わらないがより良い光学設計につながるだろう。

Ever since the first microscope by Zacharias Janssen in the late 16th century, scientists have been inventing new types of microscopes for various tasks. Inventing a novel architecture demands years, if not decades, worth of scientific experience and creativity. In this work, we introduce Differentiable Microscopy ($\partial\mu$), a deep learning-based design paradigm, to aid scientists design new interpretable microscope architectures. Differentiable microscopy first models a common physics-based optical system however with trainable optical elements at key locations on the optical path. Using pre-acquired data, we then train the model end-to-end for a task of interest. The learnt design proposal can then be simplified by interpreting the learnt optical elements. As a first demonstration, based on the optical 4-$f$ system, we present an all-optical quantitative phase microscope (QPM) design that requires no computational post-reconstruction. A follow-up literature survey suggested that the learnt architecture is similar to the generalized phase concept developed two decades ago. We then incorporate the generalized phase contrast concept to simplify the learning procedure. Furthermore, this physical optical setup is miniaturized using a diffractive deep neural network (D2NN). We outperform the existing benchmark for all-optical phase-to-intensity conversion on multiple datasets, and ours is the first demonstration of its kind on D2NNs. The proposed differentiable microscopy framework supplements the creative process of designing new optical systems and would perhaps lead to unconventional but better optical designs.
翻訳日:2022-03-29 17:16:10 公開日:2022-03-28
# コンテンツとタスクアウェアの異なる顕微鏡による圧縮蛍光イメージング

Differentiable Microscopy for Content and Task Aware Compressive Fluorescence Imaging ( http://arxiv.org/abs/2203.14945v1 )

ライセンス: Link先を確認
Udith Haputhanthri, Andrew Seeber, Dushan Wadduwage(参考訳) スループットと画質のトレードオフは、顕微鏡に固有の課題である。 スループットを向上させるため、圧縮撮像は画像信号をアンダーサンプリングし、画像は正規化逆問題を解くことで計算的に再構成される。 従来の正規化器と比較すると、Deep Learningベースの手法は圧縮と画質において大きな成功を収めている。 しかし、取得プロセスにおける情報損失は圧縮限界を設定する。 したがって、復元品質を損なうことなく圧縮のさらなる改善が課題となる。 本研究では,学習可能な物理パラメータ(例えば照明パターン)を持つ現実的な一般化されたフォワードモデルと,新しい物理に触発された逆モデルを含む,微分可能な圧縮蛍光顕微鏡(\partial \mu$)を提案する。 カスケードモデルはエンドツーエンドの微分可能であり、トレーニングデータを通じて最適な圧縮サンプリングスキームを学習できる。 本モデルでは, 各種圧縮顕微鏡構成の数値実験を数千回行った。 以上の結果から,学習サンプリングは従来の圧縮サンプリング方式よりも高い圧縮率(100~1000ドル)で広く用いられていることが示唆された。 タスク認識圧縮のためのフレームワークをさらに活用する。 実験の結果,超高圧縮でもセグメンテーションタスクにおいて優れた性能を示す(時間4096$)。

The trade-off between throughput and image quality is an inherent challenge in microscopy. To improve throughput, compressive imaging under-samples image signals; the images are then computationally reconstructed by solving a regularized inverse problem. Compared to traditional regularizers, Deep Learning based methods have achieved greater success in compression and image quality. However, the information loss in the acquisition process sets the compression bounds. Further improvement in compression, without compromising the reconstruction quality is thus a challenge. In this work, we propose differentiable compressive fluorescence microscopy ($\partial \mu$) which includes a realistic generalizable forward model with learnable-physical parameters (e.g. illumination patterns), and a novel physics-inspired inverse model. The cascaded model is end-to-end differentiable and can learn optimal compressive sampling schemes through training data. With our model, we performed thousands of numerical experiments on various compressive microscope configurations. Our results suggest that learned sampling outperforms widely used traditional compressive sampling schemes at higher compressions ($\times 100- 1000$) in terms of reconstruction quality. We further utilize our framework for Task Aware Compression. The experimental results show superior performance on segmentation tasks even at extremely high compression ($\times 4096$).
翻訳日:2022-03-29 17:15:48 公開日:2022-03-28
# (参考訳) グリーディパラメータ探索による除去テンプレートの最適化

Optimizing Elimination Templates by Greedy Parameter Search ( http://arxiv.org/abs/2203.14901v1 )

ライセンス: CC BY 4.0
Evgeniy Martyushev, Jana Vrablikova, Tomas Pajdla(参考訳) 本研究では, 移動, 画像マッチング, カメラトラッキングなどの最小問題を解くために, 効率的な多項式システムのための除去テンプレートを構築する手法を提案する。 まず,有限個の異なる解を持つ系に対する除去テンプレートの特定のアフィンパラメータ化を構築する。 次に,パラメータ空間上のヒューリスティックなグリーディ最適化戦略を用いて,小さなサイズのテンプレートを得る。 コンピュータビジョンにおける34の最小問題に対して本手法をテストした。 それらすべてにおいて、テンプレートは最先端のものと比べて、同じか小さいかのどちらかです。 難しい例では、テンプレートは2.1、2.5、3.8、6.6倍小さくなります。 焦点距離が不明な屈折絶対ポーズ推定の問題に対して,20倍のテンプレートが発見された。 また,合成データを用いた実験により,新しい解法が高速かつ数値的精度を示す。 また,未知の共通焦点長と放射歪を持つ相対ポーズ推定問題に対して,高速で高精度な解法を提案する。

We propose a new method for constructing elimination templates for efficient polynomial system solving of minimal problems in structure from motion, image matching, and camera tracking. We first construct a particular affine parameterization of the elimination templates for systems with a finite number of distinct solutions. Then, we use a heuristic greedy optimization strategy over the space of parameters to get a template with a small size. We test our method on 34 minimal problems in computer vision. For all of them, we found the templates either of the same or smaller size compared to the state-of-the-art. For some difficult examples, our templates are, e.g., 2.1, 2.5, 3.8, 6.6 times smaller. For the problem of refractive absolute pose estimation with unknown focal length, we have found a template that is 20 times smaller. Our experiments on synthetic data also show that the new solvers are fast and numerically accurate. We also present a fast and numerically accurate solver for the problem of relative pose estimation with unknown common focal length and radial distortion.
翻訳日:2022-03-29 17:13:38 公開日:2022-03-28
# バーチャルリアリティによるパーソナライズされた人間認識ロボットナビゲーションの学習

Learning Personalized Human-Aware Robot Navigation Using Virtual Reality Demonstrations from a User Study ( http://arxiv.org/abs/2203.14741v1 )

ライセンス: Link先を確認
Jorge de Heuvel, Nathan Corral, Lilli Bruckschen, Maren Bennewitz(参考訳) 最も快適で人間を意識したロボットナビゲーションのためには、主観的なユーザー好みを考慮する必要がある。 本稿では,パーソナライズされたナビゲーションコントローラと直感的なバーチャルリアリティデモインタフェースを学習するための,新しい強化学習フレームワークを提案する。 実施したユーザー調査は、私たちのパーソナライズされたアプローチが、より快適な人間-ロボット体験で古典的アプローチを著しく上回っていることを示している。 これらの結果を得るためには,非熟練ユーザによるデモトラジェクタをほんの数個使用して,直感的なデモ設定を主に評価する。 実験で示すように、学習したコントローラは、ナビゲーション中のユーザの好みを反映しながら、デモデータにカバーされていない状態によく一般化する。 最後に,実ロボットに性能を損なうことなくナビゲーションコントローラを転送する。

For the most comfortable, human-aware robot navigation, subjective user preferences need to be taken into account. This paper presents a novel reinforcement learning framework to train a personalized navigation controller along with an intuitive virtual reality demonstration interface. The conducted user study provides evidence that our personalized approach significantly outperforms classical approaches with more comfortable human-robot experiences. We achieve these results using only a few demonstration trajectories from non-expert users, who predominantly appreciate the intuitive demonstration setup. As we show in the experiments, the learned controller generalizes well to states not covered in the demonstration data, while still reflecting user preferences during navigation. Finally, we transfer the navigation controller without loss in performance to a real robot.
翻訳日:2022-03-29 16:39:31 公開日:2022-03-28
# 適応的リスク傾向:分散強化学習によるクラッタ環境におけるナノドローンナビゲーション

Adaptive Risk Tendency: Nano Drone Navigation in Cluttered Environments with Distributional Reinforcement Learning ( http://arxiv.org/abs/2203.14749v1 )

ライセンス: Link先を確認
Cheng Liu, Erik-Jan van Kampen, Guido C.H.E. de Croon(参考訳) リスク評価能力とリスク認識決定能力を備えたロボットの開発は、不確実性の下で動作しているロボットの堅牢性を確保するための重要なステップとして広く考えられている。 本稿では,nano drone robotが部分的可観測性下で障害物を避けながら,aprioriの未知環境をナビゲートする特定の事例について考察する。 本稿では,適応的リスク傾向を学習するための分散強化学習フレームワークを提案する。 具体的には,学習行動値分布のテール条件分散を不確実性測定として使用し,指数重み付け平均予測アルゴリズムを用いて,環境内の観測された不確実性に基づいて,実行時のリスクテンデンシーを自動的に適応する手法を提案する。 提案アルゴリズムは,シミュレーションと実世界の実験の両方において,ハエのリスク感度を調節し,リスクニュートラルポリシやリスク・アバースポリシよりも優れたパフォーマンスを実現する。 コードと実世界の実験ビデオはこのリポジトリにある。 \url{https://github.com/tudelft/risk-sensitive-rl.git}

Enabling robots with the capability of assessing risk and making risk-aware decisions is widely considered a key step toward ensuring robustness for robots operating under uncertainty. In this paper, we consider the specific case of a nano drone robot learning to navigate an apriori unknown environment while avoiding obstacles under partial observability. We present a distributional reinforcement learning framework in order to learn adaptive risk tendency policies. Specifically, we propose to use tail conditional variance of the learnt action-value distribution as an uncertainty measurement, and use a exponentially weighted average forecasting algorithm to automatically adapt the risk-tendency at run-time based on the observed uncertainty in the environment. We show our algorithm can adjust its risk-sensitivity on the fly both in simulation and real-world experiments and achieving better performance than risk-neutral policy or risk-averse policies. Code and real-world experiment video can be found in this repository: \url{https://github.com/tudelft/risk-sensitive-rl.git}
翻訳日:2022-03-29 16:39:17 公開日:2022-03-28
# あなたが何をしたかを学ぶ: ユーザー行動監督による製品分類学の拡張

Learning What You Need from What You Did: Product Taxonomy Expansion with User Behaviors Supervision ( http://arxiv.org/abs/2203.14921v1 )

ライセンス: Link先を確認
Sijie Cheng, Zhouhong Gu, Bang Liu, Rui Xie, Wei Wu and Yanghua Xiao(参考訳) 分類学は様々な領域で広く使われており、多くの応用がなされている。 特に、商品分類は、レコメンデーション、ブラウジング、クエリ理解のためのeコマースドメインにおいて重要な役割を果たす。 しかし、タコノミクスは、手動のメンテナンスや更新に依存する場合、高価で労働集約的なEコマースプラットフォームにおいて、新しく登場した用語や概念を常に把握する必要がある。 そこで,既存の分類群に新しい概念を自動的に付加する分類展開タスクを目標とした。 本稿では,既存の分類体系に新たな概念を付加するための,自己監督型およびユーザ行動指向の製品分類拡張フレームワークを提案する。 本フレームワークは,ユーザの意図や認知に適合した偽善関係を抽出する。 具体的には 一 ユーザーの行動情報を十分に活用するために、クエリークリックの概念からユーザーの興味に合致する候補の偽善関係を抽出する。 二 新しい概念のセマンティック情報を強化し、偽名関係をよりよく検出するために、事前学習言語モデルとグラフニューラルネットワークとコントラスト学習を併用することにより、既存の分類とユーザクリックログにおけるユーザ生成コンテンツと構造情報の両方を通して概念と関係をモデル化する。 三 データセット構築のコストを削減し、データスキューを克服するために、既存の分類学からの高品質でバランスの取れたトレーニングデータセットを監督なしで構築する。 毎日7000万人以上のアクティブユーザーとテイクアウトを注文する中国の垂直eコマースプラットフォームであるMeituan Platformにおける実世界の製品分類に関する大規模な実験は、最先端の手法よりも提案するフレームワークの優位性を実証している。 特に,実世界の製品分類を39,263から94,698まで88%の精度で拡張した。

Taxonomies have been widely used in various domains to underpin numerous applications. Specially, product taxonomies serve an essential role in the e-commerce domain for the recommendation, browsing, and query understanding. However, taxonomies need to constantly capture the newly emerged terms or concepts in e-commerce platforms to keep up-to-date, which is expensive and labor-intensive if it relies on manual maintenance and updates. Therefore, we target the taxonomy expansion task to attach new concepts to existing taxonomies automatically. In this paper, we present a self-supervised and user behavior-oriented product taxonomy expansion framework to append new concepts into existing taxonomies. Our framework extracts hyponymy relations that conform to users' intentions and cognition. Specifically, i) to fully exploit user behavioral information, we extract candidate hyponymy relations that match user interests from query-click concepts; ii) to enhance the semantic information of new concepts and better detect hyponymy relations, we model concepts and relations through both user-generated content and structural information in existing taxonomies and user click logs, by leveraging Pre-trained Language Models and Graph Neural Network combined with Contrastive Learning; iii) to reduce the cost of dataset construction and overcome data skews, we construct a high-quality and balanced training dataset from existing taxonomy with no supervision. Extensive experiments on real-world product taxonomies in Meituan Platform, a leading Chinese vertical e-commerce platform to order take-out with more than 70 million daily active users, demonstrate the superiority of our proposed framework over state-of-the-art methods. Notably, our method enlarges the size of real-world product taxonomies from 39,263 to 94,698 relations with 88% precision.
翻訳日:2022-03-29 16:37:10 公開日:2022-03-28
# ブートストラップによるブラックボックス選択推論

Black-box Selective Inference via Bootstrapping ( http://arxiv.org/abs/2203.14504v1 )

ライセンス: Link先を確認
Sifan Liu, Jelena Markovic, Jonathan Taylor(参考訳) 本稿では,ブラックボックスとなる可能性のあるモデル選択手順の後に選択推論を行う手法を提案する。 条件付き選択後推論フレームワークにおいて、テスト統計量の選択後分布を決定する重要な量は、統計上のモデル条件を選択する確率である。 ブートストラップされたデータセット上でモデル選択手順を繰り返し実行することにより、選択イベントを示すバイナリ応答と、特別に設計された共変量を含むトレーニングデータを生成し、選択確率を学習する。 構成された信頼区間は、対象パラメータの近傍で十分な選択確率を学習できれば漸近的に有効であることを示す。 提案アルゴリズムの有効性をいくつかの例で検証する。

We propose a method for selective inference after a model selection procedure that is potentially a black box. In the conditional post-selection inference framework, a crucial quantity in determining the post-selection distribution of a test statistic is the probability of selecting the model conditional on the statistic. By repeatedly running the model selection procedure on bootstrapped datasets, we can generate training data with binary responses indicating the selection event as well as specially designed covariates, which are then used to learn the selection probability. We prove that the constructed confidence intervals are asymptotically valid if we can learn the selection probability sufficiently well around a neighborhood of the target parameter. The validity of the proposed algorithm is verified by several examples.
翻訳日:2022-03-29 16:36:25 公開日:2022-03-28
# インタラクティブな画像ベースモデリングシステム

An Interactive Image-based Modeling System ( http://arxiv.org/abs/2203.14441v1 )

ライセンス: Link先を確認
Zhi He, Rui Wang, Wei Hua, Yuchi Huo(参考訳) 本稿では, 対話型3次元モデリング手法と, 単一のあるいは複数の未校正画像に基づく対応システムを提案する。 本手法の主な特徴は,一般人のモデリング習慣により,対象物の3dモデルが粗画像から細画像に再構成される点である。 近似形状の決定に基づいて、投影制約と空間制約を追加または修正し、トポロジー修正を適用し、カメラキャリブレーションを徐々に実現し、粗いモデルを洗練し、最終的に任意の幾何学とトポロジーでオブジェクトの再構成を完了させる。 インタラクティブな処理の間、幾何学的パラメータとカメラ投影行列をリアルタイムで解き、再構成結果を3Dウィンドウに表示する。

This paper propose a interactive 3D modeling method and corresponding system based on single or multiple uncalibrated images. The main feature of this method is that, according to the modeling habits of ordinary people, the 3D model of the target is reconstructed from coarse to fine images. On the basis of determining the approximate shape, the user adds or modify projection constraints and spatial constraints, and apply topology modification, gradually realize camera calibration, refine rough model, and finally complete the reconstruction of objects with arbitrary geometry and topology. During the interactive process, the geometric parameters and camera projection matrix are solved in real time, and the reconstruction results are displayed in a 3D window.
翻訳日:2022-03-29 16:32:00 公開日:2022-03-28
# (参考訳) オープンセットオブジェクト検出のための低密度潜在領域の拡張

Expanding Low-Density Latent Regions for Open-Set Object Detection ( http://arxiv.org/abs/2203.14911v1 )

ライセンス: CC BY 4.0
Jiaming Han, Yuqiang Ren, Jian Ding, Xingjia Pan, Ke Yan, Gui-Song Xia(参考訳) 現代の物体検出器は、クローズセット設定下で素晴らしい進歩を遂げた。 しかし、未知のカテゴリのオブジェクトは、しばしば既存の既知のクラスに誤って分類されるため、オープンセットオブジェクト検出(OSOD)は難しいままである。 本研究では,未知の物体が通常低密度の潜在領域に分布しているという認識に基づいて,未知の物体を潜在空間内の高密度領域と低密度領域を分離して同定することを提案する。 従来のしきい値に基づく手法は、未知のオブジェクトを全てカバーできない限られた低密度領域のみを保持するため、拡張された低密度領域を持つ新しいOpen-set Detector(OpenDet)を提案する。 この目的のために、OpenDetに2人の学習者、Contrastive Feature Learner (CFL) と Unknown Probability Learner (UPL) を設ける。 CFLは、既知のクラスのコンパクトな特徴を促進するために、インスタンスレベルのコントラスト学習を行い、未知のクラスに対してより低密度な領域を残し、UPLは予測の不確実性に基づいて未知の確率を最適化する。 したがって、低密度領域における未知の物体は、学習された未知の確率と容易に識別できる。 例えば、OpenDetは6つのOSODベンチマークでAbsolute Open-Set Errorsを25%-35%削減する。 コードはhttps://github.com/csuhan/opendet2.com/で入手できる。

Modern object detectors have achieved impressive progress under the close-set setup. However, open-set object detection (OSOD) remains challenging since objects of unknown categories are often misclassified to existing known classes. In this work, we propose to identify unknown objects by separating high/low-density regions in the latent space, based on the consensus that unknown objects are usually distributed in low-density latent regions. As traditional threshold-based methods only maintain limited low-density regions, which cannot cover all unknown objects, we present a novel Open-set Detector (OpenDet) with expanded low-density regions. To this aim, we equip OpenDet with two learners, Contrastive Feature Learner (CFL) and Unknown Probability Learner (UPL). CFL performs instance-level contrastive learning to encourage compact features of known classes, leaving more low-density regions for unknown classes; UPL optimizes unknown probability based on the uncertainty of predictions, which further divides more low-density regions around the cluster of known classes. Thus, unknown objects in low-density regions can be easily identified with the learned unknown probability. Extensive experiments demonstrate that our method can significantly improve the OSOD performance, e.g., OpenDet reduces the Absolute Open-Set Errors by 25%-35% on six OSOD benchmarks. Code is available at: https://github.com/csuhan/opendet2.
翻訳日:2022-03-29 16:30:17 公開日:2022-03-28
# 視覚言語モデルを用いたオープンボキャブラリ物体検出のための学習

Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model ( http://arxiv.org/abs/2203.14940v1 )

ライセンス: Link先を確認
Yu Du, Fangyun Wei, Zihe Zhang, Miaojing Shi, Yue Gao, Guoqi Li(参考訳) 近年,視覚言語による事前学習はオープン語彙オブジェクト検出において大きな可能性を秘めている。 クラステキスト埋め込みは、事前に訓練された視覚言語モデルのテキストエンコーダにプロンプトを供給することによって、まず生成される。 その後、検出器の訓練を監督する領域分類器として使用される。 このモデルの成功につながる重要な要素は適切なプロンプトであり、注意深い単語のチューニングと巧妙な設計を必要とする。 画像分類タスクには, むだ時間を要するプロンプトエンジニアリングを回避するために, プロンプト表現学習手法が提案されているが, 検出タスクに適用した場合にのみ最適解となる。 本稿では,前訓練された視覚言語モデルに基づく開語彙物体検出のための連続的プロンプト表現を学習するための新しい手法である検出プロンプト(detpro)を提案する。 従来の分類指向のメソッドとは異なり、DetProには2つのハイライトがある。 1) 画像背景に提案を組み込む背景解釈スキームを即時訓練に組み込むこと 2) 適応型プロンプトトレーニングのための画像フォアグラウンドでの提案を分離するコンテキストグレーディングスキーム。 我々は、最近の最先端のオープンワールドオブジェクト検出器であるViLDでDetProを組み立て、LVISで実験を行い、Pascal VOC、COCO、Objects365データセットでの転送学習を行った。 実験の結果、detpro は lvis の新しいクラスにおける +3.4 apbox および +3.0 apmask の改善など、すべての設定において、ベースライン vild よりも優れています。 コードとモデルはhttps://github.com/dyabel/detproで入手できる。

Recently, vision-language pre-training shows great potential in open-vocabulary object detection, where detectors trained on base classes are devised for detecting new classes. The class text embedding is firstly generated by feeding prompts to the text encoder of a pre-trained vision-language model. It is then used as the region classifier to supervise the training of a detector. The key element that leads to the success of this model is the proper prompt, which requires careful words tuning and ingenious design. To avoid laborious prompt engineering, there are some prompt representation learning methods being proposed for the image classification task, which however can only be sub-optimal solutions when applied to the detection task. In this paper, we introduce a novel method, detection prompt (DetPro), to learn continuous prompt representations for open-vocabulary object detection based on the pre-trained vision-language model. Different from the previous classification-oriented methods, DetPro has two highlights: 1) a background interpretation scheme to include the proposals in image background into the prompt training; 2) a context grading scheme to separate proposals in image foreground for tailored prompt training. We assemble DetPro with ViLD, a recent state-of-the-art open-world object detector, and conduct experiments on the LVIS as well as transfer learning on the Pascal VOC, COCO, Objects365 datasets. Experimental results show that our DetPro outperforms the baseline ViLD in all settings, e.g., +3.4 APbox and +3.0 APmask improvements on the novel classes of LVIS. Code and models are available at https://github.com/dyabel/detpro.
翻訳日:2022-03-29 16:08:55 公開日:2022-03-28
# シーケンスコントラスト学習による長編ビデオのフレームワイズ行動表現

Frame-wise Action Representations for Long Videos via Sequence Contrastive Learning ( http://arxiv.org/abs/2203.14957v1 )

ライセンス: Link先を確認
Minghao Chen, Fangyun Wei, Chong Li, Deng Cai(参考訳) アクション表現学習の研究は、主にショートビデオクリップのグローバル表現を抽出する様々なアーキテクチャの設計に焦点を当てていた。 対照的に、ビデオアライメントのような多くの実践的応用は、長いビデオの高密度表現を学習するのに強い需要がある。 本稿では,フレームワイドなアクション表現(特に長編ビデオ)を自己監督的に学習するための,新しいコントラッシブ・アクション表現学習(CARL)フレームワークを提案する。 具体的には,時空間的文脈を考慮した簡易かつ効率的な映像エンコーダを提案する。 近年の自己教師付き学習の進歩に触発されて,時空間データ拡張によって得られた2つの相関ビューに適用した,新しいシーケンスコントラスト損失 (scl) を提案する。 SCLは、2つの拡張ビューのシーケンス類似性と、タイムスタンプ距離のガウス分布の間のKL分割を最小化し、埋め込み空間を最適化する。 FineGym, PennAction, Pouring のデータセットを用いた実験により, 提案手法は下流の微細な動作分類において, 従来の最先端技術よりも優れていたことがわかった。 驚くべきことに、ペアビデオのトレーニングを受けなくても、ビデオアライメントやきめ細かなフレーム検索タスクにおいて優れたパフォーマンスを示すことができる。 コードとモデルはhttps://github.com/minghchen/carl_codeで入手できる。

Prior works on action representation learning mainly focus on designing various architectures to extract the global representations for short video clips. In contrast, many practical applications such as video alignment have strong demand for learning dense representations for long videos. In this paper, we introduce a novel contrastive action representation learning (CARL) framework to learn frame-wise action representations, especially for long videos, in a self-supervised manner. Concretely, we introduce a simple yet efficient video encoder that considers spatio-temporal context to extract frame-wise representations. Inspired by the recent progress of self-supervised learning, we present a novel sequence contrastive loss (SCL) applied on two correlated views obtained through a series of spatio-temporal data augmentations. SCL optimizes the embedding space by minimizing the KL-divergence between the sequence similarity of two augmented views and a prior Gaussian distribution of timestamp distance. Experiments on FineGym, PennAction and Pouring datasets show that our method outperforms previous state-of-the-art by a large margin for downstream fine-grained action classification. Surprisingly, although without training on paired videos, our approach also shows outstanding performance on video alignment and fine-grained frame retrieval tasks. Code and models are available at https://github.com/minghchen/CARL_code.
翻訳日:2022-03-29 16:08:24 公開日:2022-03-28
# リハーサル型連続学習のための勾配マッチングコアセット

Gradient-Matching Coresets for Rehearsal-Based Continual Learning ( http://arxiv.org/abs/2203.14544v1 )

ライセンス: Link先を確認
Lukas Balles, Giovanni Zappella, C\'edric Archambeau(参考訳) 継続学習(CL)の目標は、学習した知識を忘れずに、機械学習モデルを新しいデータで効率的に更新することである。 広く使われているほとんどのCLメソッドは、新しいデータのトレーニング中に再利用されるデータポイントのリハーサルメモリに依存している。 このようなリハーサルメモリを計算して、これまで見てきたすべてのデータの小さな情報サブセットを維持することは、これらの手法の成功に不可欠である。 リハーサル型連続学習のためのコアセット選択法を考案する。 コアセットによって誘導される勾配は、可能な限り、元のトレーニングデータセットによって誘導される勾配と一致すべきである。 神経接核理論(neural tangent kernel theory)に触発され、モデルの初期化分布をまたいでこの勾配マッチングを行い、まずモデルを訓練することなくコアセットを抽出することができる。 本手法は,多岐にわたる連続学習シナリオで評価し,リハーサルに基づくcl法の性能を,リザーバサンプリングなどの競合するメモリ管理戦略と比較して改善することを示す。

The goal of continual learning (CL) is to efficiently update a machine learning model with new data without forgetting previously-learned knowledge. Most widely-used CL methods rely on a rehearsal memory of data points to be reused while training on new data. Curating such a rehearsal memory to maintain a small, informative subset of all the data seen so far is crucial to the success of these methods. We devise a coreset selection method for rehearsal-based continual learning. Our method is based on the idea of gradient matching: The gradients induced by the coreset should match, as closely as possible, those induced by the original training dataset. Inspired by the neural tangent kernel theory, we perform this gradient matching across the model's initialization distribution, allowing us to extract a coreset without having to train the model first. We evaluate the method on a wide range of continual learning scenarios and demonstrate that it improves the performance of rehearsal-based CL methods compared to competing memory management strategies such as reservoir sampling.
翻訳日:2022-03-29 16:01:55 公開日:2022-03-28
# 疲労検出のための手書き作業の解析について

On the Handwriting Tasks' Analysis to Detect Fatigue ( http://arxiv.org/abs/2203.14782v1 )

ライセンス: Link先を確認
Manuel-Vicente Garnacho-Casta\~no, Marcos Faundez-Zanuy, Josep Lopez-Xarbau(参考訳) 激しい運動後の身体回復の実践的決定は、身体的なスポーツ活動のほとんどとプロの活動(脳コンピュータインタフェース操作システムを含む)の両方が良好な形状を必要とするため、機械的側面と認知的側面を含めなければならない課題である。 本稿では,20名の健常者のオンライン手書きデータベースを提案する。 主な目的は、様々な作業における身体的運動刺激の影響を調査し、激しい運動後の回復を評価することであった。 この目的のために, 身体運動前後の異なる手書き作業を行い, メタボリック, 機械的疲労評価などの測定を行った。 実験の結果, 迅速な機械的回復が得られ, 乳酸濃度や機械的疲労によって測定できるが, 認知的努力が必要な場合にはそうではないことがわかった。 筆跡解析の結果,乳酸濃度および機械的評価回復後の手書き性能には統計的差異が認められた。 結論: スポーツや職業活動において, 古典的手法で測定されるものよりも, より回復する時間の必要性が指摘される。

Practical determination of physical recovery after intense exercise is a challenging topic that must include mechanical aspects as well as cognitive ones because most of physical sport activities, as well as professional activities (including brain computer interface-operated systems), require good shape in both of them. This paper presents a new online handwritten database of 20 healthy subjects. The main goal was to study the influence of several physical exercise stimuli in different handwritten tasks and to evaluate the recovery after strenuous exercise. To this aim, they performed different handwritten tasks before and after physical exercise as well as other measurements such as metabolic and mechanical fatigue assessment. Experimental results showed that although a fast mechanical recovery happens and can be measured by lactate concentrations and mechanical fatigue, this is not the case when cognitive effort is required. Handwriting analysis revealed that statistical differences exist on handwriting performance even after lactate concentration and mechanical assessment recovery. Conclusions: This points out a necessity of more recovering time in sport and professional activities than those measured in classic ways.
翻訳日:2022-03-29 16:01:37 公開日:2022-03-28
# 物理的出力を持つ微分可能、学習可能、地域化プロセスベースモデルは、最先端の水理予測精度にアプローチできる

Differentiable, learnable, regionalized process-based models with physical outputs can approach state-of-the-art hydrologic prediction accuracy ( http://arxiv.org/abs/2203.14827v1 )

ライセンス: Link先を確認
Dapeng Feng, Jiangtao Liu, Kathryn Lawson, and Chaopeng Shen(参考訳) 水循環全体にわたる水文変数の予測は、水資源管理だけでなく、生態系や水質モデリングのような下流のアプリケーションにも大きな価値がある。 近年、長期記憶(LSTM)のような純粋にデータ駆動型ディープラーニングモデルは、降雨流出やその他の地質学変数をモデル化する上で、一見不可能な性能を示した。 ここでは、局所化パラメータ化を伴う集中観測変数(ストリームフロー)に対するLSTMの性能レベルに、微分可能で学習可能なプロセスベースモデル(ここでは {\delta} モデルと呼ぶ)がアプローチ可能であることを示す。 我々は、単純な水理学モデルhbvをバックボーンとして使用し、プロセスベースのモデルモジュールのパラメータ化、置換、強化のために、差別化可能なプログラミングフレームワークでのみトレーニング可能な組み込みニューラルネットワークを使用する。 アンサンブルやポストプロセッサを使わずに、デルタモデルでは、特定の強制データに対して、米国全域の671の流域で中央値のナッシュサトクリフ効率が0.715であるのに対して、同じセットアップを持つ最先端のLSTMモデルでは0.72である。 一方、得られた学習可能なプロセスベースのモデルは、地下水貯留、蒸発散、表面流出、およびベースフローなど、複数の観測源によって評価される(後に訓練される)。 蒸発散を模擬し, ベースフローから排出する割合を推定した。 一般的なフレームワークは、さまざまなプロセスの複雑さを持つモデルで動作し、ビッグデータから物理学を学ぶための道を開くことができる。

Predictions of hydrologic variables across the entire water cycle have significant value for water resource management as well as downstream applications such as ecosystem and water quality modeling. Recently, purely data-driven deep learning models like long short-term memory (LSTM) showed seemingly-insurmountable performance in modeling rainfall-runoff and other geoscientific variables, yet they cannot predict unobserved physical variables and remain challenging to interpret. Here we show that differentiable, learnable, process-based models (called {\delta} models here) can approach the performance level of LSTM for the intensively-observed variable (streamflow) with regionalized parameterization. We use a simple hydrologic model HBV as the backbone and use embedded neural networks, which can only be trained in a differentiable programming framework, to parameterize, replace, or enhance the process-based model modules. Without using an ensemble or post-processor, {\delta} models can obtain a median Nash Sutcliffe efficiency of 0.715 for 671 basins across the USA for a particular forcing data, compared to 0.72 from a state-of-the-art LSTM model with the same setup. Meanwhile, the resulting learnable process-based models can be evaluated (and later, to be trained) by multiple sources of observations, e.g., groundwater storage, evapotranspiration, surface runoff, and baseflow. Both simulated evapotranspiration and fraction of discharge from baseflow agreed decently with alternative estimates. The general framework can work with models with various process complexity and opens up the path for learning physics from big data.
翻訳日:2022-03-29 16:01:20 公開日:2022-03-28
# TGL: 数十億グラフの時間的GNNトレーニングのための一般的なフレームワーク

TGL: A General Framework for Temporal GNN Training on Billion-Scale Graphs ( http://arxiv.org/abs/2203.14883v1 )

ライセンス: Link先を確認
Hongkuan Zhou, Da Zheng, Israt Nisa, Vasileios Ioannidis, Xiang Song, George Karypis(参考訳) 多くの実世界のグラフは時間領域情報を含んでいる。 時間グラフニューラルネットワークは、生成された動的ノードの埋め込みにおける時間情報だけでなく、構造的および文脈的情報をキャプチャする。 研究者は、これらの埋め込みが様々なタスクで最先端のパフォーマンスを達成することを証明した。 本研究では,大規模なオフライン時間グラフニューラルネットワークトレーニングのための統合フレームワークであるTGLを提案する。 tglは、テンポラリサンプラー、メールボックス、ノードメモリモジュール、メモリ更新器、メッセージパッシングエンジンの5つの主要コンポーネントから構成されている。 我々は、時間-CSRデータ構造と並列サンプリング器を設計し、時間的近傍を効率的にサンプルし、ミニバッチを定式化する。 本稿では,バッチサイズが大きいトレーニングにおいて,ノードメモリの古くなった問題を緩和する新しいランダムチャンクスケジューリング手法を提案する。 小規模データセットでのみ評価される現在のtgnnの制限に対処するために,0.2と13億の時間エッジを持つ2つの大規模実世界データセットを導入する。 1つのGPUを持つ4つの小規模データセットと、リンク予測とノード分類タスクの両方のための複数のGPUを持つ2つの大規模データセットにおけるTGLの性能を評価する。 我々はTGLを5つのメソッドのオープンソースコードと比較し、TGLが平均13倍の高速化で類似またはより良い精度を達成することを示す。 我々の時間並列サンプリングは,ベースラインと比較して,マルチコアCPU上での平均173倍の高速化を実現している。 4-GPUマシンでは、TGLは1-10時間以内に10億以上の時間エッジの1エポックをトレーニングすることができる。 我々の知る限りでは、これは複数のGPUでトレーニングする大規模時間グラフニューラルネットワークのための一般的なフレームワークを提案する最初の作業である。

Many real world graphs contain time domain information. Temporal Graph Neural Networks capture temporal information as well as structural and contextual information in the generated dynamic node embeddings. Researchers have shown that these embeddings achieve state-of-the-art performance in many different tasks. In this work, we propose TGL, a unified framework for large-scale offline Temporal Graph Neural Network training where users can compose various Temporal Graph Neural Networks with simple configuration files. TGL comprises five main components, a temporal sampler, a mailbox, a node memory module, a memory updater, and a message passing engine. We design a Temporal-CSR data structure and a parallel sampler to efficiently sample temporal neighbors to formtraining mini-batches. We propose a novel random chunk scheduling technique that mitigates the problem of obsolete node memory when training with a large batch size. To address the limitations of current TGNNs only being evaluated on small-scale datasets, we introduce two large-scale real-world datasets with 0.2 and 1.3 billion temporal edges. We evaluate the performance of TGL on four small-scale datasets with a single GPU and the two large datasets with multiple GPUs for both link prediction and node classification tasks. We compare TGL with the open-sourced code of five methods and show that TGL achieves similar or better accuracy with an average of 13x speedup. Our temporal parallel sampler achieves an average of 173x speedup on a multi-core CPU compared with the baselines. On a 4-GPU machine, TGL can train one epoch of more than one billion temporal edges within 1-10 hours. To the best of our knowledge, this is the first work that proposes a general framework for large-scale Temporal Graph Neural Networks training on multiple GPUs.
翻訳日:2022-03-29 16:00:50 公開日:2022-03-28
# (参考訳) Sketch3T: ゼロショットSBIRのテストタイムトレーニング

Sketch3T: Test-Time Training for Zero-Shot SBIR ( http://arxiv.org/abs/2203.14691v1 )

ライセンス: CC BY 4.0
Aneeshan Sain, Ayan Kumar Bhunia, Vaishnav Potlapalli, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song(参考訳) ゼロショットスケッチに基づく画像検索は、通常、カテゴリを認識できないように訓練されたモデルを適用するように要求する。 本稿では、この定義による構成は、スケッチの固有の抽象的・主観的性質とは相容れない、すなわち、モデルが新しいカテゴリにうまく移行するが、結果として異なるテスト時間分布に存在するスケッチを理解できない、という問題に疑問を呈する。 これにより、ZS-SBIRを拡張して、両方のカテゴリとスケッチ分布に転送する。 私たちの重要な貢献は、ひとつのスケッチを使って適応できるテスト時のトレーニングパラダイムです。 ペア写真がないため、スケッチラスタベクター再構築モジュールを自己監督補助タスクとして利用している。 テスト時間更新時にトレーニングされたクロスモーダルな関節埋め込みの忠実さを維持するため,我々はメタラーニングに基づく新しいトレーニングパラダイムを設計し,この補助タスクによって得られたモデル更新と差別学習の主目的から分離する。 広範な実験により,新しいカテゴリに転移するだけでなく,新しいスケッチスタイルにも適応するテストタイム適応が提案されている。

Zero-shot sketch-based image retrieval typically asks for a trained model to be applied as is to unseen categories. In this paper, we question to argue that this setup by definition is not compatible with the inherent abstract and subjective nature of sketches, i.e., the model might transfer well to new categories, but will not understand sketches existing in different test-time distribution as a result. We thus extend ZS-SBIR asking it to transfer to both categories and sketch distributions. Our key contribution is a test-time training paradigm that can adapt using just one sketch. Since there is no paired photo, we make use of a sketch raster-vector reconstruction module as a self-supervised auxiliary task. To maintain the fidelity of the trained cross-modal joint embedding during test-time update, we design a novel meta-learning based training paradigm to learn a separation between model updates incurred by this auxiliary task from those off the primary objective of discriminative learning. Extensive experiments show our model to outperform state of-the-arts, thanks to the proposed test-time adaption that not only transfers to new categories but also accommodates to new sketching styles.
翻訳日:2022-03-29 15:58:43 公開日:2022-03-28
# 物体検出評価のための最適補正コスト

Optimal Correction Cost for Object Detection Evaluation ( http://arxiv.org/abs/2203.14438v1 )

ライセンス: Link先を確認
Mayu Otani, Riku Togashi, Yuta Nakashima, Esa Rahtu, Janne Heikkil\"a, Shin'ichi Satoh(参考訳) 平均精度 (mAP) は物体検出の主評価指標である。 オブジェクト検出には幅広い応用があるが、mapはランク付けされたインスタンス検索の性能の観点から検出器を評価する。 このような評価タスクの仮定は下流タスクには適さない。 下流課題と評価シナリオとのギャップを緩和するため,画像レベルでの検出精度を評価する最適補正コスト(oc-cost)を提案する。 OCコストは、精度の尺度として真実を根拠として検出を補正するコストを計算する。 このコストは、検出と基底真理の間の最適な輸送問題を解決することで得られる。 mAPとは異なり、OCコストは偽陽性と偽陰性検出を適切にペナルティ化するように設計されており、データセット内のすべてのイメージは等しく扱われる。 実験の結果, ocコストは, 評価基準,すなわち1つの画像の地図よりも, 人間の好みに合致することがわかった。 また,ocコストによる検出者のランキングは,マップと異なるデータ分割により一貫性があることを示す。 我々の目標は、mAPをOCコストで置き換えるのではなく、別の側面から検出器を評価するための追加ツールを提供することです。 将来の研究者や開発者が対象尺度を選択するのを助けるために,mAPとOCコストの違いを明らかにする一連の実験を行った。

Mean Average Precision (mAP) is the primary evaluation measure for object detection. Although object detection has a broad range of applications, mAP evaluates detectors in terms of the performance of ranked instance retrieval. Such the assumption for the evaluation task does not suit some downstream tasks. To alleviate the gap between downstream tasks and the evaluation scenario, we propose Optimal Correction Cost (OC-cost), which assesses detection accuracy at image level. OC-cost computes the cost of correcting detections to ground truths as a measure of accuracy. The cost is obtained by solving an optimal transportation problem between the detections and the ground truths. Unlike mAP, OC-cost is designed to penalize false positive and false negative detections properly, and every image in a dataset is treated equally. Our experimental result validates that OC-cost has better agreement with human preference than a ranking-based measure, i.e., mAP for a single image. We also show that detectors' rankings by OC-cost are more consistent on different data splits than mAP. Our goal is not to replace mAP with OC-cost but provide an additional tool to evaluate detectors from another aspect. To help future researchers and developers choose a target measure, we provide a series of experiments to clarify how mAP and OC-cost differ.
翻訳日:2022-03-29 15:36:46 公開日:2022-03-28
# 顔解析のための周期的自己制御型マルチタスク学習

Decoupled Multi-task Learning with Cyclical Self-Regulation for Face Parsing ( http://arxiv.org/abs/2203.14448v1 )

ライセンス: Link先を確認
Qingping Zheng, Jiankang Deng, Zheng Zhu, Ying Li, Stefanos Zafeiriou(参考訳) 本稿では,既存の顔解析における最先端手法が生み出す典型的な障害(例えば,空間的不整合や境界混乱)の背後にある本質的な要因について検討する。 これらの問題に対処するために,顔解析のためのDML-CSR(Decoupled Multi-task Learning with Cyclical Self-Regulation)を提案する。 具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。 これらのタスクは、互いに高レベルな相互作用なしに低レベルエンコーダ重みを共有するだけで、推論段階で補助モジュールをネットワーク全体から切り離すことができる。 空間的不整合に対処するため,余分なプール操作を使わずにグローバルな文脈情報をキャプチャする動的二重グラフ畳み込みネットワークを開発した。 単一面と複数面の両方における境界の混乱に対処するために,二項エッジ検出とカテゴリエッジ検出を併用して,人間の顔の汎用幾何学的構造と詳細な意味的手がかりを得る。 さらに、学習中にノイズラベルがモデル一般化を損なうのを防ぐために、複数のモデルインスタンスを自己アンサンブルして新しいモデルを得るための循環自己規制を提案し、その結果、繰り返しを交互に繰り返して後続モデルに自己拡散させる。 実験により,本手法がHelen,CelebAMask-HQ,Lapaデータセット上での最先端性能を実現することを示す。 ソースコードはhttps://github.com/deepinsight/insightface/tree/master/parsing/dml_csrで入手できる。

This paper probes intrinsic factors behind typical failure cases (e.g. spatial inconsistency and boundary confusion) produced by the existing state-of-the-art method in face parsing. To tackle these problems, we propose a novel Decoupled Multi-task Learning with Cyclical Self-Regulation (DML-CSR) for face parsing. Specifically, DML-CSR designs a multi-task model which comprises face parsing, binary edge, and category edge detection. These tasks only share low-level encoder weights without high-level interactions between each other, enabling to decouple auxiliary modules from the whole network at the inference stage. To address spatial inconsistency, we develop a dynamic dual graph convolutional network to capture global contextual information without using any extra pooling operation. To handle boundary confusion in both single and multiple face scenarios, we exploit binary and category edge detection to jointly obtain generic geometric structure and fine-grained semantic clues of human faces. Besides, to prevent noisy labels from degrading model generalization during training, cyclical self-regulation is proposed to self-ensemble several model instances to get a new model and the resulting model then is used to self-distill subsequent models, through alternating iterations. Experiments show that our method achieves the new state-of-the-art performance on the Helen, CelebAMask-HQ, and Lapa datasets. The source code is available at https://github.com/deepinsight/insightface/tree/master/parsing/dml_csr.
翻訳日:2022-03-29 15:36:28 公開日:2022-03-28
# SC^2-PCR:効率的なロバスト点群登録のための2次空間適合性

SC^2-PCR: A Second Order Spatial Compatibility for Efficient and Robust Point Cloud Registration ( http://arxiv.org/abs/2203.14453v1 )

ライセンス: Link先を確認
Zhi Chen, Kun Sun, Fan Yang, Wenbing Tao(参考訳) 本稿では,SC^2-PCRと呼ばれる,効率よくロバストな点雲登録(PCR)のための2次空間整合性(SC^2)測定法を提案する。 まず,対応関係の類似性を計算するための第2次空間適合性(sc^2)法を提案する。 ローカル一貫性ではなく、グローバル互換性を考慮し、初期段階でイリアーと外れ値の間のより特徴的なクラスタリングを可能にする。 この尺度に基づいて, 登録パイプラインは, 初期対応から信頼できる種を見つけるために, グローバルスペクトル手法を用いる。 次に、sc^2測度行列に基づくコンセンサス集合に各シードを展開する2段階戦略を設計する。 最後に、各コンセンサスセットを重み付きSVDアルゴリズムに供給し、候補となる剛性変換を生成し、最終結果として最良のモデルを選択する。 本手法は,少ないサンプリングで一定数の外れ値のないコンセンサス集合を探索できることを保証し,モデル推定をより効率的かつ堅牢にする。 さらに、提案したSC^2測度は一般的なものであり、ディープラーニングベースのフレームワークに簡単にプラグインできる。 本手法の性能を調べるため,大規模な実験を行った。 コードは \url{https://github.com/ZhiChen902/SC2-PCR} で入手できる。

In this paper, we present a second order spatial compatibility (SC^2) measure based method for efficient and robust point cloud registration (PCR), called SC^2-PCR. Firstly, we propose a second order spatial compatibility (SC^2) measure to compute the similarity between correspondences. It considers the global compatibility instead of local consistency, allowing for more distinctive clustering between inliers and outliers at early stage. Based on this measure, our registration pipeline employs a global spectral technique to find some reliable seeds from the initial correspondences. Then we design a two-stage strategy to expand each seed to a consensus set based on the SC^2 measure matrix. Finally, we feed each consensus set to a weighted SVD algorithm to generate a candidate rigid transformation and select the best model as the final result. Our method can guarantee to find a certain number of outlier-free consensus sets using fewer samplings, making the model estimation more efficient and robust. In addition, the proposed SC^2 measure is general and can be easily plugged into deep learning based frameworks. Extensive experiments are carried out to investigate the performance of our method. Code will be available at \url{https://github.com/ZhiChen902/SC2-PCR}.
翻訳日:2022-03-29 15:36:00 公開日:2022-03-28
# OTFace: ディープフェイス表現のための最適なトランスポート損失をガイドしたハードサンプル

OTFace: Hard Samples Guided Optimal Transport Loss for Deep Face Representation ( http://arxiv.org/abs/2203.14461v1 )

ライセンス: Link先を確認
Jianjun Qian, Shumin Zhu, Chaoyu Zhao, Jian Yang and Wai Keung Wong(参考訳) 大規模な顔の変動のため、野生での顔の表現は非常に難しい。 この目的のために、いくつかの深層畳み込みニューラルネットワーク(CNN)が開発され、マージンベースの損失を適切に設計することで差別的特徴を学習している。 これに基づいて、一部の方法は、主に訓練段階におけるハードサンプルの重量を調整し、特徴識別を改善する。 しかし,これらの手法は分布測定値を用いて誤分類ハードサンプルを補正できるため,より良い結果をもたらす可能性のある特性分布特性を見落としている。 本稿では,顔深部表現のためのハードサンプル誘導最適輸送(OT)損失,略してOTFaceを提案する。 otfaceは,簡単なサンプルでのパフォーマンスを維持しつつ,機能分布の差異を導入することで,ハードサンプルのパフォーマンス向上を目標としている。 具体的には、トレーニング中に1つのミニバッチでハードサンプル群を示すトリプレット方式を採用する。 その後、OTは高レベルの畳み込み層からの特徴の分布差を特徴づけるために使用される。 最後に、マージンベースのソフトマックス(例えばArcFaceやAM-Softmax)とOTを統合して、深層CNN学習をガイドします。 いくつかのベンチマークデータベースで広範な実験が行われている。 定量的な結果は,最先端手法に対するOTFaceの利点を示している。

Face representation in the wild is extremely hard due to the large scale face variations. To this end, some deep convolutional neural networks (CNNs) have been developed to learn discriminative feature by designing properly margin-based losses, which perform well on easy samples but fail on hard samples. Based on this, some methods mainly adjust the weights of hard samples in training stage to improve the feature discrimination. However, these methods overlook the feature distribution property which may lead to better results since the miss-classified hard samples may be corrected by using the distribution metric. This paper proposes the hard samples guided optimal transport (OT) loss for deep face representation, OTFace for short. OTFace aims to enhance the performance of hard samples by introducing the feature distribution discrepancy while maintain the performance on easy samples. Specifically, we embrace triplet scheme to indicate hard sample groups in one mini-batch during training. OT is then used to characterize the distribution differences of features from the high level convolutional layer. Finally, we integrate the margin-based-softmax (e.g. ArcFace or AM-Softmax) and OT to guide deep CNN learning. Extensive experiments are conducted on several benchmark databases. The quantitative results demonstrate the advantages of the proposed OTFace over state-of-the-art methods.
翻訳日:2022-03-29 15:35:38 公開日:2022-03-28
# ヒトアバターモデリングのための構造的局所放射場

Structured Local Radiance Fields for Human Avatar Modeling ( http://arxiv.org/abs/2203.14478v1 )

ライセンス: Link先を確認
Zerong Zheng, Han Huang, Tao Yu, Hongwen Zhang, Yandong Guo, Yebin Liu(参考訳) 動きモデリングの難しさから,RGBビデオから,特にゆるい衣服のアバターを製作することは極めて困難である。 この問題に対処するために,近年のニューラルシーンレンダリング技術に基づき,新たな表現を導入する。 私たちの表現の核心は、統計的人体テンプレートでサンプリングされた予め定義されたノードに固定された、構造化された局所放射フィールドのセットです。 これらの局所放射場は、形状や外観モデリングにおける暗黙の表現の柔軟性を利用するだけでなく、布の変形を骨格運動、ノード残差変換、各放射場内の動的詳細変化に分解する。 RGBデータから表現を学習し、一般化を容易にするために、条件付き生成潜在空間におけるノード翻訳と詳細変動を学習することを提案する。 提案手法は, 被写体固有のテンプレートをスキャンすることなく, 様々な種類の服用のアニマタブルな人体アバターを自動構築し, 新規なポーズのダイナミックなディテールでリアルな画像を生成する。 実験により,本手法は定性的かつ定量的に,最先端の手法よりも優れていた。

It is extremely challenging to create an animatable clothed human avatar from RGB videos, especially for loose clothes due to the difficulties in motion modeling. To address this problem, we introduce a novel representation on the basis of recent neural scene rendering techniques. The core of our representation is a set of structured local radiance fields, which are anchored to the pre-defined nodes sampled on a statistical human body template. These local radiance fields not only leverage the flexibility of implicit representation in shape and appearance modeling, but also factorize cloth deformations into skeleton motions, node residual translations and the dynamic detail variations inside each individual radiance field. To learn our representation from RGB data and facilitate pose generalization, we propose to learn the node translations and the detail variations in a conditional generative latent space. Overall, our method enables automatic construction of animatable human avatars for various types of clothes without the need for scanning subject-specific templates, and can generate realistic images with dynamic details for novel poses. Experiment show that our method outperforms state-of-the-art methods both qualitatively and quantitatively.
翻訳日:2022-03-29 15:35:17 公開日:2022-03-28
# メッセージパッシングのための学習指向による等変点クラウド解析

Equivariant Point Cloud Analysis via Learning Orientations for Message Passing ( http://arxiv.org/abs/2203.14486v1 )

ライセンス: Link先を確認
Shitong Luo, Jiahan Li, Jiaqi Guan, Yufeng Su, Chaoran Cheng, Jian Peng, Jianzhu Ma(参考訳) 共分散はコンピュータビジョンから物理モデリングまで様々な分野で長年の関心事となっている。 以前のほとんどのメソッドは汎用性、単純さ、表現力に苦しむ -- 特定のデータ型のためにアドホックに設計されたもの、アクセスするには複雑すぎるもの、柔軟性のある変換を犠牲にするものもある。 本稿では,メッセージパッシング(graph neural network)スキームに基づくポイントクラウド解析の等価性を実現するための,新しい簡易なフレームワークを提案する。 各点の相対的な位置を点雲全体の大域的なポーズから切り離すために各点の向きを導入することで、同変特性を得ることができる。 そこで我々は,各点の向きを学習するモジュールを用いて,現在のメッセージパッシングネットワークを拡張する。 ポイントの近傍から情報を集約する前に、ネットワークはポイントの学習した方向に基づいて隣人の座標を変換する。 提案した枠組みの等価性を示す公式な証明を提供する。 実験により,提案手法がポイントクラウド解析と物理モデリングの両タスクで競合することを示した。 コードはhttps://github.com/luost26/Equivariant-OrientedMPで入手できる。

Equivariance has been a long-standing concern in various fields ranging from computer vision to physical modeling. Most previous methods struggle with generality, simplicity, and expressiveness -- some are designed ad hoc for specific data types, some are too complex to be accessible, and some sacrifice flexible transformations. In this work, we propose a novel and simple framework to achieve equivariance for point cloud analysis based on the message passing (graph neural network) scheme. We find the equivariant property could be obtained by introducing an orientation for each point to decouple the relative position for each point from the global pose of the entire point cloud. Therefore, we extend current message passing networks with a module that learns orientations for each point. Before aggregating information from the neighbors of a point, the networks transforms the neighbors' coordinates based on the point's learned orientations. We provide formal proofs to show the equivariance of the proposed framework. Empirically, we demonstrate that our proposed method is competitive on both point cloud analysis and physical modeling tasks. Code is available at https://github.com/luost26/Equivariant-OrientedMP .
翻訳日:2022-03-29 15:34:58 公開日:2022-03-28
# NOC-REK:外部知識から語彙を抽出した新しいオブジェクトキャプション

NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External Knowledge ( http://arxiv.org/abs/2203.14499v1 )

ライセンス: Link先を確認
Duc Minh Vo, Hong Chen, Akihiro Sugimoto, Hideki Nakayama(参考訳) 新たなオブジェクトキャプションは、トレーニングデータから欠落したオブジェクトを記述することを目的としている。 既存の手法はオブジェクト検出モデルに大きく依存しているが、検出ステップを外部知識からの語彙検索として、任意のオブジェクトの定義をwiktionaryから埋め込む形で、トランスフォーマーモデルから学習した検索画像領域の特徴として使用する。 本研究では, 単語検索とキャプション生成を同時に学習し, トレーニングデータセットの外部で新規オブジェクトをうまく記述できる, 未知知識法(NOC-REK)による単語検索によるエンドツーエンドの新規オブジェクトキャプションを提案する。 さらに,新しいオブジェクトが現れるたびに外部の知識を更新するだけで,モデル再トレーニングの必要がなくなる。 ホールドアウトCOCOとNocapsデータセットに関する包括的な実験は、NOC-REKがSOTAに対してかなり有効であることを示している。

Novel object captioning aims at describing objects absent from training data, with the key ingredient being the provision of object vocabulary to the model. Although existing methods heavily rely on an object detection model, we view the detection step as vocabulary retrieval from an external knowledge in the form of embeddings for any object's definition from Wiktionary, where we use in the retrieval image region features learned from a transformers model. We propose an end-to-end Novel Object Captioning with Retrieved vocabulary from External Knowledge method (NOC-REK), which simultaneously learns vocabulary retrieval and caption generation, successfully describing novel objects outside of the training dataset. Furthermore, our model eliminates the requirement for model retraining by simply updating the external knowledge whenever a novel object appears. Our comprehensive experiments on held-out COCO and Nocaps datasets show that our NOC-REK is considerably effective against SOTAs.
翻訳日:2022-03-29 15:34:25 公開日:2022-03-28
# グレイスとブラックスワンのキャッチ:オープンセットによる異常検出

Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection ( http://arxiv.org/abs/2203.14506v1 )

ライセンス: Link先を確認
Choubo Ding, Guansong Pang, Chunhua Shen(参考訳) 既存の異常検出研究のほとんどは正常なトレーニングサンプルのみを想定しているが、ランダム品質検査中に特定された欠陥サンプル、毎日の検診で放射線科医が確認した病変画像など、いくつかのラベル付き異常例は、現実世界の多くのアプリケーションでしばしば利用可能である。 これらの異常例は、アプリケーション固有の異常に関する貴重な知識を提供し、最近のモデルで同様の異常の検出を大幅に改善することができる。 しかし、訓練中に見られるこれらの異常はしばしば全ての可能な異常クラスを示さないため、これらのモデルは目に見えない異常クラスへの一般化に役に立たない。 そこで本研究では, 異常例を用いた検出モデルを学習し, 目に見える異常 (gray swans) と見えない異常 (black swans) の両方を検出することを目的とした。 本研究は, 異常異常, 疑似異常, 潜伏残留異常(潜伏空間における正常データと比較して異常残差を有するサンプル)によって示される異常の非交叉表現を学習し, 残りの2つの異常を検知する手法を提案する。 9つの実世界の異常検出データセットに関する広範囲な実験により,多様な環境下での視認異常および視認異常の検出において,モデルが優れた性能を示す。 コードとデータは、https://github.com/choubo/DRA.comで入手できる。

Despite most existing anomaly detection studies assume the availability of normal training samples only, a few labeled anomaly examples are often available in many real-world applications, such as defect samples identified during random quality inspection, lesion images confirmed by radiologists in daily medical screening, etc. These anomaly examples provide valuable knowledge about the application-specific abnormality, enabling significantly improved detection of similar anomalies in some recent models. However, those anomalies seen during training often do not illustrate every possible class of anomaly, rendering these models ineffective in generalizing to unseen anomaly classes. This paper tackles open-set supervised anomaly detection, in which we learn detection models using the anomaly examples with the objective to detect both seen anomalies (`gray swans') and unseen anomalies (`black swans'). We propose a novel approach that learns disentangled representations of abnormalities illustrated by seen anomalies, pseudo anomalies, and latent residual anomalies (i.e., samples that have unusual residuals compared to the normal data in a latent space), with the last two abnormalities designed to detect unseen anomalies. Extensive experiments on nine real-world anomaly detection datasets show superior performance of our model in detecting seen and unseen anomalies under diverse settings. Code and data are available at: https://github.com/choubo/DRA.
翻訳日:2022-03-29 15:34:06 公開日:2022-03-28
# imface: 暗黙の神経表現を持つ非線形3次元モーファブル顔モデル

ImFace: A Nonlinear 3D Morphable Face Model with Implicit Neural Representations ( http://arxiv.org/abs/2203.14510v1 )

ライセンス: Link先を確認
Mingwu Zheng, Hongyu Yang, Di Huang, Liming Chen(参考訳) 3次元顔の正確な表現は、様々なコンピュータビジョンやグラフィックアプリケーションに有用である。 しかし、データの離散化とモデル線形性のため、現在の研究では正確なアイデンティティと表現の手がかりを捉えることは依然として困難である。 本稿では,暗黙のニューラル表現を持つ非線形かつ連続的な空間を学習するために,新しい3次元顔モデルImFaceを提案する。 2つの明示的に歪んだ変形場を構築し、それぞれアイデンティティと表現に関連する複雑な形状をモデル化し、より多様な変化を可能にするために表現の埋め込みを拡張するための改良された学習戦略を設計する。 さらに,一連の局所場を適応的にブレンドすることにより,高度な詳細を学習するためのニューラルブレンドフィールドについても紹介する。 ImFaceに加えて、暗黙の表現における水密入力要求の問題に対処するために、効果的な前処理パイプラインが提案されている。 ImFaceの優位性を示す大規模な実験が行われている。

Precise representations of 3D faces are beneficial to various computer vision and graphics applications. Due to the data discretization and model linearity, however, it remains challenging to capture accurate identity and expression clues in current studies. This paper presents a novel 3D morphable face model, namely ImFace, to learn a nonlinear and continuous space with implicit neural representations. It builds two explicitly disentangled deformation fields to model complex shapes associated with identities and expressions, respectively, and designs an improved learning strategy to extend embeddings of expressions to allow more diverse changes. We further introduce a Neural Blend-Field to learn sophisticated details by adaptively blending a series of local fields. In addition to ImFace, an effective preprocessing pipeline is proposed to address the issue of watertight input requirement in implicit representations, enabling them to work with common facial surfaces for the first time. Extensive experiments are performed to demonstrate the superiority of ImFace.
翻訳日:2022-03-29 15:33:41 公開日:2022-03-28
# REGTR: 変換器によるエンドツーエンドのポイントクラウド対応

REGTR: End-to-end Point Cloud Correspondences with Transformers ( http://arxiv.org/abs/2203.14517v1 )

ライセンス: Link先を確認
Zi Jian Yew and Gim Hee Lee(参考訳) 近年の学習をポイントクラウド登録に取り入れることの成功にもかかわらず、多くの研究は特徴記述子を学習することに集中し、最も近い特徴マッチングとRANSACによる外付けフィルタリングを引き続き頼りにして、ポーズ推定のための最終的な対応セットを得る。 本稿では,アテンション機構が明示的な特徴マッチングとransacの役割を置き換えることができると推測し,最終応答集合を直接予測するエンドツーエンドフレームワークを提案する。 我々は,主に自己および横断的注意を含む変圧器層で構成されたネットワークアーキテクチャを用いて,重なり合う領域に各点が存在する確率と,他の点雲の対応する位置を予測する。 必要な剛性変換は、さらに後処理することなく、予測された対応から直接推定することができる。 その単純さにもかかわらず,本手法は3DMatchおよびModelNetベンチマークの最先端性能を実現する。 ソースコードはhttps://github.com/yewzijian/RegTR で確認できます。

Despite recent success in incorporating learning into point cloud registration, many works focus on learning feature descriptors and continue to rely on nearest-neighbor feature matching and outlier filtering through RANSAC to obtain the final set of correspondences for pose estimation. In this work, we conjecture that attention mechanisms can replace the role of explicit feature matching and RANSAC, and thus propose an end-to-end framework to directly predict the final set of correspondences. We use a network architecture consisting primarily of transformer layers containing self and cross attentions, and train it to predict the probability each point lies in the overlapping region and its corresponding position in the other point cloud. The required rigid transformation can then be estimated directly from the predicted correspondences without further post-processing. Despite its simplicity, our approach achieves state-of-the-art performance on 3DMatch and ModelNet benchmarks. Our source code can be found at https://github.com/yewzijian/RegTR .
翻訳日:2022-03-29 15:33:26 公開日:2022-03-28
# Uni6D: 6D Pose Estimationのためのプロジェクションブレークダウンのない統一CNNフレームワーク

Uni6D: A Unified CNN Framework without Projection Breakdown for 6D Pose Estimation ( http://arxiv.org/abs/2203.14531v1 )

ライセンス: Link先を確認
Xiaoke Jiang, Donghai Li, Hao Chen, Ye Zheng, Rui Zhao and Liwei Wu(参考訳) RGB-Dセンサがより安価になるにつれて、RGB-D画像を用いて高精度な6Dポーズ推定結果を得る方がよい。 最先端のアプローチは通常、異なるバックボーンを使用してRGBと深度画像の特徴を抽出する。 RGBイメージには2D CNN、深度データにはピクセル単位のクラウドネットワーク、機能融合にはフュージョンネットワークを使用する。 2つの独立したバックボーンを使用する重要な理由は、"投射分解"の問題である。 深度画像面では、物理世界の投影された3D構造を1D深度値とその内蔵2D画素座標(UV)により保存する。 CNNパイプラインにおけるリサイズ、フリップ、クロップ、プーリング操作などのUVを変更する任意の空間変換は、ピクセル値とUV座標の間の結合を壊す。 その結果、3D構造は、修正された深度画像や特徴によってもはや保存されない。 この問題に対処するために、RGB-D画像とともに、余分なUVデータを入力として明示的に取り出す、シンプルで効果的なUnixD法を提案する。 提案手法は,1つのCNNバックボーンを用いた6次元ポーズ推定のための統一CNNフレームワークを備える。 特に,本手法のアーキテクチャはMask R-CNNをベースとして,直接6Dポーズを予測するためのRTヘッドと,可視点を3Dモデル内の座標にマッピングするためのabcヘッドを補助モジュールとして用いた。 このエンドツーエンドのアプローチは、シンプルさと正確さのバランスをとり、YCB-Videoデータセット上での最先端の精度と7.2倍高速な推論速度を達成する。

As RGB-D sensors become more affordable, using RGB-D images to obtain high-accuracy 6D pose estimation results becomes a better option. State-of-the-art approaches typically use different backbones to extract features for RGB and depth images. They use a 2D CNN for RGB images and a per-pixel point cloud network for depth data, as well as a fusion network for feature fusion. We find that the essential reason for using two independent backbones is the "projection breakdown" problem. In the depth image plane, the projected 3D structure of the physical world is preserved by the 1D depth value and its built-in 2D pixel coordinate (UV). Any spatial transformation that modifies UV, such as resize, flip, crop, or pooling operations in the CNN pipeline, breaks the binding between the pixel value and UV coordinate. As a consequence, the 3D structure is no longer preserved by a modified depth image or feature. To address this issue, we propose a simple yet effective method denoted as Uni6D that explicitly takes the extra UV data along with RGB-D images as input. Our method has a Unified CNN framework for 6D pose estimation with a single CNN backbone. In particular, the architecture of our method is based on Mask R-CNN with two extra heads, one named RT head for directly predicting 6D pose and the other named abc head for guiding the network to map the visible points to their coordinates in the 3D model as an auxiliary module. This end-to-end approach balances simplicity and accuracy, achieving comparable accuracy with state of the arts and 7.2x faster inference speed on the YCB-Video dataset.
翻訳日:2022-03-29 15:33:10 公開日:2022-03-28
# マルチカメラビデオトリプレットを用いた参照ベースビデオ超解像

Reference-based Video Super-Resolution Using Multi-Camera Video Triplets ( http://arxiv.org/abs/2203.14537v1 )

ライセンス: Link先を確認
Junyong Lee and Myeonghee Lee and Sunghyun Cho and Seungyong Lee(参考訳) 本稿では,レファレンスビデオを用いた参照ベースビデオスーパーレゾリューション(RefVSR)手法を提案する。 広角・望遠ビデオを利用した低解像度の超広角ビデオの超高解像度化を目指す。 本稿では,低解像度フレームから抽出した特徴と融合した時間的参照特徴を繰り返し調整し,伝播する最初のRefVSRネットワークを提案する。 時間的参照特徴の融合と伝播を容易にするために,伝搬時間的融合モジュールを提案する。 ネットワークの学習と評価のために,スマートフォンのトリプルカメラから同時に撮影される,超広角,広角,望遠の3つからなる最初のRefVSRデータセットを提案する。 また、実世界の4xビデオ超解像のためのデータセットにおいて、ビデオ三重項を完全に活用する2段階のトレーニング戦略を提案する。 提案手法を広範に評価し, 4倍超解像における最先端性能を示す。

We propose the first reference-based video super-resolution (RefVSR) approach that utilizes reference videos for high-fidelity results. We focus on RefVSR in a triple-camera setting, where we aim at super-resolving a low-resolution ultra-wide video utilizing wide-angle and telephoto videos. We introduce the first RefVSR network that recurrently aligns and propagates temporal reference features fused with features extracted from low-resolution frames. To facilitate the fusion and propagation of temporal reference features, we propose a propagative temporal fusion module. For learning and evaluation of our network, we present the first RefVSR dataset consisting of triplets of ultra-wide, wide-angle, and telephoto videos concurrently taken from triple cameras of a smartphone. We also propose a two-stage training strategy fully utilizing video triplets in the proposed dataset for real-world 4x video super-resolution. We extensively evaluate our method, and the result shows the state-of-the-art performance in 4x super-resolution.
翻訳日:2022-03-29 15:32:42 公開日:2022-03-28
# 映像分解のためのピラミッド特徴アライメントネットワーク

Pyramid Feature Alignment Network for Video Deblurring ( http://arxiv.org/abs/2203.14556v1 )

ライセンス: Link先を確認
Leitian Tao and Zhenzhong Chen(参考訳) ぼやけた原因がいろいろあるため、ビデオデブラリングは依然として難しい課題である。 従来の方法では、隣接するフレームを単一スケールのアライメントで修復する方法が検討されてきた。 しかし、通常は深刻なぼやけによる誤認に苦しむ。 本研究では,隣接するフレームを高効率な特徴アライメントで活用することを目的としている。 本稿では,映像デブリのためのピラミッド特徴アライメントネットワーク(PFAN)を提案する。 まず,アライメント前のSDD(Structure-to-Detail Downsampling)戦略を用いて,ぼやけたフレームのマルチスケール特徴を抽出する。 このダウンサンプリング戦略はエッジをよりシャープにし、アライメントに役立つ。 そして、各スケールで特徴を整列し、対応するスケールで画像を再構成する。 この戦略は、各スケールでのアライメントを効果的に監視し、アライメント段階における上記のスケールからのプロパゲートエラーの問題を克服する。 複雑な動きや大きな動きの課題をよりうまく扱うために、各スケールの特徴を個別に調整するのではなく、より大規模な動き推定を導くために低レベルの動き情報を使用する。 そこで, より高精度なアライメントのために, 変形可能な畳み込みに粗い動きを統合するために, カスケード誘導変形可能アライメント (cgda) を提案する。 広範な実験で示されたように,提案するPFANは,最先端手法と比較して,競争速度に優れた性能を発揮する。

Video deblurring remains a challenging task due to various causes of blurring. Traditional methods have considered how to utilize neighboring frames by the single-scale alignment for restoration. However, they typically suffer from misalignment caused by severe blur. In this work, we aim to better utilize neighboring frames with high efficient feature alignment. We propose a Pyramid Feature Alignment Network (PFAN) for video deblurring. First, the multi-scale feature of blurry frames is extracted with the strategy of Structure-to-Detail Downsampling (SDD) before alignment. This downsampling strategy makes the edges sharper, which is helpful for alignment. Then we align the feature at each scale and reconstruct the image at the corresponding scale. This strategy effectively supervises the alignment at each scale, overcoming the problem of propagated errors from the above scales at the alignment stage. To better handle the challenges of complex and large motions, instead of aligning features at each scale separately, lower-scale motion information is used to guide the higher-scale motion estimation. Accordingly, a Cascade Guided Deformable Alignment (CGDA) is proposed to integrate coarse motion into deformable convolution for finer and more accurate alignment. As demonstrated in extensive experiments, our proposed PFAN achieves superior performance with competitive speed compared to the state-of-the-art methods.
翻訳日:2022-03-29 15:32:27 公開日:2022-03-28
# 映像品質評価のための効率的な変換器の視覚メカニズム

Visual Mechanisms Inspired Efficient Transformers for Image and Video Quality Assessment ( http://arxiv.org/abs/2203.14557v1 )

ライセンス: Link先を確認
Junyong You(参考訳) 視覚(画像、ビデオ)の品質評価は、空間、周波数、時間領域など、異なる領域の視覚的特徴によってモデル化することができる。 ヒト視覚系(HVS)の知覚機構は、品質知覚の生成において重要な役割を果たす。 本稿では,効率的なウィンドウ変換アーキテクチャを用いた非参照視覚品質評価のための一般的なフレームワークを提案する。 マルチステージチャネルアテンションのための軽量モジュールは、Swin (shifted window) Transformerに統合される。 このようなモジュールは、画像品質評価(IQA)における適切な知覚機構を示し、正確なIQAモデルを構築することができる。 一方、空間及び周波数領域における画像品質知覚のための代表的特徴は、IQAモデルから導出することができ、ビデオ品質評価(VQA)のために別のウィンドウ変換アーキテクチャに入力される。 VQAモデルは、ローカルウィンドウ全体の注意情報を効率的に再利用し、元のトランスの高価な時間とメモリ複雑さの問題に取り組む。 大規模iqaデータベースとvqaデータベースにおける実験結果から,提案する品質評価モデルが,他の最先端モデルよりも高いマージンを示した。 完全なソースコードはGithubで公開される予定だ。

Visual (image, video) quality assessments can be modelled by visual features in different domains, e.g., spatial, frequency, and temporal domains. Perceptual mechanisms in the human visual system (HVS) play a crucial role in the generation of quality perception. This paper proposes a general framework for no-reference visual quality assessment using efficient windowed transformer architectures. A lightweight module for multi-stage channel attention is integrated into the Swin (shifted window) Transformer. Such module can represent the appropriate perceptual mechanisms in image quality assessment (IQA) to build an accurate IQA model. Meanwhile, representative features for image quality perception in the spatial and frequency domains can also be derived from the IQA model, which are then fed into another windowed transformer architecture for video quality assessment (VQA). The VQA model efficiently reuses attention information across local windows to tackle the issue of expensive time and memory complexities of original transformer. Experimental results on both large-scale IQA and VQA databases demonstrate that the proposed quality assessment models outperform other state-of-the-art models by large margins. The complete source code will be published on Github.
翻訳日:2022-03-29 15:31:54 公開日:2022-03-28
# handoccnet:octorion-robust 3d hand mesh推定ネットワーク

HandOccNet: Occlusion-Robust 3D Hand Mesh Estimation Network ( http://arxiv.org/abs/2203.14564v1 )

ライセンス: Link先を確認
JoonKyu Park, Yeonguk Oh, Gyeongsik Moon, Hongsuk Choi, Kyoung Mu Lee(参考訳) 手はしばしばオブジェクトによって厳しく遮られるため、3dハンドメッシュの推定が困難になる。 以前の作品は、しばしば隠された地域では無視された情報を持っている。 しかし, 閉塞領域は手と強い相関関係を持ち, 完全な3次元メッシュ推定に極めて有用な情報を提供することができると論じる。 そこで本研究では,画像特徴を向上し,よりリッチにする手段として,隠蔽領域の情報を完全に活用可能な,新しい3Dハンドメッシュ推定ネットワークHandOccNetを提案する。 そこで我々は,FIT(Feature Injecting Transformer)とSET(Self Enhancing Transformer)という,Transformerベースの連続モジュールを設計した。 FITは、その相関性を考慮して、隠蔽領域に手情報を注入する。 SETは自己保持機構を用いてFITの出力を洗練する。 occluded領域にハンド情報を注入することで、 handoccnetは3dハンドメッシュベンチマークにおける最先端のパフォーマンスに到達します。 コードはhttps://github.com/namepllet/handoccnet。

Hands are often severely occluded by objects, which makes 3D hand mesh estimation challenging. Previous works often have disregarded information at occluded regions. However, we argue that occluded regions have strong correlations with hands so that they can provide highly beneficial information for complete 3D hand mesh estimation. Thus, in this work, we propose a novel 3D hand mesh estimation network HandOccNet, that can fully exploits the information at occluded regions as a secondary means to enhance image features and make it much richer. To this end, we design two successive Transformer-based modules, called feature injecting transformer (FIT) and self- enhancing transformer (SET). FIT injects hand information into occluded region by considering their correlation. SET refines the output of FIT by using a self-attention mechanism. By injecting the hand information to the occluded region, our HandOccNet reaches the state-of-the-art performance on 3D hand mesh benchmarks that contain challenging hand-object occlusions. The codes are available in: https://github.com/namepllet/HandOccNet.
翻訳日:2022-03-29 15:30:49 公開日:2022-03-28
# 顔提示攻撃検出のためのスタイル誘導ドメイン適応

Style-Guided Domain Adaptation for Face Presentation Attack Detection ( http://arxiv.org/abs/2203.14565v1 )

ライセンス: Link先を確認
Young-Eun Kim, Woo-Jeoung Nam, Kyungseo Min and Seong-Whan Lee(参考訳) 近年,顔提示攻撃検出(PAD)のためのドメイン適応(DA)やドメイン一般化(DG)が注目されている。 しかし、既存のDA/DGベースのPAD手法は、攻撃スタイル(材料、背景、照明、解像度など)に関する知識を提供するドメイン固有のスタイル情報を十分に研究していない。 本稿では、推論時適応PADのための新しいスタイルガイドドメイン適応(SGDA)フレームワークを提案する。 具体的には,高次特徴量統計におけるドメイン固有のスタイル情報を調べるために,SSN(Style-Selective Normalization)を提案する。 提案したSSNは,ターゲットドメインとソースドメインのスタイル差を小さくすることで,ターゲットドメインへのモデルの適応を可能にする。 さらに,スタイル認識型メタラーニング(saml)を慎重に設計し,仮想テスト領域におけるスタイル選択プロセスによる推論時間適応をシミュレートする適応能力を高める。 従来のドメイン適応手法とは対照的に,本手法ではトレーニング中に追加の補助モデル(ドメイン適応器など)や未ラベルのターゲットドメインを必要とせず,PADタスクよりも実用的である。 MSU-MFSD, CASIA-FASD, OULU-NPU, Idiap REPLAYATTACK という公開データセットを利用する。 その結果,従来のDA/DG法と比較すると,性能差が顕著であった。

Domain adaptation (DA) or domain generalization (DG) for face presentation attack detection (PAD) has attracted attention recently with its robustness against unseen attack scenarios. Existing DA/DG-based PAD methods, however, have not yet fully explored the domain-specific style information that can provide knowledge regarding attack styles (e.g., materials, background, illumination and resolution). In this paper, we introduce a novel Style-Guided Domain Adaptation (SGDA) framework for inference-time adaptive PAD. Specifically, Style-Selective Normalization (SSN) is proposed to explore the domain-specific style information within the high-order feature statistics. The proposed SSN enables the adaptation of the model to the target domain by reducing the style difference between the target and the source domains. Moreover, we carefully design Style-Aware Meta-Learning (SAML) to boost the adaptation ability, which simulates the inference-time adaptation with style selection process on virtual test domain. In contrast to previous domain adaptation approaches, our method does not require either additional auxiliary models (e.g., domain adaptors) or the unlabeled target domain during training, which makes our method more practical to PAD task. To verify our experiments, we utilize the public datasets: MSU-MFSD, CASIA-FASD, OULU-NPU and Idiap REPLAYATTACK. In most assessments, the result demonstrates a notable gap of performance compared to the conventional DA/DG-based PAD methods.
翻訳日:2022-03-29 15:30:32 公開日:2022-03-28
# S2-Net: クロスモダリティ画像のための自己超越的特徴表現学習

S2-Net: Self-supervision Guided Feature Representation Learning for Cross-Modality Images ( http://arxiv.org/abs/2203.14581v1 )

ライセンス: Link先を確認
Shasha Mei(参考訳) 相互モダリティ画像のそれぞれの利点を組み合わせることで、単一モダリティにおける情報の不足を補うことができ、マルチモダリティ画像マッチングタスクへの研究者の関心が高まっている。 一方、クロスモダリティ画像ペア間の外観の大きな違いが大きいため、対応文の特徴表現を可能な限り近づけることができないことが多い。 本稿では,最近成功している検出・記述パイプラインに基づくクロスモダリティ特徴表現学習ネットワークs2-netを設計した。 最適化の難しさを解消するために,我々は,自己教師型学習とよく設計された損失関数を導入し,元の利点を捨てることなくトレーニングを指導する。 この新しい戦略は、画像対を同じモダリティでシミュレートするが、これはまた、モダリティ間の画像のトレーニングに有用なガイドでもある。 特に、追加のデータを必要としないため、パフォーマンスが大幅に向上し、検出と記述のパイプラインのすべてのメソッドでも動作可能である。 提案手法の性能を評価するために,手作り法と深層学習法の比較実験を行った。 その結果、教師付き学習と自己教師型学習の組合せ最適化のエレガントな定式化は、RoadSceneとRGB-NIRデータセットの最先端性に優れていた。

Combining the respective advantages of cross-modality images can compensate for the lack of information in the single modality, which has attracted increasing attention of researchers into multi-modal image matching tasks. Meanwhile, due to the great appearance differences between cross-modality image pairs, it often fails to make the feature representations of correspondences as close as possible. In this letter, we design a cross-modality feature representation learning network, S2-Net, which is based on the recently successful detect-and-describe pipeline, originally proposed for visible images but adapted to work with cross-modality image pairs. To solve the consequent problem of optimization difficulties, we introduce self-supervised learning with a well-designed loss function to guide the training without discarding the original advantages. This novel strategy simulates image pairs in the same modality, which is also a useful guide for the training of cross-modality images. Notably, it does not require additional data but significantly improves the performance and is even workable for all methods of the detect-and-describe pipeline. Extensive experiments are conducted to evaluate the performance of the strategy we proposed, compared to both handcrafted and deep learning-based methods. Results show that our elegant formulation of combined optimization of supervised and self-supervised learning outperforms state-of-the-arts on RoadScene and RGB-NIR datasets.
翻訳日:2022-03-29 15:30:07 公開日:2022-03-28
# テキストガイドによる3次元形状生成に向けて

Towards Implicit Text-Guided 3D Shape Generation ( http://arxiv.org/abs/2203.14622v1 )

ライセンス: Link先を確認
Zhengzhe Liu, Yi Wang, Xiaojuan Qi, Chi-Wing Fu(参考訳) 本研究では,テキストから3次元形状を生成するという課題について検討する。 そこで本研究では,テキスト記述にマッチする色で高忠実な形状を生成できる3次元形状生成手法を提案する。 この作品にはいくつかの技術的貢献がある。 まず、テキストと形状の両方の特徴を学習するための形状と色予測を分離し、単語の特徴と形状の空間的特徴を相関付ける単語レベル空間変換器を提案する。 また,テキストと形状の一貫性を促進するために循環損失をデザインし,生成した形状を多様化する形状イムレを導入する。 さらに,テキスト誘導型形状操作を可能にするフレームワークを拡張した。 既存の最大のテキストシェープベンチマークに関する大規模な実験は、この研究の優位性を示している。 コードとモデルはhttps://github.com/liuzhengzhe/Towards-Implicit Text-Guided-Shape-Generationで公開されている。

In this work, we explore the challenging task of generating 3D shapes from text. Beyond the existing works, we propose a new approach for text-guided 3D shape generation, capable of producing high-fidelity shapes with colors that match the given text description. This work has several technical contributions. First, we decouple the shape and color predictions for learning features in both texts and shapes, and propose the word-level spatial transformer to correlate word features from text with spatial features from shape. Also, we design a cyclic loss to encourage consistency between text and shape, and introduce the shape IMLE to diversify the generated shapes. Further, we extend the framework to enable text-guided shape manipulation. Extensive experiments on the largest existing text-shape benchmark manifest the superiority of this work. The code and the models are available at https://github.com/liuzhengzhe/Towards-Implicit Text-Guided-Shape-Generation.
翻訳日:2022-03-29 15:29:44 公開日:2022-03-28
# SPIQ: チャネルごとのデータフリー静的入力量子化

SPIQ: Data-Free Per-Channel Static Input Quantization ( http://arxiv.org/abs/2203.14642v1 )

ライセンス: Link先を確認
Edouard Yvinec and Arnaud Dapogny and Matthieu Cord and Kevin Bailly(参考訳) 計算コストの高いニューラルネットワークはコンピュータビジョンにおいてユビキタスであり、効率的な推論のためのソリューションは機械学習コミュニティで注目を集めている。 そのような解の例としては量子化があり、例えば、演算値(重みと入力)を浮動小数点から整数に変換する。 同時に、プライバシの懸念の高まりは、事前訓練されたモデル重みとアクティベーションのデータフリー量子化のような、侵襲的でない加速方法の研究の動機となった。 以前のアプローチでは、統計情報を利用して、スタティックな方法でアクティベーションのスカラー範囲とスケーリング係数を推測するか、各レイヤの入力(アクティベーションとも呼ばれる)ごとにこの範囲を動的に適応させるかのどちらかであった。 本研究では,静的入力量子化はチャネル単位の入力量子化スキームによって動的手法の精度レベルに到達でき,チャネル間ダイナミクスをより細かく保存できると主張している。 本研究では,複数のコンピュータビジョン問題(例えばイメージネット分類,パスカルVOCオブジェクト検出,およびCityScapesセマンティックセグメンテーション)について,SPIQと呼ばれる提案手法が動的アプローチと静的推論速度に対抗して精度を向上し,各ベンチマークにおける最先端の量子化手法を著しく上回ることを示す。

Computationally expensive neural networks are ubiquitous in computer vision and solutions for efficient inference have drawn a growing attention in the machine learning community. Examples of such solutions comprise quantization, i.e. converting the processing values (weights and inputs) from floating point into integers e.g. int8 or int4. Concurrently, the rise of privacy concerns motivated the study of less invasive acceleration methods, such as data-free quantization of pre-trained models weights and activations. Previous approaches either exploit statistical information to deduce scalar ranges and scaling factors for the activations in a static manner, or dynamically adapt this range on-the-fly for each input of each layers (also referred to as activations): the latter generally being more accurate at the expanse of significantly slower inference. In this work, we argue that static input quantization can reach the accuracy levels of dynamic methods by means of a per-channel input quantization scheme that allows one to more finely preserve cross-channel dynamics. We show through a thorough empirical evaluation on multiple computer vision problems (e.g. ImageNet classification, Pascal VOC object detection as well as CityScapes semantic segmentation) that the proposed method, dubbed SPIQ, achieves accuracies rivalling dynamic approaches with static-level inference speed, significantly outperforming state-of-the-art quantization methods on every benchmark.
翻訳日:2022-03-29 15:29:29 公開日:2022-03-28
# Rex: データフリーの残留量子化エラー拡大

REx: Data-Free Residual Quantization Error Expansion ( http://arxiv.org/abs/2203.14645v1 )

ライセンス: Link先を確認
Edouard Yvinec and Arnaud Dapgony and Matthieu Cord and Kevin Bailly(参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、現在、コンピュータビジョンのランドスケープにおいて、ユビキタスである。 しかし、特にエッジデバイスでの評価では、高い計算コストの推論に悩まされる。 この問題は一般にポストホック量子化、すなわち浮動小数点からint8、int4、三元量子化へのdnn値(重みと入力)の変換によって解決される。 本稿では,データ保護規則に準拠した事前学習モデルのデータフリー量子化アルゴリズムであるRExを提案する。 まず,余剰量子化誤差の拡張として重みを分解することにより,線形量子化演算子の改良を行う。 第2に,スパースで高次拡張順序のビット演算トレードオフ数に対して,より高精度なグループスパーシリティの定式化を提案する。 第3に、このスパース展開は量子化されたニューラルネットワークのアンサンブルによって近似され、より効率的な並列化により評価速度が劇的に向上することを示す。 rexの効率性に関する理論的保証と、imagenet分類やオブジェクト検出、セマンティックセグメンテーションなど、複数のコンピュータビジョン問題に適用されるいくつかの一般的なdnnアーキテクチャの徹底した実証検証を提供する。 特に、rexが既存の最先端データフリー量子化技術を大きく上回っていることを示す。

Deep neural networks (DNNs) are nowadays ubiquitous in the computer vision landscape. However, they suffer from high computational costs in inference, particularly when evaluated on edge devices. This problem is generally addressed via post-hoc quantization, i.e. converting the DNN values (weights and inputs) from floating point into e.g. int8, int4 or ternary quantization. In this paper, we propose REx, a data-free quantization algorithm for pre-trained models that is compliant with data protection regulations, convenient and fast to execute. First, we improve upon the naive linear quantization operator by decomposing the weights as an expansion of residual quantization errors. Second, we propose a budgeted group-sparsity formulation to achieve better accuracy vs. number of bit-wise operation trade-offs with sparse, higher expansion orders. Third, we show that this sparse expansion can be approximated by an ensemble of quantized neural networks to dramatically improve the evaluation speed through more efficient parallelization. We provide theoretical guarantees of the efficiency of REx as well as a thorough empirical validation on several popular DNN architectures applied to multiple computer vision problems, e.g. ImageNet classification, object detection as well as semantic segmentation. In particular, we show that REx significantly outperforms existing state-of-the-art data-free quantization techniques.
翻訳日:2022-03-29 15:29:01 公開日:2022-03-28
# MaskGroup: 3Dインスタンスセグメンテーションのための階層的なポイントグループとマスキング

MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation ( http://arxiv.org/abs/2203.14662v1 )

ライセンス: Link先を確認
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang(参考訳) 本稿では,ロボット工学や拡張現実といった現実的な応用の多種多様な3Dインスタンスセグメンテーション問題を考察する。 3Dオブジェクトの周囲は複雑であるため、異なるオブジェクトの分離は非常に困難である。 この課題に対処するために,我々は3dインスタンスをグループ化し,洗練するための新しいフレームワークを提案する。 実際、まず各点のオフセットベクトルを学習し、予測されたインスタンス中心にシフトする。 これらの点をよりよくグループ化するために、中央集約された点を徐々にマージする階層的点群アルゴリズムを提案する。 すべての点は小さなクラスタにグループ化され、より大きなグループにマージする別のクラスタリング手順が徐々に実施される。 これらのマルチスケールグループはインスタンス予測に利用されており、異なるスケールのインスタンスを予測するのに有用である。 さらに,これらのグループの2値点マスクを作製し,さらにセグメンテーション結果の精細化を図る新しいマスクscorenetを開発した。 ScanNetV2 と S3DIS のベンチマークにより提案手法の有効性を実証した。 例えば、ScanNetV2テストセットの0.5IoU閾値を持つ66.4\% mAPは、最先端の手法よりも1.9\%高い。

This paper studies the 3D instance segmentation problem, which has a variety of real-world applications such as robotics and augmented reality. Since the surroundings of 3D objects are of high complexity, the separating of different objects is very difficult. To address this challenging problem, we propose a novel framework to group and refine the 3D instances. In practice, we first learn an offset vector for each point and shift it to its predicted instance center. To better group these points, we propose a Hierarchical Point Grouping algorithm to merge the centrally aggregated points progressively. All points are grouped into small clusters, which further gradually undergo another clustering procedure to merge into larger groups. These multi-scale groups are exploited for instance prediction, which is beneficial for predicting instances with different scales. In addition, a novel MaskScoreNet is developed to produce binary point masks of these groups for further refining the segmentation results. Extensive experiments conducted on the ScanNetV2 and S3DIS benchmarks demonstrate the effectiveness of the proposed method. For instance, our approach achieves a 66.4\% mAP with the 0.5 IoU threshold on the ScanNetV2 test set, which is 1.9\% higher than the state-of-the-art method.
翻訳日:2022-03-29 15:28:41 公開日:2022-03-28
# 効率的な3dcg背景作成のための多彩な360度画像アウトペイント

Diverse Plausible 360-Degree Image Outpainting for Efficient 3DCG Background Creation ( http://arxiv.org/abs/2203.14668v1 )

ライセンス: Link先を確認
Naofumi Akimoto, Yuhi Matsuo, Yoshimitsu Aoki(参考訳) 視野が狭い単一画像から周囲を推定して360度画像を生成するという問題に対処する。 以前の方法は、トレーニングの解決と決定論的生成に過度に適合していた。 本稿では,シーンモデリングのための変圧器を用いた補完手法と,出力画像上の360度画像の特性改善のための新しい手法を提案する。 具体的には、コンプリートネットをトランスフォーマーと組み合わせて様々な補完を行い、調整ネットは色、縫い目、解像度を入力画像と一致させ、任意の解像度で推論を可能にする。 また、出力画像上の360度画像の特性を改善するために、WS-perceptual lossと円形推論を提案する。 より詳細な実験により,本手法は定性的かつ定量的に,最先端(SOTA)法より優れていることが示された。 例えば、soma法に比べて解像度が16倍大きく、frechetインセプション距離(fid)が1.7倍小さい画像が得られる。 さらに,3DCGシーンの照明と背景の仕上げ結果を用いたパイプラインを提案する。 当社では,鏡面に仮想オブジェクトを挿入することで,知覚的に自然な結果を得ることができる。

We address the problem of generating a 360-degree image from a single image with a narrow field of view by estimating its surroundings. Previous methods suffered from overfitting to the training resolution and deterministic generation. This paper proposes a completion method using a transformer for scene modeling and novel methods to improve the properties of a 360-degree image on the output image. Specifically, we use CompletionNets with a transformer to perform diverse completions and AdjustmentNet to match color, stitching, and resolution with an input image, enabling inference at any resolution. To improve the properties of a 360-degree image on an output image, we also propose WS-perceptual loss and circular inference. Thorough experiments show that our method outperforms state-of-the-art (SOTA) methods both qualitatively and quantitatively. For example, compared to SOTA methods, our method completes images 16 times larger in resolution and achieves 1.7 times lower Frechet inception distance (FID). Furthermore, we propose a pipeline that uses the completion results for lighting and background of 3DCG scenes. Our plausible background completion enables perceptually natural results in the application of inserting virtual objects with specular surfaces.
翻訳日:2022-03-29 15:28:20 公開日:2022-03-28
# 高解像度イベントカメラは本当に必要か?

Are High-Resolution Event Cameras Really Needed? ( http://arxiv.org/abs/2203.14672v1 )

ライセンス: Link先を確認
Daniel Gehrig and Davide Scaramuzza(参考訳) 難易度の高い状況において、イベントカメラは自動車、計算写真、SLAMなど幅広い用途において欠かせないものとなっている。 しかし、センサ設計にさらなる改良が加えられるにつれて、現代のイベントカメラはより高分解能と高分解能のセンサーに向けられ、結果として下流タスクの帯域幅と計算能力が向上している。 この傾向にもかかわらず、標準的なコンピュータビジョンタスクを解決するために高解像度のイベントカメラを使用することの利点はまだ明確ではない。 本研究では,低照度と高速で低解像度のカメラは,帯域幅を著しく低くしながら高解像度のカメラよりも優れる,という驚くべき発見を報告する。 この主張は,高解像度のイベントカメラが1画素当たりのイベントレートが高く,低照度条件および高速時の時間ノイズが高くなることを示す実証的および理論的証拠である。 その結果、ほとんどの場合、高分解能イベントカメラはこれらの条件下での低分解能センサと比較してタスク性能が低い。 我々は,合成データと実データの両方において,画像再構成,光フロー推定,カメラポーズ追跡など,いくつかの課題において,実験的な検証を行った。 これらの発見は、イベントカメラ開発の今後のトレンドに重要なガイドラインを提供すると信じています。

Due to their outstanding properties in challenging conditions, event cameras have become indispensable in a wide range of applications, ranging from automotive, computational photography, and SLAM. However, as further improvements are made to the sensor design, modern event cameras are trending toward higher and higher sensor resolutions, which result in higher bandwidth and computational requirements on downstream tasks. Despite this trend, the benefits of using high-resolution event cameras to solve standard computer vision tasks are still not clear. In this work, we report the surprising discovery that, in low-illumination conditions and at high speeds, low-resolution cameras can outperform high-resolution ones, while requiring a significantly lower bandwidth. We provide both empirical and theoretical evidence for this claim, which indicates that high-resolution event cameras exhibit higher per-pixel event rates, leading to higher temporal noise in low-illumination conditions and at high speeds. As a result, in most cases, high-resolution event cameras show a lower task performance, compared to lower resolution sensors in these conditions. We empirically validate our findings across several tasks, namely image reconstruction, optical flow estimation, and camera pose tracking, both on synthetic and real data. We believe that these findings will provide important guidelines for future trends in event camera development.
翻訳日:2022-03-29 15:28:02 公開日:2022-03-28
# 非監督的人物再識別のための部分的擬似ラベルリファインメント

Part-based Pseudo Label Refinement for Unsupervised Person Re-identification ( http://arxiv.org/abs/2203.14675v1 )

ライセンス: Link先を確認
Yoonki Cho, Woo Jae Kim, Seunghoon Hong, Sung-Eui Yoon(参考訳) unsupervised person re-id(re-id)は、ラベルなしのデータから個人検索の識別表現を学ぶことを目的としている。 近年の手法は擬似ラベルを用いて実現されているが,これらのラベルは本質的にノイズが多く,精度が劣化している。 この問題を克服するために、いくつかの擬似ラベル改善手法が提案されているが、それらは人物のリIDに必須のきめ細かい局所的文脈を無視している。 本稿では,世界的特徴量と部分的特徴量との相補的関係を利用してラベルノイズを低減する,新しいpplr(part-based pseudo labelfine)フレームワークを提案する。 具体的には,機能空間間のk-ネアレスト近傍の類似性としてクロスアグリーメントスコアを設計し,信頼性の高い相補関係を生かした。 交差合意に基づき,グローバル特徴クラスタリングにおけるノイズを緩和する部分特徴の予測をアンサンブルすることにより,グローバル特徴の擬似ラベルを洗練する。 さらに,各部分に対するラベルの適合性に応じてラベル平滑化を施し,部分特徴の擬似ラベルをさらに洗練する。 相互合意スコアによって提供される信頼性の高い補完情報により、PPLRは、ノイズラベルの影響を効果的に低減し、豊かなローカルコンテキストで識別表現を学ぶ。 market-1501とmsmt17の広範な実験結果から,提案手法の有効性が示された。 コードはhttps://github.com/yoonkicho/PPLRで公開されている。

Unsupervised person re-identification (re-ID) aims at learning discriminative representations for person retrieval from unlabeled data. Recent techniques accomplish this task by using pseudo-labels, but these labels are inherently noisy and deteriorate the accuracy. To overcome this problem, several pseudo-label refinement methods have been proposed, but they neglect the fine-grained local context essential for person re-ID. In this paper, we propose a novel Part-based Pseudo Label Refinement (PPLR) framework that reduces the label noise by employing the complementary relationship between global and part features. Specifically, we design a cross agreement score as the similarity of k-nearest neighbors between feature spaces to exploit the reliable complementary relationship. Based on the cross agreement, we refine pseudo-labels of global features by ensembling the predictions of part features, which collectively alleviate the noise in global feature clustering. We further refine pseudo-labels of part features by applying label smoothing according to the suitability of given labels for each part. Thanks to the reliable complementary information provided by the cross agreement score, our PPLR effectively reduces the influence of noisy labels and learns discriminative representations with rich local contexts. Extensive experimental results on Market-1501 and MSMT17 demonstrate the effectiveness of the proposed method over the state-of-the-art performance. The code is available at https://github.com/yoonkicho/PPLR.
翻訳日:2022-03-29 15:27:06 公開日:2022-03-28
# スパイキングニューロンを用いた脳インスパイア多層セプトロン

Brain-inspired Multilayer Perceptron with Spiking Neurons ( http://arxiv.org/abs/2203.14679v1 )

ライセンス: Link先を確認
Wenshuo Li, Hanting Chen, Jianyuan Guo, Ziyang Zhang, Yunhe Wang(参考訳) 近年,多層パーセプトロン(MLP)がコンピュータビジョンタスクの分野でホットスポットとなっている。 帰納バイアスがなければ、MDPは特徴抽出に優れ、素晴らしい結果が得られる。 しかし、それらの構造が単純であるため、その性能は局所的な特徴通信マヒニズムに大きく依存する。 mlpの性能をさらに向上するため,脳に触発されたニューラルネットワークからの情報通信機構を導入する。 spiking neural network (snn)は、脳に触発された最も有名なニューラルネットワークであり、スパースデータを扱うことで大きな成功を収めている。 SNNのLeaky Integrate and Fire(LIF)ニューロンは、異なる時間ステップ間で通信するために使用される。 本稿では, LIFニューロンの機構をMLPモデルに組み込んで, FLOPを余分に必要とせずに精度を向上する。 水平LIFおよび垂直LIFを含むパッチ間を異なる方向に通信する全精度LIF演算を提案する。 また,グループlifを用いてより優れた局所的特徴を抽出することを提案する。 LIFモジュールでは、当社のSNN-MLPモデルは、ImageNetデータセットの81.9%、83.3%、83.5%のトップ-1の精度をそれぞれ4.4G、8.5G、15.2GのFLOPで達成しています。

Recently, Multilayer Perceptron (MLP) becomes the hotspot in the field of computer vision tasks. Without inductive bias, MLPs perform well on feature extraction and achieve amazing results. However, due to the simplicity of their structures, the performance highly depends on the local features communication machenism. To further improve the performance of MLP, we introduce information communication mechanisms from brain-inspired neural networks. Spiking Neural Network (SNN) is the most famous brain-inspired neural network, and achieve great success on dealing with sparse data. Leaky Integrate and Fire (LIF) neurons in SNNs are used to communicate between different time steps. In this paper, we incorporate the machanism of LIF neurons into the MLP models, to achieve better accuracy without extra FLOPs. We propose a full-precision LIF operation to communicate between patches, including horizontal LIF and vertical LIF in different directions. We also propose to use group LIF to extract better local features. With LIF modules, our SNN-MLP model achieves 81.9%, 83.3% and 83.5% top-1 accuracy on ImageNet dataset with only 4.4G, 8.5G and 15.2G FLOPs, respectively, which are state-of-the-art results as far as we know.
翻訳日:2022-03-29 15:26:41 公開日:2022-03-28
# 画像操作検出およびローカライズのためのobjectformer

ObjectFormer for Image Manipulation Detection and Localization ( http://arxiv.org/abs/2203.14681v1 )

ライセンス: Link先を確認
Junke Wang, Zuxuan Wu, Jingjing Chen, Xintong Han, Abhinav Shrivastava, Ser-Nam Lim, and Yu-Gang Jiang(参考訳) 画像編集技術の最近の進歩はマルチメディアデータの信頼性に深刻な課題をもたらし、画像改ざん検出の研究が進められている。 本稿では,画像操作の検出とローカライズを行うobjectformerを提案する。 RGB領域では見えなくなった微妙な修正トレースをキャプチャするために、画像の高周波特徴を抽出し、マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。 さらに、学習可能なオブジェクトプロトタイプのセットを中レベル表現として使用し、異なる領域間のオブジェクトレベルのコンプリートをモデル化し、パッチレベルのコンプリートをキャプチャするためにパッチ埋め込みをさらに洗練するために使用します。 提案手法の有効性を検証するため,様々なデータセットを広範囲に実験し,提案手法の有効性を検証した。

Recent advances in image editing techniques have posed serious challenges to the trustworthiness of multimedia data, which drives the research of image tampering detection. In this paper, we propose ObjectFormer to detect and localize image manipulations. To capture subtle manipulation traces that are no longer visible in the RGB domain, we extract high-frequency features of the images and combine them with RGB features as multimodal patch embeddings. Additionally, we use a set of learnable object prototypes as mid-level representations to model the object-level consistencies among different regions, which are further used to refine patch embeddings to capture the patch-level consistencies. We conduct extensive experiments on various datasets and the results verify the effectiveness of the proposed method, outperforming state-of-the-art tampering detection and localization methods.
翻訳日:2022-03-29 15:26:20 公開日:2022-03-28
# Assembly101: 手続き活動を理解するための大規模マルチビュービデオデータセット

Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities ( http://arxiv.org/abs/2203.14712v1 )

ライセンス: Link先を確認
Fadime Sener and Dibyadip Chatterjee and Daniel Shelepov and Kun He and Dipika Singhania and Robert Wang and Angela Yao(参考訳) assembly101は、4321人の人々のビデオが101台の「テイク・アパルト」玩具を組み立て、分解する新しい手続き行動データセットである。 参加者は固定命令なしで作業し、シーケンスはアクション順序、ミス、修正のリッチで自然なバリエーションを特徴とする。 assembly101は、最初のマルチビューアクションデータセットで、静的(8)とエゴセントリック(4)レコードを同時に記録する。 配列は100k以上の粗いアクションセグメントと1mの細粒度アクションセグメント、および18mの3dハンドポーズでアノテートされる。 我々は、認識、予測、時間的セグメンテーションの3つの行動理解タスクをベンチマークする。 また,誤りを検出する新しい課題を提案する。 ユニークな記録フォーマットと豊富なアノテーションセットにより、新しいおもちゃへの一般化、クロスビュー転送、ロングテール分布、ポーズ対外観を調査できる。 我々は、assembly101が様々な活動理解問題の新たな課題となることを想定している。

Assembly101 is a new procedural activity dataset featuring 4321 videos of people assembling and disassembling 101 "take-apart" toy vehicles. Participants work without fixed instructions, and the sequences feature rich and natural variations in action ordering, mistakes, and corrections. Assembly101 is the first multi-view action dataset, with simultaneous static (8) and egocentric (4) recordings. Sequences are annotated with more than 100K coarse and 1M fine-grained action segments, and 18M 3D hand poses. We benchmark on three action understanding tasks: recognition, anticipation and temporal segmentation. Additionally, we propose a novel task of detecting mistakes. The unique recording format and rich set of annotations allow us to investigate generalization to new toys, cross-view transfer, long-tailed distributions, and pose vs. appearance. We envision that Assembly101 will serve as a new challenge to investigate various activity understanding problems.
翻訳日:2022-03-29 15:25:59 公開日:2022-03-28
# 非パラメトリックベイズ推論による原始的形状抽象化

Primitive-based Shape Abstraction via Nonparametric Bayesian Inference ( http://arxiv.org/abs/2203.14714v1 )

ライセンス: Link先を確認
Yuwei Wu, Weixiao Liu, Sipu Ruan, Gregory S. Chirikjian(参考訳) 3D形状の抽象化は、長年にわたって大きな関心を集めてきた。 メッシュやボクセルのような低レベルの表現とは別に、研究者は基本的な幾何学的プリミティブを持つ複雑なオブジェクトを意味的に抽象化することも求めている。 最近のディープラーニング手法はデータセットに大きく依存しており、目に見えないカテゴリに限られている。 さらに、少数のプリミティブでオブジェクトを正確に抽象化することは依然として困難である。 本稿では,点雲から未知数の幾何学的プリミティブからなる抽象概念を推定する,新しい非パラメトリックベイズ統計手法を提案する。 ガウス超量子テーパモデル(gstm)の無限混合系から観測した点の生成をモデル化した。 私たちのアプローチでは,抽象化をクラスタリング問題として定式化しています。 1) 各ポイントは、中国レストランプロセス(CRP)を介してクラスタに割り当てられる。 2)プリミティブ表現は各クラスタに最適化され、 3) マージ後処理を組み込んで簡潔な表現を提供する。 様々なデータセットについて広範な実験を行う。 その結果,本手法は精度の面では最先端を上回り,様々な種類のオブジェクトに一般化できることがわかった。

3D shape abstraction has drawn great interest over the years. Apart from low-level representations such as meshes and voxels, researchers also seek to semantically abstract complex objects with basic geometric primitives. Recent deep learning methods rely heavily on datasets, with limited generality to unseen categories. Furthermore, abstracting an object accurately yet with a small number of primitives still remains a challenge. In this paper, we propose a novel non-parametric Bayesian statistical method to infer an abstraction, consisting of an unknown number of geometric primitives, from a point cloud. We model the generation of points as observations sampled from an infinite mixture of Gaussian Superquadric Taper Models (GSTM). Our approach formulates the abstraction as a clustering problem, in which: 1) each point is assigned to a cluster via the Chinese Restaurant Process (CRP); 2) a primitive representation is optimized for each cluster, and 3) a merging post-process is incorporated to provide a concise representation. We conduct extensive experiments on various datasets. The results indicate that our method outperforms the state-of-the-art in terms of accuracy and is generalizable to various types of objects.
翻訳日:2022-03-29 15:25:42 公開日:2022-03-28
# (参考訳) 語彙空間における概念の促進によるトランスフォーマーフィードフォワード層構築予測

Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space ( http://arxiv.org/abs/2203.14680v1 )

ライセンス: CC BY 4.0
Mor Geva, Avi Caciularu, Kevin Ro Wang, Yoav Goldberg(参考訳) トランスフォーマーベース言語モデル(LM)は現代のNLPの中核であるが、内部予測構築プロセスは不透明であり、ほとんど理解されていない。 本研究では,トランスモデルのビルディングブロックであるフィードフォワードネットワーク(FFN)層の動作をリバースエンジニアリングすることで,この基盤となる予測プロセスを明らかにするための重要なステップを示す。 トークン表現は語彙上の変化した分布であり,各ffn層からの出力はその分布に対する付加的な更新であると考える。 次に、語彙空間におけるFFN更新を分析し、各更新を1つのFFNパラメータベクトルに対応するサブアップデートに分解できることを示し、それぞれが人間解釈可能な概念を促進する。 次に、これらの知見をLM予測の制御に利用し、GPT2の毒性を50%近く低減し、簡単な早期終了ルールで計算効率を向上し、計算の20%を平均で節約する。

Transformer-based language models (LMs) are at the core of modern NLP, but their internal prediction construction process is opaque and largely not understood. In this work, we make a substantial step towards unveiling this underlying prediction process, by reverse-engineering the operation of the feed-forward network (FFN) layers, one of the building blocks of transformer models. We view the token representation as a changing distribution over the vocabulary, and the output from each FFN layer as an additive update to that distribution. Then, we analyze the FFN updates in the vocabulary space, showing that each update can be decomposed to sub-updates corresponding to single FFN parameter vectors, each promoting concepts that are often human-interpretable. We then leverage these findings for controlling LM predictions, where we reduce the toxicity of GPT2 by almost 50%, and for improving computation efficiency with a simple early exit rule, saving 20% of computation on average.
翻訳日:2022-03-29 15:24:36 公開日:2022-03-28
# (参考訳) 科学的名前付きエンティティ認識のための階層変換器モデル

Hierarchical Transformer Model for Scientific Named Entity Recognition ( http://arxiv.org/abs/2203.14710v1 )

ライセンス: CC BY 4.0
Urchade Zaratiana and Pierre Holat and Nadi Tomeh and Thierry Charnois(参考訳) 名前付きエンティティ認識(NER)タスクは、関係抽出や知識グラフ構築など、多くの自然言語処理システムにおいて重要なコンポーネントである。 本稿では,名前付きエンティティ認識のための単純かつ効果的なアプローチを提案する。 提案手法の主な考え方は、入力サブワードシーケンスをBERTなどの事前訓練された変換器でエンコードし、単語ラベルを直接分類する代わりに、単語レベルの相互作用をよりよくエンコードするために、サブワード表現にトランスフォーマーの別の層を追加することである。 我々は科学NERのための3つのベンチマークデータセット、特にコンピュータ科学と生物医学領域におけるアプローチを評価した。 実験結果から,SciERC や TDM のデータセットでは,外部リソースやデータ拡張を必要とせず,現在の状況よりも優れた結果が得られた。 コードは \url{https://github.com/urchade/HNER} で入手できる。

The task of Named Entity Recognition (NER) is an important component of many natural language processing systems, such as relation extraction and knowledge graph construction. In this work, we present a simple and effective approach for Named Entity Recognition. The main idea of our approach is to encode the input subword sequence with a pre-trained transformer such as BERT, and then, instead of directly classifying the word labels, another layer of transformer is added to the subword representation to better encode the word-level interaction. We evaluate our approach on three benchmark datasets for scientific NER, particularly in the computer science and biomedical domains. Experimental results show that our model outperforms the current state-of-the-art on SciERC and TDM datasets without requiring external resources or specific data augmentation. Code is available at \url{https://github.com/urchade/HNER}.
翻訳日:2022-03-29 14:53:24 公開日:2022-03-28
# ドメイン知識を低リソースのエンティティ認識に活用する

Using Domain Knowledge for Low Resource Named Entity Recognition ( http://arxiv.org/abs/2203.14738v1 )

ライセンス: Link先を確認
Yuan Shi(参考訳) 近年、名前付きエンティティ認識は自然言語処理の分野で常にポピュラーな研究であり、従来のディープラーニング手法ではモデルトレーニングに大量のラベル付きデータを必要とするため、ラベル付け資源が不足している分野には適さない。 さらに、既存のクロスドメイン知識転送手法では、トレーニングコストを増加させるために、異なるフィールドに対するエンティティラベルを調整する必要がある。 これらの問題を解決するために,中国におけるエンティティ認識の処理手法を取り入れたドメイン知識を用いて,低リソース領域におけるエンティティ認識の性能を向上させることを提案する。 私たちが主に応用するドメイン知識は、ドメイン辞書とドメインラベルデータである。 各単語に対する辞書情報を用いて単語埋め込みの強化とドメインラベルデータによる認識効果の強化を行う。 提案モデルは、名前付きエンティティ認識を低リソースで処理しながら、異なるドメインにおける大規模データ調整を回避する。 本手法の有効性を実証する実験は,科学・技術系機器のデータセットにおいて印象的な結果を示し,f1スコアは,他の多くのベースライン法と比較して有意に向上した。

In recent years, named entity recognition has always been a popular research in the field of natural language processing, while traditional deep learning methods require a large amount of labeled data for model training, which makes them not suitable for areas where labeling resources are scarce. In addition, the existing cross-domain knowledge transfer methods need to adjust the entity labels for different fields, so as to increase the training cost. To solve these problems, enlightened by a processing method of Chinese named entity recognition, we propose to use domain knowledge to improve the performance of named entity recognition in areas with low resources. The domain knowledge mainly applied by us is domain dictionary and domain labeled data. We use dictionary information for each word to strengthen its word embedding and domain labeled data to reinforce the recognition effect. The proposed model avoids large-scale data adjustments in different domains while handling named entities recognition with low resources. Experiments demonstrate the effectiveness of our method, which has achieved impressive results on the data set in the field of scientific and technological equipment, and the F1 score has been significantly improved compared with many other baseline methods.
翻訳日:2022-03-29 14:46:30 公開日:2022-03-28
# UTSA NLP at SemEval-2022 Task 4: An Exploration of Simple Ensembles of Transformer, Convolutional, and Recurrent Neural Networks

UTSA NLP at SemEval-2022 Task 4: An Exploration of Simple Ensembles of Transformers, Convolutional, and Recurrent Neural Networks ( http://arxiv.org/abs/2203.14920v1 )

ライセンス: Link先を確認
Xingmeng Zhao and Anthony Rios(参考訳) 優しくても、優越感があり、言語を保護していると感じる行為は、その言語を体験する人々に深刻な精神的健康的影響をもたらす可能性がある。 したがって、オンラインのモデレーションシステムでは、この提案言語をオンラインで検出することは有用である。 そこで本論文では, UTSA SemEval-2022 Task 4 によって開発されたシステムについて述べる。 本手法は,roberta,convolutions neural networks,bidirectional long short-term memory networkなど,いくつかのディープラーニングアーキテクチャの利用を探求する。 さらに,ニューラルネットワークモデルのアンサンブルを作成するための,単純かつ効果的な手法について検討する。 全体として、いくつかのアンサンブルモデルを実験した結果、5つのRoBERTaモデルの単純な組み合わせは、開発データセットで.6441、最終テストデータセットで.5745のFスコアを達成した。 最後に,モデルの限界を理解し,さらなる研究のためのアイデアを提供するため,包括的なエラー解析を実施した。

The act of appearing kind or helpful via the use of but having a feeling of superiority condescending and patronizing language can have have serious mental health implications to those that experience it. Thus, detecting this condescending and patronizing language online can be useful for online moderation systems. Thus, in this manuscript, we describe the system developed by Team UTSA SemEval-2022 Task 4, Detecting Patronizing and Condescending Language. Our approach explores the use of several deep learning architectures including RoBERTa, convolutions neural networks, and Bidirectional Long Short-Term Memory Networks. Furthermore, we explore simple and effective methods to create ensembles of neural network models. Overall, we experimented with several ensemble models and found that the a simple combination of five RoBERTa models achieved an F-score of .6441 on the development dataset and .5745 on the final test dataset. Finally, we also performed a comprehensive error analysis to better understand the limitations of the model and provide ideas for further research.
翻訳日:2022-03-29 14:46:13 公開日:2022-03-28
# 計画問題を境界幅部分問題に分解する学習スケッチ:拡張版

Learning Sketches for Decomposing Planning Problems into Subproblems of Bounded Width: Extended Version ( http://arxiv.org/abs/2203.14852v1 )

ライセンス: Link先を確認
Dominik Drexler, Jendrik Seipp, Hector Geffner(参考訳) 近年,同じドメインから引き出されたインスタンスのサブゴナル構造を表現する汎用言語としてスケッチが導入されている。 Sketches は C -> E という形式の規則の集合で、C がブール条件を表現し、E が定性的変化を表現している。 各スケッチルールは、サブプロブレムを定義している: c を満たす状態から e で表される変化や目標の状態を達成する状態へと進む。 SketchesはSIWアルゴリズムのSIW_R変量により、単純なゴールのシリアライゼーション、一般的なポリシー、あるいは多項式時間でグレードで解ける境界幅の分解を符号化することができる。 これまでの研究は、ドメインに依存しないプランナにとって、取り外しが難しいベンチマークドメインよりもスケッチの計算値を示してきた。 本研究では,計画領域が与えられたスケッチを自動的に学習する問題,対象問題のいくつかの例,所望のスケッチ幅に縛られる問題に対処する。 本稿では,問題の論理的定式化,ASPソルバClingoを用いた実装,実験結果について述べる。 スケッチ学習者およびSIW_Rプランナーは、明快で明示的な形式でドメイン構造を学習し活用するドメイン非依存プランナーを生成する。

Recently, sketches have been introduced as a general language for representing the subgoal structure of instances drawn from the same domain. Sketches are collections of rules of the form C -> E over a given set of features where C expresses Boolean conditions and E expresses qualitative changes. Each sketch rule defines a subproblem: going from a state that satisfies C to a state that achieves the change expressed by E or a goal state. Sketches can encode simple goal serializations, general policies, or decompositions of bounded width that can be solved greedily, in polynomial time, by the SIW_R variant of the SIW algorithm. Previous work has shown the computational value of sketches over benchmark domains that, while tractable, are challenging for domain-independent planners. In this work, we address the problem of learning sketches automatically given a planning domain, some instances of the target class of problems, and the desired bound on the sketch width. We present a logical formulation of the problem, an implementation using the ASP solver Clingo, and experimental results. The sketch learner and the SIW_R planner yield a domain-independent planner that learns and exploits domain structure in a crisp and explicit form.
翻訳日:2022-03-29 14:44:16 公開日:2022-03-28
# (参考訳) 深部強化学習を用いた低線量X線CTのための有限パラメータDenoising

Limited Parameter Denoising for Low-dose X-ray Computed Tomography Using Deep Reinforcement Learning ( http://arxiv.org/abs/2203.14794v1 )

ライセンス: CC BY 4.0
Mayank Patwari, Ralf Gutjahr, Rainer Raupach, Andreas Maier(参考訳) 深層学習の利用は、医用画像の分野でいくつかの問題を解決することに成功している。 深層学習はctの雑音化問題にうまく適用されている。 しかし、深層学習は、深層畳み込みネットワーク(CNN)を訓練するために大量のデータを必要とする。 さらに、パラメータ数が大きいため、このような深いCNNは予期せぬ結果をもたらす可能性がある。 本研究では,解釈可能な振る舞いを持ち,限られたデータで有用な結果を提供する新しいCTデノナイズフレームワークを提案する。 ノイズ除去のために、プロジェクション領域とボリューム領域の両方に両側フィルタリングを用いる。 非定常雑音を説明するために、投影ビュー毎に、および各ボリュームピクセルに対して、ボリュームの$\sigma$パラメータをチューニングする。 チューニングは2つのディープCNNによって実行される。 ラベル付けの非現実性のため、2つのディープCNNはDeep-Q強化学習タスクを介して訓練される。 タスクに対する報酬は、ニューラルネットワークで表されるカスタム報酬関数を使用して生成される。 マヨクリニック TCIA データセットと AAPM Low Dose CT Grand Challenge の腹部CTを行った。 その結果,PSNRは28.53から28.93に,SSIMは0.98952から0.9204に向上した。 我々は,p値 (PSNR) = 0.000, p値 (SSIM) = 0.000 という数桁高いパラメータ数を持つ最先端の CNN を数桁上回っている。 本手法では,MSE損失に基づく手法によって導入されたぼやけや,WGANに基づくモデルによって導入された深層学習アーティファクトは一切導入しない。 我々のアブレーション研究は、パラメータチューニングと報酬ネットワークの利用が最良の結果をもたらすことを示している。

The use of deep learning has successfully solved several problems in the field of medical imaging. Deep learning has been applied to the CT denoising problem successfully. However, the use of deep learning requires large amounts of data to train deep convolutional networks (CNNs). Moreover, due to large parameter count, such deep CNNs may cause unexpected results. In this study, we introduce a novel CT denoising framework, which has interpretable behaviour, and provides useful results with limited data. We employ bilateral filtering in both the projection and volume domains to remove noise. To account for non-stationary noise, we tune the $\sigma$ parameters of the volume for every projection view, and for every volume pixel. The tuning is carried out by two deep CNNs. Due to impracticality of labelling, the two deep CNNs are trained via a Deep-Q reinforcement learning task. The reward for the task is generated by using a custom reward function represented by a neural network. Our experiments were carried out on abdominal scans for the Mayo Clinic TCIA dataset, and the AAPM Low Dose CT Grand Challenge. Our denoising framework has excellent denoising performance increasing the PSNR from 28.53 to 28.93, and increasing the SSIM from 0.8952 to 0.9204. We outperform several state-of-the-art deep CNNs, which have several orders of magnitude higher number of parameters (p-value (PSNR) = 0.000, p-value (SSIM) = 0.000). Our method does not introduce any blurring, which is introduced by MSE loss based methods, or any deep learning artifacts, which are introduced by WGAN based models. Our ablation studies show that parameter tuning and using our reward network results in the best possible results.
翻訳日:2022-03-29 14:35:00 公開日:2022-03-28
# ロバストで不可解な例:敵対的学習に対するデータ保護

Robust Unlearnable Examples: Protecting Data Against Adversarial Learning ( http://arxiv.org/abs/2203.14533v1 )

ライセンス: Link先を確認
Shaopeng Fu, Fengxiang He, Yang Liu, Li Shen, Dacheng Tao(参考訳) サイバースペースに膨大な量のアクセス可能なデータが、ディープラーニングモデルのトレーニングに不正に使用されるリスクに直面している。 この問題に対処するために,誤り最小化ノイズを付加することにより,深層学習モデルでデータを理解不能にする手法を提案する。 しかし、そのような無学習性は敵の訓練には脆弱である。 本稿では,敵の訓練から保護されるロバストな非学習例を生成するための新しい手法を考案する。 まず, 学習損失を最小化することでデータに対する情報的知識を抑えるバニラ誤り最小化ノイズは, 対向訓練損失を効果的に最小化できないことがわかった。 これは、逆訓練におけるエラー最小化ノイズの脆弱性を説明する。 観測結果に基づき、逆訓練損失を低減するため、ロバストな誤り最小化ノイズが導入される。 実験により, 強靭な誤り最小化ノイズによる難読性は, 種々のシナリオにおいて, 敵の訓練からデータを効果的に保護できることが示されている。 コードは \url{https://github.com/fshp971/robust-unlearnable-examples} で入手できる。

The tremendous amount of accessible data in cyberspace face the risk of being unauthorized used for training deep learning models. To address this concern, methods are proposed to make data unlearnable for deep learning models by adding a type of error-minimizing noise. However, such conferred unlearnability is found fragile to adversarial training. In this paper, we design new methods to generate robust unlearnable examples that are protected from adversarial training. We first find that the vanilla error-minimizing noise, which suppresses the informative knowledge of data via minimizing the corresponding training loss, could not effectively minimize the adversarial training loss. This explains the vulnerability of error-minimizing noise in adversarial training. Based on the observation, robust error-minimizing noise is then introduced to reduce the adversarial training loss. Experiments show that the unlearnability brought by robust error-minimizing noise can effectively protect data from adversarial training in various scenarios. The code is available at \url{https://github.com/fshp971/robust-unlearnable-examples}.
翻訳日:2022-03-29 14:15:17 公開日:2022-03-28
# メタ学習によるブラックボックス攻撃の強化

Boosting Black-Box Adversarial Attacks with Meta Learning ( http://arxiv.org/abs/2203.14607v1 )

ライセンス: Link先を確認
Junjie Fu (1 and 2), Jian Sun (1 and 2), Gang Wang (1 and 2) ((1) the State Key Lab of Intelligent Control and Decision of Complex Systems and the School of Automation, Beijing Institute of Technology, Beijing, China, (2) Beijing Institute of Technology Chongqing Innovation Center, Chongqing, China)(参考訳) ディープニューラルネットワーク(DNN)は様々な分野で大きな成功を収めている。 しかしながら、DNNはブラックボックスの設定であっても敵の例に対して非常に脆弱であることが示されている。 多くのブラックボックス攻撃手法が文献に提案されている。 しかし、これらの手法は通常、実際の目的を完全に満たすことができない、低い成功率と大きなクエリ数に苦しむ。 本稿では,サロゲートモデル上でのメタ逆摂動(maps)を訓練し,モデルの勾配を推定してブラックボックス攻撃を行うハイブリッド攻撃手法を提案する。 本手法は,初期化にメタ逆摂動を用い,その後,ブラックボックス攻撃を複数回訓練する。 さらに、MAPは、他のブラックボックス対敵攻撃法の性能を高めるために使用できるという意味で、良好な転送性と普遍性を享受する。 広範な実験により,本手法は攻撃成功率を向上させるだけでなく,他の手法と比較してクエリ数を削減できることを示した。

Deep neural networks (DNNs) have achieved remarkable success in diverse fields. However, it has been demonstrated that DNNs are very vulnerable to adversarial examples even in black-box settings. A large number of black-box attack methods have been proposed to in the literature. However, those methods usually suffer from low success rates and large query counts, which cannot fully satisfy practical purposes. In this paper, we propose a hybrid attack method which trains meta adversarial perturbations (MAPs) on surrogate models and performs black-box attacks by estimating gradients of the models. Our method uses the meta adversarial perturbation as an initialization and subsequently trains any black-box attack method for several epochs. Furthermore, the MAPs enjoy favorable transferability and universality, in the sense that they can be employed to boost performance of other black-box adversarial attack methods. Extensive experiments demonstrate that our method can not only improve the attack success rates, but also reduces the number of queries compared to other methods.
翻訳日:2022-03-29 14:15:01 公開日:2022-03-28
# ravir : 赤外線反射イメージングにおける網膜動脈と静脈のセグメンテーションと定量的解析のためのデータセットと方法論

RAVIR: A Dataset and Methodology for the Semantic Segmentation and Quantitative Analysis of Retinal Arteries and Veins in Infrared Reflectance Imaging ( http://arxiv.org/abs/2203.14928v1 )

ライセンス: Link先を確認
Ali Hatamizadeh, Hamid Hosseini, Niraj Patel, Jinseo Choi, Cameron C. Pole, Cory M. Hoeferlin, Steven D. Schwartz and Demetri Terzopoulos(参考訳) 網膜血管は高血圧や糖尿病などの全身疾患の診断とモニタリングにおいて重要な手がかりとなる。 微小血管系はそのような状態に主に関与しており、網膜は微小血管を直接観察できる唯一の解剖学的部位である。 網膜血管の客観的評価は、長い間、全身血管疾患のサーロゲートバイオマーカーと考えられてきたが、近年の網膜イメージングやコンピュータビジョン技術の進歩に伴い、この話題は再び注目されている。 本稿では、赤外反射法(IR)画像における網膜動脈と静脈のセマンティックセグメンテーションのためのRAVIRと呼ばれる新しいデータセットを提案する。 これにより、広範囲な後処理なしで抽出された容器タイプを識別するディープラーニングベースのモデルを作成することができる。 本稿では,網膜動脈と静脈のセマンティックセグメンテーションと,セグメンテーションされた血管の幅を定量的に測定するために,SegRAVIRと呼ばれる新しい深層学習手法を提案する。 我々はSegRAVIRの有効性を検証し,その性能を最先端モデルと比較した。 さらに,カラー画像上でのRAVIR事前学習ネットワークのドメイン適応のための知識蒸留フレームワークを提案する。 我々の事前学習手順は、DRIVE、STARE、CHASE_DB1データセットに新しい最先端のベンチマークをもたらすことを示す。 データセットリンク: https://ravirdataset.github.io/data/

The retinal vasculature provides important clues in the diagnosis and monitoring of systemic diseases including hypertension and diabetes. The microvascular system is of primary involvement in such conditions, and the retina is the only anatomical site where the microvasculature can be directly observed. The objective assessment of retinal vessels has long been considered a surrogate biomarker for systemic vascular diseases, and with recent advancements in retinal imaging and computer vision technologies, this topic has become the subject of renewed attention. In this paper, we present a novel dataset, dubbed RAVIR, for the semantic segmentation of Retinal Arteries and Veins in Infrared Reflectance (IR) imaging. It enables the creation of deep learning-based models that distinguish extracted vessel type without extensive post-processing. We propose a novel deep learning-based methodology, denoted as SegRAVIR, for the semantic segmentation of retinal arteries and veins and the quantitative measurement of the widths of segmented vessels. Our extensive experiments validate the effectiveness of SegRAVIR and demonstrate its superior performance in comparison to state-of-the-art models. Additionally, we propose a knowledge distillation framework for the domain adaptation of RAVIR pretrained networks on color images. We demonstrate that our pretraining procedure yields new state-of-the-art benchmarks on the DRIVE, STARE, and CHASE_DB1 datasets. Dataset link: https://ravirdataset.github.io/data/
翻訳日:2022-03-29 14:14:46 公開日:2022-03-28
# 音声の超高解像度化に必要なのはNeural Vocoderだけ

Neural Vocoder is All You Need for Speech Super-resolution ( http://arxiv.org/abs/2203.14941v1 )

ライセンス: Link先を確認
Haohe Liu, Woosung Choi, Xubo Liu, Qiuqiang Kong, Qiao Tian, DeLiang Wang(参考訳) 音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。 既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。 これらの強い制約は、不一致の実世界での一般化能力の低下につながる可能性がある。 本稿では,様々な入力解像度とアップサンプリング比を処理できるニューラルボコーダを用いた音声超解像法(nvsr)を提案する。 nvsrはメルバンド幅拡張モジュール、ニューラルボコーダモジュール、後処理モジュールで構成されている。 提案方式は,VCTKマルチスピーカベンチマークの最先端化を実現する。 44.1kHzの目標解像度では、NVSRはWSRGlowとNu-waveをそれぞれ8%、Nu-waveは37%、対数スペクトル距離は37%上回る。 また,プリトレーニングされたvocoderにおける事前知識が,単純なレプリケーションパディング法を用いてメルバンド幅拡張を行うことで,音声srにとって重要であることを示す。 サンプルはhttps://haoheliu.github.io/nvsrで見ることができる。

Speech super-resolution (SR) is a task to increase speech sampling rate by generating high-frequency components. Existing speech SR methods are trained in constrained experimental settings, such as a fixed upsampling ratio. These strong constraints can potentially lead to poor generalization ability in mismatched real-world cases. In this paper, we propose a neural vocoder based speech super-resolution method (NVSR) that can handle a variety of input resolution and upsampling ratios. NVSR consists of a mel-bandwidth extension module, a neural vocoder module, and a post-processing module. Our proposed system achieves state-of-the-art results on the VCTK multi-speaker benchmark. On 44.1 kHz target resolution, NVSR outperforms WSRGlow and Nu-wave by 8% and 37% respectively on log spectral distance and achieves a significantly better perceptual quality. We also demonstrate that prior knowledge in the pre-trained vocoder is crucial for speech SR by performing mel-bandwidth extension with a simple replication-padding method. Samples can be found in https://haoheliu.github.io/nvsr.
翻訳日:2022-03-29 14:13:03 公開日:2022-03-28
# 変動文脈一貫性文マスキングによる解釈可能な研究レプリケーション予測

Interpretable Research Replication Prediction via Variational Contextual Consistency Sentence Masking ( http://arxiv.org/abs/2203.14474v1 )

ライセンス: Link先を確認
Tianyi Luo, Rui Meng, Xin Eric Wang, Yang Liu(参考訳) 研究レプリケーション予測(Research Replication Prediction、RRP)は、公表された研究結果が複製可能かどうかを予測するタスクである。 rrpのための解釈可能なニューラルテキスト分類器の構築は、研究論文が複製性または非複製性として予測される理由の理解を促進する。 しかし、モデル解釈に関する先行研究は、特にrppの長期研究論文では不十分な単語/フレーズレベルでのモデル解釈性の向上に重点が置かれている。 さらに,既存の手法では,ラベルなしデータセットの大規模な利用は不可能である。 これらの制約に対処するために、文レベルの説明を提供し、ラベルのないデータセットの大規模なコーパスをさらに活用して解釈可能性を高めるために弱い教師付きアプローチを適用する、解釈可能なニューラルモデルを構築し、既存の作業と同じように予測性能を向上させることを目指している。 本研究では、ラベル付きデータセットとラベルなしデータセットの両方を用いて、分類器の文脈に基づいてキー文を自動的に抽出する変分文脈一貫性マスキング(VCCSM)手法を提案する。 欧州人権条約(ECHR)データセットを併用したRCP実験の結果,VCCSMは摂動曲線上の領域とポストホック精度を評価指標として,長期文書分類タスクのモデル解釈性を向上させることができることが示された。

Research Replication Prediction (RRP) is the task of predicting whether a published research result can be replicated or not. Building an interpretable neural text classifier for RRP promotes the understanding of why a research paper is predicted as replicable or non-replicable and therefore makes its real-world application more reliable and trustworthy. However, the prior works on model interpretation mainly focused on improving the model interpretability at the word/phrase level, which are insufficient especially for long research papers in RRP. Furthermore, the existing methods cannot utilize a large size of unlabeled dataset to further improve the model interpretability. To address these limitations, we aim to build an interpretable neural model which can provide sentence-level explanations and apply weakly supervised approach to further leverage the large corpus of unlabeled datasets to boost the interpretability in addition to improving prediction performance as existing works have done. In this work, we propose the Variational Contextual Consistency Sentence Masking (VCCSM) method to automatically extract key sentences based on the context in the classifier, using both labeled and unlabeled datasets. Results of our experiments on RRP along with European Convention of Human Rights (ECHR) datasets demonstrate that VCCSM is able to improve the model interpretability for the long document classification tasks using the area over the perturbation curve and post-hoc accuracy as evaluation metrics.
翻訳日:2022-03-29 14:09:44 公開日:2022-03-28
# 弁論意味論と自然言語弁論グラフネットワークを用いた議論の自動評価

Automatic Debate Evaluation with Argumentation Semantics and Natural Language Argument Graph Networks ( http://arxiv.org/abs/2203.14647v1 )

ライセンス: Link先を確認
Ramon Ruiz-Dolz, Stella Heras, Ana Garc\'ia-Fornes(参考訳) 専門家の議論と完全な議論に関する注釈付きデータの欠如は、より複雑な自然言語処理タスクに近付くことの難しさと単純化につながった。 これが自動討論評価のケースである。 本稿では,議論的議論を自動的に評価するオリジナルのハイブリッド手法を提案する。 その目的のために、議論フレームワークやセマンティクスといった議論理論から、Transformerベースのアーキテクチャやニューラルネットワークまでの概念を組み合わせる。 さらに、未探索の自然言語引数の自動解析の新たな事例に基づく有望な結果を得る。

The lack of annotated data on professional argumentation and complete argumentative debates has led to the oversimplification and the inability of approaching more complex natural language processing tasks. Such is the case of the automatic debate evaluation. In this paper, we propose an original hybrid method to automatically evaluate argumentative debates. For that purpose, we combine concepts from argumentation theory such as argumentation frameworks and semantics, with Transformer-based architectures and neural graph networks. Furthermore, we obtain promising results that lay the basis on an unexplored new instance of the automatic analysis of natural language arguments.
翻訳日:2022-03-29 14:09:21 公開日:2022-03-28
# (参考訳) クロスビュー自己教師付き学習における学習場所の学習

Learning Where to Learn in Cross-View Self-Supervised Learning ( http://arxiv.org/abs/2203.14898v1 )

ライセンス: CC BY 4.0
Lang Huang, Shan You, Mingkai Zheng, Fei Wang, Chen Qian and Toshihiko Yamasaki(参考訳) 自己教師付き学習(SSL)は、大きく進歩し、主に表現学習が射影によって埋め込み空間へと導かれる教師付き学習との大きなギャップを狭めた。 投影中、現在の手法は単に埋め込みのためにピクセルの均一な集約を採用するが、このリスクは、異なる拡張に対するオブジェクト非関連ニュアンスと空間的不整合を含む。 本稿では,学習する場所(lewel)を学習し,特徴の空間情報を適応的に集約する新しい手法を提案する。 具体的には、SSLの投影ヘッドを画素ごとの投影として再解釈し、この重み付けプロジェクションヘッドによって元の特徴から空間アライメントマップの集合を予測する。 これにより、これらのアライメントマップに従って、特徴を空間重み付けで集約することにより、アライメント埋め込みのスペクトルを得る。 LEWELはMoCov2を1.6%/1.3%/0.5%/0.4%改善し、BYOLを1.3%/1.3%/0.7%/0.6%改善する。

Self-supervised learning (SSL) has made enormous progress and largely narrowed the gap with the supervised ones, where the representation learning is mainly guided by a projection into an embedding space. During the projection, current methods simply adopt uniform aggregation of pixels for embedding; however, this risks involving object-irrelevant nuisances and spatial misalignment for different augmentations. In this paper, we present a new approach, Learning Where to Learn (LEWEL), to adaptively aggregate spatial information of features, so that the projected embeddings could be exactly aligned and thus guide the feature learning better. Concretely, we reinterpret the projection head in SSL as a per-pixel projection and predict a set of spatial alignment maps from the original features by this weight-sharing projection head. A spectrum of aligned embeddings is thus obtained by aggregating the features with spatial weighting according to these alignment maps. As a result of this adaptive alignment, we observe substantial improvements on both image-level prediction and dense prediction at the same time: LEWEL improves MoCov2 by 1.6%/1.3%/0.5%/0.4% points, improves BYOL by 1.3%/1.3%/0.7%/0.6% points, on ImageNet linear/semi-supervised classification, Pascal VOC semantic segmentation, and object detection, respectively.
翻訳日:2022-03-29 14:06:56 公開日:2022-03-28
# 深部ニューラルネットワーク重み行列のランダム行列解析

Random matrix analysis of deep neural network weight matrices ( http://arxiv.org/abs/2203.14661v1 )

ライセンス: Link先を確認
Matthias Thamm, Max Staats, Bernd Rosenow(参考訳) ニューラルネットワークはさまざまな分野でうまく使われているため、特定のタスクを実行するために必要な情報を格納する方法に関する理論的理解を開発することに多くの関心が寄せられている。 ランダム行列理論 (rmt) の手法を用いて訓練された深層ニューラルネットワークの重み行列を研究し, 特異値の統計は普遍的rmt予測に従うことを示した。 このことは,固有ベクトルエントリの統計をユニバーサル・ポーター・トーマス分布と比較することにより,ランダムであり,システム固有の情報を含まないことを示唆する。 ほとんどの固有ベクトルでは、ランダム性仮説は否定できず、最大の特異値に属する固有ベクトルだけがrmt予測から逸脱し、それらが学習情報をエンコードできることを示している。 本研究では,そのような大きな特異値のスペクトル分布をヒル推定器を用いて解析し,その分布が尾指数で特徴づけられないこと,すなわちパワーロー型ではないことを発見した。

Neural networks have been used successfully in a variety of fields, which has led to a great deal of interest in developing a theoretical understanding of how they store the information needed to perform a particular task. We study the weight matrices of trained deep neural networks using methods from random matrix theory (RMT) and show that the statistics of most of the singular values follow universal RMT predictions. This suggests that they are random and do not contain system specific information, which we investigate further by comparing the statistics of eigenvector entries to the universal Porter-Thomas distribution. We find that for most eigenvectors the hypothesis of randomness cannot be rejected, and that only eigenvectors belonging to the largest singular values deviate from the RMT prediction, indicating that they may encode learned information. We analyze the spectral distribution of such large singular values using the Hill estimator and find that the distribution cannot be characterized by a tail index, i.e. is not of power law type.
翻訳日:2022-03-29 13:45:03 公開日:2022-03-28
# (参考訳) 動的マルチタスクアーキテクチャの制御

Controllable Dynamic Multi-Task Architectures ( http://arxiv.org/abs/2203.14949v1 )

ライセンス: CC BY 4.0
Dripta S. Raychaudhuri, Yumin Suh, Samuel Schulter, Xiang Yu, Masoud Faraki, Amit K. Roy-Chowdhury, Manmohan Chandraker(参考訳) マルチタスク学習は一般的に、特にモデル能力が制限された場合、タスク間のリソースの競合に遭遇する。 この課題は、推論時間中にタスクの相対的重要性と計算コスト全体を制御できるモデルにモチベーションを与える。 本研究では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる,制御可能なマルチタスクネットワークを提案する。 固定アーキテクチャ内の重みのみを調整する既存の動的マルチタスクアプローチとは対照的に,本手法は計算コストを動的に制御し,ユーザ優先のタスク重要度に適合させることができる。 本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。 PASCAL-Context、NYU-v2、CIFAR-100の3つのマルチタスクベンチマーク実験は、我々のアプローチの有効性を示している。 プロジェクトページはhttps://www.nec-labs.com/~mas/dymu。

Multi-task learning commonly encounters competition for resources among tasks, specifically when model capacity is limited. This challenge motivates models which allow control over the relative importance of tasks and total compute cost during inference time. In this work, we propose such a controllable multi-task network that dynamically adjusts its architecture and weights to match the desired task preference as well as the resource constraints. In contrast to the existing dynamic multi-task approaches that adjust only the weights within a fixed architecture, our approach affords the flexibility to dynamically control the total computational cost and match the user-preferred task importance better. We propose a disentangled training of two hypernetworks, by exploiting task affinity and a novel branching regularized loss, to take input preferences and accordingly predict tree-structured models with adapted weights. Experiments on three multi-task benchmarks, namely PASCAL-Context, NYU-v2, and CIFAR-100, show the efficacy of our approach. Project page is available at https://www.nec-labs.com/~mas/DYMU.
翻訳日:2022-03-29 13:43:21 公開日:2022-03-28
# 敗血症早期予知のための生理的時系列と臨床ノートの統合

Integrating Physiological Time Series and Clinical Notes with Transformer for Early Prediction of Sepsis ( http://arxiv.org/abs/2203.14469v1 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao, Rachael Callcut, Linda Petzold(参考訳) セプシスはICU(Intensive Care Units)の主要な死因である。 敗血症の早期発見は患者の生存に重要である。 本稿では,icu導入後36時間以内に各患者に対する生理的時系列データと臨床ノートを用いて,早期敗血症予測のためのマルチモーダルトランスフォーマーモデルを提案する。 具体的には,最初の12時間,18時間,24時間,30時間,36時間の検査,バイタルサイン,患者人口統計,臨床ノートのみを用いて敗血症を予測することを目的とした。 我々は、MIMIC-IIIとeICU-CRDの2つの大きなクリティカルケアデータセットでモデルを評価する。 提案手法は6つのベースラインと比較した。 さらに, 各モデルの個々の成分の影響と, 早期敗血症予測に対する各データモダリティの寄与について, アブレーション分析およびケーススタディを行った。 提案手法の有効性を実証し,全測定値の競合ベースラインを上回った。

Sepsis is a leading cause of death in the Intensive Care Units (ICU). Early detection of sepsis is critical for patient survival. In this paper, we propose a multimodal Transformer model for early sepsis prediction, using the physiological time series data and clinical notes for each patient within $36$ hours of ICU admission. Specifically, we aim to predict sepsis using only the first 12, 18, 24, 30 and 36 hours of laboratory measurements, vital signs, patient demographics, and clinical notes. We evaluate our model on two large critical care datasets: MIMIC-III and eICU-CRD. The proposed method is compared with six baselines. In addition, ablation analysis and case studies are conducted to study the influence of each individual component of the model and the contribution of each data modality for early sepsis prediction. Experimental results demonstrate the effectiveness of our method, which outperforms competitive baselines on all metrics.
翻訳日:2022-03-29 13:41:58 公開日:2022-03-28
# 多変量時系列分類における変圧器効率の向上

Enhancing Transformer Efficiency for Multivariate Time Series Classification ( http://arxiv.org/abs/2203.14472v1 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao, Linda Petzold(参考訳) 現在の多変量時系列(MTS)分類アルゴリズムは、予測精度の向上に重点を置いている。 しかし、大規模な(高次元または長周期の)時系列データセットには、トレーニング時間やメモリフットプリントなどの計算コストを削減するための効率的なネットワークアーキテクチャを設計する、という別の考慮がある。 本研究では,モジュールワイドプルーニングとパレート解析に基づく手法を提案し,モデル効率と精度,複雑さの関係について検討する。 ベンチマークMSSデータセットの総合実験により,本手法の有効性が示された。

Most current multivariate time series (MTS) classification algorithms focus on improving the predictive accuracy. However, for large-scale (either high-dimensional or long-sequential) time series (TS) datasets, there is an additional consideration: to design an efficient network architecture to reduce computational costs such as training time and memory footprint. In this work we propose a methodology based on module-wise pruning and Pareto analysis to investigate the relationship between model efficiency and accuracy, as well as its complexity. Comprehensive experiments on benchmark MTS datasets illustrate the effectiveness of our method.
翻訳日:2022-03-29 13:41:36 公開日:2022-03-28
# ニューラルネットワークカーネルの実践的視点から考える:トレーニングなしでニューラルネットワーク検索を信頼できるか?

Demystifying the Neural Tangent Kernel from a Practical Perspective: Can it be trusted for Neural Architecture Search without training? ( http://arxiv.org/abs/2203.14577v1 )

ライセンス: Link先を確認
Jisoo Mok, Byunggook Na, Ji-Hoon Kim, Dongyoon Han, Sungroh Yoon(参考訳) ニューラルアーキテクチャサーチ(NAS)では、アーキテクチャ評価のコスト削減が依然として最も重要な課題である。 ニューラルタンジェントカーネル(NTK)は、各候補アーキテクチャのトレーニングを回避して評価に収束させる努力の中で、初期化時のニューラルアーキテクチャのパフォーマンスを見積もることができる有望な理論フレームワークとして登場している。 本研究では、NTKから導出できるいくつかの初期化メトリクスを再検討し、その重要な欠点を明らかにする。 そして、NTKの時間進化の実証分析により、現代のニューラルアーキテクチャは高い非線形特性を示しており、NTKベースのメトリクスは、ある程度のトレーニングをすることなく、アーキテクチャのパフォーマンスを確実に見積もることができる。 このような非線形特性を考慮に入れながら,現代のニューラルアーキテクチャに存在する多くの非線形優位性を捉えることができるNTKベースの新しい計量であるLGA(Label-Gradient Alignment)を導入する。 最小限のトレーニング量で、LGAはアーキテクチャのトレーニング後のテスト精度と有意義なレベルのランク相関を得る。 最後に、LGAが学習のエポックを補うことで、既存の検索アルゴリズムを誘導し、検索コストを大幅に削減して競合する検索性能を実現することを実証した。 コードはhttps://github.com/nutellamok/demystifyingntkで入手できる。

In Neural Architecture Search (NAS), reducing the cost of architecture evaluation remains one of the most crucial challenges. Among a plethora of efforts to bypass training of each candidate architecture to convergence for evaluation, the Neural Tangent Kernel (NTK) is emerging as a promising theoretical framework that can be utilized to estimate the performance of a neural architecture at initialization. In this work, we revisit several at-initialization metrics that can be derived from the NTK and reveal their key shortcomings. Then, through the empirical analysis of the time evolution of NTK, we deduce that modern neural architectures exhibit highly non-linear characteristics, making the NTK-based metrics incapable of reliably estimating the performance of an architecture without some amount of training. To take such non-linear characteristics into account, we introduce Label-Gradient Alignment (LGA), a novel NTK-based metric whose inherent formulation allows it to capture the large amount of non-linear advantage present in modern neural architectures. With minimal amount of training, LGA obtains a meaningful level of rank correlation with the post-training test accuracy of an architecture. Lastly, we demonstrate that LGA, complemented with few epochs of training, successfully guides existing search algorithms to achieve competitive search performances with significantly less search cost. The code is available at: https://github.com/nutellamok/DemystifyingNTK.
翻訳日:2022-03-29 13:41:26 公開日:2022-03-28
# 双方向分散によるリスク正則化

Risk regularization through bidirectional dispersion ( http://arxiv.org/abs/2203.14434v1 )

ライセンス: Link先を確認
Matthew J. Holland(参考訳) 多くの「リスク」の概念(CVaR、エントロピーリスク、DROリスクなど)が提案され研究されているが、これらのリスクは少なくとも上面の尾を失う平均値と同じくらい敏感であり、下面の偏差を無視する傾向にある。 本研究では,従来の平均分散よりもテール感度の柔軟性が高く,計算や解析の容易性を犠牲にすることなく,双方向的に損失偏差を罰する新たなリスククラスについて検討した。

Many alternative notions of "risk" (e.g., CVaR, entropic risk, DRO risk) have been proposed and studied, but these risks are all at least as sensitive as the mean to loss tails on the upside, and tend to ignore deviations on the downside. In this work, we study a complementary new risk class that penalizes loss deviations in a bidirectional manner, while having more flexibility in terms of tail sensitivity than is offered by classical mean-variance, without sacrificing computational or analytical tractability.
翻訳日:2022-03-29 13:38:48 公開日:2022-03-28
# マルチアウトプットガウス過程におけるsafe active learning

Safe Active Learning for Multi-Output Gaussian Processes ( http://arxiv.org/abs/2203.14849v1 )

ライセンス: Link先を確認
Cen-You Li, Barbara Rakitsch, Christoph Zimmer(参考訳) 多出力回帰問題は科学や工学でよく見られる。 特に、多重出力ガウス過程は、固有相関を活用し、信頼性の高い不確実性推定を提供するため、これらの複雑なシステムをモデリングするための有望なツールとして現れてきた。 しかし、多くのアプリケーションでは、データ取得は高価であり、安全性の懸念(ロボティクス、エンジニアリングなど)が発生する可能性がある。 マルチ出力ガウス過程回帰に対する安全な能動学習手法を提案する。 このアプローチは、回帰器と安全制約を考慮に入れた最も情報性の高いデータや出力をクエリする。 本手法は,理論解析を行い,シミュレーションデータセットと実世界のエンジニアリングデータセット上で実験結果を示すことにより,その効果を実証する。 すべてのデータセットにおいて、我々のアプローチは、競合他社と比較して収束性が改善されている。

Multi-output regression problems are commonly encountered in science and engineering. In particular, multi-output Gaussian processes have been emerged as a promising tool for modeling these complex systems since they can exploit the inherent correlations and provide reliable uncertainty estimates. In many applications, however, acquiring the data is expensive and safety concerns might arise (e.g. robotics, engineering). We propose a safe active learning approach for multi-output Gaussian process regression. This approach queries the most informative data or output taking the relatedness between the regressors and safety constraints into account. We prove the effectiveness of our approach by providing theoretical analysis and by demonstrating empirical results on simulated datasets and on a real-world engineering dataset. On all datasets, our approach shows improved convergence compared to its competitors.
翻訳日:2022-03-29 13:38:37 公開日:2022-03-28
# 時間不均質拡散幾何学と位相

Time-inhomogeneous diffusion geometry and topology ( http://arxiv.org/abs/2203.14860v1 )

ライセンス: Link先を確認
Guillaume Huguet, Alexander Tong, Bastian Rieck, Jessie Huang, Manik Kuchroo, Matthew Hirn, Guy Wolf, Smita Krishnaswamy(参考訳) 拡散凝縮(distribution condensation)は、意味のある抽象化をエンコードすることを目的とした、多スケールのデータ表現のシーケンスを生成する動的プロセスである。 多様体学習、復調、クラスタリング、高次元データの可視化に有効であることが証明されている。 拡散凝縮は、各ステップがまず計算し、次に拡散演算子をデータに適用する時間不均一なプロセスとして構成される。 我々はこの過程の収束と進化を幾何学的、スペクトル的、位相的観点から理論的に分析する。 幾何学的な観点からは、最小の遷移確率とデータの半径に基づいて収束境界を得るが、スペクトル的な観点では、我々の境界は拡散核の固有スペクトルに基づいている。 データ拡散に関する文献のほとんどは均質なプロセスに焦点を当てているため、我々のスペクトル結果は特に興味深い。 トポロジカルな視点から、拡散凝縮はセントロイドに基づく階層的クラスタリングを一般化する。 この視点を用いて,データポイント数に基づくバウンダリを,その位置とは無関係に取得する。 収束を超えたデータ幾何学の進化を理解するために、トポロジカルデータ解析を用いる。 凝縮過程自体が内在的拡散ホモロジーを定義することを示した。 この内在的トポロジと環境的トポロジを用いて拡散時間とともにデータがどのように変化するかを研究する。 両ホモロジーをよく理解されたおもちゃの例で示す。 本研究は拡散凝縮の収束に関する理論的知見を与え,位相的データ解析と幾何学的データ解析の関係を示す。

Diffusion condensation is a dynamic process that yields a sequence of multiscale data representations that aim to encode meaningful abstractions. It has proven effective for manifold learning, denoising, clustering, and visualization of high-dimensional data. Diffusion condensation is constructed as a time-inhomogeneous process where each step first computes and then applies a diffusion operator to the data. We theoretically analyze the convergence and evolution of this process from geometric, spectral, and topological perspectives. From a geometric perspective, we obtain convergence bounds based on the smallest transition probability and the radius of the data, whereas from a spectral perspective, our bounds are based on the eigenspectrum of the diffusion kernel. Our spectral results are of particular interest since most of the literature on data diffusion is focused on homogeneous processes. From a topological perspective, we show diffusion condensation generalizes centroid-based hierarchical clustering. We use this perspective to obtain a bound based on the number of data points, independent of their location. To understand the evolution of the data geometry beyond convergence, we use topological data analysis. We show that the condensation process itself defines an intrinsic diffusion homology. We use this intrinsic topology as well as an ambient topology to study how the data changes over diffusion time. We demonstrate both homologies in well-understood toy examples. Our work gives theoretical insights into the convergence of diffusion condensation, and shows that it provides a link between topological and geometric data analysis.
翻訳日:2022-03-29 13:38:24 公開日:2022-03-28
# 確率的球面判別分析:長さ正規化埋め込みにおけるPLDAの代替

Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings ( http://arxiv.org/abs/2203.14893v1 )

ライセンス: Link先を確認
Niko Br\"ummer, Albert Swart, Ladislav Mo\v{s}ner, Anna Silnova, Old\v{r}ich Plchot, Themos Stafylakis and Luk\'a\v{s} Burget(参考訳) 話者認識では、音声セグメントを単位超球面上の埋め込みにマッピングすると、2つのスコアリングバックエンドが一般的に使用される。 両方の利点とデメリットは、状況によって異なります。 コサインのスコアリングは球形形状から自然に従うが、PLDAでは祝福は混合される - 長さ正規化は話者間分布をガウシアン化するが、話者非依存の話者内分布の仮定に反する。 我々は超球面上の Von Mises-Fisher 分布をクラス内分布とクラス間分布の両方に用いた PLDA の類似体 PSDA を提案する。 この分布の自己共役性がクローズドフォームの確率-比スコアをどのように与えるかを示し,得点時にpldaの代替となることを示す。 シングルエンロールとマルチエンロールの検証に加えて、クラスタリングやダイアリゼーションに使用できるより複雑な可能性比など、あらゆる種類の試行結果を得ることができる。 学習は、クローズドフォームの更新を伴うEM-algorithmを通じて行われる。 モデルを説明し,最初の実験を行った。

In speaker recognition, where speech segments are mapped to embeddings on the unit hypersphere, two scoring backends are commonly used, namely cosine scoring or PLDA. Both have advantages and disadvantages, depending on the context. Cosine scoring follows naturally from the spherical geometry, but for PLDA the blessing is mixed -- length normalization Gaussianizes the between-speaker distribution, but violates the assumption of a speaker-independent within-speaker distribution. We propose PSDA, an analogue to PLDA that uses Von Mises-Fisher distributions on the hypersphere for both within and between-class distributions. We show how the self-conjugacy of this distribution gives closed-form likelihood-ratio scores, making it a drop-in replacement for PLDA at scoring time. All kinds of trials can be scored, including single-enroll and multi-enroll verification, as well as more complex likelihood-ratios that could be used in clustering and diarization. Learning is done via an EM-algorithm with closed-form updates. We explain the model and present some first experiments.
翻訳日:2022-03-29 13:38:02 公開日:2022-03-28
# 緩和ラベルがGANと出会う - 境界を逸脱したJigsawのパズルの解決

Relaxation Labeling Meets GANs: Solving Jigsaw Puzzles with Missing Borders ( http://arxiv.org/abs/2203.14428v1 )

ライセンス: Link先を確認
Marina Khoroshiltseva and Arianna Traviglia and Marcello Pelillo and Sebastiano Vascon(参考訳) 本稿では,GAN を用いた Jigsaw パズル解法である JiGAN を提案する。 例えば、壊れたアーティファクトや破壊されたフレスコ画の復元を扱う場合、境界の欠如は一般的な現実の状況である。 この状況では、パズルのピースは境界の隙間のために完全には一致せず、この状況ではパッチの直接一致は、色と線継続の欠如のために実現不可能である。 まず、GANベースの画像拡張モデルを用いて浸食境界を修復し、ピース間のアライメント親和性を測定する。次に、緩和ラベルアルゴリズムを用いてパズルを解き、ピース位置の整合性を強制し、パズルを再構築する。 提案手法は,小さなパズルの大規模なデータセットと3つの一般的なベンチマークデータセットを用いて,提案手法の有効性を実証する。

This paper proposes JiGAN, a GAN-based method for solving Jigsaw puzzles with eroded or missing borders. Missing borders is a common real-world situation, for example, when dealing with the reconstruction of broken artifacts or ruined frescoes. In this particular condition, the puzzle's pieces do not align perfectly due to the borders' gaps; in this situation, the patches' direct match is unfeasible due to the lack of color and line continuations. JiGAN, is a two-steps procedure that tackles this issue: first, we repair the eroded borders with a GAN-based image extension model and measure the alignment affinity between pieces; then, we solve the puzzle with the relaxation labeling algorithm to enforce consistency in pieces positioning, hence, reconstructing the puzzle. We test the method on a large dataset of small puzzles and on three commonly used benchmark datasets to demonstrate the feasibility of the proposed approach.
翻訳日:2022-03-29 13:35:36 公開日:2022-03-28
# KL発散(SAD-KL)に基づく半教師付き異常検出アルゴリズム

Semi-supervised anomaly detection algorithm based on KL divergence (SAD-KL) ( http://arxiv.org/abs/2203.14539v1 )

ライセンス: Link先を確認
Chong Hyun Lee, Kibae Lee(参考訳) ラベルなしデータは一般に、半教師付き学習による異常データ検出における正規データと推定される。 しかし、この仮定はラベル付き正規データセットの分布とラベル付きデータの分布が異なる場合、避けられない検出誤差を引き起こす。 ラベル付きデータとラベルなしデータの分散ギャップに起因する問題に対処するために,KL発散(SAD-KL)を用いた半教師付き異常検出アルゴリズムを提案する。 提案したSAD-KLは,(1) ラベル付き正規データと未ラベルデータとの局所外乱係数(LOF)の確率密度関数(PDF)のKL偏差を推定し,(2) KL偏差を用いてラベル付きデータ中の正規データを検出するための検出確率と閾値を推定する。 lofs の pdf はburr 分布に従い,検出に使用する。 しきい値が計算されると、SAD−KLは、ラベル変更率が予め定義されたしきい値よりも低いまで繰り返し実行される。 実験の結果,SAD-KLは学習時間が少なくても既存のアルゴリズムよりも優れた検出確率を示すことがわかった。

The unlabeled data are generally assumed to be normal data in detecting abnormal data via semisupervised learning. This assumption, however, causes inevitable detection error when distribution of unlabeled data is different from distribution of labeled normal dataset. To deal the problem caused by distribution gap between labeled and unlabeled data, we propose a semi-supervised anomaly detection algorithm using KL divergence (SAD-KL). The proposed SAD-KL is composed of two steps: (1) estimating KL divergence of probability density functions (PDFs) of the local outlier factors (LOFs) of the labeled normal data and the unlabeled data (2) estimating detection probability and threshold for detecting normal data in unlabeled data by using the KL divergence. We show that the PDFs of the LOFs follow Burr distribution and use them for detection. Once the threshold is computed, the SAD-KL runs iteratively until the labeling change rate is lower than the predefined threshold. Experiments results show that the SAD-KL shows superior detection probability over the existing algorithms even though it takes less learning time.
翻訳日:2022-03-29 13:35:18 公開日:2022-03-28
# 折りたたむか, 折りたたむか -バッチ・ノーマライゼーション層における必要十分条件-

To Fold or Not to Fold: a Necessary and Sufficient Condition on Batch-Normalization Layers Folding ( http://arxiv.org/abs/2203.14646v1 )

ライセンス: Link先を確認
Edouard Yvinec and Arnaud Dapogny and Kevin Bailly(参考訳) バッチ正規化(bn)層は、より複雑なディープニューラルネットワークアーキテクチャの基本コンポーネントとなっている。 このようなモデルはエッジデバイスにデプロイするために加速プロセスを必要とする。 しかし、BN層はシーケンシャルな演算処理によって計算のボトルネックを生じさせ、したがって加速プロセスの重要かつ見落とされがちな要素はBN層折り畳みである。 本稿では,現在のBN折り畳みアプローチが,何層を除去できるかという点で最適であることを示す。 したがって、BNフォールディングに必要な十分条件と対応する最適アルゴリズムを提供する。 提案手法は,既存のベースラインを体系的に上回り,ディープニューラルネットワークの推論時間を劇的に短縮する。

Batch-Normalization (BN) layers have become fundamental components in the evermore complex deep neural network architectures. Such models require acceleration processes for deployment on edge devices. However, BN layers add computation bottlenecks due to the sequential operation processing: thus, a key, yet often overlooked component of the acceleration process is BN layers folding. In this paper, we demonstrate that the current BN folding approaches are suboptimal in terms of how many layers can be removed. We therefore provide a necessary and sufficient condition for BN folding and a corresponding optimal algorithm. The proposed approach systematically outperforms existing baselines and allows to dramatically reduce the inference time of deep neural networks.
翻訳日:2022-03-29 13:34:54 公開日:2022-03-28
# 知識伝達の正規化のためのメタ機能学習フレームワーク

A Framework of Meta Functional Learning for Regularising Knowledge Transfer ( http://arxiv.org/abs/2203.14840v1 )

ライセンス: Link先を確認
Pan Li, Yanwei Fu and Shaogang Gong(参考訳) 機械学習分類器の能力は、利用可能なトレーニングデータの規模に大きく依存し、データキャリア学習タスクのモデルオーバーフィットによって制限される。 そこで本研究では,データリッチタスクから一般化可能な関数モデルをメタ学習し,同時にデータキャリアタスクへの知識伝達を規則化するメタ機能学習(mfl)の新たな枠組みを提案する。 mflは、制限されたラベル付きデータに対する機能訓練が学習すべきより識別機能を促進する異なる学習タスクに一般化可能な機能正規化に関するメタ知識を計算する。 本枠組みに基づいて, 補助プロトタイプによる機能学習を行うMFLと, 機能空間と表現空間の両方から知識を伝達するComposite MFL(ComMFL)と, 知識伝達における機能正規化を段階的に学習することで, MFLからの知識伝達規則化を改善するMFL-IU(Iterative Updates)の3つの変種を定式化する。 さらに,バイナリ分類器から複数分類器への知識転送規則化のために,これらの変種を一般化する。 FSL(Few-Shot Learning)とCD-FSL(Cross-Domain Few-Shot Learning)の2つの事例において,知識伝達規則化のためのメタ関数学習がFSL分類法を改善することを示す。

Machine learning classifiers' capability is largely dependent on the scale of available training data and limited by the model overfitting in data-scarce learning tasks. To address this problem, this work proposes a novel framework of Meta Functional Learning (MFL) by meta-learning a generalisable functional model from data-rich tasks whilst simultaneously regularising knowledge transfer to data-scarce tasks. The MFL computes meta-knowledge on functional regularisation generalisable to different learning tasks by which functional training on limited labelled data promotes more discriminative functions to be learned. Based on this framework, we formulate three variants of MFL: MFL with Prototypes (MFL-P) which learns a functional by auxiliary prototypes, Composite MFL (ComMFL) that transfers knowledge from both functional space and representational space, and MFL with Iterative Updates (MFL-IU) which improves knowledge transfer regularisation from MFL by progressively learning the functional regularisation in knowledge transfer. Moreover, we generalise these variants for knowledge transfer regularisation from binary classifiers to multi-class classifiers. Extensive experiments on two few-shot learning scenarios, Few-Shot Learning (FSL) and Cross-Domain Few-Shot Learning (CD-FSL), show that meta functional learning for knowledge transfer regularisation can improve FSL classifiers.
翻訳日:2022-03-29 13:34:40 公開日:2022-03-28
# 帰属型視覚類似学習

Attributable Visual Similarity Learning ( http://arxiv.org/abs/2203.14932v1 )

ライセンス: Link先を確認
Borui Zhang, Wenzhao Zheng, Jie Zhou, Jiwen Lu(参考訳) 本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。 既存の類似性学習法は、各サンプルを距離計量(例えばマハラノビス距離、ユークリッド距離)で埋め込み空間内の1つの点にマッピングすることで説明不能を悪化させる。 本研究では,人間の意味的類似性認知に動機づけられ,グラフを用いた2つの画像間の類似性を表現する汎用的類似性学習パラダイムを提案する。 さらに,ボトムアップ相似性構築とトップダウン相似性推論フレームワークを構築し,意味階層一貫性に基づく相似性を推定する。 まず,信頼できない高レベル類似性ノードを特定し,最も一貫性の低い隣接低レベル類似性ノードを用いて修正する。 CUB-200-2011、Cars196、Stanford Online Productsデータセットの大規模な実験は、既存の深い類似性学習法を大幅に改善し、我々のフレームワークの解釈可能性を検証する。 コードはhttps://github.com/zbr17/AVSL.comで入手できる。

This paper proposes an attributable visual similarity learning (AVSL) framework for a more accurate and explainable similarity measure between images. Most existing similarity learning methods exacerbate the unexplainability by mapping each sample to a single point in the embedding space with a distance metric (e.g., Mahalanobis distance, Euclidean distance). Motivated by the human semantic similarity cognition, we propose a generalized similarity learning paradigm to represent the similarity between two images with a graph and then infer the overall similarity accordingly. Furthermore, we establish a bottom-up similarity construction and top-down similarity inference framework to infer the similarity based on semantic hierarchy consistency. We first identify unreliable higher-level similarity nodes and then correct them using the most coherent adjacent lower-level similarity nodes, which simultaneously preserve traces for similarity attribution. Extensive experiments on the CUB-200-2011, Cars196, and Stanford Online Products datasets demonstrate significant improvements over existing deep similarity learning methods and verify the interpretability of our framework. Code is available at https://github.com/zbr17/AVSL.
翻訳日:2022-03-29 13:34:12 公開日:2022-03-28
# (参考訳) Siamese Networks と Label Tuning を用いたFew-Shot Learning

Few-Shot Learning with Siamese Networks and Label Tuning ( http://arxiv.org/abs/2203.14655v1 )

ライセンス: CC BY 4.0
Thomas M\"uller and Guillermo P\'erez-Torr\'o and Marc Franco-Salvador(参考訳) 学習データが少ないか全くないテキスト分類器(ゼロとマイショットテキスト分類)を構築する問題について検討する。 近年、ニューラルテキストエンターメントモデルに基づくアプローチは、様々なタスクに対して強力な結果をもたらすことが発見されている。 本研究では,適切な事前学習を行うことで,テキストやラベルを埋め込んだシャムネットワークが競争的な代替手段となることを示す。 これらのモデルは推論コストの大幅な削減を可能にする: 線形ではなくラベルの数に一定である。 さらに,ラベルの埋め込みだけを変えることで,数ショットのセットアップでモデルを適応できる,シンプルで計算効率のよい手法であるラベルチューニングを導入する。 モデルファインチューニングよりもパフォーマンスが低い一方で、このアプローチは単一のエンコーダをさまざまなタスクで共有できるというアーキテクチャ上の利点がある。

We study the problem of building text classifiers with little or no training data, commonly known as zero and few-shot text classification. In recent years, an approach based on neural textual entailment models has been found to give strong results on a diverse range of tasks. In this work, we show that with proper pre-training, Siamese Networks that embed texts and labels offer a competitive alternative. These models allow for a large reduction in inference cost: constant in the number of labels rather than linear. Furthermore, we introduce label tuning, a simple and computationally efficient approach that allows to adapt the models in a few-shot setup by only changing the label embeddings. While giving lower performance than model fine-tuning, this approach has the architectural advantage that a single encoder can be shared by many different tasks.
翻訳日:2022-03-29 13:31:57 公開日:2022-03-28
# 大規模バイリンガル言語画像コントラスト学習

Large-scale Bilingual Language-Image Contrastive Learning ( http://arxiv.org/abs/2203.14463v1 )

ライセンス: Link先を確認
Byungsoo Ko, Geonmo Gu(参考訳) 本稿では,韓国語と英語のバイリンガル・マルチモーダルモデルを構築した経験と知見について報告する。 多くのマルチモーダルデータセットは、英語と多言語マルチモーダル研究に集中しているが、機械翻訳されたテキストは、英語以外の言語で固有の表現、文化情報、固有名詞を記述することに限定されている。 本研究では,11億枚の画像テキストペア(韓国語7800万,英語476万)を収集し,KELIPというバイリンガル・マルチモーダルモデルを訓練する。 maeプリトレーニングやマルチクロップ拡張など,単純かつ効果的なトレーニングスキームを導入する。 このようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示す。 さらに,マルチモーダル関連研究課題についても論じる。 1) 強増強に基づく手法は、適切なマルチモーダル関係の学習からモデルに注意をそらすことができる。 2) 言語間関係のないマルチモーダルモデルの訓練は,視覚意味論を通じて関係を学習することができる。 3) 両言語のケリップは,単語の同じ意味の視覚意味の文化的差異を捉えることができる。 4) 大規模マルチモーダルモデルは、マルチモーダル特徴アナロジーに使用できる。 この研究が今後の研究に有用な経験と知見をもたらすことを願っています。 オープンソースの事前学習KELIPを提供する。

This paper is a technical report to share our experience and findings building a Korean and English bilingual multimodal model. While many of the multimodal datasets focus on English and multilingual multimodal research uses machine-translated texts, employing such machine-translated texts is limited to describing unique expressions, cultural information, and proper noun in languages other than English. In this work, we collect 1.1 billion image-text pairs (708 million Korean and 476 million English) and train a bilingual multimodal model named KELIP. We introduce simple yet effective training schemes, including MAE pre-training and multi-crop augmentation. Extensive experiments demonstrate that a model trained with such training schemes shows competitive performance in both languages. Moreover, we discuss multimodal-related research questions: 1) strong augmentation-based methods can distract the model from learning proper multimodal relations; 2) training multimodal model without cross-lingual relation can learn the relation via visual semantics; 3) our bilingual KELIP can capture cultural differences of visual semantics for the same meaning of words; 4) a large-scale multimodal model can be used for multimodal feature analogy. We hope that this work will provide helpful experience and findings for future research. We provide an open-source pre-trained KELIP.
翻訳日:2022-03-29 13:10:38 公開日:2022-03-28
# 3次元点雲分割用成層変圧器

Stratified Transformer for 3D Point Cloud Segmentation ( http://arxiv.org/abs/2203.14508v1 )

ライセンス: Link先を確認
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia(参考訳) 3Dポイントのクラウドセグメンテーションは、近年大きく進歩している。 現在のほとんどのメソッドは、ローカル機能の集約にフォーカスしているが、長距離依存関係を直接モデル化することができない。 本稿では,長距離の文脈をキャプチャし,強汎化能力と高性能を実現する階層化トランスを提案する。 具体的には,まず,新しいキーサンプリング戦略を提案する。 各問合せ点について,各問合せ点について,密集点と遠点をその鍵として疎結合にサンプリングし,有効受容場を拡大し,計算コストの低い長距離コンテキストを楽しめるようにした。 また,不規則な点配置によって生じる課題に対処するため,局所情報を集約する第1層点埋め込みを提案する。 また,位置情報を適応的に取得するために,文脈的相対位置符号化を採用する。 最後に、各ウィンドウにおける点数の変化の問題を克服するために、メモリ効率の高い実装が導入される。 S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す。 コードはhttps://github.com/dvlab-research/Stratified-Transformerで入手できる。

3D point cloud segmentation has made tremendous progress in recent years. Most current methods focus on aggregating local features, but fail to directly model long-range dependencies. In this paper, we propose Stratified Transformer that is able to capture long-range contexts and demonstrates strong generalization ability and high performance. Specifically, we first put forward a novel key sampling strategy. For each query point, we sample nearby points densely and distant points sparsely as its keys in a stratified way, which enables the model to enlarge the effective receptive field and enjoy long-range contexts at a low computational cost. Also, to combat the challenges posed by irregular point arrangements, we propose first-layer point embedding to aggregate local information, which facilitates convergence and boosts performance. Besides, we adopt contextual relative position encoding to adaptively capture position information. Finally, a memory-efficient implementation is introduced to overcome the issue of varying point numbers in each window. Extensive experiments demonstrate the effectiveness and superiority of our method on S3DIS, ScanNetv2 and ShapeNetPart datasets. Code is available at https://github.com/dvlab-research/Stratified-Transformer.
翻訳日:2022-03-29 13:06:49 公開日:2022-03-28
# 3次元医用画像に対する翻訳整合半教師付きセグメンテーション

Translation Consistent Semi-supervised Segmentation for 3D Medical Images ( http://arxiv.org/abs/2203.14523v1 )

ライセンス: Link先を確認
Yuyuan Liu, Yu Tian, Chong Wang, Yuanhong Chen, Fengbei Liu, Vasileios Belagiannis, Gustavo Carneiro(参考訳) 3次元医用画像分割法は成功したが、大量のボクセルレベルのアノテートデータに依存しているため、そのようなアノテーションを得るのに高いコストがかかるため、対処する必要がある。 半教師付き学習(SSL)は、大きなラベル付きデータセットと小さなラベル付きデータセットでモデルをトレーニングすることで、この問題を解決する。 最も成功したSSLアプローチは、乱れのないデータの摂動ビューから得られたモデル応答間の距離を最小化する一貫性学習に基づいている。 これらの摂動は通常、ビュー間の空間的な入力コンテキストを一定に保つため、モデルがセグメント化されたオブジェクトの代わりに空間的な入力コンテキストからセグメント化パターンを学習する可能性がある。 本稿では、空間的な入力コンテキストを変化させることで、入力データビューを摂動する一貫性学習SSL手法であるTranslation Consistent Co-training(TraCoCo)を紹介し、視覚オブジェクトからセグメンテーションパターンを学習できるようにする。 さらに, 一般用平均二乗誤差 (MSE) の半教師付き損失を, 新しいクロスモデル自信を持つバイナリクロスエントロピー (CBC) 損失に置き換えることを提案する。 また、一般化をさらに改善するために、CutMixの拡張を3D SSLに拡張します。 我々のTrCoCoは、異なるバックボーンを持つ左房(LA)と脳腫瘍分離(BRaTS19)データセットの最先端の結果を示しています。 私たちのコードはhttps://github.com/yyliu01/TraCoCoで利用可能です。

3D medical image segmentation methods have been successful, but their dependence on large amounts of voxel-level annotated data is a disadvantage that needs to be addressed given the high cost to obtain such annotation. Semi-supervised learning (SSL) solve this issue by training models with a large unlabelled and a small labelled dataset. The most successful SSL approaches are based on consistency learning that minimises the distance between model responses obtained from perturbed views of the unlabelled data. These perturbations usually keep the spatial input context between views fairly consistent, which may cause the model to learn segmentation patterns from the spatial input contexts instead of the segmented objects. In this paper, we introduce the Translation Consistent Co-training (TraCoCo) which is a consistency learning SSL method that perturbs the input data views by varying their spatial input context, allowing the model to learn segmentation patterns from visual objects. Furthermore, we propose the replacement of the commonly used mean squared error (MSE) semi-supervised loss by a new Cross-model confident Binary Cross entropy (CBC) loss, which improves training convergence and keeps the robustness to co-training pseudo-labelling mistakes. We also extend CutMix augmentation to 3D SSL to further improve generalisation. Our TraCoCo shows state-of-the-art results for the Left Atrium (LA) and Brain Tumor Segmentation (BRaTS19) datasets with different backbones. Our code is available at https://github.com/yyliu01/TraCoCo.
翻訳日:2022-03-29 13:06:30 公開日:2022-03-28
# CenterLoc3D:道路監視カメラのための単眼3D車両位置決めネットワーク

CenterLoc3D: Monocular 3D Vehicle Localization Network for Roadside Surveillance Cameras ( http://arxiv.org/abs/2203.14550v1 )

ライセンス: Link先を確認
Tang Xinyao and Song Huansheng and Wang Wei and Zhao Chunhui(参考訳) 知的輸送システム(its)および協調車両インフラシステム(cvis)において、単眼3d車両の局在化は重要な課題であり、通常単眼3d車両検出によって達成される。 しかし、内在的な撮像機構のため、単眼カメラでは深度情報は直接取得できないため、より難しい単眼3d作業となる。 現在のモノクル3D車両検出法のほとんどは、2D検出器と追加の幾何学モジュールを活用し、効率を低下させる。 本論文では,2次元検出器を用いない3次元バウンディングボックスの次元と画像空間における遠心および8つの頂点を直接予測する,路面単眼カメラのための3次元車両位置決めネットワークである centerloc3dを提案する。 本研究では,3次元車両位置決めの精度を向上させるために,重み付き融合モジュールとCenterLoc3Dに空間制約を埋め込んだ損失を提案する。 まず、2次元画像空間と3次元世界空間との変換行列をカメラキャリブレーションにより解決する。 第2に、CenterLoc3Dにより、車種、センタロイド、8頂点および3次元車両バウンディングボックスの寸法を求める。 最後に、カメラキャリブレーションとセンターloc3dにより3dワールド空間のセンタロイドを得ることができ、3d車両のローカライズが可能となる。 私たちの知る限りでは、これは路面単眼カメラに対する3d車両のローカライズの最初の応用である。 そこで本アプリケーションでは,データセット(SVLD-3D),アノテーションツール(LabelImg-3D),評価指標などのベンチマークも提案する。 実験により,提案手法は高精度かつリアルタイムな性能を実現する。

Monocular 3D vehicle localization is an important task in Intelligent Transportation System (ITS) and Cooperative Vehicle Infrastructure System (CVIS), which is usually achieved by monocular 3D vehicle detection. However, depth information cannot be obtained directly by monocular cameras due to the inherent imaging mechanism, resulting in more challenging monocular 3D tasks. Most of the current monocular 3D vehicle detection methods leverage 2D detectors and additional geometric modules, which reduces the efficiency. In this paper, we propose a 3D vehicle localization network CenterLoc3D for roadside monocular cameras, which directly predicts centroid and eight vertexes in image space, and dimension of 3D bounding boxes without 2D detectors. In order to improve the precision of 3D vehicle localization, we propose a weighted-fusion module and a loss with spatial constraints embedding in CenterLoc3D. Firstly, the transformation matrix between 2D image space and 3D world space is solved by camera calibration. Secondly, vehicle type, centroid, eight vertexes and dimension of 3D vehicle bounding boxes are obtained by CenterLoc3D. Finally, centroid in 3D world space can be obtained by camera calibration and CenterLoc3D for 3D vehicle localization. To the best of our knowledge, this is the first application of 3D vehicle localization for roadside monocular cameras. Hence, we also propose a benchmark for this application including dataset (SVLD-3D), annotation tool (LabelImg-3D) and evaluation metrics. Through experimental validation, the proposed method achieves high accuracy and real-time performance.
翻訳日:2022-03-29 13:06:01 公開日:2022-03-28
# wsebp:多層畳み込みスパース符号化のための新しい幅深度同期拡張ベース追従アルゴリズム

WSEBP: A Novel Width-depth Synchronous Extension-based Basis Pursuit Algorithm for Multi-Layer Convolutional Sparse Coding ( http://arxiv.org/abs/2203.14856v1 )

ライセンス: Link先を確認
Haitong Tang, Shuang He, Lingbing Bian, Zhiming Cui, Nizhuan Wang(参考訳) 多層畳み込みスパース符号化(ML-CSC)に組み込まれた追従アルゴリズムは、畳み込みニューラルネットワーク(CNN)を解釈することができる。 しかし、ML-CSCのソリューションを最適化するためには、多くの現在の最先端(SOTA)追従アルゴリズムが複数のイテレーションを必要とする。 本研究では,ML-CSCの解法を改善するため,各層に対して効率的な初期化戦略を導入することにより,探索アルゴリズムにおける0番目の繰り返しに着目した。 具体的には,somaアルゴリズムと比較して,反復数を制限せずにml-csc問題を解き,各層における効果的な初期化による性能を最大化する,新しい幅深度同期拡張ベース基底追従法(wsebp)を提案する。 そこで我々は,ML-CSCをベースとした特徴エンコーダと,画像分類タスクにおけるWSEBPの性能を評価するための完全接続層からなる,シンプルで統一的なML-CSCベースの分類ネットワーク(ML-CSC-Net)を提案する。 実験の結果,提案する WSEBP は精度と消費資源の点で SOTA アルゴリズムより優れていることがわかった。 さらに、CNNに統合されたWSEBPは、より深いCNNの性能を改善し、それらを解釈できるようにする。 最後に、VGGを例として、VGG13の性能を高めるためにWSEBP-VGG13を提案する。これは、4つのパブリックデータセット、すなわちCifar-10データセットで87.79%対86.83%、Cifar-100データセットで58.01%対54.60%、COVID-19データセットで91.52%対89.58%、スクラッチデータセットで99.88%対99.78%である。 その結果,提案した WSEBP の有効性,WSEBP を用いた ML-CSC の性能向上,CNN やより深い CNN の解釈が示された。

The pursuit algorithms integrated in multi-layer convolutional sparse coding (ML-CSC) can interpret the convolutional neural networks (CNNs). However, many current state-of-art (SOTA) pursuit algorithms require multiple iterations to optimize the solution of ML-CSC, which limits their applications to deeper CNNs due to high computational cost and large number of resources for getting very tiny gain of performance. In this study, we focus on the 0th iteration in pursuit algorithm by introducing an effective initialization strategy for each layer, by which the solution for ML-CSC can be improved. Specifically, we first propose a novel width-depth synchronous extension-based basis pursuit (WSEBP) algorithm which solves the ML-CSC problem without the limitation of the number of iterations compared to the SOTA algorithms and maximizes the performance by an effective initialization in each layer. Then, we propose a simple and unified ML-CSC-based classification network (ML-CSC-Net) which consists of an ML-CSC-based feature encoder and a fully-connected layer to validate the performance of WSEBP on image classification task. The experimental results show that our proposed WSEBP outperforms SOTA algorithms in terms of accuracy and consumption resources. In addition, the WSEBP integrated in CNNs can improve the performance of deeper CNNs and make them interpretable. Finally, taking VGG as an example, we propose WSEBP-VGG13 to enhance the performance of VGG13, which achieves competitive results on four public datasets, i.e., 87.79% vs. 86.83% on Cifar-10 dataset, 58.01% vs. 54.60% on Cifar-100 dataset, 91.52% vs. 89.58% on COVID-19 dataset, and 99.88% vs. 99.78% on Crack dataset, respectively. The results show the effectiveness of the proposed WSEBP, the improved performance of ML-CSC with WSEBP, and interpretation of the CNNs or deeper CNNs.
翻訳日:2022-03-29 13:05:35 公開日:2022-03-28
# (参考訳) インクリメンタルラーニングのためのエネルギーベース潜在アリグナー

Energy-based Latent Aligner for Incremental Learning ( http://arxiv.org/abs/2203.14952v1 )

ライセンス: CC BY 4.0
K J Joseph, Salman Khan, Fahad Shahbaz Khan, Rao Muhammad Anwer, Vineeth N Balasubramanian(参考訳) ディープラーニングモデルは、新しいタスクを段階的に学習しながら、初期の知識を忘れがちです。 新しいタスクに最適化されたパラメータ更新は、古いタスクに適した更新と一致しない可能性があるため、この振る舞いが生まれます。 遅延表現ミスマッチの結果、忘れてしまう。 本研究は,ELI:Energy-based Latent Aligner for Incremental Learningを提案する。これはまず,従来のタスクラジェントが低エネルギーで,現在のタスクラジェントが高エネルギー値を持つような潜在表現のためのエネルギー多様体を学習する。 この学習多様体は、漸進学習中に起こる表現シフトに対抗するために用いられる。 提案手法が提案する暗黙の正規化は,既存の漸進学習手法におけるプラグアンドプレイモジュールとして利用することができる。 CIFAR-100, ImageNet サブセット, ImageNet 1k および Pascal VOC データセットの広範な評価によってこれを検証した。 クラス増分学習において,ELIが3つの重要な方法論に追加されると,複数の段階的な設定で一貫した改善が観察される。 さらに、最先端のインクリメンタルオブジェクト検出器に追加されると、ELIは検出精度を5%以上改善し、その有効性と既存の技術との相補的優位性を裏付ける。

Deep learning models tend to forget their earlier knowledge while incrementally learning new tasks. This behavior emerges because the parameter updates optimized for the new tasks may not align well with the updates suitable for older tasks. The resulting latent representation mismatch causes forgetting. In this work, we propose ELI: Energy-based Latent Aligner for Incremental Learning, which first learns an energy manifold for the latent representations such that previous task latents will have low energy and the current task latents have high energy values. This learned manifold is used to counter the representational shift that happens during incremental learning. The implicit regularization that is offered by our proposed methodology can be used as a plug-and-play module in existing incremental learning methodologies. We validate this through extensive evaluation on CIFAR-100, ImageNet subset, ImageNet 1k and Pascal VOC datasets. We observe consistent improvement when ELI is added to three prominent methodologies in class-incremental learning, across multiple incremental settings. Further, when added to the state-of-the-art incremental object detector, ELI provides over 5% improvement in detection accuracy, corroborating its effectiveness and complementary advantage to existing art.
翻訳日:2022-03-29 13:02:48 公開日:2022-03-28
# 知識蒸留:悪いモデルは良い役割モデルになり得る

Knowledge Distillation: Bad Models Can Be Good Role Models ( http://arxiv.org/abs/2203.14649v1 )

ライセンス: Link先を確認
Gal Kaplun, Eran Malach, Preetum Nakkiran, Shai Shalev-Shwartz(参考訳) 過パラメータ構造で訓練された大規模ニューラルネットワークは、ノイズをゼロの列車誤差に適合させることができる。 最近の研究である \citep{nakkiran2020distributional} は、そのようなネットワークがノイズの分布から「条件付きサンプリング」として振る舞うことを経験的に観察している。 つまり、列車データのノイズを再現して、見当たらない例を作るのです。 この条件付サンプリング挙動を学習理論の文脈で研究するための理論的枠組みを提案する。 本稿では,学生ネットワークが教師の出力をラベルのないデータで模倣する,知識蒸留の概念について述べる。 サンプルは悪い分類器であるにもかかわらず、良い教師であることを示す。 具体的には,ベイズ最適分類器を近似した学生を,サンプリング器からの蒸留が保証されることを実証する。 最後に、いくつかの一般的な学習アルゴリズム(例えば、Nearest-NeighboursやKernel Machines)が、オーバーパラメータ化システムに適用した場合、サンプルを生成可能であることを示す。

Large neural networks trained in the overparameterized regime are able to fit noise to zero train error. Recent work \citep{nakkiran2020distributional} has empirically observed that such networks behave as "conditional samplers" from the noisy distribution. That is, they replicate the noise in the train data to unseen examples. We give a theoretical framework for studying this conditional sampling behavior in the context of learning theory. We relate the notion of such samplers to knowledge distillation, where a student network imitates the outputs of a teacher on unlabeled data. We show that samplers, while being bad classifiers, can be good teachers. Concretely, we prove that distillation from samplers is guaranteed to produce a student which approximates the Bayes optimal classifier. Finally, we show that some common learning algorithms (e.g., Nearest-Neighbours and Kernel Machines) can generate samplers when applied in the overparameterized regime.
翻訳日:2022-03-29 12:44:43 公開日:2022-03-28
# 視覚変換器の効率的な訓練のための自動プログレッシブ学習

Automated Progressive Learning for Efficient Training of Vision Transformers ( http://arxiv.org/abs/2203.14509v1 )

ライセンス: Link先を確認
Changlin Li, Bohan Zhuang, Guangrun Wang, Xiaodan Liang, Xiaojun Chang, Yi Yang(参考訳) ビジョントランスフォーマー(ViT)の最近の進歩は、コンピュータパワーに対する大胆な欲求を伴い、ViTの効率的なトレーニング方法を開発するために緊急に必要となる。 プログレッシブラーニング(progressive learning)は、トレーニング中にモデルの能力が徐々に増加するトレーニングスキームであり、効率的なトレーニング能力を示している。 本稿では,先進的な学習をカスタマイズし,自動化することで,ViTの効率的な訓練に向けて実践的な一歩を踏み出した。 まず,モデル成長によるギャップを埋めるため,モーメント成長(MoGrow)を導入することで,ViTの進行学習のための強力なマニュアルベースラインを開発する。 そこで我々は,自動進行学習(AutoProg)を提案する。これは,学習の過負荷を自動的に増大させることにより,損失のない加速を実現することを目的とした,効率的な学習手法である。 具体的には、まず、成長スケジュールの最適化をサブネットワークアーキテクチャ最適化問題に緩和し、続いて弾性スーパーネットによるサブネットワーク性能のワンショット推定を提案する。 スーパーネットのパラメータをリサイクルすることにより、探索オーバーヘッドを最小限に抑える。 2つの代表的なViTモデルであるDeiTとVOLOを用いたImageNet上での効率的なトレーニングの大規模な実験は、AutoProgがパフォーマンス低下なしに最大85.1%のViTトレーニングを加速できることを示した。 コード: https://github.com/changlin31/autoprog

Recent advances in vision Transformers (ViTs) have come with a voracious appetite for computing power, high-lighting the urgent need to develop efficient training methods for ViTs. Progressive learning, a training scheme where the model capacity grows progressively during training, has started showing its ability in efficient training. In this paper, we take a practical step towards efficient training of ViTs by customizing and automating progressive learning. First, we develop a strong manual baseline for progressive learning of ViTs, by introducing momentum growth (MoGrow) to bridge the gap brought by model growth. Then, we propose automated progressive learning (AutoProg), an efficient training scheme that aims to achieve lossless acceleration by automatically increasing the training overload on-the-fly; this is achieved by adaptively deciding whether, where and how much should the model grow during progressive learning. Specifically, we first relax the optimization of the growth schedule to sub-network architecture optimization problem, then propose one-shot estimation of the sub-network performance via an elastic supernet. The searching overhead is reduced to minimal by recycling the parameters of the supernet. Extensive experiments of efficient training on ImageNet with two representative ViT models, DeiT and VOLO, demonstrate that AutoProg can accelerate ViTs training by up to 85.1% with no performance drop. Code: https://github.com/changlin31/AutoProg
翻訳日:2022-03-29 12:42:46 公開日:2022-03-28
# 視覚シーン理解のためのマルチタスク学習

Multi-Task Learning for Visual Scene Understanding ( http://arxiv.org/abs/2203.14896v1 )

ライセンス: Link先を確認
Simon Vandenhende(参考訳) ディープラーニングの最近の進歩にもかかわらず、ほとんどのアプローチは依然としてサイロのようなソリューションを目指しており、個々のタスクを個別に学習することに集中している。 しかし、現実世界の多くの問題は、マルチモーダルアプローチであり、それゆえにマルチタスクモデルである。 マルチタスク学習(MTL)は、タスク間で有用な情報を活用し、モデルの一般化能力を改善することを目的としている。 この論文はコンピュータビジョンの文脈におけるマルチタスク学習に関するものである。 まず、MTLの既存のアプローチについてレビューする。 次に,マルチタスク学習の重要な側面に取り組む手法を提案する。 提案手法は様々なベンチマークで評価される。 その結果,マルチタスク学習の最先端にいくつかの進歩が見られる。 最後に,今後の作業の可能性について検討する。

Despite the recent progress in deep learning, most approaches still go for a silo-like solution, focusing on learning each task in isolation: training a separate neural network for each individual task. Many real-world problems, however, call for a multi-modal approach and, therefore, for multi-tasking models. Multi-task learning (MTL) aims to leverage useful information across tasks to improve the generalization capability of a model. This thesis is concerned with multi-task learning in the context of computer vision. First, we review existing approaches for MTL. Next, we propose several methods that tackle important aspects of multi-task learning. The proposed methods are evaluated on various benchmarks. The results show several advances in the state-of-the-art of multi-task learning. Finally, we discuss several possibilities for future work.
翻訳日:2022-03-29 12:40:42 公開日:2022-03-28
# GIRAFFE HD:高分解能3D認識生成モデル

GIRAFFE HD: A High-Resolution 3D-aware Generative Model ( http://arxiv.org/abs/2203.14954v1 )

ライセンス: Link先を確認
Yang Xue, Yuheng Li, Krishna Kumar Singh, Yong Jae Lee(参考訳) 3D認識生成モデルにより、3D情報の導入により、より制御可能な画像生成が可能であることが示されている。 特に、現在の最先端モデルであるGIRAFFEは、対応する監督なしに、各オブジェクトの回転、翻訳、スケール、シーンカメラのポーズを制御することができる。 しかし、GIRAFFEは画像解像度が低い場合にのみ正常に動作する。 GIRAFFE HDは、GIRAFFEの制御可能な機能をすべて継承し、高品質で高解像度な画像(512^2ドル以上)を生成する高解像度3D認識生成モデルである。 キーとなるアイデアは、スタイルベースのニューラルレンダラを活用することで、前景と背景を独立に生成して、一貫性の制約を課しながら、それらを縫い合わせることでコヒーレントな最終的なイメージを合成する。 複数の自然画像データセット上で最先端の3d制御可能な高解像度画像生成を示す。

3D-aware generative models have shown that the introduction of 3D information can lead to more controllable image generation. In particular, the current state-of-the-art model GIRAFFE can control each object's rotation, translation, scale, and scene camera pose without corresponding supervision. However, GIRAFFE only operates well when the image resolution is low. We propose GIRAFFE HD, a high-resolution 3D-aware generative model that inherits all of GIRAFFE's controllable features while generating high-quality, high-resolution images ($512^2$ resolution and above). The key idea is to leverage a style-based neural renderer, and to independently generate the foreground and background to force their disentanglement while imposing consistency constraints to stitch them together to composite a coherent final image. We demonstrate state-of-the-art 3D controllable high-resolution image generation on multiple natural image datasets.
翻訳日:2022-03-29 12:40:33 公開日:2022-03-28
# 日本語共感対話音声のコーパス : フレンドリーな音声エージェントに向けて

STUDIES: Corpus of Japanese Empathetic Dialogue Speech Towards Friendly Voice Agent ( http://arxiv.org/abs/2203.14757v1 )

ライセンス: Link先を確認
Yuki Saito, Yuto Nishimura, Shinnosuke Takamichi, Kentaro Tachibana, Hiroshi Saruwatari(参考訳) 本稿では,親しみやすい話し方が可能な音声エージェントを開発するための新しい音声コーパスについて述べる。 人間は自然に言葉の韻律を制御し、お互いに共感する。 この「共感的対話」動作を音声対話システムに組み込むことで、ユーザに対してより自然に反応できる音声エージェントを開発することができる。 我々は,対話者の感情を明示的に共感して話す話者を含む学習コーパスを設計した。 本稿では,情緒的対話音声コーパスを構築し,STUDIESコーパスの分析結果を報告する。 我々はまず,対話者の感情に応じた発話スタイルを調整できる,より自然な音声エージェントの開発方法について,テキスト音声実験を行った。 その結果,対話型感情ラベルと会話型文脈埋め込みを用いることで,エージェントの感情ラベルを用いて合成した自然度と同程度の音声を生成できることが示唆された。 STUDIESコーパスのプロジェクトページはhttp://sython.org/Corpus/STUDIESです。

We present STUDIES, a new speech corpus for developing a voice agent that can speak in a friendly manner. Humans naturally control their speech prosody to empathize with each other. By incorporating this "empathetic dialogue" behavior into a spoken dialogue system, we can develop a voice agent that can respond to a user more naturally. We designed the STUDIES corpus to include a speaker who speaks with empathy for the interlocutor's emotion explicitly. We describe our methodology to construct an empathetic dialogue speech corpus and report the analysis results of the STUDIES corpus. We conducted a text-to-speech experiment to initially investigate how we can develop more natural voice agent that can tune its speaking style corresponding to the interlocutor's emotion. The results show that the use of interlocutor's emotion label and conversational context embedding can produce speech with the same degree of naturalness as that synthesized by using the agent's emotion label. Our project page of the STUDIES corpus is http://sython.org/Corpus/STUDIES.
翻訳日:2022-03-29 12:40:17 公開日:2022-03-28
# fedvln: プライバシー保護型視覚言語ナビゲーション

FedVLN: Privacy-preserving Federated Vision-and-Language Navigation ( http://arxiv.org/abs/2203.14936v1 )

ライセンス: Link先を確認
Kaiwen Zhou and Xin Eric Wang(参考訳) データプライバシは、環境を認識し、人間と通信し、現実世界で行動できるエンボディエージェントにとって、中心的な問題である。 作業の完了を支援する一方で、エージェントは、住宅環境や人間の活動など、ユーザの機密情報を観察し、処理することができる。 本研究は,自然言語による指示に従うことで家庭環境をナビゲートする視覚言語ナビゲーション (vln) タスクに対して,プライバシ保存型実施エージェント学習を提案する。 我々は,各家庭の環境をローカルクライアントとみなし,クラウドサーバや他のクライアントとのローカルアップデート以外に何も共有しない。また,トレーニングと事前探索の両方においてデータのプライバシーを保護するための,新しい統合視覚言語ナビゲーション(FedVLN)フレームワークを提案する。 特に、各クライアントのデータをそのローカルモデルトレーニングに限定する分散トレーニング戦略と、未認識環境に対するモデルの一般化性を改善するために部分モデル集約を行うフェデレーション前展開法を提案する。 r2rとrxrデータセットの広範な結果は、当社のfedvlnフレームワーク下では、分散vlnモデルが集中トレーニングと同等の結果を達成して、見られている環境プライバシを保護しています。

Data privacy is a central problem for embodied agents that can perceive the environment, communicate with humans, and act in the real world. While helping humans complete tasks, the agent may observe and process sensitive information of users, such as house environments, human activities, etc. In this work, we introduce privacy-preserving embodied agent learning for the task of Vision-and-Language Navigation (VLN), where an embodied agent navigates house environments by following natural language instructions. We view each house environment as a local client, which shares nothing other than local updates with the cloud server and other clients, and propose a novel federated vision-and-language navigation (FedVLN) framework to protect data privacy during both training and pre-exploration. Particularly, we propose a decentralized training strategy to limit the data of each client to its local model training and a federated pre-exploration method to do partial model aggregation to improve model generalizability to unseen environments. Extensive results on R2R and RxR datasets show that under our FedVLN framework, decentralized VLN models achieve comparable results with centralized training while protecting seen environment privacy, and federated pre-exploration significantly outperforms centralized pre-exploration while preserving unseen environment privacy.
翻訳日:2022-03-29 12:19:18 公開日:2022-03-28
# STaR: ブートストラップ推論と推論

STaR: Bootstrapping Reasoning With Reasoning ( http://arxiv.org/abs/2203.14465v1 )

ライセンス: Link先を確認
Eric Zelikman, Yuhuai Wu, Noah D. Goodman(参考訳) ステップバイステップの「チェーンオブ思考」論理の生成は、数学や常識的質問応答のような複雑な推論タスクにおける言語モデルのパフォーマンスを向上させる。 しかし、現在、言語モデルの合理性生成を誘導するには、大規模な合理性データセットを構築するか、数ショットの推論のみを使用することで精度を犠牲にするどちらかが必要である。 本稿では,合理的な推論を連続的に行う能力をブートストラップするために,論理例と大規模データセットを反復的に活用する手法を提案する。 このテクニックは、"自己学習推論者" (star) という単純なループに依存している: 多くの質問に答える合理性を生成し、いくつかの合理性のある例で促す; 生成された回答が間違っているなら、正しい答えが与えられた合理性を生成するようもう一度試みる; 最終的に正しい答えをもたらすすべての合理性に微調整する; 繰り返す。 結果,STaRは最終回答を直接予測するために微調整されたモデルと比較して,複数のデータセットのパフォーマンスを著しく向上させ,CommensenseQA上で30$\times$大の最先端言語モデルに適合することを示した。 したがって、STaRはモデルが生成した推論から学習することで、モデルを改善できる。

Generating step-by-step "chain-of-thought" rationales improves language model performance on complex reasoning tasks like mathematics or commonsense question-answering. However, inducing language model rationale generation currently requires either constructing massive rationale datasets or sacrificing accuracy by using only few-shot inference. We propose a technique to iteratively leverage a small number of rationale examples and a large dataset without rationales, to bootstrap the ability to perform successively more complex reasoning. This technique, the "Self-Taught Reasoner" (STaR), relies on a simple loop: generate rationales to answer many questions, prompted with a few rationale examples; if the generated answers are wrong, try again to generate a rationale given the correct answer; fine-tune on all the rationales that ultimately yielded correct answers; repeat. We show that STaR significantly improves performance on multiple datasets compared to a model fine-tuned to directly predict final answers, and performs comparably to fine-tuning a 30$\times$ larger state-of-the-art language model on CommensenseQA. Thus, STaR lets a model improve itself by learning from its own generated reasoning.
翻訳日:2022-03-29 12:18:05 公開日:2022-03-28
# EnCBP: 英語のファイナグラインド文化背景予測のためのベンチマークデータセット

EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background Prediction in English ( http://arxiv.org/abs/2203.14498v1 )

ライセンス: Link先を確認
Weicheng Ma, Samiha Datta, Lili Wang, Soroush Vosoughi(参考訳) 文化背景は言語表現に影響を与えることが示されているが、既存の自然言語処理(NLP)による文化モデリングの研究は、極端に粗い粒度であり、同じ言語の話者間での文化的差異を調査していない。 この問題に対処し、文化的背景を持つNLPモデルを増強するために、我々は、よりきめ細かいニュースベースの文化的背景予測データセットであるEnCBPを収集し、注釈し、手動で検証し、ベンチマークする。 言語モデル (lm) の評価と手作業による分析により, 英語圏5カ国と米国4州で, 言語表現に有意差があることを確認した。 さらに、9つの構文(CoNLL-2003)、意味(PAWS-Wiki, QNLI, STS-B, RTE)、心理言語的タスク(SST-5, SST-2, Emotion, Go-Emotions)について評価した結果、文化的背景情報の導入は、テキストドメインの衝突によるGo-Emotionsタスクの恩恵を受けないが、他のタスクにおけるディープラーニング(DL)モデルの性能が著しく向上することが示された。 本研究は,多様なNLPタスクに対する文化的背景モデリングの重要性を強く支持し,文化関連研究におけるEnCBPの適用性を示した。

While cultural backgrounds have been shown to affect linguistic expressions, existing natural language processing (NLP) research on culture modeling is overly coarse-grained and does not examine cultural differences among speakers of the same language. To address this problem and augment NLP models with cultural background features, we collect, annotate, manually validate, and benchmark EnCBP, a finer-grained news-based cultural background prediction dataset in English. Through language modeling (LM) evaluations and manual analyses, we confirm that there are noticeable differences in linguistic expressions among five English-speaking countries and across four states in the US. Additionally, our evaluations on nine syntactic (CoNLL-2003), semantic (PAWS-Wiki, QNLI, STS-B, and RTE), and psycholinguistic tasks (SST-5, SST-2, Emotion, and Go-Emotions) show that, while introducing cultural background information does not benefit the Go-Emotions task due to text domain conflicts, it noticeably improves deep learning (DL) model performance on other tasks. Our findings strongly support the importance of cultural background modeling to a wide variety of NLP tasks and demonstrate the applicability of EnCBP in culture-related research.
翻訳日:2022-03-29 12:17:42 公開日:2022-03-28
# (参考訳) CVF-SID:画像からノイズを遠ざける自己監視画像に対する周期的多変量関数

CVF-SID: Cyclic multi-Variate Function for Self-Supervised Image Denoising by Disentangling Noise from Image ( http://arxiv.org/abs/2203.13009v2 )

ライセンス: CC BY 4.0
Reyhaneh Neshatavar, Mohsen Yavartanoo, Sanghyun Son, Kyoung Mu Lee(参考訳) 近年,大規模データセットからの強い監視により,画像のデノイジングが大きな進展を遂げている。 しかし,それぞれのシナリオに対して,適切に整合したノイズ・クリーンなトレーニング画像ペアを得ることは,実際は複雑でコストがかかる。 したがって、従来の教師付き雑音除去ネットワークを無声入力に適用するのは簡単ではない。 厳格な監督なしにこの問題にいくつかの研究が挑戦してきたが、それらは実用上の仮定に頼らず、実際の状況に直接適用することはできない。 上記の課題に対処するため,CVFモジュールとSIDフレームワークをベースとしたCVF-SIDと呼ばれる,新規で強力な自己監督型デノベーション手法を提案する。 CVFモジュールは、入力の複数の分解された変数を出力し、出力の組合せを循環的に入力として戻すことができる。 我々のCVF-SIDは、様々な自己監督的損失項を利用して、クリーンな画像とノイズマップを入力から切り離すことができる。 信号非依存ノイズモデルのみを考えるいくつかの方法とは異なり、実世界のアプリケーションでは信号依存ノイズコンポーネントも扱う。 さらに, CVF-SIDを現実的な雑音に対してより一般化可能にするため, 基礎となる雑音分布に関する前提に頼らない。 実世界のデータセットに対する大規模な実験により、CVF-SIDは最先端の自己教師付き画像デノゲーション性能を達成し、他の既存のアプローチに匹敵する結果となった。 コードはhttps://github.com/Reyhanehne/CVF-SID_PyTorchから公開されている。

Recently, significant progress has been made on image denoising with strong supervision from large-scale datasets. However, obtaining well-aligned noisy-clean training image pairs for each specific scenario is complicated and costly in practice. Consequently, applying a conventional supervised denoising network on in-the-wild noisy inputs is not straightforward. Although several studies have challenged this problem without strong supervision, they rely on less practical assumptions and cannot be applied to practical situations directly. To address the aforementioned challenges, we propose a novel and powerful self-supervised denoising method called CVF-SID based on a Cyclic multi-Variate Function (CVF) module and a self-supervised image disentangling (SID) framework. The CVF module can output multiple decomposed variables of the input and take a combination of the outputs back as an input in a cyclic manner. Our CVF-SID can disentangle a clean image and noise maps from the input by leveraging various self-supervised loss terms. Unlike several methods that only consider the signal-independent noise models, we also deal with signal-dependent noise components for real-world applications. Furthermore, we do not rely on any prior assumptions about the underlying noise distribution, making CVF-SID more generalizable toward realistic noise. Extensive experiments on real-world datasets show that CVF-SID achieves state-of-the-art self-supervised image denoising performance and is comparable to other existing approaches. The code is publicly available from https://github.com/Reyhanehne/CVF-SID_PyTorch .
翻訳日:2022-03-29 12:08:46 公開日:2022-03-28
# (参考訳) ウィジェット内映像のマルチモーダル感情推定

Multi-modal Emotion Estimation for in-the-wild Videos ( http://arxiv.org/abs/2203.13032v3 )

ライセンス: CC BY 4.0
Liyu Meng, Yuchen Liu, Xiaolong Liu, Zhaopei Huang, Wenqiang Jiang, Tenggan Zhang, Chuanhe Liu and Qin Jin(参考訳) 本稿では,第3回愛着行動分析コンペティション(abaw)コンペティションにおけるヴァレンス・覚醒推定チャレンジ(valence-arousal estimation challenge)について紹介する。 本手法では,マルチモーダル情報,すなわち視覚情報と音声情報を用いて,映像の時間的文脈をモデル化する時間エンコーダを用いる。 さらに,より合理的な予測を行うためにスムースプロセッサが適用され,提案手法の性能向上のためにモデルアンサンブル戦略が用いられる。 実験の結果,提案手法の有効性を実証するaf-wild2データセットの検証セット上で,valenceは65.55%ccc,arousalは70.88%cccであった。

In this paper, we briefly introduce our submission to the Valence-Arousal Estimation Challenge of the 3rd Affective Behavior Analysis in-the-wild (ABAW) competition. Our method utilizes the multi-modal information, i.e., the visual and audio information, and employs a temporal encoder to model the temporal context in the videos. Besides, a smooth processor is applied to get more reasonable predictions, and a model ensemble strategy is used to improve the performance of our proposed method. The experiment results show that our method achieves 65.55% ccc for valence and 70.88% ccc for arousal on the validation set of the Aff-Wild2 dataset, which prove the effectiveness of our proposed method.
翻訳日:2022-03-29 11:54:15 公開日:2022-03-28
# (参考訳) 映像表情認識のためのスムース予測付き粗大なカスケードネットワーク

Coarse-to-Fine Cascaded Networks with Smooth Predicting for Video Facial Expression Recognition ( http://arxiv.org/abs/2203.13052v3 )

ライセンス: CC BY 4.0
Fanglei Xue, Zichang Tan, Yu Zhu, Zhongsong Ma, Guodong Guo(参考訳) 表情認識は人間とコンピュータの相互作用において重要な役割を果たす。 本稿では,表情認識の性能を向上させるために,Smooth Predicting (CFC-SP) を用いたCarse-to-Fine Cascadedネットワークを提案する。 CFC-SPは、CFC(Carse-to-Fine Cascaded Network)とSP(Smooth Predicting)の2つのコアコンポーネントを含んでいる。 CFCでは、まずいくつかの類似した感情をグループ化し、粗いカテゴリーを形成し、その後ネットワークを使って粗いが正確な分類を行う。 後に、これらのグループ化された感情のための追加のネットワークが、よりきめ細かい予測を得るためにさらに使用される。 SPでは、普遍的および一意的な表現特徴の両方をキャプチャすることで、モデルの認識能力を向上する。 具体的には、普遍的な特徴は、ある期間内の顔の感情の一般的な特徴を表し、特異な特徴は、この時点での特定の特徴を表す。 Aff-Wild2の実験は提案したCFSPの有効性を示した。

Facial expression recognition plays an important role in human-computer interaction. In this paper, we propose the Coarse-to-Fine Cascaded network with Smooth Predicting (CFC-SP) to improve the performance of facial expression recognition. CFC-SP contains two core components, namely Coarse-to-Fine Cascaded networks (CFC) and Smooth Predicting (SP). For CFC, it first groups several similar emotions to form a rough category, and then employs a network to conduct a coarse but accurate classification. Later, an additional network for these grouped emotions is further used to obtain fine-grained predictions. For SP, it improves the recognition capability of the model by capturing both universal and unique expression features. To be specific, the universal features denote the general characteristic of facial emotions within a period and the unique features denote the specific characteristic at this moment. Experiments on Aff-Wild2 show the effectiveness of the proposed CFSP.
翻訳日:2022-03-29 11:44:44 公開日:2022-03-28
# (参考訳) 視覚トランスフォーマーにおける運動自由連続学習に向けて--注意・機能・重み規則化の考察

Towards Exemplar-Free Continual Learning in Vision Transformers: an Account of Attention, Functional and Weight Regularization ( http://arxiv.org/abs/2203.13167v2 )

ライセンス: CC BY 4.0
Francesco Pelosin, Saurav Jha, Andrea Torsello, Bogdan Raducanu, Joost van de Weijer(参考訳) 本稿では,視覚変換器 (ViT) の連続学習を,その重要な自己保持機構 (SAM) の知識を効率的に抽出する方法に焦点をあてて検討する。 本研究は, ViT におけるコヒーレント連続学習法の設計におけるSAM の外科的検討に向けた第一歩である。 まず,確立した連続学習正規化手法の評価を行う。 次に、SAMの2つのキーイネーラに適用した場合の正規化の効果を検討する。 (a)コンテキスト化された埋め込み層は、その値に関してよくスケールされた表現をキャプチャできるため、そして b) 価値に依存しないグローバルな文脈情報を運ぶための事前スケールアテンションマップ。 我々は2つの画像認識ベンチマーク(cifar100とimagenet-32)における蒸留戦略の要点について述べる。 (a)全体的な正確さが向上する。 (b)競争力を維持することで剛性を高める。 さらに、正規化損失の対称性によって課される制限を特定する。 これを軽減するために, 非対称な変種を提案し, ViT に適応したプール出力蒸留(POD)損失に適用する。 実験により,PODに非対称性を導入することで塑性が向上し,安定性が保たれることを確認した。 (a)及び (b) さらに,全ての比較手法について,ViTsが自然に傾きのある学習者であることを示唆し,低忘れ化対策を認めている。

In this paper, we investigate the continual learning of Vision Transformers (ViT) for the challenging exemplar-free scenario, with special focus on how to efficiently distill the knowledge of its crucial self-attention mechanism (SAM). Our work takes an initial step towards a surgical investigation of SAM for designing coherent continual learning methods in ViTs. We first carry out an evaluation of established continual learning regularization techniques. We then examine the effect of regularization when applied to two key enablers of SAM: (a) the contextualized embedding layers, for their ability to capture well-scaled representations with respect to the values, and (b) the prescaled attention maps, for carrying value-independent global contextual information. We depict the perks of each distilling strategy on two image recognition benchmarks (CIFAR100 and ImageNet-32) -- while (a) leads to a better overall accuracy, (b) helps enhance the rigidity by maintaining competitive performances. Furthermore, we identify the limitation imposed by the symmetric nature of regularization losses. To alleviate this, we propose an asymmetric variant and apply it to the pooled output distillation (POD) loss adapted for ViTs. Our experiments confirm that introducing asymmetry to POD boosts its plasticity while retaining stability across (a) and (b). Moreover, we acknowledge low forgetting measures for all the compared methods, indicating that ViTs might be naturally inclined continual learner
翻訳日:2022-03-29 11:37:36 公開日:2022-03-28
# (参考訳) 微分プライベートベイズ推定のための統計選択とMCMC

Statistic Selection and MCMC for Differentially Private Bayesian Estimation ( http://arxiv.org/abs/2203.13377v2 )

ライセンス: CC BY 4.0
Baris Alparslan and Sinan Yildirim(参考訳) 本稿では,その個体群から得られたサンプルの統計値が雑音で共有され,差分プライバシーを提供する場合に,個体群分布のパラメータの個人的ベイズ推定を行う。 この研究は主に2つの問題に対処する: 1) サンプルの統計はプライベートに共有されるべきか? 最初の質問、すなわち統計選択に関する質問では、フィッシャー情報の利用を促進する。 非プライバシー設定において最も有益である統計は、プライバシー制限の下では最適な選択ではない可能性がある。 その点を支持するいくつかの例を挙げる。 本稿では,いくつかのデータ共有設定について考察し,これらの設定に対するフィッシャー情報を計算するためのモンテカルロの数値推定法を提案する。 2つ目の疑問は推論である: (2)共有統計に基づいて、どのように効果的なベイズ推論を実行できるのか? 雑音の統計量からパラメータの後方分布からサンプリングするためのマルコフ連鎖モンテカルロ (mcmc) アルゴリズムを提案する。 提案したMCMCアルゴリズムは問題に応じて互いに優先される。 例えば、共有統計が加算されガウス雑音が付加されると、中央極限定理を利用する単純なメトロポリス・ハスティングアルゴリズムが適当に選択される。 本稿では,他のいくつかの実践的関連事例に対して,より高度なMCMCアルゴリズムを提案する。 我々の数値的な例は、プライベートに共有されるいくつかの候補統計を比較することである。 各統計値について,その統計値の民営化版に基づく後方分布条件に基づくベイズ推定を行う。 本研究では,民営化統計に基づくベイズ推定値の平均二乗誤差の観点からの統計の相対的性能を,民営化統計値の漁業情報から適切に予測できることを実証する。

This paper concerns differentially private Bayesian estimation of the parameters of a population distribution, when a statistic of a sample from that population is shared in noise to provide differential privacy. This work mainly addresses two problems: (1) What statistic of the sample should be shared privately? For the first question, i.e., the one about statistic selection, we promote using the Fisher information. We find out that, the statistic that is most informative in a non-privacy setting may not be the optimal choice under the privacy restrictions. We provide several examples to support that point. We consider several types of data sharing settings and propose several Monte Carlo-based numerical estimation methods for calculating the Fisher information for those settings. The second question concerns inference: (2) Based on the shared statistics, how could we perform effective Bayesian inference? We propose several Markov chain Monte Carlo (MCMC) algorithms for sampling from the posterior distribution of the parameter given the noisy statistic. The proposed MCMC algorithms can be preferred over one another depending on the problem. For example, when the shared statistics is additive and added Gaussian noise, a simple Metropolis-Hasting algorithm that utilizes the central limit theorem is a decent choice. We propose more advanced MCMC algorithms for several other cases of practical relevance. Our numerical examples involve comparing several candidate statistics to be shared privately. For each statistic, we perform Bayesian estimation based on the posterior distribution conditional on the privatized version of that statistic. We demonstrate that, the relative performance of a statistic, in terms of the mean squared error of the Bayesian estimator based on the corresponding privatized statistic, is adequately predicted by the Fisher information of the privatized statistic.
翻訳日:2022-03-29 11:20:31 公開日:2022-03-28
# (参考訳) 報酬から関係ルールを学ぶ

Learning Relational Rules from Rewards ( http://arxiv.org/abs/2203.13599v2 )

ライセンス: CC BY 4.0
Guillermo Puebla, Leonidas A. A. Doumas(参考訳) 人間はオブジェクトとそれらの関係の観点から世界を認識する。 実際、任意の対のオブジェクトには、それらに適用される無数の関係があります。 認知システムは、手作業の特徴付けに有用な関係をどのように学習するか? そして、どのようにしてこれらの表現を使用して環境と効果的に相互作用するリレーショナルポリシーを構築することができるのか? 本稿では,関係強化学習(relational reinforcement learning, rrl)と呼ばれるシンボリック機械学習のサブフィールドのレンズを通して,この問題を理解することを提案する。 提案手法の可能性を実証するため,RRLで開発された関数近似器に基づいて,関係ポリシー学習の簡易モデルを構築した。 私たちはAtariの3つのゲームで、Breakout、Pong、Demon Attackといった潜在的な関係を考慮し、モデルをトレーニングし、テストしました。 各ゲームでは,適切なリレーショナル表現を選択し,インクリメンタルにリレーショナルポリシを構築することができた。 本稿では,関係モデルと類似推論モデルとの関係と,その限界と今後の研究の方向性について考察する。

Humans perceive the world in terms of objects and relations between them. In fact, for any given pair of objects, there is a myriad of relations that apply to them. How does the cognitive system learn which relations are useful to characterize the task at hand? And how can it use these representations to build a relational policy to interact effectively with the environment? In this paper we proposed that this problem can be understood through the lens of a sub-field of symbolic machine learning called relational reinforcement learning (RRL). To demonstrate the potential of our approach, we build a simple model of relational policy learning based on a function approximator developed in RRL. We trained and tested our model in three Atari games that required to consider an increasingly number of potential relations: Breakout, Pong and Demon Attack. In each game, our model was able to select adequate relational representations and build a relational policy incrementally. We discuss the relationship between our model with models of relational and analogical reasoning, as well as its limitations and future directions of research.
翻訳日:2022-03-29 11:19:23 公開日:2022-03-28
# (参考訳) ZS4IE: 単純言語化によるゼロショット情報抽出ツールキット

ZS4IE: A toolkit for Zero-Shot Information Extraction with simple Verbalizations ( http://arxiv.org/abs/2203.13602v2 )

ライセンス: CC BY-SA 4.0
Oscar Sainz, Haoling Qiu, Oier Lopez de Lacalle, Eneko Agirre and Bonan Min(参考訳) 情報抽出(IE)アナリストのための現在のワークフローには、関心の実体/関係の定義と注釈付き例によるトレーニングコーパスが含まれる。 このデモでは、アナリストがエンティティ/リレーションを直接言語化する新しいワークフローを紹介します。 本稿では,ユーザインタフェースを用いたツールキットの設計と実装,および,ユーザの作業のタイプ5~15分でゼロショット学習において,システムが非常に優れた性能を発揮することを示す4つのIEタスクの実験を紹介する。 デモシステムはhttps://github.com/BBN-E/ZS4IEで公開されている。 デモビデオはhttps://vimeo.com/676138340。

The current workflow for Information Extraction (IE) analysts involves the definition of the entities/relations of interest and a training corpus with annotated examples. In this demonstration we introduce a new workflow where the analyst directly verbalizes the entities/relations, which are then used by a Textual Entailment model to perform zero-shot IE. We present the design and implementation of a toolkit with a user interface, as well as experiments on four IE tasks that show that the system achieves very good performance at zero-shot learning using only 5--15 minutes per type of a user's effort. Our demonstration system is open-sourced at https://github.com/BBN-E/ZS4IE . A demonstration video is available at https://vimeo.com/676138340 .
翻訳日:2022-03-29 10:58:48 公開日:2022-03-28
# 構造的変分クロスグラフ対応学習による合成時間的接地

Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning ( http://arxiv.org/abs/2203.13049v2 )

ライセンス: Link先を確認
Juncheng Li, Junlin Xie, Long Qian, Linchao Zhu, Siliang Tang, Fei Wu, Yi Yang, Yueting Zhuang, Xin Eric Wang(参考訳) ビデオの時間的接地は、あるクエリ文に意味的に対応する1つのターゲットビデオセグメントをローカライズすることを目的としている。 自然言語の記述の多様さにより、時間的接地により、事前に定義されたクラスを超えて活動が基盤となり、近年注目を集めている。 意味の多様性は言語学における構成性の原理に根ざしており、新しい意味論は、既知の単語を新しい方法で結合することで体系的に記述することができる。 しかし、現在の時間的グラウンドデータセットは、組成の一般化性について具体的にはテストしていない。 時間的接地モデルの合成汎性を体系的に測定するために,新しい時間的接地タスクを導入し,2つの新しいデータセット分割,すなわちcharades-cgとactivitynet-cgを構築した。 新しいデータセットスプリットにおける最先端のメソッドの評価では、見てきた単語の新しい組み合わせでクエリに一般化できないことが実証的に分かりました。 この課題に取り組むために,ビデオと言語を複数の構造化階層に明示的に分解し,それらの間の詳細な意味的対応を学ぶ変分的クロスグラフ推論フレームワークを提案する。 実験は、我々のアプローチの優れた構成一般化性を示す。 この作業のリポジトリはhttps://github.com/YYJMJC/ Composal-Temporal-Groundingにある。

Temporal grounding in videos aims to localize one target video segment that semantically corresponds to a given query sentence. Thanks to the semantic diversity of natural language descriptions, temporal grounding allows activity grounding beyond pre-defined classes and has received increasing attention in recent years. The semantic diversity is rooted in the principle of compositionality in linguistics, where novel semantics can be systematically described by combining known words in novel ways (compositional generalization). However, current temporal grounding datasets do not specifically test for the compositional generalizability. To systematically measure the compositional generalizability of temporal grounding models, we introduce a new Compositional Temporal Grounding task and construct two new dataset splits, i.e., Charades-CG and ActivityNet-CG. Evaluating the state-of-the-art methods on our new dataset splits, we empirically find that they fail to generalize to queries with novel combinations of seen words. To tackle this challenge, we propose a variational cross-graph reasoning framework that explicitly decomposes video and language into multiple structured hierarchies and learns fine-grained semantic correspondence among them. Experiments illustrate the superior compositional generalizability of our approach. The repository of this work is at https://github.com/YYJMJC/ Compositional-Temporal-Grounding.
翻訳日:2022-03-29 10:46:05 公開日:2022-03-28
# トランスフォーマーを用いたマルチモーダルマルチラベル顔動作単位検出

Multi-modal Multi-label Facial Action Unit Detection with Transformer ( http://arxiv.org/abs/2203.13301v2 )

ライセンス: Link先を確認
Lingfeng Wang, Shisen Wang, Jin Qi(参考訳) 本稿では,第3回ABAW(Affective Behavior Analysis)2022コンペティションへの応募について述べる。 映像中の顔行動単位(FAU)を検出するためのトランスフォーマーモデルを提案した。 具体的には、まず、音声と視覚の両方を抽出するマルチモーダルモデルを訓練した。 その後,各動作単位ラベル間の関係を学習し,動作単位検出結果を改善するための動作単位相関モジュールを提案する。 検証データセットにおける実験結果は,提案手法がベースラインモデルよりも優れた性能を達成していることを示す。

Facial Action Coding System is an important approach of facial expression analysis.This paper describes our submission to the third Affective Behavior Analysis (ABAW) 2022 competition. We proposed a transfomer based model to detect facial action unit (FAU) in video. To be specific, we firstly trained a multi-modal model to extract both audio and visual feature. After that, we proposed a action units correlation module to learn relationships between each action unit labels and refine action unit detection result. Experimental results on validation dataset shows that our method achieves better performance than baseline model, which verifies that the effectiveness of proposed network.
翻訳日:2022-03-29 10:45:43 公開日:2022-03-28
# UKP-SQUARE: 質問回答調査のためのオンラインプラットフォーム

UKP-SQUARE: An Online Platform for Question Answering Research ( http://arxiv.org/abs/2203.13693v2 )

ライセンス: Link先を確認
Tim Baumg\"artner, Kexin Wang, Rachneet Sachdeva, Max Eichler, Gregor Geigle, Clifton Poth, Hannah Sterz, Haritz Puerto, Leonardo F. R. Ribeiro, Jonas Pfeiffer, Nils Reimers, G\"ozde G\"ul \c{S}ahin, Iryna Gurevych(参考訳) NLPと情報検索の最近の進歩は、異なるフォーマット(例えば、抽出的、抽象的)の様々な質問応答タスクに発展し、異なるモデルアーキテクチャ(例えば、生成的、識別的)とセットアップ(例えば、検索なし)を必要とする。 単一のドメインやモデル,あるいはセットアップを考慮した,パワフルで特殊なQAパイプライン(“スキル”と呼ぶ)が多数存在するにも関わらず,そのようなパイプラインを簡単に探索して比較することが可能で,必要に応じて拡張可能なフレームワークは存在しないのです。 この問題に対処するため、UKP-SQUAREは研究者向けの拡張可能なオンラインQAプラットフォームで、ユーザフレンドリーなWebインターフェースと統合された行動テストを通じて、モダンスキルの大規模なコレクションをクエリし分析することができる。 さらに、QAの研究者たちは、さまざまなモデル(Transformers、Adapters、ONNX)、データストア、検索技術(スパースやシーク)をサポートするマイクロサービスを使用して、独自のスキルを開発し、管理し、共有することができます。 UKP-SQUAREはhttps://square.ukp-lab.deで入手できる。

Recent advances in NLP and information retrieval have given rise to a diverse set of question answering tasks that are of different formats (e.g., extractive, abstractive), require different model architectures (e.g., generative, discriminative), and setups (e.g., with or without retrieval). Despite having a large number of powerful, specialized QA pipelines (which we refer to as Skills) that consider a single domain, model or setup, there exists no framework where users can easily explore and compare such pipelines and can extend them according to their needs. To address this issue, we present UKP-SQUARE, an extensible online QA platform for researchers which allows users to query and analyze a large collection of modern Skills via a user-friendly web interface and integrated behavioural tests. In addition, QA researchers can develop, manage, and share their custom Skills using our microservices that support a wide range of models (Transformers, Adapters, ONNX), datastores and retrieval techniques (e.g., sparse and dense). UKP-SQUARE is available on https://square.ukp-lab.de.
翻訳日:2022-03-29 10:45:31 公開日:2022-03-28
# (参考訳) 音声認識のための連鎖型判別オートエンコーダ

Chain-based Discriminative Autoencoders for Speech Recognition ( http://arxiv.org/abs/2203.13687v2 )

ライセンス: CC BY 4.0
Hung-Shin Lee, Pin-Tuan Huang, Yao-Fei Cheng, Hsin-Min Wang(参考訳) 先行研究では,音声認識のための判別オートエンコーダ(dcae)を提案する。 DcAEは2つのトレーニングスキームを1つにまとめる。 まず、DcAEはエンコーダとデコーダのマッピングを学習することを目的としており、再構成された音声と入力された音声との2乗誤差を最小限に抑える。 第2に、符号層において、基底真理ラベルと予測された三音素状態スコアとのカテゴリ間クロスエントロピーを最小化することにより、フレームベースの音声埋め込みを得る。 DcAEは、様々なTDNNモデルをエンコーダとして扱うことで、カルディツールキットに基づいて開発されている。 本稿では,DcAEの3つの新しいバージョンを提案する。 まず,分類的クロスエントロピーと地上の真理と予測された三音状態列の相互情報の両方を考慮した新たな目的関数を用いる。 DcAEは鎖ベースのDcAE(c-DcAE)と呼ばれる。 頑健な音声認識に適用するために、我々はc-DcAEを階層構造と並列構造に拡張し、hc-DcAEとpc-DcAEをもたらす。 これら2つのモデルにおいて、再構成された雑音音声と入力雑音音声との誤差と、拡張音声と参照クリーン音声との誤差とを目的関数に取り入れる。 WSJ と Aurora-4 コーパスの実験結果から,我々の DcAE モデルがベースラインシステムより優れていることが示された。

In our previous work, we proposed a discriminative autoencoder (DcAE) for speech recognition. DcAE combines two training schemes into one. First, since DcAE aims to learn encoder-decoder mappings, the squared error between the reconstructed speech and the input speech is minimized. Second, in the code layer, frame-based phonetic embeddings are obtained by minimizing the categorical cross-entropy between ground truth labels and predicted triphone-state scores. DcAE is developed based on the Kaldi toolkit by treating various TDNN models as encoders. In this paper, we further propose three new versions of DcAE. First, a new objective function that considers both categorical cross-entropy and mutual information between ground truth and predicted triphone-state sequences is used. The resulting DcAE is called a chain-based DcAE (c-DcAE). For application to robust speech recognition, we further extend c-DcAE to hierarchical and parallel structures, resulting in hc-DcAE and pc-DcAE. In these two models, both the error between the reconstructed noisy speech and the input noisy speech and the error between the enhanced speech and the reference clean speech are taken into the objective function. Experimental results on the WSJ and Aurora-4 corpora show that our DcAE models outperform baseline systems.
翻訳日:2022-03-29 10:43:23 公開日:2022-03-28
# MonoDETR:モノクロ3次元物体検出のための深度対応トランス

MonoDETR: Depth-aware Transformer for Monocular 3D Object Detection ( http://arxiv.org/abs/2203.13310v2 )

ライセンス: Link先を確認
Renrui Zhang, Han Qiu, Tai Wang, Xuanzhuo Xu, Ziyu Guo, Yu Qiao, Peng Gao, Hongsheng Li(参考訳) モノクロ3Dオブジェクト検出は、単一の2D画像からのみ3D予測をデコードする必要がある、自動運転における長年の課題である。 既存の手法のほとんどは従来の2dオブジェクト検出器に従い、まずその中心でオブジェクトをローカライズし、次に中心に隣接した局所的な特徴を用いて3d属性を予測する。 しかし、このような中心ベースのパイプラインは3次元予測を従属タスクとして捉えており、対象間の深さの相互作用とグローバルな空間的手がかりを欠いている。 本稿では,Deep-Aware TRansformer を用いた単分子検出のための単純なフレームワーク MonoDETR を提案する。 我々は、バニラ変圧器を深度に認識させ、深度で案内される全検出プロセスを強制する。 具体的には、3Dオブジェクト候補をクエリの集合として表現し、軽量深度予測器と注目に基づく深度符号化器により入力画像の非局所深度埋め込みを生成する。 次に,問合せと問合せの深さ特徴の通信を行う奥行き認識デコーダを提案する。 このようにして、各オブジェクトはその3D属性を画像上の深さ不変領域から適応的に推定する。 最小限の手作り設計により、MonoDETRは、追加のデータやアンカー、NMSのないエンドツーエンドのフレームワークであり、最先端のセンターベースネットワーク間のKITTIベンチマーク上での競合性能を達成する。 広範なアブレーション研究は,今後の単眼研究におけるトランスフォーマーベースラインとしての有効性と有用性を示している。 コードはhttps://github.com/ZrrSkywalker/MonoDETR.gitで入手できる。

Monocular 3D object detection has long been a challenging task in autonomous driving, which requires to decode 3D predictions solely from a single 2D image. Most existing methods follow conventional 2D object detectors to first localize objects by their centers, and then predict 3D attributes using center-neighboring local features. However, such center-based pipeline views 3D prediction as a subordinate task and lacks inter-object depth interactions with global spatial clues. In this paper, we introduce a simple framework for Monocular DEtection with depth-aware TRansformer, named MonoDETR. We enable the vanilla transformer to be depth-aware and enforce the whole detection process guided by depth. Specifically, we represent 3D object candidates as a set of queries and produce non-local depth embeddings of the input image by a lightweight depth predictor and an attention-based depth encoder. Then, we propose a depth-aware decoder to conduct both inter-query and query-scene depth feature communication. In this way, each object estimates its 3D attributes adaptively from the depth-informative regions on the image, not limited by center-around features. With minimal handcrafted designs, MonoDETR is an end-to-end framework without additional data, anchors or NMS and achieves competitive performance on KITTI benchmark among state-of-the-art center-based networks. Extensive ablation studies demonstrate the effectiveness of our approach and its potential to serve as a transformer baseline for future monocular research. Code is available at https://github.com/ZrrSkywalker/MonoDETR.git.
翻訳日:2022-03-29 10:29:23 公開日:2022-03-28
# プログラム合成のための会話パラダイム

A Conversational Paradigm for Program Synthesis ( http://arxiv.org/abs/2203.13474v2 )

ライセンス: Link先を確認
Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, Caiming Xiong(参考訳) プログラム合成は、与えられた問題仕様に対する解決策としてコンピュータプログラムを生成する。 そこで本研究では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。 我々の新しいアプローチは、ユーザとシステム間のマルチターン会話として仕様とプログラムを書く過程をキャストする。 仕様を自然言語で表現し、所望のプログラムを条件付きサンプリングしたシーケンス予測問題としてプログラム合成を扱う。 自然言語とプログラミング言語のデータに基づいて、codegenと呼ばれる大規模な言語モデルをトレーニングします。 データに対する監督の弱さと、データサイズとモデルサイズのスケールアップにより、単純な自己回帰言語モデリングから会話能力が生まれる。 対話型プログラム合成におけるモデル動作を研究するために,ユーザとモデル間のマルチターン対話による多段階合成を必要とするマルチターンプログラミングベンチマーク(MTPB)を開発した。 本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。 さらに、私たちのモデルであるCodeGen(TPU-v4でトレーニングされた最大16Bのパラメータ)は、OpenAIのCodex on the HumanEvalベンチマークを上回っています。 トレーニングライブラリのJaxFormerには、オープンソースとして利用可能なチェックポイントを含める予定です。

Program synthesis strives to generate a computer program as a solution to a given problem specification. We propose a conversational program synthesis approach via large language models, which addresses the challenges of searching over a vast program space and user intent specification faced in prior approaches. Our new approach casts the process of writing a specification and program as a multi-turn conversation between a user and a system. It treats program synthesis as a sequence prediction problem, in which the specification is expressed in natural language and the desired program is conditionally sampled. We train a family of large language models, called CodeGen, on natural language and programming language data. With weak supervision in the data and the scaling up of data size and model size, conversational capacities emerge from the simple autoregressive language modeling. To study the model behavior on conversational program synthesis, we develop a multi-turn programming benchmark (MTPB), where solving each problem requires multi-step synthesis via multi-turn conversation between the user and the model. Our findings show the emergence of conversational capabilities and the effectiveness of the proposed conversational program synthesis paradigm. In addition, our model CodeGen (with up to 16B parameters trained on TPU-v4) outperforms OpenAI's Codex on the HumanEval benchmark. We plan to make the training library JaxFormer including checkpoints available as open source.
翻訳日:2022-03-29 10:28:57 公開日:2022-03-28