このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210309となっている論文です。

PDF登録状況(公開日: 20210309)

TitleAuthorsAbstract論文公表日・翻訳日
# 教師なし経路回帰ネットワーク

Unsupervised Path Regression Networks ( http://arxiv.org/abs/2011.14787v2 )

ライセンス: Link先を確認
Michal P\'andy, Daniel Lenton, Ronald Clark(参考訳) 最短経路問題は、教師なしの方法で訓練されたニューラルネットワークからのスプライン回帰によって解決できることを実証する。 訓練に真実の最適経路を 必要とせずに) これを実現するために、最小値が衝突のない解を保証する幾何依存の最適コスト関数を導出する。 提案手法は,最短経路計画のための教師付き学習ベースライン,よりスケーラブルなトレーニングパイプライン,推論時間の大幅な高速化を実現した。

We demonstrate that challenging shortest path problems can be solved via direct spline regression from a neural network, trained in an unsupervised manner (i.e. without requiring ground truth optimal paths for training). To achieve this, we derive a geometry-dependent optimal cost function whose minima guarantees collision-free solutions. Our method beats state-of-the-art supervised learning baselines for shortest path planning, with a much more scalable training pipeline, and a significant speedup in inference time.
翻訳日:2021-06-06 14:54:16 公開日:2021-03-09
# 無線信号分類器に対する逆攻撃のサーロゲートモデルに対するチャネル効果

Channel Effects on Surrogate Models of Adversarial Attacks against Wireless Signal Classifiers ( http://arxiv.org/abs/2012.02160v2 )

ライセンス: Link先を確認
Brian Kim and Yalin E. Sagduyu and Tugba Erpek and Kemal Davaslioglu and Sennur Ulukus(参考訳) 本稿では,バックグラウンドエミッタ,送信機,敵機で構成される無線通信システムについて考察する。 送信機は、背景エミッタからの進行中の送信を検出し、スペクトルがアイドルであれば信号を送信するディープニューラルネットワーク(DNN)分類器を備える。 同時に、スペクトルを観測して背景エミッタの進行中の送信を検知し、送信機を騙してチャネルをアイドルとして誤分類する敵攻撃を発生させ、独自のdnn分類器をサロゲートモデルとして訓練する。 このサロゲートモデルは、逆側と送信側が背景エミッタと異なるチャネルを経験しているので、送信者の分類器と大きく異なる可能性があるため、その分類器は異なる入力分布で訓練される。 このシステムモデルは、バックグラウンドエミッタがプライマリユーザであり、送信者がセカンダリユーザであり、チャネルがプライマリユーザによって占有されている場合でも、相手がセカンダリユーザを騙して送信しようとする設定を表すことができる。 本研究では,敵対者によって訓練された異なる代理モデル(相手が経験するチャネル効果の違いによる)が敵攻撃の性能に与える影響について検討する。 シミュレーションの結果,チャネル誘導入力の異なる分布で訓練されたサロゲートモデルは攻撃性能を著しく制限し,無線アプリケーション用のサロゲートモデルはチャネル効果に応じてターゲットモデルと大きく異なる可能性があるため,敵攻撃の転送性は容易にも容易にも達成できないことを示した。

We consider a wireless communication system that consists of a background emitter, a transmitter, and an adversary. The transmitter is equipped with a deep neural network (DNN) classifier for detecting the ongoing transmissions from the background emitter and transmits a signal if the spectrum is idle. Concurrently, the adversary trains its own DNN classifier as the surrogate model by observing the spectrum to detect the ongoing transmissions of the background emitter and generate adversarial attacks to fool the transmitter into misclassifying the channel as idle. This surrogate model may differ from the transmitter's classifier significantly because the adversary and the transmitter experience different channels from the background emitter and therefore their classifiers are trained with different distributions of inputs. This system model may represent a setting where the background emitter is a primary user, the transmitter is a secondary user, and the adversary is trying to fool the secondary user to transmit even though the channel is occupied by the primary user. We consider different topologies to investigate how different surrogate models that are trained by the adversary (depending on the differences in channel effects experienced by the adversary) affect the performance of the adversarial attack. The simulation results show that the surrogate models that are trained with different distributions of channel-induced inputs severely limit the attack performance and indicate that the transferability of adversarial attacks is neither readily available nor straightforward to achieve since surrogate models for wireless applications may significantly differ from the target model depending on channel effects.
翻訳日:2021-05-23 15:03:14 公開日:2021-03-09
# wilds: 野生の分布変化のベンチマーク

WILDS: A Benchmark of in-the-Wild Distribution Shifts ( http://arxiv.org/abs/2012.07421v2 )

ライセンス: Link先を確認
Pang Wei Koh, Shiori Sagawa, Henrik Marklund, Sang Michael Xie, Marvin Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga, Richard Lanas Phillips, Irena Gao, Tony Lee, Etienne David, Ian Stavness, Wei Guo, Berton A. Earnshaw, Imran S. Haque, Sara Beery, Jure Leskovec, Anshul Kundaje, Emma Pierson, Sergey Levine, Chelsea Finn, Percy Liang(参考訳) トレーニング分布がテスト分布と異なる分散シフトは、ワイルドにデプロイされた機械学習(ml)システムの精度を実質的に低下させることができる。 その普遍性にもかかわらず、これらの現実世界の分布シフトは、今日のMLコミュニティで広く使われているデータセットに不足している。 このギャップに対処するため、WILDSは、腫瘍識別のための病院間のシフト、野生生物監視のためのカメラトラップの横断、衛星画像と貧困マッピングにおける時間と場所の横断といった、現実の応用において自然に発生する様々な分布シフトを反映した8つのベンチマークデータセットのキュレートされたコレクションである。 各データセットにおいて、標準トレーニングは、分散性能よりもかなり低い分散アウトオブディストリビューションとなり、このギャップは、既存の分散シフトを処理する方法によってトレーニングされたモデルでも残ることを示す。 これは、実際に発生する分散シフトのタイプに対してより堅牢なモデルを生成する新しいトレーニング方法の必要性を浮き彫りにしている。 手法開発を容易にするため,データセットの読み込みを自動化し,デフォルトモデルアーキテクチャとハイパーパラメータを含むオープンソースパッケージを提供し,評価を標準化する。 コードとリーダーボードはhttps://wilds.stanfo rd.edu.comで入手できる。

Distribution shifts -- where the training distribution differs from the test distribution -- can substantially degrade the accuracy of machine learning (ML) systems deployed in the wild. Despite their ubiquity, these real-world distribution shifts are under-represented in the datasets widely used in the ML community today. To address this gap, we present WILDS, a curated collection of 8 benchmark datasets that reflect a diverse range of distribution shifts which naturally arise in real-world applications, such as shifts across hospitals for tumor identification; across camera traps for wildlife monitoring; and across time and location in satellite imaging and poverty mapping. On each dataset, we show that standard training results in substantially lower out-of-distribution than in-distribution performance, and that this gap remains even with models trained by existing methods for handling distribution shifts. This underscores the need for new training methods that produce models which are more robust to the types of distribution shifts that arise in practice. To facilitate method development, we provide an open-source package that automates dataset loading, contains default model architectures and hyperparameters, and standardizes evaluations. Code and leaderboards are available at https://wilds.stanfo rd.edu.
翻訳日:2021-05-08 14:26:01 公開日:2021-03-09
# アマタ:敵の訓練加速のためのアニーリング機構

Amata: An Annealing Mechanism for Adversarial Training Acceleration ( http://arxiv.org/abs/2012.08112v2 )

ライセンス: Link先を確認
Nanyang Ye, Qianxiao Li, Xiao-Yun Zhou, Zhanxing Zhu(参考訳) 様々な領域での実証的な成功にもかかわらず、ディープニューラルネットワークは、そのパフォーマンスを著しく低下させる悪意のある摂動入力データに対して脆弱であることが明らかになった。 これは敵攻撃として知られている。 敵意攻撃に対抗するために,ロバスト最適化の形式として定式化された敵意トレーニングが有効であることが示されている。 しかし, 対人訓練の実施は, 通常の訓練に比べて計算オーバーヘッドが大きい。 計算コストを削減するため、敵の訓練に伴うオーバーヘッドを低減するため、アニーリング機構であるアマタを提案する。 提案するアマタは最適制御理論のレンズから十分に動機づけられ,既存の加速度法と組み合わせることで,さらなる性能向上が期待できる。 標準的なデータセットでは、Amataは従来の手法に比べて約1/3から1/2の計算時間で同様の、あるいはより良いロバスト性を達成することができる。 加えて、アマタは他の敵の訓練加速アルゴリズム(例えば)に組み込むことができる。 YOPO, Free, Fast, ATTA) は大規模問題の計算時間を短縮する。

Despite the empirical success in various domains, it has been revealed that deep neural networks are vulnerable to maliciously perturbed input data that much degrade their performance. This is known as adversarial attacks. To counter adversarial attacks, adversarial training formulated as a form of robust optimization has been demonstrated to be effective. However, conducting adversarial training brings much computational overhead compared with standard training. In order to reduce the computational cost, we propose an annealing mechanism, Amata, to reduce the overhead associated with adversarial training. The proposed Amata is provably convergent, well-motivated from the lens of optimal control theory and can be combined with existing acceleration methods to further enhance performance. It is demonstrated that on standard datasets, Amata can achieve similar or better robustness with around 1/3 to 1/2 the computational time compared with traditional methods. In addition, Amata can be incorporated into other adversarial training acceleration algorithms (e.g. YOPO, Free, Fast, and ATTA), which leads to further reduction in computational time on large-scale problems.
翻訳日:2021-05-07 05:17:02 公開日:2021-03-09
# (参考訳) 新しいマルチウェーブレットに向けて:関連するフィルタとアルゴリズム。 バイオメディカルシグナル, 心電図, コロナウイルスの理論的枠組みと検討 [全文訳有]

Towards New Multiwavelets: Associated Filters and Algorithms. Part I: Theoretical Framework and Investigation of Biomedical Signals, ECG and Coronavirus Cases ( http://arxiv.org/abs/2103.08657v1 )

ライセンス: CC0 1.0
Malika Jallouli, Makerem Zemni, Anouar Ben Mabrouk and Mohamed Ali Mahjoub(参考訳) バイオシグナーは、特に新しいコロナウイルスのような人類を脅かす新しいパンデミックの出現と共に、理論と応用の両方から科学的研究の主題となっている。 本研究の目的は,マルチウェーブレットにウェーブレットのステップ前進拡張を適用することで,ウェーブレットがそのような現象を理解するのに成功していることを示すことである。 本研究では,マルチウェーブレット母関数とマルチウェーブレット母関数の独立成分を用いて,より一般的なファミリーを構築することにより,マルチウェーブレット概念を改善するための第一歩として提案する。 その後、特別なマルチウェーブレットが導入され、連続および離散のマルチウェーブレット変換と、新しいフィルターと分解および再構成のアルゴリズムが関連付けられる。 構築されたマルチウェーブレットフレームワークは、高速アルゴリズム、ECG信号、コロナウイルス処理の株を示すいくつかの実験に応用される。

Biosignals are nowadays important subjects for scientific researches from both theory and applications especially with the appearance of new pandemics threatening humanity such as the new Coronavirus. One aim in the present work is to prove that Wavelets may be successful machinery to understand such phenomena by applying a step forward extension of wavelets to multiwavelets. We proposed in a first step to improve the multiwavelet notion by constructing more general families using independent components for multi-scaling and multiwavelet mother functions. A special multiwavelet is then introduced, continuous and discrete multiwavelet transforms are associated, as well as new filters and algorithms of decomposition and reconstruction. The constructed multiwavelet framework is applied for some experimentations showing fast algorithms, ECG signal, and a strain of Coronavirus processing.
翻訳日:2021-04-05 04:35:47 公開日:2021-03-09
# (参考訳) オンライン討論会における議論の展開構造--合意なしブレグジットの場合

The Unfolding Structure of Arguments in Online Debates: The case of a No-Deal Brexit ( http://arxiv.org/abs/2103.16387v1 )

ライセンス: CC BY-SA 4.0
Carlo Santagiustina and Massimo Warglien(参考訳) 過去10年間で、政治的議論は徐々にソーシャルメディアに移行した。 これらの議論領域で活動するオンラインアクターや派閥が採用する修辞装置をキャプチャして分析することにより、社会的論争とその議論力学の統計的読解を行うことができる。 本稿では,オンライン討論の潜在的議論構造を抽出し,分類し,探索する5段階の方法論を提案する。 合意なし」ブレグジットに関するTwitterのデータを用いて、このイベントが実現した場合の期待される影響に焦点を当てる。 まず,生成,破壊,因果関係の動詞を利用するregeexを用いて,ツイートに含まれる原因効果クレームを抽出する。 第2に,ユニグラムとビッグラムに基づいて推定された構造的トピックモデルを用いて,"ノーディール"効果を分類した。 第三に、議論の的となっている効果トピックを選択し、自己宣言型パルチザンユーザグループ間のトピック内議論の違いを探求する。 そこで, トピック相関ネットワークを用いて, コヒーレントなトピックの星座を特定するための議論のトポロジ的構造について検討した。 最後に,議論の時間ダイナミクスを分析し,派閥間のリード・フォロー関係を推察する。 提案手法は,議論の統計的レトリック分析を行い,議論のアーキテクチャを時間をかけてマッピングするために有効であることを示す。 特に、"no-deal"ブレグジットの議論は、議論の派閥のコンステレーションと、創造と破壊に関連する動詞を通じて引き起こされる分極化された物語の枠組みによって特徴づけられる、多様な議論構造を持っていることが示されている。 本研究は,議論の分析にシステム的アプローチを導入することのメリットを強調し,オンライン討論に使用される議論間の話題的・派閥的依存関係を明らかにすることを可能にした。

In the last decade, political debates have progressively shifted to social media. Rhetorical devices employed by online actors and factions that operate in these debating arenas can be captured and analysed to conduct a statistical reading of societal controversies and their argumentation dynamics. In this paper, we propose a five-step methodology, to extract, categorize and explore the latent argumentation structures of online debates. Using Twitter data about a "no-deal" Brexit, we focus on the expected effects in case of materialisation of this event. First, we extract cause-effect claims contained in tweets using RegEx that exploit verbs related to Creation, Destruction and Causation. Second, we categorise extracted "no-deal" effects using a Structural Topic Model estimated on unigrams and bigrams. Third, we select controversial effect topics and explore within-topic argumentation differences between self-declared partisan user factions. We hence type topics using estimated covariate effects on topic propensities, then, using the topics correlation network, we study the topological structure of the debate to identify coherent topical constellations. Finally, we analyse the debate time dynamics and infer lead/follow relations among factions. Results show that the proposed methodology can be employed to perform a statistical rhetorics analysis of debates, and map the architecture of controversies across time. In particular, the "no-deal" Brexit debate is shown to have an assortative argumentation structure heavily characterized by factional constellations of arguments, as well as by polarized narrative frames invoked through verbs related to Creation and Destruction. Our findings highlight the benefits of implementing a systemic approach to the analysis of debates, which allows the unveiling of topical and factional dependencies between arguments employed in online debates.
翻訳日:2021-04-05 04:18:24 公開日:2021-03-09
# (参考訳) Wav2vec-C:音声表現学習のための自己教師型モデル [全文訳有]

Wav2vec-C: A Self-supervised Model for Speech Representation Learning ( http://arxiv.org/abs/2103.08393v1 )

ライセンス: CC BY 4.0
Samik Sadhu, Di He, Che-Wei Huang, Sri Harish Mallidi, Minhua Wu, Ariya Rastrow, Andreas Stolcke, Jasha Droppo, Roland Maas(参考訳) Wav2vec-Cは、wav2vec 2.0とVQ-VAEの要素を組み合わせた新しい表現学習技術を導入した。 本モデルでは,wav2vec 2.0に類似した方法を用いて,部分的にマスクされた音声符号化から量子化表現を再現することを学ぶ。 しかしながら、量子化プロセスは、VQ-VAEモデルに似た方法で量子化表現からwav2vec 2.0ネットワークへの入力特徴の再構成を学ぶ追加の整合ネットワークによって正規化される。 提案した自己教師型モデルは、10k時間のラベル付きデータに基づいてトレーニングされ、RNN-T ASRモデルの音声エンコーダとして使用され、1k時間のラベル付きデータで微調整される。 この研究は、大量の実遠距離ラベル付きデータを用いた音声タスクにおける自己教師付き学習のごく少数の研究の1つである。 Wav2vec-Cエンコード表現は平均してベースラインの2倍のエラー低減と、wav2vec 2.0と比較して高いコードブック利用を実現する

Wav2vec-C introduces a novel representation learning technique combining elements from wav2vec 2.0 and VQ-VAE. Our model learns to reproduce quantized representations from partially masked speech encoding using a contrastive loss in a way similar to Wav2vec 2.0. However, the quantization process is regularized by an additional consistency network that learns to reconstruct the input features to the wav2vec 2.0 network from the quantized representations in a way similar to a VQ-VAE model. The proposed self-supervised model is trained on 10k hours of unlabeled data and subsequently used as the speech encoder in a RNN-T ASR model and fine-tuned with 1k hours of labeled data. This work is one of only a few studies of self-supervised learning on speech tasks with a large volume of real far-field labeled data. The Wav2vec-C encoded representations achieves, on average, twice the error reduction over baseline and a higher codebook utilization in comparison to wav2vec 2.0
翻訳日:2021-04-05 04:17:12 公開日:2021-03-09
# NetVec: スケーラブルなハイパーグラフ埋め込みシステム

NetVec: A Scalable Hypergraph Embedding System ( http://arxiv.org/abs/2103.09660v1 )

ライセンス: Link先を確認
Sepideh Maleki, Dennis P. Wall, Keshav Pingali(参考訳) ネットワークデータにおける頂点分類やリンク予測といった多くの問題をグラフ埋め込みを用いて解くことができ、そのような埋め込みを構築するために多くのアルゴリズムが知られている。 しかし、頂点のコミュニティのような二項関係をつかむグラフを使うのは難しい。 このような複雑な関係はハイパーグラフとしてより自然に表現される。 ハイパーグラフはグラフの一般化である一方、最先端のグラフ埋め込み技術は、合理的な時間で大きなハイパーグラフ上の予測と分類タスクを正確に解くには不十分である。 本稿では、スケーラブルな非教師付きハイパーグラフ埋め込みのための新しいマルチレベルフレームワークであるNetVecを紹介し、グラフ埋め込みアルゴリズムと組み合わせることで、数百万のノードとハイパーエッジとのハイパーグラフの埋め込みを数分で生成する。

Many problems such as vertex classification andlink prediction in network data can be solvedusing graph embeddings, and a number of algo-rithms are known for constructing such embed-dings. However, it is difficult to use graphs tocapture non-binary relations such as communitiesof vertices. These kinds of complex relations areexpressed more naturally as hypergraphs. Whilehypergraphs are a generalization of graphs, state-of-the-art graph embedding techniques are notadequate for solving prediction and classificationtasks on large hypergraphs accurately in reason-able time. In this paper, we introduce NetVec,a novel multi-level framework for scalable un-supervised hypergraph embedding, that can becoupled with any graph embedding algorithm toproduce embeddings of hypergraphs with millionsof nodes and hyperedges in a few minutes.
翻訳日:2021-04-05 00:58:00 公開日:2021-03-09
# 非循環的過渡状態構造を有するMDPの最適政策イテレーション

Optimistic Policy Iteration for MDPs with Acyclic Transient State Structure ( http://arxiv.org/abs/2102.00030v3 )

ライセンス: Link先を確認
Joseph Lubars, Anna Winnicki, Michael Livesay and R. Srikant(参考訳) すべての定常ポリシーが基礎となるマルコフ連鎖のグラフ構造を誘導するマルコフ決定過程(MDP)を考えると、グラフは以下の性質を持つ。 このようなMDPに対して、楽観的なポリシー反復(OPI)のバージョンに関連する確率力学の収束をTsitsiklis (2002) に提案し、OPIの各イテレーションで訪れた全てのノードに関連する値を更新する。

We consider Markov Decision Processes (MDPs) in which every stationary policy induces the same graph structure for the underlying Markov chain and further, the graph has the following property: if we replace each recurrent class by a node, then the resulting graph is acyclic. For such MDPs, we prove the convergence of the stochastic dynamics associated with a version of optimistic policy iteration (OPI), suggested in Tsitsiklis (2002), in which the values associated with all the nodes visited during each iteration of the OPI are updated.
翻訳日:2021-04-05 00:26:54 公開日:2021-03-09
# ヒンディー語テキストにおける敵意検出のためのディープラーニングモデルの評価

Evaluation of Deep Learning Models for Hostility Detection in Hindi Text ( http://arxiv.org/abs/2101.04144v3 )

ライセンス: Link先を確認
Ramchandra Joshi, Rushabh Karnavat, Kaustubh Jirapure, Raviraj Joshi(参考訳) ソーシャルメディアプラットフォームは、個人的思考を表現し、有用な情報を共有するための便利な媒体である。 速くて簡潔で、数百万人に達する能力がある。 思想のアーカイブ、芸術的内容の共有、フィードバックの受け取り、商品の宣伝などに有効な場所である。 多くの利点があるにもかかわらず、これらのプラットフォームは敵対的な投稿を後押ししている。 憎しみの言葉や軽蔑的な発言は、個人的な満足や政治的利益のために投稿されている。 敵対的な投稿は、プラットフォーム全体の敵対的な体験をもたらすいじめ効果を持つ。 したがって、ソーシャルメディア衛生を維持するためには敵対的姿勢の検出が重要である。 問題は、リソースが少ないヒンディー語のようなより発音しやすい言語である。 本研究では,ヒンディー語における敵対的テキスト検出手法を提案する。 提案手法は、Constraint@AAAI 2021 Hindiホスト性検出データセットで評価される。 データセットは、ソーシャルメディアプラットフォームから収集された敵対的テキストと非敵対的テキストで構成されている。 敵のポストはさらに、偽物、攻撃的、憎しみ、および非難の重なり合うクラスに分離される。 この多ラベル分類問題に対して,CNN,LSTM,BERTに基づく深層学習手法のホストを評価した。 IndicNLPとFacebookによる事前訓練されたHindiの高速テキストワード埋め込みは、CNNやLSTMモデルと組み合わせて使用される。 事前訓練された多言語変換言語モデル mBERT と IndicBERT の2つのバリエーションが使用されている。 BERTをベースとしたモデルの性能が最良であることを示す。 さらに、CNNとLSTMモデルはBERTベースのモデルと競合する。

The social media platform is a convenient medium to express personal thoughts and share useful information. It is fast, concise, and has the ability to reach millions. It is an effective place to archive thoughts, share artistic content, receive feedback, promote products, etc. Despite having numerous advantages these platforms have given a boost to hostile posts. Hate speech and derogatory remarks are being posted for personal satisfaction or political gain. The hostile posts can have a bullying effect rendering the entire platform experience hostile. Therefore detection of hostile posts is important to maintain social media hygiene. The problem is more pronounced languages like Hindi which are low in resources. In this work, we present approaches for hostile text detection in the Hindi language. The proposed approaches are evaluated on the Constraint@AAAI 2021 Hindi hostility detection dataset. The dataset consists of hostile and non-hostile texts collected from social media platforms. The hostile posts are further segregated into overlapping classes of fake, offensive, hate, and defamation. We evaluate a host of deep learning approaches based on CNN, LSTM, and BERT for this multi-label classification problem. The pre-trained Hindi fast text word embeddings by IndicNLP and Facebook are used in conjunction with CNN and LSTM models. Two variations of pre-trained multilingual transformer language models mBERT and IndicBERT are used. We show that the performance of BERT based models is best. Moreover, CNN and LSTM models also perform competitively with BERT based models.
翻訳日:2021-04-04 14:49:48 公開日:2021-03-09
# (参考訳) フローベースコンシステンシーを用いた自己監督型容器の強化 [全文訳有]

Self-Supervised Vessel Enhancement Using Flow-Based Consistencies ( http://arxiv.org/abs/2101.05145v2 )

ライセンス: CC BY 4.0
Rohit Jena, Sumedha Singla, Kayhan Batmanghelich(参考訳) 血管セグメンテーションは多くの臨床応用において必須の課題である。 教師付き手法は最先端の性能を達成したが、専門家アノテーションの取得は困難であり、ほとんどはサンプルサイズが小さい2次元データセットに限られている。 それとは対照的に、教師なしの手法は管のような管状の構造を検出するために手作りの特徴に依存する。 しかし、これらのメソッドには複雑なパイプラインが必要であり、いくつかのハイパーパラメータと設計選択が、手順に敏感で、データセットに特有で、一般化できない。 本稿では,モダリティにまたがって一般化可能な超パラメータを限定した自己教師付き手法を提案する。 本手法は,学習アルゴリズムに帰納バイアスを導入するために,接続性,プロファイル整合性,分岐性などの管状構造特性を用いる。 これらの特性をモデル化するために、フローと呼ばれるベクトル場を生成する。 2次元および3次元の公開データセットを用いた実験により,ラベルなしデータから有用な特徴を学習しながら,教師なし手法よりも優れた性能を示す。 一般的な自己教師あり手法とは異なり、学習された特徴は教師付きアプローチで転送可能な容器関連特徴を学習する。

Vessel segmentation is an essential task in many clinical applications. Although supervised methods have achieved state-of-art performance, acquiring expert annotation is laborious and mostly limited for two-dimensional datasets with a small sample size. On the contrary, unsupervised methods rely on handcrafted features to detect tube-like structures such as vessels. However, those methods require complex pipelines involving several hyper-parameters and design choices rendering the procedure sensitive, dataset-specific, and not generalizable. We propose a self-supervised method with a limited number of hyper-parameters that is generalizable across modalities. Our method uses tube-like structure properties, such as connectivity, profile consistency, and bifurcation, to introduce inductive bias into a learning algorithm. To model those properties, we generate a vector field that we refer to as a flow. Our experiments on various public datasets in 2D and 3D show that our method performs better than unsupervised methods while learning useful transferable features from unlabeled data. Unlike generic self-supervised methods, the learned features learn vessel-relevant features that are transferable for supervised approaches, which is essential when the number of annotated data is limited.
翻訳日:2021-03-30 12:26:24 公開日:2021-03-09
# 深層強化学習のための異なる信頼領域層

Differentiable Trust Region Layers for Deep Reinforcement Learning ( http://arxiv.org/abs/2101.09207v2 )

ライセンス: Link先を確認
Fabian Otto, Philipp Becker, Ngo Anh Vien, Hanna Carolin Ziesche, and Gerhard Neumann(参考訳) 信頼領域メソッドは、連続的および離散的なアクションスペースにおいて堅牢なポリシー更新を提供するため、強化学習において一般的なツールである。 しかし,このような信頼領域を深層強化学習で強制することは困難である。 したがって、信頼地域政策最適化(TRPO)やPPO(Pximal Policy Optimization)といった多くのアプローチは近似に基づいている。 これらの近似により、それらは制約を破ったり、信頼領域内で最適な解を見つけられなかったりする。 さらに、それらは実装が難しく、しばしば十分な探索ができず、一見無関係な実装の選択に依存することが示されている。 本研究では,クローズド・フォーム・プロジェクションによる深いガウス政策の信頼領域を強制するニューラルネットワーク層を提案する。 既存の方法とは異なり、これらのレイヤは各状態の信頼領域を個別に形式化し、既存の強化学習アルゴリズムを補完することができる。 ガウス分布に対するkullback-leiblerの発散、wasserstein l2距離、およびフロベニウスノルムに基づく信頼領域の射影を導出する。 我々は、これらのプロジェクション層が、特定の実装選択にほとんど依存せず、既存のメソッドと類似またはより良い結果が得られることを実証的に示す。 コードはhttps://git.io/jthb0 で入手できる。

Trust region methods are a popular tool in reinforcement learning as they yield robust policy updates in continuous and discrete action spaces. However, enforcing such trust regions in deep reinforcement learning is difficult. Hence, many approaches, such as Trust Region Policy Optimization (TRPO) and Proximal Policy Optimization (PPO), are based on approximations. Due to those approximations, they violate the constraints or fail to find the optimal solution within the trust region. Moreover, they are difficult to implement, often lack sufficient exploration, and have been shown to depend on seemingly unrelated implementation choices. In this work, we propose differentiable neural network layers to enforce trust regions for deep Gaussian policies via closed-form projections. Unlike existing methods, those layers formalize trust regions for each state individually and can complement existing reinforcement learning algorithms. We derive trust region projections based on the Kullback-Leibler divergence, the Wasserstein L2 distance, and the Frobenius norm for Gaussian distributions. We empirically demonstrate that those projection layers achieve similar or better results than existing methods while being almost agnostic to specific implementation choices. The code is available at https://git.io/Jthb0 .
翻訳日:2021-03-20 17:12:46 公開日:2021-03-09
# (参考訳) AI Index 2021年次報告書

The AI Index 2021 Annual Report ( http://arxiv.org/abs/2103.06312v1 )

ライセンス: CC BY 4.0
Daniel Zhang, Saurabh Mishra, Erik Brynjolfsson, John Etchemendy, Deep Ganguli, Barbara Grosz, Terah Lyons, James Manyika, Juan Carlos Niebles, Michael Sellitto, Yoav Shoham, Jack Clark, Raymond Perrault(参考訳) AI Index Reportの第4版にようこそ。 今年はレポートで利用可能なデータの量を大幅に拡大し、私たちのデータを校正する外部組織と協力し、stanford institute for human-centered artificial intelligence(hai)とのつながりを深めました。 AI Index Reportは、人工知能に関連するデータを追跡、照合、蒸留、可視化する。 そのミッションは、政策立案者、研究者、幹部、ジャーナリスト、そして一般大衆にAIの複雑な分野に関する直観を開発するために、偏見のない、厳格に審査された、グローバルにソースされたデータを提供することだ。 このレポートは、世界で最も信頼できる、AIに関するデータと洞察の情報源になることを目指している。

Welcome to the fourth edition of the AI Index Report. This year we significantly expanded the amount of data available in the report, worked with a broader set of external organizations to calibrate our data, and deepened our connections with the Stanford Institute for Human-Centered Artificial Intelligence (HAI). The AI Index Report tracks, collates, distills, and visualizes data related to artificial intelligence. Its mission is to provide unbiased, rigorously vetted, and globally sourced data for policymakers, researchers, executives, journalists, and the general public to develop intuitions about the complex field of AI. The report aims to be the most credible and authoritative source for data and insights about AI in the world.
翻訳日:2021-03-13 01:19:35 公開日:2021-03-09
# (参考訳) HOT-VAE:意図に基づく変分オートエンコーダによる複数ラベル分類のための高次ラベル相関学習 [全文訳有]

HOT-VAE: Learning High-Order Label Correlation for Multi-Label Classification via Attention-Based Variational Autoencoders ( http://arxiv.org/abs/2103.06375v1 )

ライセンス: CC BY 4.0
Wenting Zhao, Shufeng Kong, Junwen Bai, Daniel Fink, and Carla Gomes(参考訳) 環境特性が生物多様性のパターンにどう影響するかを理解することは、地球規模の変化の緩和に不可欠である。 保全計画とモニタリングの中心的な目標は、種コミュニティの発生を正確に予測し、これらのコミュニティが空間と時間によってどのように変化するかを予測する能力である。 この結果、コンピュータ科学の分野では、何百ものラベルでac-curateマルチラベル分類を実行する方法 - 困難で長年にわたる問題につながりますか? この問題の鍵となる課題は、予測するラベルの数に関する指数的な出力空間であり、これまではラベル間の相関(または依存)を利用して学習プロセスを促進することが不可欠である。 以前の手法はラベルペアの相関のモデル化に主に焦点を合わせていたが、現実世界のオブジェクト間の複雑な関係はしばしば二階を越えている。 本稿では,適応型高次ラベル相関学習を行うマルチラベル分類のための新しいフレームワーク,high-order tie-in variational autoencoder (hot-vae)を提案する。 本モデルが従来のF1スコアとさまざまな生態学的指標の両方の鳥の分布データセットにおける既存の最先端のアプローチを上回っていることを実験的に検証した。 また,本手法が一般的であることを示すため,いくつかのアプリケーション領域において,他の7つの公開実世界のデータセットに対して経験的解析を行い,Hot-VAEは従来の手法よりも優れた性能を示す。

Understanding how environmental characteristics affect bio-diversity patterns, from individual species to communities of species, is critical for mitigating effects of global change. A central goal for conservation planning and monitoring is the ability to accurately predict the occurrence of species communities and how these communities change over space and time. This in turn leads to a challenging and long-standing problem in the field of computer science - how to perform ac-curate multi-label classification with hundreds of labels? The key challenge of this problem is its exponential-sized output space with regards to the number of labels to be predicted.Therefore, it is essential to facilitate the learning process by exploiting correlations (or dependency) among labels. Previous methods mostly focus on modelling the correlation on label pairs; however, complex relations between real-world objects often go beyond second order. In this paper, we pro-pose a novel framework for multi-label classification, High-order Tie-in Variational Autoencoder (HOT-VAE), which per-forms adaptive high-order label correlation learning. We experimentally verify that our model outperforms the existing state-of-the-art approaches on a bird distribution dataset on both conventional F1 scores and a variety of ecological metrics. To show our method is general, we also perform empirical analysis on seven other public real-world datasets in several application domains, and Hot-VAE exhibits superior performance to previous methods.
翻訳日:2021-03-12 19:24:59 公開日:2021-03-09
# (参考訳) 氷河のフロント検出とセグメンテーションのための画素間距離回帰 [全文訳有]

Pixel-wise Distance Regression for Glacier Calving Front Detection and Segmentation ( http://arxiv.org/abs/2103.05715v1 )

ライセンス: CC BY 4.0
Amirabbas Davari, Christoph Baller, Thorsten Seehaus, Matthias Braun, Andreas Maier, Vincent Christlein(参考訳) 氷河崩壊前位置 (CFP) は重要な氷河学的な変数である。 伝統的に、CFPの記述は手動で行われており、主観的で退屈で高価でした。 このプロセスの自動化は、氷河の進化と現状を継続的に監視するために重要である。 近年,本手法の深層学習への応用が検討されている。 しかし、現在のメソッドは厳しいクラスアンバランスの問題に直面する。 本研究では,セグメンテーション問題を画素方向回帰タスクに再構成することにより,カルビングフロントクラスと非カルビングフロントクラスとの間のクラス不均衡を軽減することを提案する。 畳み込みニューラルネットワークは、画像の各画素に対する氷河面の距離値を予測するために最適化される。 得られた距離マップはCFPをローカライズし、さらに後処理して曲線の先頭線を抽出する。 本稿では,3つの後処理手法,統計しきい値に基づく1つの方法,条件付き乱数場(CRF)に基づく2番目の方法,そして最後に第2のU-Netを使用する方法を提案する。 実験の結果,本手法は最先端手法を著しく上回っており,正確なデライン化が得られていることがわかった。 第2のU-Netは最高の性能が得られるので、平均的な21%のダイス係数向上が得られる。

Glacier calving front position (CFP) is an important glaciological variable. Traditionally, delineating the CFPs has been carried out manually, which was subjective, tedious and expensive. Automating this process is crucial for continuously monitoring the evolution and status of glaciers. Recently, deep learning approaches have been investigated for this application. However, the current methods get challenged by a severe class-imbalance problem. In this work, we propose to mitigate the class-imbalance between the calving front class and the non-calving front class by reformulating the segmentation problem into a pixel-wise regression task. A Convolutional Neural Network gets optimized to predict the distance values to the glacier front for each pixel in the image. The resulting distance map localizes the CFP and is further post-processed to extract the calving front line. We propose three post-processing methods, one method based on statistical thresholding, a second method based on conditional random fields (CRF), and finally the use of a second U-Net. The experimental results confirm that our approach significantly outperforms the state-of-the-art methods and produces accurate delineation. The Second U-Net obtains the best performance results, resulting in an average improvement of about 21% dice coefficient enhancement.
翻訳日:2021-03-12 15:18:20 公開日:2021-03-09
# (参考訳) 計画によるエンドツーエンドの人間運動予測器の補完について [全文訳有]

On complementing end-to-end human motion predictors with planning ( http://arxiv.org/abs/2103.05661v1 )

ライセンス: CC BY 4.0
Liting Sun, Xiaogang Jia, Anca D. Dragan(参考訳) 人間の運動予測のための高容量エンドツーエンドアプローチは、人間の行動における微妙なニュアンスを表現する能力を持つが、分布入力やテールイベントから外れた頑健さに苦しむ。 一方、計画に基づく予測は、分布シフトの面においてはるかに安定しているが、誘導バイアスが高く、人間の決定を駆動する重要な側面が欠如しており、人間の振る舞いを最適にするための認知バイアスを無視している。 本研究では,両世界のベストを目指すアプローチの1つのファミリを分析する。一般的なケースでエンドツーエンドの予測器を使うが,テールイベントやアウトオブディストリビューション入力には依存しない - そこに計画ベースの予測器に切り替える。 我々は、自動運転ドメインを用いて、この切り替えをいつ行うかを検出するための、異なるアプローチの分析に寄与する。 トレーニング分布のアンサンブルや生成的モデリングに基づく有望なアプローチは信頼性が低いかも知れないが、予測された軌跡の終末問題に対処するための分類器を訓練するなど、驚くほどうまく機能する非常に単純な方法が存在する。

High capacity end-to-end approaches for human motion prediction have the ability to represent subtle nuances in human behavior, but struggle with robustness to out of distribution inputs and tail events. Planning-based prediction, on the other hand, can reliably output decent-but-not-great predictions: it is much more stable in the face of distribution shift, but it has high inductive bias, missing important aspects that drive human decisions, and ignoring cognitive biases that make human behavior suboptimal. In this work, we analyze one family of approaches that strive to get the best of both worlds: use the end-to-end predictor on common cases, but do not rely on it for tail events / out-of-distribution inputs -- switch to the planning-based predictor there. We contribute an analysis of different approaches for detecting when to make this switch, using an autonomous driving domain. We find that promising approaches based on ensembling or generative modeling of the training distribution might not be reliable, but that there very simple methods which can perform surprisingly well -- including training a classifier to pick up on tell-tale issues in predicted trajectories.
翻訳日:2021-03-12 11:48:31 公開日:2021-03-09
# (参考訳) プレイヤーモデリングのためのアクションモデル学習に向けて [全文訳有]

Towards Action Model Learning for Player Modeling ( http://arxiv.org/abs/2103.05682v1 )

ライセンス: CC BY 4.0
Abhijeet Krishnan, Aaron Williams, Chris Martens(参考訳) プレイヤーモデリングは、ゲームにおけるプレイヤーの振る舞いを正確に近似する計算モデルを作ろうとする。 ほとんどのプレイヤーモデリング技術はドメイン知識に依存しており、ゲーム間で転送できない。 加えて、プレイヤーモデルは現在、心的モデルの作成や洗練など、プレイヤーの認知過程に関する説明的な洞察を与えていない。 本稿では、アクションモデル学習(AML)を用いて、プレイトレースの形式で与えられたデータからアクションモデルが学習され、プレイヤーモデルをドメインに依存しない方法で学習する。 プレイヤーがゲームの仕組みをいかによく理解しているかを定量的に推定する手法を導入することで,このモデルの有用性を実証する。 プレイヤーモデリングのための既存のAMLアルゴリズム(FAMA)を評価し、プレイヤー認知に触発されたBlackoutと呼ばれる新しいアルゴリズムを開発する。 我々はパズルゲームsokobanを用いてblackoutとfamaを比較し、blackoutがより良いプレイヤーモデルを生成することを示した。

Player modeling attempts to create a computational model which accurately approximates a player's behavior in a game. Most player modeling techniques rely on domain knowledge and are not transferable across games. Additionally, player models do not currently yield any explanatory insight about a player's cognitive processes, such as the creation and refinement of mental models. In this paper, we present our findings with using action model learning (AML), in which an action model is learned given data in the form of a play trace, to learn a player model in a domain-agnostic manner. We demonstrate the utility of this model by introducing a technique to quantitatively estimate how well a player understands the mechanics of a game. We evaluate an existing AML algorithm (FAMA) for player modeling and develop a novel algorithm called Blackout that is inspired by player cognition. We compare Blackout with FAMA using the puzzle game Sokoban and show that Blackout generates better player models.
翻訳日:2021-03-12 09:51:30 公開日:2021-03-09
# (参考訳) 時間探索アルゴリズムの機械学習 [全文訳有]

Machine Learning the period finding algorithm ( http://arxiv.org/abs/2103.05708v1 )

ライセンス: CC BY 4.0
John George Francis and Anil Shaji(参考訳) 我々は、微分可能プログラミングと勾配降下を用いて、オラクルの量子コンピュータのポストアプリケーションの状態から周期情報を抽出するための時間探索アルゴリズムで使用できるユニタリ行列を見つける。 標準的な手順は逆量子フーリエ変換を使うことである。 本研究では, 周期探索アルゴリズムに適した一元行列はこれが唯一のものではないことを示唆し, 同一の変換に影響を与えることができる複数の一元行列が存在し, それらも有意に異なる。 これらの一元行列はアルゴリズムによって学習することができる。 ニューラルネットワークは、そのようなユニタリ行列とランダムに生成された行列を区別するために適用することができ、これらのユニタリは容易に識別できない特徴を持っていることを示している。

We use differentiable programming and gradient descent to find unitary matrices that can be used in the period finding algorithm to extract period information from the state of a quantum computer post application of the oracle. The standard procedure is to use the inverse quantum Fourier transform. Our findings suggest that that this is not the only unitary matrix appropriate for the period finding algorithm, There exist several unitary matrices that can affect out the same transformation and they are significantly different from each other as well. These unitary matrices can be learned by an algorithm. Neural networks can be applied to differentiate such unitary matrices from randomly generated ones indicating that these unitaries do have characteristic features that cannot otherwise be discerned easily.
翻訳日:2021-03-12 09:35:19 公開日:2021-03-09
# (参考訳) 単調アルファダイバージェンス最小化 [全文訳有]

Monotonic Alpha-divergence Minimisation ( http://arxiv.org/abs/2103.05684v1 )

ライセンス: CC BY 4.0
Kam\'elia Daudel, Randal Douc and Fran\c{c}ois Roueff(参考訳) 本稿では,各ステップにおける$\alpha$-divergenceの体系的減少を保証することにより,$\alpha$-divergence 最小化を行う新しい反復アルゴリズムを提案する。 最も一般的な形式で、我々のフレームワークは与えられた混合モデルの重みと成分パラメータを同時に最適化することができる。 特に,グラデーションやパワー降下スキームなどの$\alpha$-divergence最小化のために提案されている様々な手法を構築可能である。 さらに,統合期待最大化アルゴリズムに新たな光を当てた。 我々の方法論が改良された結果をもたらすという実証的な証拠を提供する一方で、$\alpha$-divergence のパラメータ $\alpha$ を通じて柔軟性を導入することの数値的な利点を示す。

In this paper, we introduce a novel iterative algorithm which carries out $\alpha$-divergence minimisation by ensuring a systematic decrease in the $\alpha$-divergence at each step. In its most general form, our framework allows us to simultaneously optimise the weights and components parameters of a given mixture model. Notably, our approach permits to build on various methods previously proposed for $\alpha$-divergence minimisation such as gradient or power descent schemes. Furthermore, we shed a new light on an integrated Expectation Maximization algorithm. We provide empirical evidence that our methodology yields improved results, all the while illustrating the numerical benefits of having introduced some flexibility through the parameter $\alpha$ of the $\alpha$-divergence.
翻訳日:2021-03-12 04:12:59 公開日:2021-03-09
# (参考訳) 感情で音楽を生成する学習 [全文訳有]

Learning to Generate Music With Sentiment ( http://arxiv.org/abs/2103.06125v1 )

ライセンス: CC BY 4.0
Lucas N. Ferreira, Jim Whitehead(参考訳) ディープラーニングモデルは、ポリフォニック音楽の自動作曲において非常に有望な結果を示している。 しかし、そのようなモデルを制御することは、構成を望ましい目標に向けて導くために非常に困難である。 私たちは、与えられた感情で自動的に音楽を生成するモデルを制御することに興味があります。 本稿では,特定の感情で音楽を構成するための生成的深層学習モデルを提案する。 音楽生成の他に、シンボリック音楽の感情分析にも同じモデルを用いることができる。 ビデオゲームのサウンドトラックの新たなデータセットを用いて,シンボリック音楽の感情を分類するモデルの精度を評価する。 その結果, 予測精度が良好であることが判明した。 ユーザー調査によると、人間の被験者は、生成された音楽が意図された感情を持っていることに合意しましたが、否定的な部分は曖昧です。

Deep Learning models have shown very promising results in automatically composing polyphonic music pieces. However, it is very hard to control such models in order to guide the compositions towards a desired goal. We are interested in controlling a model to automatically generate music with a given sentiment. This paper presents a generative Deep Learning model that can be directed to compose music with a given sentiment. Besides music generation, the same model can be used for sentiment analysis of symbolic music. We evaluate the accuracy of the model in classifying sentiment of symbolic music using a new dataset of video game soundtracks. Results show that our model is able to obtain good prediction accuracy. A user study shows that human subjects agreed that the generated music has the intended sentiment, however negative pieces can be ambiguous.
翻訳日:2021-03-12 02:09:37 公開日:2021-03-09
# (参考訳) 非線形散逸を伴う時変電気ネットワークの勾配推定器 [全文訳有]

A Gradient Estimator for Time-Varying Electrical Networks with Non-Linear Dissipation ( http://arxiv.org/abs/2103.05636v1 )

ライセンス: CC BY 4.0
Jack Kendall(参考訳) 定点ニューラルネットワークにおける勾配推定のための平衡伝搬の手法を,電気回路としてモデル化することにより,有向時間変動ニューラルネットワークのより一般的な設定に拡張する方法を提案する。 非線形キャパシタとインダクタ、線形抵抗器とソースをモデルとした深い指向型ニューラルネットワークと、分数型メmristorと呼ばれる特殊な非線形散逸要素を記述できるラグランジアンを電気回路理論を用いて構築する。 次に、任意の損失関数に関して、シナプス伝導率などのネットワークの物理パラメータの勾配の推定子を導出する。 この推定器は完全に局所的であり、各シナプスにローカルに利用可能な情報にのみ依存する。 我々は、これらの結果を生物学的に可塑性なニューロンのネットワークに拡張する方法を提案する。 Hodgkin-Huxleyニューロン。

We propose a method for extending the technique of equilibrium propagation for estimating gradients in fixed-point neural networks to the more general setting of directed, time-varying neural networks by modeling them as electrical circuits. We use electrical circuit theory to construct a Lagrangian capable of describing deep, directed neural networks modeled using nonlinear capacitors and inductors, linear resistors and sources, and a special class of nonlinear dissipative elements called fractional memristors. We then derive an estimator for the gradient of the physical parameters of the network, such as synapse conductances, with respect to an arbitrary loss function. This estimator is entirely local, in that it only depends on information locally available to each synapse. We conclude by suggesting methods for extending these results to networks of biologically plausible neurons, e.g. Hodgkin-Huxley neurons.
翻訳日:2021-03-11 22:10:12 公開日:2021-03-09
# (参考訳) AI Arena - 分散マルチエージェント強化学習のためのフレームワーク [全文訳有]

The AI Arena: A Framework for Distributed Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2103.05737v1 )

ライセンス: CC BY 4.0
Edward W. Staley, Corban G.Rivera, Ashley J. Llorens(参考訳) 強化学習(RL)の進歩は、多くの異なるドメインにわたる人工知能(AI)の適用における最近のブレークスルーをもたらしました。 開発環境の新たな展望により、強力なrl技術が研究者のコミュニティにもっとアクセスしやすくなっている。 しかし、既存のフレームワークの多くは、分散した異質なエージェントチームを含む、密集した都市設定や防衛関連のシナリオのような複雑な運用環境での学習の問題を直接扱うものではない。 この重要なアプリケーションのAI研究を可能にするために、分散マルチエージェント強化学習のための柔軟な抽象化を備えたスケーラブルなフレームワークであるAI Arenaを紹介します。 AI ArenaはOpenAI Gymインターフェースを拡張して、異種学習戦略と環境のローカライズドビューを備えた複数のエージェントにわたるコントロールポリシの学習の柔軟性を高める。 本フレームワークの有用性を説明するために,複数の異なる学習環境において,分散マルチエージェント学習アプローチによるパフォーマンス向上を実証した実験結果を提示した。

Advances in reinforcement learning (RL) have resulted in recent breakthroughs in the application of artificial intelligence (AI) across many different domains. An emerging landscape of development environments is making powerful RL techniques more accessible for a growing community of researchers. However, most existing frameworks do not directly address the problem of learning in complex operating environments, such as dense urban settings or defense-related scenarios, that incorporate distributed, heterogeneous teams of agents. To help enable AI research for this important class of applications, we introduce the AI Arena: a scalable framework with flexible abstractions for distributed multi-agent reinforcement learning. The AI Arena extends the OpenAI Gym interface to allow greater flexibility in learning control policies across multiple agents with heterogeneous learning strategies and localized views of the environment. To illustrate the utility of our framework, we present experimental results that demonstrate performance gains due to a distributed multi-agent learning approach over commonly-used RL techniques in several different learning environments.
翻訳日:2021-03-11 21:54:13 公開日:2021-03-09
# (参考訳) 不確実性の制約ベイズ最適化のためのサンプリング基準 [全文訳有]

A sampling criterion for constrained Bayesian optimization with uncertainties ( http://arxiv.org/abs/2103.05706v1 )

ライセンス: CC BY 4.0
Reda El Amri, Rodolphe Le Riche, C\'eline Helbert, Christophette Blanchet-Scalliet(参考訳) 我々は、関数を最適化し、制約を満たすことが求められている確率制約最適化の問題を検討する。 この問題の現実世界の偏角は、固有の計算コストのために特に困難です。 そこで本研究では,ベイズ最適化手法を提案する。 これは、いくつかの入力から不確実性が生じる状況に適用され、ジョイント制御非制御入力空間における取得基準を定義することができる。 この研究の主な貢献は、客観的関数の平均的改善と制約信頼性の両方を考慮に入れた買収基準である。 基準はステップワイズ不確実性還元論理に従って導出され、その最大化は最適制御パラメータと制御不能パラメータの両方を提供する。 評価基準を効率的に計算するために分析式が与えられる。 実験関数に関する数値的研究を行う。 サンプリング基準と問題との対応が全体の最適化の効率に寄与することを示す, 代替サンプリング基準との実験的比較を行った。 その結果、改善のばらつきを表す表現が与えられる。

We consider the problem of chance constrained optimization where it is sought to optimize a function and satisfy constraints, both of which are affected by uncertainties. The real world declinations of this problem are particularly challenging because of their inherent computational cost. To tackle such problems, we propose a new Bayesian optimization method. It applies to the situation where the uncertainty comes from some of the inputs, so that it becomes possible to define an acquisition criterion in the joint controlled-uncontrol led input space. The main contribution of this work is an acquisition criterion that accounts for both the average improvement in objective function and the constraint reliability. The criterion is derived following the Stepwise Uncertainty Reduction logic and its maximization provides both optimal controlled and uncontrolled parameters. Analytical expressions are given to efficiently calculate the criterion. Numerical studies on test functions are presented. It is found through experimental comparisons with alternative sampling criteria that the adequation between the sampling criterion and the problem contributes to the efficiency of the overall optimization. As a side result, an expression for the variance of the improvement is given.
翻訳日:2021-03-11 21:07:32 公開日:2021-03-09
# (参考訳) NaroNet:高多重免疫染色画像による腫瘍微小環境の客観的学習

NaroNet: Objective-based learning of the tumor microenvironment from highly multiplexed immunostained images ( http://arxiv.org/abs/2103.05385v1 )

ライセンス: CC BY 4.0
Daniel Jim\'enez-S\'anchez, Mikel Ariz, Hang Chang, Xavier Matias-Guiu, Carlos E. de Andrea and Carlos Ortiz-de-Sol\'orzano(参考訳) NaroNetは、マルチスケール空間を統合した機械学習フレームワークであり、腫瘍微小環境(TME)と患者レベルの予測をシームレスなエンドツーエンドの学習パイプラインに統合します。 NaroNetは患者レベルのラベルだけで訓練され、予測タスクに最も影響を与える表現型、近傍、近隣の相互作用を定量化する。 異なるTMEの確率的発生を調節可能な多重免疫染色画像の合成データを用いて,NaroNetの検証を行った。 そこで本研究では,高品位子宮内膜癌12例の336個の7色多重免疫染色像と,乳癌283例の372個の35倍の集団細胞診像からなる2種類の患者腫瘍について検討した。 合成データセットと実データセットの両方において、NaroNetはこれらの予測を特定のTMEの存在に関連付けながら優れた予測を提供します。 この内在的な解釈性は、臨床場面でも、新しいバイオマーカーのシグネチャを発見するツールとしても非常に有用である。

We present NaroNet, a Machine Learning framework that integrates the multiscale spatial, in situ analysis of the tumor microenvironment (TME) with patient-level predictions into a seamless end-to-end learning pipeline. Trained only with patient-level labels, NaroNet quantifies the phenotypes, neighborhoods, and neighborhood interactions that have the highest influence on the predictive task. We validate NaroNet using synthetic data simulating multiplex-immunostai ned images with adjustable probabilistic incidence of different TMEs. Then we apply our model to two real sets of patient tumors, one consisting of 336 seven-color multiplex-immunostai ned images from 12 high-grade endometrial cancers, and the other consisting of 372 35-plex mass cytometry images from 283 breast cancer patients. In both synthetic and real datasets, NaroNet provides outstanding predictions while associating those predictions to the presence of specific TMEs. This inherent interpretability could be of great value both in a clinical setting and as a tool to discover novel biomarker signatures.
翻訳日:2021-03-11 18:24:06 公開日:2021-03-09
# (参考訳) 文の重要度を利用した文書レベル感性分類の改善 [全文訳有]

Improving Document-Level Sentiment Classification Using Importance of Sentences ( http://arxiv.org/abs/2103.05167v1 )

ライセンス: CC BY 4.0
Gihyeon Choi, Shinhyeok Oh and Harksoo Kim(参考訳) 従来の研究者は、感情分析は文書分類タスクであり、入力された文書を予め定義された感情クラスに分類する。 文書には感情分析の重要な証拠を裏付ける文とそうでない文があるが、彼らは文書を文の袋として扱っている。 言い換えれば、彼らは文書内の各文の重要性を考慮していません。 文書の極性を効果的に決定するためには、文書内の各文は異なる重要度で扱われるべきである。 この問題に対処するため,深層ニューラルネットワークに基づく文書レベルの文分類モデルを提案し,ゲート機構を用いて文書中の文の重要度を自動的に決定する。 新しい感情分析モデルを検証するために、映画レビュー、ホテルレビュー、レストランレビュー、音楽レビューなどの4つの異なるドメインの感情データセットを使用して実験を行いました。 実験では,提案手法は文書中の文の重要さを考慮しない従来の最先端モデルよりも優れていた。 実験の結果,文書レベルの感情分類タスクでは文の重要性を考慮すべきであることがわかった。

Previous researchers have considered sentiment analysis as a document classification task, in which input documents are classified into predefined sentiment classes. Although there are sentences in a document that support important evidences for sentiment analysis and sentences that do not, they have treated the document as a bag of sentences. In other words, they have not considered the importance of each sentence in the document. To effectively determine polarity of a document, each sentence in the document should be dealt with different degrees of importance. To address this problem, we propose a document-level sentence classification model based on deep neural networks, in which the importance degrees of sentences in documents are automatically determined through gate mechanisms. To verify our new sentiment analysis model, we conducted experiments using the sentiment datasets in the four different domains such as movie reviews, hotel reviews, restaurant reviews, and music reviews. In the experiments, the proposed model outperformed previous state-of-the-art models that do not consider importance differences of sentences in a document. The experimental results show that the importance of sentences should be considered in a document-level sentiment classification task.
翻訳日:2021-03-11 17:08:12 公開日:2021-03-09
# (参考訳) 古典から階層へ:国際計画コンペティションのHTNトラックのベンチマーク [全文訳有]

From Classical to Hierarchical: benchmarks for the HTN Track of the International Planning Competition ( http://arxiv.org/abs/2103.05481v1 )

ライセンス: CC BY 4.0
Damien Pellier, Humbert Fiorino(参考訳) 本稿では,2020年の第1回国際計画コンペティションの階層的計画トラックに提出された9つの古典的ベンチマークについて概説する。 これらのベンチマークはすべてHDDL言語に基づいている。 ベンチマークの選択は、HTNコミュニティに送られたアンケートに基づいています。 バーマン、チャイルドスナック、ローバー、サテライト、ブロックワールド、デポ、グリッパー、ハイキングである。 残りの論文では、これらのベンチマークについて簡単に説明します。 すべて完全注文です。

In this short paper, we outline nine classical benchmarks submitted to the first hierarchical planning track of the International Planning competition in 2020. All of these benchmarks are based on the HDDL language. The choice of the benchmarks was based on a questionnaire sent to the HTN community. They are the following: Barman, Childsnack, Rover, Satellite, Blocksworld, Depots, Gripper, and Hiking. In the rest of the paper we give a short description of these benchmarks. All are totally ordered.
翻訳日:2021-03-11 16:57:26 公開日:2021-03-09
# (参考訳) 深層学習モデルのカスケードを用いた異常要素検出 [全文訳有]

Anomalous entities detection using a cascade of deep learning models ( http://arxiv.org/abs/2103.05164v1 )

ライセンス: CC BY 4.0
Hamza Riaz, Muhammad Uzair and Habib Ullah(参考訳) 通常の行動に従わない人間の行動は異常と見なされ、そのような行為を異常行為と呼ぶ。 視覚データを用いた異常物体の検出はコンピュータビジョンにおける課題である。 本稿では,試験ホールの複雑な状況において異常を検知する新しい手法を提案する。 提案手法は,深層畳み込みニューラルネットワークモデルのカスケードを用いる。 第1段階では,ビデオのフレーム上で人間のポーズ推定の事前学習モデルを適用し,身体の特徴点を抽出する。 各キーポイントから抽出されたパッチを第2段階で利用し、高密度に結合した深い畳み込みニューラルネットワークモデルを構築し、異常物質を検出する。 実験のために,ホールで受験した学生のビデオデータベースを収集する。 提案手法は異常な物体を検知し,異常な挙動を高精度に保証できることを示す。

Human actions that do not conform to usual behavior are considered as anomalous and such actors are called anomalous entities. Detection of anomalous entities using visual data is a challenging problem in computer vision. This paper presents a new approach to detect anomalous entities in complex situations of examination halls. The proposed method uses a cascade of deep convolutional neural network models. In the first stage, we apply a pretrained model of human pose estimation on frames of videos to extract key feature points of body. Patches extracted from each key point are utilized in the second stage to build a densely connected deep convolutional neural network model for detecting anomalous entities. For experiments we collect a video database of students undertaking examination in a hall. Our results show that the proposed method can detect anomalous entities and warrant unusual behavior with high accuracy.
翻訳日:2021-03-11 16:43:33 公開日:2021-03-09
# (参考訳) 深層強化学習による表現接地参照のための反復シュリンキング [全文訳有]

Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning ( http://arxiv.org/abs/2103.05187v1 )

ライセンス: CC BY 4.0
Mingjie Sun, Jimin Xiao, Eng Gee Lim(参考訳) 本稿では,対象オブジェクトをクエリ文に従ってローカライズすることを目的とした,提案不要な参照表現基底タスクに,既定のオブジェクト提案を頼らずに対処する。 既存の提案なしの方法は、クエリーイメージマッチングブランチを使用して、イメージ機能マップの最高スコアポイントをターゲットボックスセンターとして選択し、その幅と高さを別のブランチで予測します。 しかし、そのようなメソッドは、対象オブジェクトと参照オブジェクトの間のコンテキスト関係を利用できず、その推論手順の解釈可能性に欠けている。 そこで本研究では,既存の画像パッチ内の全ての内容を総合的に検討し,強化学習エージェントにより縮小方向を決定するターゲットを局所化する反復縮小機構を提案する。 同時に、シーケンシャルな縮小プロセスは、ターゲットを反復的に見つける方法に関する推論を実証することを可能にする。 実験では、この手法は、クエリ文が長く複雑なRefCOCOgデータセットの以前の最新(SOTA)メソッドに対して4.32%の精度を向上し、他の参照オブジェクトから多くのターゲットが参照されている。

In this paper, we are tackling the proposal-free referring expression grounding task, aiming at localizing the target object according to a query sentence, without relying on off-the-shelf object proposals. Existing proposal-free methods employ a query-image matching branch to select the highest-score point in the image feature map as the target box center, with its width and height predicted by another branch. Such methods, however, fail to utilize the contextual relation between the target and reference objects, and lack interpretability on its reasoning procedure. To solve these problems, we propose an iterative shrinking mechanism to localize the target, where the shrinking direction is decided by a reinforcement learning agent, with all contents within the current image patch comprehensively considered. Beside, the sequential shrinking process enables to demonstrate the reasoning about how to iteratively find the target. Experiments show that the proposed method boosts the accuracy by 4.32% against the previous state-of-the-art (SOTA) method on the RefCOCOg dataset, where query sentences are long and complex, with many targets referred by other reference objects.
翻訳日:2021-03-11 16:38:42 公開日:2021-03-09
# (参考訳) 視覚注意予測のためのバイオインスパイア表現学習 [全文訳有]

Bio-Inspired Representation Learning for Visual Attention Prediction ( http://arxiv.org/abs/2103.05310v1 )

ライセンス: CC BY 4.0
Yuan Yuan, Hailong Ning, and Xiaoqiang Lu(参考訳) 視覚的注意予測(VAP)は、コンピュータビジョンの分野で重要かつ不可欠な問題です。 既存のVAPメソッドのほとんどはディープラーニングに基づいている。 しかし、視覚的注意マップを生成しながら、低レベルのコントラスト特徴を完全に活用するわけではない。 本稿では,バイオインスパイアされた表現学習による視覚的注意マップ作成のための新しいVAP手法を提案する。 バイオインスパイアされた表現学習は低レベルのコントラストと高レベルのセマンティックな特徴を同時に組み合わせ、人間の目は高いコントラストを持つパッチと高いセマンティクスを持つオブジェクトに敏感であるという事実によって発展した。 提案手法は, 特徴抽出, 2) バイオインスパイアされた表現学習, 3) 視覚的注意マップ生成の3段階からなる。 まず、洗練されたvgg16から高レベル意味特徴を抽出し、深層ネットワークにおいて提案するコントラスト特徴抽出ブロックにより低レベルのコントラスト特徴を抽出する。 次に、バイオインスパイア表現学習において、抽出された低レベルコントラストと高レベルセマンティクス特徴の両方を、様々な特徴をスケールで結合するために提案される密結合ブロックによって結合する。 最後に、重み付き融合層を使用して、バイオインスパイアされた表現学習後に得られた表現に基づいて究極の視覚的注意マップを生成します。 提案手法の有効性を示すため,広範な実験を行った。

Visual Attention Prediction (VAP) is a significant and imperative issue in the field of computer vision. Most of existing VAP methods are based on deep learning. However, they do not fully take advantage of the low-level contrast features while generating the visual attention map. In this paper, a novel VAP method is proposed to generate visual attention map via bio-inspired representation learning. The bio-inspired representation learning combines both low-level contrast and high-level semantic features simultaneously, which are developed by the fact that human eye is sensitive to the patches with high contrast and objects with high semantics. The proposed method is composed of three main steps: 1) feature extraction, 2) bio-inspired representation learning and 3) visual attention map generation. Firstly, the high-level semantic feature is extracted from the refined VGG16, while the low-level contrast feature is extracted by the proposed contrast feature extraction block in a deep network. Secondly, during bio-inspired representation learning, both the extracted low-level contrast and high-level semantic features are combined by the designed densely connected block, which is proposed to concatenate various features scale by scale. Finally, the weighted-fusion layer is exploited to generate the ultimate visual attention map based on the obtained representations after bio-inspired representation learning. Extensive experiments are performed to demonstrate the effectiveness of the proposed method.
翻訳日:2021-03-11 16:22:43 公開日:2021-03-09
# (参考訳) PointDSC: 深部空間一貫性を用いたロバストポイントクラウド登録 [全文訳有]

PointDSC: Robust Point Cloud Registration using Deep Spatial Consistency ( http://arxiv.org/abs/2103.05465v1 )

ライセンス: CC0 1.0
Xuyang Bai, Zixin Luo, Lei Zhou, Hongkai Chen, Lei Li, Zeyu Hu, Hongbo Fu, Chiew-Lan Tai(参考訳) 外乱対応を取り除くことは、機能ベースのポイントクラウド登録を成功させるための重要なステップの1つである。 この分野では深層学習が普及しているにもかかわらず、点雲間のユークリッド変換によって本質的に確立された空間整合性は、既存の学習フレームワークでほとんど注目されていない。 本論文では,空間整合性を明示的に組み込んだ深層ニューラルネットワークであるPointDSCについて述べる。 まず,非局所的特徴集合モジュールを提案し,その特徴と空間的コヒーレンスを重み付けて,入力対応の特徴埋め込みを行う。 第二に、組込み特徴から各対応のインリエントな信頼性を推定するために、ペアワイズ空間互換性によって監視される微分可能なスペクトルマッチングモジュールを定式化する。 計算コストはささやかなため,本手法は実世界のいくつかのデータセットにおける最先端の手作りおよび学習に基づく異常な拒絶アプローチをかなりのマージンで上回っている。 また、PointDSCと異なる3Dローカルディスクリプタを組み合わせることで、その幅広い適用性を示す。

Removing outlier correspondences is one of the critical steps for successful feature-based point cloud registration. Despite the increasing popularity of introducing deep learning methods in this field, spatial consistency, which is essentially established by a Euclidean transformation between point clouds, has received almost no individual attention in existing learning frameworks. In this paper, we present PointDSC, a novel deep neural network that explicitly incorporates spatial consistency for pruning outlier correspondences. First, we propose a nonlocal feature aggregation module, weighted by both feature and spatial coherence, for feature embedding of the input correspondences. Second, we formulate a differentiable spectral matching module, supervised by pairwise spatial compatibility, to estimate the inlier confidence of each correspondence from the embedded features. With modest computation cost, our method outperforms the state-of-the-art hand-crafted and learning-based outlier rejection approaches on several real-world datasets by a significant margin. We also show its wide applicability by combining PointDSC with different 3D local descriptors.
翻訳日:2021-03-11 15:52:14 公開日:2021-03-09
# 野生における表現認識のための多解法

A Multi-resolution Approach to Expression Recognition in the Wild ( http://arxiv.org/abs/2103.05723v1 )

ライセンス: Link先を確認
Fabio Valerio Massoli, Donato Cafarelli, Giuseppe Amato, Fabrizio Falchi(参考訳) 顔表現は人間のコミュニケーションにおいて基本的な役割を担います。 実際、彼らは通常、話し言葉以外の人々の真の感情状態を明らかにする。 さらに、視覚的パターンに基づく人間の感情の理解は、人間と機械の相互作用システムにとって重要な要素であり、このような理由から、表情認識(FER)の課題は科学と産業の両方の関心を惹きつける。 近年、Deep Learningの技術は、異なるアーキテクチャと学習パラダイムを利用して、FERで非常に高いパフォーマンスを達成しました。 このような状況下では、FERタスクを解決するためのマルチリゾリューションアプローチを提案する。 私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。 したがって、モデルをトレーニングしながらその特性を直接考慮することで、表情認識において高いパフォーマンスを達成することができる。 我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitati onブロックを備えたResNetのようなアーキテクチャを使用する。 テストセットが利用できないため、データセットを構成する7つの表現の分類において90%以上の精度を達成できるバリデーションセットのみを使用して、テストとモデル選択を行います。

Facial expressions play a fundamental role in human communication. Indeed, they typically reveal the real emotional status of people beyond the spoken language. Moreover, the comprehension of human affect based on visual patterns is a key ingredient for any human-machine interaction system and, for such reasons, the task of Facial Expression Recognition (FER) draws both scientific and industrial interest. In the recent years, Deep Learning techniques reached very high performance on FER by exploiting different architectures and learning paradigms. In such a context, we propose a multi-resolution approach to solve the FER task. We ground our intuition on the observation that often faces images are acquired at different resolutions. Thus, directly considering such property while training a model can help achieve higher performance on recognizing facial expressions. To our aim, we use a ResNet-like architecture, equipped with Squeeze-and-Excitati on blocks, trained on the Affect-in-the-Wild 2 dataset. Not being available a test set, we conduct tests and models selection by employing the validation set only on which we achieve more than 90\% accuracy on classifying the seven expressions that the dataset comprises.
翻訳日:2021-03-11 15:07:37 公開日:2021-03-09
# beyond nystr\"omformer --スペクトルシフトによる自己アテンションの近似

Beyond Nystr\"omformer -- Approximation of self-attention by Spectral Shifting ( http://arxiv.org/abs/2103.05638v1 )

ライセンス: Link先を確認
Madhusudan Verma(参考訳) トランスフォーマーは多くの自然言語タスクの強力なツールであり、各トークンに対する他のトークンの依存をエンコードするメカニズムであるセルフアテンションに基づいているが、自己アテンションの計算はその二次時間の複雑さのためにボトルネックとなる。 行列の時間的複雑さと近似を減少させる方法は様々である。 Nystr\"omformerでは、著者はSoftmaxの近似にNystr\"omベースの方法を使用した。 Nystr\"om 法はSPSD行列のいくつかの列のみを用いて任意の大規模対称正半定行列に対する高速近似を生成する。 しかし、SPSD行列のスペクトルがゆっくりと減衰すると、Nystr\"om近似は低ランクであるため、Nystr\"om近似は低精度である。 ここでは、nystr\"om法よりもはるかに強い誤差境界を持つ近似に対する代替法を提案する。 この時間の複雑さは Nystr\"omformer と同じで、$O\left({n}\right)$ である。

Transformer is a powerful tool for many natural language tasks which is based on self-attention, a mechanism that encodes the dependence of other tokens on each specific token, but the computation of self-attention is a bottleneck due to its quadratic time complexity. There are various approaches to reduce the time complexity and approximation of matrix is one such. In Nystr\"omformer, the authors used Nystr\"om based method for approximation of softmax. The Nystr\"om method generates a fast approximation to any large-scale symmetric positive semidefinite (SPSD) matrix using only a few columns of the SPSD matrix. However, since the Nystr\"om approximation is low-rank when the spectrum of the SPSD matrix decays slowly, the Nystr\"om approximation is of low accuracy. Here an alternative method is proposed for approximation which has a much stronger error bound than the Nystr\"om method. The time complexity of this same as Nystr\"omformer which is $O\left({n}\right)$.
翻訳日:2021-03-11 15:06:39 公開日:2021-03-09
# オフポリシー評価の非無症状的信頼のインターバル:プライマリ境界とデュアルバウンド

Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and Dual Bounds ( http://arxiv.org/abs/2103.05741v1 )

ライセンス: Link先を確認
Yihao Feng, Ziyang Tang, Na Zhang, Qiang Liu(参考訳) オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。 したがって、OPEは、インタラクティブなデータ収集が高価または安全でない医療などの現実世界のドメインに強化学習を適用するための重要なステップです。 観測データはノイズが多く制限される傾向にあるため、高利得決定にOPEを適用する際には、点推定だけでなく厳密な不確実性定量化を提供することが不可欠である。 本研究では, 無限水平オフポリシー評価における非無症状信頼区間の構築の問題を検討する。 Fengらによるカーネルベルマン損失(KBL)を利用した,原始双対最適化に基づく実用的なアルゴリズムを開発した。 (2019)とkblの新しいマルティンゲール濃度不等式は、未知混合条件を持つ時間依存データに適用できる。 提案アルゴリズムは,Q関数のデータと関数クラスについて最小限の仮定を行い,任意の未知の動作ポリシーの混合の下でデータを収集する振る舞いに依存しない設定で機能する。 既存の手法に対するアプローチの利点を明確に示す実証的な結果を示す。

Off-policy evaluation (OPE) is the task of estimating the expected reward of a given policy based on offline data previously collected under different policies. Therefore, OPE is a key step in applying reinforcement learning to real-world domains such as medical treatment, where interactive data collection is expensive or even unsafe. As the observed data tends to be noisy and limited, it is essential to provide rigorous uncertainty quantification, not just a point estimation, when applying OPE to make high stakes decisions. This work considers the problem of constructing non-asymptotic confidence intervals in infinite-horizon off-policy evaluation, which remains a challenging open question. We develop a practical algorithm through a primal-dual optimization-based approach, which leverages the kernel Bellman loss (KBL) of Feng et al.(2019) and a new martingale concentration inequality of KBL applicable to time-dependent data with unknown mixing conditions. Our algorithm makes minimum assumptions on the data and the function class of the Q-function, and works for the behavior-agnostic settings where the data is collected under a mix of arbitrary unknown behavior policies. We present empirical results that clearly demonstrate the advantages of our approach over existing methods.
翻訳日:2021-03-11 15:06:08 公開日:2021-03-09
# パラメータドリフト下における一般線形帯域のレグレト境界

Regret Bounds for Generalized Linear Bandits under Parameter Drift ( http://arxiv.org/abs/2103.05750v1 )

ライセンス: Link先を確認
Louis Faury and Yoan Russac and Marc Abeille and Cl\'ement Calauz\`enes(参考訳) 一般化線形帯域(GLB)は線形帯域(LB)設定の強力な拡張であり、線形性を超えた報酬パラメトリゼーションの利点を拡大する。 本稿では,非定常環境におけるglbsの研究を行い,変動ブジェット(変分パラメータドリフト)と呼ばれる非定常性の一般的な指標を,$b_t$ で表した。 LBアルゴリズムをこの設定に拡張する以前の試みが行われているが、結果に欠陥があるGLBの重大な機能を見落としている。 本研究では,この難易度に対処する新たなアルゴリズムを提案する。 作用集合上の幾何学的仮定の下では、我々のアプローチは$\tilde{\mathcal{O}}(B_T^{1/3}T^{2/3})$ regret bound である。 一般の場合、それは最大$\tilde{\mathcal{O}}(B_T^{1/5}T^{4/5})$後悔に苦しむことを示しています。 私たちの貢献の核は、Filippi et alで導入された射影ステップの一般化である。 (2010) この問題の非定常性に適応した。 本分析は,学習の処理と追跡の側面を明示的に分割することで,設定から受け継いだ中心的メカニズムに光を当てる。

Generalized Linear Bandits (GLBs) are powerful extensions to the Linear Bandit (LB) setting, broadening the benefits of reward parametrization beyond linearity. In this paper we study GLBs in non-stationary environments, characterized by a general metric of non-stationarity known as the variation-budget or \emph{parameter-drift}, denoted $B_T$. While previous attempts have been made to extend LB algorithms to this setting, they overlook a salient feature of GLBs which flaws their results. In this work, we introduce a new algorithm that addresses this difficulty. We prove that under a geometric assumption on the action set, our approach enjoys a $\tilde{\mathcal{O}}(B_T^{1/3}T^{2/3})$ regret bound. In the general case, we show that it suffers at most a $\tilde{\mathcal{O}}(B_T^{1/5}T^{4/5})$ regret. At the core of our contribution is a generalization of the projection step introduced in Filippi et al. (2010), adapted to the non-stationary nature of the problem. Our analysis sheds light on central mechanisms inherited from the setting by explicitly splitting the treatment of the learning and tracking aspects of the problem.
翻訳日:2021-03-11 15:05:47 公開日:2021-03-09
# 映像中の物体発見予測による自己スーパービジョン

Self-Supervision by Prediction for Object Discovery in Videos ( http://arxiv.org/abs/2103.05669v1 )

ライセンス: Link先を確認
Beril Besbinar, Pascal Frossard(参考訳) その耐え難い成功にもかかわらず、ディープラーニングアルゴリズムはまだ注釈付きデータに大きく依存しています。 一方、監視されていない設定は、特に多様なシナリオにおける適切な誘導バイアスを決定することについて、多くの課題を引き起こします。 スケーラブルなソリューションの1つは、自己監視学習と呼ばれる入力データの一部を活用して、モデルが自身で監視を生成することです。 本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。 物体の概念と運動ダイナミクスを解き放つことに加えて、私たちの構成構造は、予測されたフレームの組成のための推測されたオブジェクトと背景の閉塞と描画を明示的に処理します。 空間的および時間的に一貫したオブジェクト表現を促進する補助的損失関数の支援により、手作業によるアノテーションや事前学習されたネットワークの助けなしに、自己教師付きフレームワークをトレーニングできる。 最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。

Despite their irresistible success, deep learning algorithms still heavily rely on annotated data. On the other hand, unsupervised settings pose many challenges, especially about determining the right inductive bias in diverse scenarios. One scalable solution is to make the model generate the supervision for itself by leveraging some part of the input data, which is known as self-supervised learning. In this paper, we use the prediction task as self-supervision and build a novel object-centric model for image sequence representation. In addition to disentangling the notion of objects and the motion dynamics, our compositional structure explicitly handles occlusion and inpaints inferred objects and background for the composition of the predicted frame. With the aid of auxiliary loss functions that promote spatially and temporally consistent object representations, our self-supervised framework can be trained without the help of any manual annotation or pretrained network. Initial experiments confirm that the proposed pipeline is a promising step towards object-centric video prediction.
翻訳日:2021-03-11 15:04:55 公開日:2021-03-09
# アラビアサルカズム検出と感情同定のためのコンテキストフリー表現とコンテキスト付き表現の組み合わせ

Combining Context-Free and Contextualized Representations for Arabic Sarcasm Detection and Sentiment Identification ( http://arxiv.org/abs/2103.05683v1 )

ライセンス: Link先を確認
Amey Hengle, Atharva Kshirsagar, Shaily Desai and Manisha Marathe(参考訳) その開始以来、トランスフォーマーベースの言語モデルは、複数の自然言語処理タスクで印象的なパフォーマンス向上をもたらした。 アラビア語の場合、ほとんどのデータセットにおける最新の結果は、AraBERT言語モデルによって達成されます。 これらの最近の進歩にもかかわらず、サルカズムと感情検出はアラビア語の豊富な形態、言語の違い、方言のバリエーションを考えると、難しい課題であり続けている。 本論文では,SPPU-AASM チームによる WANLP ArSarcasm shared-task 2021 の提出を示唆する。 この研究は、アラベルトの文表現とアラビア語のソーシャルメディアコーポラで訓練された静的ワードベクターを組み合わせたハイブリッドモデルを提案する。 提案方式は, 皮肉および感情検出タスクに対して, F1-sarcastic score の 0.62 と F-PN score の 0.715 をそれぞれ達成する。 シミュレーションの結果,提案手法は両タスクにおいて既存の複数のアプローチを上回っており,文脈非依存と文脈依存のテキスト表現の融合はアラビア語の単語意味の補完的ファセットを捉えるのに役立つことが示唆された。 システムは、sarcasm検出と感情識別のそれぞれのサブタスクで2位と10位にランクされています。

Since their inception, transformer-based language models have led to impressive performance gains across multiple natural language processing tasks. For Arabic, the current state-of-the-art results on most datasets are achieved by the AraBERT language model. Notwithstanding these recent advancements, sarcasm and sentiment detection persist to be challenging tasks in Arabic, given the language's rich morphology, linguistic disparity and dialectal variations. This paper proffers team SPPU-AASM's submission for the WANLP ArSarcasm shared-task 2021, which centers around the sarcasm and sentiment polarity detection of Arabic tweets. The study proposes a hybrid model, combining sentence representations from AraBERT with static word vectors trained on Arabic social media corpora. The proposed system achieves a F1-sarcastic score of 0.62 and a F-PN score of 0.715 for the sarcasm and sentiment detection tasks, respectively. Simulation results show that the proposed system outperforms multiple existing approaches for both the tasks, suggesting that the amalgamation of context-free and context-dependent text representations can help capture complementary facets of word meaning in Arabic. The system ranked second and tenth in the respective sub-tasks of sarcasm detection and sentiment identification.
翻訳日:2021-03-11 15:03:08 公開日:2021-03-09
# 高次元放物型ハミルトン・ヤコビ・ベルマン方程式に対するディープニューラルネットワーク近似

Deep neural network approximation for high-dimensional parabolic Hamilton-Jacobi-Bell man equations ( http://arxiv.org/abs/2103.05744v1 )

ライセンス: Link先を確認
Philipp Grohs and Lukas Herrmann(参考訳) 深層ニューラルネットワークによる第2次ハミルトン-ヤコビ-ベルマン方程式の解の近似について検討した。 特定のマルコフ過程の最適制御の文脈で生じるHJB方程式に対して、解は次元の呪いを起こさずに深いニューラルネットワークによって近似できることが示されている。 ダイナミクスは制御に親和的に依存し、コストは制御に2次に依存すると仮定される。 許容可能な制御は、有界集合の値を取る。

The approximation of solutions to second order Hamilton--Jacobi--Be llman (HJB) equations by deep neural networks is investigated. It is shown that for HJB equations that arise in the context of the optimal control of certain Markov processes the solution can be approximated by deep neural networks without incurring the curse of dimension. The dynamics is assumed to depend affinely on the controls and the cost depends quadratically on the controls. The admissible controls take values in a bounded set.
翻訳日:2021-03-11 15:01:07 公開日:2021-03-09
# 実写超音波画像からのコンテンツ保存型未ペア翻訳

Content-Preserving Unpaired Translation from Simulated to Realistic Ultrasound Images ( http://arxiv.org/abs/2103.05745v1 )

ライセンス: Link先を確認
Devavrat Tomar, Lin Zhang, Tiziano Portenier, Orcun Goksel(参考訳) 超音波画像のインタラクティブシミュレーションは超音波画像訓練を大いに促進する。 レイトレーシングに基づく手法は有望な結果を示したが、現実的な画像を得るにはかなりのモデリング作業と手動パラメータチューニングが必要である。 さらに、現在の技術では、シミュレーション画像と実際の臨床スキャンの間に大きなギャップが生じる。 本研究では,シミュレーションシーンの解剖学的レイアウトを保ちながら,この外観ギャップを橋渡しするための新しい画像翻訳フレームワークを提案する。 この目的を達成するために,シミュレートされた画像とセマンティックセグメンテーションを併用する。 本フレームワークは,近年のコントラストのない翻訳手法をベースとして,コンテンツやスタイルのゆがみを促進する補助的なセグメンテーション・トゥ・リアルな画像翻訳タスクを学習し,正規化手法を提案する。 さらに、生成装置をクラス条件に拡張することで、追加の損失、特に循環的整合性損失の取り込みを可能にし、翻訳品質をさらに向上する。 定性的・定量的に比較した結果,提案手法の優越性が示された。

Interactive simulation of ultrasound imaging greatly facilitates sonography training. Although ray-tracing based methods have shown promising results, obtaining realistic images requires substantial modeling effort and manual parameter tuning. In addition, current techniques still result in a significant appearance gap between simulated images and real clinical scans. In this work we introduce a novel image translation framework to bridge this appearance gap, while preserving the anatomical layout of the simulated scenes. We achieve this goal by leveraging both simulated images with semantic segmentations and unpaired in-vivo ultrasound scans. Our framework is based on recent contrastive unpaired translation techniques and we propose a regularization approach by learning an auxiliary segmentation-to-real image translation task, which encourages the disentanglement of content and style. In addition, we extend the generator to be class-conditional, which enables the incorporation of additional losses, in particular a cyclic consistency loss, to further improve the translation quality. Qualitative and quantitative comparisons against state-of-the-art unpaired translation methods demonstrate the superiority of our proposed framework.
翻訳日:2021-03-11 15:00:08 公開日:2021-03-09
# 解釈可能な機械:ランダム森林を用いた有効な予測間隔の構築

Interpretable Machines: Constructing Valid Prediction Intervals with Random Forests ( http://arxiv.org/abs/2103.05766v1 )

ライセンス: Link先を確認
Burim Ramosaj(参考訳) 最近の研究で機械学習アルゴリズムを使用する場合の重要な問題は、解釈能力の欠如です。 これらのアルゴリズムは様々な学習問題に対して正確な点予測を提供するが、点予測に関連する不確実性推定は比較的少ない。 Random Forest Regression Learnerのこのギャップへの貢献について紹介します。 アウト・オブ・バグ法に基づき、ランダムフォレスト点予測のためのパラメトリックおよび非パラメトリック予測間隔が複数提供され、その正確なカバレッジ確率に関する理論的保証が提供される。 第2部では,提案手法の性能を,(i)提案された予測間隔の正しいカバレッジ率の分析,(ii)間隔幅の検証,および(iii)提案された間隔の既存の手法による競争力の検証の3つの側面から,モンテカルロシミュレーションによる徹底的な検討を行う。 シミュレーションにより, 提案した予測区間は非正規残差分布に対して頑健であり, 比較可能な小サンプルであっても, 正確なカバレッジ率と比較可能な狭い間隔長を提供することで競合することがわかった。

An important issue when using Machine Learning algorithms in recent research is the lack of interpretability. Although these algorithms provide accurate point predictions for various learning problems, uncertainty estimates connected with point predictions are rather sparse. A contribution to this gap for the Random Forest Regression Learner is presented here. Based on its Out-of-Bag procedure, several parametric and non-parametric prediction intervals are provided for Random Forest point predictions and theoretical guarantees for its correct coverage probability is delivered. In a second part, a thorough investigation through Monte-Carlo simulation is conducted evaluating the performance of the proposed methods from three aspects: (i) Analyzing the correct coverage rate of the proposed prediction intervals, (ii) Inspecting interval width and (iii) Verifying the competitiveness of the proposed intervals with existing methods. The simulation yields that the proposed prediction intervals are robust towards non-normal residual distributions and are competitive by providing correct coverage rates and comparably narrow interval lengths, even for comparably small samples.
翻訳日:2021-03-11 14:59:10 公開日:2021-03-09
# SMIL: 過度にモダリティを欠くマルチモーダル学習

SMIL: Multimodal Learning with Severely Missing Modality ( http://arxiv.org/abs/2103.05677v1 )

ライセンス: Link先を確認
Mengmeng Ma, Jian Ren, Long Zhao, Sergey Tulyakov, Cathy Wu, Xi Peng(参考訳) マルチモーダル学習における一般的な仮定は、トレーニングデータの完全性である。 テストデータの不完全性に対処する新しい手法の開発には、例えば、モダリティが部分的に欠落している試験例があるが、不完全トレーニングのモダリティに対処できるものはほとんどない。 例えば、90%のトレーニング例が不完全なモダリティを持つ場合など、深刻な欠陥がある場合を考えると、この問題はさらに困難になる。 本稿は,本論文で初めて,柔軟性(トレーニング,テスト,あるいはその両方におけるモダリティの欠如)と効率(ほとんどのトレーニングデータには不完全なモダリティがある)の観点から,マルチモーダル学習を公式に研究する。 技術的には,ベイジアンメタラーニングを利用して両目的を均一に達成するSMILという新しい手法を提案する。 提案手法を検証するため,MM-IMDb,CMU-MOSI,av MNISTの3つのベンチマーク実験を行った。 その結果,自己エンコーダや生成敵ネットワークを含む既存の手法および生成ベースラインよりもSMILの最先端性能が証明された。 私たちのコードはhttps://github.com/m engmenm/SMILで利用可能です。

A common assumption in multimodal learning is the completeness of training data, i.e., full modalities are available in all training examples. Although there exists research endeavor in developing novel methods to tackle the incompleteness of testing data, e.g., modalities are partially missing in testing examples, few of them can handle incomplete training modalities. The problem becomes even more challenging if considering the case of severely missing, e.g., 90% training examples may have incomplete modalities. For the first time in the literature, this paper formally studies multimodal learning with missing modality in terms of flexibility (missing modalities in training, testing, or both) and efficiency (most training data have incomplete modality). Technically, we propose a new method named SMIL that leverages Bayesian meta-learning in uniformly achieving both objectives. To validate our idea, we conduct a series of experiments on three popular benchmarks: MM-IMDb, CMU-MOSI, and avMNIST. The results prove the state-of-the-art performance of SMIL over existing methods and generative baselines including autoencoders and generative adversarial networks. Our code is available at https://github.com/m engmenm/SMIL.
翻訳日:2021-03-11 14:57:13 公開日:2021-03-09
# 物理ベースのデータ拡張を用いたマルチタスク3次元CBCT-to-CT翻訳と臓器分割

Multitask 3D CBCT-to-CT Translation and Organs-at-Risk Segmentation Using Physics-Based Data Augmentation ( http://arxiv.org/abs/2103.05690v1 )

ライセンス: Link先を確認
Navdeep Dahiya, Sadegh R Alam, Pengpeng Zhang, Si-Yuan Zhang, Anthony Yezzi, and Saad Nadeem(参考訳) 目的: 放射線治療における患者設定に限って, ノイズとアーチファクトを付加した毎週のコーンビームCT(CBCT)画像が用いられる。 治療計画には, 高画質計画ct (pct) 画像とoars ( organ-at-risk) 構造の手輪郭を用いて, 治療開始時に一度行う。 毎週のCBCT画像の品質を向上し、同時にOAR構造をセグメント化できれば、放射線治療中治療の適応や治療対応のためのバイオマーカーの導出に重要な情報を提供することができます。 方法: 新規な物理ベースのデータ拡張戦略を用いて, 局所進行肺癌患者コホートに対して, 完全かつ独立に登録されたCTと合成CBCTのペアの大規模なデータセットを合成し, マルチタスク3Dディープラーニングフレームワークで, 実際のCBCT画像を高品質なCTライクな画像に同時分割, 翻訳する。 結果:本モデルで生成された合成CTとOARセグメンテーションと実際の企画CTと手動OARセグメンテーションを比較し,有望な結果を示した。 pCT画像と比較して平均MAEが162.77HUの実際の週1(ベースライン)CBCT画像は、29.31HUの平均MAEとpCT画像と92%の平均構造類似度を劇的に改善した合成CT画像に変換される。 3d臓器分節の平均diceスコアは、肺0.96、心臓0.88、脊髄0.83、食道0.66である。 結論:人工的なCBCT画像を高品質の合成CT画像に変換し、異なる臓器のための高品質のセグメンテーションマスクを同時に生成するアプローチを示す。 このアプローチにより、臨床医は日常的な低品質CBCT画像のみを使用して治療計画を調整することができ、患者の結果を改善できる可能性がある。

Purpose: In current clinical practice, noisy and artifact-ridden weekly cone-beam computed tomography (CBCT) images are only used for patient setup during radiotherapy. Treatment planning is done once at the beginning of the treatment using high-quality planning CT (pCT) images and manual contours for organs-at-risk (OARs) structures. If the quality of the weekly CBCT images can be improved while simultaneously segmenting OAR structures, this can provide critical information for adapting radiotherapy mid-treatment as well as for deriving biomarkers for treatment response. Methods: Using a novel physics-based data augmentation strategy, we synthesize a large dataset of perfectly/inherently registered planning CT and synthetic-CBCT pairs for locally advanced lung cancer patient cohort, which are then used in a multitask 3D deep learning framework to simultaneously segment and translate real weekly CBCT images to high-quality planning CT-like images. Results: We compared the synthetic CT and OAR segmentations generated by the model to real planning CT and manual OAR segmentations and showed promising results. The real week 1 (baseline) CBCT images which had an average MAE of 162.77 HU compared to pCT images are translated to synthetic CT images that exhibit a drastically improved average MAE of 29.31 HU and average structural similarity of 92% with the pCT images. The average DICE scores of the 3D organs-at-risk segmentations are: lungs 0.96, heart 0.88, spinal cord 0.83 and esophagus 0.66. Conclusions: We demonstrate an approach to translate artifact-ridden CBCT images to high quality synthetic CT images while simultaneously generating good quality segmentation masks for different organs-at-risk. This approach could allow clinicians to adjust treatment plans using only the routine low-quality CBCT images, potentially improving patient outcomes.
翻訳日:2021-03-11 14:56:49 公開日:2021-03-09
# リーマン計量空間における構造コネクトームアトラスの構築

Structural Connectome Atlas Construction in the Space of Riemannian Metrics ( http://arxiv.org/abs/2103.05730v1 )

ライセンス: Link先を確認
Kristen M. Campbell (1), Haocheng Dai (1), Zhe Su (2), Martin Bauer (3), P. Thomas Fletcher (4), Sarang C. Joshi (1 and 5) ((1) Scientific Computing and Imaging Institute, University of Utah, (2) Department of Neurology, University of California Los Angeles, (3) Department of Mathematics, Florida State University, (4) Electrical & Computer Engineering, University of Virginia, (5) Department of Bioengineering, University of Utah)(参考訳) 構造コネクトームは、しばしば様々なタイプのトラクトグラフィーから生成された繊維束によって表される。 そこで,コネクトームをリーマン計量として解析し,無限次元多様体の点として捉える手法を提案する。 この空間に自然計量構造 ebin 計量を具備した後、アトラスをリーマン計量の集団のfr\'echet平均として定義するためにオブジェクト指向の統計解析を適用する。 我々は,Human Connectome Projectのサブセットから推定された拡散テンソルから導かれるコネクトームの登録とアトラス形成を実証した。

The structural connectome is often represented by fiber bundles generated from various types of tractography. We propose a method of analyzing connectomes by representing them as a Riemannian metric, thereby viewing them as points in an infinite-dimensional manifold. After equipping this space with a natural metric structure, the Ebin metric, we apply object-oriented statistical analysis to define an atlas as the Fr\'echet mean of a population of Riemannian metrics. We demonstrate connectome registration and atlas formation using connectomes derived from diffusion tensors estimated from a subset of subjects from the Human Connectome Project.
翻訳日:2021-03-11 14:56:13 公開日:2021-03-09
# カラム型ニューラルネットワークを用いたスケーラブルオンラインリカレント学習

Scalable Online Recurrent Learning Using Columnar Neural Networks ( http://arxiv.org/abs/2103.05787v1 )

ライセンス: Link先を確認
Khurram Javed, Martha White, Rich Sutton(参考訳) リカレント学習のための構造的クレジット割り当ては難しい。 RTRLと呼ばれるアルゴリズムは、オンラインのリカレントネットワークの勾配を計算できるが、大規模なネットワークでは計算が困難である。 BPTTのような代替サービスはオンラインではない。 本研究では,1ステップあたり$o(n)$演算とメモリを用いて,再帰学習の勾配を近似するクレジット割り当てアルゴリズム -\algoname{} -- を提案する。 提案手法は,スカラー状態の列からなるモジュラリカレントネットワークにおいて,パラメータが列の状態に与える影響のみを追跡するのに十分である,という考え方に基づいている。 実験により,列間の接続がスパースである限り,本手法は真の勾配を近似することを示した。 特別な場合、列間に接続がない場合、$o(n)$勾配推定は正確である。 合成テストベッド上で推定勾配と真の勾配を比較することにより, 反復状態学習とメタ学習の両方に対するアプローチの有用性を実証する。

Structural credit assignment for recurrent learning is challenging. An algorithm called RTRL can compute gradients for recurrent networks online but is computationally intractable for large networks. Alternatives, such as BPTT, are not online. In this work, we propose a credit-assignment algorithm -- \algoname{} -- that approximates the gradients for recurrent learning in real-time using $O(n)$ operations and memory per-step. Our method builds on the idea that for modular recurrent networks, composed of columns with scalar states, it is sufficient for a parameter to only track its influence on the state of its column. We empirically show that as long as connections between columns are sparse, our method approximates the true gradient well. In the special case when there are no connections between columns, the $O(n)$ gradient estimate is exact. We demonstrate the utility of the approach for both recurrent state learning and meta-learning by comparing the estimated gradient to the true gradient on a synthetic test-bed.
翻訳日:2021-03-11 14:50:06 公開日:2021-03-09
# ディープラーニングを用いたエンドユーザー開発におけるモバイルアプリケーションのスケッチからの自動コード生成

Automatic code generation from sketches of mobile applications in end-user development using Deep Learning ( http://arxiv.org/abs/2103.05704v1 )

ライセンス: Link先を確認
Daniel Baul\'e, Christiane Gresse von Wangenheim, Aldo von Wangenheim, Jean C. R. Hauck, Edson C. Vargas J\'unior(参考訳) エンドユーザやコンピューティング教育におけるモバイルアプリケーション開発の一般的なニーズは、一般的なブロックベースのプログラミング環境であるApp Inventorを使用して、ユーザインターフェースのスケッチをワイヤフレームコードに変換することである。 この作業は困難で時間を要するため、このプロセスを自動化するSketch2aiaアプローチを紹介します。 sketch2aiaはディープラーニングを使用して、最も頻度の高いユーザインターフェースコンポーネントと手描きのスケッチの位置を検出し、ユーザインターフェースの中間表現を作成し、ワイヤーフレームのアプリ発明コードを自動的に生成する。 提案手法は,平均ユーザインタフェースコンポーネント分類精度87,72%を達成し,ユーザ評価の結果から,視覚的類似性の観点からスケッチを忠実に反映したワイヤフレームを生成することを示す。 このアプローチはWebツールとして実装されており、モバイルアプリケーションのエンドユーザー開発を効果的かつ効率的に支援し、K-12でユーザインターフェース設計を教えるために使用することができる。

A common need for mobile application development by end-users or in computing education is to transform a sketch of a user interface into wireframe code using App Inventor, a popular block-based programming environment. As this task is challenging and time-consuming, we present the Sketch2aia approach that automates this process. Sketch2aia employs deep learning to detect the most frequent user interface components and their position on a hand-drawn sketch creating an intermediate representation of the user interface and then automatically generates the App Inventor code of the wireframe. The approach achieves an average user interface component classification accuracy of 87,72% and results of a preliminary user evaluation indicate that it generates wireframes that closely mirror the sketches in terms of visual similarity. The approach has been implemented as a web tool and can be used to support the end-user development of mobile applications effectively and efficiently as well as the teaching of user interface design in K-12.
翻訳日:2021-03-11 14:47:00 公開日:2021-03-09
# オンラインに適応する人間モデルの分析

Analyzing Human Models that Adapt Online ( http://arxiv.org/abs/2103.05746v1 )

ライセンス: Link先を確認
Andrea Bajcsy, Anand Siththaranjan, Claire J. Tomlin, Anca D. Dragan(参考訳) 予測する人間のモデルは、しばしば人間のデータからパラメータをオンラインに適応する必要がある。 このことは、モデルがオンラインで何を学べるか、どのくらい早く学習できるかなど、これらのモデルに依存しているロボットに対して、これまで無視されていた安全性に関する疑問を提起する。 例えば、ロボットが近くの人間の目標に自信を持って見積もるのはいつですか? あるいは、ロボットが人間の好みを有限数の観察で学習できることを保証するパラメータの初期化は? このような分析に答えるためには,ロボットの学習アルゴリズムを,現在のモデルパラメータを推定し,ロボットが観測する人間のデータを制御する動的システムとしてモデル化することが重要となる。 これにより、到達可能性分析と最適制御からツールを活用して、ロボットが有限時間で学習できる仮説の集合を計算し、学習に要する最悪かつ最良の時間を計算することができる。 我々は、自動運転と屋内ナビゲーションを含む4つのヒューマンロボットドメインにおける分析ツールの有用性を実証する。

Predictive human models often need to adapt their parameters online from human data. This raises previously ignored safety-related questions for robots relying on these models such as what the model could learn online and how quickly could it learn it. For instance, when will the robot have a confident estimate in a nearby human's goal? Or, what parameter initializations guarantee that the robot can learn the human's preferences in a finite number of observations? To answer such analysis questions, our key idea is to model the robot's learning algorithm as a dynamical system where the state is the current model parameter estimate and the control is the human data the robot observes. This enables us to leverage tools from reachability analysis and optimal control to compute the set of hypotheses the robot could learn in finite time, as well as the worst and best-case time it takes to learn them. We demonstrate the utility of our analysis tool in four human-robot domains, including autonomous driving and indoor navigation.
翻訳日:2021-03-11 14:43:12 公開日:2021-03-09
# Shapley値を用いた寸法低減結果の説明

Explaining dimensionality reduction results using Shapley values ( http://arxiv.org/abs/2103.05678v1 )

ライセンス: Link先を確認
Wilson Est\'ecio Marc\'ilio J\'unior and Danilo Medeiros Eler(参考訳) 次元還元(dr)技術は様々な応用において一貫して高次元データ分析をサポートする。 これらの手法によって発見されたパターンの他に、各特徴の低次元表現への寄与に基づくdr結果の解釈は探索分析を通じて新たな発見を支持する。 DR技法を解釈するために設計された現在の文献的アプローチは、低次元表現のみに焦点を当てたり、特徴間の関係を考慮しないため、特徴の寄与をうまく説明できない。 本稿では,これらの問題に対処するために,Shapley値を用いて次元削減手法の説明を生成し,クラスタ指向解析を用いてこれらのアルゴリズムを解釈する。 ClusterShapleyは、クラスタの形成とその関係の意味を説明し、さまざまなドメインの探索データ分析に有用である。 クラスター形成における特徴の解釈をガイドし、公開データセットのケーススタディを通じて方法論を検証するための新しい可視化技術を提案する。 その結果、DR結果を用いて病状や患者の状態に関する洞察を生成するアプローチの解釈可能性と分析力を示しています。

Dimensionality reduction (DR) techniques have been consistently supporting high-dimensional data analysis in various applications. Besides the patterns uncovered by these techniques, the interpretation of DR results based on each feature's contribution to the low-dimensional representation supports new finds through exploratory analysis. Current literature approaches designed to interpret DR techniques do not explain the features' contributions well since they focus only on the low-dimensional representation or do not consider the relationship among features. This paper presents ClusterShapley to address these problems, using Shapley values to generate explanations of dimensionality reduction techniques and interpret these algorithms using a cluster-oriented analysis. ClusterShapley explains the formation of clusters and the meaning of their relationship, which is useful for exploratory data analysis in various domains. We propose novel visualization techniques to guide the interpretation of features' contributions on clustering formation and validate our methodology through case studies of publicly available datasets. The results demonstrate our approach's interpretability and analysis power to generate insights about pathologies and patients in different conditions using DR results.
翻訳日:2021-03-11 14:42:56 公開日:2021-03-09
# 一方向セグメンテーションのためのOmni-Rangeコンテキストのキャプチャ

Capturing Omni-Range Context for Omnidirectional Segmentation ( http://arxiv.org/abs/2103.05687v1 )

ライセンス: Link先を確認
Kailun Yang, Jiaming Zhang, Simon Rei{\ss}, Xinxin Hu, Rainer Stiefelhagen(参考訳) Convolutional Networks(ConvNets)はセマンティックセグメンテーションに優れ、自動運転における認識に不可欠なコンポーネントとなっています。 ストリートシーンのオールエンパッシブビューを実現した全方位カメラは、そのようなシステムに完璧にフィットします。 都市環境解析のためのほとんどのセグメンテーションモデルは、共通して狭い視野(FoV)画像で機能する。 これらのモデルを設計したドメインから360度知覚に移行すると、既存のテストベッド上での絶対30.0%(mIoU)のパフォーマンスが劇的に低下する。 画像領域間のFoVと構造分布のギャップを埋めるために,全方向画像の固有長距離依存性を直接キャプチャする,効率的なコンカレントアテンションネットワーク(ECANets)を導入する。 360度イメージにまたがる学習された注意に基づくコンテキスト優先に加えて、マルチソースと全教師付き学習を活用することで、モデルのトレーニングをアップグレードします。 パノラマ画像のセグメンテーションの進歩を促進するために、世界中の多様なシーンをキャプチャするデータセットであるWildPASS(Wild Panoramic Semantic Segmentation)のモデルを推進し、広く評価します。 我々の新しいモデル、トレーニングレギュレン、マルチソース予測融合は、パブリックPASS (60.2%) と新しいWildPASS (69.0%) ベンチマークにおける新しい最先端結果に性能(mIoU)を上昇させる。

Convolutional Networks (ConvNets) excel at semantic segmentation and have become a vital component for perception in autonomous driving. Enabling an all-encompassing view of street-scenes, omnidirectional cameras present themselves as a perfect fit in such systems. Most segmentation models for parsing urban environments operate on common, narrow Field of View (FoV) images. Transferring these models from the domain they were designed for to 360-degree perception, their performance drops dramatically, e.g., by an absolute 30.0% (mIoU) on established test-beds. To bridge the gap in terms of FoV and structural distribution between the imaging domains, we introduce Efficient Concurrent Attention Networks (ECANets), directly capturing the inherent long-range dependencies in omnidirectional imagery. In addition to the learned attention-based contextual priors that can stretch across 360-degree images, we upgrade model training by leveraging multi-source and omni-supervised learning, taking advantage of both: Densely labeled and unlabeled data originating from multiple datasets. To foster progress in panoramic image segmentation, we put forward and extensively evaluate models on Wild PAnoramic Semantic Segmentation (WildPASS), a dataset designed to capture diverse scenes from all around the globe. Our novel model, training regimen and multi-source prediction fusion elevate the performance (mIoU) to new state-of-the-art results on the public PASS (60.2%) and the fresh WildPASS (69.0%) benchmarks.
翻訳日:2021-03-11 14:40:39 公開日:2021-03-09
# (参考訳) 深部生成モデリング入門 [全文訳有]

An Introduction to Deep Generative Modeling ( http://arxiv.org/abs/2103.05180v1 )

ライセンス: CC BY 4.0
Lars Ruthotto and Eldad Haber(参考訳) 深層生成モデル(dgm)は、多数のサンプルを用いて複雑な高次元確率分布を近似するように訓練された多くの隠れ層を持つニューラルネットワークである。 トレーニングに成功すると、DGMを使用して各観察の可能性を推定し、基礎となる分布から新しいサンプルを作成することができます。 近年、DGMの開発は人工知能における最も熱い研究分野の1つとなっている。 DGMに関する文献は広くなり、急速に成長している。 例えば、現実的に見える画像、音声、または映画を作成するという最近の成功、いわゆるディープフェイクなど、いくつかの進歩が公共の領域に到達しています。 特定のデータセットが与えられたとしても、dgmの設計とトレーニングは依然として困難であり、特定のモデルがなぜ有効であるのか、それとも効果的ではないのかを知るのはさらに困難です。 DGMの理論的理解を促進するために、我々はDGMを紹介し、フローの正規化(NF)、変分オートエンコーダ(VAE)、生成対向ネットワーク(GAN)の3つの最も一般的なアプローチをモデル化するための簡潔な数学的枠組みを提供する。 本稿では,これらの基礎的手法の利点と欠点を数値実験により示す。 私たちの目標は、読者がこの急成長する研究領域に貢献できるようにすることです。 また, 生成モデルと最適輸送の関係も強調した。

Deep generative models (DGM) are neural networks with many hidden layers trained to approximate complicated, high-dimensional probability distributions using a large number of samples. When trained successfully, we can use the DGMs to estimate the likelihood of each observation and to create new samples from the underlying distribution. Developing DGMs has become one of the most hotly researched fields in artificial intelligence in recent years. The literature on DGMs has become vast and is growing rapidly. Some advances have even reached the public sphere, for example, the recent successes in generating realistic-looking images, voices, or movies; so-called deep fakes. Despite these successes, several mathematical and practical issues limit the broader use of DGMs: given a specific dataset, it remains challenging to design and train a DGM and even more challenging to find out why a particular model is or is not effective. To help advance the theoretical understanding of DGMs, we provide an introduction to DGMs and provide a concise mathematical framework for modeling the three most popular approaches: normalizing flows (NF), variational autoencoders (VAE), and generative adversarial networks (GAN). We illustrate the advantages and disadvantages of these basic approaches using numerical experiments. Our goal is to enable and motivate the reader to contribute to this proliferating research area. Our presentation also emphasizes relations between generative modeling and optimal transport.
翻訳日:2021-03-11 13:44:21 公開日:2021-03-09
# (参考訳) Bassモデルに基づく動的価格設定と学習

Dynamic Pricing and Learning under the Bass Model ( http://arxiv.org/abs/2103.05199v1 )

ライセンス: CC BY 4.0
Shipra Agrawal, Steven Yin, Assaf Zeevi(参考訳) 本稿では, 価格変動に伴う需要の変動をパラメータ$\alpha, \beta$という, いわゆる「革新」効果と「模倣」効果に関連付けた, 一般的なバスモデルの確率的変種によって制御する, 動的価格・需要学習問題の新たな定式化について考察する。 一般的に使われる i. i. d. とは異なり そして文脈的な需要モデル、このモデルでは、掲載価格は現在のラウンドにおける需要と収益に影響を与えるだけでなく、需要の将来の進化にも影響します。 本稿では,未知のパラメータの学習とともに動的価格を適用するという,より困難な不完全情報問題について考察する。 これと同等の目標は、市場規模$m$とtime horizon $t$を持つ確率的ベースモデルで実現可能な最適な期待収益に対するアルゴリズムの収益損失を最小化することである。 私達の主な貢献は順序$\tilde O(m^{2/3})$の高い確率の後悔の保証を満たすアルゴリズムの開発です。 さらに, 一致する下限を導出することにより, 損失順序が小さくなるアルゴリズムは存在しないことを示す。 ほとんどの後悔分析の結果とは異なり、現在の問題では、市場規模$m$が複雑さの根本的な原動力である。私たちの低い境界は、任意の固定 $\alpha, \beta$ に対して、問題のほとんどの非自明なインスタンスは一定の $T$ と大きな $m$ を持つことを示しています。 この洞察は、典型的なi.i.d.とは別として、ベースモデルの下での動的価格設定の問題を引き起こすと信じている。 動的価格の設定とマルチアームのバンディットベースのモデルは、典型的にはタイムホライズン$t$の漸近性のみに焦点を当てている。

We consider a novel formulation of the dynamic pricing and demand learning problem, where the evolution of demand in response to posted prices is governed by a stochastic variant of the popular Bass model with parameters $\alpha, \beta$ that are linked to the so-called "innovation" and "imitation" effects. Unlike the more commonly used i.i.d. and contextual demand models, in this model the posted price not only affects the demand and the revenue in the current round but also the future evolution of demand, and hence the fraction of potential market size $m$ that can be ultimately captured. In this paper, we consider the more challenging incomplete information problem where dynamic pricing is applied in conjunction with learning the unknown parameters, with the objective of optimizing the cumulative revenues over a given selling horizon of length $T$. Equivalently, the goal is to minimize the regret which measures the revenue loss of the algorithm relative to the optimal expected revenue achievable under the stochastic Bass model with market size $m$ and time horizon $T$. Our main contribution is the development of an algorithm that satisfies a high probability regret guarantee of order $\tilde O(m^{2/3})$; where the market size $m$ is known a priori. Moreover, we show that no algorithm can incur smaller order of loss by deriving a matching lower bound. Unlike most regret analysis results, in the present problem the market size $m$ is the fundamental driver of the complexity; our lower bound in fact, indicates that for any fixed $\alpha, \beta$, most non-trivial instances of the problem have constant $T$ and large $m$. We believe that this insight sets the problem of dynamic pricing under the Bass model apart from the typical i.i.d. setting and multi-armed bandit based models for dynamic pricing, which typically focus only on the asymptotics with respect to time horizon $T$.
翻訳日:2021-03-11 13:12:05 公開日:2021-03-09
# (参考訳) 運動画像脳波復号のための物体間深度変換学習 [全文訳有]

Inter-subject Deep Transfer Learning for Motor Imagery EEG Decoding ( http://arxiv.org/abs/2103.05351v1 )

ライセンス: CC BY 4.0
Xiaoxi Wei, Pablo Ortega and A. Aldo Faisal(参考訳) 畳み込みニューラルネットワーク(cnns)は脳波をデコードする強力な技術となり、運動画像eegbrain-computer-in terface(bci)デコードのためのベンチマークとなった。 しかし、個々のパフォーマンスを低下させることなく、複数の被験者の脳波でCNNを訓練することは依然として困難です。 これは負の転送問題、すなわちとして知られている。 異なる分布から学習すると、CNNはより豊かな表現を学ぶのではなく、それぞれを誤表現する。 その結果、cnnは複数の被験者の脳波を直接使用できないため、モデルの性能が向上する。 この問題を解決するため、深層移動学習技術をEEGマルチサブジェクトトレーニングケースに拡張します。 本稿では,ネットワークの特徴抽出器を個別に分割して分割した,分別共通分離ネットワーク(scsn)を提案する。 また,SCSN(SCSN-MMD)にMMD(Maximum-mean discrepancy)を適用し,各特徴抽出器の特徴分布の整合性を高める可能性についても検討した。 提案ネットワークは,bci competition iv 2a dataset (bciciv2a dataset) とオンライン記録データセットを用いて評価した。 その結果、提案されたSCSN (81.8%, 53.2%) とSCSN-MMD (81.8%, 54.8%) は、CNN (73.4%, 48.8%) を複数の被験者で比較した。 私たちの提案ネットワークは、より大きなマルチサブジェクトデータセットを利用して、負の転送に影響されずにEEGデコーダを訓練する可能性を示しています。

Convolutional neural networks (CNNs) have become a powerful technique to decode EEG and have become the benchmark for motor imagery EEG Brain-Computer-Inter face (BCI) decoding. However, it is still challenging to train CNNs on multiple subjects' EEG without decreasing individual performance. This is known as the negative transfer problem, i.e. learning from dissimilar distributions causes CNNs to misrepresent each of them instead of learning a richer representation. As a result, CNNs cannot directly use multiple subjects' EEG to enhance model performance directly. To address this problem, we extend deep transfer learning techniques to the EEG multi-subject training case. We propose a multi-branch deep transfer network, the Separate-Common-Sepa rate Network (SCSN) based on splitting the network's feature extractors for individual subjects. We also explore the possibility of applying Maximum-mean discrepancy (MMD) to the SCSN (SCSN-MMD) to better align distributions of features from individual feature extractors. The proposed network is evaluated on the BCI Competition IV 2a dataset (BCICIV2a dataset) and our online recorded dataset. Results show that the proposed SCSN (81.8%, 53.2%) and SCSN-MMD (81.8%, 54.8%) outperformed the benchmark CNN (73.4%, 48.8%) on both datasets using multiple subjects. Our proposed networks show the potential to utilise larger multi-subject datasets to train an EEG decoder without being influenced by negative transfer.
翻訳日:2021-03-11 13:10:45 公開日:2021-03-09
# (参考訳) 深層ニューラルネットワークにおける解析可能な推論 [全文訳有]

Analytically Tractable Inference in Deep Neural Networks ( http://arxiv.org/abs/2103.05461v1 )

ライセンス: CC BY 4.0
Luong-Ha Nguyen and James-A. Goulet(参考訳) その開始以来、ディープラーニングは、重みとバイアスパラメータ値を学ぶために、バックプロパゲーションと勾配に基づく最適化アルゴリズムに圧倒的に依存してきた。 Tractable Approximate Gaussian Inference (TAGI)アルゴリズムは、浅いフルコネクテッドニューラルネットワークのバックプロパゲーションに代わる実行可能でスケーラブルな代替手段であることが示された。 本稿では、従来のディープニューラルネットワークアーキテクチャのトレーニングにおいて、TAGIがバックプロパゲーションのパフォーマンスとどのように一致するかを示す。 TAGIの計算効率は、バックプロパゲーションに依存した決定論的アプローチのそれよりも低いが、分類タスクにそれらを上回り、生成敵対的ネットワークを最大化する情報のパフォーマンスにマッチし、より少ないエポックで訓練されたより小さなアーキテクチャを使用している。

Since its inception, deep learning has been overwhelmingly reliant on backpropagation and gradient-based optimization algorithms in order to learn weight and bias parameter values. Tractable Approximate Gaussian Inference (TAGI) algorithm was shown to be a viable and scalable alternative to backpropagation for shallow fully-connected neural networks. In this paper, we are demonstrating how TAGI matches or exceeds the performance of backpropagation, for training classic deep neural network architectures. Although TAGI's computational efficiency is still below that of deterministic approaches relying on backpropagation, it outperforms them on classification tasks and matches their performance for information maximizing generative adversarial networks while using smaller architectures trained with fewer epochs.
翻訳日:2021-03-11 13:01:59 公開日:2021-03-09
# (参考訳) Reactive Graspingのための未知オブジェクトの深層6-DoF追跡 [全文訳有]

Deep 6-DoF Tracking of Unknown Objects for Reactive Grasping ( http://arxiv.org/abs/2103.05401v1 )

ライセンス: CC BY 4.0
Marc Tuscher, Julian H\"orz, Danny Driess, Marc Toussaint(参考訳) 未知の物体のロボット操作は重要な研究分野である。 実用的応用は、ロボットが未知の環境と相互作用する必要がある多くの現実世界で起こります。 未知の物体追跡法, ポイントサンプリング法, 動的軌道計画法を提案することにより, 反応的把握の課題に取り組む。 オブジェクト追跡手法は,6-DoF未知のオブジェクト追跡手法に,Samese NetworksとIterative Closest Pointアプローチを組み合わせてポイントクラウド登録を行う。 この方法はさらなる訓練を必要とせず、騒音や咬合に頑健である。 従来は見つからなかった多種多様の物体をつかみ、物体の摂動やより低い把握点に対して堅牢なロボット操作システムを提案する。

Robotic manipulation of unknown objects is an important field of research. Practical applications occur in many real-world settings where robots need to interact with an unknown environment. We tackle the problem of reactive grasping by proposing a method for unknown object tracking, grasp point sampling and dynamic trajectory planning. Our object tracking method combines Siamese Networks with an Iterative Closest Point approach for pointcloud registration into a method for 6-DoF unknown object tracking. The method does not require further training and is robust to noise and occlusion. We propose a robotic manipulation system, which is able to grasp a wide variety of formerly unseen objects and is robust against object perturbations and inferior grasping points.
翻訳日:2021-03-11 12:01:46 公開日:2021-03-09
# (参考訳) Sinogram Extrapolation によるCT画像の一般化 [全文訳有]

Generalizable Limited-Angle CT Reconstruction via Sinogram Extrapolation ( http://arxiv.org/abs/2103.05255v1 )

ライセンス: CC BY 4.0
Ce Wang, Haimiao Zhang, Qian Li, Kun Shang, Yuanyuan Lyu, Bin Dong, S. Kevin. Zhou(参考訳) 限られた角度範囲で得られたX線投影からCTを再構成することは特に角度範囲が極端に小さい場合に困難である。 分析モデルと反復モデルの両方が効果的なモデリングのためにより多くの投影を必要とする。 ディープラーニング手法は、優れた再構成性能のために普及しているが、その成功は主に同じデータセット内で制限されており、異なる分布を持つデータセットをまたいだ一般化はしない。 本稿では, 理論的に正当化されるシンノグラム外挿モジュールの導入により, 有限角度ct再構成のための外挿ネットワークを提案する。 モジュールは余分洞図情報およびブーツのモデル一般化可能性を補足します。 大規模な実験結果から,既存手法と同様,NIH-AAPMデータセット上での最先端性能が得られた。 さらに、このようなシングラム外挿モジュールを使用することで、既存のアプローチと比較して、目に見えないデータセット(例えば、COVID-19やLIDCデータセット)におけるモデルの一般化能力が大幅に向上することを示す。

Computed tomography (CT) reconstruction from X-ray projections acquired within a limited angle range is challenging, especially when the angle range is extremely small. Both analytical and iterative models need more projections for effective modeling. Deep learning methods have gained prevalence due to their excellent reconstruction performances, but such success is mainly limited within the same dataset and does not generalize across datasets with different distributions. Hereby we propose ExtraPolationNetwork for limited-angle CT reconstruction via the introduction of a sinogram extrapolation module, which is theoretically justified. The module complements extra sinogram information and boots model generalizability. Extensive experimental results show that our reconstruction model achieves state-of-the-art performance on NIH-AAPM dataset, similar to existing approaches. More importantly, we show that using such a sinogram extrapolation module significantly improves the generalization capability of the model on unseen datasets (e.g., COVID-19 and LIDC datasets) when compared to existing approaches.
翻訳日:2021-03-11 11:30:42 公開日:2021-03-09
# (参考訳) 3D-QCNet -- 拡散MRI画像の自動アーチファクト検出パイプライン [全文訳有]

3D-QCNet -- A Pipeline for Automated Artifact Detection in Diffusion MRI images ( http://arxiv.org/abs/2103.05285v1 )

ライセンス: CC BY 4.0
Adnan Ahmad, Drew Parker, Zahra Riahi Samani, Ragini Verma(参考訳) アーティファクトは拡散MRI(Diffusion MRI)スキャンでよく見られる。 これらのスキャンで行った後処理の正確性と有効性を保証するには、それらを特定し、取り除くことが不可欠である。 これにより、qc(quality control)はdmriデータの解析に先立って重要な第一歩となる。 アーティファクト検出のためのqcメソッドはいくつか存在するが、手作業による介入や、さまざまなアーティファクトやデータセットを汎用化できないといった問題に苦しんでいる。 本稿では,3D-Densenetアーキテクチャを利用した自動ディープラーニング(DL)パイプラインを提案する。 本手法は,7つの大規模臨床データセットから抽出した9000巻からなる膨大なデータセットに適用する。 これらのデータセットは、異なる勾配方向、高値と低値の複数のスキャナからのスキャン、シングルシェル、マルチシェル取得で構成されている。 さらに、病理の存在や欠如など、さまざまな主題の人口統計を表します。 我々のQC法は,テストセット全体で平均92%のアーティファクトを正確に検出することにより,この異種データを正確に一般化する。 多様なデータセットに対するこの一貫したパフォーマンスは、現在、自動化されたQC技術の普及を妨げる重要な障壁である私たちの方法の汎用性を強調しています。 これらの理由から、3D-QCNetを拡散パイプラインに統合して、アーティファクト検出の困難かつ時間を要するプロセスを効果的に自動化できると考えている。

Artifacts are a common occurrence in Diffusion MRI (dMRI) scans. Identifying and removing them is essential to ensure the accuracy and viability of any post processing carried out on these scans. This makes QC (quality control) a crucial first step prior to any analysis of dMRI data. Several QC methods for artifact detection exist, however they suffer from problems like requiring manual intervention and the inability to generalize across different artifacts and datasets. In this paper, we propose an automated deep learning (DL) pipeline that utilizes a 3D-Densenet architecture to train a model on diffusion volumes for automatic artifact detection. Our method is applied on a vast dataset consisting of 9000 volumes sourced from 7 large clinical datasets. These datasets comprise scans from multiple scanners with different gradient directions, high and low b values, single shell and multi shell acquisitions. Additionally, they represent diverse subject demographics like the presence or absence of pathologies. Our QC method is found to accurately generalize across this heterogenous data by correctly detecting 92% artifacts on average across our test set. This consistent performance over diverse datasets underlines the generalizability of our method, which currently is a significant barrier hindering the widespread adoption of automated QC techniques. For these reasons, we believe that 3D-QCNet can be integrated in diffusion pipelines to effectively automate the arduous and time-intensive process of artifact detection.
翻訳日:2021-03-11 11:19:48 公開日:2021-03-09
# (参考訳) ChangeSim: 産業用屋内環境におけるエンドツーエンドのオンラインシーン変化検出に向けて [全文訳有]

ChangeSim: Towards End-to-End Online Scene Change Detection in Industrial Indoor Environments ( http://arxiv.org/abs/2103.05368v1 )

ライセンス: CC BY-SA 4.0
Jin-Man Park, Jae-Hyuk Jang, Sahng-Min Yoo, Sun-Kyung Lee, Ue-Hwan Kim, and Jong-Hwan Kim(参考訳) オンラインシーン変化検出(SCD)などを目的とした,挑戦的なデータセットであるChangeSimを提示する。 データは、大気の濁度や光条件の変化などの環境的非目標変動の存在、ならびに産業用屋内環境における対象物の変化を含む、フォトリアリズムシミュレーション環境で収集されます。 シミュレーションでデータを収集することにより、RGB画像、深度画像、セマンティックセグメンテーション、変更セグメンテーション、カメラポーズ、および3D再構成などのマルチモーダルセンサデータおよび正確な地上真実ラベルを得ることができる。 以前のオンラインSCDデータセットは、適切に整列されたイメージペアのモデルを評価する一方で、ChangeSimはペアリングと検出の両方を考慮して、オンラインSCDモデルをエンドツーエンドに開発する機会を提供する生の未ペアシーケンスも提供する。 実験により、最新のペアベースのSCDモデルでさえペアリングプロセスのボトルネックに悩まされ、環境がターゲット外のバリエーションを含むと悪化することが示された。 私たちのデータセットはhttp://sammica.githu b.io/ChangeSim/で入手できます。

We present a challenging dataset, ChangeSim, aimed at online scene change detection (SCD) and more. The data is collected in photo-realistic simulation environments with the presence of environmental non-targeted variations, such as air turbidity and light condition changes, as well as targeted object changes in industrial indoor environments. By collecting data in simulations, multi-modal sensor data and precise ground truth labels are obtainable such as the RGB image, depth image, semantic segmentation, change segmentation, camera poses, and 3D reconstructions. While the previous online SCD datasets evaluate models given well-aligned image pairs, ChangeSim also provides raw unpaired sequences that present an opportunity to develop an online SCD model in an end-to-end manner, considering both pairing and detection. Experiments show that even the latest pair-based SCD models suffer from the bottleneck of the pairing process, and it gets worse when the environment contains the non-targeted variations. Our dataset is available at http://sammica.githu b.io/ChangeSim/.
翻訳日:2021-03-11 11:07:18 公開日:2021-03-09
# (参考訳) 自動運転の解説--アンケート調査から [全文訳有]

Explanations in Autonomous Driving: A Survey ( http://arxiv.org/abs/2103.05154v1 )

ライセンス: CC BY 4.0
Daniel Omeiza, Helena Webb, Marina Jirotka, Lars Kunze(参考訳) 過去数十年間、自動車産業は、手作業で操作する自動車の製造から、高度な自動化を備えた製造車両まで、開発水準が上昇している。 近年の人工知能(AI)の発展に伴い、自動車企業は高性能なAIモデルを採用し、自動車が環境を認識し、人間の影響をほとんどまたはまったく受けずに運転判断を下すことができます。 自動運転車(AV)を商業規模で展開しようとすると、社会によるAVの受け入れが最も重要となり、その透明性、信頼性、および規制遵守の程度に大きく依存する可能性があります。 これらの受け入れ要件の評価は、AVの行動の説明の提供によって容易に行える。 したがって、説明可能性はAVにとって重要な要件とみなされます。 AVは、彼らが「見た」ことを説明でき、実行され、動作している環境で実行できるはずです。 本稿では,説明可能な自動運転における既存作業の総合的調査について述べる。 まず、AVに関する説明と既存の基準を検討する動機を提供することで開放します。 第2に,avの開発と利用,規制に関わるさまざまな利害関係者を特定し,分類し,その説明の必要性を示す。 第三に、説明の分類を提供し、異なるAV操作の説明に関する以前の研究を見直します。 最後に、関連する課題と今後の研究方向性を指摘している。 この調査は、自律運転の説明に興味がある研究者に必要な基本的な知識を提供するのに役立つ。

The automotive industry is seen to have witnessed an increasing level of development in the past decades; from manufacturing manually operated vehicles to manufacturing vehicles with high level of automation. With the recent developments in Artificial Intelligence (AI), automotive companies now employ high performance AI models to enable vehicles to perceive their environment and make driving decisions with little or no influence from a human. With the hope to deploy autonomous vehicles (AV) on a commercial scale, the acceptance of AV by society becomes paramount and may largely depend on their degree of transparency, trustworthiness, and compliance to regulations. The assessment of these acceptance requirements can be facilitated through the provision of explanations for AVs' behaviour. Explainability is therefore seen as an important requirement for AVs. AVs should be able to explain what they have 'seen', done and might do in environments where they operate. In this paper, we provide a comprehensive survey of the existing work in explainable autonomous driving. First, we open by providing a motivation for explanations and examining existing standards related to AVs. Second, we identify and categorise the different stakeholders involved in the development, use, and regulation of AVs and show their perceived need for explanation. Third, we provide a taxonomy of explanations and reviewed previous work on explanation in the different AV operations. Finally, we draw a close by pointing out pertinent challenges and future research directions. This survey serves to provide fundamental knowledge required of researchers who are interested in explanation in autonomous driving.
翻訳日:2021-03-11 10:50:58 公開日:2021-03-09
# (参考訳) 強化学習による実世界の魚型ロボットの分散円形成制御 [全文訳有]

Decentralized Circle Formation Control for Fish-like Robots in the Real-world via Reinforcement Learning ( http://arxiv.org/abs/2103.05293v1 )

ライセンス: CC BY 4.0
Tianhao Zhang and Yueheng Li and Shuai Li and Qiwei Ye and Chen Wang and Guangming Xie(参考訳) 本稿では, 未知の非線形ダイナミクスと外乱を含む協調型魚型ロボット群に対して, 円形成制御問題に対処する。 強化学習と認知整合性理論に基づいて,魚のようなロボットの力学を知らない分散制御系を提案する。 提案するコントローラはシミュレーションから現実へ転送することができる。 既存のシミュレーション環境でのみトレーニングされており、トレーニングされたコントローラは手動チューニングなしで実際のロボットにデプロイすることができる。 シミュレーションの結果,提案手法はロボットの群の大きさに対してスケーラブルであり,他の代表的RLアルゴリズムよりも優れていることを確認した。 現実世界のいくつかの実験は、私たちのRLベースのサークル形成制御のアプローチの有効性を検証します。

In this paper, the circle formation control problem is addressed for a group of cooperative underactuated fish-like robots involving unknown nonlinear dynamics and disturbances. Based on the reinforcement learning and cognitive consistency theory, we propose a decentralized controller without the knowledge of the dynamics of the fish-like robots. The proposed controller can be transferred from simulation to reality. It is only trained in our established simulation environment, and the trained controller can be deployed to real robots without any manual tuning. Simulation results confirm that the proposed model-free robust formation control method is scalable with respect to the group size of the robots and outperforms other representative RL algorithms. Several experiments in the real world verify the effectiveness of our RL-based approach for circle formation control.
翻訳日:2021-03-11 10:02:09 公開日:2021-03-09
# (参考訳) 超次元計算を用いたメモリ効率・肢位置認識 [全文訳有]

Memory-Efficient, Limb Position-Aware Hand Gesture Recognition using Hyperdimensional Computing ( http://arxiv.org/abs/2103.05267v1 )

ライセンス: CC BY-SA 4.0
Andy Zhou, Rikky Muller, and Jan Rabaey(参考訳) 電気筋電図(EMG)パターン認識は、人間-機械インタフェースおよび義手アプリケーションの手のジェスチャーおよび動きを分類するために使用することができるが、四肢の位置変化に起因する信頼性の問題にしばしば直面する。 これに対処する1つの方法はデュアルステージ分類であり、まずは複数の位置特定ジェスチャ分類器の間で選択する追加のセンサーを使用して四肢の位置を決定する。 パフォーマンス向上と同時に、モデルの複雑さとメモリフットプリントも向上し、リソースの少ないウェアラブルデバイスでは、デュアルステージの分類器の実装が困難になる。 本稿では,超次元計算モデルを用いて,加速度計とemg信号のセンサ融合を行い,メモリ効率の高い2段分類を行う。 重ね合わせに格納された複数のモデルから位置特定パラメータを検索するためのキーとして,加速度計の特徴を符号化する2つの方法を示す。 8つの手足の位置にある13のジェスチャーのデータセットの検証により、93.34%の分類精度が得られ、17.79%の改善はEMGでのみ訓練されたモデルよりも向上した。 単一の四肢の位置モデルよりもわずかにメモリフットプリントを増加させるだけで、従来のデュアルステージ分類アーキテクチャよりも8\times$のメモリを必要とします。

Electromyogram (EMG) pattern recognition can be used to classify hand gestures and movements for human-machine interface and prosthetics applications, but it often faces reliability issues resulting from limb position change. One method to address this is dual-stage classification, in which the limb position is first determined using additional sensors to select between multiple position-specific gesture classifiers. While improving performance, this also increases model complexity and memory footprint, making a dual-stage classifier difficult to implement in a wearable device with limited resources. In this paper, we present sensor fusion of accelerometer and EMG signals using a hyperdimensional computing model to emulate dual-stage classification in a memory-efficient way. We demonstrate two methods of encoding accelerometer features to act as keys for retrieval of position-specific parameters from multiple models stored in superposition. Through validation on a dataset of 13 gestures in 8 limb positions, we obtain a classification accuracy of up to 93.34%, an improvement of 17.79% over using a model trained solely on EMG. We achieve this while only marginally increasing memory footprint over a single limb position model, requiring $8\times$ less memory than a traditional dual-stage classification architecture.
翻訳日:2021-03-11 08:59:35 公開日:2021-03-09
# (参考訳) hls4ml:科学的な低消費電力マシンラーニングデバイスを実現するオープンソースのコデザインワークフロー [全文訳有]

hls4ml: An Open-Source Codesign Workflow to Empower Scientific Low-Power Machine Learning Devices ( http://arxiv.org/abs/2103.05579v1 )

ライセンス: CC BY-SA 4.0
Farah Fahim, Benjamin Hawks, Christian Herwig, James Hirschauer, Sergo Jindariani, Nhan Tran, Luca P. Carloni, Giuseppe Di Guglielmo, Philip Harris, Jeffrey Krupa, Dylan Rankin, Manuel Blanco Valentin, Josiah Hester, Yingyi Luo, John Mamish, Seda Orgrenci-Memik, Thea Aarestaad, Hamza Javed, Vladimir Loncar, Maurizio Pierini, Adrian Alan Pol, Sioni Summers, Javier Duarte, Scott Hauck, Shih-Chieh Hsu, Jennifer Ngadiuba, Mia Liu, Duc Hoang, Edward Kreinar, Zhenbin Wu(参考訳) アクセス可能な機械学習アルゴリズム、ソフトウェア、エネルギー効率のよいデバイスやシステムの診断ツールは、幅広いアプリケーションドメインにわたって非常に有用である。 科学的領域では、リアルタイム近接センサー処理は実験設計を劇的に改善し、科学的発見を加速することができる。 ドメインサイエンティストを支援するために、FPGAとASIC技術の両方で実装するための機械学習アルゴリズムを解釈および翻訳するオープンソースのソフトウェアハードウェアコード署名ワークフローであるhls4mlを開発しました。 新しいPython API、量子化対応のpruning、エンドツーエンドのFPGAワークフロー、低消費電力のための長いパイプラインカーネル、ASICワークフローを含む新しいデバイスのバックエンド。 これらとhls4mlの継続的な取り組みは、新しい世代のドメイン科学者に、機械学習が加速する発見のためのアクセス可能で効率的で強力なツールを付与する。

Accessible machine learning algorithms, software, and diagnostic tools for energy-efficient devices and systems are extremely valuable across a broad range of application domains. In scientific domains, real-time near-sensor processing can drastically improve experimental design and accelerate scientific discoveries. To support domain scientists, we have developed hls4ml, an open-source software-hardware codesign workflow to interpret and translate machine learning algorithms for implementation with both FPGA and ASIC technologies. We expand on previous hls4ml work by extending capabilities and techniques towards low-power implementations and increased usability: new Python APIs, quantization-aware pruning, end-to-end FPGA workflows, long pipeline kernels for low power, and new device backends include an ASIC workflow. Taken together, these and continued efforts in hls4ml will arm a new generation of domain scientists with accessible, efficient, and powerful tools for machine-learning-acc elerated discovery.
翻訳日:2021-03-11 07:15:07 公開日:2021-03-09
# (参考訳) Dory: 永続的ホモロジーコンピューティングの障壁を克服する

Dory: Overcoming Barriers to Computing Persistent Homology ( http://arxiv.org/abs/2103.05608v1 )

ライセンス: CC BY 4.0
Manu Aggarwal and Vipul Periwal(参考訳) 永続ホモロジー (Persistent homology, PH) は、ノイズに強い高次元データの多次元位相不変性を計算するトポロジカルデータ分析 (TDA) のアプローチである。 PHは様々なアプリケーションで有用なパターンを明らかにしているが、計算要求は数千点の小さなデータセットに限られている。 大規模データセットの持続的ホモロジーを計算できる効率的でスケーラブルなアルゴリズムであるdoryを提案する。 doryは公開アルゴリズムよりもメモリ使用量が少なく、計算時間もほとんどのアルゴリズムに比べて大幅に削減できる。 数百万ポイントのデータセットを処理するためにスケールする。 応用として、ヒトゲノムのPHを高分解能で計算し、ゲノムワイドHi-Cデータセットで明らかにする。 結果は、コヘシンを分解する分子であるオーキシンによる治療によってヒトゲノムのトポロジが有意に変化し、コヘシンがDNAのループ形成において重要な役割を果たしているという仮説を裏付ける。

Persistent homology (PH) is an approach to topological data analysis (TDA) that computes multi-scale topologically invariant properties of high-dimensional data that are robust to noise. While PH has revealed useful patterns across various applications, computational requirements have limited applications to small data sets of a few thousand points. We present Dory, an efficient and scalable algorithm that can compute the persistent homology of large data sets. Dory uses significantly less memory than published algorithms and also provides significant reductions in the computation time compared to most algorithms. It scales to process data sets with millions of points. As an application, we compute the PH of the human genome at high resolution as revealed by a genome-wide Hi-C data set. Results show that the topology of the human genome changes significantly upon treatment with auxin, a molecule that degrades cohesin, corroborating the hypothesis that cohesin plays a crucial role in loop formation in DNA.
翻訳日:2021-03-11 06:52:39 公開日:2021-03-09
# (参考訳) ドラヴィダ言語識別へのアプローチの比較 [全文訳有]

Comparing Approaches to Dravidian Language Identification ( http://arxiv.org/abs/2103.05552v1 )

ライセンス: CC BY 4.0
Tommi Jauhiainen, Tharindu Ranasinghe, Marcos Zampieri(参考訳) 本稿では、VarDial 2021ワークショップにおいて、チームHWRによるDLI(Dravidian Language Identification)共有タスクへの提出について述べる。 DLIトレーニングセットには、ローマ文字で書かれた16,674のYouTubeコメントが含まれ、英語とコードミックスされたテキストと3つの南ドラヴィディアン言語(カンナダ語、マラヤラム語、タミル語)の1つです。 適応型言語モデルを用いたNaive Bayes分類器は,多くの言語・方言識別タスクにおいて競争的性能を発揮することを示し,また,多くのNLPタスクにおいて最先端のものとして広く評価されているトランスベースモデルである。 第1の提出は、共有タスクオーガナイザが提供するトレーニングセットのみを使用して、クローズドな提出トラックに送信されましたが、第2の提出は、外部データでトレーニングされた事前訓練されたモデルを使用するため、オープンであると考えられています。 私たちのチームは、Naive Bayesに基づいて提出した共有タスクで2番目のポジションを達成しました。 本結果は,他の多くのテキスト分類タスクほど,ディープラーニング手法が言語識別関連タスクと競合するものではない,という考え方を補強するものである。

This paper describes the submissions by team HWR to the Dravidian Language Identification (DLI) shared task organized at VarDial 2021 workshop. The DLI training set includes 16,674 YouTube comments written in Roman script containing code-mixed text with English and one of the three South Dravidian languages: Kannada, Malayalam, and Tamil. We submitted results generated using two models, a Naive Bayes classifier with adaptive language models, which has shown to obtain competitive performance in many language and dialect identification tasks, and a transformer-based model which is widely regarded as the state-of-the-art in a number of NLP tasks. Our first submission was sent in the closed submission track using only the training set provided by the shared task organisers, whereas the second submission is considered to be open as it used a pretrained model trained with external data. Our team attained shared second position in the shared task with the submission based on Naive Bayes. Our results reinforce the idea that deep learning methods are not as competitive in language identification related tasks as they are in many other text classification tasks.
翻訳日:2021-03-11 06:50:26 公開日:2021-03-09
# (参考訳) インターネットマーケットプレイスにおけるグローバル推論の効率的なアルゴリズム [全文訳有]

Efficient Algorithms for Global Inference in Internet Marketplaces ( http://arxiv.org/abs/2103.05277v1 )

ライセンス: CC BY 4.0
Rohan Ramanath, Sathiya Keerthi, Yao Pan, Konstantin Salomatin, Kinjal Basu(参考訳) インターネット市場(eコマース、ライドシェアリング、フードデリバリー、プロフェッショナルサービス、広告)における需要と供給のマッチングは、(数百万の)結合制約と(最大10億の)非結合ポリトープ制約を持つリニアプログラム(lp)として定式化できるグローバルな推論問題である。 近年まで、LP定式化によるWebスケールデータにおけるそのような問題の解決は難しかった。 最近の研究(basu et al., 2020)は、ポリトープの制約が単純である場合にそのような問題を解決するために二重分解に基づくアプローチを開発した。 この研究では、これらの単純なポリトープを超えて、より複雑な構造化されたポリトープ制約を必要とする現実世界のインターネットマーケットプレイスを示す必要性を動機付けます。 我々は、グローバルな推論問題に広く適用可能な新しいアルゴリズムにより、近年の文献を拡大する。 任意のポリトープに投影するポリトープ上の解の性質に関する理論的知見を用いて,効率的なインクリメンタルアルゴリズムを導出し,性能の大幅な向上を示す。 より優れた最適化ルーチンと適応アルゴリズムを使用して、目的の滑らかさを制御し、ソリューションの速度をさらに向上させます。 Webスケールマーケットプレイスデータを用いた実験結果から,本手法の有効性について紹介する。

Matching demand to supply in internet marketplaces (e-commerce, ride-sharing, food delivery, professional services, advertising) is a global inference problem that can be formulated as a Linear Program (LP) with (millions of) coupling constraints and (up to a billion) non-coupling polytope constraints. Until recently, solving such problems on web-scale data with an LP formulation was intractable. Recent work (Basu et al., 2020) developed a dual decomposition-based approach to solve such problems when the polytope constraints are simple. In this work, we motivate the need to go beyond these simple polytopes and show real-world internet marketplaces that require more complex structured polytope constraints. We expand on the recent literature with novel algorithms that are more broadly applicable to global inference problems. We derive an efficient incremental algorithm using a theoretical insight on the nature of solutions on the polytopes to project onto any arbitrary polytope, that shows massive improvements in performance. Using better optimization routines along with an adaptive algorithm to control the smoothness of the objective, improves the speed of the solution even further. We showcase the efficacy of our approach via experimental results on web-scale marketplace data.
翻訳日:2021-03-11 06:37:30 公開日:2021-03-09
# (参考訳) Retrieve-Copy-Genera te Networkによるオープンブックビデオキャプション [全文訳有]

Open-book Video Captioning with Retrieve-Copy-Genera te Network ( http://arxiv.org/abs/2103.05284v1 )

ライセンス: CC BY 4.0
Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Ying Shan, Bing Li, Ying Deng, Weiming Hu(参考訳) ショートビデオの急速な出現とコンテンツ理解と作成の要件のために、ビデオキャプションタスクは、近年ますます注目を集めています。 本稿では,従来の動画キャプションタスクを,映像自体に限らず,映像コンテンツ関連文のプロンプトの下で自然言語を生成する,オープンブックビデオキャプションという新しいパラダイムに転換する。 オープンブックビデオキャプション問題に対処するために,学習コーパスからヒントとして文を取り出すためのプラグイン可能なビデオからテキストへの検索器を構築し,複数の検索文から表現を動的に抽出するコピー機構生成器を提案する。 2つのモジュールはエンドツーエンドまたは個別にトレーニングすることができる。 本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。 提案手法は,映像キャプションのタスクにおいて,提案手法の有効性と有望性を示すとともに,提案手法が最先端の性能を上回ることを示す。

Due to the rapid emergence of short videos and the requirement for content understanding and creation, the video captioning task has received increasing attention in recent years. In this paper, we convert traditional video captioning task into a new paradigm, \ie, Open-book Video Captioning, which generates natural language under the prompts of video-content-releva nt sentences, not limited to the video itself. To address the open-book video captioning problem, we propose a novel Retrieve-Copy-Genera te network, where a pluggable video-to-text retriever is constructed to retrieve sentences as hints from the training corpus effectively, and a copy-mechanism generator is introduced to extract expressions from multi-retrieved sentences dynamically. The two modules can be trained end-to-end or separately, which is flexible and extensible. Our framework coordinates the conventional retrieval-based methods with orthodox encoder-decoder methods, which can not only draw on the diverse expressions in the retrieved sentences but also generate natural and accurate content of the video. Extensive experiments on several benchmark datasets show that our proposed approach surpasses the state-of-the-art performance, indicating the effectiveness and promising of the proposed paradigm in the task of video captioning.
翻訳日:2021-03-11 05:52:49 公開日:2021-03-09
# (参考訳) BASAR:ブラックボックス攻撃による骨格的行動認識 [全文訳有]

BASAR:Black-box Attack on Skeletal Action Recognition ( http://arxiv.org/abs/2103.05266v1 )

ライセンス: CC BY 4.0
Yunfeng Diao and Tianjia Shao and Yong-Liang Yang and Kun Zhou and He Wang(参考訳) 骨格運動は、独立したデータソースまたは補完として人間の活動認識に重要な役割を果たします。 骨格に基づく活動認識器の堅牢性は近年疑問視されており、認識器の完全知識が攻撃者にアクセス可能な場合、敵攻撃に対して脆弱であることが示されている。 しかし、このホワイトボックス要件はたいていのシナリオでは過度に制限され、攻撃は真の脅威ではない。 本稿では,そのような脅威がブラックボックスの設定下でも存在することを示す。 そこで本研究では,最初のブラックボックス対人攻撃法BASARを提案する。 BASAR を通じて、敵対的攻撃は真に脅威であるだけでなく、非常に詐欺的であることを示す。なぜなら、対逆的サンプルは非多様体のみが存在するという共通の信念とは対照的に、オンマニホールド敵対的サンプルは骨格運動においてかなり一般的であるからである。 徹底的な評価と比較を通じて,バザールはモデル,データ,攻撃モードにまたがって攻撃を成功させることができることを示した。 過酷な知覚研究を通じて、効果的だが知覚不能な攻撃が達成できることを実証する。 異なるアクティビティ認識に対する攻撃を分析することで、BASARは脆弱性の潜在的な原因を特定し、どの分類器が攻撃に対してより堅牢になるかについての洞察を提供します。

Skeletal motion plays a vital role in human activity recognition as either an independent data source or a complement. The robustness of skeleton-based activity recognizers has been questioned recently, which shows that they are vulnerable to adversarial attacks when the full-knowledge of the recognizer is accessible to the attacker. However, this white-box requirement is overly restrictive in most scenarios and the attack is not truly threatening. In this paper, we show that such threats do exist under black-box settings too. To this end, we propose the first black-box adversarial attack method BASAR. Through BASAR, we show that adversarial attack is not only truly a threat but also can be extremely deceitful, because on-manifold adversarial samples are rather common in skeletal motions, in contrast to the common belief that adversarial samples only exist off-manifold. Through exhaustive evaluation and comparison, we show that BASAR can deliver successful attacks across models, data, and attack modes. Through harsh perceptual studies, we show that it achieves effective yet imperceptible attacks. By analyzing the attack on different activity recognizers, BASAR helps identify the potential causes of their vulnerability and provides insights on what classifiers are likely to be more robust against attack.
翻訳日:2021-03-11 05:33:13 公開日:2021-03-09
# (参考訳) テキスト分類のための自己監視正規化 [全文訳有]

Self-supervised Regularization for Text Classification ( http://arxiv.org/abs/2103.05231v1 )

ライセンス: CC BY 4.0
Meng Zhou, Zechen Li, Pengtao Xie(参考訳) テキスト分類は広く研究されている問題であり、幅広い応用がある。 多くの実世界の問題において、分類モデルの訓練用テキスト数は限られており、これらのモデルは過度に適合する傾向にある。 そこで本研究では,自己監視型学習(SSL)に基づくデータ依存型正規化手法であるSSL-Regを提案する。 SSLは、人間提供のラベルを使用せずに入力データの補助タスクを定義し、これらの補助タスクを解決することによってデータ表現を学習する教師なしの学習アプローチです。 SSL-Regでは、教師なし分類タスクと教師なしSSLタスクを同時に行う。 SSLタスクは教師なしで、人間提供のラベルを使用せずに入力テキストで純粋に定義されます。 SSLタスクを使用してモデルをトレーニングすると、分類タスクの限られた数のクラスラベルにモデルがオーバーフィットするのを防ぐことができます。 提案手法の有効性を実証する17のテキスト分類データセットの実験を行った。

Text classification is a widely studied problem and has broad applications. In many real-world problems, the number of texts for training classification models is limited, which renders these models prone to overfitting. To address this problem, we propose SSL-Reg, a data-dependent regularization approach based on self-supervised learning (SSL). SSL is an unsupervised learning approach which defines auxiliary tasks on input data without using any human-provided labels and learns data representations by solving these auxiliary tasks. In SSL-Reg, a supervised classification task and an unsupervised SSL task are performed simultaneously. The SSL task is unsupervised, which is defined purely on input texts without using any human-provided labels. Training a model using an SSL task can prevent the model from being overfitted to a limited number of class labels in the classification task. Experiments on 17 text classification datasets demonstrate the effectiveness of our proposed method.
翻訳日:2021-03-11 05:28:58 公開日:2021-03-09
# (参考訳) BERTese: BERTに話すことを学ぶ [全文訳有]

BERTese: Learning to Speak to BERT ( http://arxiv.org/abs/2103.05327v1 )

ライセンス: CC BY 4.0
Adi Haviv, Jonathan Berant and Amir Globerson(参考訳) 大規模な事前訓練された言語モデルは、そのパラメータに大量の世界と常識の知識をエンコードすることが示されており、その知識を抽出する方法に大きな関心を寄せている。 過去の研究では、手作業によるクエリの取得と、別のパイプラインを使ったパラフレーズの収集によって知識が抽出された。 本研究では,より良い知識抽出に向けて直接最適化されたパラフレーズクエリ"BERTese"に自動書き換える手法を提案する。 意味のある書き換えを促進するために、クエリが実際の言語トークンに対応するように促す補助損失関数を追加します。 私たちのアプローチが競合するベースラインを上回ることを実証的に示し、複雑なパイプラインの必要性を回避します。 さらにBERTeseは、言語モデルが知識抽出を行うのに役立つ言語の種類に関する洞察を提供する。

Large pre-trained language models have been shown to encode large amounts of world and commonsense knowledge in their parameters, leading to substantial interest in methods for extracting that knowledge. In past work, knowledge was extracted by taking manually-authored queries and gathering paraphrases for them using a separate pipeline. In this work, we propose a method for automatically rewriting queries into "BERTese", a paraphrase query that is directly optimized towards better knowledge extraction. To encourage meaningful rewrites, we add auxiliary loss functions that encourage the query to correspond to actual language tokens. We empirically show our approach outperforms competing baselines, obviating the need for complex pipelines. Moreover, BERTese provides some insight into the type of language that helps language models perform knowledge extraction.
翻訳日:2021-03-11 05:11:40 公開日:2021-03-09
# (参考訳) 計算的インパクト時間ガイダンス:学習に基づく予測補正手法 [全文訳有]

Computational Impact Time Guidance: A Learning-Based Prediction-Correctio n Approach ( http://arxiv.org/abs/2103.05196v1 )

ライセンス: CC BY 4.0
Zichao Liu, Jiang Wang, Shaoming He, Hyo-Sang Shin and Antonios Tsourdos(参考訳) 本稿では,影響時間制御の問題を考察し,この問題を解決するための学習型計算指導アルゴリズムを提案する。 本提案のガイダンスアルゴリズムは,リアルな空力特性を有する比例航法誘導の下での正確な移動時刻をディープニューラルネットワークにより推定し,新たな強化学習技術を用いて影響時間誤差を緩和するバイアスコマンドを開発する,一般予測補正の概念に基づいて開発された。 ディープニューラルネットワークは強化学習ブロックに拡張され、典型的な強化学習の定式化で観測されたスパース報酬の問題を解決する。 提案アルゴリズムを支援するために, 大規模数値シミュレーションを行った。

This paper investigates the problem of impact-time-control and proposes a learning-based computational guidance algorithm to solve this problem. The proposed guidance algorithm is developed based on a general prediction-correctio n concept: the exact time-to-go under proportional navigation guidance with realistic aerodynamic characteristics is estimated by a deep neural network and a biased command to nullify the impact time error is developed by utilizing the emerging reinforcement learning techniques. The deep neural network is augmented into the reinforcement learning block to resolve the issue of sparse reward that has been observed in typical reinforcement learning formulation. Extensive numerical simulations are conducted to support the proposed algorithm.
翻訳日:2021-03-11 05:01:59 公開日:2021-03-09
# (参考訳) 医療における強化学習の課題 [全文訳有]

Challenges for Reinforcement Learning in Healthcare ( http://arxiv.org/abs/2103.05612v1 )

ライセンス: CC BY 4.0
Elsa Riachi, Muhammad Mamdani, Michael Fralick, Frank Rudzicz(参考訳) 多くのヘルスケアの決定は、多数の治療オプションを連続的かつ反復的にナビゲートし、最適な患者の結果を達成するために最適な治療経路を見つけます。 このような最適化問題は強化学習に有効かもしれない。 強化学習エージェントは、意思決定支援ツールとして作用し、医師に治療の推奨を提供するように訓練することができる。 しかし、報酬関数の指定、適切な状態表現の選択、学習ポリシーの評価など、ベンチマーク環境を超えてRLを使用する場合、多くの困難が発生する。

Many healthcare decisions involve navigating through a multitude of treatment options in a sequential and iterative manner to find an optimal treatment pathway with the goal of an optimal patient outcome. Such optimization problems may be amenable to reinforcement learning. A reinforcement learning agent could be trained to provide treatment recommendations for physicians, acting as a decision support tool. However, a number of difficulties arise when using RL beyond benchmark environments, such as specifying the reward function, choosing an appropriate state representation and evaluating the learned policy.
翻訳日:2021-03-11 04:42:29 公開日:2021-03-09
# (参考訳) 符号化変換による画像間変換への生成的遷移機構 [全文訳有]

Generative Transition Mechanism to Image-to-Image Translation via Encoded Transformation ( http://arxiv.org/abs/2103.05193v1 )

ライセンス: CC BY 4.0
Yaxin Shi, Xiaowei Zhou, Ping Liu, Ivor Tsang(参考訳) 本稿では,画像対画像(i2i)変換問題に遷移一貫性,すなわち各データペア間の条件付きデータマッピングで定義される一貫性について再検討する。 トランジッション変数 $t$,すなわち $x \overset{t(x,y)}{\mapsto}y$ で各データマッピングを明示的にパラメータ化することで、既存のi2i翻訳モデルは、画像再構成や属性予測といった結果整合性の維持に重点を置いていることが分かりました。 これにより、テストフェーズで見当たらない遷移を伴う満足のいく結果を生成するための一般化能力が制限される。 そこで本研究では,i2i翻訳における結果整合性とトランジッション一貫性を両立させ,入力と出力の一貫性の密接な向上を図る。 翻訳モデルの一般化能力を活かすため,この2つの<kinds>を非可視遷移上で明示的に正規化するためのトランジションエンコーディングを提案する。 さらに、これらの明示的な正規化成分を分布レベルに一般化し、I2I翻訳問題に対する全体的な一貫性を一般化する。 上述の設計により,提案モデルであるTransition Encoding GAN (TEGAN) は,テストフェーズにおける見知らぬ遷移を伴う現実的で意味的に一貫した翻訳結果を生成するために,スーパーバンの一般化能力を実現することができる。 また、既存のGANベースのI2Iトランジションモデルの統一的な理解と、データマッピング、すなわちトランジションの明示的なモデリングも提供します。 4つの異なるI2I翻訳タスクの実験は、TEGANの有効性と一般性を示しています。

In this paper, we revisit the Image-to-Image (I2I) translation problem with transition consistency, namely the consistency defined on the conditional data mapping between each data pairs. Explicitly parameterizing each data mappings with a transition variable $t$, i.e., $x \overset{t(x,y)}{\mapsto}y$, we discover that existing I2I translation models mainly focus on maintaining consistency on results, e.g., image reconstruction or attribute prediction, named result consistency in our paper. This restricts their generalization ability to generate satisfactory results with unseen transitions in the test phase. Consequently, we propose to enforce both result consistency and transition consistency for I2I translation, to benefit the problem with a closer consistency between the input and output. To benefit the generalization ability of the translation model, we propose transition encoding to facilitate explicit regularization of these two {kinds} of consistencies on unseen transitions. We further generalize such explicitly regularized consistencies to distribution-level, thus facilitating a generalized overall consistency for I2I translation problems. With the above design, our proposed model, named Transition Encoding GAN (TEGAN), can poss superb generalization ability to generate realistic and semantically consistent translation results with unseen transitions in the test phase. It also provides a unified understanding of the existing GAN-based I2I transition models with our explicitly modeling of the data mapping, i.e., transition. Experiments on four different I2I translation tasks demonstrate the efficacy and generality of TEGAN.
翻訳日:2021-03-11 02:59:33 公開日:2021-03-09
# (参考訳) センサの解像度向上により、同じパラメータ数またはFLOPSのCNN精度が向上する [全文訳有]

Enhancing sensor resolution improves CNN accuracy given the same number of parameters or FLOPS ( http://arxiv.org/abs/2103.05251v1 )

ライセンス: CC BY 4.0
Ali Borji(参考訳) 多くのコンピュータビジョンアプリケーションで優れたパフォーマンスを得るためには、高画質が不可欠です。 しかし、cnnの計算複雑性は入力画像サイズの増加とともに著しく増大する。 本稿では,同じパラメータ数やフラップ数を持ちながら,高い入力解像度で高い精度を実現するように,ネットワークを変更することはほぼ常に可能であることを示す。 efficientnetの論文と似ているが、ネットワーク幅、奥行き、解像度を同時に最適化する代わりに、ここでは入力解像度だけに焦点を当てる。 これにより探索空間はより小さくなり、低い計算予算体系に適している。 さらに重要なのは、モデルパラメータの数(およびモデル容量)を制御することによって、精度のさらなる利点は、より高い入力解像度によるものであることを示しています。 MNIST、Fashion MNIST、CIFAR10データセットに関する予備的研究は、提案手法の効率性を実証している。

High image resolution is critical to obtain a good performance in many computer vision applications. Computational complexity of CNNs, however, grows significantly with the increase in input image size. Here, we show that it is almost always possible to modify a network such that it achieves higher accuracy at a higher input resolution while having the same number of parameters or/and FLOPS. The idea is similar to the EfficientNet paper but instead of optimizing network width, depth and resolution simultaneously, here we focus only on input resolution. This makes the search space much smaller which is more suitable for low computational budget regimes. More importantly, by controlling for the number of model parameters (and hence model capacity), we show that the additional benefit in accuracy is indeed due to the higher input resolution. Preliminary empirical investigation over MNIST, Fashion MNIST, and CIFAR10 datasets demonstrates the efficiency of the proposed approach.
翻訳日:2021-03-11 02:39:32 公開日:2021-03-09
# (参考訳) 安定化医療画像攻撃 [全文訳有]

Stabilized Medical Image Attacks ( http://arxiv.org/abs/2103.05232v1 )

ライセンス: CC BY 4.0
Gege Qi, Lijun Gong, Yibing Song, Kai Ma, Yefeng Zheng(参考訳) 畳み込みニューラルネットワーク(CNN)は、自動疾患診断のための既存の医療システムである。 しかし、これらのシステムに対する脅威は、逆襲攻撃がCNNを脆弱にすることである。 不正確な診断結果は、人間の医療に悪影響を及ぼす。 深部医療診断システムを強化するためには, 敵対的攻撃の可能性を検討する必要がある。 一方, 医療画像(CT, 眼底, 内視鏡画像など)には様々な形態があり, それぞれのタイプが他と大きく異なる。 さまざまなタイプの医療画像に対する逆の摂動を生成することはより困難です。 本稿では,医用画像に対して常に逆向きの摂動を発生させる画像ベース医療敵攻撃法を提案する。 本手法の客観的機能は、損失偏差項と損失安定化項とからなる。 損失偏差項は、逆例のCNN予測と基底真理ラベルとの間の発散を増加させる。 一方、損失安定化項は、この例と平滑化された入力の類似のcnn予測を保証する。 摂動発生の反復の全体の観点から、提案した損失安定化項は摂動空間を徹底的に探索し、局所的最適脱出のための単一スポットを滑らかにする。 さらに,提案する損失関数のkl分割を解析し,損失安定化項が基底真理から逸脱しながら,摂動を固定目的点に向けて更新することを示す。 この安定化は、小さなばらつきで摂動を発生させながら、異なる種類の医療画像に有効な医療攻撃を確実にする。 最近のCOVID-19データセットを含むいくつかの医療画像分析ベンチマークの実験は、提案手法の安定性を示している。

Convolutional Neural Networks (CNNs) have advanced existing medical systems for automatic disease diagnosis. However, a threat to these systems arises that adversarial attacks make CNNs vulnerable. Inaccurate diagnosis results make a negative influence on human healthcare. There is a need to investigate potential adversarial attacks to robustify deep medical diagnosis systems. On the other side, there are several modalities of medical images (e.g., CT, fundus, and endoscopic image) of which each type is significantly different from others. It is more challenging to generate adversarial perturbations for different types of medical images. In this paper, we propose an image-based medical adversarial attack method to consistently produce adversarial perturbations on medical images. The objective function of our method consists of a loss deviation term and a loss stabilization term. The loss deviation term increases the divergence between the CNN prediction of an adversarial example and its ground truth label. Meanwhile, the loss stabilization term ensures similar CNN predictions of this example and its smoothed input. From the perspective of the whole iterations for perturbation generation, the proposed loss stabilization term exhaustively searches the perturbation space to smooth the single spot for local optimum escape. We further analyze the KL-divergence of the proposed loss function and find that the loss stabilization term makes the perturbations updated towards a fixed objective spot while deviating from the ground truth. This stabilization ensures the proposed medical attack effective for different types of medical images while producing perturbations in small variance. Experiments on several medical image analysis benchmarks including the recent COVID-19 dataset show the stability of the proposed method.
翻訳日:2021-03-11 01:37:17 公開日:2021-03-09
# (参考訳) 選択的および特徴に基づく逆例検出 [全文訳有]

Selective and Features based Adversarial Example Detection ( http://arxiv.org/abs/2103.05354v1 )

ライセンス: CC BY 4.0
Ahmed Aldahdooh, Wassim Hamidouche, and Olivier D\'eforges(参考訳) ディープニューラルネットワーク(DNN)を中継するセキュリティに敏感なアプリケーションは、人間には受け入れられず、DNNがそれらを誤分類させる原因となる敵の例(AE)を生成するために作られた小さな摂動に対して脆弱です。 多くの防御および検出技術が提案されている。 state-of-the-art検出テクニックは、特定の攻撃や他人による破壊、攻撃に関する知識の必要、一貫性の欠如、モデルパラメータのオーバーヘッドの増大、時間消費、あるいは推論時間の遅延のために設計されている。 これらの要因をトレードオフするために,多タスク学習環境における選択予測,処理モデル層出力,知識伝達概念を用いた教師なし検出機構を提案する。 Selective and Feature based Adversarial Detection (SFAD)と呼ばれる。 実験の結果,提案手法は,ホワイトボックスシナリオにおけるテスト攻撃に対する最先端手法と同等の結果を得られ,ブラックボックスとグレーボックスシナリオの精度が向上した。 さらに,SFAD は MNIST の High Confidence Attacks (HCAs) に対して完全に堅牢であり,CIFAR-10 データセットに対して部分的に堅牢であることを示す。

Security-sensitive applications that relay on Deep Neural Networks (DNNs) are vulnerable to small perturbations crafted to generate Adversarial Examples (AEs) that are imperceptible to human and cause DNN to misclassify them. Many defense and detection techniques have been proposed. The state-of-the-art detection techniques have been designed for specific attacks or broken by others, need knowledge about the attacks, are not consistent, increase model parameters overhead, are time-consuming, or have latency in inference time. To trade off these factors, we propose a novel unsupervised detection mechanism that uses the selective prediction, processing model layers outputs, and knowledge transfer concepts in a multi-task learning setting. It is called Selective and Feature based Adversarial Detection (SFAD). Experimental results show that the proposed approach achieves comparable results to the state-of-the-art methods against tested attacks in white box scenario and better results in black and gray boxes scenarios. Moreover, results show that SFAD is fully robust against High Confidence Attacks (HCAs) for MNIST and partially robust for CIFAR-10 datasets.
翻訳日:2021-03-11 01:22:43 公開日:2021-03-09
# (参考訳) 弱ラベルランダムインデックス [全文訳有]

The Weakly-Labeled Rand Index ( http://arxiv.org/abs/2103.04872v2 )

ライセンス: CC BY 4.0
Dylan Stewart, Anna Hampton, Alina Zare, Jeff Dale, James Keller(参考訳) 合成開口ソナー (SAS) 調査では, 海底型間の遷移領域が広い画像が得られた。 これらの領域により、画像のラベル付けと分割が困難であり、さらに画像分割を適切にスコア付けすることが困難である。 標準のクリスプセグメンテーションスキームの性能を定量化する多くのアプローチがあるが、不確かさの勾配や領域が不適切であるリモートセンシングイメージにおけるハードバウンダリの描画は困難である。 これらのケースは弱いラベルと関連する適切なスコア付けアプローチを保証します。 本稿では,弱いラベル付きデータに対するラベル付け手法とRand indexの修正版を導入し,これらの課題に対処する。 結果は新しいインデックスで評価され、従来のセグメンテーション評価方法と比較されます。 sasデータセットを用いた実験の結果,我々の弱いラベル付きrandインデックススコアは質的性能に適しており,弱いラベル付きデータをスコアする従来の量的指標よりも適していることがわかった。

Synthetic Aperture Sonar (SAS) surveys produce imagery with large regions of transition between seabed types. Due to these regions, it is difficult to label and segment the imagery and, furthermore, challenging to score the image segmentations appropriately. While there are many approaches to quantify performance in standard crisp segmentation schemes, drawing hard boundaries in remote sensing imagery where gradients and regions of uncertainty exist is inappropriate. These cases warrant weak labels and an associated appropriate scoring approach. In this paper, a labeling approach and associated modified version of the Rand index for weakly-labeled data is introduced to address these issues. Results are evaluated with the new index and compared to traditional segmentation evaluation methods. Experimental results on a SAS data set containing must-link and cannot-link labels show that our Weakly-Labeled Rand index scores segmentations appropriately in reference to qualitative performance and is more suitable than traditional quantitative metrics for scoring weakly-labeled data.
翻訳日:2021-03-11 00:39:48 公開日:2021-03-09
# (参考訳) 再生可能資源予測のための機械学習類似度指標を用いた気象アナログ

Weather Analogs with a Machine Learning Similarity Metric for Renewable Resource Forecasting ( http://arxiv.org/abs/2103.04530v2 )

ライセンス: CC BY 4.0
Weiming Hu, Guido Cervone, George Young, Luca Delle Monache(参考訳) アナログアンサンブル(AnEn)技術はいくつかの気象問題に有効であることが示されている。 大規模な空間領域と拡張時空間ウィンドウ内で検索される以前の気象アナログとは異なり、AnEnは空間と時間を厳密に制限し、短い時間ウィンドウ内で各グリッドポイントで結果を独立に生成する。 AnEnは、正確で校正されたアンサンブル予測につながる同様の予測を見つけることができる。 AnEnテクニックのコアとなるのは、新しいターゲット予測に関して、過去の予測をソートする類似度メトリックである。 一般的に用いられる計量はユークリッド距離である。 しかし、この計量を用いた大きな困難は、全てのパラメータに対する重みの定義である。 一般に、特徴選択と広範な重み検索が必要である。 本稿では、機械学習(ML)に基づく類似度指標による気象アナログの新しい定義を提案する。 類似度メトリックは、トレーニングされたニューラルネットワークを使用して、天気アナログを検索する。 この新しいメトリックは、事前の機能選択と重み付けの最適化を必要とせずに、すべての変数を組み込むことができる。 風速と太陽照度を予測するための新しい測定器の適用について実験を行った。 その結果、MLメトリックは一般的に元のメトリックよりも優れています。 MLメトリックは、より大きなエラーを修正し、より大きな検索レポジトリを活用できる優れた機能を備えている。 学習したメトリックを用いた空間予測は、他の場所に転送可能な効果的な潜在機能を定義する能力も示す。

The Analog Ensemble (AnEn) technique has been shown effective on several weather problems. Unlike previous weather analogs that are sought within a large spatial domain and an extended temporal window, AnEn strictly confines space and time, and independently generates results at each grid point within a short time window. AnEn can find similar forecasts that lead to accurate and calibrated ensemble forecasts. The central core of the AnEn technique is a similarity metric that sorts historical forecasts with respect to a new target prediction. A commonly used metric is Euclidean distance. However, a significant difficulty using this metric is the definition of the weights for all the parameters. Generally, feature selection and extensive weight search are needed. This paper proposes a novel definition of weather analogs through a Machine Learning (ML) based similarity metric. The similarity metric uses neural networks that are trained and instantiated to search for weather analogs. This new metric allows incorporating all variables without requiring a prior feature selection and weight optimization. Experiments are presented on the application of this new metric to forecast wind speed and solar irradiance. Results show that the ML metric generally outperforms the original metric. The ML metric has a better capability to correct for larger errors and to take advantage of a larger search repository. Spatial predictions using a learned metric also show the ability to define effective latent features that are transferable to other locations.
翻訳日:2021-03-11 00:32:51 公開日:2021-03-09
# (参考訳) 汎用計算エンジンとしてのプリトレーニングトランス [全文訳有]

Pretrained Transformers as Universal Computation Engines ( http://arxiv.org/abs/2103.05247v1 )

ライセンス: CC BY 4.0
Kevin Lu, Aditya Grover, Pieter Abbeel, Igor Mordatch(参考訳) 自然言語に事前学習されたトランスフォーマーの能力について, 最小限の微調整で他のモダリティに一般化すること, 特に, 残差ブロックの自己付着層とフィードフォワード層の微調整をせずに検討する。 我々は,FPT (Frozen Pretrained Transformer) と呼ばれる,数値計算,視覚,タンパク質の折りたたみ予測を対象とする,様々なシーケンス分類タスクを微調整するモデルについて検討する。 事前学習データセットと同じモダリティを微調整する先行研究とは対照的に,自然言語への事前学習は,非言語下流タスクにおける性能と計算効率を向上させる。 特に,このような事前学習により,fpt はこれらのモダリティに対してゼロショットで一般化でき,これらのタスクで完全に訓練されたトランスフォーマーの性能に適合することがわかった。

We investigate the capability of a transformer pretrained on natural language to generalize to other modalities with minimal finetuning -- in particular, without finetuning of the self-attention and feedforward layers of the residual blocks. We consider such a model, which we call a Frozen Pretrained Transformer (FPT), and study finetuning it on a variety of sequence classification tasks spanning numerical computation, vision, and protein fold prediction. In contrast to prior works which investigate finetuning on the same modality as the pretraining dataset, we show that pretraining on natural language improves performance and compute efficiency on non-language downstream tasks. In particular, we find that such pretraining enables FPT to generalize in zero-shot to these modalities, matching the performance of a transformer fully trained on these tasks.
翻訳日:2021-03-10 19:22:58 公開日:2021-03-09
# 強化学習のための変分量子政策

Variational quantum policies for reinforcement learning ( http://arxiv.org/abs/2103.05577v1 )

ライセンス: Link先を確認
Sofiene Jerbi, Casper Gyurik, Simon Marshall, Hans J. Briegel, Vedran Dunjko(参考訳) 変分量子回路は近年、量子機械学習モデルとして人気を集めている。 教師なしおよび教師なしの学習環境において教育訓練に多大な努力が注がれているが、強化学習における潜在的な使用には比較的注意が向けられていない。 本研究では,量子政策勾配アルゴリズムの理解を様々な方法で活用する。 まず,変動量子回路に基づく強化学習ポリシの構築と訓練について検討する。 本稿では、量子ポリシーの設計、学習アルゴリズムの提供、および古典的なベンチマーク環境での性能試験を行う。 次に,量子学習エージェントと多項式時間古典学習者との性能を分離するタスク環境の存在を,離散対数問題の解の古典的硬さを条件として示す。 また、より自然な設定も検討し、標準のニューラルネットワークポリシーよりも、量子ポリシーに実証的な量子効果を示す。 この結果は、強化学習環境における実用的短期量子優位性を確立するための第一歩となる。 さらに、変動量子ポリシーの設計選択のいくつかは、量子分類器や量子回帰モデルなどの変動量子回路に基づく他のモデルにも有益であると考えています。

Variational quantum circuits have recently gained popularity as quantum machine learning models. While considerable effort has been invested to train them in supervised and unsupervised learning settings, relatively little attention has been given to their potential use in reinforcement learning. In this work, we leverage the understanding of quantum policy gradient algorithms in a number of ways. First, we investigate how to construct and train reinforcement learning policies based on variational quantum circuits. We propose several designs for quantum policies, provide their learning algorithms, and test their performance on classical benchmarking environments. Second, we show the existence of task environments with a provable separation in performance between quantum learning agents and any polynomial-time classical learner, conditioned on the widely-believed classical hardness of the discrete logarithm problem. We also consider more natural settings, in which we show an empirical quantum advantage of our quantum policies over standard neural-network policies. Our results constitute a first step towards establishing a practical near-term quantum advantage in a reinforcement learning setting. Additionally, we believe that some of our design choices for variational quantum policies may also be beneficial to other models based on variational quantum circuits, such as quantum classifiers and quantum regression models.
翻訳日:2021-03-10 15:12:19 公開日:2021-03-09
# 学習の実証:定義と実践

Proof-of-Learning: Definitions and Practice ( http://arxiv.org/abs/2103.05633v1 )

ライセンス: Link先を確認
Hengrui Jia, Mohammad Yaghini, Christopher A. Choquette-Choo, Natalie Dullerud, Anvith Thudi, Varun Chandrasekaran, Nicolas Papernot(参考訳) トレーニングマシンラーニング(ML)モデルは通常、高価な反復最適化を伴う。 モデルの最終的なパラメータがリリースされると、モデルにこれらのパラメータが実際にこの最適化手順の結果であることを示すためにトレーニングされたエンティティのメカニズムは存在しない。 このようなメカニズムは、いくつかの方法でMLアプリケーションのセキュリティをサポートする。 たとえば、複数の当事者が特定のモデルの所有権を争う場合、所有権の解決を簡素化します。 また、Byzantineの労働者が間違ったモデル更新を返すことによってサービスの拒否をマウントする可能性がある、信頼できない労働者に分散トレーニングを容易にする。 本稿では,MLにおける学習の証明という概念を導入することで,この問題を再考する。 作業証明と検証計算の両方の研究から着想を得て,その確率性から秘密情報を蓄積する基礎的学習アルゴリズム,確率勾配降下を観察する。 これは、計算が正しいモデルパラメータの集合を得る必要があることを証明した、学習の証明のための自然な構成を生成する。 特に我々の分析と実験は、学習の証明を誤って作成しようとする敵が、勾配降下自体に必要な作業よりも、[少なくとも]多くの作業を行う必要があることを示している。 また、上記の両方のシナリオで具体的な学習証明メカニズムをインスタンス化します。 モデルオーナシップの解決では、公開されたモデルの知的財産を保護する。 分散トレーニングでは、トレーニング手順の可用性を維持する。 ハードウェア(MLアクセラレータ)とソフトウェアスタックによって引き起こされる分散に対して,我々の実証学習機構が堅牢であることを示す実験的検討を行った。

Training machine learning (ML) models typically involves expensive iterative optimization. Once the model's final parameters are released, there is currently no mechanism for the entity which trained the model to prove that these parameters were indeed the result of this optimization procedure. Such a mechanism would support security of ML applications in several ways. For instance, it would simplify ownership resolution when multiple parties contest ownership of a specific model. It would also facilitate the distributed training across untrusted workers where Byzantine workers might otherwise mount a denial-of-service by returning incorrect model updates. In this paper, we remediate this problem by introducing the concept of proof-of-learning in ML. Inspired by research on both proof-of-work and verified computations, we observe how a seminal training algorithm, stochastic gradient descent, accumulates secret information due to its stochasticity. This produces a natural construction for a proof-of-learning which demonstrates that a party has expended the compute require to obtain a set of model parameters correctly. In particular, our analyses and experiments show that an adversary seeking to illegitimately manufacture a proof-of-learning needs to perform *at least* as much work than is needed for gradient descent itself. We also instantiate a concrete proof-of-learning mechanism in both of the scenarios described above. In model ownership resolution, it protects the intellectual property of models released publicly. In distributed training, it preserves availability of the training procedure. Our empirical evaluation validates that our proof-of-learning mechanism is robust to variance induced by the hardware (ML accelerators) and software stacks.
翻訳日:2021-03-10 15:11:59 公開日:2021-03-09
# ニューラルネットワークにおける知識進化

Knowledge Evolution in Neural Networks ( http://arxiv.org/abs/2103.05152v1 )

ライセンス: Link先を確認
Ahmed Taha, Abhinav Shrivastava, Larry Davis(参考訳) ディープラーニングは、大規模なデータコーパス(ラベル付きまたはラベルなし)の可用性に依存します。 したがって、未解決の課題の1つは、比較的小さなデータセットでディープネットワークをトレーニングする方法です。 そこで本研究では,比較的小さなデータセットのパフォーマンス向上を目的とした進化型トレーニング手法を提案する。 知識進化(KE)アプローチは、深いネットワークを適合仮説とリセット仮説の2つの仮説に分割する。 複数の世代のリセット仮説を摂動させることで、フィット仮説の知識を反復的に進化させます。 このアプローチはパフォーマンスを向上させるだけでなく、より小さな推論コストでスリムなネットワークを学習する。 keはバニラと残留畳み込みネットワークの両方とシームレスに統合される。 KEはデータ収集の過度な適合と負担を軽減します。 様々なネットワークアーキテクチャと損失関数でKEを評価します。 比較的小さなデータセット(例えばCUB-200)とランダムに初期化したディープネットワークを用いてKEを評価する。 KEは最先端のベースラインで絶対21%の改善マージンを達成する。 この性能改善には、相対的に73%の推論コスト削減が伴う。 KEは分類およびメートル法学習のベンチマークの最先端の結果を達成します。 http://bit.ly/3uLgwY b

Deep learning relies on the availability of a large corpus of data (labeled or unlabeled). Thus, one challenging unsettled question is: how to train a deep network on a relatively small dataset? To tackle this question, we propose an evolution-inspired training approach to boost performance on relatively small datasets. The knowledge evolution (KE) approach splits a deep network into two hypotheses: the fit-hypothesis and the reset-hypothesis. We iteratively evolve the knowledge inside the fit-hypothesis by perturbing the reset-hypothesis for multiple generations. This approach not only boosts performance, but also learns a slim network with a smaller inference cost. KE integrates seamlessly with both vanilla and residual convolutional networks. KE reduces both overfitting and the burden for data collection. We evaluate KE on various network architectures and loss functions. We evaluate KE using relatively small datasets (e.g., CUB-200) and randomly initialized deep networks. KE achieves an absolute 21% improvement margin on a state-of-the-art baseline. This performance improvement is accompanied by a relative 73% reduction in inference cost. KE achieves state-of-the-art results on classification and metric learning benchmarks. Code available at http://bit.ly/3uLgwY b
翻訳日:2021-03-10 15:11:36 公開日:2021-03-09
# 正確な車両再同定のためのプラガブル弱めのクロスビュー学習

Pluggable Weakly-Supervised Cross-View Learning for Accurate Vehicle Re-Identification ( http://arxiv.org/abs/2103.05376v1 )

ライセンス: Link先を確認
Lu Yang, Hongbang Liu, Jinghao Zhou, Lingqiao Liu, Lei Zhang, Peng Wang and Yanning Zhang(参考訳) 異なる視点で車両の視覚的外観が大きく変化するため、クロスビューの一貫した機能表現を学ぶことは、正確な車両再識別(ReID)の鍵となります。 この目的のために、既存のほとんどのアプローチでは、広範囲な視点アノテーションを用いた教師付きクロスビュー学習を採用しているが、高価なラベリングコストと、個別の視点ラベルを定義するのが難しい連続的な視点変動のため、実際のアプリケーションではデプロイが困難である。 本研究では,車両 ReID 用のプラグイン可能な Weakly-supervised Cross-View Learning (WCVL) モジュールを提案する。 クロスビューサンプルを機能ドメインで最もポジティブなサンプルとして幻覚させることで、視点アノテーションを使わずに、車両のidに基づいたクロスビュー特徴距離を最小化することで、一貫性のある特徴表現を学べる。 さらに重要なことは,提案手法を既存車両のReIDベースラインにシームレスに接続することで,ベースラインを再学習することなくクロスビュー学習を実現することである。 有効性を示すため,提案手法を市販のベースラインにプラグインし,VeRi-776,VaviID,VRI C,VRAIの4つの公開ベンチマークデータセットで大幅な性能向上を実現した。

Learning cross-view consistent feature representation is the key for accurate vehicle Re-identification (ReID), since the visual appearance of vehicles changes significantly under different viewpoints. To this end, most existing approaches resort to the supervised cross-view learning using extensive extra viewpoints annotations, which however, is difficult to deploy in real applications due to the expensive labelling cost and the continous viewpoint variation that makes it hard to define discrete viewpoint labels. In this study, we present a pluggable Weakly-supervised Cross-View Learning (WCVL) module for vehicle ReID. Through hallucinating the cross-view samples as the hardest positive counterparts in feature domain, we can learn the consistent feature representation via minimizing the cross-view feature distance based on vehicle IDs only without using any viewpoint annotation. More importantly, the proposed method can be seamlessly plugged into most existing vehicle ReID baselines for cross-view learning without re-training the baselines. To demonstrate its efficacy, we plug the proposed method into a bunch of off-the-shelf baselines and obtain significant performance improvement on four public benchmark datasets, i.e., VeRi-776, VehicleID, VRIC and VRAI.
翻訳日:2021-03-10 15:11:06 公開日:2021-03-09
# Reward Gradientsを用いたモデルフリー政策学習

Model-free Policy Learning with Reward Gradients ( http://arxiv.org/abs/2103.05147v1 )

ライセンス: Link先を確認
Qingfeng Lan, A. Rupam Mahmood(参考訳) 政策勾配法は、勾配を推定するための可能性比(LR)推定器または再パラメータ化(RP)推定器にのみ基いて政策目標の勾配を推定する。 LR推定器に基づく多くのポリシー勾配法はポリシー勾配定理の下で統一することができる(Sutton et al., 2000)。 しかし、そのような統一定理はRP推定器に基づく政策勾配法には存在しない。 さらに、既存のメソッドは、それらの間の自明な補間を超えて両方の推定器を要求し、使用することはない。 本稿では,RP推定値に基づく既存の政策勾配手法を統一する理論的枠組みを提案する。 本手法を応用して,LRとRPの両推定器を組み込んだポリシ勾配を計算し,両推定器が存在する場合にのみ非バイアス化できる新しい戦略を導入する。 この戦略に基づいて、報酬勾配を利用する最初のモデルフリーなポリシー勾配法である、Reward Policy Gradientアルゴリズムと呼ばれる新しいオンデマンドアルゴリズムを開発する。 理想化された環境を用いることで、報酬に対するrp推定値のみに基づく政策勾配が真の報酬であってもバイアスとなることを示し、我々の組み合わせ推定値がそうではないことを示す。 最後に,本手法は,LRベースのオンポリシ手法であるProximal Policy Optimizationと,複数の連続制御タスクで比較可能に,あるいは比較可能に実行できることを示した。

Policy gradient methods estimate the gradient of a policy objective solely based on either the likelihood ratio (LR) estimator or the reparameterization (RP) estimator for estimating gradients. Many policy gradient methods based on the LR estimator can be unified under the policy gradient theorem (Sutton et al., 2000). However, such a unifying theorem does not exist for policy gradient methods based on the RP estimator. Moreover, no existing method requires and uses both estimators beyond a trivial interpolation between them. In this paper, we provide a theoretical framework that unifies several existing policy gradient methods based on the RP estimator. Utilizing our framework, we introduce a novel strategy to compute the policy gradient that, for the first time, incorporates both the LR and RP estimators and can be unbiased only when both estimators are present. Based on this strategy, we develop a new on-policy algorithm called the Reward Policy Gradient algorithm, which is the first model-free policy gradient method to utilize reward gradients. Using an idealized environment, we show that policy gradient solely based on the RP estimator for rewards are biased even with true rewards whereas our combined estimator is not. Finally, we show that our method either performs comparably with or outperforms Proximal Policy Optimization -- an LR-based on-policy method -- on several continuous control tasks.
翻訳日:2021-03-10 15:09:59 公開日:2021-03-09
# オンライン設定における連続密度比の推定

Continual Density Ratio Estimation in an Online Setting ( http://arxiv.org/abs/2103.05276v1 )

ライセンス: Link先を確認
Yu Chen, Song Liu, Tom Diethe, Peter Flach(参考訳) ストリーミングデータを持つオンラインアプリケーションでは、トレーニングやテストセットが元のデータセットからどの程度離れているかを認識することが、モデルのパフォーマンスに不可欠である。 しかし、データストリームの歴史的なサンプルにアクセスできないかもしれません。 そこで本研究では,データストリームの初期分布と現在の分布($p/q_t$)の密度比を,過去のサンプルを保存せずに反復的に推定する新しい手法であるCDRE(Continual Density Ratio Estimation)を提案し,時間とともに$q_t$が$p$から$t$にシフトする。 その結果,cdreは標準dreよりも,原分布からのサンプルを必要とせずとも,分布間のばらつきを推定できることがわかった。 CDREは、重み付けされた共変量シフト、より良い意思決定のためのデータセット変更のトレースなど、オンライン学習のシナリオに適用できる。 さらに、(CDRE)は連続学習の設定の下で生成モデルの評価を可能にします。 我々の知る限りでは、元の分布からサンプルを格納せずに連続学習における生成モデルを評価する方法が存在しない。

In online applications with streaming data, awareness of how far the training or test set has shifted away from the original dataset can be crucial to the performance of the model. However, we may not have access to historical samples in the data stream. To cope with such situations, we propose a novel method, Continual Density Ratio Estimation (CDRE), for estimating density ratios between the initial and current distributions ($p/q_t$) of a data stream in an iterative fashion without the need of storing past samples, where $q_t$ is shifting away from $p$ over time $t$. We demonstrate that CDRE can be more accurate than standard DRE in terms of estimating divergences between distributions, despite not requiring samples from the original distribution. CDRE can be applied in scenarios of online learning, such as importance weighted covariate shift, tracing dataset changes for better decision making. In addition, (CDRE) enables the evaluation of generative models under the setting of continual learning. To the best of our knowledge, there is no existing method that can evaluate generative models in continual learning without storing samples from the original distribution.
翻訳日:2021-03-10 15:09:35 公開日:2021-03-09
# 先述の近似的潜在リーマン計量法

A prior-based approximate latent Riemannian metric ( http://arxiv.org/abs/2103.05290v1 )

ライセンス: Link先を確認
Georgios Arvanitidis, Bogdan Georgiev, Bernhard Sch\"olkopf(参考訳) 確率的生成モデルは、潜在空間内のリーマン計量を通して高次元空間に横たわるデータ多様体の幾何学的構造を捉えることができる。 しかし、その実用性は必然的な複雑さによってかなり制限されている。 本研究では,単純かつ効率的かつ堅牢な生成モデルの潜在空間におけるサーロゲート共形リーマン計量を提案する。 この計量は、基礎的なエネルギーモデルを用いて学習することを提案する学習可能な事前に基づいています。 提案する計量の挙動を理論的に解析し,実際に使用することは理にかなっていることを示す。 実験では, 有効性とロバスト性, および新しい近似計量の挙動を実験的に示す。 また,提案手法を生命科学におけるデータ分析に適用する可能性を示す。

Stochastic generative models enable us to capture the geometric structure of a data manifold lying in a high dimensional space through a Riemannian metric in the latent space. However, its practical use is rather limited mainly due to inevitable complexity. In this work we propose a surrogate conformal Riemannian metric in the latent space of a generative model that is simple, efficient and robust. This metric is based on a learnable prior that we propose to learn using a basic energy-based model. We theoretically analyze the behavior of the proposed metric and show that it is sensible to use in practice. We demonstrate experimentally the efficiency and robustness, as well as the behavior of the new approximate metric. Also, we show the applicability of the proposed methodology for data analysis in the life sciences.
翻訳日:2021-03-10 15:09:16 公開日:2021-03-09
# アクティブテスト: サンプル効率モデルの評価

Active Testing: Sample-Efficient Model Evaluation ( http://arxiv.org/abs/2103.05331v1 )

ライセンス: Link先を確認
Jannik Kossen, Sebastian Farquhar, Yarin Gal, Tom Rainforth(参考訳) サンプル効率のよいモデル評価のための新しいフレームワークであるactive testingを紹介する。 アクティブラーニングのようなアプローチは、モデルトレーニングに必要なラベルの数を減らすが、既存の文献はテストデータのラベル付けのコストをほとんど無視し、モデル評価のために大きなテストセットを非現実的に仮定する。 これにより、テストラベルが重要であり、同様に高価である実際のアプリケーションとの接続が切断される。 ハイパーパラメータを最適化します アクティブテストは、ラベルにテストポイントを慎重に選択し、モデル評価がサンプル効率であることを保証します。 そのために、我々は、アクティブテストの目標に合わせて特別に調整された理論的根拠と直感的な取得戦略を導き出し、これらはアクティブラーニングと異なることを指摘した。 ラベルを積極的に選択するとバイアスが発生し、同時に推定器のばらつきを減らしながらそのバイアスを除去する方法を示す。 アクティブテストは実装が簡単で、効果的であり、任意の教師付き機械学習手法に適用できる。 CIFAR-100を含むデータセット上の WideResNet および Gaussian プロセスを含むモデルでこれを実証します。

We introduce active testing: a new framework for sample-efficient model evaluation. While approaches like active learning reduce the number of labels needed for model training, existing literature largely ignores the cost of labeling test data, typically unrealistically assuming large test sets for model evaluation. This creates a disconnect to real applications where test labels are important and just as expensive, e.g. for optimizing hyperparameters. Active testing addresses this by carefully selecting the test points to label, ensuring model evaluation is sample-efficient. To this end, we derive theoretically-ground ed and intuitive acquisition strategies that are specifically tailored to the goals of active testing, noting these are distinct to those of active learning. Actively selecting labels introduces a bias; we show how to remove that bias while reducing the variance of the estimator at the same time. Active testing is easy to implement, effective, and can be applied to any supervised machine learning method. We demonstrate this on models including WideResNet and Gaussian processes on datasets including CIFAR-100.
翻訳日:2021-03-10 15:09:08 公開日:2021-03-09
# DeepSeagrassデータセット

DeepSeagrass Dataset ( http://arxiv.org/abs/2103.05226v1 )

ライセンス: Link先を確認
Scarlett Raine, Ross Marchant, Peyman Moghadam, Frederic Maire, Brett Kettle and Brano Kusy(参考訳) オーストラリアのクイーンズランド州モレトン湾でシュノーケリングをしている生物学者によって収集された海草画像のデータセットを紹介します。 画像は、フォルダ階層内の同じ形態型の画像を収集することにより、画像レベルでラベル付けされる。 また、パッチレベルでの海草種の検出と分類のための事前訓練されたモデルとトレーニングコードも公開しています。

We introduce a dataset of seagrass images collected by a biologist snorkelling in Moreton Bay, Queensland, Australia, as described in our publication: arXiv:2009.09924. The images are labelled at the image-level by collecting images of the same morphotype in a folder hierarchy. We also release pre-trained models and training codes for detection and classification of seagrass species at the patch level at https://github.com/c siro-robotics/deepse agrass.
翻訳日:2021-03-10 15:08:52 公開日:2021-03-09
# ST3D:3次元オブジェクト検出における教師なしドメイン適応のための自己学習

ST3D: Self-training for Unsupervised Domain Adaptation on 3D ObjectDetection ( http://arxiv.org/abs/2103.05346v1 )

ライセンス: Link先を確認
Jihan Yang, Shaoshuai Shi, Zhe Wang, Hongsheng Li, Xiaojuan Qi(参考訳) 点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。 まず、ソース領域の負の効果を緩和するランダムオブジェクトスケーリング戦略を提案し、ソース領域上の3D検出器を事前訓練する。 そして、開発した品質認識型三重項メモリバンクによる擬似ラベル更新と、カリキュラムデータ拡張によるモデルトレーニングの2つのステップを代替して、ターゲットドメイン上で反復的に改善する。 3Dオブジェクト検出のためのこれらの特定の設計により、検出器は一貫性のある高品質の擬似ラベルで訓練され、擬似ラベル付きデータにおける多数の簡単な例にオーバーフィットすることを避けることができます。 当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。 コードはhttps://github.com/C VMI-Lab/ST3Dで入手できる。

We present a new domain adaptive self-training pipeline, named ST3D, for unsupervised domain adaptation on 3D object detection from point clouds. First, we pre-train the 3D detector on the source domain with our proposed random object scaling strategy for mitigating the negative effects of source domain bias. Then, the detector is iteratively improved on the target domain by alternatively conducting two steps, which are the pseudo label updating with the developed quality-aware triplet memory bank and the model training with curriculum data augmentation. These specific designs for 3D object detection enable the detector to be trained with consistent and high-quality pseudo labels and to avoid overfitting to the large number of easy examples in pseudo labeled data. Our ST3D achieves state-of-the-art performance on all evaluated datasets and even surpasses fully supervised results on KITTI 3D object detection benchmark. Code will be available at https://github.com/C VMI-Lab/ST3D.
翻訳日:2021-03-10 15:08:45 公開日:2021-03-09
# qpic: 画像ワイドコンテキスト情報を用いた問合せに基づく対物対話検出

QPIC: Query-Based Pairwise Human-Object Interaction Detection with Image-Wide Contextual Information ( http://arxiv.org/abs/2103.05399v1 )

ライセンス: Link先を確認
Masato Tamura, Hiroki Ohashi, Tomoaki Yoshinaga(参考訳) ヒトと物体の相互作用(HOI)を簡易かつ直感的に検出する手法を提案する。 既存のCNNベースの手法は、CNNの局所性のために画像全体の機能を利用することができないこと、機能集約のために手動で定義された位置情報に依存していること、コンテキスト的に重要な領域をカバーできないこと、およびそれらが密接に配置されている場合、複数のHOIインスタンスの機能を混ぜることができないこと、という3つの大きな欠点に直面している。 これらの欠点を克服するために,注意機構と問合せに基づく検出が鍵となるトランス型特徴抽出器を提案する。 注意機構は、画像全体において重要な情報を集約するのに有効であるが、クエリは、各クエリが少なくとも1つの人間とオブジェクトのペアをキャプチャするように設計し、複数のインスタンスから機能を混同することを避けることができる。 このトランスベースの特徴抽出器は、後続の検出ヘッドが比較的単純で直感的なほど効果的な埋め込みを生成する。 その結果,提案手法は文脈的に重要な特徴を抽出し,既存の手法よりも大きなマージン(HICO-DETでは5.37mAP,V-COCOでは5.7mAP)を達成できた。 ソースコードは$\href{https://github.com/h itachi-rd-cv/qpic}{\text{this https URL}}$で入手できる。

We propose a simple, intuitive yet powerful method for human-object interaction (HOI) detection. HOIs are so diverse in spatial distribution in an image that existing CNN-based methods face the following three major drawbacks; they cannot leverage image-wide features due to CNN's locality, they rely on a manually defined location-of-interest for the feature aggregation, which sometimes does not cover contextually important regions, and they cannot help but mix up the features for multiple HOI instances if they are located closely. To overcome these drawbacks, we propose a transformer-based feature extractor, in which an attention mechanism and query-based detection play key roles. The attention mechanism is effective in aggregating contextually important information image-wide, while the queries, which we design in such a way that each query captures at most one human-object pair, can avoid mixing up the features from multiple instances. This transformer-based feature extractor produces so effective embeddings that the subsequent detection heads may be fairly simple and intuitive. The extensive analysis reveals that the proposed method successfully extracts contextually important features, and thus outperforms existing methods by large margins (5.37 mAP on HICO-DET, and 5.7 mAP on V-COCO). The source codes are available at $\href{https://github.com/h itachi-rd-cv/qpic}{\text{this https URL}}$.
翻訳日:2021-03-10 15:08:28 公開日:2021-03-09
# Select, Substitute, Search: 知識を付加したビジュアル質問回答の新しいベンチマーク

Select, Substitute, Search: A New Benchmark for Knowledge-Augmented Visual Question Answering ( http://arxiv.org/abs/2103.05568v1 )

ライセンス: Link先を確認
Aman Jain, Mayank Kothyari, Vishwajeet Kumar, Preethi Jyothi, Ganesh Ramakrishnan, Soumen Chakrabarti(参考訳) 外部知識視覚質問応答(OKVQA)と呼ばれる、テキストコーパス、知識グラフ、画像にまたがるマルチモーダルIRは、非常に最近の関心事である。 しかし、人気のデータセットには深刻な制限があります。 驚くほど多くのクエリは、クロスモーダル情報を統合する能力を評価しません。 代わりに、画像から独立しているものもあれば、推測に依存しているものもあれば、OCRを必要とするものもある。 上記の制限に加えて、列車とテストの折りたたみの間に(意図しない)広範な応答が重なり合うため、周波数ベースの推測は非常に効果的である。 全体として、最先端のシステムが実際に答えを推測するのではなく、これらの弱点をいつ悪用するかを判断するのは困難である。 同様に重要な制限は、データセットがエンドツーエンドの回答検索タスクのみの定量的評価用に設計されており、入力クエリの正しい(セマンティック)解釈を評価するための規定がないことである。 そこで我々は,okvqa,viz.,s3 (select, replacement, search) におけるキー構造イディオムを特定し,新しいデータセットを構築して挑戦する。 具体的には、画像中のエンティティを特定し、そのエンティティに言及する知識グラフやコーパスを参照することによってのみ回答できるエンティティを含む質問を行う。 i)OKVQAS3は構造イディオムに基づいて注釈付けされたOKVQAのサブセットであり、(ii)S3VQAはスクラッチから構築された新しいデータセットである。 また、私たちのチャレンジデータセットに明示的に対処し、最近の競争ベースラインを上回っている、神経的にも構造的にも透過的なOKVQAシステムS3も提示します。

Multimodal IR, spanning text corpus, knowledge graph and images, called outside knowledge visual question answering (OKVQA), is of much recent interest. However, the popular data set has serious limitations. A surprisingly large fraction of queries do not assess the ability to integrate cross-modal information. Instead, some are independent of the image, some depend on speculation, some require OCR or are otherwise answerable from the image alone. To add to the above limitations, frequency-based guessing is very effective because of (unintended) widespread answer overlaps between the train and test folds. Overall, it is hard to determine when state-of-the-art systems exploit these weaknesses rather than really infer the answers, because they are opaque and their 'reasoning' process is uninterpretable. An equally important limitation is that the dataset is designed for the quantitative assessment only of the end-to-end answer retrieval task, with no provision for assessing the correct(semantic) interpretation of the input query. In response, we identify a key structural idiom in OKVQA ,viz., S3 (select, substitute and search), and build a new data set and challenge around it. Specifically, the questioner identifies an entity in the image and asks a question involving that entity which can be answered only by consulting a knowledge graph or corpus passage mentioning the entity. Our challenge consists of (i)OKVQAS3, a subset of OKVQA annotated based on the structural idiom and (ii)S3VQA, a new dataset built from scratch. We also present a neural but structurally transparent OKVQA system, S3, that explicitly addresses our challenge dataset, and outperforms recent competitive baselines.
翻訳日:2021-03-10 15:08:01 公開日:2021-03-09
# ForgeryNet: 包括的なForgery分析のためのVersatileベンチマーク

ForgeryNet: A Versatile Benchmark for Comprehensive Forgery Analysis ( http://arxiv.org/abs/2103.05630v1 )

ライセンス: Link先を確認
Yinan He, Bei Gan, Siyu Chen, Yichun Zhou, Guojun Yin, Luchuan Song, Lu Sheng, Jing Shao and Ziwei Liu(参考訳) フォトリアリズム合成技術の急速な進歩は、現実と操作された画像の間の境界がぼやけ始める臨界点に達しています。 このように、デジタル偽造分析のベンチマークと進歩が問題となっている。 しかし、既存の顔偽造データセットは多様性が限られているか、粗い粒度の分析しかサポートしていない。 この脅威に対処するために、私たちはForgeryNetデータセットを構築し、画像とビデオレベルのデータに統一されたアノテーションを備えた非常に大きなフォジェリーデータセットを4つのタスクで構築します。1)イメージフォジェリー分類(2つのウェイ(リアル/フェイク)、3つのウェイ(リアル/フェイク)、アイデンティティ置換フォジェリーアプローチ/フェイク(アイデンティティ残されたフォジェリーアプローチ)、nウェイ(リアルおよび15のフォージェリーアプローチ)の分類。 2)偽のイメージの操作された区域を対応する源の実質のイメージと比較する空間的偽造の局在化。 3) ランダムな位置で操作されたフレームを用いてビデオレベルの偽造分類を再定義するビデオ偽造分類。 現実世界の攻撃者は任意のターゲットフレームを自由に操作できるため、このタスクは重要です。 4) 時間的偽造の局所化, 操作される時間的セグメントの局所化。 ForgeryNetは、データスケール(2.9百万画像、221,247ビデオ)、操作(7画像レベルのアプローチ、8ビデオレベルのアプローチ)、摂動(36独立でより混合された摂動)、アノテーション(6.3百万の分類ラベル、2.9百万の操作エリアアノテーション、221,247時間フォジェリーセグメントラベル)の点で、これまでで最大の公開されているディープフェイスフォージェリーデータセットです。 我々は,既存の顔鑑識手法の広範なベンチマークと検討を行い,有意義な知見を得た。

The rapid progress of photorealistic synthesis techniques has reached at a critical point where the boundary between real and manipulated images starts to blur. Thus, benchmarking and advancing digital forgery analysis have become a pressing issue. However, existing face forgery datasets either have limited diversity or only support coarse-grained analysis. To counter this emerging threat, we construct the ForgeryNet dataset, an extremely large face forgery dataset with unified annotations in image- and video-level data across four tasks: 1) Image Forgery Classification, including two-way (real / fake), three-way (real / fake with identity-replaced forgery approaches / fake with identity-remained forgery approaches), and n-way (real and 15 respective forgery approaches) classification. 2) Spatial Forgery Localization, which segments the manipulated area of fake images compared to their corresponding source real images. 3) Video Forgery Classification, which re-defines the video-level forgery classification with manipulated frames in random positions. This task is important because attackers in real world are free to manipulate any target frame. and 4) Temporal Forgery Localization, to localize the temporal segments which are manipulated. ForgeryNet is by far the largest publicly available deep face forgery dataset in terms of data-scale (2.9 million images, 221,247 videos), manipulations (7 image-level approaches, 8 video-level approaches), perturbations (36 independent and more mixed perturbations) and annotations (6.3 million classification labels, 2.9 million manipulated area annotations and 221,247 temporal forgery segment labels). We perform extensive benchmarking and studies of existing face forensics methods and obtain several valuable observations.
翻訳日:2021-03-10 15:07:29 公開日:2021-03-09
# 360度デジタルホログラフィのための深層学習に基づく高精度深層地図の推定

Deep Learning-based High-precision Depth Map Estimation from Missing Viewpoints for 360 Degree Digital Holography ( http://arxiv.org/abs/2103.05158v1 )

ライセンス: Link先を確認
Hakdong Kim, Heonyeong Lim, Minkyu Jee, Yurim Lee, Jisoo Jeong, Kyudam Choi, MinSung Yoon, and Cheongwon Kim(参考訳) 本稿では,新しい畳み込みニューラルネットワークモデルを提案し,特にホログラフィックな3Dコンテンツの生成に適している点から,高精度な深度マップを抽出する。 深度マップは、コンピュータ生成ホログラム(CGH)の合成に必要な位相抽出の必須要素である。 hdd netと呼ばれる提案モデルでは,損失関数として深度マップ推定の性能向上にmseを用い,reluを活性化関数としてupサンプリング層におけるバイリニア補間を利用する。 深層学習のための解像度640×360の8,192枚の多視点画像を設計・作成する。 提案モデルは,特徴抽出とサンプリングにより深度マップを推定する。 定量的評価のために,PSNR,ACC,RMSEを用いて,推定深度マップと地上の真実を比較した。 また,推定深度マップから得られたCGHパターンと地上の真実から作成したCGHパターンを比較した。 さらに,CGHからホログラフィック3D画像のシーンを直接再構成することで,推定深度マップの品質を評価する実験結果を示す。

In this paper, we propose a novel, convolutional neural network model to extract highly precise depth maps from missing viewpoints, especially well applicable to generate holographic 3D contents. The depth map is an essential element for phase extraction which is required for synthesis of computer-generated hologram (CGH). The proposed model called the HDD Net uses MSE for the better performance of depth map estimation as loss function, and utilizes the bilinear interpolation in up sampling layer with the Relu as activation function. We design and prepare a total of 8,192 multi-view images, each resolution of 640 by 360 for the deep learning study. The proposed model estimates depth maps through extracting features, up sampling. For quantitative assessment, we compare the estimated depth maps with the ground truths by using the PSNR, ACC, and RMSE. We also compare the CGH patterns made from estimated depth maps with ones made from ground truths. Furthermore, we demonstrate the experimental results to test the quality of estimated depth maps through directly reconstructing holographic 3D image scenes from the CGHs.
翻訳日:2021-03-10 15:06:53 公開日:2021-03-09
# 外観調整ネットワークによる医用画像登録の強化

Enhancing Medical Image Registration via Appearance Adjustment Networks ( http://arxiv.org/abs/2103.05213v1 )

ライセンス: Link先を確認
Mingyuan Meng, Lei Bi, Michael Fulham, David Dagan Feng, and Jinman Kim(参考訳) 変形可能な画像登録は多くの医用画像解析に不可欠である。 正確な画像登録のための重要な障害は、画像の外観の変化です。 近年、深層ニューラルネットワークを用いた深層学習に基づく登録手法(DLR)は、従来の最適化に基づく登録手法(OR)よりも数桁大きい計算効率を有する。 しかし、DLRの大きな欠点は、ORに固有のターゲットペア固有の最適化を無視し、より高速な登録を実現するために一連のトレーニングサンプルでトレーニングされたグローバル最適化ネットワークに依存していることである。 このように、DLRは本質的に、画像ペア(固定/移動画像)が外観に大きな違いがある場合、ORと比較して外観の変化に適応し、性能が劣っている。 そこで, 解剖学的制約のある損失関数を用いて, 解剖学的整合性ネットワーク(AAN)を提案し, 解剖学的制約のある外観変換を生成する。 我々は,固定画像と移動画像との外観差を低減するため,広範囲のDLRに容易に挿入できるようにAANを設計した。 我々のAANとDLRのネットワークは、教師なしとエンドツーエンドの方法で協調的に訓練することができる。 我々は,3次元脳磁気共鳴(MR)画像データセット(IBSR18,Mindboggle10 1,LPBA40)を用いて,Voxelmorph(VM)とFAst IMage registration(FAIM)の2種類のDLRを用いてAANを評価した。 その結果, AAN を用いた DLR の性能は向上し, 最先端OR よりも高い結果が得られた。

Deformable image registration is fundamental for many medical image analyses. A key obstacle for accurate image registration is the variations in image appearance. Recently, deep learning-based registration methods (DLRs), using deep neural networks, have computational efficiency that is several orders of magnitude greater than traditional optimization-based registration methods (ORs). A major drawback, however, of DLRs is a disregard for the target-pair-specific optimization that is inherent in ORs and instead they rely on a globally optimized network that is trained with a set of training samples to achieve faster registration. Thus, DLRs inherently have degraded ability to adapt to appearance variations and perform poorly, compared to ORs, when image pairs (fixed/moving images) have large differences in appearance. Hence, we propose an Appearance Adjustment Network (AAN) where we leverage anatomy edges, through an anatomy-constrained loss function, to generate an anatomy-preserving appearance transformation. We designed the AAN so that it can be readily inserted into a wide range of DLRs, to reduce the appearance differences between the fixed and moving images. Our AAN and DLR's network can be trained cooperatively in an unsupervised and end-to-end manner. We evaluated our AAN with two widely used DLRs - Voxelmorph (VM) and FAst IMage registration (FAIM) - on three public 3D brain magnetic resonance (MR) image datasets - IBSR18, Mindboggle101, and LPBA40. The results show that DLRs, using the AAN, improved performance and achieved higher results than state-of-the-art ORs.
翻訳日:2021-03-10 15:06:36 公開日:2021-03-09
# カーネルリッジ回帰における高速統計レバレッジスコア近似

Fast Statistical Leverage Score Approximation in Kernel Ridge Regression ( http://arxiv.org/abs/2103.05238v1 )

ライセンス: Link先を確認
Yifan Chen, Yun Yang(参考訳) Nystr\"om approximationは、ターゲット関数に現れるn-by-n経験的カーネル行列をサブサンプリングすることで、カーネルリッジ回帰(KRR)問題を迅速に解決する高速ランダム化手法である。 しかし,このようなサブサンプリング手法の性能は,サンプリング分布を形成するための統計的レバレッジスコアを正しく推定することに大きく依存する。 本研究では,ステーショナリーカーネルに基づくKRRにおける統計的レバレッジスコアを理論的保証で正確に近似する線形時間(モジュロポリログ項)アルゴリズムを提案する。 特に、KRR目標の第一次状態を解析することにより、統計的レバレッジスコアの不均一性を捕捉するために、静止核の入力分布とスペクトル密度の両方に依存する解析式を導出する。 数値実験により,nystr\"om近似における代表サブサンプルの選択において,同じ予測精度で既存の手法よりも桁違いに効率的であることが証明された。

Nystr\"om approximation is a fast randomized method that rapidly solves kernel ridge regression (KRR) problems through sub-sampling the n-by-n empirical kernel matrix appearing in the objective function. However, the performance of such a sub-sampling method heavily relies on correctly estimating the statistical leverage scores for forming the sampling distribution, which can be as costly as solving the original KRR. In this work, we propose a linear time (modulo poly-log terms) algorithm to accurately approximate the statistical leverage scores in the stationary-kernel-ba sed KRR with theoretical guarantees. Particularly, by analyzing the first-order condition of the KRR objective, we derive an analytic formula, which depends on both the input distribution and the spectral density of stationary kernels, for capturing the non-uniformity of the statistical leverage scores. Numerical experiments demonstrate that with the same prediction accuracy our method is orders of magnitude more efficient than existing methods in selecting the representative sub-samples in the Nystr\"om approximation.
翻訳日:2021-03-10 15:05:20 公開日:2021-03-09
# オーバーフィッティング2層ニューラルタンジェントカーネルモデルの一般化力について

On the Generalization Power of Overfitted Two-Layer Neural Tangent Kernel Models ( http://arxiv.org/abs/2103.05243v1 )

ライセンス: Link先を確認
Peizhong Ju, Xiaojun Lin, Ness B. Shroff(参考訳) 本稿では,二層ニューラルネットワークの神経接核(ntk)モデルに対するmin$\ell_2$-normオーバーフィッティング解の一般化性能について検討する。 その結果, 接地関数により, オーバーフィットしたntkモデルの試験誤差は, 単純なフーリエあるいはガウス的特徴を持つ他の超パラメータ線形モデルと異なる特性を示すことがわかった。 具体的には、学習可能な関数のクラスに対して、ニューロン数$p$が無限大に近づく場合でも、小さな制限値に近づくような一般化誤差の新たな上限を与える。 この制限値は、トレーニングサンプル$n$の数でさらに減少します。 このクラス以外の関数に対しては、$n$ と $p$ の両方が大きかったとしても 0 に減少しない一般化エラーの低い境界を提供します。

In this paper, we study the generalization performance of min $\ell_2$-norm overfitting solutions for the neural tangent kernel (NTK) model of a two-layer neural network. We show that, depending on the ground-truth function, the test error of overfitted NTK models exhibits characteristics that are different from the "double-descent" of other overparameterized linear models with simple Fourier or Gaussian features. Specifically, for a class of learnable functions, we provide a new upper bound of the generalization error that approaches a small limiting value, even when the number of neurons $p$ approaches infinity. This limiting value further decreases with the number of training samples $n$. For functions outside of this class, we provide a lower bound on the generalization error that does not diminish to zero even when $n$ and $p$ are both large.
翻訳日:2021-03-10 15:05:01 公開日:2021-03-09
# UnICORNN: 非常に長い時間依存を学習するための反復モデル

UnICORNN: A recurrent model for learning very long time dependencies ( http://arxiv.org/abs/2103.05487v1 )

ライセンス: Link先を確認
T. Konstantin Rusch, Siddhartha Mishra(参考訳) 長時間依存した逐次入力を正確に処理するリカレントニューラルネットワーク(RNN)の設計は、爆発的かつ消滅する勾配問題のために非常に困難である。 これを解決するために,振動子のネットワークをモデル化する二階常微分方程式のハミルトン系を離散化する構造を基盤とした新しいRNNアーキテクチャを提案する。 結果として得られるrnnは高速で可逆(時間)で、メモリ効率が良く、隠れた状態勾配の厳密な境界を導出して、爆発と消滅の勾配問題の緩和を証明する。 提案されたRNNが(非常に)長い時間の依存性を持つさまざまな学習タスクに最先端のパフォーマンスを提供することを実証するために、一連の実験が提示されます。

The design of recurrent neural networks (RNNs) to accurately process sequential inputs with long-time dependencies is very challenging on account of the exploding and vanishing gradient problem. To overcome this, we propose a novel RNN architecture which is based on a structure preserving discretization of a Hamiltonian system of second-order ordinary differential equations that models networks of oscillators. The resulting RNN is fast, invertible (in time), memory efficient and we derive rigorous bounds on the hidden state gradients to prove the mitigation of the exploding and vanishing gradient problem. A suite of experiments are presented to demonstrate that the proposed RNN provides state of the art performance on a variety of learning tasks with (very) long time-dependencies.
翻訳日:2021-03-10 15:04:46 公開日:2021-03-09
# より多くのデータか、より多くのパラメータか? データ構造が一般化に及ぼす影響の検討

More data or more parameters? Investigating the effect of data structure on generalization ( http://arxiv.org/abs/2103.05524v1 )

ライセンス: Link先を確認
St\'ephane d'Ascoli, Marylou Gabri\'e, Levent Sagun, Giulio Biroli(参考訳) ディープラーニングの中心的な特徴の1つは、ニューラルネットワークの一般化能力であり、過度なパラメータ化によって絶え間なく改善されているように見える。 本研究では、トレーニング例の数とトレーニングパラメータの数の関数として、データの特性がテストエラーにどのように影響するか、すなわち、データの構造が「一般化フェーズ空間」をどう形成するかを検討する。 まず,教師・生徒のシナリオで学習したランダム特徴モデルに注目した。 合成入力データは独立したブロックで構成されており、低次元構造のサリエンシーとターゲット関数に対するそれらの関連性を調整することができます。 統計物理学の手法を用いて,高次元極限における回帰および分類タスクにおける列車および試験誤差の解析式を得る。 導出は、ラベルのノイズと入力データの強い異方性がテストエラーで同様の役割を果たすことを示しています。 どちらもトレーニングサンプル数の増加がトレーニングパラメータ数の増加よりも一般化をさらに改善するフェーズスペースの非対称性を促進する。 当社の分析洞察は、MNISTおよびCIFAR10で訓練されたフルコネクテッドネットワークを含む数値実験によって確認されます。

One of the central features of deep learning is the generalization abilities of neural networks, which seem to improve relentlessly with over-parametrization . In this work, we investigate how properties of data impact the test error as a function of the number of training examples and number of training parameters; in other words, how the structure of data shapes the "generalization phase space". We first focus on the random features model trained in the teacher-student scenario. The synthetic input data is composed of independent blocks, which allow us to tune the saliency of low-dimensional structures and their relevance with respect to the target function. Using methods from statistical physics, we obtain an analytical expression for the train and test errors for both regression and classification tasks in the high-dimensional limit. The derivation allows us to show that noise in the labels and strong anisotropy of the input data play similar roles on the test error. Both promote an asymmetry of the phase space where increasing the number of training examples improves generalization further than increasing the number of training parameters. Our analytical insights are confirmed by numerical experiments involving fully-connected networks trained on MNIST and CIFAR10.
翻訳日:2021-03-10 15:04:33 公開日:2021-03-09
# 多モードディープラーニングを用いたPET/CTによる進行鼻咽頭癌の5年間生存予測

Prediction of 5-year Progression-Free Survival in Advanced Nasopharyngeal Carcinoma with Pretreatment PET/CT using Multi-Modality Deep Learning-based Radiomics ( http://arxiv.org/abs/2103.05220v1 )

ライセンス: Link先を確認
Bingxin Gu, Mingyuan Meng, Lei Bi, Jinman Kim, David Dagan Feng, and Shaoli Song(参考訳) Deep Learning-based Radiomics (DLR) は医用画像解析において大きな成功を収めている。 本研究では,NPCにおけるDLRの生存予測能力について検討する。 高度NPCにおける5年間の進行自由生存(PFS)を予測するために,前処理PET/CT画像を用いたエンドツーエンドマルチモダリティDLRモデルを開発した。 病理学的に進行性NPC(TNMステージIIIまたはIVa)を認めた患者は合計170名であった。 PETとCTを別々に処理する2つの枝を持つ3次元畳み込みニューラルネットワーク (CNN) を用いて, 処理前のPET/CT画像から深い特徴を抽出し, 得られた特徴を用いて5年間のPFSの確率を予測する。 オプションとして,高レベルな臨床的特徴であるTNMステージをDLRモデルに統合し,予後の向上を図る。 CRとDLRを比較し,1456個の手作り特徴を抽出し,54種類の特徴選択法と9種類の分類法の組み合わせから,上位CR法を3つのベンチマークとして選択した。 3つのCR法と比較して,TNMステージ(PCTまたはPCモデル)の有無にかかわらず,PETとCTの両方を用いた多モードDLRモデルが最も高い予後を示した。 さらに,マルチモダリティPCTモデルは,PETおよびTNMステージ(PTモデル)およびCTおよびTNMステージ(CTモデル)のみを用いて,単一モダリティDLRモデルよりも優れていた。 本研究は,先進npcにおける生存予測のための放射能に基づく予後予測モデルを特定し,dlrががん治療の補助となる可能性を示唆する。

Deep Learning-based Radiomics (DLR) has achieved great success on medical image analysis. In this study, we aim to explore the capability of DLR for survival prediction in NPC. We developed an end-to-end multi-modality DLR model using pretreatment PET/CT images to predict 5-year Progression-Free Survival (PFS) in advanced NPC. A total of 170 patients with pathological confirmed advanced NPC (TNM stage III or IVa) were enrolled in this study. A 3D Convolutional Neural Network (CNN), with two branches to process PET and CT separately, was optimized to extract deep features from pretreatment multi-modality PET/CT images and use the derived features to predict the probability of 5-year PFS. Optionally, TNM stage, as a high-level clinical feature, can be integrated into our DLR model to further improve prognostic performance. For a comparison between CR and DLR, 1456 handcrafted features were extracted, and three top CR methods were selected as benchmarks from 54 combinations of 6 feature selection methods and 9 classification methods. Compared to the three CR methods, our multi-modality DLR models using both PET and CT, with or without TNM stage (named PCT or PC model), resulted in the highest prognostic performance. Furthermore, the multi-modality PCT model outperformed single-modality DLR models using only PET and TNM stage (PT model) or only CT and TNM stage (CT model). Our study identified potential radiomics-based prognostic model for survival prediction in advanced NPC, and suggests that DLR could serve as a tool for aiding in cancer management.
翻訳日:2021-03-10 15:03:40 公開日:2021-03-09
# ディープランキングにおける実用的相対順序攻撃

Practical Relative Order Attack in Deep Ranking ( http://arxiv.org/abs/2103.05248v1 )

ライセンス: Link先を確認
Mo Zhou, Le Wang, Zhenxing Niu, Qilin Zhang, Yinghui Xu, Nanning Zheng, Gang Hua(参考訳) 最近の研究では、知覚不能な摂動がランキング結果の劇的な変化を引き起こす可能性がある深層ランキングモデルの脆弱性が明らかにされている。 以前の試みでは、特定の候補者の絶対ランクの操作に焦点が当てられていたが、相対順序を調整する可能性はまだ未定のままである。 本稿では,攻撃者特定順列に従って選択された候補の相対順序を隠蔽的に変更し,他の非関連候補に限定的に干渉する,ディープランキングシステムに対する新たな敵攻撃,すなわちオーダーアタックを定式化する。 具体的には、指定された置換を反映する不等鎖を引き起こす三重項式損失として定式化される。 しかし、このようなホワイトボックスの目的の直接的最適化は、ブラックボックスの制限により、現実世界のアタックシナリオでは実現不可能である。 それらに対処するため, ホワイトボックス法を近似するブラックボックスオーダー攻撃のサーロゲート目標として, 短距離ランキング相関指標を提案する。 Order Attackは、ホワイトボックスとブラックボックスの脅威モデルの両方の下で、Fashion-MNISTとStanford-Online-Prod uctsデータセットで評価される。 ブラックボックス攻撃は、主要なeコマースプラットフォームでもうまく実装されている。 包括的実験評価により,提案手法の有効性が示され,新しいタイプのランキングモデルの脆弱性が明らかになった。

Recent studies unveil the vulnerabilities of deep ranking models, where an imperceptible perturbation can trigger dramatic changes in the ranking result. While previous attempts focus on manipulating absolute ranks of certain candidates, the possibility of adjusting their relative order remains under-explored. In this paper, we formulate a new adversarial attack against deep ranking systems, i.e., the Order Attack, which covertly alters the relative order among a selected set of candidates according to an attacker-specified permutation, with limited interference to other unrelated candidates. Specifically, it is formulated as a triplet-style loss imposing an inequality chain reflecting the specified permutation. However, direct optimization of such white-box objective is infeasible in a real-world attack scenario due to various black-box limitations. To cope with them, we propose a Short-range Ranking Correlation metric as a surrogate objective for black-box Order Attack to approximate the white-box method. The Order Attack is evaluated on the Fashion-MNIST and Stanford-Online-Prod ucts datasets under both white-box and black-box threat models. The black-box attack is also successfully implemented on a major e-commerce platform. Comprehensive experimental evaluations demonstrate the effectiveness of the proposed methods, revealing a new type of ranking model vulnerability.
翻訳日:2021-03-10 15:03:07 公開日:2021-03-09
# Mask R-CNNによる医薬品開発における細菌コロニー形成単位のカウント

A Mask R-CNN approach to counting bacterial colony forming units in pharmaceutical development ( http://arxiv.org/abs/2103.05337v1 )

ライセンス: Link先を確認
Tanguy Naets, Maarten Huijsmans, Paul Smyth, Laurent Sorber, Ga\"el de Lannoy(参考訳) ペトリ料理で培養された異なる種類の細菌コロニー形成ユニットのカウントに、よく知られたマスクR-CNNアプローチを適用します。 我々のモデルは、現代のSPA(Single-Page Application)の研究室技術者に提供されました。 ユーザーは料理の画像をアップロードすることができ、その後、このタスクのために特別に訓練および調整されたマスクR-CNNモデルがBVGとBVG+コロニーの数を検出し、ユーザーが検証するためのインタラクティブなインターフェイスで表示します。 ユーザーはモデルの予測を確認し、必要に応じて修正し、最終的に検証することができる。 私たちの適応マスクR-CNNモデルは、50\%の交差オーバーユニオン(IoU)しきい値で94\%の平均平均精度(mAP)を達成します。 これらの奨励的な結果により、他の細菌タイプへの一般化やウイルスの病原体カウントなど、関連する問題に改善された精度と時間の利点をもたらす機会があります。

We present an application of the well-known Mask R-CNN approach to the counting of different types of bacterial colony forming units that were cultured in Petri dishes. Our model was made available to lab technicians in a modern SPA (Single-Page Application). Users can upload images of dishes, after which the Mask R-CNN model that was trained and tuned specifically for this task detects the number of BVG- and BVG+ colonies and displays these in an interactive interface for the user to verify. Users can then check the model's predictions, correct them if deemed necessary, and finally validate them. Our adapted Mask R-CNN model achieves a mean average precision (mAP) of 94\% at an intersection-over-un ion (IoU) threshold of 50\%. With these encouraging results, we see opportunities to bring the benefits of improved accuracy and time saved to related problems, such as generalising to other bacteria types and viral foci counting.
翻訳日:2021-03-10 15:02:45 公開日:2021-03-09
# unzipFPGA: FPGAベースのCNNエンジンをオンザフライで生成する

unzipFPGA: Enhancing FPGA-based CNN Engines with On-the-Fly Weights Generation ( http://arxiv.org/abs/2103.05600v1 )

ライセンス: Link先を確認
Stylianos I. Venieris, Javier Fernandez-Marques, Nicholas D. Lane(参考訳) シングル計算エンジンはFPGAベースの畳み込みニューラルネットワーク(CNN)において、ファブリック再構成なしで多様なモデルのデプロイを可能にする一般的な設計選択となっている。 しかし、この柔軟性は、しばしば、エンジンの固定構成上の特定の層を最適にマッピングするため、メモリバウンド層のパフォーマンスが大幅に低下し、リソースの不足が伴います。 本研究では,CNNエンジン設計において,実行時の重みを圧縮する事前畳み込みステージを導入したモデル群について,その意味を考察する。 これらのアプローチをオンザフライと呼びます。 メモリバウンド層に対する帯域幅の制限による負の影響を最小限に抑えるため,オンチップオンザフライ重み生成を可能にするハードウェアコンポーネントを提案する。 さらに、サブ最適化された層上のPE間の負荷を均衡させる入力選択処理素子(PE)の設計を導入する。 最後に、UnzipFPGA、オンザフライモデルを訓練し、設計空間を横断して最高の性能のCNNエンジン構成を選択するフレームワークを紹介します。 定量的評価は、UnzipFPGAは、制限された帯域幅と最新のFPGAベースのCNNアクセラレータよりも最大3.69倍高いパフォーマンス密度の下で最適化されたステータスクォークおよびprunedCNNエンジンよりも平均2.14倍と71%のスピードアップをもたらすことを示している。

Single computation engines have become a popular design choice for FPGA-based convolutional neural networks (CNNs) enabling the deployment of diverse models without fabric reconfiguration. This flexibility, however, often comes with significantly reduced performance on memory-bound layers and resource underutilisation due to suboptimal mapping of certain layers on the engine's fixed configuration. In this work, we investigate the implications in terms of CNN engine design for a class of models that introduce a pre-convolution stage to decompress the weights at run time. We refer to these approaches as on-the-fly. To minimise the negative impact of limited bandwidth on memory-bound layers, we present a novel hardware component that enables the on-chip on-the-fly generation of weights. We further introduce an input selective processing element (PE) design that balances the load between PEs on suboptimally mapped layers. Finally, we present unzipFPGA, a framework to train on-the-fly models and traverse the design space to select the highest performing CNN engine configuration. Quantitative evaluation shows that unzipFPGA yields an average speedup of 2.14x and 71% over optimised status-quo and pruned CNN engines under constrained bandwidth and up to 3.69x higher performance density over the state-of-the-art FPGA-based CNN accelerators.
翻訳日:2021-03-10 15:02:29 公開日:2021-03-09
# NeX:Neural Basis Expansionを用いたリアルタイムビュー合成

NeX: Real-time View Synthesis with Neural Basis Expansion ( http://arxiv.org/abs/2103.05606v1 )

ライセンス: Link先を確認
Suttisak Wizadwongsa, Pakkapon Phongthawee, Jiraphon Yenphraphai, Supasorn Suwajanakorn(参考訳) 我々は,次世代のビュー依存効果をリアルタイムに再現できるマルチプレーン画像(MPI)の強化に基づく,新しいビュー合成手法NeXを提案する。 従来の単純なrgb$\alpha$平面を用いたmpiとは異なり、ニューラルネットワークから学習した基底関数の線形結合として各ピクセルをパラメータ化することで、ビュー依存効果をモデル化する。 さらに、詳細を詳細に改善し、最先端の結果を生み出すハイブリッド暗黙的モデリング戦略を提案します。 提案手法は,cd上でのレインボー反射など,かなり困難な効果を持つビュー依存モデリングの限界をテストするために新たに開発したデータセットと同様に,ベンチマークの前方向けデータセット上で評価される。 提案手法は,これらのデータセットのすべての主要な指標に対して,1000ドル以上のレンダリング時間で最高のスコアを得られる。 リアルタイムのデモはhttps://nex-mpi.gith ub.io/を参照。

We present NeX, a new approach to novel view synthesis based on enhancements of multiplane image (MPI) that can reproduce next-level view-dependent effects -- in real time. Unlike traditional MPI that uses a set of simple RGB$\alpha$ planes, our technique models view-dependent effects by instead parameterizing each pixel as a linear combination of basis functions learned from a neural network. Moreover, we propose a hybrid implicit-explicit modeling strategy that improves upon fine detail and produces state-of-the-art results. Our method is evaluated on benchmark forward-facing datasets as well as our newly-introduced dataset designed to test the limit of view-dependent modeling with significantly more challenging effects such as rainbow reflections on a CD. Our method achieves the best overall scores across all major metrics on these datasets with more than 1000$\times$ faster rendering time than the state of the art. For real-time demos, visit https://nex-mpi.gith ub.io/
翻訳日:2021-03-10 15:02:05 公開日:2021-03-09
# ASRのためのコントラスト半教師付き学習

Contrastive Semi-supervised Learning for ASR ( http://arxiv.org/abs/2103.05149v1 )

ライセンス: Link先を確認
Alex Xiao, Christian Fuegen, Abdelrahman Mohamed(参考訳) Pseudo-labelingは、自動音声認識(ASR)モデルを事前トレーニングする最も採用されている方法です。 しかし、そのパフォーマンスは教師モデルの低リソース設定とドメイン転送における品質の低下によって損なわれます。 コンピュータビジョンや音声アプリケーションにおけるコントラスト表現学習の成功に触発され,さらに最近では視覚オブジェクトの教師付き学習に応用され,コントラスト型半教師付き学習(csl)を提案する。 CSLは教師生成の擬似ラベルを直接予測し、ポジティブな例とネガティブな例を選択する。 公共のソーシャルメディアビデオを翻訳する困難なタスクでは、CSLを使用することで、監視データの10hrを使用して75,000hrのビデオをアノテートする場合、標準のCross-Entropy疑似ラベル(CE-PL)と比較してWERを8%削減します。 WER削減は教師の監督のために1hrラベルを使用する超低リソース条件の下で19%にジャンプします。 CSLはドメイン外の条件において、CE-PL事前訓練モデルと比較して最大17%のWER削減を示す。

Pseudo-labeling is the most adopted method for pre-training automatic speech recognition (ASR) models. However, its performance suffers from the supervised teacher model's degrading quality in low-resource setups and under domain transfer. Inspired by the successes of contrastive representation learning for computer vision and speech applications, and more recently for supervised learning of visual objects, we propose Contrastive Semi-supervised Learning (CSL). CSL eschews directly predicting teacher-generated pseudo-labels in favor of utilizing them to select positive and negative examples. In the challenging task of transcribing public social media videos, using CSL reduces the WER by 8% compared to the standard Cross-Entropy pseudo-labeling (CE-PL) when 10hr of supervised data is used to annotate 75,000hr of videos. The WER reduction jumps to 19% under the ultra low-resource condition of using 1hr labels for teacher supervision. CSL generalizes much better in out-of-domain conditions, showing up to 17% WER reduction compared to the best CE-PL pre-trained model.
翻訳日:2021-03-10 15:01:32 公開日:2021-03-09
# 企業の発言を損なう可能性のあるセンシティブトピックに関する不適切なメッセージの検出

Detecting Inappropriate Messages on Sensitive Topics that Could Harm a Company's Reputation ( http://arxiv.org/abs/2103.05345v1 )

ライセンス: Link先を確認
Nikolay Babakov, Varvara Logacheva, Olga Kozlova, Nikita Semenov and Alexander Panchenko(参考訳) カメや釣りについての冷静な議論は、政治や性マイノリティの議論よりも不適切な有害な対話を助長することが多い。 我々は,不適切で有害なメッセージを生み出す可能性のある,センシティブなトピックのセットを定義し,データセットの収集とラベル付けの方法論を記述した。 ユーザ生成データの毒性は十分に研究されているが、より詳細な不適切な概念を定義することを目指している。 不適切性の中核は、スピーカーの評判を損なう可能性があることです。 これは2つの点で毒性と異なる:(i)不適切性はトピック関連であり、(ii)不適切なメッセージは有毒ではないが、まだ受け入れられない。 ロシアの2つのデータセットを収集およびリリースします。トピックラベルデータセットと適切なラベルラベルデータセットです。 また、このデータに基づいて訓練された事前訓練された分類モデルもリリースする。

Not all topics are equally "flammable" in terms of toxicity: a calm discussion of turtles or fishing less often fuels inappropriate toxic dialogues than a discussion of politics or sexual minorities. We define a set of sensitive topics that can yield inappropriate and toxic messages and describe the methodology of collecting and labeling a dataset for appropriateness. While toxicity in user-generated data is well-studied, we aim at defining a more fine-grained notion of inappropriateness. The core of inappropriateness is that it can harm the reputation of a speaker. This is different from toxicity in two respects: (i) inappropriateness is topic-related, and (ii) inappropriate message is not toxic but still unacceptable. We collect and release two datasets for Russian: a topic-labeled dataset and an appropriateness-labe led dataset. We also release pre-trained classification models trained on this data.
翻訳日:2021-03-10 15:01:15 公開日:2021-03-09
# PROVED:不確実なイベントデータのグラフ表現と解析のためのツール

PROVED: A Tool for Graph Representation and Analysis of Uncertain Event Data ( http://arxiv.org/abs/2103.05564v1 )

ライセンス: Link先を確認
Marco Pegoraro, Merih Seran Uysal, Wil M.P. van der Aalst(参考訳) プロセスマイニングの分野は、ペトリネットを用いた歴史的なプロセス実行を分析し、データ駆動方式でプロセスを研究することを目的としている。 情報システムから抽出されたイベントデータ(例) SAP)は、プロセスマイニングの出発点として機能します。 近年,不確実なイベントデータを含む新たな種類のイベントデータがプロセスマイニングコミュニティの関心を集めている。 不確定なイベント、プロセストレース、およびログには、可能な属性値のセットなど、定量化された不正確な特性が特徴の属性が含まれています。 PROVEDツールは、ペトリネットのセマンティクスを持つ行動グラフとネットを使用して不確実な情報を抽象化することにより、そのような不確実なイベントデータを探索、ナビゲート、分析するのに役立ちます。 これらの構成に基づいて、ツールは発見と適合のチェックを可能にします。

The discipline of process mining aims to study processes in a data-driven manner by analyzing historical process executions, often employing Petri nets. Event data, extracted from information systems (e.g. SAP), serve as the starting point for process mining. Recently, novel types of event data have gathered interest among the process mining community, including uncertain event data. Uncertain events, process traces and logs contain attributes that are characterized by quantified imprecisions, e.g., a set of possible attribute values. The PROVED tool helps to explore, navigate and analyze such uncertain event data by abstracting the uncertain information using behavior graphs and nets, which have Petri nets semantics. Based on these constructs, the tool enables discovery and conformance checking.
翻訳日:2021-03-10 15:00:59 公開日:2021-03-09
# 肝腫瘍境界セマンティックスと予後バイオマーカーマイニングの逐次学習

Sequential Learning on Liver Tumor Boundary Semantics and Prognostic Biomarker Mining ( http://arxiv.org/abs/2103.05170v1 )

ライセンス: Link先を確認
Jieneng Chen, Ke Yan, Yu-Dong Zhang, Youbao Tang, Xun Xu, Shuwen Sun, Qiuping Liu, Lingyun Huang, Jing Xiao, Alan L. Yuille, Ya Zhang, and Le Lu(参考訳) 腫瘍の境界(肝細胞癌、HCC)には、毛細血管浸潤、可視性、滑らかさ、折りたたみ、隆起など、豊富な意味がある。 腫瘍境界に対する毛細血管浸潤は予後指標であるmicrovascular invasion (mvi) と臨床的に相関することが証明されている。 腫瘍境界セマンティクスの検査は極めて重要な臨床的価値を持っている。 本稿では,タスクを空間頂点局在化とシーケンシャルセマンティクス分類という2つの構成要素に分離する,最初の新しい計算フレームワークを提案する。 1)HCC腫瘍セグメンタは腫瘍マスク境界抽出のために構築され,次いで半径と角度で境界を表す極変換が行われる。 頂点生成器は、対応する空間上の頂点の特徴をサンプリングする固定長境界頂点を生成するために使用される。 2) 位置埋め込みを伴う深部頂点の特徴を逐次空間にマッピングし, 意味分類のために多層パーセプトロン(MLP)で復号する。 腫瘍カプセルセマンティクスに関する広範な実験は、私たちのフレームワークの有効性を示しています。 境界セマンティクスとMVI状態の間の相関をマイニングすることは、この境界セマンティクスを有効なHCC予後バイオマーカーとして統合する可能性を証明する。

The boundary of tumors (hepatocellular carcinoma, or HCC) contains rich semantics: capsular invasion, visibility, smoothness, folding and protuberance, etc. Capsular invasion on tumor boundary has proven to be clinically correlated with the prognostic indicator, microvascular invasion (MVI). Investigating tumor boundary semantics has tremendous clinical values. In this paper, we propose the first and novel computational framework that disentangles the task into two components: spatial vertex localization and sequential semantic classification. (1) A HCC tumor segmentor is built for tumor mask boundary extraction, followed by polar transform representing the boundary with radius and angle. Vertex generator is used to produce fixed-length boundary vertices where vertex features are sampled on the corresponding spatial locations. (2) The sampled deep vertex features with positional embedding are mapped into a sequential space and decoded by a multilayer perceptron (MLP) for semantic classification. Extensive experiments on tumor capsule semantics demonstrate the effectiveness of our framework. Mining the correlation between the boundary semantics and MVI status proves the feasibility to integrate this boundary semantics as a valid HCC prognostic biomarker.
翻訳日:2021-03-10 15:00:05 公開日:2021-03-09
# ravenのプログレッシブ行列を解くための負の候補解を混合したデータ拡張法

A Data Augmentation Method by Mixing Up Negative Candidate Answers for Solving Raven's Progressive Matrices ( http://arxiv.org/abs/2103.05222v1 )

ライセンス: Link先を確認
Wentao He, Jialu Zhang, Chenglin Yao, Shihe Wang, Jianfeng Ren, Ruibin Bai(参考訳) RavenのProgressive Matrices(RPM)は、人間の視覚的推論能力のテストに頻繁に使用されます。 最近開発されたRPMライクデータセットとソリューションモデルは、この種の問題を認知科学からコンピュータ科学に転送します。 本研究では,RPMデータセットのサンプル不足による一般化性能の低さから,画像混合によるデータ拡張戦略を提案する。 負の候補解の潜在的な機能に着目して、モデルの視覚的推論能力を向上する。 提案手法を適用すれば,最先端モデルと比較して様々なrpmライクなデータセットにおいて有意かつ一貫した改善が得られる。

Raven's Progressive Matrices (RPMs) are frequently-used in testing human's visual reasoning ability. Recently developed RPM-like datasets and solution models transfer this kind of problems from cognitive science to computer science. In view of the poor generalization performance due to insufficient samples in RPM datasets, we propose a data augmentation strategy by image mix-up, which is generalizable to a variety of multiple-choice problems, especially for image-based RPM-like problems. By focusing on potential functionalities of negative candidate answers, the visual reasoning capability of the model is enhanced. By applying the proposed data augmentation method, we achieve significant and consistent improvement on various RPM-like datasets compared with the state-of-the-art models.
翻訳日:2021-03-10 14:59:41 公開日:2021-03-09
# マルチオーガンセグメンテーションのための不確実性認識インクリメンタルラーニング

Uncertainty-aware Incremental Learning for Multi-organ Segmentation ( http://arxiv.org/abs/2103.05227v1 )

ライセンス: Link先を確認
Yuhang Zhou, Xiaoman Zhang, Shixiang Feng, Ya Zhang, and Yanfeng(参考訳) 複数の単一組織データセットから統一的なマルチ組織セグメンテーションモデルをトレーニングする既存のアプローチでは、トレーニング中に複数のデータセットに同時にアクセスする必要がある。 実際のシナリオでは、プライバシーと倫理上の懸念のために、関心のある機関のトレーニングデータは公開されない場合があります。 そこで,データフリーインクリメンタル臓器セグメンテーションシナリオを調査し,それを解決するための新たなインクリメンタルトレーニングフレームワークを提案する。 プライバシー保護のために、独自のトレーニングデータの代わりに、トレーニング済みモデルを使用します。 具体的には、事前訓練された$K$オルガンセグメンテーションモデルと新しい単一臓器データセットを考えると、以前のトレーニング段階に属するデータにアクセスせずに、統一された$K+1$オルガンセグメンテーションモデルをトレーニングする。 我々のアプローチは背景ラベルアライメント戦略と不確実性認識ガイダンス戦略の2つの部分からなる。 最初の部分は、予備モデルからトレーニングモデルへの知識転送に使用されます。 第2部は、事前訓練されたモデルから不確実性情報を抽出し、知識伝達プロセス全体を導く。 これら2つの戦略を組み合わせることで、元のトレーニングデータなしで事前訓練されたモデルからより信頼性の高い情報を抽出する。 複数の公開事前学習モデルとマルチオーガニックデータセットMOBAの実験により,本フレームワークの有効性を実証した。

Most existing approaches to train a unified multi-organ segmentation model from several single-organ datasets require simultaneously access multiple datasets during training. In the real scenarios, due to privacy and ethics concerns, the training data of the organs of interest may not be publicly available. To this end, we investigate a data-free incremental organ segmentation scenario and propose a novel incremental training framework to solve it. We use the pretrained model instead of its own training data for privacy protection. Specifically, given a pretrained $K$ organ segmentation model and a new single-organ dataset, we train a unified $K+1$ organ segmentation model without accessing any data belonging to the previous training stages. Our approach consists of two parts: the background label alignment strategy and the uncertainty-aware guidance strategy. The first part is used for knowledge transfer from the pretained model to the training model. The second part is used to extract the uncertainty information from the pretrained model to guide the whole knowledge transfer process. By combing these two strategies, more reliable information is extracted from the pretrained model without original training data. Experiments on multiple publicly available pretrained models and a multi-organ dataset MOBA have demonstrated the effectiveness of our framework.
翻訳日:2021-03-10 14:59:31 公開日:2021-03-09
# MetaCorrection:セマンティックセグメンテーションにおける教師なしドメイン適応のためのドメイン認識メタロス補正

MetaCorrection: Domain-aware Meta Loss Correction for Unsupervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2103.05254v1 )

ライセンス: Link先を確認
Xiaoqing Guo, Chen Yang, Baopu Li, Yixuan Yuan(参考訳) unsupervised domain adaptation (uda) はラベル付きソースドメインからラベルなしターゲットドメインに知識を転送することを目的としている。 既存のセルフトレーニングベースのUDAアプローチは、ターゲットデータに擬似ラベルを割り当て、モデル適応のためにラベルされていないターゲットデータを完全に活用するために基底真理ラベルとして扱う。 しかし、ソースドメインに最適化されたモデルから生成された擬似ラベルは、必然的にドメインギャップによるノイズを含む。 この問題に対処するため、UDAセマンティックセグメンテーションの損失補正(DMLC)のためにドメイン対応メタ学習戦略を考案したMetaCorrectionフレームワークを前進させる。 特に、ノイズ遷移行列(NTM)を導入してターゲット領域内の擬似ラベルのノイズ分布をモデル化し、ドメイン不変なソースデータを用いたメタデータセットを構築し、NTMの推定を導く。 メタデータセットのリスク最小化により、最適化されたNTMは擬似ラベルのノイズ問題を補正し、対象データに対するモデルの一般化能力を高めることができる。 さらに,浅部特徴と深部特徴の容量ギャップを考慮し,異なるレベルの特徴に対して一致した,互換性のある監視信号を提供することにより,深部適応の確保を図る。 広範な実験結果から,3つのベンチマークにおける既存手法に対する提案手法の有効性が示された。

Unsupervised domain adaptation (UDA) aims to transfer the knowledge from the labeled source domain to the unlabeled target domain. Existing self-training based UDA approaches assign pseudo labels for target data and treat them as ground truth labels to fully leverage unlabeled target data for model adaptation. However, the generated pseudo labels from the model optimized on the source domain inevitably contain noise due to the domain gap. To tackle this issue, we advance a MetaCorrection framework, where a Domain-aware Meta-learning strategy is devised to benefit Loss Correction (DMLC) for UDA semantic segmentation. In particular, we model the noise distribution of pseudo labels in target domain by introducing a noise transition matrix (NTM) and construct meta data set with domain-invariant source data to guide the estimation of NTM. Through the risk minimization on the meta data set, the optimized NTM thus can correct the noisy issues in pseudo labels and enhance the generalization ability of the model on the target data. Considering the capacity gap between shallow and deep features, we further employ the proposed DMLC strategy to provide matched and compatible supervision signals for different level features, thereby ensuring deep adaptation. Extensive experimental results highlight the effectiveness of our method against existing state-of-the-art methods on three benchmarks.
翻訳日:2021-03-10 14:59:12 公開日:2021-03-09
# PcmNet:時空間行動定位のための位置感性コンテキストモデリングネットワーク

PcmNet: Position-Sensitive Context Modeling Network for Temporal Action Localization ( http://arxiv.org/abs/2103.05270v1 )

ライセンス: Link先を確認
Xin Qin, Hanbin Zhao, Guangchen Lin, Hao Zeng, Songcen Xu, Xi Li(参考訳) 時間的アクションのローカリゼーションは、アクションが発生し、クラスを認識する実世界の未トリミングビデオ内の時間的領域を特定することを目的とした重要かつ困難なタスクです。 ビデオコンテキストはビデオ理解にとって重要な問題であると広く認識されており、コンテキストの利用はローカリゼーションのパフォーマンスを高める重要な戦略となっている。 しかし、以前の最先端の手法では、フレームや提案間の特徴の類似性を捉える意味的コンテキストの探索や、時間的ローカリゼーションに不可欠な位置コンテキストの無視に重点が置かれている。 本稿では、位置情報と意味情報の両方をより正確な行動ローカライズに組み込むための時間的位置感性コンテキストモデリング手法を提案する。 具体的には,まず,有向時間位置符号化による特徴表現を補強し,その後,フレームレベルと提案レベルの両方において注意に基づく情報伝達を行う。 その結果、生成された特徴表現は、位置認識コンテキスト情報をエンコードする識別能力によって大幅に強化され、境界検出と提案評価の恩恵を受ける。 提案手法の有効性と一般化性を実証し,2つの挑戦的データセットである thumos-14 と activitynet-1.3 で最先端の性能を実現する。

Temporal action localization is an important and challenging task that aims to locate temporal regions in real-world untrimmed videos where actions occur and recognize their classes. It is widely acknowledged that video context is a critical cue for video understanding, and exploiting the context has become an important strategy to boost localization performance. However, previous state-of-the-art methods focus more on exploring semantic context which captures the feature similarity among frames or proposals, and neglect positional context which is vital for temporal localization. In this paper, we propose a temporal-position-se nsitive context modeling approach to incorporate both positional and semantic information for more precise action localization. Specifically, we first augment feature representations with directed temporal positional encoding, and then conduct attention-based information propagation, in both frame-level and proposal-level. Consequently, the generated feature representations are significantly empowered with the discriminative capability of encoding the position-aware context information, and thus benefit boundary detection and proposal evaluation. We achieve state-of-the-art performance on both two challenging datasets, THUMOS-14 and ActivityNet-1.3, demonstrating the effectiveness and generalization ability of our method.
翻訳日:2021-03-10 14:58:48 公開日:2021-03-09
# シーングラフ生成のためのセマンティックアンビジティの確率的モデル化

Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation ( http://arxiv.org/abs/2103.05271v1 )

ライセンス: Link先を確認
Gengcong Yang, Jingyi Zhang, Yong Zhang, Baoyuan Wu, Yujiu Yang(参考訳) 正確な」シーングラフを生成するために、ほぼ全ての既存手法は決定論的にペアワイズ関係を予測している。 しかし、視覚的関係はしばしば意味的に曖昧である。 具体的には,言語知識に着想を得て,同義的曖昧性,偽性曖昧性,多視点曖昧性という3つのタイプに分類した。 あいまいさは自然に、多様な予測の必要性を動機づける、"emph{implicit multi-label}"の問題に繋がる。 本研究では,プラグアンドプレイ確率不確実性モデリング(PUM)モジュールを提案する。 各組合地域をガウス分布としてモデル化し、その分散は対応する視覚コンテンツの不確実性を測定する。 従来の決定論的手法と比較して、不確実性モデリングは特徴表現の確率性をもたらし、自然に多様な予測を可能にする。 副産物として、PUMはよりきめ細かい関係をカバーし、頻繁な関係に対する偏見の問題を軽減する。 大規模ビジュアルゲノムベンチマークに関する広範な実験は、PUMと新たに提案されたResCAGCNを組み合わせることで、特に平均リコールメトリックの下で最先端のパフォーマンスを達成できることを示しています。 さらに,既存のモデルに組み込むことで,pumの普遍的有効性を証明し,多様で多彩な視覚関係を生み出す能力について洞察的な分析を行う。

To generate "accurate" scene graphs, almost all existing methods predict pairwise relationships in a deterministic manner. However, we argue that visual relationships are often semantically ambiguous. Specifically, inspired by linguistic knowledge, we classify the ambiguity into three types: Synonymy Ambiguity, Hyponymy Ambiguity, and Multi-view Ambiguity. The ambiguity naturally leads to the issue of \emph{implicit multi-label}, motivating the need for diverse predictions. In this work, we propose a novel plug-and-play Probabilistic Uncertainty Modeling (PUM) module. It models each union region as a Gaussian distribution, whose variance measures the uncertainty of the corresponding visual content. Compared to the conventional deterministic methods, such uncertainty modeling brings stochasticity of feature representation, which naturally enables diverse predictions. As a byproduct, PUM also manages to cover more fine-grained relationships and thus alleviates the issue of bias towards frequent relationships. Extensive experiments on the large-scale Visual Genome benchmark show that combining PUM with newly proposed ResCAGCN can achieve state-of-the-art performances, especially under the mean recall metric. Furthermore, we prove the universal effectiveness of PUM by plugging it into some existing models and provide insightful analysis of its ability to generate diverse yet plausible visual relationships.
翻訳日:2021-03-10 14:58:25 公開日:2021-03-09
# Thumbnail: 畳み込みニューラルネットワークのための新しいデータ拡張

Thumbnail: A Novel Data Augmentation for Convolutional Neural Network ( http://arxiv.org/abs/2103.05342v1 )

ライセンス: Link先を確認
Tianshu Xie, Xuan Cheng, Minghui Liu, Jiali Deng, Xiaomin Wang, Ming Liu(参考訳) 本論文では、ネットワークによるグローバル機能のキャプチャを強化することを目的とした、Thumbnailという新しいデータ拡張戦略を提案する。 サムネイルと呼ばれる特定のサイズに画像を縮小し、元の画像のランダムな位置に貼り付けることで生成された画像を取得します。 生成された画像は、元の画像情報の大部分を保持するだけでなく、サムネイル内のグローバル情報も保持する。 さらに,サムネイルのアイデアはサンプルデータの混合増補と完全に統合可能であることを見出し,基底真理ラベルを一定の重みで混合した別の画像にサムネイルを貼り付けることにより,様々なコンピュータビジョンタスクにおいて大きな成果が得られた。 広範囲にわたる実験により、Thumbnailは、分類、きめ細かい画像分類、およびオブジェクト検出にまたがる最先端の増強戦略よりも優れています。 ImageNetの分類では、ResNet50アーキテクチャは79.21%の精度でベースラインを2.89%以上改善している。

In this paper, we propose a new data augmentation strategy named Thumbnail, which aims to strengthen the network's capture of global features. We get a generated image by reducing an image to a certain size, which is called as the thumbnail, and pasting it in the random position of the original image. The generated image not only retains most of the original image information but also has the global information in the thumbnail. Furthermore, we find that the idea of thumbnail can be perfectly integrated with Mixed Sample Data Augmentation, so we paste the thumbnail in another image where the ground truth labels are also mixed with a certain weight, which makes great achievements on various computer vision tasks. Extensive experiments show that Thumbnail works better than the state-of-the-art augmentation strategies across classification, fine-grained image classification, and object detection. On ImageNet classification, ResNet50 architecture with our method achieves 79.21% accuracy, which is more than 2.89% improvement on the baseline.
翻訳日:2021-03-10 14:58:01 公開日:2021-03-09
# 対向攻撃におけるスケルトンベース行動認識のロバスト性理解

Understanding the Robustness of Skeleton-based Action Recognition under Adversarial Attack ( http://arxiv.org/abs/2103.05347v1 )

ライセンス: Link先を確認
He Wang, Feixiang He, Zhexi Peng, Yong-Liang Yang, Tianjia Shao, Kun Zhou, David Hogg(参考訳) アクション認識は、その堅牢性が主な関心事である自動運転車、監視など、多くのアプリケーションに大きく採用されています。 本稿では,これまでまれに調査されていなかった敵対的攻撃に対する最先端の行動認識器の堅牢性について検討する。 そこで本研究では,3次元骨格運動に依存する行動認識を攻撃する新しい手法を提案する。 本手法は,攻撃の不可避性を保証する革新的な知覚損失を含む。 実験により,本手法はホワイトボックスとブラックボックスの両方のシナリオで有効であることが示された。 その一般化性は、様々なアクション認識とデータセットで証明されている。 その汎用性は異なる攻撃戦略で示される。 その偽りは広範な知覚研究で証明されている。 提案手法は, 時系列データの一種である3次元骨格運動に対する敵意攻撃が, 従来の敵意攻撃問題とは大きく異なることを示す。 その成功は、行動認識者の堅牢性への深刻な懸念を引き起こし、潜在的な改善に関する洞察を提供する。

Action recognition has been heavily employed in many applications such as autonomous vehicles, surveillance, etc, where its robustness is a primary concern. In this paper, we examine the robustness of state-of-the-art action recognizers against adversarial attack, which has been rarely investigated so far. To this end, we propose a new method to attack action recognizers that rely on 3D skeletal motion. Our method involves an innovative perceptual loss that ensures the imperceptibility of the attack. Empirical studies demonstrate that our method is effective in both white-box and black-box scenarios. Its generalizability is evidenced on a variety of action recognizers and datasets. Its versatility is shown in different attacking strategies. Its deceitfulness is proven in extensive perceptual studies. Our method shows that adversarial attack on 3D skeletal motions, one type of time-series data, is significantly different from traditional adversarial attack problems. Its success raises serious concern on the robustness of action recognizers and provides insights on potential improvements.
翻訳日:2021-03-10 14:57:42 公開日:2021-03-09
# 再同定のためのインスタンスとペアアウェア動的ネットワーク

Instance and Pair-Aware Dynamic Networks for Re-Identification ( http://arxiv.org/abs/2103.05395v1 )

ライセンス: Link先を確認
Bingliang Jiao and Xin Tan and Lu Yang and Yunlong Wang and Peng Wang(参考訳) Re-identification (ReID) は、異なるカメラで同じインスタンスを識別することです。 既存のReID手法は主にアライメントベースの戦略やアライメントベースの戦略を利用して効果的な特徴表現を生成する。 しかし、これらの方法のほとんどは、単一の入力画像自体を使用して一般的な特徴を抽出し、比較画像間の関連性の探索を無視するだけです。 本稿では、このギャップを埋めるために、Instance and Pair-Aware Dynamic Networksという新しいエンドツーエンドのトレーニング可能な動的畳み込みフレームワークを提案する。 提案モデルは,各画像に焦点をあて,インスタンス固有の特徴を強化するために自己誘導動的分岐を構築する3つのメインブランチで構成されている。 さらに,比較対象画像のペア認識機能を生成するための相互誘導型動的分岐も設計した。 提案アルゴリズムの有効性を検証するため,大規模な実験を行った。 cuhk03, dukemtmcreid, market-1501, veri776, vehicleidなどの主要人物および車両のreidデータセットでアルゴリズムを評価した。 いくつかのデータセットでは、我々のアルゴリズムは最先端の手法よりも優れており、また、我々のアルゴリズムは同等のパフォーマンスを達成する。

Re-identification (ReID) is to identify the same instance across different cameras. Existing ReID methods mostly utilize alignment-based or attention-based strategies to generate effective feature representations. However, most of these methods only extract general feature by employing single input image itself, overlooking the exploration of relevance between comparing images. To fill this gap, we propose a novel end-to-end trainable dynamic convolution framework named Instance and Pair-Aware Dynamic Networks in this paper. The proposed model is composed of three main branches where a self-guided dynamic branch is constructed to strengthen instance-specific features, focusing on every single image. Furthermore, we also design a mutual-guided dynamic branch to generate pair-aware features for each pair of images to be compared. Extensive experiments are conducted in order to verify the effectiveness of our proposed algorithm. We evaluate our algorithm in several mainstream person and vehicle ReID datasets including CUHK03, DukeMTMCreID, Market-1501, VeRi776 and VehicleID. In some datasets our algorithm outperforms state-of-the-art methods and in others, our algorithm achieves a comparable performance.
翻訳日:2021-03-10 14:57:29 公開日:2021-03-09
# weather gan: 生成型adversarial networkを用いたマルチドメイン気象翻訳

Weather GAN: Multi-Domain Weather Translation Using Generative Adversarial Networks ( http://arxiv.org/abs/2103.05422v1 )

ライセンス: Link先を確認
Xuelong Li, Kai Kou, and Bin Zhao(参考訳) 本論文では、画像の気象条件を1つのカテゴリから別のカテゴリに転送することを指す新しいタスク、すなわち天気翻訳を提案します。 写真スタイルの転送には重要である。 従来の画像翻訳タスクでは多くのアプローチが提案されているが、天候条件が豊富なカテゴリと非常に複雑な意味構造を持つため、多カテゴリーの気象翻訳タスクを処理できるものはほとんどない。 そこで本研究では, 日当たり, 曇り, 曇り, 曇り, 降雨, 雪の気象条件の転送を実現できる, 気象GAN(Weather GAN)と称するGAN(Genation Adversarial Network)に基づくマルチドメイン気象変換手法を開発した。 具体的には、雲、青空、湿った地面など様々な気象条件によって画像内の気象条件が決定される。 したがって、天気予報に主な注意を集中することは、天気の翻訳にとって不可欠です。 この目的のために、気象ganの生成部は、初期翻訳モジュールと、注意モジュールと、気象−キューセグメンテーションモジュールとからなる。 初期翻訳モジュールは、生成手順中にグローバル翻訳を行う。 ウェザーキューセグメンテーションモジュールは、ウェザーキューの構造と正確な分布を特定します。 attentionモジュールは、他の領域を変更せずに、画像の興味深い領域にフォーカスすることを学ぶ。 最終的な生成結果はこれら3つの部分によって合成される。 この手法は気象の変換による歪みや変形を抑制する。 我々のアプローチは最先端技術よりも優れており、多くの実験や評価によって示されている。

In this paper, a new task is proposed, namely, weather translation, which refers to transferring weather conditions of the image from one category to another. It is important for photographic style transfer. Although lots of approaches have been proposed in traditional image translation tasks, few of them can handle the multi-category weather translation task, since weather conditions have rich categories and highly complex semantic structures. To address this problem, we develop a multi-domain weather translation approach based on generative adversarial networks (GAN), denoted as Weather GAN, which can achieve the transferring of weather conditions among sunny, cloudy, foggy, rainy and snowy. Specifically, the weather conditions in the image are determined by various weather-cues, such as cloud, blue sky, wet ground, etc. Therefore, it is essential for weather translation to focus the main attention on weather-cues. To this end, the generator of Weather GAN is composed of an initial translation module, an attention module and a weather-cue segmentation module. The initial translation module performs global translation during generation procedure. The weather-cue segmentation module identifies the structure and exact distribution of weather-cues. The attention module learns to focus on the interesting areas of the image while keeping other areas unaltered. The final generated result is synthesized by these three parts. This approach suppresses the distortion and deformation caused by weather translation. our approach outperforms the state-of-the-arts has been shown by a large number of experiments and evaluations.
翻訳日:2021-03-10 14:57:12 公開日:2021-03-09
# ディープラーニングに基づく3Dセグメンテーション:調査

Deep Learning based 3D Segmentation: A Survey ( http://arxiv.org/abs/2103.05423v1 )

ライセンス: Link先を確認
Yong He, Hongshan Yu, Xiaoyan Liu, Zhengeng Yang, Wei Sun, Yaonan Wang, Qiang Fu, Yanmei Zou and Ajmal Main(参考訳) 3Dオブジェクトセグメンテーションは、自動運転、ロボティクス、拡張現実、医療画像分析など、コンピュータビジョンの根本的かつ困難な問題です。 コンピュータビジョン、グラフィックス、機械学習コミュニティから大きな注目を集めています。 伝統的に、3dセグメンテーションは手作りの特徴と工学的手法で行われ、許容できる精度を達成できず、大規模データには一般化できなかった。 2Dコンピュータビジョンにおける大きな成功によって、ディープラーニング技術は、最近3Dセグメンテーションタスクの選択ツールにもなっている。 これにより、さまざまなベンチマークデータセットで評価された多くのメソッドが文献に流入しました。 本論文では,150以上の論文を対象とする深層学習に基づく3Dセグメンテーションの最近の進展を総合的に調査する。 最も一般的に使用されるパイプラインを要約し、ハイライトと欠点を説明し、これらのセグメンテーションメソッドの競合結果を分析する。 分析に基づいて、将来への有望な研究の方向性も提供する。

3D object segmentation is a fundamental and challenging problem in computer vision with applications in autonomous driving, robotics, augmented reality and medical image analysis. It has received significant attention from the computer vision, graphics and machine learning communities. Traditionally, 3D segmentation was performed with hand-crafted features and engineered methods which failed to achieve acceptable accuracy and could not generalize to large-scale data. Driven by their great success in 2D computer vision, deep learning techniques have recently become the tool of choice for 3D segmentation tasks as well. This has led to an influx of a large number of methods in the literature that have been evaluated on different benchmark datasets. This paper provides a comprehensive survey of recent progress in deep learning based 3D segmentation covering over 150 papers. It summarizes the most commonly used pipelines, discusses their highlights and shortcomings, and analyzes the competitive results of these segmentation methods. Based on the analysis, it also provides promising research directions for the future.
翻訳日:2021-03-10 14:56:46 公開日:2021-03-09
# 複素運転場面におけるピクセル型異常検出

Pixel-wise Anomaly Detection in Complex Driving Scenes ( http://arxiv.org/abs/2103.05445v1 )

ライセンス: Link先を確認
Giancarlo Di Biase, Hermann Blum, Roland Siegwart, Cesar Cadena(参考訳) 異常なインスタンスを検知する最先端セマンティックセグメンテーション手法の欠如は、自律運転のような安全クリティカルで複雑なアプリケーションにデプロイされることを妨げている。 最近のアプローチでは、セグメント化の不確実性を利用して異常領域を識別するか、セマンティックラベルマップから画像を再合成して入力画像と相違点を見つけるかに焦点が当てられている。 本研究では,これら2つの手法が相補的な情報を含んでいることを実証し,異常セグメンテーションの堅牢な予測を行うために組み合わせることができることを示す。 入力画像と生成画像の相違点を見つけるために,不確実性マップを用いて既存の再合成法よりも優れた画素単位の異常検出フレームワークを提案する。 私たちのアプローチは、すでに訓練されたセグメンテーションネットワークに関する一般的なフレームワークとして機能し、セグメンテーションの精度を損なうことなく異常検出を保証します。 さまざまな異常データセットを対象としたトップ2パフォーマンスは、異なる異常インスタンスを扱うアプローチの堅牢性を示している。

The inability of state-of-the-art semantic segmentation methods to detect anomaly instances hinders them from being deployed in safety-critical and complex applications, such as autonomous driving. Recent approaches have focused on either leveraging segmentation uncertainty to identify anomalous areas or re-synthesizing the image from the semantic label map to find dissimilarities with the input image. In this work, we demonstrate that these two methodologies contain complementary information and can be combined to produce robust predictions for anomaly segmentation. We present a pixel-wise anomaly detection framework that uses uncertainty maps to improve over existing re-synthesis methods in finding dissimilarities between the input and generated images. Our approach works as a general framework around already trained segmentation networks, which ensures anomaly detection without compromising segmentation accuracy, while significantly outperforming all similar methods. Top-2 performance across a range of different anomaly datasets shows the robustness of our approach to handling different anomaly instances.
翻訳日:2021-03-10 14:56:32 公開日:2021-03-09
# ボックススーパービジョンセマンティックセグメンテーションのためのクラス非依存擬似マスク生成の学習

Learning Class-Agnostic Pseudo Mask Generation for Box-Supervised Semantic Segmentation ( http://arxiv.org/abs/2103.05463v1 )

ライセンス: Link先を確認
Chaohao Xie, Dongwei Ren, Lei Wang, Qinghua Hu, Liang Lin, Wangmeng Zuo(参考訳) 近年,深層セマンティックセグメンテーションモデルの訓練に境界ボックス管理を利用するために,弱教師付き学習法がいくつか研究されている。 既存のほとんどの手法では、一般的な提案生成器 (\eg, dense CRF, MCG) を利用して、さらなるトレーニングセグメンテーションモデルのための強化されたセグメンテーションマスクを生成する。 しかし、これらの提案ジェネレータは汎用的であり、ボックス監視されたセマンティックセグメンテーション用に特別に設計されていないため、セグメンテーションのパフォーマンスを改善するための余地がある。 本稿では,ボックス教師付きセマンティクスセグメンテーションに合わせた,より正確な学習ベースクラス非依存な擬似マスク生成器を求めることを目的とする。 この目的のために、私たちは、クラスラベルがボックス注釈データセットと重複しないピクセルレベルのアノテーション付き補助データセットを利用する。 補助データセットから擬似マスク生成法を学ぶために,二段階最適化定式化を提案する。 特に、下位のサブプロブレムはボックス教師付きセマンティクスセグメンテーションの学習に使用され、上位のサブプロブレムは最適なクラス非依存の擬似マスクジェネレータの学習に使用される。 学習した擬似セグメンテーションマスクジェネレータはボックスアノテーション付きデータセットにデプロイされ、弱教師付きセグメンテーションを改善する。 PASCAL VOC 2012データセットの実験では、学習した擬似マスクジェネレータがセグメンテーション性能を高めるのに有効であり、この方法により、ボックス監視モデルとフル監視モデルの間のパフォーマンスギャップをさらに閉じることができます。 コードはhttps://github.com/V ious/LPG_BBox_Segmen tation で公開されます。

Recently, several weakly supervised learning methods have been devoted to utilize bounding box supervision for training deep semantic segmentation models. Most existing methods usually leverage the generic proposal generators (\eg, dense CRF and MCG) to produce enhanced segmentation masks for further training segmentation models. These proposal generators, however, are generic and not specifically designed for box-supervised semantic segmentation, thereby leaving some leeway for improving segmentation performance. In this paper, we aim at seeking for a more accurate learning-based class-agnostic pseudo mask generator tailored to box-supervised semantic segmentation. To this end, we resort to a pixel-level annotated auxiliary dataset where the class labels are non-overlapped with those of the box-annotated dataset. For learning pseudo mask generator from the auxiliary dataset, we present a bi-level optimization formulation. In particular, the lower subproblem is used to learn box-supervised semantic segmentation, while the upper subproblem is used to learn an optimal class-agnostic pseudo mask generator. The learned pseudo segmentation mask generator can then be deployed to the box-annotated dataset for improving weakly supervised semantic segmentation. Experiments on PASCAL VOC 2012 dataset show that the learned pseudo mask generator is effective in boosting segmentation performance, and our method can further close the performance gap between box-supervised and fully-supervised models. Our code will be made publicly available at https://github.com/V ious/LPG_BBox_Segmen tation .
翻訳日:2021-03-10 14:56:13 公開日:2021-03-09
# 二重コントラスト深層クラスタリング

Doubly Contrastive Deep Clustering ( http://arxiv.org/abs/2103.05484v1 )

ライセンス: Link先を確認
Zhiyuan Dang, Cheng Deng, Xu Yang, Heng Huang(参考訳) ディープクラスタリングは、従来のものよりも効果的な機能を提供し、現在の教師なし学習において重要な技術となる。 しかし、ほとんどのディープクラスタリングメソッドは、データ増強によって導入された重要な正と負のペアを無視し、コントラスト学習の重要性をさらに高めます。 本稿では,サンプルビューとクラスビューの両ビューのコントラスト損失を構成し,より識別的特徴と競合的な結果を得る,二重対比型深層クラスタリング(dcdc)フレームワークを提案する。 具体的には、サンプルビューにおいて、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定し、他の拡張サンプルの1つを負のサンプルペアとして設定する。 その後、正のサンプルペアを一緒に引っ張り、負のサンプルペアを離れてプッシュするために、サンプルワイズコントラスト損失を採用できます。 同様に、クラスビューでは、クラスのサンプル分布から正と負のペアを構築します。 このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。 6つのベンチマークデータセットの広範な実験結果から,提案モデルの最先端手法に対する優位性が示された。 特に挑戦的なデータセットであるTiny-ImageNetでは,最新の比較手法に対して5.6\%を導いた。 コードは \url{https://github.com/Z hiyuanDang/DCDC} で入手できます。

Deep clustering successfully provides more effective features than conventional ones and thus becomes an important technique in current unsupervised learning. However, most deep clustering methods ignore the vital positive and negative pairs introduced by data augmentation and further the significance of contrastive learning, which leads to suboptimal performance. In this paper, we present a novel Doubly Contrastive Deep Clustering (DCDC) framework, which constructs contrastive loss over both sample and class views to obtain more discriminative features and competitive results. Specifically, for the sample view, we set the class distribution of the original sample and its augmented version as positive sample pairs and set one of the other augmented samples as negative sample pairs. After that, we can adopt the sample-wise contrastive loss to pull positive sample pairs together and push negative sample pairs apart. Similarly, for the class view, we build the positive and negative pairs from the sample distribution of the class. In this way, two contrastive losses successfully constrain the clustering results of mini-batch samples in both sample and class level. Extensive experimental results on six benchmark datasets demonstrate the superiority of our proposed model against state-of-the-art methods. Particularly in the challenging dataset Tiny-ImageNet, our method leads 5.6\% against the latest comparison method. Our code will be available at \url{https://github.com/Z hiyuanDang/DCDC}.
翻訳日:2021-03-10 14:55:20 公開日:2021-03-09
# TS-Net:テキスト転写スタイルを切り替えるOCRトレーニング

TS-Net: OCR Trained to Switch Between Text Transcription Styles ( http://arxiv.org/abs/2103.05489v1 )

ライセンス: Link先を確認
Jan Koh\'ut, Michal Hradi\v{s}(参考訳) 異なる機関や科学分野からのOCRシステムのユーザーは、異なる転写スタイルを好み、生成します。 これにより、実世界のデータに基づく一貫したテキスト認識ニューラルネットワークのトレーニングに問題がある。 本論文では,既存のテキスト認識ネットワークを,データから学習して複数の転写スタイルを切り替えることができる転写スタイルブロック(Transcription Style Block,TSB)で拡張することを提案する。 TSBは、一貫性のある転写文書(例えば)を表す識別子によって条件づけられた適応インスタンス正規化である。 単一の文書、単一の翻訳者による文書、または機関)。 TSBは、人工データを用いた制御実験において、全く異なる書き起こしスタイルを学習できることを示し、大規模な実世界のデータにおけるテキスト認識精度を改善し、意味的に意味のある書き起こしスタイルの埋め込みを学習する。 また、TSBは、テキスト行数行の転写から新しい文書の転写スタイルに効率的に適応する方法も示します。

Users of OCR systems, from different institutions and scientific disciplines, prefer and produce different transcription styles. This presents a problem for training of consistent text recognition neural networks on real-world data. We propose to extend existing text recognition networks with a Transcription Style Block (TSB) which can learn from data to switch between multiple transcription styles without any explicit knowledge of transcription rules. TSB is an adaptive instance normalization conditioned by identifiers representing consistently transcribed documents (e.g. single document, documents by a single transcriber, or an institution). We show that TSB is able to learn completely different transcription styles in controlled experiments on artificial data, it improves text recognition accuracy on large-scale real-world data, and it learns semantically meaningful transcription style embedding. We also show how TSB can efficiently adapt to transcription styles of new documents from transcriptions of only a few text lines.
翻訳日:2021-03-10 14:55:01 公開日:2021-03-09
# 3次元ポイントベースシーングラフ解析のためのエッジ指向推論

Exploiting Edge-Oriented Reasoning for 3D Point-based Scene Graph Analysis ( http://arxiv.org/abs/2103.05558v1 )

ライセンス: Link先を確認
Chaoyi Zhang, Jianhui Yu, Yang Song, Weidong Cai(参考訳) シーン理解はコンピュータビジョンにおける重要な問題である。 本稿では,3つの段階(シーングラフ構築,推論,推論)を通してシーン理解を実現するために,知覚と推論を効果的に橋渡しする3Dポイントベースのシーングラフ生成(「\mathbf{SG_{point}}$」)フレームワークを提案する。 推論段階では、EDGE指向グラフ畳み込みネットワーク($\texttt{EdgeGCN}$)が、シーングラフ表現の独立した進化のためのノードとエッジ間の2つの関連双対相互作用メカニズムの探索とともに、明示的な関係モデリングのための多次元エッジ機能を利用するために作成される。 統合された$\mathbf{SGG_{point}}$フレームワークは、実世界と合成3Dポイントベースの両方のシーンから興味のあるシーン構造を探し出し、推測するために確立されました。 実験結果は、シーングラフ生成研究に有望なエッジ指向推論効果を示す。 また,従来のグラフ表現学習ベンチマークデータセットの利点として,引用ネットワーク上のノードワイズ分類や,分子解析のための全グラフ認識問題などを挙げる。

Scene understanding is a critical problem in computer vision. In this paper, we propose a 3D point-based scene graph generation ($\mathbf{SGG_{point}}$) framework to effectively bridge perception and reasoning to achieve scene understanding via three sequential stages, namely scene graph construction, reasoning, and inference. Within the reasoning stage, an EDGE-oriented Graph Convolutional Network ($\texttt{EdgeGCN}$) is created to exploit multi-dimensional edge features for explicit relationship modeling, together with the exploration of two associated twinning interaction mechanisms between nodes and edges for the independent evolution of scene graph representations. Overall, our integrated $\mathbf{SGG_{point}}$ framework is established to seek and infer scene structures of interest from both real-world and synthetic 3D point-based scenes. Our experimental results show promising edge-oriented reasoning effects on scene graph generation studies. We also demonstrate our method advantage on several traditional graph representation learning benchmark datasets, including the node-wise classification on citation networks and whole-graph recognition problems for molecular analysis.
翻訳日:2021-03-10 14:54:44 公開日:2021-03-09
# FAIR1M:高解像度リモートセンシング画像における微細物体認識のためのベンチマークデータセット

FAIR1M: A Benchmark Dataset for Fine-grained Object Recognition in High-Resolution Remote Sensing Imagery ( http://arxiv.org/abs/2103.05569v1 )

ライセンス: Link先を確認
Xian Sun and Peijin Wang and Zhiyuan Yan and Cheng Wang and Wenhui Diao and Jin Chen and Jihao Li and Yingchao Feng and Tao Xu and Martin Weinmann and Stefan Hinz and Kun Fu(参考訳) ディープラーニングの急速な発展に伴い、多くのディープラーニングベースのアプローチがオブジェクト検出タスクで大きな成果を上げています。 ディープラーニングがデータ駆動方式であることは一般的に知られている。 データは物体検出器の性能に直接ある程度影響する。 既存のデータセットにはリモートセンシングイメージに共通オブジェクトが含まれているが、スケール、カテゴリ、イメージにはいくつかの制限がある。 したがって、高解像度リモートセンシング画像における物体検出に関する大規模ベンチマークを確立するための強い要件がある。 本稿では,FAIR1Mと命名された高解像度リモートセンシング画像において,100万以上のインスタンスと15,000以上の画像を含む新しいベンチマークデータセットを提案する。 FAIR1Mデータセットのすべてのオブジェクトは、指向境界ボックスによって5つのカテゴリと37のサブカテゴリに関してアノテートされます。 Compared with existing detection datasets dedicated to object detection, the FAIR1M dataset has 4 particular characteristics: (1) it is much larger than other existing object detection datasets both in terms of the quantity of instances and the quantity of images, (2) it provides more rich fine-grained category information for objects in remote sensing images, (3) it contains geographic information such as latitude, longitude and resolution, (4) it provides better image quality owing to a careful data cleaning procedure. 本稿では,このfair1mデータセットに基づく最先端(sota)深層学習モデルを用いて,粒度物体認識のためのベースラインを確立するため,新しい評価法とベンチマークによる粒度物体検出タスクと視覚的分類タスクを提案する。 実験結果は、FAIR1Mデータセットが実用に近く、既存のデータセットよりもかなり難しいことを強く示唆している。

With the rapid development of deep learning, many deep learning based approaches have made great achievements in object detection task. It is generally known that deep learning is a data-driven method. Data directly impact the performance of object detectors to some extent. Although existing datasets have included common objects in remote sensing images, they still have some limitations in terms of scale, categories, and images. Therefore, there is a strong requirement for establishing a large-scale benchmark on object detection in high-resolution remote sensing images. In this paper, we propose a novel benchmark dataset with more than 1 million instances and more than 15,000 images for Fine-grAined object recognItion in high-Resolution remote sensing imagery which is named as FAIR1M. All objects in the FAIR1M dataset are annotated with respect to 5 categories and 37 sub-categories by oriented bounding boxes. Compared with existing detection datasets dedicated to object detection, the FAIR1M dataset has 4 particular characteristics: (1) it is much larger than other existing object detection datasets both in terms of the quantity of instances and the quantity of images, (2) it provides more rich fine-grained category information for objects in remote sensing images, (3) it contains geographic information such as latitude, longitude and resolution, (4) it provides better image quality owing to a careful data cleaning procedure. To establish a baseline for fine-grained object recognition, we propose a novel evaluation method and benchmark fine-grained object detection tasks and a visual classification task using several State-Of-The-Art (SOTA) deep learning based models on our FAIR1M dataset. Experimental results strongly indicate that the FAIR1M dataset is closer to practical application and it is considerably more challenging than existing datasets.
翻訳日:2021-03-10 14:54:23 公開日:2021-03-09
# SimTriplet:単一のGPUによるシンプルなトリプル表現学習

SimTriplet: Simple Triplet Representation Learning with a Single GPU ( http://arxiv.org/abs/2103.05585v1 )

ライセンス: Link先を確認
Quan Liu, Peter C. Louis, Yuzhe Lu, Aadarsh Jha, Mengyang Zhao, Ruining Deng, Tianyuan Yao, Joseph T. Roland, Haichun Yang, Shilin Zhao, Lee E. Wheless, Yuankai Huo(参考訳) コントラスト学習は近代的な自己監督学習の重要な技法である。 初期のアプローチの幅広いアクセシビリティは、大規模な負のサンプルや運動量に対応する重い計算リソース(例えば、8gpuまたは32tpuコア)の必要性によって妨げられている。 より最近のSimSiamアプローチは、運動量エンコーダを使わずに停止段階の制限に対処する。 医用画像解析では、同じ患者または組織から複数のインスタンスを達成できる。 これらの進歩に触発されて,病理画像に対する単純な三重項表現学習(SimTriplet)アプローチを提案する。 本論文の貢献は,(1)シムトリプレット法は,自己提示以外の医用画像の多視点性を活用すること,(2)負のサンプルを用いることなく,正のペアからのトリプレットによるサンプル内およびサンプル間類似性を最大化すること,(3)最近のmix精度トレーニングを用いて,16gbメモリのシングルgpuのみを用いてトレーニングを進めること,の3つである。 79,000個のラベルなしの病理パッチ画像から学習することで、simtripletは教師付き学習に比べて10.58%の優れたパフォーマンスを達成した。 また、SimSiamに比べて2.13%パフォーマンスが向上した。 提案したSimTripletは,1%のラベル付きデータで十分な性能が得られる。 コードとデータはhttps://github.com/h rlblab/SimTriple.com で入手できる。

Contrastive learning is a key technique of modern self-supervised learning. The broader accessibility of earlier approaches is hindered by the need of heavy computational resources (e.g., at least 8 GPUs or 32 TPU cores), which accommodate for large-scale negative samples or momentum. The more recent SimSiam approach addresses such key limitations via stop-gradient without momentum encoders. In medical image analysis, multiple instances can be achieved from the same patient or tissue. Inspired by these advances, we propose a simple triplet representation learning (SimTriplet) approach on pathological images. The contribution of the paper is three-fold: (1) The proposed SimTriplet method takes advantage of the multi-view nature of medical images beyond self-augmentation; (2) The method maximizes both intra-sample and inter-sample similarities via triplets from positive pairs, without using negative samples; and (3) The recent mix precision training is employed to advance the training by only using a single GPU with 16GB memory. By learning from 79,000 unlabeled pathological patch images, SimTriplet achieved 10.58% better performance compared with supervised learning. It also achieved 2.13% better performance compared with SimSiam. Our proposed SimTriplet can achieve decent performance using only 1% labeled data. The code and data are available at https://github.com/h rlblab/SimTriple.
翻訳日:2021-03-10 14:53:56 公開日:2021-03-09
# 物性正規化による顕微鏡像と体積の点監督セグメンテーション

Point-supervised Segmentation of Microscopy Images and Volumes via Objectness Regularization ( http://arxiv.org/abs/2103.05617v1 )

ライセンス: Link先を確認
Shijie Li, Neel Dey, Katharina Bermond, Leon von der Emde, Christine A. Curcio, Thomas Ach, Guido Gerig(参考訳) アノテーションは、顕微鏡画像とボリュームのセマンティックセグメンテーションにおいて、必要な専門知識と労力のために大きなハードルとなる。 この作業は、画像上のセマンティックセグメンテーションネットワークのトレーニングを、1インスタンスあたりのトレーニングポイントのみで行うことが可能であり、アノテーションの負担を大幅に軽減する、弱い監督の極端なケースである。 本手法は,(1)学習中に個々の種子を正規化器内で使用するグラフ理論的ソフトセグメンテーションを構築し,(2)構築したソフトラベルから学習可能な客観的関数を用いる。 デジタル病理学における挑戦的なデータセットにおけるポイント・スーパーバイザーのセマンティクス・セグメンテーションの最先端に対する競争結果を達成します。 最後に,本手法を3次元蛍光顕微鏡ボリュームの点監督セグメンテーションに拡張し,手動ボリュームデライン化の必要性を排除した。 私たちのコードは自由に利用できる。

Annotation is a major hurdle in the semantic segmentation of microscopy images and volumes due to its prerequisite expertise and effort. This work enables the training of semantic segmentation networks on images with only a single point for training per instance, an extreme case of weak supervision which drastically reduces the burden of annotation. Our approach has two key aspects: (1) we construct a graph-theoretic soft-segmentation using individual seeds to be used within a regularizer during training and (2) we use an objective function that enables learning from the constructed soft-labels. We achieve competitive results against the state-of-the-art in point-supervised semantic segmentation on challenging datasets in digital pathology. Finally, we scale our methodology to point-supervised segmentation in 3D fluorescence microscopy volumes, obviating the need for arduous manual volumetric delineation. Our code is freely available.
翻訳日:2021-03-10 14:53:31 公開日:2021-03-09
# 非定常線形バンドの再訪

Non-stationary Linear Bandits Revisited ( http://arxiv.org/abs/2103.05324v1 )

ライセンス: Link先を確認
Peng Zhao and Lijun Zhang(参考訳) 本稿では,時間変化に基づく回帰パラメータを持つ確率線形帯域の変種である非定常線形帯域を再検討する。 既存の研究は様々なアルゴリズムを開発し、進化した未知のパラメータの変動を測定するパス長である$T$(T^{2/3)(1+P_T)^{1/3})$ dynamic regret(英語版)を楽しんでいることを示す。 しかし、深刻な技術的欠陥が議論を根拠にしていることに気付く。 分析を再検討し、修正を加えます。 元のアルゴリズムを変更することなく、予想された速度よりもわずかに劣る$\widetilde{O}(T^{3/4)(1+P_T)^{1/4})$ dynamic regretを証明できる。 また,後悔分析の鍵となる量について,いくつかの予測不能な結果を示す。 上記の動的後悔の保証は、パス長$P_T$のオラクル知識を必要とすることに注意。 bandit-over-bandit機構を組み合わせることで、パラメータフリーな方法で同じ保証を実現できる。

In this note, we revisit non-stationary linear bandits, a variant of stochastic linear bandits with a time-varying underlying regression parameter. Existing studies develop various algorithms and show that they enjoy an $\widetilde{O}(T^{2/3}(1+P_T)^{1/3})$ dynamic regret, where $T$ is the time horizon and $P_T$ is the path-length that measures the fluctuation of the evolving unknown parameter. However, we discover that a serious technical flaw makes the argument ungrounded. We revisit the analysis and present a fix. Without modifying original algorithms, we can prove an $\widetilde{O}(T^{3/4}(1+P_T)^{1/4})$ dynamic regret for these algorithms, slightly worse than the rate as was anticipated. We also show some impossibility results for the key quantity concerned in the regret analysis. Note that the above dynamic regret guarantee requires an oracle knowledge of the path-length $P_T$. Combining the bandit-over-bandit mechanism, we can also achieve the same guarantee in a parameter-free way.
翻訳日:2021-03-10 14:53:16 公開日:2021-03-09
# 脳波及びfNIRSからの両手グリップ力の深部リアルタイム復号化

Deep Real-Time Decoding of bimanual grip force from EEG & fNIRS ( http://arxiv.org/abs/2103.05334v1 )

ライセンス: Link先を確認
Pablo Ortega, Tong Zhao and Aldo Faisal(参考訳) 非侵襲的脳-コンピューターインターフェイスは、侵襲的脳-コンピューターインターフェイス(bcis)と比較して、四肢運動とその力の皮質デコードにおいて、わずかに性能が向上しただけである。 非侵襲的手法はより安全で安価でアクセスしやすい技術であるが、信号は宇宙領域(EEG)または時間領域(機能的近赤外分光のBOLD信号、fNIRS)の低解像度に苦しむ。 両手力発生の非侵襲的BCIデコードと連続的な力信号は,これまで実現されていないので,このデコードを評価するため,等尺的グリップ力追跡タスクを導入する。 深層ニューラルネットワークを用いた脳波とfNIRSの組み合わせは, 左手と右手の連続グリップ力変調をデコードするために線形モデルよりも有効であることがわかった。 マルチモーダル深層学習デコーダは,55.2fvaf[%]の強制再構成を達成し,各モードに対するデコード性能を少なくとも15%向上させる。 以上の結果から,非侵襲的移動脳イメージングにより得られた皮質信号を用いた連続的な手力復号は,リハビリテーション,修復,消費者応用に直ちに影響を与えることが示唆された。

Non-invasive cortical neural interfaces have only achieved modest performance in cortical decoding of limb movements and their forces, compared to invasive brain-computer interfaces (BCIs). While non-invasive methodologies are safer, cheaper and vastly more accessible technologies, signals suffer from either poor resolution in the space domain (EEG) or the temporal domain (BOLD signal of functional Near Infrared Spectroscopy, fNIRS). The non-invasive BCI decoding of bimanual force generation and the continuous force signal has not been realised before and so we introduce an isometric grip force tracking task to evaluate the decoding. We find that combining EEG and fNIRS using deep neural networks works better than linear models to decode continuous grip force modulations produced by the left and the right hand. Our multi-modal deep learning decoder achieves 55.2 FVAF[%] in force reconstruction and improves the decoding performance by at least 15% over each individual modality. Our results show a way to achieve continuous hand force decoding using cortical signals obtained with non-invasive mobile brain imaging has immediate impact for rehabilitation, restoration and consumer applications.
翻訳日:2021-03-10 14:52:56 公開日:2021-03-09
# HemCNN:Deep LearningはハンドグリップモータータスクにおけるfNIRS皮質信号の復号を可能にする

HemCNN: Deep Learning enables decoding of fNIRS cortical signals in hand grip motor tasks ( http://arxiv.org/abs/2103.05338v1 )

ライセンス: Link先を確認
Pablo Ortega and Aldo Faisal(参考訳) 我々は、畳み込みニューラルネットワークアーキテクチャであるHemCNNを用いて、データ駆動アプローチを用いて、fNIRSの左/右辺のデコード問題を解く。 We test HemCNN's decoding capabilities to decode in a streaming way, left or right, from fNIRS data。 HemCNNは、どの手が$~1\,$Hzの自然主義的なハンドアクション速度で把握を実行し、標準の方法よりも優れたものを検出することを学びました。 HemCNNはベースラインの修正を必要としないため、畳み込み操作は時間翻訳に不変であるため、私たちの方法は様々なリアルタイムタスクのfNIRSのロック解除に役立ちます。 移動脳画像と移動脳マシンの対面は、実世界の神経科学と実践的な人間の神経インターフェースをBOLDのような信号に基づいて開発することで、fNIRSと脳波信号の融合などの力発生の評価、支援、リハビリを行うことができる。

We solve the fNIRS left/right hand force decoding problem using a data-driven approach by using a convolutional neural network architecture, the HemCNN. We test HemCNN's decoding capabilities to decode in a streaming way the hand, left or right, from fNIRS data. HemCNN learned to detect which hand executed a grasp at a naturalistic hand action speed of $~1\,$Hz, outperforming standard methods. Since HemCNN does not require baseline correction and the convolution operation is invariant to time translations, our method can help to unlock fNIRS for a variety of real-time tasks. Mobile brain imaging and mobile brain machine interfacing can benefit from this to develop real-world neuroscience and practical human neural interfacing based on BOLD-like signals for the evaluation, assistance and rehabilitation of force generation, such as fusion of fNIRS with EEG signals.
翻訳日:2021-03-10 14:52:34 公開日:2021-03-09
# ニューラルネットワークに基づく信頼できるプロセスイベントストリームと時系列データの生成

Generating Reliable Process Event Streams and Time Series Data based on Neural Networks ( http://arxiv.org/abs/2103.05462v1 )

ライセンス: Link先を確認
Tobias Herbert, Juergen Mangler, Stefanie Rinderle-Ma(参考訳) 製造や医療などの領域は、特にセンサーが生成する時系列と組み合わせて、プロセスの継続的な監視と分析に役立っている。 時系列データは、例えば、実行中のコンセプトドリフトの説明と予測に利用することができる。 一般に、意味のある分析結果を得るためには、あるデータボリュームが必要である。 しかし、新しいプロセスの場合、イベントストリームと時系列データが別々に収集されている場合、または十分なデータ量を得るために高価すぎる場合など、信頼できるデータセットが欠落していることが多い。 複数のイベントソースからの時系列データの作成、データ収集頻度の変動、コンセプトドリフトなど、新たな課題が発生します。 本稿では,基礎となる入力データセットの分布に従う信頼性のあるイベントおよび時系列データを生成するためのGENLOG手法を提案する。 GENLOGはデータ再サンプリングを採用し、ユーザはログデータのさまざまな部分を選択して、ストリーム生成のためにリカレントニューラルネットワークのトレーニングをオーケストレーションすることができる。 生成されたデータは、元のサンプルレートにサンプリングされ、元のログデータフォーマットを表すテンプレートに埋め込まれます。 全体として、genlogは小さなデータセットを増加させ、結果としてオンラインプロセスマイニングを応用できる。

Domains such as manufacturing and medicine crave for continuous monitoring and analysis of their processes, especially in combination with time series as produced by sensors. Time series data can be exploited to, for example, explain and predict concept drifts during runtime. Generally, a certain data volume is required in order to produce meaningful analysis results. However, reliable data sets are often missing, for example, if event streams and times series data are collected separately, in case of a new process, or if it is too expensive to obtain a sufficient data volume. Additional challenges arise with preparing time series data from multiple event sources, variations in data collection frequency, and concept drift. This paper proposes the GENLOG approach to generate reliable event and time series data that follows the distribution of the underlying input data set. GENLOG employs data resampling and enables the user to select different parts of the log data to orchestrate the training of a recurrent neural network for stream generation. The generated data is sampled back to its original sample rate and is embedded into a template representing the log data format it originated from. Overall, GENLOG can boost small data sets and consequently the application of online process mining.
翻訳日:2021-03-10 14:52:15 公開日:2021-03-09
# マルチモーダル特徴表現のための識別ベクトル枠組み

A Discriminative Vectorial Framework for Multi-modal Feature Representation ( http://arxiv.org/abs/2103.05597v1 )

ライセンス: Link先を確認
Lei Gao, and Ling Guan(参考訳) 感覚とコンピューティング技術の急速な進歩により、同じパターンや現象を表すマルチモーダルデータソースが注目を集めています。 その結果、これらのマルチモーダルデータソースから有用な情報を探索する手段が急速に求められている。 本稿では、マルチモーダルハッシュ(MH)と識別相関最大化(DCM)解析を用いて、知識発見におけるマルチモーダル特徴表現のための識別ベクトルフレームワークを提案する。 具体的には、MHにより異なるモダリティ間の意味的類似性を最小化し、DCM分析により複数のデータソースにまたがる固有識別表現を精度よく同定し、マルチモーダル特徴表現の新たなベクトル的フレームワークを実現する。 さらに,提案する特徴表現戦略を解析し,標準ケースと非標準ケースに基づいてさらに最適化する。 その結果、生成した特徴表現は、高品質な入力データソースを効果的に利用し、様々なアプリケーションで改善され、時には非常に印象的な結果をもたらす。 提案フレームワークの有効性と汎用性は,古典的特徴とディープニューラルネットワーク(DNN)に基づく特徴と,データ可視化,顔認識,オブジェクト認識,クロスモーダル(テキストイメージ)認識,音声感情認識など,画像およびマルチメディア分析および認識タスクへの応用によって実証される。 実験の結果,提案手法は最先端統計機械学習(SML)やDNNアルゴリズムよりも優れていることがわかった。

Due to the rapid advancements of sensory and computing technology, multi-modal data sources that represent the same pattern or phenomenon have attracted growing attention. As a result, finding means to explore useful information from these multi-modal data sources has quickly become a necessity. In this paper, a discriminative vectorial framework is proposed for multi-modal feature representation in knowledge discovery by employing multi-modal hashing (MH) and discriminative correlation maximization (DCM) analysis. Specifically, the proposed framework is capable of minimizing the semantic similarity among different modalities by MH and exacting intrinsic discriminative representations across multiple data sources by DCM analysis jointly, enabling a novel vectorial framework of multi-modal feature representation. Moreover, the proposed feature representation strategy is analyzed and further optimized based on canonical and non-canonical cases, respectively. Consequently, the generated feature representation leads to effective utilization of the input data sources of high quality, producing improved, sometimes quite impressive, results in various applications. The effectiveness and generality of the proposed framework are demonstrated by utilizing classical features and deep neural network (DNN) based features with applications to image and multimedia analysis and recognition tasks, including data visualization, face recognition, object recognition; cross-modal (text-image) recognition and audio emotion recognition. Experimental results show that the proposed solutions are superior to state-of-the-art statistical machine learning (SML) and DNN algorithms.
翻訳日:2021-03-10 14:51:56 公開日:2021-03-09
# 転送学習は二重日射正則化における真の優先度を上回る

Transfer Learning Can Outperform the True Prior in Double Descent Regularization ( http://arxiv.org/abs/2103.05621v1 )

ライセンス: Link先を確認
Yehuda Dar, Richard G. Baraniuk(参考訳) データサンプルよりも学習パラメータが多いオーバーパラメータ設定を含む、ソースからターゲットの線形回帰タスクへの基本的な転送学習プロセスを研究します。 目標タスク学習は、そのトレーニングデータと、ソースタスクのために予め計算されたパラメータを用いて対処される。 対象タスクを, to-be-learnedターゲットパラメータと既に学習済みソースパラメータ間の距離を正規化した線形回帰最適化として定義する。 このアプローチは、対象タスクの目的のために学習したソースパラメータを調整したものと解釈することもでき、十分に関連するタスクの場合、このプロセスは微調整と見なすことができる。 転送学習手法の一般化性能を解析的に解析し、最小二乗回帰に対するマイナスノルム解の二重降下現象における一般化誤差のピークを解く能力を示す。 さらに、十分関連するタスクに対して、真のパラメータベクトルが等方的ガウス分布に適合する場合でも、最適に調整された転送学習アプローチが最適に調整されたリッジ回帰法より優れていることを示す。 すなわち、転送学習が個々のターゲットタスクの最小平均平方誤差(MMSE)ソリューションを破ることができることを実証する。

We study a fundamental transfer learning process from source to target linear regression tasks, including overparameterized settings where there are more learned parameters than data samples. The target task learning is addressed by using its training data together with the parameters previously computed for the source task. We define the target task as a linear regression optimization with a regularization on the distance between the to-be-learned target parameters and the already-learned source parameters. This approach can be also interpreted as adjusting the previously learned source parameters for the purpose of the target task, and in the case of sufficiently related tasks this process can be perceived as fine tuning. We analytically characterize the generalization performance of our transfer learning approach and demonstrate its ability to resolve the peak in generalization errors in double descent phenomena of min-norm solutions to ordinary least squares regression. Moreover, we show that for sufficiently related tasks the optimally tuned transfer learning approach can outperform the optimally tuned ridge regression method, even when the true parameter vector conforms with isotropic Gaussian prior distribution. Namely, we demonstrate that transfer learning can beat the minimum mean square error (MMSE) solution of the individual target task.
翻訳日:2021-03-10 14:51:31 公開日:2021-03-09
# サービスロボットのためのスカベンジャーハント

A Scavenger Hunt for Service Robots ( http://arxiv.org/abs/2103.05225v1 )

ライセンス: Link先を確認
Harel Yedidsion, Jennifer Suriadinata, Zifan Xu, Stefan Debruyn, Peter Stone(参考訳) 人間人口の多い環境で汎用的なサービスタスクをこなせるロボットを作ることは、AIとロボティクス研究にとって長年大きな課題だった。 さまざまなタスクに関連する特に貴重なスキルの1つは、リクエストに応じてオブジェクトを見つけて取得する機能です。 本稿では,このスキルをScavenger Hunt (SH)ゲームとしてモデル化し,NP型確率的旅行購入問題の変種として定式化する。 この問題では、目的は、発見される可能性のある確率分布を考えると、できるだけ迅速にオブジェクトの集合を見つけることである。 シミュレーションと実際の移動ロボットにおけるSH問題に対するいくつかの解法アルゴリズムの性能について検討する。 Reinforcement Learning(RL)を使用してエージェントをトレーニングして最小限のコストパスを計画し、RLエージェントがさまざまなヒューリスティックアルゴリズムを上回り、最適なパフォーマンスを達成できることを示します。 そこで,本研究では,ロボットがダウンロードし,実行し,そこから学び,将来的なハントにおけるパフォーマンスを継続的に向上させることのできる,スキャベンジャーハントをアップロード可能な,公開可能なソフトウェアスタックと関連Webサイトを紹介した。

Creating robots that can perform general-purpose service tasks in a human-populated environment has been a longstanding grand challenge for AI and Robotics research. One particularly valuable skill that is relevant to a wide variety of tasks is the ability to locate and retrieve objects upon request. This paper models this skill as a Scavenger Hunt (SH) game, which we formulate as a variation of the NP-hard stochastic traveling purchaser problem. In this problem, the goal is to find a set of objects as quickly as possible, given probability distributions of where they may be found. We investigate the performance of several solution algorithms for the SH problem, both in simulation and on a real mobile robot. We use Reinforcement Learning (RL) to train an agent to plan a minimal cost path, and show that the RL agent can outperform a range of heuristic algorithms, achieving near optimal performance. In order to stimulate research on this problem, we introduce a publicly available software stack and associated website that enable users to upload scavenger hunts which robots can download, perform, and learn from to continually improve their performance on future hunts.
翻訳日:2021-03-10 14:51:09 公開日:2021-03-09
# 透過的なSwarm行動学習のためのモデルベースフレームワーク

A model-based framework for learning transparent swarm behaviors ( http://arxiv.org/abs/2103.05343v1 )

ライセンス: Link先を確認
Mario Coppola, Jian Guo, Eberhard Gill, Guido C. H. E. de Croon(参考訳) 本稿では,ロボット群に対する理解可能かつ検証可能な行動を自動的に設計するモデルベースフレームワークを提案する。 このフレームワークは、2つの異なるモデルの自動抽出に基づいている: 1) ロボットのセンサ読み込みとスワムのグローバルパフォーマンスの関係を推定するために訓練されたニューラルネットワークモデル、2) ポリシーが与えられたとき、局所状態遷移を明示的にモデル化する確率的状態遷移モデル(すなわち、swarm内の1つのロボットの観点から観察中の遷移)である。 モデルは、ランダムポリシーを特徴とするシミュレーション実行のデータセットからトレーニングすることができる。 第1のモデルは、グローバルパフォーマンスを最大化することが期待される一連のローカル状態を自動的に抽出するために使用される。 これらの地方州は所望の地方州と呼ばれる。 第2のモデルは、群れ内のロボットが所望の局所状態の1つを観察する確率を高めるために確率的政策を最適化するために使用されます。 これらの手順に従って,本論文で提案するフレームワークは,効率的なコントローラの実現に有効である。 これは4つのケーススタディでテストされ、アグリゲーションとフォージングタスクが特徴である。 重要なことに、このフレームワークはモデルのおかげで、Swarmの振る舞いを理解し、検査することができます。 そこで本研究では,swarmが望ましいグローバル目標を達成するのを妨げる可能性のある問題を特定するための検証チェックを提案する。 さらに、このフレームワークが「標準的な」進化型ロボティクス戦略(例えば、シミュレーションによってパフォーマンスを計測する)やオンライン学習と組み合わせてどのように使用できるかを検討する。

This paper proposes a model-based framework to automatically and efficiently design understandable and verifiable behaviors for swarms of robots. The framework is based on the automatic extraction of two distinct models: 1) a neural network model trained to estimate the relationship between the robots' sensor readings and the global performance of the swarm, and 2) a probabilistic state transition model that explicitly models the local state transitions (i.e., transitions in observations from the perspective of a single robot in the swarm) given a policy. The models can be trained from a data set of simulated runs featuring random policies. The first model is used to automatically extract a set of local states that are expected to maximize the global performance. These local states are referred to as desired local states. The second model is used to optimize a stochastic policy so as to increase the probability that the robots in the swarm observe one of the desired local states. Following these steps, the framework proposed in this paper can efficiently lead to effective controllers. This is tested on four case studies, featuring aggregation and foraging tasks. Importantly, thanks to the models, the framework allows us to understand and inspect a swarm's behavior. To this end, we propose verification checks to identify some potential issues that may prevent the swarm from achieving the desired global objective. In addition, we explore how the framework can be used in combination with a "standard" evolutionary robotics strategy (i.e., where performance is measured via simulation), or with online learning.
翻訳日:2021-03-10 14:50:49 公開日:2021-03-09
# I am Robot:機能的電気刺激によるヒト肢の活性化のための神経筋強化学習

I am Robot: Neuromuscular Reinforcement Learning to Actuate Human Limbs through Functional Electrical Stimulation ( http://arxiv.org/abs/2103.05349v1 )

ライセンス: Link先を確認
Nat Wannawas, Ali Shafti, A. Aldo Faisal(参考訳) 人間の運動障害や麻痺は、筋肉の活性化と運動制御の制御の喪失につながります。 機能電気刺激(FES)は筋肉の上の皮を刺激することによって筋肉を収縮させる確立された、安全な技術です。 しかし、FESを介して運動能力を人間の手足に復元する方法に関するオープンな課題は未だに残っており、刺激を制御する問題は不明である。 究極のヒューマノイドロボットである人体を電気筋肉刺激で制御するロボット学習アルゴリズムを開発することで、この問題をロボティクスの視点から捉えています。 人間の筋肉は疲労および他の内部状態の変更の結果として非定常である力の生産が原因でアクチュエーターとして制御することは自明ではないです広い操作範囲上のよく理解され、定常であるロボットアクチュエーターとは対照的に。 本研究では, 動的状態表現のための繰り返しニューラルネットワークを用いて, 外部刺激下でのヒト筋の挙動の観察不能な要素を克服するために, 筋のfes制御に対する深層強化学習アプローチを提案する。 本技術は神経筋シミュレーションでも人体でも実験的に実証する。 以上の結果から,本制御器は筋力操作を学習でき,与えられた課題を達成するために適切なレベルの刺激を施し,作業中に生じる筋疲労の進行を補償できることがわかった。 さらに、私たちのテクニックは、実世界のヒューマンインザループ設定で実装できるほど迅速に学習できます。

Human movement disorders or paralysis lead to the loss of control of muscle activation and thus motor control. Functional Electrical Stimulation (FES) is an established and safe technique for contracting muscles by stimulating the skin above a muscle to induce its contraction. However, an open challenge remains on how to restore motor abilities to human limbs through FES, as the problem of controlling the stimulation is unclear. We are taking a robotics perspective on this problem, by developing robot learning algorithms that control the ultimate humanoid robot, the human body, through electrical muscle stimulation. Human muscles are not trivial to control as actuators due to their force production being non-stationary as a result of fatigue and other internal state changes, in contrast to robot actuators which are well-understood and stationary over broad operation ranges. We present our Deep Reinforcement Learning approach to the control of human muscles with FES, using a recurrent neural network for dynamic state representation, to overcome the unobserved elements of the behaviour of human muscles under external stimulation. We demonstrate our technique both in neuromuscular simulations but also experimentally on a human. Our results show that our controller can learn to manipulate human muscles, applying appropriate levels of stimulation to achieve the given tasks while compensating for advancing muscle fatigue which arises throughout the tasks. Additionally, our technique can learn quickly enough to be implemented in real-world human-in-the-loop settings.
翻訳日:2021-03-10 14:50:24 公開日:2021-03-09
# 人工知能が嘘をつくのはいつですか? 信頼に基づくアプローチ

When is it permissible for artificial intelligence to lie? A trust-based approach ( http://arxiv.org/abs/2103.05434v1 )

ライセンス: Link先を確認
Tae Wan Kim, Tong (Joy) Lu, Kyusong Lee, Zhaoqi Cheng, Yanhan Tang, and John Hooker(参考訳) 産業環境で使用される会話人工知能(AI)は、嘘や騙しなど人間の振る舞いを忠実に模倣するように訓練することができる。 しかし、しばしば嘘は交渉の必要不可欠な部分である。 これを解決するために、特定のシナリオに「信頼の招待」と呼ばれるものが存在するかどうかに基づいて、会話型AIが人間に嘘をつくことが倫理的または非倫理的である場合の規範的枠組みを開発する。 重要なことは、文化規範は交渉設定に信頼の招待があるかどうかを決定する上で重要な役割を果たすため、ある文化で訓練されたAIは、他の文化に一般化できないかもしれない。 さらに、個人は、人間とAI交渉者に嘘をつくための信頼と傾向の招待に関して異なる期待を持っている可能性があり、これらの期待は文化にも異なる可能性があります。 最後に、対話型チャットボットを大規模ダイアログや交渉データセットに自動回帰モデルを適用することで、倫理的に交渉できるようにトレーニングする方法を概説します。

Conversational Artificial Intelligence (AI) used in industry settings can be trained to closely mimic human behaviors, including lying and deception. However, lying is often a necessary part of negotiation. To address this, we develop a normative framework for when it is ethical or unethical for a conversational AI to lie to humans, based on whether there is what we call "invitation of trust" in a particular scenario. Importantly, cultural norms play an important role in determining whether there is invitation of trust across negotiation settings, and thus an AI trained in one culture may not be generalizable to others. Moreover, individuals may have different expectations regarding the invitation of trust and propensity to lie for human vs. AI negotiators, and these expectations may vary across cultures as well. Finally, we outline how a conversational chatbot can be trained to negotiate ethically by applying autoregressive models to large dialog and negotiations datasets.
翻訳日:2021-03-10 14:50:01 公開日:2021-03-09
# 確率非線形モデル予測制御のためのガウス過程と多項式カオス展開の組み合わせ

Combining Gaussian processes and polynomial chaos expansions for stochastic nonlinear model predictive control ( http://arxiv.org/abs/2103.05441v1 )

ライセンス: Link先を確認
E. Bradford and L. Imsland(参考訳) モデル予測制御は、制約のある多変数システムに対する高度な制御アプローチであり、正確な動的モデルに依存する。 しかし、ほとんどの実際の動的モデルは不確実性に影響され、クローズドループのパフォーマンス低下と制約違反につながる可能性がある。 本稿では,最適制御問題の時間不変確率的不確かさを明示的に考慮する新しいアルゴリズムを提案する。 非線形関数による確率変数の伝播の難しさは、ガウス過程と多項式カオス展開を組み合わせることで解決される。 本稿では, 非線形変換の平均および分散推定値を得るために, この組み合わせを効率的に利用することを提案する。 このアルゴリズムを用いて、最適制御問題に対する確率制約と確率的目的の両方を定式化する方法を示す。 バッチリアクターケーススタディでは、まず、必要な確率分布を正確に近似する新しいアプローチの能力を検証します。 次に,モンテカルロシミュレーションによる閉ループ性能を実証する経済的な目的から,確率的非線形モデル予測制御手法を定式化した。

Model predictive control is an advanced control approach for multivariable systems with constraints, which is reliant on an accurate dynamic model. Most real dynamic models are however affected by uncertainties, which can lead to closed-loop performance deterioration and constraint violations. In this paper we introduce a new algorithm to explicitly consider time-invariant stochastic uncertainties in optimal control problems. The difficulty of propagating stochastic variables through nonlinear functions is dealt with by combining Gaussian processes with polynomial chaos expansions. The main novelty in this paper is to use this combination in an efficient fashion to obtain mean and variance estimates of nonlinear transformations. Using this algorithm, it is shown how to formulate both chance-constraints and a probabilistic objective for the optimal control problem. On a batch reactor case study we firstly verify the ability of the new approach to accurately approximate the probability distributions required. Secondly, a tractable stochastic nonlinear model predictive control approach is formulated with an economic objective to demonstrate the closed-loop performance of the method via Monte Carlo simulations.
翻訳日:2021-03-10 14:48:59 公開日:2021-03-09
# ユニバーサルアンダーサンプルMRI再構成

Universal Undersampled MRI Reconstruction ( http://arxiv.org/abs/2103.05214v1 )

ライセンス: Link先を確認
Xinwen Liu, Jing Wang, Feng Liu, and S.Kevin Zhou(参考訳) 深部ニューラルネットワークは、下検体MRI再建のために広く研究されている。 最先端のパフォーマンスを達成する一方で、特定の解剖学を訓練し、他の解剖学に限定した一般化能力を持つ解剖学に展開する。 複数のモデルを構築するのではなく、異なる解剖学の画像を再構築する普遍的なモデルは、効率的な展開とより良い一般化のために非常に望ましいです。 単一のネットワークをトレーニングするための複数の解剖学からの画像を単純に混合することは、さまざまな解剖学のデータセット間の統計的シフト、新しいデータセットの追加によるすべてのデータセットのスクラッチから再トレーニングの必要性、新しいデータセットがさらに小さなサイズである場合に不均衡なサンプリングを扱うことの難しさによる理想的な普遍モデルにつながることはない。 本論文では,下検体MRI再構成のための普遍的深部ニューラルネットワークを学習する枠組みを初めて提案する。 具体的には、統計シフトを補償し、新しいデータセットに容易に一般化できる解剖学的特異なインスタンス正規化を提案する。 さらに、普遍モデルは、利用可能な独立したモデルから知識を蒸留し、解剖学的にまたがる表現をさらに活用することで訓練される。 実験の結果, 提案するユニバーサルモデルは, 高画質で脳と膝の画像を再構成できることがわかった。 また、トレーニングされたモデルをより小さなサイズ、すなわち腹部、心臓、前立腺といった新しいデータセットに、少ない努力と優れたパフォーマンスで適応することは容易である。

Deep neural networks have been extensively studied for undersampled MRI reconstruction. While achieving state-of-the-art performance, they are trained and deployed specifically for one anatomy with limited generalization ability to another anatomy. Rather than building multiple models, a universal model that reconstructs images across different anatomies is highly desirable for efficient deployment and better generalization. Simply mixing images from multiple anatomies for training a single network does not lead to an ideal universal model due to the statistical shift among datasets of various anatomies, the need to retrain from scratch on all datasets with the addition of a new dataset, and the difficulty in dealing with imbalanced sampling when the new dataset is further of a smaller size. In this paper, for the first time, we propose a framework to learn a universal deep neural network for undersampled MRI reconstruction. Specifically, anatomy-specific instance normalization is proposed to compensate for statistical shift and allow easy generalization to new datasets. Moreover, the universal model is trained by distilling knowledge from available independent models to further exploit representations across anatomies. Experimental results show the proposed universal model can reconstruct both brain and knee images with high image quality. Also, it is easy to adapt the trained model to new datasets of smaller size, i.e., abdomen, cardiac and prostate, with little effort and superior performance.
翻訳日:2021-03-10 14:48:14 公開日:2021-03-09
# 2Dヒストロジーと3Dトポロジー--グラフニューラルネットワークを用いた細胞構造的脳マッピング

2D histology meets 3D topology: Cytoarchitectonic brain mapping with Graph Neural Networks ( http://arxiv.org/abs/2103.05259v1 )

ライセンス: Link先を確認
Christian Schiffer, Stefan Harmeling, Katrin Amunts, Timo Dickscheid(参考訳) 細胞アーキテクチャ(Cytoarchitecture)は、脳内の神経細胞の空間構成を記述し、細胞密度、オリエンテーション、または特定の細胞型の存在に関する層および列の配置を含む。 これは、脳を皮質領域および皮質核に分離し、構造を接続性と機能と結びつけ、人間の脳のアトラスの微細構造参照を提供する。 領域間の領域のマッピングは、顕微鏡で組織学的領域をスキャンする必要がある。 最近の高スループットスキャナは人間の脳全体を1年単位でスキャンできるが、確立された金標準法を用いて同じペースで領域を並べ替えることは事実上不可能である。 研究者は最近、個々の2Dセクションのイメージパッチに頼って、深層ニューラルネットワークを用いた皮質領域の細胞構造的マッピングに取り組みました。 しかし、複雑または斜めに切断された脳領域を曖昧にするために必要な3Dコンテキストは考慮されません。 本研究では,2次元ヒストロジーと3次元トポロジーを結合し,等角線を経由する近似3次元中面メッシュ上のノード分類問題としてマッピングタスクを再構成する。 細胞構造を記述した2次元組織学セクションの皮質パッチから深い特徴を抽出し,それを3次元メッシュ上の対応するノードに割り当て,大きな帰結グラフを構築する。 このグラフ上の脳マッピング問題をグラフニューラルネットワークで解くことで、分類結果を大幅に改善しました。 提案されたフレームワークは、マッピングのための追加の神経解剖学の優先順位の統合にうまく機能する。

Cytoarchitecture describes the spatial organization of neuronal cells in the brain, including their arrangement into layers and columns with respect to cell density, orientation, or presence of certain cell types. It allows to segregate the brain into cortical areas and subcortical nuclei, links structure with connectivity and function, and provides a microstructural reference for human brain atlases. Mapping boundaries between areas requires to scan histological sections at microscopic resolution. While recent high-throughput scanners allow to scan a complete human brain in the order of a year, it is practically impossible to delineate regions at the same pace using the established gold standard method. Researchers have recently addressed cytoarchitectonic mapping of cortical regions with deep neural networks, relying on image patches from individual 2D sections for classification. However, the 3D context, which is needed to disambiguate complex or obliquely cut brain regions, is not taken into account. In this work, we combine 2D histology with 3D topology by reformulating the mapping task as a node classification problem on an approximate 3D midsurface mesh through the isocortex. We extract deep features from cortical patches in 2D histological sections which are descriptive of cytoarchitecture, and assign them to the corresponding nodes on the 3D mesh to construct a large attributed graph. By solving the brain mapping problem on this graph using graph neural networks, we obtain significantly improved classification results. The proposed framework lends itself nicely to integration of additional neuroanatomical priors for mapping.
翻訳日:2021-03-10 14:47:52 公開日:2021-03-09
# MWQ:マルチスケールウェーブレット量子化ニューラルネットワーク

MWQ: Multiscale Wavelet Quantized Neural Networks ( http://arxiv.org/abs/2103.05363v1 )

ライセンス: Link先を確認
Qigong Sun, Yan Ren, Licheng Jiao, Xiufang Li, Fanhua Shang, Fang Liu(参考訳) モデル量子化はモデルサイズと計算遅延を低減し、リソース制約のあるハードウェア(携帯電話や組み込みデバイスなど)にディープニューラルネットワークを配置する上で重要な技術となっている。 既存の量子化法は主に重みとアクティベーション値の数値要素を考慮し、要素間の関係を無視している。 表現能力の低下と情報損失は通常、パフォーマンスの低下につながります。 周波数領域における画像の特性にインスパイアされた,新しいマルチスケールウェーブレット量子化(MWQ)法を提案する。 この方法はウェーブレット変換により元のデータをマルチスケールの周波数成分に分解し,それぞれ異なるスケールの成分を定量化する。 空間領域における量子化による情報損失を軽減するために、マルチスケールの周波数と空間情報を利用する。 MWQの柔軟性により、ImageNetおよびCOCOデータセットの3つのアプリケーション(モデル圧縮、量子化されたネットワーク最適化、情報強化など)を実証しています。 実験の結果,提案手法は表現能力が強く,量子化ニューラルネットワークにおいて有効に機能することが示された。

Model quantization can reduce the model size and computational latency, it has become an essential technique for the deployment of deep neural networks on resourceconstrained hardware (e.g., mobile phones and embedded devices). The existing quantization methods mainly consider the numerical elements of the weights and activation values, ignoring the relationship between elements. The decline of representation ability and information loss usually lead to the performance degradation. Inspired by the characteristics of images in the frequency domain, we propose a novel multiscale wavelet quantization (MWQ) method. This method decomposes original data into multiscale frequency components by wavelet transform, and then quantizes the components of different scales, respectively. It exploits the multiscale frequency and spatial information to alleviate the information loss caused by quantization in the spatial domain. Because of the flexibility of MWQ, we demonstrate three applications (e.g., model compression, quantized network optimization, and information enhancement) on the ImageNet and COCO datasets. Experimental results show that our method has stronger representation ability and can play an effective role in quantized neural networks.
翻訳日:2021-03-10 14:47:26 公開日:2021-03-09
# バイオメディカルイメージングにおける深部・統計的学習 : 3次元MRI脳腫瘍分離術の現状

Deep and Statistical Learning in Biomedical Imaging: State of the Art in 3D MRI Brain Tumor Segmentation ( http://arxiv.org/abs/2103.05529v1 )

ライセンス: Link先を確認
K. Ruwani M. Fernando and Chris P. Tsokos(参考訳) 臨床診断と治療の決定は、患者固有のデータと臨床推論の統合に依存する。 がんは、疾患の進化の多様な形態を考えると、治療決定に影響を与える独自の文脈を示す。 バイオメディカルイメージングは、より良い臨床結果予測と治療計画につながる視覚評価に基づく疾患の非侵襲的評価を可能にする。 初期の脳癌の診断方法は、主に神経画像データの統計モデルに依存していた。 コンピュータビジョンのブレークスルーによって駆動されるディープラーニングは、医療画像の領域における事実上の標準となった。 近年,医学・統計・人工知能における多分野の知識を統一する医療実践の自動化の新たな方向として,総合統計・深層学習法が登場している。 本研究では,MRIを用いた脳腫瘍のセグメント化に着目し,統計・深層学習モデルとその脳画像研究への応用を批判的にレビューする。 その結果、モデル駆動の古典統計とデータ駆動のディープラーニングは、臨床腫瘍学における自動化システムを開発するための強力な組み合わせであることを強調した。

Clinical diagnostic and treatment decisions rely upon the integration of patient-specific data with clinical reasoning. Cancer presents a unique context that influence treatment decisions, given its diverse forms of disease evolution. Biomedical imaging allows noninvasive assessment of disease based on visual evaluations leading to better clinical outcome prediction and therapeutic planning. Early methods of brain cancer characterization predominantly relied upon statistical modeling of neuroimaging data. Driven by the breakthroughs in computer vision, deep learning became the de facto standard in the domain of medical imaging. Integrated statistical and deep learning methods have recently emerged as a new direction in the automation of the medical practice unifying multi-disciplinary knowledge in medicine, statistics, and artificial intelligence. In this study, we critically review major statistical and deep learning models and their applications in brain imaging research with a focus on MRI-based brain tumor segmentation. The results do highlight that model-driven classical statistics and data-driven deep learning is a potent combination for developing automated systems in clinical oncology.
翻訳日:2021-03-10 14:46:41 公開日:2021-03-09
# CTによるマルチクラスCOVID-19セグメンテーションのための4重強化ピラミッドネットワーク

Quadruple Augmented Pyramid Network for Multi-class COVID-19 Segmentation via CT ( http://arxiv.org/abs/2103.05546v1 )

ライセンス: Link先を確認
Ziyang Wang(参考訳) 新型コロナウイルス(COVID-19)は、世界で最も深刻な感染症の1つとなっています。 胸部CTは予後, この疾患の診断, 合併症の診断に必須である。 本稿では,放射線科医が肺の容積を推定するためのマルチクラスctセグメンテーションを提案する。 4つのピラミッドネットワークをエンコーダデコーダセグメンテーションフレームワークで利用した。 QAP-Net(Quadruple Augmented Pyramid Network)は、CT画像の変動サイズからCNNをキャプチャできるだけでなく、空間的相互接続やダウンサンプリングとして機能し、セマンティックセグメンテーションに十分な特徴情報を伝達する。 実験結果から,他の最先端手法よりも優れたDice 0.8163のセグメンテーションの競争性能が得られ,このフレームワークは,ガラスや接地部などのセグメンテーションのセグメンテーションを効率よく精度良く行うことができることを示した。

COVID-19, a new strain of coronavirus disease, has been one of the most serious and infectious disease in the world. Chest CT is essential in prognostication, diagnosing this disease, and assessing the complication. In this paper, a multi-class COVID-19 CT segmentation is proposed aiming at helping radiologists estimate the extent of effected lung volume. We utilized four augmented pyramid networks on an encoder-decoder segmentation framework. Quadruple Augmented Pyramid Network (QAP-Net) not only enable CNN capture features from variation size of CT images, but also act as spatial interconnections and down-sampling to transfer sufficient feature information for semantic segmentation. Experimental results achieve competitive performance in segmentation with the Dice of 0.8163, which outperforms other state-of-the-art methods, demonstrating the proposed framework can segments of consolidation as well as glass, ground area via COVID-19 chest CT efficiently and accurately.
翻訳日:2021-03-10 14:46:28 公開日:2021-03-09
# スクラッチからサッカーを学ぶ:カリキュラム学習と競争による有効創発的コーディネーション

Learning to Play Soccer From Scratch: Sample-Efficient Emergent Coordination through Curriculum-Learning and Competition ( http://arxiv.org/abs/2103.05174v1 )

ライセンス: Link先を確認
Pavan Samtani, Francisco Leiva, Javier Ruiz-del-Solar(参考訳) 本研究では,2v2サッカーに適用した複雑なマルチエージェント動作を効率的に学習する手法を提案する。 この問題はマルコフゲームとして定式化され、深層強化学習を用いて解決される。 各プレイヤーのポリシーを分散的に学習するためのTD3の基本的なマルチエージェント拡張を提案する。 学習を容易にするため、2v2サッカーの課題は1v0、1v1、2v2の3段階に分けられる。 多エージェント段階(1v1と2v2)での学習プロセスでは、前段階で訓練されたエージェントを固定的な相手として使用する。 また,現在学習中のエージェントをトレーニングするために,前段階からトレーニングを受けた固定相手からの体験を共有する方法であるexperience sharingと,フレームスキップ方式を用いることにより,パフォーマンスを著しく向上させる。 この結果から, サッカーの高品質なプレーは40M未満のインタラクションで実現できることが示された。 ゲームプレイの要約ビデオはhttps://youtu.be/f25 l1j1U9RMで見ることができる。

This work proposes a scheme that allows learning complex multi-agent behaviors in a sample efficient manner, applied to 2v2 soccer. The problem is formulated as a Markov game, and solved using deep reinforcement learning. We propose a basic multi-agent extension of TD3 for learning the policy of each player, in a decentralized manner. To ease learning, the task of 2v2 soccer is divided in three stages: 1v0, 1v1 and 2v2. The process of learning in multi-agent stages (1v1 and 2v2) uses agents trained on a previous stage as fixed opponents. In addition, we propose using experience sharing, a method that shares experience from a fixed opponent, trained in a previous stage, for training the agent currently learning, and a form of frame-skipping, to raise performance significantly. Our results show that high quality soccer play can be obtained with our approach in just under 40M interactions. A summarized video of the resulting game play can be found in https://youtu.be/f25 l1j1U9RM.
翻訳日:2021-03-10 14:45:30 公開日:2021-03-09
# 分散クラウドアプリケーションにおける依存関係の学習と異常の特定とローカライズ

Learning Dependencies in Distributed Cloud Applications to Identify and Localize Anomalies ( http://arxiv.org/abs/2103.05245v1 )

ライセンス: Link先を確認
Dominik Scheinert, Alexander Acker, Lauritz Thamsen, Morgan K. Geldenhuys, Odej Kao(参考訳) 大規模な分散クラウドアプリケーションの運用とメンテナンスは、すぐに管理不能に複雑になり、問題が発生したときに人間のオペレータが大きなストレスにさらされます。 このようなシステムにおける異常の識別と局在化に機械学習を利用することは、人間の専門家をサポートし、迅速な緩和を可能にします。 しかしながら、システムコンポーネントのさまざまな相互依存のため、異常はその起源に影響を与えるだけでなく、分散システムを通じて伝播する。 そこで本研究では,システムコンポーネントをノードとしてモデル化し,その依存関係と配置をエッジとしてモデル化し,異常の識別と局在性を改善するニューラルネットワーク変換手法であるArvalusとその変種であるD-Arvalusを提案する。 一連のメトリクスKPIを考えると、私たちの方法は最も可能性の高いシステム状態 - 正常または異常クラス - を予測し、異常が検出されたときにローカライズを行います。 実験では、分散クラウドアプリケーションのデプロイをシミュレートし、異常を合成的に注入する。 この評価は、一般にArvalusの良好な予測性能を示し、システムコンポーネント依存性に関する情報を組み込んだD-Arvalusの利点を明らかにします。

Operation and maintenance of large distributed cloud applications can quickly become unmanageably complex, putting human operators under immense stress when problems occur. Utilizing machine learning for identification and localization of anomalies in such systems supports human experts and enables fast mitigation. However, due to the various inter-dependencies of system components, anomalies do not only affect their origin but propagate through the distributed system. Taking this into account, we present Arvalus and its variant D-Arvalus, a neural graph transformation method that models system components as nodes and their dependencies and placement as edges to improve the identification and localization of anomalies. Given a series of metric KPIs, our method predicts the most likely system state - either normal or an anomaly class - and performs localization when an anomaly is detected. During our experiments, we simulate a distributed cloud application deployment and synthetically inject anomalies. The evaluation shows the generally good prediction performance of Arvalus and reveals the advantage of D-Arvalus which incorporates information about system component dependencies.
翻訳日:2021-03-10 14:45:12 公開日:2021-03-09
# 長軸ロボットマニピュレーションの延長課題と運動計画

Extended Task and Motion Planning of Long-horizon Robot Manipulation ( http://arxiv.org/abs/2103.05456v1 )

ライセンス: Link先を確認
Tianyu Ren, Georgia Chalvatzaki, Jan Peters(参考訳) タスク・アンド・モーション・プランニング(TAMP)は、ロボットの行動の幾何学的実現可能性を説明するメートル法運動計画とシンボリック・推論の統合を必要とする。 この階層構造は必然的に象徴的なプランナーが環境の低レベルの幾何学的記述にアクセスすることを防ぎ、問題の解決に不可欠である。 ほとんどのtampアプローチは、シンボリックレベルで環境に関する知識が欠けている場合、実現可能なソリューションを提供しない。 代替のハイレベルなプランを考案できないことは、既存のプランナーを行き詰まりに導く。 本稿では,計画骨格と行動パラメータに対する決定空間の拡張に関する新たな意思決定手法を提案する。 我々は,骨格計画立案者が様々な候補骨格計画を生成する明示的な骨格空間を構築するためのトップk計画を統合する。 さらに、このスケルトン空間と結果の運動パラメータ空間を1つの拡張決定空間に効果的に結合する。 そこで我々はモンテカルロ木探索 (mcts) を用いて各決定ノードの探索・探索バランスを確保し, 最小コストのソリューションをグローバルに最適化する。 シンボリックトップk計画とストリームのシームレスな組み合わせは、mctsの最適性が証明され、長いホリゾン操作タスクの組合せ複雑性を処理できる強力な計画アルゴリズムへと導かれる。 複数段階の意思決定を必要とする異なる領域の操作タスクに挑戦するアルゴリズムを実証的に評価し、最も競争の激しいベースライン手法と比較して、効果的な代替計画によってデッドエンドを克服する方法を示します。

Task and Motion Planning (TAMP) requires the integration of symbolic reasoning with metric motion planning that accounts for the robot's actions' geometric feasibility. This hierarchical structure inevitably prevents the symbolic planners from accessing the environment's low-level geometric description, vital to the problem's solution. Most TAMP approaches fail to provide feasible solutions when there is missing knowledge about the environment at the symbolic level. The incapability of devising alternative high-level plans leads existing planners to a dead end. We propose a novel approach for decision-making on extended decision spaces over plan skeletons and action parameters. We integrate top-k planning for constructing an explicit skeleton space, where a skeleton planner generates a variety of candidate skeleton plans. Moreover, we effectively combine this skeleton space with the resultant motion parameter spaces into a single extended decision space. Accordingly, we use Monte-Carlo Tree Search (MCTS) to ensure an exploration-exploita tion balance at each decision node and optimize globally to produce minimum-cost solutions. The proposed seamless combination of symbolic top-k planning with streams, with the proved optimality of MCTS, leads to a powerful planning algorithm that can handle the combinatorial complexity of long-horizon manipulation tasks. We empirically evaluate our proposed algorithm in challenging manipulation tasks with different domains that require multi-stage decisions and show how our method can overcome dead-ends through its effective alternate plans compared to its most competitive baseline method.
翻訳日:2021-03-10 14:44:54 公開日:2021-03-09
# 強みと弱みの異なる学習モデルの統合による記号統合

Symbolic integration by integrating learning models with different strengths and weaknesses ( http://arxiv.org/abs/2103.05497v1 )

ライセンス: Link先を確認
Hazumi Kubota, Yuta Tokuoka, Takahiro G. Yamada and Akira Funahashi(参考訳) 積分は、数学だけでなく、他の幅広い分野においても不可欠である。 深層学習法が最近開発され,これまでコンピュータに組み込まれていなかった数学的関数を統合できることが示されている。 しかし、この方法は統合を自然言語翻訳と同等のものとして扱い、数学的情報を反映しない。 本研究では,数理情報を考慮した学習モデルを調整し,数値演算の順序をより堅牢に学習する幅広い学習モデルを開発した。 この方法では、98.80%の正答率とシンボリック統合を達成し、既存の方法よりも高い率できました。 プリミティブ関数の微分が積分と一致しているかに基づいて積分の正しさを判定した。 この戦略に基づく統合モデルを構築することで、シンボリック統合による正解率99.79%を達成した。

Integration is indispensable, not only in mathematics, but also in a wide range of other fields. A deep learning method has recently been developed and shown to be capable of integrating mathematical functions that could not previously be integrated on a computer. However, that method treats integration as equivalent to natural language translation and does not reflect mathematical information. In this study, we adjusted the learning model to take mathematical information into account and developed a wide range of learning models that learn the order of numerical operations more robustly. In this way, we achieved a 98.80% correct answer rate with symbolic integration, a higher rate than that of any existing method. We judged the correctness of the integration based on whether the derivative of the primitive function was consistent with the integrand. By building an integrated model based on this strategy, we achieved a 99.79% rate of correct answers with symbolic integration.
翻訳日:2021-03-10 14:44:26 公開日:2021-03-09
# 効率的な収縮経路:最小MSEリスクの最大可能性

The Efficient Shrinkage Path: Maximum Likelihood of Minimum MSE Risk ( http://arxiv.org/abs/2103.05161v1 )

ライセンス: Link先を確認
Robert L. Obenchain(参考訳) 正規分布理論の下での最適分散バイアストレードオフとなる回帰係数推定器のベクトルを通らなければならないという制限の下で可能な限り短い新しい一般化リッジ回帰収縮経路を提案する。 この効率的な経路のための5つの異なるリッジTRACEディスプレイと他のグラフィックがモチベーションされ、ここで説明されている。 これらの視覚化は、不適切なデータに線形モデルを適用する研究者やデータサイエンティストに、貴重なデータ分析の洞察を与え、自信を高める。

A new generalized ridge regression shrinkage path is proposed that is as short as possible under the restriction that it must pass through the vector of regression coefficient estimators that make the overall Optimal Variance-Bias Trade-Off under Normal distribution-theory. Five distinct types of ridge TRACE displays and other graphics for this efficient path are motivated and illustrated here. These visualizations provide invaluable data-analytic insights and improved self-confidence to researchers and data scientists fitting linear models to ill-conditioned (confounded) data.
翻訳日:2021-03-10 14:44:13 公開日:2021-03-09
# 自励・抑制を伴うホークス過程の最大確率推定

Maximum Likelihood Estimation for Hawkes Processes with self-excitation or inhibition ( http://arxiv.org/abs/2103.05299v1 )

ライセンス: Link先を確認
Anna Bonnet (LPSM), Miguel Herrera (LPSM), Maxime Sangnier (LPSM)(参考訳) 本稿では,単変量ホークス過程のパラメータを自己励磁や抑制によって推定する最大推定法を提案する。 我々の研究は、自己励ましのシナリオに制限されたテクニックと結果を一般化する。 提案手法は,古典的指数関数カーネルに対して実装され,抑制条件下では,現在の代替手法よりも高精度な推定が可能であることを示す。

In this paper, we present a maximum likelihood method for estimating the parameters of a univariate Hawkes process with self-excitation or inhibition. Our work generalizes techniques and results that were restricted to the self-exciting scenario. The proposed estimator is implemented for the classical exponential kernel and we show that, in the inhibition context, our procedure provides more accurate estimations than current alternative approaches.
翻訳日:2021-03-10 14:44:04 公開日:2021-03-09
# 教師なし機械学習によるコロナ加熱の探索

Exploring Coronal Heating Using Unsupervised Machine-Learning ( http://arxiv.org/abs/2103.05371v1 )

ライセンス: Link先を確認
Shabbir Bawaji, Ujjaini Alam, Surajit Mondal and Divya Oberoi(参考訳) 太陽の可視円盤がわずか5800 Kである一方で、太陽の冠状温度を約100万Kに保つかという複雑な謎は、太陽物理学において長年の課題となっています。 モンダル(2020)による最近の研究は、この謎を解決するための鍵を握ることができる静かな太陽地域からの低い無線周波数で多数のユビキタス衝動放射の存在の最初の証拠を提供しました。 これらの特徴は、毎分約500イベントの割合で発生し、その強度はバックグラウンドの安定した放出のわずか数パーセントです。 冠状加熱問題に対するこの解決の可能性を探る次のステップの1つは、これらの放出の形態を理解することです。 この目的を達成するため,我々は,これらの衝撃的排出の形態を特徴付けるための教師なし機械学習手法に基づく手法を開発した。 そこで本研究では,70分間のデータにまたがる8000以上の画像に対して,約34,500個の特徴を2次元楕円ガウスとしてロバストに表現した。

The perplexing mystery of what maintains the solar coronal temperature at about a million K, while the visible disc of the Sun is only at 5800 K, has been a long standing problem in solar physics. A recent study by Mondal(2020) has provided the first evidence for the presence of numerous ubiquitous impulsive emissions at low radio frequencies from the quiet sun regions, which could hold the key to solving this mystery. These features occur at rates of about five hundred events per minute, and their strength is only a few percent of the background steady emission. One of the next steps for exploring the feasibility of this resolution to the coronal heating problem is to understand the morphology of these emissions. To meet this objective we have developed a technique based on an unsupervised machine learning approach for characterising the morphology of these impulsive emissions. Here we present the results of application of this technique to over 8000 images spanning 70 minutes of data in which about 34,500 features could robustly be characterised as 2D elliptical Gaussians.
翻訳日:2021-03-10 14:43:57 公開日:2021-03-09
# GAN Vocoder: マルチリゾリューション判別器は必要なすべてです。

GAN Vocoder: Multi-Resolution Discriminator Is All You Need ( http://arxiv.org/abs/2103.05236v1 )

ライセンス: Link先を確認
Jaeseong You, Dalhyun Kim, Gyuhyeon Nam, Geumbyeol Hwang, Gyeongsu Chae(参考訳) 最新のGANベースのボコーダのいくつかは、高速なオーダーを合成しながら、定性的かつ定量的に自己回帰的かつフローベースの競合よりも優れたパフォーマンスを発揮している。 本研究では, アーキテクチャ, 損失関数, トレーニング戦略の微妙な詳細ではなく, マルチレゾリューション・差別化フレームワークが成功の根底にある共通の要因である,という仮説を立てる。 1つの共有マルチレゾリューション識別フレームワークとペアリングした6つの異なるジェネレータを評価して仮説を実験的に検証した。 テキスト音声合成およびすべての知覚的指標に関するすべての評価尺度において、それらの性能は、我々の仮説を支持する互いに区別できない。

Several of the latest GAN-based vocoders show remarkable achievements, outperforming autoregressive and flow-based competitors in both qualitative and quantitative measures while synthesizing orders of magnitude faster. In this work, we hypothesize that the common factor underlying their success is the multi-resolution discriminating framework, not the minute details in architecture, loss function, or training strategy. We experimentally test the hypothesis by evaluating six different generators paired with one shared multi-resolution discriminating framework. For all evaluative measures with respect to text-to-speech syntheses and for all perceptual metrics, their performances are not distinguishable from one another, which supports our hypothesis.
翻訳日:2021-03-10 14:43:22 公開日:2021-03-09
# Androidマルウェア防御のためのディープラーニング:システム文学のレビュー

Deep Learning for Android Malware Defenses: a Systematic Literature Review ( http://arxiv.org/abs/2103.05292v1 )

ライセンス: Link先を確認
Yue Liu, Chakkrit Tantithamthavorn, Li Li and Yepang Liu(参考訳) 悪意のあるアプリケーション(特にAndroidプラットフォーム)は、開発者やエンドユーザにとって深刻な脅威です。 そのため、多くの研究がAndroidマルウェアを保護する効果的なアプローチの開発に費やされている。 しかし、Androidマルウェアの爆発的な成長と難読化やリフレクションのような悪意ある回避技術の継続的な進歩により、手動のルールや従来の機械学習に基づくアンドロイドマルウェアの防御は、アプリオリの知識が限られているため効果がない可能性がある。 近年,強力な機能抽象化能力を持つディープラーニング(DL)の研究分野が,自然言語処理や画像処理など,様々な分野で有望かつ有望なパフォーマンスを示している。 この目的のために,Androidマルウェアの攻撃を防ぐためのディープラーニング技術が最近注目されている。 しかし、Androidマルウェア防御のためのディープラーニングアプローチに焦点を当てた体系的な文献レビューはありません。 本稿では,android環境におけるマルウェア防衛の文脈において,ディープラーニングアプローチがどのように適用されてきたのかを探索し,分析するための体系的文献レビューを行った。 その結果、2014-2020年の期間に合計104の研究が特定された。 調査の結果,これらの研究の多くはAndroidのマルウェア検出に基づくDLを主に検討しているが,35の初等研究 (33.7 %) は,他のシナリオに基づく防御アプローチを設計している。 本レビューでは,dlベースのandroidマルウェア防御における研究動向,研究焦点,課題,今後の研究方向についても述べる。

Malicious applications (especially in the Android platform) are a serious threat to developers and end-users. Many research efforts have hence been devoted to developing effective approaches to defend Android malware. However, with the explosive growth of Android malware and the continuous advancement of malicious evasion technologies like obfuscation and reflection, android malware defenses based on manual rules or traditional machine learning may not be effective due to limited apriori knowledge. In recent years, a dominant research field of deep learning (DL) with the powerful feature abstraction ability has demonstrated a compelling and promising performance in various fields, like Nature Language processing and image processing. To this end, employing deep learning techniques to thwart the attack of Android malware has recently gained considerable research attention. Yet, there exists no systematic literature review that focuses on deep learning approaches for Android Malware defenses. In this paper, we conducted a systematic literature review to search and analyze how deep learning approaches have been applied in the context of malware defenses in the Android environment. As a result, a total of 104 studies were identified over the period 2014-2020. The results of our investigation show that even though most of these studies still mainly consider DL-based on Android malware detection, 35 primary studies (33.7\%) design the defenses approaches based on other scenarios. This review also describes research trends, research focuses, challenges, and future research directions in DL-based Android malware defenses.
翻訳日:2021-03-10 14:43:09 公開日:2021-03-09
# スパースCCAを用いた乳癌生存予測のためのマルチモーダル融合

Multimodal fusion using sparse CCA for breast cancer survival prediction ( http://arxiv.org/abs/2103.05432v1 )

ライセンス: Link先を確認
Vaishnavi Subramanian, Tanveer Syeda-Mahmood, Minh N. Do(参考訳) がんなどの疾患を効果的に理解するには、マルチモーダルデータによって物理的スケールで取得された複数の情報ソースを融合する必要がある。 本研究では,モダリティ内およびモダリティ間相関を考慮に入れた標準相関解析から導出した新しい特徴埋め込みモジュールを提案する。 シミュレーションおよび実データを用いた実験は,提案モジュールがよく相関した多次元埋め込みを学習できることを示す。 これらの埋め込みは、TCGA-BRCA乳がん患者の1年間の生存率の分類において競合的に働き、平均F1スコアは5倍のクロスバリデーションで58.69%に達する。

Effective understanding of a disease such as cancer requires fusing multiple sources of information captured across physical scales by multimodal data. In this work, we propose a novel feature embedding module that derives from canonical correlation analyses to account for intra-modality and inter-modality correlations. Experiments on simulated and real data demonstrate how our proposed module can learn well-correlated multi-dimensional embeddings. These embeddings perform competitively on one-year survival classification of TCGA-BRCA breast cancer patients, yielding average F1 scores up to 58.69% under 5-fold cross-validation.
翻訳日:2021-03-10 14:42:44 公開日:2021-03-09
# 線形ガウス時間不変系に対する近似最適フィルタ

Approximate Optimal Filter for Linear Gaussian Time-invariant Systems ( http://arxiv.org/abs/2103.05505v1 )

ライセンス: Link先を確認
Kaiming Tang, Shengbo Eben Li, Yuming Yin, Yang Guan, Jingliang Duan, Wenhan Cao, Jie Li(参考訳) 状態推定は制御システムにとって、特に状態を直接測定できない場合に重要である。 本稿では,線形ガウス時間不変系における定常ゲインを得るために,ポリシー反復手法を用いた近似最適フィルタを提案する。 この設計は、最小平均二乗誤差の最適フィルタリング問題を近似最適フィルタリング(AOF)問題と呼ばれる最適制御問題に変換します。 この等価性は、システム状態が推定誤差、制御入力がフィルタゲイン、制御対象関数が累積推定誤差である初期状態分布とポリシー形式に関する特定の条件を保持する。 定常状態におけるAOF問題を解決するためのポリシー反復アルゴリズムを提案する。 古典的な車両状態推定問題は、最終的に近似フィルタを評価する。 その結果, 政策は定常カルマン利得に収束し, 精度は2 %以内であることが判明した。

State estimation is critical to control systems, especially when the states cannot be directly measured. This paper presents an approximate optimal filter, which enables to use policy iteration technique to obtain the steady-state gain in linear Gaussian time-invariant systems. This design transforms the optimal filtering problem with minimum mean square error into an optimal control problem, called Approximate Optimal Filtering (AOF) problem. The equivalence holds given certain conditions about initial state distributions and policy formats, in which the system state is the estimation error, control input is the filter gain, and control objective function is the accumulated estimation error. We present a policy iteration algorithm to solve the AOF problem in steady-state. A classic vehicle state estimation problem finally evaluates the approximate filter. The results show that the policy converges to the steady-state Kalman gain, and its accuracy is within 2 %.
翻訳日:2021-03-10 14:42:21 公開日:2021-03-09
# 適応レーダ波形選択のための制約付きコンテキストバンディット学習

Constrained Contextual Bandit Learning for Adaptive Radar Waveform Selection ( http://arxiv.org/abs/2103.05541v1 )

ライセンス: Link先を確認
Charles E. Thornton, R. Michael Buehrer, Anthony F. Martone(参考訳) 適応レーダシステムが有限状態目標チャネルと繰り返し相互作用する逐次決定過程について検討する。 レーダーは受動的に波形の選択プロセスに側面情報を提供する規則的な間隔でスペクトルを感知できます。 レーダ送信機は、スペクトル観測のシーケンスと、コロケーション受信機からのフィードバックを用いて、ターゲットパラメータを正確に推定する波形を選択する。 波形選択問題は,線形文脈バンディット定式化を用いて,計算可能かつサンプル効率の良い方法で効果的に解決できることを示す。 確率的および逆転的な線形文脈的バンディットモデルが導入され、レーダーは幅広い物理環境で効果的なパフォーマンスを達成できます。 レーダ通信共存シナリオと対向レーダジャマーシナリオのシミュレーションでは、トンプソンサンプリングとEXP3アルゴリズムが波形選択プロセスの駆動に使用される場合、提案された定式化が目標検出性能を大幅に改善することを示した。 さらに,レーダーの波形カタログに時間変動制約を適用することで,コヒーレントに処理されたレーダデータに対するパルス・アジャイル行動の有害な影響を軽減できることを示した。

A sequential decision process in which an adaptive radar system repeatedly interacts with a finite-state target channel is studied. The radar is capable of passively sensing the spectrum at regular intervals, which provides side information for the waveform selection process. The radar transmitter uses the sequence of spectrum observations as well as feedback from a collocated receiver to select waveforms which accurately estimate target parameters. It is shown that the waveform selection problem can be effectively addressed using a linear contextual bandit formulation in a manner that is both computationally feasible and sample efficient. Stochastic and adversarial linear contextual bandit models are introduced, allowing the radar to achieve effective performance in broad classes of physical environments. Simulations in a radar-communication coexistence scenario, as well as in an adversarial radar-jammer scenario, demonstrate that the proposed formulation provides a substantial improvement in target detection performance when Thompson Sampling and EXP3 algorithms are used to drive the waveform selection process. Further, it is shown that the harmful impacts of pulse-agile behavior on coherently processed radar data can be mitigated by adopting a time-varying constraint on the radar's waveform catalog.
翻訳日:2021-03-10 14:42:07 公開日:2021-03-09
# 逆文書周波数を用いたディープニューラルネットワークのためのロバストブラックボックス透かし

Robust Black-box Watermarking for Deep NeuralNetwork using Inverse Document Frequency ( http://arxiv.org/abs/2103.05590v1 )

ライセンス: Link先を確認
Mohammad Mehdi Yadollahi, Farzaneh Shoeleh, Sajjad Dadkhah, Ali A. Ghorbani(参考訳) ディープラーニング技術は、あらゆる人工知能(AI)サービスの最も重要な要素の1つである。 近年,Deep Neural Networks(DNN)などの機械学習(ML)手法は,自然言語(NLP)や音声認識,画像処理など,さまざまな障害に対して人間レベルの能力を実装する上で,極めて優れた成果を上げている。 これらのモデルのトレーニングは、計算能力と十分なラベル付きデータの存在の観点から高価です。 このように、DNNのようなMLベースのモデルは、所有者にとって真のビジネス価値と知的財産権(IP)を確立する。 したがって、訓練されたモデルは違法な再分配、再現、派生といった敵対的な攻撃から保護される必要がある。 透かしはDNNモデルの確保に有効な手法であると考えられる。 しかし、これまでのウォーターマーキングアルゴリズムのほとんどは、画像にノイズを加えることでDNNをウォーターマーキングすることに焦点を当てている。 そこで本研究では,テキストドメイン用に設計されたDNNモデルの透かしを行うフレームワークを提案する。 この透かし生成方式は、特定の単語の項周波数(TF)と逆文書周波数(IDF)を組み合わせたセキュアな透かし方式を提供する。 提案した埋め込み手順はモデルのトレーニング時間内に行われ、透かしによる文書をトレーニングされたモデルに送信することで、透かし検証ステージが簡単になる。 実験の結果, 透かし付きモデルでは, 元のモデルと同じ精度を示した。 提案フレームワークは,性能を損なうことなく,すべてのサロゲートモデルのオーナシップを正確に検証する。 提案アルゴリズムは,パラメータプルーニングやブルートフォースアタックなど,よく知られた攻撃に対して堅牢である。

Deep learning techniques are one of the most significant elements of any Artificial Intelligence (AI) services. Recently, these Machine Learning (ML) methods, such as Deep Neural Networks (DNNs), presented exceptional achievement in implementing human-level capabilities for various predicaments, such as Natural Processing Language (NLP), voice recognition, and image processing, etc. Training these models are expensive in terms of computational power and the existence of enough labelled data. Thus, ML-based models such as DNNs establish genuine business value and intellectual property (IP) for their owners. Therefore the trained models need to be protected from any adversary attacks such as illegal redistribution, reproducing, and derivation. Watermarking can be considered as an effective technique for securing a DNN model. However, so far, most of the watermarking algorithm focuses on watermarking the DNN by adding noise to an image. To this end, we propose a framework for watermarking a DNN model designed for a textual domain. The watermark generation scheme provides a secure watermarking method by combining Term Frequency (TF) and Inverse Document Frequency (IDF) of a particular word. The proposed embedding procedure takes place in the model's training time, making the watermark verification stage straightforward by sending the watermarked document to the trained model. The experimental results show that watermarked models have the same accuracy as the original ones. The proposed framework accurately verifies the ownership of all surrogate models without impairing the performance. The proposed algorithm is robust against well-known attacks such as parameter pruning and brute force attack.
翻訳日:2021-03-10 14:41:45 公開日:2021-03-09
# 離散関数ベースと畳み込みニューラルネットワーク

Discrete Function Bases and Convolutional Neural Networks ( http://arxiv.org/abs/2103.05609v1 )

ライセンス: Link先を確認
Andreas St\"ockel(参考訳) レジェンド遅延ネットワーク(LDN)から派生した離散基底に特に焦点をあてた「離散関数ベース」の概念について議論する。 遅延計算タスクにおけるこれらのベースの性能と,ニューラルネットワークにおける定時的畳み込みを特徴づける。 定時的畳み込みを用いたネットワークは概念的に単純であり、psMNISTのようなタスクで最先端の結果をもたらす。 主な結果(1) O(qN) において DLOPs L の行列を構成するための数値的に安定なアルゴリズムを提案する(2) 伝説遅延ネットワーク (LDN) は O(qN) において基底変換行列 H を用いて離散関数基底を形成することができる。 (3) q < 300 が LDN ベースとオンラインに結びつく場合、任意の FIR フィルタと結びつくよりもランタイムの複雑さが低い。 (4) いくつかの基底(Haar, cosine, Fourier)に対してスライディングウィンドウ変換が存在し、サンプル当たりのO(q)演算とO(N)メモリを必要とする。 (5) LDNに類似したLTI系は、多くの離散関数基底に対して構築できるが、LDN系は有限インパルス応答の点で優れている。 (6)これらのベースに対して表現された信号から遅延を線形に復号して離散関数ベースを比較する。 結果は図20に示します。 全体として、デコードエラーは似ている。 LDNベースは最高であり、フーリエベースとコサインベースは最小の誤差を有する。 (7) フーリエおよびコサインベースは、すべての遅延に対して均一な復号誤差を特徴とする。 これらのベースは、信号がフーリエ領域でうまく表現できれば使用するべきです。 (8) ニューラルネットワーク実験は、時間的畳み込みが学習された畳み込みよりも優れることを示唆している。 基本的な選択は重要ではありません。遅延タスクと同じパフォーマンストレンドを概観しています。 (9)LDNは小さい q に対して正しい選択であり、O(q) Euler の更新が実現可能であり、低い O(q) メモリ要求が重要である場合である。

We discuss the notion of "discrete function bases" with a particular focus on the discrete basis derived from the Legendre Delay Network (LDN). We characterize the performance of these bases in a delay computation task, and as fixed temporal convolutions in neural networks. Networks using fixed temporal convolutions are conceptually simple and yield state-of-the-art results in tasks such as psMNIST. Main Results (1) We present a numerically stable algorithm for constructing a matrix of DLOPs L in O(qN) (2) The Legendre Delay Network (LDN) can be used to form a discrete function basis with a basis transformation matrix H in O(qN). (3) If q < 300, convolving with the LDN basis online has a lower run-time complexity than convolving with arbitrary FIR filters. (4) Sliding window transformations exist for some bases (Haar, cosine, Fourier) and require O(q) operations per sample and O(N) memory. (5) LTI systems similar to the LDN can be constructed for many discrete function bases; the LDN system is superior in terms of having a finite impulse response. (6) We compare discrete function bases by linearly decoding delays from signals represented with respect to these bases. Results are depicted in Figure 20. Overall, decoding errors are similar. The LDN basis has the highest and the Fourier and cosine bases have the smallest errors. (7) The Fourier and cosine bases feature a uniform decoding error for all delays. These bases should be used if the signal can be represented well in the Fourier domain. (8) Neural network experiments suggest that fixed temporal convolutions can outperform learned convolutions. The basis choice is not critical; we roughly observe the same performance trends as in the delay task. (9) The LDN is the right choice for small q, if the O(q) Euler update is feasible, and if the low O(q) memory requirement is of importance.
翻訳日:2021-03-10 14:41:18 公開日:2021-03-09
# 完全シンプレクティックマップによる一般ハミルトン力学のデータ駆動予測

Data-driven Prediction of General Hamiltonian Dynamics via Learning Exactly-Symplectic Maps ( http://arxiv.org/abs/2103.05632v1 )

ライセンス: Link先を確認
Renyi Chen and Molei Tao(参考訳) 我々は、潜時シンプレクティックマップによって生成される非線形時系列の学習と予測について考察する。 特別なケースは(必ずしも分離できない)ハミルトン系であり、その解流はそのようなシンプレクティック写像を与える。 この特別な場合、潜在ODEのベクトル場を学習する一般的なアプローチと、ベクトル場を生成するハミルトニアンを学習する専門的なアプローチの両方が存在する。 しかし、この方法はベクトル場に依存しず、その存在を仮定しないため、異なるものであり、代わりに離散時間においてシンプレクティック進化写像を直接学習する。 さらに、生成関数を介してシンプレクティックマップを表現することで、ニューラルネットワーク(GFNN)で近似します。 この方法では、進化写像の近似は常に \emph{exactly} シンプレクティックである。 この追加的な幾何学的構造により、各ステップにおける局所的予測誤差が制御された方法で蓄積され、合理的な仮定の下では、大域的予測誤差は長い予測時間で最大で 'emph{linearly} で成長し、それ以外は指数的成長が著しく向上することを示す。 さらに、写像に基づく純粋データ駆動手法として、GFNNはベクトル場ベースのアプローチで一般的な2つの不正確なソース、すなわちデータの有限差によるベクトル場近似の誤差と予測を行うためのベクトル場の数値積分における誤差を回避する。 数値実験は我々の主張をさらに実証する。

We consider the learning and prediction of nonlinear time series generated by a latent symplectic map. A special case is (not necessarily separable) Hamiltonian systems, whose solution flows give such symplectic maps. For this special case, both generic approaches based on learning the vector field of the latent ODE and specialized approaches based on learning the Hamiltonian that generates the vector field exist. Our method, however, is different as it does not rely on the vector field nor assume its existence; instead, it directly learns the symplectic evolution map in discrete time. Moreover, we do so by representing the symplectic map via a generating function, which we approximate by a neural network (hence the name GFNN). This way, our approximation of the evolution map is always \emph{exactly} symplectic. This additional geometric structure allows the local prediction error at each step to accumulate in a controlled fashion, and we will prove, under reasonable assumptions, that the global prediction error grows at most \emph{linearly} with long prediction time, which significantly improves an otherwise exponential growth. In addition, as a map-based and thus purely data-driven method, GFNN avoids two additional sources of inaccuracies common in vector-field based approaches, namely the error in approximating the vector field by finite difference of the data, and the error in numerical integration of the vector field for making predictions. Numerical experiments further demonstrate our claims.
翻訳日:2021-03-10 14:40:49 公開日:2021-03-09
# Unseen の翻訳? Yor\`ub\'a $\rightarrow$ English MT in Low-Resource, Morphologically-unma rked settingss

Translating the Unseen? Yor\`ub\'a $\rightarrow$ English MT in Low-Resource, Morphologically-Unma rked Settings ( http://arxiv.org/abs/2103.04225v2 )

ライセンス: Link先を確認
Ife Adebara, Muhammad Abdul-Mageed, Miikka Silfverberg(参考訳) 特定の特徴が一方で形態素的にマークされているが、他方で欠落または文脈的にマークされている言語間の翻訳は、機械翻訳の重要なテストケースである。 定型性(in)を形態的にマークする英語に翻訳する場合、Yor\`ub\'a は素名詞を用いるが、これらの特徴を文脈的にマークする。 本研究では、Yor\`ub\'a の素名詞を英語に翻訳する際に、SMT システムが 2 つの NMT システム (BiLSTM と Transformer) とどのように比較するかを細かく分析する。 システムがどのようにBNを識別し、正しく翻訳し、人間の翻訳パターンと比較するかを検討する。 また,各モデルが犯す誤りの種類を分析し,それらの誤りを言語的に記述する。 低リソース設定でモデルパフォーマンスを評価するための洞察を得る。 素名詞の翻訳では, トランスフォーマーモデルは4つのカテゴリでSMT, BiLSTMモデルより優れ, BiLSTMは3つのカテゴリでSMTモデルより優れ, SMTは1つのカテゴリでNMTモデルより優れていた。

Translating between languages where certain features are marked morphologically in one but absent or marked contextually in the other is an important test case for machine translation. When translating into English which marks (in)definiteness morphologically, from Yor\`ub\'a which uses bare nouns but marks these features contextually, ambiguities arise. In this work, we perform fine-grained analysis on how an SMT system compares with two NMT systems (BiLSTM and Transformer) when translating bare nouns in Yor\`ub\'a into English. We investigate how the systems what extent they identify BNs, correctly translate them, and compare with human translation patterns. We also analyze the type of errors each model makes and provide a linguistic description of these errors. We glean insights for evaluating model performance in low-resource settings. In translating bare nouns, our results show the transformer model outperforms the SMT and BiLSTM models for 4 categories, the BiLSTM outperforms the SMT model for 3 categories while the SMT outperforms the NMT models for 1 category.
翻訳日:2021-03-10 12:26:12 公開日:2021-03-09
# 単純複素表現学習

Simplicial Complex Representation Learning ( http://arxiv.org/abs/2103.04046v2 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Xuanting Cai(参考訳) 単純複素体は、コンピュータ支援設計、コンピュータグラフィックス、シミュレーションなどの多くのアプリケーション分野で頻繁に使用される位相空間の重要なクラスを形成します。 グラフ上の表現学習は、たった1-dの単純な複合体であり、ここ数年で大きな注目と成功を目撃しています。 複雑さが増すため、より高次元の簡素なホールドがあるため、表現学習をこれらのオブジェクトに拡張するには十分な労力がなかった。 本研究では, 複素-複素近接性を保存する方法として, 単純複体を普遍的な埋め込み空間に埋め込む簡易複体表現学習法を提案する。 本手法は,事前学習した簡易オートエンコーダによって誘導される単純xレベル埋め込みを用いて,単純化された複合表現全体を学習する。 我々の知る限りでは、この研究は単純な複素レベル表現を学習する最初の方法である。

Simplicial complexes form an important class of topological spaces that are frequently used to in many applications areas such as computer-aided design, computer graphics, and simulation. The representation learning on graphs, which are just 1-d simplicial complexes, has witnessed a great attention and success in the past few years. Due to the additional complexity higher dimensional simplicial hold, there has not been enough effort to extend representation learning to these objects especially when it comes to learn entire-simplicial complex representation. In this work, we propose a method for simplicial complex-level representation learning that embeds a simplicial complex to a universal embedding space in a way that complex-to-complex proximity is preserved. Our method utilizes a simplex-level embedding induced by a pre-trained simplicial autoencoder to learn an entire simplicial complex representation. To the best of our knowledge, this work presents the first method for learning simplicial complex-level representation.
翻訳日:2021-03-10 12:25:50 公開日:2021-03-09
# 体操AIに関する調査:シミュレータから研究課題まで

A Survey Of Embodied AI: From Simulator To Research Tasks ( http://arxiv.org/abs/2103.04918v2 )

ライセンス: Link先を確認
Jiafei Duan, Samson Yu, Tan Hui Li, Hongyuan Zhu and Cheston Tan(参考訳) ネットAI」の時代から「具体化AI」の時代へとパラダイムが変化し、AIアルゴリズムやエージェントは、インターネットから主に収集された画像、ビデオ、テキストのデータセットから学習しなくなりました。 その代わり、実物でもシミュレートであれ、環境との身体的相互作用を通じて学習する。 その結果、インボディードAI研究タスクの多様性をサポートするために、インボディードAIシミュレーターの需要が大幅に増加した。 このインボディードAIへの関心の高まりは、人工知能のさらなる追求に有益であるが、この分野に関する現代的で包括的な調査は行われていない。 本稿では、最先端のAIシミュレータと、それらの間の接続をマッピングする研究を包括的に調査する。 本論文では,9つの最先端のAIシミュレータを7つの特徴からベンチマークすることにより,AI研究におけるシミュレータの利用状況を把握することを目的とする。 最後に、AI研究課題のシミュレータとピラミッド階層に基づいて、AI-視覚探索、視覚ナビゲーション、および具体的質問応答(QA)における主要な研究課題を調査し、最先端のアプローチ、評価、データセットについて述べる。

There has been an emerging paradigm shift from the era of "internet AI" to "embodied AI", whereby AI algorithms and agents no longer simply learn from datasets of images, videos or text curated primarily from the internet. Instead, they learn through embodied physical interactions with their environments, whether real or simulated. Consequently, there has been substantial growth in the demand for embodied AI simulators to support a diversity of embodied AI research tasks. This growing interest in embodied AI is beneficial to the greater pursuit of artificial general intelligence, but there is no contemporary and comprehensive survey of this field. This paper comprehensively surveys state-of-the-art embodied AI simulators and research, mapping connections between these. By benchmarking nine state-of-the-art embodied AI simulators in terms of seven features, this paper aims to understand the simulators in their provision for use in embodied AI research. Finally, based upon the simulators and a pyramidal hierarchy of embodied AI research tasks, this paper surveys the main research tasks in embodied AI -- visual exploration, visual navigation and embodied question answering (QA), covering the state-of-the-art approaches, evaluation and datasets.
翻訳日:2021-03-10 12:25:25 公開日:2021-03-09
# 単発セマンティック部品セグメンテーションのためのGANの再利用

Repurposing GANs for One-shot Semantic Part Segmentation ( http://arxiv.org/abs/2103.04379v2 )

ライセンス: Link先を確認
Nontawat Tritrong, Pitchaporn Rewatbowornwong, Supasorn Suwajanakorn(参考訳) GANは現実的な画像生成に成功したが、合成とは無関係な他のタスクにGANを使用することのアイデアは明らかにされていない。 GANは、それらのオブジェクトを再生する過程で、オブジェクトの有意義な構造的部分を学ぶか? そこで本研究では,この仮説を検証し,ラベルなしデータセットとともにラベルを1つも必要としない,意味部分セグメンテーションのためのgansに基づく単純かつ効果的なアプローチを提案する。 我々のキーとなるアイデアは、訓練されたGANを利用して、入力画像からピクセルワイズ表現を抽出し、セグメンテーションネットワークのための特徴ベクトルとして利用することです。 我々の実験は、GANの表現が「可読的に差別的」であり、かなり多くのラベルで訓練された教師付きベースラインと同等の驚くほど良い結果をもたらすことを示した。 我々は、gansのこの新しい再提案は、他の多くのタスクに適用可能な教師なし表現学習の新たなクラスであると信じている。 詳細は https://repurposegan s.github.io/ をご覧ください。

While GANs have shown success in realistic image generation, the idea of using GANs for other tasks unrelated to synthesis is underexplored. Do GANs learn meaningful structural parts of objects during their attempt to reproduce those objects? In this work, we test this hypothesis and propose a simple and effective approach based on GANs for semantic part segmentation that requires as few as one label example along with an unlabeled dataset. Our key idea is to leverage a trained GAN to extract pixel-wise representation from the input image and use it as feature vectors for a segmentation network. Our experiments demonstrate that GANs representation is "readily discriminative" and produces surprisingly good results that are comparable to those from supervised baselines trained with significantly more labels. We believe this novel repurposing of GANs underlies a new class of unsupervised representation learning that is applicable to many other tasks. More results are available at https://repurposegan s.github.io/.
翻訳日:2021-03-10 12:25:05 公開日:2021-03-09
# Monte Carlo Tree Search:最近の改良と応用のレビュー

Monte Carlo Tree Search: A Review of Recent Modifications and Applications ( http://arxiv.org/abs/2103.04931v2 )

ライセンス: Link先を確認
Maciej \'Swiechowski, Konrad Godlewski, Bartosz Sawicki, Jacek Ma\'ndziuk(参考訳) モンテカルロツリー検索(MCTS)は、ゲームプレイボットを設計したり、連続的な決定問題を解決するための強力なアプローチです。 この方法は、探索と搾取のバランスをとるインテリジェントな木探索に依存している。 MCTSはシミュレーションの形式でランダムサンプリングを行い、その後のイテレーションごとにより教育的な選択を行うためにアクションの統計を格納する。 しかし、この手法はコンビネータゲーム(例えば、より複雑なゲーム)では最先端の技術となっている。 高分岐係数またはリアルタイムの要素を持つもの、および様々な実践的領域(例えば、)において 輸送、スケジューリング、セキュリティ) 効率的なMCTSアプリケーションは、しばしば問題に依存した修正や他の技術との統合を必要とします。 このようなドメイン固有の修正とハイブリッドアプローチがこの調査の主な焦点である。 最後の主要なMCTS調査は2012年に出版されました。 このレビューでは、リリース以来のコントリビューションが特に関心を集めています。

Monte Carlo Tree Search (MCTS) is a powerful approach to designing game-playing bots or solving sequential decision problems. The method relies on intelligent tree search that balances exploration and exploitation. MCTS performs random sampling in the form of simulations and stores statistics of actions to make more educated choices in each subsequent iteration. The method has become a state-of-the-art technique for combinatorial games, however, in more complex games (e.g. those with high branching factor or real-time ones), as well as in various practical domains (e.g. transportation, scheduling or security) an efficient MCTS application often requires its problem-dependent modification or integration with other techniques. Such domain-specific modifications and hybrid approaches are the main focus of this survey. The last major MCTS survey has been published in 2012. Contributions that appeared since its release are of particular interest for this review.
翻訳日:2021-03-10 12:24:51 公開日:2021-03-09
# Plug & Play 優先度を用いたベイズイメージング: Langevin が Tweedie に出会うとき

Bayesian imaging using Plug & Play priors: when Langevin meets Tweedie ( http://arxiv.org/abs/2103.04715v2 )

ライセンス: Link先を確認
R\'emi Laumont, Valentin de Bortoli, Andr\'es Almansa, Julie Delon, Alain Durmus and Marcelo Pereyra(参考訳) Venkatakrishnan et al の独創的な作品以来。 (2013)、プラグ&プレイ(PnP)法は、ベイズイメージングにおいてユビキタスになっています。 これらの手法は、画像復調アルゴリズムによって暗黙的に定義される事前の公約関数と組み合わせることで、画像の逆問題に対する最小平均角誤差(MMSE)または最大Aポストエリオリ(MAP)推定器を導出する。 文献で提案されたPnPアルゴリズムは主に最適化やサンプリングに使用する反復的なスキームが異なる。 最適化スキームの場合、いくつかの最近の研究は固定点への収束を保証するが、必ずしもMAP推定ではない。 サンプリングスキームの場合、私たちの知識の最大限に、収束の既知の証拠はありません。 また、基礎となるベイズモデルと推定器が十分に定義され、適切に配置され、これらの数値スキームをサポートするために必要な基本的な正則性を持つかどうかに関する重要なオープンな疑問も残っている。 これらの制約に対処するために、PnP の先行したベイズ推定を行うための理論、手法、および証明可能な収束アルゴリズムを開発する。 モンテカルロサンプリングとMMSE推論のためのPnP-ULA(Unadjusted Langevin Algorithm)とMAP推論のためのPnP-SGD(Stochastic Gradient Descent)の2つのアルゴリズムを紹介します。 マルコフ連鎖の定量的収束に関する最近の結果を用いて,これら2つのアルゴリズムの詳細な収束保証を,ニューラルネットに基づくデノイザに特に注目しながら,使用中のデノイザ演算子の現実的な仮定の下で確立する。 また,これらのアルゴリズムが決定論的に最適なベイズモデルに近似することを示す。 提案アルゴリズムは, 点推定や不確実性可視化, 定量化など, 画像の劣化, 塗装, 装飾などの標準的な問題に対して実証される。

Since the seminal work of Venkatakrishnan et al. (2013), Plug & Play (PnP) methods have become ubiquitous in Bayesian imaging. These methods derive Minimum Mean Square Error (MMSE) or Maximum A Posteriori (MAP) estimators for inverse problems in imaging by combining an explicit likelihood function with a prior that is implicitly defined by an image denoising algorithm. The PnP algorithms proposed in the literature mainly differ in the iterative schemes they use for optimisation or for sampling. In the case of optimisation schemes, some recent works guarantee the convergence to a fixed point, albeit not necessarily a MAP estimate. In the case of sampling schemes, to the best of our knowledge, there is no known proof of convergence. There also remain important open questions regarding whether the underlying Bayesian models and estimators are well defined, well-posed, and have the basic regularity properties required to support these numerical schemes. To address these limitations, this paper develops theory, methods, and provably convergent algorithms for performing Bayesian inference with PnP priors. We introduce two algorithms: 1) PnP-ULA (Unadjusted Langevin Algorithm) for Monte Carlo sampling and MMSE inference; and 2) PnP-SGD (Stochastic Gradient Descent) for MAP inference. Using recent results on the quantitative convergence of Markov chains, we establish detailed convergence guarantees for these two algorithms under realistic assumptions on the denoising operators used, with special attention to denoisers based on deep neural networks. We also show that these algorithms approximately target a decision-theoretical ly optimal Bayesian model that is well-posed. The proposed algorithms are demonstrated on several canonical problems such as image deblurring, inpainting, and denoising, where they are used for point estimation as well as for uncertainty visualisation and quantification.
翻訳日:2021-03-10 12:24:39 公開日:2021-03-09
# 自己監督型縦横型埋め込み

Self-Supervised Longitudinal Neighbourhood Embedding ( http://arxiv.org/abs/2103.03840v2 )

ライセンス: Link先を確認
Jiahong Ouyang and Qingyu Zhao and Ehsan Adeli and Edith V Sullivan and Adolf Pfefferbaum and Greg Zaharchuk and Kilian M Pohl(参考訳) 経時的MRIは、老化や神経疾患によって引き起こされる脳構造と機能の段階的な劣化を捉えるためにしばしば用いられる。 このデータを機械学習で分析するには、多くの場合、大量の基幹ラベルを必要とする。 ラベルの必要性を低減し,LNE(Longitudinal Neighborhood Embedding)と呼ばれる表現学習のための自己監督型戦略を提案する。 コントラスト学習の概念に動機づけられたLNEは、異なる対象の軌道ベクトル間の類似性を明示的にモデル化する。 我々は、各トレーニング反復において、被写体の進行方向が隣人の方向に従うように、潜在空間内の近傍を定義するグラフを構築する。 これにより、局所的な連続性を維持しながら、脳のグローバルな形態変化を捉えるスムーズな軌道場が得られる。 健常者274名からなるデータセットとアルツハイマー病神経画像イニシアチブ(ADNI, N=632)の2種類の縦断的T1wMRIにLNEを適用した。 滑らかな軌道ベクトル場の可視化と下流課題における優れた性能は, 正常な加齢に伴う情報抽出と神経変性障害の影響を明らかにする上で, 既存の自己教師あり手法よりも, 提案手法の強みを示す。 コードは \url{https://github.com/o uyangjiahong/longitu dinal-neighbourhood- embedding.git}で入手できる。

Longitudinal MRIs are often used to capture the gradual deterioration of brain structure and function caused by aging or neurological diseases. Analyzing this data via machine learning generally requires a large number of ground-truth labels, which are often missing or expensive to obtain. Reducing the need for labels, we propose a self-supervised strategy for representation learning named Longitudinal Neighborhood Embedding (LNE). Motivated by concepts in contrastive learning, LNE explicitly models the similarity between trajectory vectors across different subjects. We do so by building a graph in each training iteration defining neighborhoods in the latent space so that the progression direction of a subject follows the direction of its neighbors. This results in a smooth trajectory field that captures the global morphological change of the brain while maintaining the local continuity. We apply LNE to longitudinal T1w MRIs of two neuroimaging studies: a dataset composed of 274 healthy subjects, and Alzheimer's Disease Neuroimaging Initiative (ADNI, N=632). The visualization of the smooth trajectory vector field and superior performance on downstream tasks demonstrate the strength of the proposed method over existing self-supervised methods in extracting information associated with normal aging and in revealing the impact of neurodegenerative disorders. The code is available at \url{https://github.com/o uyangjiahong/longitu dinal-neighbourhood- embedding.git}.
翻訳日:2021-03-10 12:24:04 公開日:2021-03-09
# virtual normal: 高精度かつロバストな深さ予測のための幾何学的制約を強制する

Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust Depth Prediction ( http://arxiv.org/abs/2103.04216v2 )

ライセンス: Link先を確認
Wei Yin and Yifan Liu and Chunhua Shen(参考訳) 単眼深度予測は3次元シーン形状の理解において重要な役割を担っている。 近年の手法は画素単位の相対誤差などの評価指標で顕著な進歩を遂げているが、ほとんどの手法は3次元空間における幾何的制約を無視している。 本研究では,深度予測のための高次3次元幾何学的制約の重要性を示す。 再構成された3次元空間でランダムにサンプリングされた3点によって決定される仮想正規方向という単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に向上させる。 重要なことは、仮想正規損失は、学習メートル法深度の性能を向上するだけでなく、スケール情報を解き、より優れた形状情報でモデルを豊かにする。 したがって、絶対距離深度トレーニングデータにアクセスできない場合、仮想正規法を用いて多様なシーンで生成される強固なアフィン不変深さを学ぶことができる。 実験では,NYU Depth-V2 と KITTI の学習深度について,最先端の学習結果を示す。 高品質の予測深度から、ポイント雲や表面の正常といったシーンの優れた3次元構造を復元することが可能となり、これまでやってきたような追加モデルに頼る必要がなくなる。 仮想正規損失による多様なデータに対するアフィン不変深度学習の汎用性を示すために、アフィン不変深度トレーニングのための大規模かつ多様なデータセット、いわゆるDiverse Scene Depthデータセット(DiverseDepth)を構築し、ゼロショットテスト設定で5つのデータセットをテストする。 コードはhttps://git.io/Depth で入手できます。

Monocular depth prediction plays a crucial role in understanding 3D scene geometry. Although recent methods have achieved impressive progress in terms of evaluation metrics such as the pixel-wise relative error, most methods neglect the geometric constraints in the 3D space. In this work, we show the importance of the high-order 3D geometric constraints for depth prediction. By designing a loss term that enforces a simple geometric constraint, namely, virtual normal directions determined by randomly sampled three points in the reconstructed 3D space, we significantly improve the accuracy and robustness of monocular depth estimation. Significantly, the virtual normal loss can not only improve the performance of learning metric depth, but also disentangle the scale information and enrich the model with better shape information. Therefore, when not having access to absolute metric depth training data, we can use virtual normal to learn a robust affine-invariant depth generated on diverse scenes. In experiments, We show state-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI. From the high-quality predicted depth, we are now able to recover good 3D structures of the scene such as the point cloud and surface normal directly, eliminating the necessity of relying on additional models as was previously done. To demonstrate the excellent generalizability of learning affine-invariant depth on diverse data with the virtual normal loss, we construct a large-scale and diverse dataset for training affine-invariant depth, termed Diverse Scene Depth dataset (DiverseDepth), and test on five datasets with the zero-shot test setting. Code is available at: https://git.io/Depth
翻訳日:2021-03-10 12:23:38 公開日:2021-03-09
# 蒸留外観流によるパーサーフリー仮想試行

Parser-Free Virtual Try-on via Distilling Appearance Flows ( http://arxiv.org/abs/2103.04559v2 )

ライセンス: Link先を確認
Yuying Ge, Yibing Song, Ruimao Zhang, Chongjian Ge, Wei Liu and Ping Luo(参考訳) Image Virtual try-onは、衣料品画像(ターゲット服)を人物画像に合わせることを目的としている。 以前の手法は人間の解析に基づいている。 しかし、わずかに短いセグメンテーションの結果は、大きなアーティファクトを持つ非現実的な試行画像に繋がる。 不正確な解析ミスリードは、アーティファクトが通常発生する視覚的に非現実的な結果を生成するパーサベースの方法である。 近年の先駆的な研究は、知識蒸留を人間のパーシングの依存性を減らし、パーサーベースの手法による試行画像は、セグメンテーションに頼らずに「学生」ネットワークを訓練する監督役として使われ、パーサーベースのモデルの試行能力を模倣するものである。 しかし、学生の画質はパーサーベースのモデルによって制限されます。 そこで本研究では,人間による解析を伴わずに高度に写真実写的な画像を生成することが可能な「教師-教師-学生」知識蒸留法を提案する。 1)既存の研究とは違って,本手法では,実物は実物から自己管理的に抽出した「教師の知識」によって修正できる「教師の知識」として,パーザベースの手法で作成した偽画像を扱う。 2) 実像を監督対象として使用する以外に, 被写体画像と衣服画像の出現フローを蒸留する手段として, 試行問題における知識蒸留を定式化し, それらの間の正確な密接な対応を見つけ, 高品質な結果が得られるようにした。 (3)広範囲な評価は,本手法の優位性が高い(図参照)。 1).

Image virtual try-on aims to fit a garment image (target clothes) to a person image. Prior methods are heavily based on human parsing. However, slightly-wrong segmentation results would lead to unrealistic try-on images with large artifacts. Inaccurate parsing misleads parser-based methods to produce visually unrealistic results where artifacts usually occur. A recent pioneering work employed knowledge distillation to reduce the dependency of human parsing, where the try-on images produced by a parser-based method are used as supervisions to train a "student" network without relying on segmentation, making the student mimic the try-on ability of the parser-based model. However, the image quality of the student is bounded by the parser-based model. To address this problem, we propose a novel approach, "teacher-tutor-studen t" knowledge distillation, which is able to produce highly photo-realistic images without human parsing, possessing several appealing advantages compared to prior arts. (1) Unlike existing work, our approach treats the fake images produced by the parser-based method as "tutor knowledge", where the artifacts can be corrected by real "teacher knowledge", which is extracted from the real person images in a self-supervised way. (2) Other than using real images as supervisions, we formulate knowledge distillation in the try-on problem as distilling the appearance flows between the person image and the garment image, enabling us to find accurate dense correspondences between them to produce high-quality results. (3) Extensive evaluations show large superiority of our method (see Fig. 1).
翻訳日:2021-03-10 12:23:09 公開日:2021-03-09
# 微粒な視覚分類のための解釈型注意誘導ネットワーク

Interpretable Attention Guided Network for Fine-grained Visual Classification ( http://arxiv.org/abs/2103.04701v2 )

ライセンス: Link先を確認
Zhenhuan Huang, Xiaoyue Duan, Bo Zhao, Jinhu L\"u, Baochang Zhang(参考訳) 細かい粒度の視覚分類(FGVC)は困難ですが、従来の分類タスクよりも重要です。 固有の微妙なクラス内オブジェクトのバリエーションで異なるサブカテゴリを区別する必要がある。 前回の研究では,注意戦略やバウンディングボックスに基づいて,複数の粒度と識別領域を用いた特徴表現能力の向上に重点を置いていた。 しかし、これらの手法は解釈性に欠ける深層ニューラルネットワークに大きく依存している。 細粒度視覚分類のための解釈型注意誘導ネットワーク(IAGN)を提案する。 本手法のコントリビューションは,ネットワークが解釈可能な方法で識別領域を抽出するための注意喚起フレームワークと,様々な粒度の特徴を融合させるための段階的に知識段階を抽出する段階的学習機構と,いくつかの標準FGVCベンチマークデータセット上での競合性能を有する最初の解釈可能なFGVC手法である。

Fine-grained visual classification (FGVC) is challenging but more critical than traditional classification tasks. It requires distinguishing different subcategories with the inherently subtle intra-class object variations. Previous works focus on enhancing the feature representation ability using multiple granularities and discriminative regions based on the attention strategy or bounding boxes. However, these methods highly rely on deep neural networks which lack interpretability. We propose an Interpretable Attention Guided Network (IAGN) for fine-grained visual classification. The contributions of our method include: i) an attention guided framework which can guide the network to extract discriminitive regions in an interpretable way; ii) a progressive training mechanism obtained to distill knowledge stage by stage to fuse features of various granularities; iii) the first interpretable FGVC method with a competitive performance on several standard FGVC benchmark datasets.
翻訳日:2021-03-10 12:22:41 公開日:2021-03-09
# 無線エッジネットワークを用いた分散学習のための共同符号化とスケジューリング最適化

Joint Coding and Scheduling Optimization for Distributed Learning over Wireless Edge Networks ( http://arxiv.org/abs/2103.04303v2 )

ライセンス: Link先を確認
Nguyen Van Huynh, Dinh Thai Hoang, Diep N. Nguyen, and Eryk Dutkiewicz(参考訳) 理論的分散学習(DL)とは異なり、無線エッジネットワーク上のDLは、無線接続とエッジノードの固有のダイナミクス/不確実性に直面しており、非常にダイナミックな無線エッジネットワーク(例えばmmWインターフェースを使用して)下でDLを効率性や適用性が低下させる。 本稿では,近年のコーデックコンピューティングとディープデューリングニューラルネットワークアーキテクチャを活用し,これらの問題に対処する。 コード化された構造/冗長性を導入することで、ノードをつまずくのを待つことなく、分散学習タスクを完了することができる。 コード構造のみを最適化する従来のコードドコンピューティングとは異なり、ワイヤレスエッジ上のコードド分散学習では、異種接続によるワイヤレスエッジノードの選択/スケジュール、計算能力、ストラグリング効果も最適化する必要がある。 しかし、前述のダイナミクス/未知性を無視しても、分散学習時間を最小化するためのコーディングとスケジューリングの協調最適化はnpハードであることが判明した。 そこで我々は,無線接続とエッジノードのダイナミクスと不確実性を考慮し,問題をマルコフ決定プロセスとして再構成し,ディープ・デュリングニューラルネットワークアーキテクチャを用いた新しい深層強化学習アルゴリズムを設計し,無線環境とエッジノードのストラグリングパラメータに関する情報を明示することなく,異なる学習タスクのための最適な符号化方式と最良エッジノードを探索する。 シミュレーションでは、提案されたフレームワークは、他のDLアプローチと比較して、無線エッジコンピューティングの平均学習遅延を最大66%削減する。 本記事での共同最適フレームワークは、異種および不確実な計算ノードを持つ任意の分散学習スキームにも適用可能である。

Unlike theoretical distributed learning (DL), DL over wireless edge networks faces the inherent dynamics/uncertainty of wireless connections and edge nodes, making DL less efficient or even inapplicable under the highly dynamic wireless edge networks (e.g., using mmW interfaces). This article addresses these problems by leveraging recent advances in coded computing and the deep dueling neural network architecture. By introducing coded structures/redundanc y, a distributed learning task can be completed without waiting for straggling nodes. Unlike conventional coded computing that only optimizes the code structure, coded distributed learning over the wireless edge also requires to optimize the selection/scheduling of wireless edge nodes with heterogeneous connections, computing capability, and straggling effects. However, even neglecting the aforementioned dynamics/uncertainty , the resulting joint optimization of coding and scheduling to minimize the distributed learning time turns out to be NP-hard. To tackle this and to account for the dynamics and uncertainty of wireless connections and edge nodes, we reformulate the problem as a Markov Decision Process and then design a novel deep reinforcement learning algorithm that employs the deep dueling neural network architecture to find the jointly optimal coding scheme and the best set of edge nodes for different learning tasks without explicit information about the wireless environment and edge nodes' straggling parameters. Simulations show that the proposed framework reduces the average learning delay in wireless edge computing up to 66% compared with other DL approaches. The jointly optimal framework in this article is also applicable to any distributed learning scheme with heterogeneous and uncertain computing nodes.
翻訳日:2021-03-10 12:22:26 公開日:2021-03-09
# 複数のディープラーニングモデルの比較テストを促進するための識別測定

Measuring Discrimination to Boost Comparative Testing for Multiple Deep Learning Models ( http://arxiv.org/abs/2103.04333v2 )

ライセンス: Link先を確認
Linghan Meng, Yanhui Li, Lin Chen, Zhi Wang, Di Wu, Yuming Zhou, Baowen Xu(参考訳) DL技術のブームは巨大なDLモデルの構築と共有をもたらし、DLモデルの取得と再利用を促進する。 与えられたタスクに対して、同じ機能で利用可能な複数のDLモデルに遭遇する。 テスターは複数のDLモデルを比較し、より適したものを選択することが期待される。 テストのコンテキスト全体。 分類の努力の限界のために、テスターはこれらのモデルのためにできるだけ正確なランクの推定をするサンプルの有効なサブセットを選ぶことを目標にします。 この問題に対処するために,複数のモデルを識別可能な効率的なサンプルを選択するために,サンプル識別に基づく選択(SDS)を提案する。 SDSを評価するために,広範に利用されている3つの画像データセットと80個の実世界DLモデルを用いて広範な実験研究を行った。 実験の結果,SDSは最先端のベースライン法と比較して,複数のDLモデルのランク付けに有効で効率的なサンプル選択法であることがわかった。

The boom of DL technology leads to massive DL models built and shared, which facilitates the acquisition and reuse of DL models. For a given task, we encounter multiple DL models available with the same functionality, which are considered as candidates to achieve this task. Testers are expected to compare multiple DL models and select the more suitable ones w.r.t. the whole testing context. Due to the limitation of labeling effort, testers aim to select an efficient subset of samples to make an as precise rank estimation as possible for these models. To tackle this problem, we propose Sample Discrimination based Selection (SDS) to select efficient samples that could discriminate multiple models, i.e., the prediction behaviors (right/wrong) of these samples would be helpful to indicate the trend of model performance. To evaluate SDS, we conduct an extensive empirical study with three widely-used image datasets and 80 real world DL models. The experimental results show that, compared with state-of-the-art baseline methods, SDS is an effective and efficient sample selection method to rank multiple DL models.
翻訳日:2021-03-10 12:21:58 公開日:2021-03-09