このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201210となっている論文です。

PDF登録状況(公開日: 20201210)

TitleAuthorsAbstract論文公表日・翻訳日
# バロン空間と多層空間における偏微分方程式に関するいくつかの観測

Some observations on partial differential equations in Barron and multi-layer spaces ( http://arxiv.org/abs/2012.01484v2 )

ライセンス: Link先を確認
Weinan E and Stephan Wojtowytsch(参考訳) 明示的な表現公式を用いて、ある偏微分方程式の解が、もしPDEデータがそのような函数空間にあるなら、バロン空間や多層空間にあることを示す。 したがって、これらの解は高次元でもニューラルネットワークを用いて効率的に表現することができる。 逆に、検討中のニューラルネットワークに関連する関数空間に解が配置されない例を示す。

We use explicit representation formulas to show that solutions to certain partial differential equations lie in Barron spaces or multilayer spaces if the PDE data lie in such function spaces. Consequently, these solutions can be represented efficiently using artificial neural networks, even in high dimension. Conversely, we present examples in which the solution fails to lie in the function space associated to a neural network under consideration.
翻訳日:2021-05-25 03:44:02 公開日:2020-12-10
# 複数物体追跡のための確率的トラックレットスコーリングと塗装

Probabilistic Tracklet Scoring and Inpainting for Multiple Object Tracking ( http://arxiv.org/abs/2012.02337v2 )

ライセンス: Link先を確認
Fatemeh Saleh, Sadegh Aliakbarian, Hamid Rezatofighi, Mathieu Salzmann, Stephen Gould(参考訳) 複数物体追跡(MOT)の最近の進歩は共同検出と追跡によって達成されているが、長い閉塞処理は依然として課題である。 これは、このような技術が長期動作情報を無視する傾向があるためである。 本稿では,確率論的自己回帰運動モデルを導入し,その可能性を直接測定してトラックレットの提案を評価する。 これは,自然トラッカーの分布を学習するために,我々のモデルを訓練することによって達成される。 そのため,本モデルでは,既存のトラックレットに新たな検出を割り当てるだけでなく,物体が長い間失われていた場合,例えば,検出ミスによるギャップを埋めるために,トラックレットをサンプリングすることで,トラックレットを塗布することができる。 提案手法は,MOT16,MOT17,MOT20を含む複数のMOTベンチマークデータセットにおいて,ほとんどの標準MOTメトリクスにおいて,オブジェクトの追跡におけるアプローチの優位性を上回っている。

Despite the recent advances in multiple object tracking (MOT), achieved by joint detection and tracking, dealing with long occlusions remains a challenge. This is due to the fact that such techniques tend to ignore the long-term motion information. In this paper, we introduce a probabilistic autoregressive motion model to score tracklet proposals by directly measuring their likelihood. This is achieved by training our model to learn the underlying distribution of natural tracklets. As such, our model allows us not only to assign new detections to existing tracklets, but also to inpaint a tracklet when an object has been lost for a long time, e.g., due to occlusion, by sampling tracklets so as to fill the gap caused by misdetections. Our experiments demonstrate the superiority of our approach at tracking objects in challenging sequences; it outperforms the state of the art in most standard MOT metrics on multiple MOT benchmark datasets, including MOT16, MOT17, and MOT20.
翻訳日:2021-05-23 14:51:00 公開日:2020-12-10
# メタグラフの折り畳みと展開

Folding and Unfolding on Metagraphs ( http://arxiv.org/abs/2012.01759v3 )

ライセンス: Link先を確認
Ben Goertzel(参考訳) 型付きメタグラフは、ハイパーエッジとそのターゲットに割り当てられた型を持つハイパーグラフとして定義され、ハイパーエッジのターゲットがリンク全体およびターゲットに接続される可能性がある。 Directed Typed Metagraphs (DTMG) は、入力、出力、および横セットに入力された各エッジのターゲットを分割することで導入され、エッジの出力セットが他のエッジの入力セットにリンクされている「メタパス」を見ることができる。 DTMGの初期代数的アプローチとして、DTMGを構築するためのコンストラクタの導入や、これらのコンストラクタを使用する複数の方法間の関係に関する法則が紹介されている。 有用な射タイプのメナゲリーは、dtmgs(catamorphisms, anamorphisms, histomorphisms, futumorphisms, hylomorphisms, chronomorphisms, metamorphisms and metachronomorphisms) 上で定義される。 タイプ付きメタグラフ上の決定的および確率的過程は、共通のTMG上に定義されたDTMGの森で表現される。 非指向型メタグラフへのアプローチのバリエーションを提示し、そのフレームワークの概要を、依存型や確率型、多次元値、エッジの挿入や削除を含む動的処理といった複雑な現実的メタグラフに適用できることを示す。

Typed metagraphs are defined as hypergraphs with types assigned to hyperedges and their targets, and the potential to have targets of hyperedges connect to whole links as well as targets. Directed typed metagraphs (DTMGs) are introduced via partitioning the targets of each edge in a typed metagraph into input, output and lateral sets; one can then look at "metapaths" in which edges' output-sets are linked to other edges' input-sets. An initial algebra approach to DTMGs is presented, including introduction of constructors for building up DTMGs and laws regarding relationships among multiple ways of using these constructors. A menagerie of useful morphism types is then defined on DTMGs (catamorphisms, anamorphisms, histomorphisms, futumorphisms, hylomorphisms, chronomorphisms, metamorphisms and metachronomorphisms) , providing a general abstract framework for formulating a broad variety of metagraph operations. Deterministic and stochastic processes on typed metagraphs are represented in terms of forests of DTMGs defined over a common TMG, where the various morphisms can be straightforwardly extended to these forests. A variation of the approach to undirected typed metagraphs is presented; and it is indicated how the framework outlined can applied to realistic metagraphs involving complexities like dependent and probabilistic types, multidimensional values and dynamic processing including insertion and deletion of edges.
翻訳日:2021-05-23 14:47:31 公開日:2020-12-10
# (参考訳) 勾配平均化に基づく勾配Descentアルゴリズムの一変数 [全文訳有]

A Variant of Gradient Descent Algorithm Based on Gradient Averaging ( http://arxiv.org/abs/2012.02387v2 )

ライセンス: CC BY 4.0
Saugata Purkayastha and Sukannya Purkayastha(参考訳) 本研究では,誤り関数を最適化する最適化器Grad-Avgについて検討する。 数学的にはGrad-Avgの反復列を最小化(有界性仮定)に収束させる。 Grad-Avgとレグレッションと分類タスクで人気のある最適化ツールを併用する。 回帰作業では,Grad-Avgの挙動はSGD(Stochastic Gradient Descent)とほぼ同一であることが観察された。 我々はこの事実を数学的に正当化する。 分類タスクの場合,パラメータを適切にスケーリングすることでgrad-avgの性能を向上させることができる。 実験結果から,Grad-Avgは2つのベンチマークデータセットの分類タスクに対して,他の最先端最適化よりも高速に収束することが示された。

In this work, we study an optimizer, Grad-Avg to optimize error functions. We establish the convergence of the sequence of iterates of Grad-Avg mathematically to a minimizer (under boundedness assumption). We apply Grad-Avg along with some of the popular optimizers on regression as well as classification tasks. In regression tasks, it is observed that the behaviour of Grad-Avg is almost identical with Stochastic Gradient Descent (SGD). We present a mathematical justification of this fact. In case of classification tasks, it is observed that the performance of Grad-Avg can be enhanced by suitably scaling the parameters. Experimental results demonstrate that Grad-Avg converges faster than the other state-of-the-art optimizers for the classification task on two benchmark datasets.
翻訳日:2021-05-23 11:22:25 公開日:2020-12-10
# (参考訳) フォトサーマル超解像イメージングのための学習ブロック反復収縮閾値決定アルゴリズム [全文訳有]

Learned Block Iterative Shrinkage Thresholding Algorithm for Photothermal Super Resolution Imaging ( http://arxiv.org/abs/2012.03547v2 )

ライセンス: CC BY 4.0
Samim Ahmadi, Jan Christian Hauffen, Linh K\"astner, Peter Jung, Giuseppe Caire, Mathias Ziegler(参考訳) ブロックスパース正則化は熱イメージングにおいて既によく知られており、逆問題に基づく複数の測定に用いられている。 この方法の主なボトルネックは、実験ごとに異なる正規化パラメータを選択することである。 時間を要する手動で選択した正規化パラメータを避けるために,ディープニューラルネットワークに展開した反復アルゴリズムを用いた学習ブロックスパース最適化手法を提案する。 より正確には、正規化パラメータの選択を学習できる学習ブロック反復縮小しきい値アルゴリズムを使用することの利点を示す。 さらに、このアルゴリズムは、基礎となる逆問題を解くのに適切な重み行列の決定を可能にする。 そこで本論文では,本アルゴリズムを,人工的に生成した試験データと能動サーモグラフィによる欠陥復元実験データを用いて,アートブロック反復収縮閾値付けの状態と比較する。 この結果から,学習したブロックスパース最適化手法を用いることで,最小限の反復数に対する正規化平均二乗誤差が学習なしでより小さくなることがわかった。 したがって、この新しいアプローチは収束速度を向上し、光熱分解能画像における正確な欠陥再構成を生成するために、数回の反復しか必要としない。

Block-sparse regularization is already well-known in active thermal imaging and is used for multiple measurement based inverse problems. The main bottleneck of this method is the choice of regularization parameters which differs for each experiment. To avoid time-consuming manually selected regularization parameter, we propose a learned block-sparse optimization approach using an iterative algorithm unfolded into a deep neural network. More precisely, we show the benefits of using a learned block iterative shrinkage thresholding algorithm that is able to learn the choice of regularization parameters. In addition, this algorithm enables the determination of a suitable weight matrix to solve the underlying inverse problem. Therefore, in this paper we present the algorithm and compare it with state of the art block iterative shrinkage thresholding using synthetically generated test data and experimental test data from active thermography for defect reconstruction. Our results show that the use of the learned block-sparse optimization approach provides smaller normalized mean square errors for a small fixed number of iterations than without learning. Thus, this new approach allows to improve the convergence speed and only needs a few iterations to generate accurate defect reconstruction in photothermal super resolution imaging.
翻訳日:2021-05-21 02:40:46 公開日:2020-12-10
# (参考訳) ニューラルラーニング正規化による惑星地図 [全文訳有]

Planet cartography with neural learned regularization ( http://arxiv.org/abs/2012.04460v2 )

ライセンス: CC BY 4.0
A. Asensio Ramos and E. Pall\'e(参考訳) 地球外生命体の発見は、太陽系外科学の目的の一つだ。 太陽系外惑星の生命のシグネチャを検出するためには、反射・透過分光法を用いて惑星大気のバルク組成を決定する必要がある。 しかし、居住性条件を完全に理解するには、液体水、大陸および/または雲の存在をマッピングする必要がある。 スピン軌道トモグラフィー(spin-orbit tomography)は、惑星表面が散乱する光を用いて、他の恒星の周囲にある太陽系外惑星の表面の地図を得る技術である。 深層学習の可能性を活用し,模型表面から正規化を学習する外地球へのマッピング手法を提案する。 逆マッピング問題の解決策は、適切なトレーニングデータでエンドツーエンドにトレーニング可能なディープニューラルネットワークとして設定される。 本研究は、地球上の発見に触発された惑星の手続き的生成に基づく手法の利用を提案する。 また、雲状惑星における表面の回復と永続的な雲の存在のマッピングも検討している。 単一帯域での観測においても, 信頼性の高い写像を我々のアプローチで実行し, 非常にコンパクトな大陸を創出できることが示される。 さらに重要なのは、太陽系外惑星が地球のように部分的に曇っている場合、常に同じ位置(地形や海面温度に関連する)で発生する永続的な雲の分布と、表面を横切る非永続的な雲の分布をマッピングできることである。 これは、活動的な気候システムを検出するために太陽系外惑星で実行できる最初のテストとなる。 恒星の居住可能な領域にある小さな岩石惑星の場合、この気象システムは水によって駆動され、検出は真に居住可能な条件の強力な指標と見なされる。

Finding potential life harboring exo-Earths is one of the aims of exoplanetary science. Detecting signatures of life in exoplanets will likely first be accomplished by determining the bulk composition of the planetary atmosphere via reflected/transmitte d spectroscopy. However, a complete understanding of the habitability conditions will surely require mapping the presence of liquid water, continents and/or clouds. Spin-orbit tomography is a technique that allows us to obtain maps of the surface of exoplanets around other stars using the light scattered by the planetary surface. We leverage the potential of deep learning and propose a mapping technique for exo-Earths in which the regularization is learned from mock surfaces. The solution of the inverse mapping problem is posed as a deep neural network that can be trained end-to-end with suitable training data. We propose in this work to use methods based on the procedural generation of planets, inspired by what we found on Earth. We also consider mapping the recovery of surfaces and the presence of persistent cloud in cloudy planets. We show that the a reliable mapping can be carried out with our approach, producing very compact continents, even when using single passband observations. More importantly, if exoplanets are partially cloudy like the Earth is, we show that one can potentially map the distribution of persistent clouds that always occur on the same position on the surface (associated to orography and sea surface temperatures) together with non-persistent clouds that move across the surface. This will become the first test one can perform on an exoplanet for the detection of an active climate system. For small rocky planets in the habitable zone of their stars, this weather system will be driven by water, and the detection can be considered as a strong proxy for truly habitable conditions.
翻訳日:2021-05-17 05:34:51 公開日:2020-12-10
# MorphGAN:認識バイアス検出のためのワンショット顔合成GAN

MorphGAN: One-Shot Face Synthesis GAN for Detecting Recognition Bias ( http://arxiv.org/abs/2012.05225v2 )

ライセンス: Link先を確認
Nataniel Ruiz, Barry-John Theobald, Anurag Ranjan, Ahmed Hussein Abdelaziz, Nicholas Apostoloff(参考訳) 顔認証ネットワークのバイアスを検出するには,特定の属性のみが何らかの制御方法で異なるサンプルを用いて,テスト中のネットワークを探索することが有用である。 しかし、興味のある属性を特定の制御で十分に大きなデータセットを取得することは困難である。 本研究では,前例のない人物の画像に特定の頭部ポーズと表情調整を適用するシミュレータについて述べる。 シミュレータはまず、提供された画像に3Dモデルに適合し、所望の頭部ポーズと表情制御を適用し、その後モデルを画像にレンダリングする。 次に、原画像に条件付けされた条件付き生成反転ネットワーク(GAN)とレンダリング可能なモデルを用いて、新規な表情と頭部ポーズを有する原人物の画像を生成する。 この条件付き GAN を MorphGAN と呼ぶ。 MorphGANを用いて生成された画像は、原画像中の人物の身元を保存し、提供された頭部ポーズと表情に対する制御により、顔と表情に関する顔認識深層ネットワークの堅牢性問題を識別するためのテストセットを作成することができる。 MorphGANが生成した画像は、トレーニングデータが不足している場合にデータ拡張としても機能する。 顔の小さなデータセットを新しいポーズと表現で拡張することで、増強やデータの不足に応じて、認識性能を最大9%向上することを示す。

To detect bias in face recognition networks, it can be useful to probe a network under test using samples in which only specific attributes vary in some controlled way. However, capturing a sufficiently large dataset with specific control over the attributes of interest is difficult. In this work, we describe a simulator that applies specific head pose and facial expression adjustments to images of previously unseen people. The simulator first fits a 3D morphable model to a provided image, applies the desired head pose and facial expression controls, then renders the model into an image. Next, a conditional Generative Adversarial Network (GAN) conditioned on the original image and the rendered morphable model is used to produce the image of the original person with the new facial expression and head pose. We call this conditional GAN -- MorphGAN. Images generated using MorphGAN conserve the identity of the person in the original image, and the provided control over head pose and facial expression allows test sets to be created to identify robustness issues of a facial recognition deep network with respect to pose and expression. Images generated by MorphGAN can also serve as data augmentation when training data are scarce. We show that by augmenting small datasets of faces with new poses and expressions improves the recognition performance by up to 9% depending on the augmentation and data scarcity.
翻訳日:2021-05-16 02:17:02 公開日:2020-12-10
# 多次元多層ディープネットワークによるロバストな顔ランドマーク検出

Robust Facial Landmark Detection by Multi-order Multi-constraint Deep Networks ( http://arxiv.org/abs/2012.04927v2 )

ライセンス: Link先を確認
Jun Wan, Zhihui Lai, Jing Li, Jie Zhou, Can Gao(参考訳) 近年,顔のランドマーク検出において熱マップの回帰が広く研究され,優れた性能が得られた。 しかしながら、既存のヒートマップ回帰に基づく顔ランドマーク検出手法のほとんどは、高次特徴相関の探索を怠り、より代表的特徴を学び、形状制約を強化するために非常に重要である。 さらに、最終的な予測されたランドマークに明示的なグローバル形状の制約が加えられていないため、精度が低下する。 本稿では,より強力な特徴相関と形状制約学習のためのマルチオーダーマルチ制約ディープネットワーク(MMDN)を提案する。 具体的には、より識別的な表現のための多階空間相関と多階チャネル相関を導入するために、IMCGモデルを提案する。 さらに, 明示的確率に基づく境界適応回帰法 (EPBR) を開発し, 大域的な形状制約を強化し, 予測境界における意味的に整合性のあるランドマークを探索し, 頑健な顔のランドマーク検出を行う。 提案したMDDNは、より正確な境界適応型ランドマークマップを生成し、大きなポーズのバリエーションと重いオクルージョンを持つ顔の予測されたランドマークに対する形状制約を効果的に強化できることは興味深い。 挑戦的なベンチマークデータセットの実験結果は、最先端の顔ランドマーク検出法よりもMDNの方が優れていることを示している。 コードはhttps://github.com/j unwan 2014/MMDN-masterで公開されている。

Recently, heatmap regression has been widely explored in facial landmark detection and obtained remarkable performance. However, most of the existing heatmap regression-based facial landmark detection methods neglect to explore the high-order feature correlations, which is very important to learn more representative features and enhance shape constraints. Moreover, no explicit global shape constraints have been added to the final predicted landmarks, which leads to a reduction in accuracy. To address these issues, in this paper, we propose a Multi-order Multi-constraint Deep Network (MMDN) for more powerful feature correlations and shape constraints learning. Specifically, an Implicit Multi-order Correlating Geometry-aware (IMCG) model is proposed to introduce the multi-order spatial correlations and multi-order channel correlations for more discriminative representations. Furthermore, an Explicit Probability-based Boundary-adaptive Regression (EPBR) method is developed to enhance the global shape constraints and further search the semantically consistent landmarks in the predicted boundary for robust facial landmark detection. It's interesting to show that the proposed MMDN can generate more accurate boundary-adaptive landmark heatmaps and effectively enhance shape constraints to the predicted landmarks for faces with large pose variations and heavy occlusions. Experimental results on challenging benchmark datasets demonstrate the superiority of our MMDN over state-of-the-art facial landmark detection methods. The code has been publicly available at https://github.com/j unwan2014/MMDN-maste r.
翻訳日:2021-05-16 02:04:00 公開日:2020-12-10
# スクリブルラインを用いたシーンテキスト検出

Scene Text Detection with Scribble Lines ( http://arxiv.org/abs/2012.05030v2 )

ライセンス: Link先を確認
Wenqing Zhang, Yang Qiu, Minghui Liao, Rui Zhang, Xiaolin Wei, Xiang Bai(参考訳) アカデミアと産業の両方でもっとも人気のあるトピックの一つであるシーンテキスト検出は、十分なトレーニングデータで素晴らしいパフォーマンスを達成できます。 しかし、シーンテキスト検出のアノテーションコストは、テキストの様々な形状のために従来のラベリング手法と大きく異なる。 したがって、検出性能を損なうことなく、より単純なラベル付け手法を研究することは実用的で洞察に富む。 本稿では,テキスト検出のためのポリゴンの代わりに,テキストをスクリブルラインでアノテートすることを提案する。 様々な形状のテキストの一般的なラベリング手法であり、低ラベリングコストを必要とする。 さらに,テキスト検出にスクリブルラインを使用するために,弱教師付きシーンテキスト検出フレームワークを提案する。 いくつかのベンチマーク実験により,提案手法は弱いラベル付け法と元のポリゴンラベリング法の間の性能ギャップを橋渡しし,性能が向上することを示した。 我々の実験でベンチマークの弱いアノテーションをリリースし、シンプルなアノテーションでより良いパフォーマンスを達成するためにシーンテキスト検出の分野に利益をもたらすことを期待します。

Scene text detection, which is one of the most popular topics in both academia and industry, can achieve remarkable performance with sufficient training data. However, the annotation costs of scene text detection are huge with traditional labeling methods due to the various shapes of texts. Thus, it is practical and insightful to study simpler labeling methods without harming the detection performance. In this paper, we propose to annotate the texts by scribble lines instead of polygons for text detection. It is a general labeling method for texts with various shapes and requires low labeling costs. Furthermore, a weakly-supervised scene text detection framework is proposed to use the scribble lines for text detection. The experiments on several benchmarks show that the proposed method bridges the performance gap between the weakly labeling method and the original polygon-based labeling methods, with even better performance. We will release the weak annotations of the benchmarks in our experiments and hope it will benefit the field of scene text detection to achieve better performance with simpler annotations.
翻訳日:2021-05-16 02:02:19 公開日:2020-12-10
# E3D:イベントベースの3次元形状再構成

E3D: Event-Based 3D Shape Reconstruction ( http://arxiv.org/abs/2012.05214v2 )

ライセンス: Link先を確認
Alexis Baudron, Zihao W. Wang, Oliver Cossairt and Aggelos K. Katsaggelos(参考訳) 3次元形状再構成は拡張現実/仮想現実の主要な構成要素である。 高度な技術にもかかわらず、既存のRGB、RGB-D、Lidarセンサーベースのソリューションは電力とデータ集約であり、エッジデバイスへのデプロイの課題をもたらす。 我々は,高ダイナミックレンジを実現しつつ,消費電力,遅延,データ費用を大幅に低減したセンサ,イベントカメラによる3D再構成にアプローチした。 従来のイベントベース3D再構成法は主に立体視に基づいているが,単眼のイベントカメラを用いたシルエットの多視点形状を課題としている。 動くイベントカメラからの出力は、空間時間勾配のスパースポイントセットであり、主にシーン/オブジェクトのエッジと輪郭をスケッチする。 まず,イベント・ツー・シルエット(e2s)ニューラルネットワークモジュールを導入し,イベントフレームのスタックを対応するシルエットに変換する。 第2に,3次元微分可能なレンダラ(pytorch3d)を用いてクロスビュー3dメッシュの一貫性を強制し,e2sとポージングネットワークを微調整するe3dを紹介する。 最後に,3d-to-eventsシミュレーションパイプラインを導入し,公開利用可能なオブジェクトデータセットに適用し,教師付き学習のための合成イベント/シルエットトレーニングペアを生成する。

3D shape reconstruction is a primary component of augmented/virtual reality. Despite being highly advanced, existing solutions based on RGB, RGB-D and Lidar sensors are power and data intensive, which introduces challenges for deployment in edge devices. We approach 3D reconstruction with an event camera, a sensor with significantly lower power, latency and data expense while enabling high dynamic range. While previous event-based 3D reconstruction methods are primarily based on stereo vision, we cast the problem as multi-view shape from silhouette using a monocular event camera. The output from a moving event camera is a sparse point set of space-time gradients, largely sketching scene/object edges and contours. We first introduce an event-to-silhouette (E2S) neural network module to transform a stack of event frames to the corresponding silhouettes, with additional neural branches for camera pose regression. Second, we introduce E3D, which employs a 3D differentiable renderer (PyTorch3D) to enforce cross-view 3D mesh consistency and fine-tune the E2S and pose network. Lastly, we introduce a 3D-to-events simulation pipeline and apply it to publicly available object datasets and generate synthetic event/silhouette training pairs for supervised learning.
翻訳日:2021-05-16 02:00:34 公開日:2020-12-10
# 地方選挙における有権者の説得

Persuading Voters in District-based Elections ( http://arxiv.org/abs/2012.05002v2 )

ライセンス: Link先を確認
Matteo Castiglioni, Nicola Gatti(参考訳) 我々は、エージェントが自分の情報を利用して選挙の結果を操作することができるシナリオに焦点を当てる。 特に,選挙の勝者が地区の大半で勝利する候補者である2人の候補者を対象に,地区ベースの選挙について検討した。 選挙区ベースの選挙は世界中で採用され(例えばイギリスやアメリカ)、広く研究されている投票機構(例えばk投票や複数投票)の自然な拡張である。 そこでは、マニピュレータ(sender)が、自らの信念を合理的に更新する投票者(receivers)に戦略的に情報を開示する。 送信者が受信者ごとにプライベート通信チャネルを使用できるプライベートシグナリングと、送信者が全ての受信者に対して単一の通信チャネルを使用できるパブリックシグナリングの両方について検討する。 さらに,まず,送信者が地域毎に1つの通信チャネルを使用できる半公開信号方式を導入する。 我々は,プライベート信号と(セミ)パブリック信号の区別が顕著であることを示す。 特に、最適なプライベートシグナリングスキームは、(半)公開シグナリングよりも任意に優れた勝利確率を提供し、P=NPでない限り、最適(半)公開シグナリングスキームを多項式時間内で近似することはできない。 しかし, 適切な緩和により, 多基準PTASを最適(半)公開シグナリング方式に設計できることを示す。 そこで我々は,比較安定性という新たな特性を導入し,送信者の効用関数が状態依存である場合に,選挙を超えた一般ベイズ的説得問題における公開シグナリングのための双基準PTASを設計する。

We focus on the scenario in which an agent can exploit his information advantage to manipulate the outcome of an election. In particular, we study district-based elections with two candidates, in which the winner of the election is the candidate that wins in the majority of the districts. District-based elections are adopted worldwide (e.g., UK and USA) and are a natural extension of widely studied voting mechanisms (e.g., k-voting and plurality voting). We resort to the Bayesian persuasion framework, where the manipulator (sender) strategically discloses information to the voters (receivers) that update their beliefs rationally. We study both private signaling, in which the sender can use a private communication channel per receiver, and public signaling, in which the sender can use a single communication channel for all the receivers. Furthermore, for the first time, we introduce semi-public signaling in which the sender can use a single communication channel per district. We show that there is a sharp distinction between private and (semi-)public signaling. In particular, optimal private signaling schemes can provide an arbitrarily better probability of victory than (semi-)public ones and can be computed efficiently, while optimal (semi-)public signaling schemes cannot be approximated to within any factor in polynomial time unless P=NP. However, we show that reasonable relaxations allow the design of multi-criteria PTASs for optimal (semi-)public signaling schemes. In doing so, we introduce a novel property, namely comparative stability, and we design a bi-criteria PTAS for public signaling in general Bayesian persuasion problems beyond elections when the sender's utility function is state-dependent.
翻訳日:2021-05-16 01:56:23 公開日:2020-12-10
# (参考訳) ソースデータのない教師なしドメイン適応オブジェクト検出のための無料ランチ [全文訳有]

A Free Lunch for Unsupervised Domain Adaptive Object Detection without Source Data ( http://arxiv.org/abs/2012.05400v1 )

ライセンス: CC BY 4.0
Xianfeng Li and Weijie Chen and Di Xie and Shicai Yang and Peng Yuan and Shiliang Pu and Yueting Zhuang(参考訳) 教師なしのドメイン適応(UDA)は、ソースとターゲットのドメインデータが自由に利用可能であり、通常、ドメインギャップを減らすために一緒に訓練されていると仮定する。 しかし、データプライバシとデータ転送の非効率を考えると、実際のシナリオでは実用的ではない。 したがって、ラベル付きソースデータにアクセスすることなく、ターゲットドメイン内のネットワークを最適化する。 オブジェクト検出におけるこの方向を探索するため,我々はまず,ノイズのあるラベルで学習する問題のモデル化を通じて,ソースデータフリーなドメイン適応オブジェクト検出(SFOD)フレームワークを提案する。 一般に、ソースドメインから事前訓練されたネットワークを活用して、ターゲットドメイン最適化のための擬似ラベルを生成する。 しかし,対象ドメインにラベルが存在しないため,擬似ラベルの品質評価は困難である。 本稿では,自己エントロピー降下 (SED) は,手作りラベルを使わずに,信頼できる擬似ラベル生成のための適切な信頼度しきい値を求めるための指標である。 それでも、完全にクリーンなラベルはまだ達成できない。 徹底的な実験分析の結果,生成する雑音ラベルにおいて偽陰性が支配的であることが判明した。 間違いなく、偽陰性のマイニングはパフォーマンス改善に役立ち、モザイクのようなデータ拡張を通じて偽陰性のシミュレーションを容易にする。 4つの代表的な適応タスクで実施された広範囲な実験により,提案手法が最先端の性能を容易に達成できることが実証された。 別の見方では、ラベル付きソースデータが既存のメソッドで完全に活用されていないことをUDAコミュニティに思い出させる。

Unsupervised domain adaptation (UDA) assumes that source and target domain data are freely available and usually trained together to reduce the domain gap. However, considering the data privacy and the inefficiency of data transmission, it is impractical in real scenarios. Hence, it draws our eyes to optimize the network in the target domain without accessing labeled source data. To explore this direction in object detection, for the first time, we propose a source data-free domain adaptive object detection (SFOD) framework via modeling it into a problem of learning with noisy labels. Generally, a straightforward method is to leverage the pre-trained network from the source domain to generate the pseudo labels for target domain optimization. However, it is difficult to evaluate the quality of pseudo labels since no labels are available in target domain. In this paper, self-entropy descent (SED) is a metric proposed to search an appropriate confidence threshold for reliable pseudo label generation without using any handcrafted labels. Nonetheless, completely clean labels are still unattainable. After a thorough experimental analysis, false negatives are found to dominate in the generated noisy labels. Undoubtedly, false negatives mining is helpful for performance improvement, and we ease it to false negatives simulation through data augmentation like Mosaic. Extensive experiments conducted in four representative adaptation tasks have demonstrated that the proposed framework can easily achieve state-of-the-art performance. From another view, it also reminds the UDA community that the labeled source data are not fully exploited in the existing methods.
翻訳日:2021-05-16 00:24:22 公開日:2020-12-10
# (参考訳) 個人差分テキスト生成機構の設計における研究課題 [全文訳有]

Research Challenges in Designing Differentially Private Text Generation Mechanisms ( http://arxiv.org/abs/2012.05403v1 )

ライセンス: CC BY 4.0
Oluwaseyi Feyisetan, Abhinav Aggarwal, Zekun Xu, Nathanael Teissier(参考訳) ユーザのデータから正確に学習し、定量化されたプライバシ保証を確保しながら、ユーザの信頼を維持しながら、よりよい機械学習(ML)モデルを構築する機会を提供する。 近年の文献は、テキストクエリの保証を提供するために、一般化された微分プライバシーの適用性を示している。 このようなメカニズムは、高次元のテキストのベクトル表現にプライバシー保護ノイズを加え、ノイズの多いベクトルのテキストベースの投影を返す。 しかし、これらのメカニズムはプライバシとユーティリティのトレードオフにおいて最適ではない。 これは、固定された大域感度などの要因により、高密度空間に過剰なノイズが付加され、同時にセンシティブな外れ値に対する保護が保証される。 本稿では,これらの差分的プライベートテキスト機構におけるプライバシとユーティリティのトレードオフのバランスをとる上での課題について述べる。 高レベルでは、(1)プライバシーの増幅ステップにノイズの一部を否定するlacと呼ばれるフレームワークと、(2)単語周辺の局所領域に基づいてノイズを校正するための3つの異なるテクニックのスイートという2つの提案がある。 この論文の目標は,単一ソリューションの評価ではなく,これらの課題とより優れたメカニズムを構築するためのチャートパスに関する議論をさらに進めることである。

Accurately learning from user data while ensuring quantifiable privacy guarantees provides an opportunity to build better Machine Learning (ML) models while maintaining user trust. Recent literature has demonstrated the applicability of a generalized form of Differential Privacy to provide guarantees over text queries. Such mechanisms add privacy preserving noise to vectorial representations of text in high dimension and return a text based projection of the noisy vectors. However, these mechanisms are sub-optimal in their trade-off between privacy and utility. This is due to factors such as a fixed global sensitivity which leads to too much noise added in dense spaces while simultaneously guaranteeing protection for sensitive outliers. In this proposal paper, we describe some challenges in balancing the tradeoff between privacy and utility for these differentially private text mechanisms. At a high level, we provide two proposals: (1) a framework called LAC which defers some of the noise to a privacy amplification step and (2), an additional suite of three different techniques for calibrating the noise based on the local region around a word. Our objective in this paper is not to evaluate a single solution but to further the conversation on these challenges and chart pathways for building better mechanisms.
翻訳日:2021-05-16 00:10:26 公開日:2020-12-10
# (参考訳) エッジにおける人工知能 [全文訳有]

Artificial Intelligence at the Edge ( http://arxiv.org/abs/2012.05410v1 )

ライセンス: CC BY 4.0
Elisa Bertino and Sujata Banerjee(参考訳) IoT(Internet of Things)とエッジコンピューティングアプリケーションは、世界が現在経験している世界的なパンデミックや自然災害への対応など、さまざまな社会的ニーズをサポートすることを目指している。 没入型ビデオ会議、拡張現実(ar)、自動運転車、教育、医療、災害復旧などの分野におけるリアルタイムインタラクティブなアプリケーションの必要性は、これまで以上に高まっている。 同時に、人工知能(ai)/機械学習(ml)、高度な通信システム(5g以降)、プライバシ保存計算、ハードウェアアクセラレータなど、非常に関連性の高い分野における最近の技術ブレークスルーがある。 5g モバイル通信ネットワークは通信能力を高め,伝送遅延とエラーを低減し,新たなアプリケーションに必要な省エネを実現している。 将来の6G技術は、可視光通信など多くの技術を統合し、ホログラフィー通信や高精度製造など、画期的なアプリケーションをサポートする。 これらのアプリケーションの多くは、アプリケーションのエンドポイントに近い計算と分析を必要とします。 エッジに適用されるAI技術は、新しいアプリケーションを動かすことと、エッジインフラストラクチャのより効率的な運用の必要性の両方において、大きな可能性を秘めている。 しかし、高度なアプリケーションとAIシステムに対する特定のリアルタイム要求からなる複雑なエコシステムにAIシステムをデプロイする方法を理解することは、非常に重要である。

The Internet of Things (IoT) and edge computing applications aim to support a variety of societal needs, including the global pandemic situation that the entire world is currently experiencing and responses to natural disasters. The need for real-time interactive applications such as immersive video conferencing, augmented/virtual reality, and autonomous vehicles, in education, healthcare, disaster recovery and other domains, has never been higher. At the same time, there have been recent technological breakthroughs in highly relevant fields such as artificial intelligence (AI)/machine learning (ML), advanced communication systems (5G and beyond), privacy-preserving computations, and hardware accelerators. 5G mobile communication networks increase communication capacity, reduce transmission latency and error, and save energy -- capabilities that are essential for new applications. The envisioned future 6G technology will integrate many more technologies, including for example visible light communication, to support groundbreaking applications, such as holographic communications and high precision manufacturing. Many of these applications require computations and analytics close to application end-points: that is, at the edge of the network, rather than in a centralized cloud. AI techniques applied at the edge have tremendous potential both to power new applications and to need more efficient operation of edge infrastructure. However, it is critical to understand where to deploy AI systems within complex ecosystems consisting of advanced applications and the specific real-time requirements towards AI systems.
翻訳日:2021-05-15 23:53:10 公開日:2020-12-10
# (参考訳) 医用画像のための遠方ドメイン転送学習 [全文訳有]

Distant Domain Transfer Learning for Medical Imaging ( http://arxiv.org/abs/2012.06346v1 )

ライセンス: CC BY-SA 4.0
Shuteng Niu, Meryl Liu, Yongxin Liu, Jian Wang, Houbing Song(参考訳) 医用画像処理は、医用モノのインターネット(IoMT)分野において最も重要なトピックの1つである。 近年,深層学習手法が医用画像タスクにおいて最先端の成果を上げている。 しかし,従来のディープラーニングには,1)訓練データ不足,2)訓練データと試験データとのドメインミスマッチという2つの欠点がある。 本稿では,医療画像分類のための遠隔ドメイン転送学習(DDTL)手法を提案する。 さらに,本手法を最近の問題(コロナウイルス診断)に適用した。 いくつかの研究は、肺CT画像が、迅速かつ正確な新型コロナウイルスの診断に使用できることを示唆している。 しかし,病気の新規性やプライバシポリシの多さから,十分にラベルされたトレーニングデータへのアクセスは容易ではない。 さらに,提案手法は,DFF分類モデルと小型Unetセグメンテーションモデルという2つの要素を持つ。 DDTL(Distant Domain Transfer Learning)と呼ばれる、よく研究されていないが重要な転帰学習問題に関連している。 DDTLは、ドメインやタスクが全く異なる場合でも、効率的に転送することを目的としている。 本研究では,未ラベルのOffice-31,Catech-256 ,胸部X線画像データセットをソースデータとし,ターゲットデータとして少量のCOVID-19肺CTを用いた診断用DDTLモデルを開発した。 本研究の主な貢献は,1) 提案手法は, 容易にアクセス可能な遠隔ドメインから収集したラベル付きデータの恩恵を受け, 2) トレーニングデータとテストデータ間の分散シフトを効果的に処理し, 3) 96 % の分類精度を達成し, 「非転送」 アルゴリズムよりも13 % の分類精度を達成し, 既存の転送アルゴリズムや遠隔転送アルゴリズムよりも8 % 高い分類精度を実現したことである。

Medical image processing is one of the most important topics in the field of the Internet of Medical Things (IoMT). Recently, deep learning methods have carried out state-of-the-art performances on medical image tasks. However, conventional deep learning have two main drawbacks: 1) insufficient training data and 2) the domain mismatch between the training data and the testing data. In this paper, we propose a distant domain transfer learning (DDTL) method for medical image classification. Moreover, we apply our methods to a recent issue (Coronavirus diagnose). Several current studies indicate that lung Computed Tomography (CT) images can be used for a fast and accurate COVID-19 diagnosis. However, the well-labeled training data cannot be easily accessed due to the novelty of the disease and a number of privacy policies. Moreover, the proposed method has two components: Reduced-size Unet Segmentation model and Distant Feature Fusion (DFF) classification model. It is related to a not well-investigated but important transfer learning problem, termed Distant Domain Transfer Learning (DDTL). DDTL aims to make efficient transfers even when the domains or the tasks are entirely different. In this study, we develop a DDTL model for COVID-19 diagnose using unlabeled Office-31, Catech-256, and chest X-ray image data sets as the source data, and a small set of COVID-19 lung CT as the target data. The main contributions of this study: 1) the proposed method benefits from unlabeled data collected from distant domains which can be easily accessed, 2) it can effectively handle the distribution shift between the training data and the testing data, 3) it has achieved 96\% classification accuracy, which is 13\% higher classification accuracy than "non-transfer" algorithms, and 8\% higher than existing transfer and distant transfer algorithms.
翻訳日:2021-05-15 23:50:04 公開日:2020-12-10
# (参考訳) デモグラフィック, スタンス, 市民性, トピックスを用いたアノテーション付きソーシャルメディアコーパス作成フレームワーク [全文訳有]

A Framework for Generating Annotated Social Media Corpora with Demographics, Stance, Civility, and Topicality ( http://arxiv.org/abs/2012.05444v1 )

ライセンス: CC BY-SA 4.0
Shubhanshu Mishra, Daniel Collier(参考訳) 本稿では,ソーシャルメディアのテキストコーパスを様々なカテゴリにアノテートするためのフレームワークを提案する。 ソーシャルメディアデータは個人によって生成されるため、個人統計属性のテキストに注釈を付け、コーパスの社会技術的分析を可能にすることが重要である。 さらに、大規模なデータセットを分析する際、小さなデータサンプルに注釈を付け、このサンプルを使用して予測モデルをトレーニングして、関連するカテゴリの完全なデータをアノテートすることができる。 facebookのコメントコーポラを、性別、軍事関係、年齢グループ、政治的傾倒、人種、スタンス、トピックアリーティ、ネオリベラルな見解、コメントの市民性にアノテートした学生ローン議論のケーススタディを用いています。 https://github.com/s ocialmediaie/student debtfbcomments.com/f acebookコメントのデータセットを3つリリースし、さらなる調査を行っています。

In this paper we introduce a framework for annotating a social media text corpora for various categories. Since, social media data is generated via individuals, it is important to annotate the text for the individuals demographic attributes to enable a socio-technical analysis of the corpora. Furthermore, when analyzing a large data-set we can often annotate a small sample of data and then train a prediction model using this sample to annotate the full data for the relevant categories. We use a case study of a Facebook comment corpora on student loan discussion which was annotated for gender, military affiliation, age-group, political leaning, race, stance, topicalilty, neoliberlistic views and civility of the comment. We release three datasets of Facebook comments for further research at: https://github.com/s ocialmediaie/Student DebtFbComments
翻訳日:2021-05-15 23:33:48 公開日:2020-12-10
# (参考訳) 航空機ダイナミクスと多層パーセプトロンニューラルネットワークを用いたクイックアクセスレコーダからの航空機質量推定のためのデータ駆動方式 [全文訳有]

Data-driven Method for Estimating Aircraft Mass from Quick Access Recorder using Aircraft Dynamics and Multilayer Perceptron Neural Network ( http://arxiv.org/abs/2012.05907v1 )

ライセンス: CC BY 4.0
Xinyu He, Fang He, Xinting Zhu, Lishuai Li(参考訳) 安全管理と性能最適化の観点から、正確な航空機質量推定は航空会社にとって重要である。 乗客と荷物を積載する航空機は、安全上の危険をもたらす可能性がある。 対照的に、航空機のペイロード輸送能力を完全に活用していないことは、その運用効率と航空会社の収益性を損なう。 しかし、飛行毎の航空機質量の正確な決定は、ペイロードを含む各航空機部品の重量を測ることは現実的ではないため実現不可能である。 既存の航空機質量推定法は、通常プロプライエタリな情報と見なされる航空機およびエンジンの性能パラメータに依存する。 さらに、これらのパラメータの値は異なる操作条件下で異なるが、他のパラメータは大きな推定誤差を受ける可能性がある。 本稿では,全機にデジタル飛行データレコーダであるクイックアクセスレコーダ(QAR)を用いて,各飛行中に初期航空機の上昇量を記録するためのデータ駆動方式を提案する。 物理モデルを用いてQARが記録した数千のパラメータの中から適切なパラメータを選択する必要がある。 その後、選択したデータを処理し、初期上昇航空機質量予測モデルを構築するための多層パーセプトロンニューラルネットワークへの入力として提供する。 提案手法は,航空機質量推定におけるモデルベースおよびデータ駆動手法の利点を提供する。 この方法は航空機やエンジンパラメーターに明示的に依存していないため、全ての航空機タイプに普遍的に適用される。 本研究はボーイング777-300erの航空機に提案手法を適用し,その精度を実証した。 このツールを使って航空機のペイロードをよりよく活用することができる。

Accurate aircraft-mass estimation is critical to airlines from the safety-management and performance-optimiza tion viewpoints. Overloading an aircraft with passengers and baggage might result in a safety hazard. In contrast, not fully utilizing an aircraft's payload-carrying capacity undermines its operational efficiency and airline profitability. However, accurate determination of the aircraft mass for each operating flight is not feasible because it is impractical to weigh each aircraft component, including the payload. The existing methods for aircraft-mass estimation are dependent on the aircraft- and engine-performance parameters, which are usually considered proprietary information. Moreover, the values of these parameters vary under different operating conditions while those of others might be subject to large estimation errors. This paper presents a data-driven method involving use of the quick access recorder (QAR)-a digital flight-data recorder-installed on all aircrafts to record the initial aircraft climb mass during each flight. The method requires users to select appropriate parameters among several thousand others recorded by the QAR using physical models. The selected data are subsequently processed and provided as input to a multilayer perceptron neural network for building the model for initial-climb aircraft-mass prediction. Thus, the proposed method offers the advantages of both the model-based and data-driven approaches for aircraft-mass estimation. Because this method does not explicitly rely on any aircraft or engine parameter, it is universally applicable to all aircraft types. In this study, the proposed method was applied to a set of Boeing 777-300ER aircrafts, the results of which demonstrated reasonable accuracy. Airlines can use this tool to better utilize aircraft's payload.
翻訳日:2021-05-15 22:53:57 公開日:2020-12-10
# (参考訳) T-WaveNet:センサによる時系列解析のための木構造ウェーブレットニューラルネットワーク [全文訳有]

T-WaveNet: Tree-Structured Wavelet Neural Network for Sensor-Based Time Series Analysis ( http://arxiv.org/abs/2012.05456v1 )

ライセンス: CC BY 4.0
Minhao Liu, Ailing Zeng, Qiuxia Lai, Qiang Xu(参考訳) センサに基づく時系列分析は、アクティビティ認識や脳-コンピュータインタフェースといったアプリケーションに不可欠なタスクである。 近年、ディープニューラルネットワーク(DNN)によって抽出された特徴は、従来の手作りのものよりも効果的であることが示されている。 しかし、これらのソリューションのほとんどは、センサデータに格納されたアプリケーション固有の情報を抽出するために、ネットワークのみに依存している。 通常、周波数成分の小さなサブセットがセンサーデータの主要な情報を持っているという事実から、センサデータ解析のための新しい木構造ウェーブレットニューラルネットワーク、すなわち 'emph{T-WaveNet} を提案する。 具体的には、T-WaveNetを用いて、センサデータのパワースペクトル分析を行い、入力信号を様々な周波数サブバンドに分解する。 そして、木構造ネットワークを構築し、木上の各ノード(周波数サブバンドに対応する)は、可逆ニューラルネットワーク(INN)ベースのウェーブレット変換で構築する。 これにより、T-WaveNetは既存のDNNベースの技術よりも効果的なセンサ情報表現を提供し、活動認識のためのUCI-HAR、ジェスチャー認識のためのOPPORTUNITY、意図認識のためのBCICIV2a、筋肉運動認識のためのNinaPro DB1など、さまざまなセンサデータセット上で最先端のパフォーマンスを実現する。

Sensor-based time series analysis is an essential task for applications such as activity recognition and brain-computer interface. Recently, features extracted with deep neural networks (DNNs) are shown to be more effective than conventional hand-crafted ones. However, most of these solutions rely solely on the network to extract application-specific information carried in the sensor data. Motivated by the fact that usually a small subset of the frequency components carries the primary information for sensor data, we propose a novel tree-structured wavelet neural network for sensor data analysis, namely \emph{T-WaveNet}. To be specific, with T-WaveNet, we first conduct a power spectrum analysis for the sensor data and decompose the input signal into various frequency subbands accordingly. Then, we construct a tree-structured network, and each node on the tree (corresponding to a frequency subband) is built with an invertible neural network (INN) based wavelet transform. By doing so, T-WaveNet provides more effective representation for sensor information than existing DNN-based techniques, and it achieves state-of-the-art performance on various sensor datasets, including UCI-HAR for activity recognition, OPPORTUNITY for gesture recognition, BCICIV2a for intention recognition, and NinaPro DB1 for muscular movement recognition.
翻訳日:2021-05-15 22:42:33 公開日:2020-12-10
# (参考訳) モデル説明を用いた画像分類におけるバイアスの調査 [全文訳有]

Investigating Bias in Image Classification using Model Explanations ( http://arxiv.org/abs/2012.05463v1 )

ライセンス: CC BY 4.0
Schrasing Tong (1), Lalana Kagal (1) ((1) Massachusetts Institute of Technology)(参考訳) 本研究では,識別特徴を強調表示することで,画像分類におけるバイアスを効率的に検出できるかどうかを評価した。 この目的のために,バイアス検出の重要な特性を定式化し,モデルのバイアスの程度が変化するにつれて説明がどのように変化するかを観察した。 この論文は、説明を用いてバイアスを検出するための強みとベストプラクティス、および3つの主な弱点を識別する: 説明はバイアスの程度を十分に見積もらず、分析にさらなるバイアスをもたらす可能性があり、時には人的労力の面で非効率である。

We evaluated whether model explanations could efficiently detect bias in image classification by highlighting discriminating features, thereby removing the reliance on sensitive attributes for fairness calculations. To this end, we formulated important characteristics for bias detection and observed how explanations change as the degree of bias in models change. The paper identifies strengths and best practices for detecting bias using explanations, as well as three main weaknesses: explanations poorly estimate the degree of bias, could potentially introduce additional bias into the analysis, and are sometimes inefficient in terms of human effort involved.
翻訳日:2021-05-15 22:26:34 公開日:2020-12-10
# (参考訳) 繰り返し構築されたガンマ・ミニマックス推定器による一般モデルにおけるあいまいな事前情報活用

Leveraging vague prior information in general models via iteratively constructed Gamma-minimax estimators ( http://arxiv.org/abs/2012.05465v1 )

ライセンス: CC BY 4.0
Hongxiang Qiu, Alex Luedtke(参考訳) ガンマ・ミニマックス推定(gamma-minimax estimation)は、ある特定の事前分布を特定できない場合に、事前情報を推定手順に組み込む手法である。 提案手法では,事前分布の$\Gamma$に対して,最悪のベイズリスクを最小限に抑える推定器を提案する。 伝統的に、ガンマ・ミニマックス推定はパラメトリックモデルに対して定義される。 本稿では,一般モデルに対するガンマ最小性を定義し,一般モデル空間に対するガンマ最小推定器と一般化モーメントに制約された事前分布の集合を計算するための収束保証付き反復アルゴリズムを提案する。 また,ニューラルネットワークによる候補推定器の空間の符号化も提案する。 本手法は,生物多様性研究におけるエントロピー推定と問題点の2つの設定で説明する。

Gamma-minimax estimation is an approach to incorporate prior information into an estimation procedure when it is implausible to specify one particular prior distribution. In this approach, we aim for an estimator that minimizes the worst-case Bayes risk over a set $\Gamma$ of prior distributions. Traditionally, Gamma-minimax estimation is defined for parametric models. In this paper, we define Gamma-minimaxity for general models and propose iterative algorithms with convergence guarantees to compute Gamma-minimax estimators for a general model space and a set of prior distributions constrained by generalized moments. We also propose encoding the space of candidate estimators by neural networks to enable flexible estimation. We illustrate our method in two settings, namely entropy estimation and a problem that arises in biodiversity studies.
翻訳日:2021-05-15 22:17:01 公開日:2020-12-10
# (参考訳) 能動転写学習を用いた臨床テキストの因果的マイニングへの実践的アプローチ

A Practical Approach towards Causality Mining in Clinical Text using Active Transfer Learning ( http://arxiv.org/abs/2012.07563v1 )

ライセンス: CC BY 4.0
Musarrat Hussain, Fahad Ahmed Satti, Jamil Hussain, Taqdir Ali, Syed Imran Ali, Hafiz Syed Muhammad Bilal, Gwang Hoon Park, Sungyoung Lee(参考訳) 目的:因果関係のマイニングは、最先端の自然言語処理技術の応用を必要とする活発な研究領域である。 医療分野において、医療専門家は、明確に定義されたスキーマ駆動の情報システムの限界を克服するために臨床テキストを作成する。 本研究の目的は,臨床テキストを因果知識に変換する枠組みを構築することである。 方法:用語展開,フレーズ生成,BERTに基づくフレーズ埋め込みと意味マッチング,セマンティックエンリッチメント,専門家による検証,モデル進化に基づく実践的アプローチを用いて,包括的な因果的マイニングの枠組みを構築した。 このactive transfer learningベースのフレームワークは、補足サービスとともに、臨床テキストから因果関係とその関連エンティティを抽出・強化することができる。 結果:マルチモデルトランスファー学習手法は,複数のイテレーションを繰り返すことで,精度の向上と再現性の向上を実現し,精度を一定に保ちながらリコールを行う。 また,提案手法と共通する手法の比較分析を行い,提案手法の正しさとほとんどの因果関係を捉える能力を示す。 結論: このフレームワークは医療領域において最先端の結果を提供している。 しかし、他のドメインで因果検出を提供するためにフレームワークを微調整することもできる。 意義: 提示されたフレームワークは、あらゆるドメインで利用できるほど汎用的であり、医療サービスは、そのデータの輝かしく多様な性質のために、大きな利益を得ることができる。 この因果知識抽出フレームワークは、臨床テキストの要約、ペルソナの作成、医療知識の発見、臨床意思決定への証拠の提供に使用することができる。

Objective: Causality mining is an active research area, which requires the application of state-of-the-art natural language processing techniques. In the healthcare domain, medical experts create clinical text to overcome the limitation of well-defined and schema driven information systems. The objective of this research work is to create a framework, which can convert clinical text into causal knowledge. Methods: A practical approach based on term expansion, phrase generation, BERT based phrase embedding and semantic matching, semantic enrichment, expert verification, and model evolution has been used to construct a comprehensive causality mining framework. This active transfer learning based framework along with its supplementary services, is able to extract and enrich, causal relationships and their corresponding entities from clinical text. Results: The multi-model transfer learning technique when applied over multiple iterations, gains performance improvements in terms of its accuracy and recall while keeping the precision constant. We also present a comparative analysis of the presented techniques with their common alternatives, which demonstrate the correctness of our approach and its ability to capture most causal relationships. Conclusion: The presented framework has provided cutting-edge results in the healthcare domain. However, the framework can be tweaked to provide causality detection in other domains, as well. Significance: The presented framework is generic enough to be utilized in any domain, healthcare services can gain massive benefits due to the voluminous and various nature of its data. This causal knowledge extraction framework can be used to summarize clinical text, create personas, discover medical knowledge, and provide evidence to clinical decision making.
翻訳日:2021-05-15 22:16:11 公開日:2020-12-10
# (参考訳) 音声認識のための統一ストリームと非ストリーミング2パスエンドツーエンドモデル [全文訳有]

Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech Recognition ( http://arxiv.org/abs/2012.05481v1 )

ライセンス: CC BY 4.0
Binbin Zhang, Di Wu, Zhuoyuan Yao, Xiong Wang, Fan Yu, Chao Yang, Liyong Guo, Yaguang Hu, Lei Xie, Xin Lei(参考訳) 本稿では,ストリーミングと非ストリーミングのエンドツーエンド(E2E)音声認識を単一モデルで統一する新しい2パス手法を提案する。 このモデルでは,エンコーダのコンフォメータ層を変更するハイブリッドCTC/アテンションアーキテクチャを採用している。 任意のコンテキスト長を許容する動的チャンクに基づく注意戦略を提案する。 推論時、CTCデコーダはストリーミング方式でn-best仮説を生成する。 推測遅延はチャンクサイズを変更するだけで簡単に制御できる。 CTC仮説は、最終的な結果を得るためにアテンションデコーダによって再描画される。 この効率的な再描画プロセスは、文レベルの遅延を非常に少なくする。 オープンな170時間AISHELL-1データセットに対する実験により,提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統合できることを示した。 AISHELL-1テストセットでは、標準の非ストリーミング変換器と比較して、ASRの相対的文字誤り率(CER)が5.60%減少する。 同じモデルはストリーミングasrシステムで640msのレイテンシを持つ5.42%のcerを実現する。

In this paper, we present a novel two-pass approach to unify streaming and non-streaming end-to-end (E2E) speech recognition in a single model. Our model adopts the hybrid CTC/attention architecture, in which the conformer layers in the encoder are modified. We propose a dynamic chunk-based attention strategy to allow arbitrary right context length. At inference time, the CTC decoder generates n-best hypotheses in a streaming way. The inference latency could be easily controlled by only changing the chunk size. The CTC hypotheses are then rescored by the attention decoder to get the final result. This efficient rescoring process causes very little sentence-level latency. Our experiments on the open 170-hour AISHELL-1 dataset show that, the proposed method can unify the streaming and non-streaming model simply and efficiently. On the AISHELL-1 test set, our unified model achieves 5.60% relative character error rate (CER) reduction in non-streaming ASR compared to a standard non-streaming transformer. The same model achieves 5.42% CER with 640ms latency in a streaming ASR system.
翻訳日:2021-05-15 22:15:01 公開日:2020-12-10
# (参考訳) 臨床実習ガイドラインからAIによる知識抽出:研究を実践に変える

AI Driven Knowledge Extraction from Clinical Practice Guidelines: Turning Research into Practice ( http://arxiv.org/abs/2012.05489v1 )

ライセンス: CC BY 4.0
Musarrat Hussain, Jamil Hussain, Taqdir Ali, Fahad Ahmed Satti, Sungyoung Lee(参考訳) 背景と目的:臨床実習ガイドライン(CPGs)は、医療領域における最先端の研究成果を医療従事者と共有するための最前線の方法論であり、診療のバリエーションを制限し、臨床費用を削減し、医療の質を改善し、エビデンスベースの治療を提供する。 しかし, CPGの多量から関連する知識を抽出することは, すでに重荷を負っている医療従事者にとって不可能であり, 臨床所見と実際の実践との間に大きなギャップが生じる。 したがって、最先端のコンピューティング研究、特に機械学習は、cpgから知識を抽出し、医療研究と実践の間のギャップを減らすための人工知能ベースのソリューションを提供するために使用される。 方法: 本研究は, CPGから知識を抽出し, ギャップを減らし, 最新の研究成果を臨床実践に転換する手法を提案する。 まず,cpg文を条件処理,条件対応,動作,および文中の情報に基づいて適用できない4つのクラスに分類する。 我々は、最先端の単語埋め込みによる深層学習を用いて、分類過程における単語ベクトル法の改良を行った。 第二に、分類文中の条件や動作句の認識を支援する分類文の修飾語を識別する。 最後に、条件とアクションフレーズは処理され、普通のルールに変換されます if Condition(s) Then Actionフォーマット。 結果: 高血圧, 鼻鼻腔炎, 喘息の3つの領域のガイドラインについて検討した。 ディープラーニングモデルは、CPG文を95%の精度で分類する。 ルール抽出はユーザ中心のアプローチで検証され、jaccard係数は0.6、0.7、0.4となり、それぞれ3人の人間専門家がルールを抽出した。

Background and Objectives: Clinical Practice Guidelines (CPGs) represent the foremost methodology for sharing state-of-the-art research findings in the healthcare domain with medical practitioners to limit practice variations, reduce clinical cost, improve the quality of care, and provide evidence based treatment. However, extracting relevant knowledge from the plethora of CPGs is not feasible for already burdened healthcare professionals, leading to large gaps between clinical findings and real practices. It is therefore imperative that state-of-the-art Computing research, especially machine learning is used to provide artificial intelligence based solution for extracting the knowledge from CPGs and reducing the gap between healthcare research/guidelines and practice. Methods: This research presents a novel methodology for knowledge extraction from CPGs to reduce the gap and turn the latest research findings into clinical practice. First, our system classifies the CPG sentences into four classes such as condition-action, condition-consequenc es, action, and not-applicable based on the information presented in a sentence. We use deep learning with state-of-the-art word embedding, improved word vectors technique in classification process. Second, it identifies qualifier terms in the classified sentences, which assist in recognizing the condition and action phrases in a sentence. Finally, the condition and action phrase are processed and transformed into plain rule If Condition(s) Then Action format. Results: We evaluate the methodology on three different domains guidelines including Hypertension, Rhinosinusitis, and Asthma. The deep learning model classifies the CPG sentences with an accuracy of 95%. While rule extraction was validated by user-centric approach, which achieved a Jaccard coefficient of 0.6, 0.7, and 0.4 with three human experts extracted rules, respectively.
翻訳日:2021-05-15 21:42:00 公開日:2020-12-10
# (参考訳) 解釈可能性に対するシャプリークレジット割当について [全文訳有]

On Shapley Credit Allocation for Interpretability ( http://arxiv.org/abs/2012.05506v1 )

ライセンス: CC0 1.0
Debraj Basu(参考訳) 学習モデルの判断を解釈する際に適切な質問を行うことの重要性を強調する。 我々はjanzing et から理論機械の自然な拡張について論じる。 アル なぜ私のモデルは、ある人が癌を患っていると予測したのか? より関係のある質問に答えるために、"なぜ私のモデルは癌を予測したのか? 前者はモデルに対する変数の直接的な影響を定量化するが、後者は間接的な効果も考慮し、人間が原因や効果の観点から推論できる意味のある洞察を与える。 我々は,観察的,モデル特異的,因果的という3つの解釈の広いカテゴリを提案する。 さらに,本論文では,解釈の性質を異なる尺度で織り込むことによって特徴の関連性を定量化する。 また,このモデルの予測値の他に,情報的候補としての統計的不確実性と分散の尺度や,各データポイントについての説明を生成する上でのメリットについても論じる。 これらの尺度は, モデル出力に対する変数の影響を調べるだけでなく, モデルの予測性能にも有効である。

We emphasize the importance of asking the right question when interpreting the decisions of a learning model. We discuss a natural extension of the theoretical machinery from Janzing et. al. 2020, which answers the question "Why did my model predict a person has cancer?" for answering a more involved question, "What caused my model to predict a person has cancer?" While the former quantifies the direct effects of variables on the model, the latter also accounts for indirect effects, thereby providing meaningful insights wherever human beings can reason in terms of cause and effect. We propose three broad categories for interpretations: observational, model-specific and causal each of which are significant in their own right. Furthermore, this paper quantifies feature relevance by weaving different natures of interpretations together with different measures as characteristic functions for Shapley symmetrization. Besides the widely used expected value of the model, we also discuss measures of statistical uncertainty and dispersion as informative candidates, and their merits in generating explanations for each data point, some of which are used in this context for the first time. These measures are not only useful for studying the influence of variables on the model output, but also on the predictive performance of the model, and for that we propose relevant characteristic functions that are also used for the first time.
翻訳日:2021-05-15 21:19:35 公開日:2020-12-10
# (参考訳) バッチサイズパラメータの違いがcovid-19の予測に及ぼす影響 [全文訳有]

Effect of Different Batch Size Parameters on Predicting of COVID19 Cases ( http://arxiv.org/abs/2012.05534v1 )

ライセンス: CC BY 4.0
Ali Narin and Ziynet Pamuk(参考訳) 新型コロナウイルス感染症(COVID19)は、2019年12月以来数千人、あるいは数百万人が死亡している非常に深刻な流行だ。 2020年3月に世界保健機関によってパンデミックとして定義された。 このウイルスは、通常、くしゃみによって引き起こされる液滴や、感染した表面に触れることによって伝染する。 ウイルスの存在は、鼻や喉から採取したスワブの助けを借りてリアルタイム逆転写酵素ポリメラーゼ連鎖反応(rRT-PCR)によって検出される。 また、X線およびCTイメージング法もこの方法をサポートするために用いられる。 rRT-PCR検査の精度は低いことが知られているため、補助的診断法は非常に重要である。 コンピュータ支援診断・検出システムは特にX線とCT画像の助けを借りて開発されている。 文献中のcovid-19の検出に関する研究は日々増加している。 本研究では,BH=3,10,20,30,40,50の異なるバッチサイズ (BH=3,10,20,30,40,50) のパラメータ値が,4つの異なる(ウイルス性肺炎,COVID19,正常,細菌性肺炎)クラスに属するデータから検出した。 この研究は、事前訓練されたResNet50畳み込みニューラルネットワークを用いて行われた。 得られた結果から,トレーニングデータとテストデータに密着した評価を行った。 しかし, バッチサイズが大きくなるにつれて, テストデータの定常状態が遅れることが観察された。 BH = 3では95.17%、BH = 20では97.97%であった。 その結果,バッチサイズ値は全体の性能に大きく影響しないが,バッチサイズ値の増加は安定した結果を得るのに遅れることがわかった。

The new coronavirus 2019, also known as COVID19, is a very serious epidemic that has killed thousands or even millions of people since December 2019. It was defined as a pandemic by the world health organization in March 2020. It is stated that this virus is usually transmitted by droplets caused by sneezing or coughing, or by touching infected surfaces. The presence of the virus is detected by real-time reverse transcriptase polymerase chain reaction (rRT-PCR) tests with the help of a swab taken from the nose or throat. In addition, X-ray and CT imaging methods are also used to support this method. Since it is known that the accuracy sensitivity in rRT-PCR test is low, auxiliary diagnostic methods have a very important place. Computer-aided diagnosis and detection systems are developed especially with the help of X-ray and CT images. Studies on the detection of COVID19 in the literature are increasing day by day. In this study, the effect of different batch size (BH=3, 10, 20, 30, 40, and 50) parameter values on their performance in detecting COVID19 and other classes was investigated using data belonging to 4 different (Viral Pneumonia, COVID19, Normal, Bacterial Pneumonia) classes. The study was carried out using a pre-trained ResNet50 convolutional neural network. According to the obtained results, they performed closely on the training and test data. However, it was observed that the steady state in the test data was delayed as the batch size value increased. The highest COVID19 detection was 95.17% for BH = 3, while the overall accuracy value was 97.97% with BH = 20. According to the findings, it can be said that the batch size value does not affect the overall performance significantly, but the increase in the batch size value delays obtaining stable results.
翻訳日:2021-05-15 19:56:54 公開日:2020-12-10
# (参考訳) トポロジー適応型メッシュ変形による表面進化・モーフィング・多視点再構成 [全文訳有]

Topology-Adaptive Mesh Deformation for Surface Evolution, Morphing, and Multi-View Reconstruction ( http://arxiv.org/abs/2012.05536v1 )

ライセンス: CC BY 4.0
Andrei Zaharescu, Edmond Boyer, and Radu Horaud(参考訳) 三角メッシュはユビキタスな離散曲面表現となっている。 本稿では, 表面の多様体特性の維持に関する問題に対処し, 位相変化を引き起こすような強い変形を経験する。 我々は,新しい自己切断除去アルゴリズムであるTransforMeshを導入し,このアルゴリズムに基づくメッシュ進化フレームワークを提案する。 多くの形状モデリングアプリケーションは、外観や精度などの形状特性を改善するために表面進化を使用する。 明示的表現も暗黙的表現もその目的のために考慮できる。 しかしながら、明示的なメッシュ表現は、正確な表面モデリングを可能にする一方で、自己切断やマージやスプリットといったトポロジカルな変化を確実に扱うことが本質的に困難になる。 その結果、多くのメソッドは、例えば、表面の暗黙的な表現に依存する。 これらの問題を自然に克服するレベルセット。 それでもこれらの手法は、望ましくない精度・複雑さのトレードオフをもたらすボリュームの離散化に基づいている。 提案手法はロバストな方法でトポロジカルな変化を処理し,自己交点を除去し,メッシュベースのアプローチの従来の制限を克服するものである。 TransforMeshの有効性を説明するために,表面改質と3次元再構成の2つの課題について述べる。

Triangulated meshes have become ubiquitous discrete-surface representations. In this paper we address the problem of how to maintain the manifold properties of a surface while it undergoes strong deformations that may cause topological changes. We introduce a new self-intersection removal algorithm, TransforMesh, and we propose a mesh evolution framework based on this algorithm. Numerous shape modelling applications use surface evolution in order to improve shape properties, such as appearance or accuracy. Both explicit and implicit representations can be considered for that purpose. However, explicit mesh representations, while allowing for accurate surface modelling, suffer from the inherent difficulty of reliably dealing with self-intersections and topological changes such as merges and splits. As a consequence, a majority of methods rely on implicit representations of surfaces, e.g. level-sets, that naturally overcome these issues. Nevertheless, these methods are based on volumetric discretizations, which introduce an unwanted precision-complexity trade-off. The method that we propose handles topological changes in a robust manner and removes self intersections, thus overcoming the traditional limitations of mesh-based approaches. To illustrate the effectiveness of TransforMesh, we describe two challenging applications, namely surface morphing and 3-D reconstruction.
翻訳日:2021-05-15 19:50:08 公開日:2020-12-10
# (参考訳) 敵対的防御の実証的考察 [全文訳有]

An Empirical Review of Adversarial Defenses ( http://arxiv.org/abs/2012.06332v1 )

ライセンス: CC BY-SA 4.0
Ayush Goel(参考訳) スマートフォンに搭載された顔認識システムから自動運転車まで、AIの分野は急速な変革を目の当たりにしており、私たちの日常生活に驚くほどのペースで統合されている。 これらのシステムの予測の大きな失敗は、破壊的になり、機密情報を漏らしたり、(自動運転車の場合のように)命を犠牲にすることさえある。 しかし、そのようなシステムの基礎を形成するディープニューラルネットワークは、敵攻撃と呼ばれる特定のタイプの攻撃に非常に影響を受けやすい。 ハッカーは、最小限の計算でも、敵対的な例(他のクラスに属するイメージやデータポイント)を生成し、そのアルゴリズムの基礎を壊すことができる。 本稿では,このような攻撃から防御するための多数のアプローチをコンパイルし,テストする。 調査した結果,DropoutとDenoising Autoencodersという2つの効果的なテクニックが発見され,そのような攻撃がモデルを騙すのを防ぐことに成功した。 これらの手法は、高いノイズレベルと異なる種類の敵対的攻撃の両方にも耐えられることを実証する(全てに対してテストはされないが)。 また,ディープニューラルネットワークのアプリケーションの性質と資源制約に基づき,攻撃に対する適切な防御手法を決定するフレームワークを開発した。

From face recognition systems installed in phones to self-driving cars, the field of AI is witnessing rapid transformations and is being integrated into our everyday lives at an incredible pace. Any major failure in these system's predictions could be devastating, leaking sensitive information or even costing lives (as in the case of self-driving cars). However, deep neural networks, which form the basis of such systems, are highly susceptible to a specific type of attack, called adversarial attacks. A hacker can, even with bare minimum computation, generate adversarial examples (images or data points that belong to another class, but consistently fool the model to get misclassified as genuine) and crumble the basis of such algorithms. In this paper, we compile and test numerous approaches to defend against such adversarial attacks. Out of the ones explored, we found two effective techniques, namely Dropout and Denoising Autoencoders, and show their success in preventing such attacks from fooling the model. We demonstrate that these techniques are also resistant to both higher noise levels as well as different kinds of adversarial attacks (although not tested against all). We also develop a framework for deciding the suitable defense technique to use against attacks, based on the nature of the application and resource constraints of the Deep Neural Network.
翻訳日:2021-05-15 19:26:41 公開日:2020-12-10
# (参考訳) 大規模生成データフリー蒸留 [全文訳有]

Large-Scale Generative Data-Free Distillation ( http://arxiv.org/abs/2012.05578v1 )

ライセンス: CC BY 4.0
Liangchen Luo, Mark Sandler, Zi Lin, Andrey Zhmoginov, Andrew Howard(参考訳) 知識蒸留は知識伝達、モデル圧縮、半教師あり学習において最も一般的で効果的な技術の一つである。 既存の蒸留手法のほとんどは、オリジナルまたは強化されたトレーニングサンプルへのアクセスを必要とする。 しかしこれは、プライバシ、プロプライエタリ、可用性の懸念から、実際には問題となる可能性がある。 最近の研究でこの問題に対処する方法がいくつか提案されているが、それは非常に時間がかかるか、大規模なデータセットにスケールできないかのいずれかである。 そこで本研究では,教師ネットワークの固有正規化レイヤの統計情報を活用することによって,生成画像モデルをトレーニングする手法を提案する。 これにより、後続蒸留のための代替入力を効率的に生成できるトレーニングデータなしで、ジェネレータのアンサンブルを構築することができる。 提案手法は, CIFAR-10とCIFAR-100のデータフリー蒸留性能を95.02%, 77.02%に向上させる。 さらに、imagenetデータセットにスケールすることが可能で、私たちの知る限りでは、データフリーな設定で生成モデルを使ったことがない。

Knowledge distillation is one of the most popular and effective techniques for knowledge transfer, model compression and semi-supervised learning. Most existing distillation approaches require the access to original or augmented training samples. But this can be problematic in practice due to privacy, proprietary and availability concerns. Recent work has put forward some methods to tackle this problem, but they are either highly time-consuming or unable to scale to large datasets. To this end, we propose a new method to train a generative image model by leveraging the intrinsic normalization layers' statistics of the trained teacher network. This enables us to build an ensemble of generators without training data that can efficiently produce substitute inputs for subsequent distillation. The proposed method pushes forward the data-free distillation performance on CIFAR-10 and CIFAR-100 to 95.02% and 77.02% respectively. Furthermore, we are able to scale it to ImageNet dataset, which to the best of our knowledge, has never been done using generative models in a data-free setting.
翻訳日:2021-05-15 18:56:10 公開日:2020-12-10
# (参考訳) スケール調整による画像マッチング [全文訳有]

Image Matching with Scale Adjustment ( http://arxiv.org/abs/2012.05582v1 )

ライセンス: CC BY 4.0
Yves Dufournaud, Cordelia Schmid, and Radu Horaud(参考訳) 本稿では,高分解能画像と低分解能画像の2つの異なる解像度とのマッチングの問題に対処する。 2つの画像間の解像度の差は分かっておらず、一般性を失うことなく1つの画像が高解像度画像であると仮定する。 解像度変化がスケール変化と同等の平滑化として働くことを前提として、高解像度画像のスケール空間表現を作成する。 したがって、1対1の古典画像マッチングパラダイムは、低解像度画像が高解像度画像のすべてのスケール空間表現と比較されるため、一対多となる。 このようなプロセスの成功の鍵は、スケールスペースでマッチする機能の適切な表現である。 可変スケールでの利得点の表現と抽出方法を示し、2つの異なる解像度で2つの画像を比較する方法を提案する。 本発明の方法は、測光および回転不変ディスクリプタの使用と、高分解能画像を低解像度の画像領域にマッピングする幾何学モデルと、局所的な制約と、この幾何学モデルのロバストな推定に基づく画像マッチング戦略とを含む。 大規模な実験により, 一致法は6。

In this paper we address the problem of matching two images with two different resolutions: a high-resolution image and a low-resolution one. The difference in resolution between the two images is not known and without loss of generality one of the images is assumed to be the high-resolution one. On the premise that changes in resolution act as a smoothing equivalent to changes in scale, a scale-space representation of the high-resolution image is produced. Hence the one-to-one classical image matching paradigm becomes one-to-many because the low-resolution image is compared with all the scale-space representations of the high-resolution one. Key to the success of such a process is the proper representation of the features to be matched in scale-space. We show how to represent and extract interest points at variable scales and we devise a method allowing the comparison of two images at two different resolutions. The method comprises the use of photometric- and rotation-invariant descriptors, a geometric model mapping the high-resolution image onto a low-resolution image region, and an image matching strategy based on local constraints and on the robust estimation of this geometric model. Extensive experiments show that our matching method can be used for scale changes up to a factor of 6.
翻訳日:2021-05-15 18:40:41 公開日:2020-12-10
# (参考訳) 事前学習畳み込みニューラルネットワークを用いた平衡・非平衡癌データセットの性能比較 [全文訳有]

Performance Comparison of Balanced and Unbalanced Cancer Datasets using Pre-Trained Convolutional Neural Network ( http://arxiv.org/abs/2012.05585v1 )

ライセンス: CC BY 4.0
Ali Narin(参考訳) ガン病は世界中で主要な死因の1つだ。 乳がんは、特に女性に多いがん疾患であり、非常に一般的である。 診断に長い期間を要するこのタイプの早期発見に使用される最も重要なツールは、生検で採取した病理組織像である。 これらの画像は病理医によって検査され、確定診断がなされる。 このプロセスはコンピュータの助けを借りて検出することが一般的である。 良性腫瘍や悪性腫瘍の検出は,特に拡大率の異なるデータを用いて行う。 本研究では,breakhisデータセットの病理組織学的データを用いて,バランスとバランスの異なる2つの研究グループを作成した。 腫瘍検出において,バランスとバランスのとれないデータセットの性能がどのように変化するかを検討した。 結論として,inceptionv3畳み込みニューラルネットワークモデルを用いて行った研究では,平衡データに対して93.55%の精度,99.19%のリコール,87.10%の特異値,89.75%の精度,82.89%のリコール,91.51%の特異値が得られた。 2つの異なる研究で得られた結果によると、データのバランスは、良性腫瘍と悪性腫瘍の両方の検出性能と同様に、全体的な性能を高める。 バランスの取れた方法で作成されたデータセットの助けを借りてトレーニングされたモデルは、病理の専門家により高い正確な結果を与えると言えます。

Cancer disease is one of the leading causes of death all over the world. Breast cancer, which is a common cancer disease especially in women, is quite common. The most important tool used for early detection of this cancer type, which requires a long process to establish a definitive diagnosis, is histopathological images taken by biopsy. These obtained images are examined by pathologists and a definitive diagnosis is made. It is quite common to detect this process with the help of a computer. Detection of benign or malignant tumors, especially by using data with different magnification rates, takes place in the literature. In this study, two different balanced and unbalanced study groups have been formed by using the histopathological data in the BreakHis data set. We have examined how the performances of balanced and unbalanced data sets change in detecting tumor type. In conclusion, in the study performed using the InceptionV3 convolution neural network model, 93.55% accuracy, 99.19% recall and 87.10% specificity values have been obtained for balanced data, while 89.75% accuracy, 82.89% recall and 91.51% specificity values have been obtained for unbalanced data. According to the results obtained in two different studies, the balance of the data increases the overall performance as well as the detection performance of both benign and malignant tumors. It can be said that the model trained with the help of data sets created in a balanced way will give pathology specialists higher and accurate results.
翻訳日:2021-05-15 18:29:22 公開日:2020-12-10
# (参考訳) 圧縮ビデオバックグラウンドサブトラクションのためのDenoising-based Turbo Message Passing

Denoising-based Turbo Message Passing for Compressed Video Background Subtraction ( http://arxiv.org/abs/2012.05626v1 )

ライセンス: CC BY 4.0
Zhipeng Xue, Xiaojun Yuan, Yang Yang(参考訳) 本稿では,ビデオの背景と前景を圧縮した測定値から分離する圧縮ビデオ背景減算問題について考察する。 ビデオの背景は通常低次元空間に存在し、前景は通常スパースである。 さらに重要なのは、それぞれのビデオフレームがテキストパターンを持つ自然なイメージであることだ。 これらの特性を利用して、オフラインデノナイジングベースターボメッセージパッシング(DTMP)と呼ばれるメッセージパッシングアルゴリズムを開発する。 本稿では,これらの構造特性をturboメッセージパッシングフレームワーク下で既存のデノイジング手法により効率的に処理できることを示す。 さらに、DTMPアルゴリズムをオンライン形式でビデオデータが収集されるオンラインシナリオに拡張する。 この拡張は、隣接するビデオフレーム間の類似性/連続性に基づいている。 我々は、前景の推定を洗練するために光学フロー法を採用する。 また,スライディングウインドウに基づく背景推定を適用し,複雑さを低減した。 メッセージのガウス性を利用して、オフラインおよびオンラインDTMPの照会性能を特徴付ける状態進化を開発する。 既存のアルゴリズムと比較して、dtmpはより低い圧縮率で動作し、低い平均二乗誤差と、オフラインとオンラインの圧縮ビデオ背景減算の両方でより良いビジュアル品質でバックグラウンドを減算することができる。

In this paper, we consider the compressed video background subtraction problem that separates the background and foreground of a video from its compressed measurements. The background of a video usually lies in a low dimensional space and the foreground is usually sparse. More importantly, each video frame is a natural image that has textural patterns. By exploiting these properties, we develop a message passing algorithm termed offline denoising-based turbo message passing (DTMP). We show that these structural properties can be efficiently handled by the existing denoising techniques under the turbo message passing framework. We further extend the DTMP algorithm to the online scenario where the video data is collected in an online manner. The extension is based on the similarity/continuit y between adjacent video frames. We adopt the optical flow method to refine the estimation of the foreground. We also adopt the sliding window based background estimation to reduce complexity. By exploiting the Gaussianity of messages, we develop the state evolution to characterize the per-iteration performance of offline and online DTMP. Comparing to the existing algorithms, DTMP can work at much lower compression rates, and can subtract the background successfully with a lower mean squared error and better visual quality for both offline and online compressed video background subtraction.
翻訳日:2021-05-15 16:53:59 公開日:2020-12-10
# (参考訳) 新しいものと同じくらい。 英語のgpt-2を再利用して他の言語のモデルを作る方法 [全文訳有]

As good as new. How to successfully recycle English GPT-2 to make models for other languages ( http://arxiv.org/abs/2012.05628v1 )

ライセンス: CC BY 4.0
Wietse de Vries, Malvina Nissim(参考訳) 大規模な生成言語モデルは英語では非常に成功しているが、他の言語はデータと計算の制限のために遅れている。 本稿では,既存の事前学習言語モデルを新しい言語に適応させることで,これらの問題を克服できる手法を提案する。 具体的には、Transformer層をチューニングせずに語彙埋め込みをトレーニングすることで、英語のGPT-2をイタリア語とオランダ語に適応させる方法について述べる。 結果として、原英語の語彙埋め込みと整合したイタリア語とオランダ語の語彙埋め込みを取得し、このアライメントからバイリンガル辞書を誘導する。 さらに, GPT-2小径の語彙埋め込みを GPT-2 媒体埋め込み空間に変換することで, 複雑さを増大させる方法を示す。 この方法はトレーニングの量を最小化し、GPT-2で学習した適応中に情報を失うのを防ぐ。 英語のgpt-2モデルはイタリア語とオランダ語で現実的な文を生成することができるが、平均してこれらの文は人間によって人工的に識別できる。 パープレキシティスコアと人間の判断に基づいて、生成された文はよりリアルになり、追加のフルモデルの微調整(特にオランダ語)が行われる。 イタリア語では、それらがGPT-2モデルでゼロから完全に訓練された文と同等に評価されている。 我々の研究は、他の言語のためのGPT-2sをトレーニングするための青写真として考えられます。

Large generative language models have been very successful for English, but other languages lag behind due to data and computational limitations. We propose a method that may overcome these problems by adapting existing pre-trained language models to new languages. Specifically, we describe the adaptation of English GPT-2 to Italian and Dutch by retraining lexical embeddings without tuning the Transformer layers. As a result, we obtain lexical embeddings for Italian and Dutch that are aligned with the original English lexical embeddings and induce a bilingual lexicon from this alignment. Additionally, we show how to scale up complexity by transforming relearned lexical embeddings of GPT-2 small to the GPT-2 medium embedding space. This method minimises the amount of training and prevents losing information during adaptation that was learned by GPT-2. English GPT-2 models with relearned lexical embeddings can generate realistic sentences in Italian and Dutch, but on average these sentences are still identifiable as artificial by humans. Based on perplexity scores and human judgements, we find that generated sentences become more realistic with some additional full model finetuning, especially for Dutch. For Italian, we see that they are evaluated on par with sentences generated by a GPT-2 model fully trained from scratch. Our work can be conceived as a blueprint for training GPT-2s for other languages, and we provide a 'recipe' to do so.
翻訳日:2021-05-15 16:35:14 公開日:2020-12-10
# (参考訳) 構造解明のための因子グラフ分子ネットワーク [全文訳有]

Factor Graph Molecule Network for Structure Elucidation ( http://arxiv.org/abs/2012.05665v1 )

ライセンス: CC0 1.0
Hieu Le Trung and Yiqing Xu and Wee Sun Lee(参考訳) 物理化学的性質から分子構造を学習するネットワークを設計することは難しい問題であるが、薬物発見タスクには有用である。 本稿では,ニューラルネットワークの強力な近似力を持つ因子グラフの高次関係学習を取り入れ,強汎化力を有し,高次関係と原子価制約を強制できる分子構造学習ネットワークを構築する。 さらに, 因子ノードの効率的な設計, 因子間の条件パラメータ共有, 分子構造予測における対称性問題などの問題に取り組む手法を提案する。 実験の結果,因子学習は有効であり,関連する手法よりも優れていた。

Designing a network to learn a molecule structure given its physical/chemical properties is a hard problem, but is useful for drug discovery tasks. In this paper, we incorporate higher-order relational learning of Factor Graphs with strong approximation power of Neural Networks to create a molecule-structure learning network that has strong generalization power and can enforce higher-order relationship and valence constraints. We further propose methods to tackle problems such as the efficient design of factor nodes, conditional parameter sharing among factors, and symmetry problems in molecule structure prediction. Our experiment evaluation shows that the factor learning is effective and outperforms related methods.
翻訳日:2021-05-15 15:55:16 公開日:2020-12-10
# (参考訳) プライバシー保護医療画像解析 [全文訳有]

Privacy-preserving medical image analysis ( http://arxiv.org/abs/2012.06354v1 )

ライセンス: CC BY 4.0
Alexander Ziller, Jonathan Passerat-Palmbach, Th\'eo Ryffel, Dmitrii Usynin, Andrew Trask, Ion\'esio Da Lima Costa Junior, Jason Mancuso, Marcus Makowski, Daniel Rueckert, Rickmer Braren, Georgios Kaissis(参考訳) 医療と医療における人工知能の利用は、いくつかの領域で臨床応用に成功している。 このようなシステムにおけるデータ利用とプライバシー保護要件の衝突は、倫理的および法的コンプライアンスだけでなく、最適な結果のために解決されなければならない。 これにより、プライバシー保護機械学習(PPML)のような革新的なソリューションが求められている。 医用画像解析におけるPPMLのためのソフトウェアフレームワークであるPriMIA(Privacy-Prese rving Medical Image Analysis)を提案する。 実生活のケーススタディでは、未発見データセットの人間専門家と比較して、セキュアに集約されたフェデレーション学習モデルの分類性能が有意に高いことが示されています。 さらに、エンドツーエンドの暗号化診断のための推論・アズ・ア・サービスシナリオを示し、データもモデルも明らかにしない。 最後に,グラデーションに基づくモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価し,モデルから使用可能な情報を復元できないことを示す。

The utilisation of artificial intelligence in medicine and healthcare has led to successful clinical applications in several domains. The conflict between data usage and privacy protection requirements in such systems must be resolved for optimal results as well as ethical and legal compliance. This calls for innovative solutions such as privacy-preserving machine learning (PPML). We present PriMIA (Privacy-preserving Medical Image Analysis), a software framework designed for PPML in medical imaging. In a real-life case study we demonstrate significantly better classification performance of a securely aggregated federated learning model compared to human experts on unseen datasets. Furthermore, we show an inference-as-a-servi ce scenario for end-to-end encrypted diagnosis, where neither the data nor the model are revealed. Lastly, we empirically evaluate the framework's security against a gradient-based model inversion attack and demonstrate that no usable information can be recovered from the model.
翻訳日:2021-05-15 15:44:26 公開日:2020-12-10
# (参考訳) リカレントポイントレビューモデル [全文訳有]

Recurrent Point Review Models ( http://arxiv.org/abs/2012.05684v1 )

ライセンス: CC BY 4.0
Kostadin Cvejoski, Ramses J. Sanchez, Bogdan Georgiev, Christian Bauckhage and Cesar Ojeda(参考訳) ディープニューラルネットワークモデルは、自然言語処理の最先端の方法論を表している。 ここでは、これらの方法論に基づいて、時間的情報を導入し、時間とともにデータ変更をレビューする方法をモデル化する。 具体的には、ビジネスやサービスレビューの受信履歴をエンコードしたリカレントポイントプロセスモデルの動的表現を用いて、予測能力を向上させた即時言語モデルを生成する。 同時に,提案手法は,要約されたレビューコンテンツ表現を取り入れることで,ポイントプロセスモデルの予測力を高める。 レビューコンテンツをモデル化するための繰り返しネットワークおよび時間畳み込みソリューションを提供する。 提案手法をレコメンデーションシステムのコンテキストに展開し,ユーザの嗜好や嗜好の変化を時間的変化とともに効果的に特徴づける。 ソースコードは[1]で利用可能である。

Deep neural network models represent the state-of-the-art methodologies for natural language processing. Here we build on top of these methodologies to incorporate temporal information and model how to review data changes with time. Specifically, we use the dynamic representations of recurrent point process models, which encode the history of how business or service reviews are received in time, to generate instantaneous language models with improved prediction capabilities. Simultaneously, our methodologies enhance the predictive power of our point process models by incorporating summarized review content representations. We provide recurrent network and temporal convolution solutions for modeling the review content. We deploy our methodologies in the context of recommender systems, effectively characterizing the change in preference and taste of users as time evolves. Source code is available at [1].
翻訳日:2021-05-15 15:37:46 公開日:2020-12-10
# (参考訳) 段階的議論フレームワークとしてのニューラルネットワークの解釈(証明付録を含む) [全文訳有]

Interpreting Neural Networks as Gradual Argumentation Frameworks (Including Proof Appendix) ( http://arxiv.org/abs/2012.05738v1 )

ライセンス: CC BY 4.0
Nico Potyka(参考訳) フィードフォワードニューラルネットワークの興味深いクラスを定量的な議論フレームワークとして理解できることを示す。 この接続は、形式的議論と機械学習の間の橋渡しとなる。 フィードフォワードニューラルネットワークの非巡回グラフへのセマンティクスを一般化し,議論グラフにおける計算およびセマンティクス特性について検討する。 結論として、セマンティクスは、議論設定用に作られた既存のセマンティクスよりも強力な保証を提供する。 機械学習の観点からは、接続はすぐには役に立たない。 いくつかのフィードフォワードニューラルネットワークに直感的な意味を与えるが、その大きさと密度のために理解しにくい。 しかし、この関係は、疎な議論ネットワークと、補足的な目的のために訓練された密集したニューラルネットワークの形で背景知識を結合し、データからエンドツーエンドの方法で量的議論フレームワークのパラメータを学習するのに有用である。

We show that an interesting class of feed-forward neural networks can be understood as quantitative argumentation frameworks. This connection creates a bridge between research in Formal Argumentation and Machine Learning. We generalize the semantics of feed-forward neural networks to acyclic graphs and study the resulting computational and semantical properties in argumentation graphs. As it turns out, the semantics gives stronger guarantees than existing semantics that have been tailor-made for the argumentation setting. From a machine-learning perspective, the connection does not seem immediately helpful. While it gives intuitive meaning to some feed-forward-neural networks, they remain difficult to understand due to their size and density. However, the connection seems helpful for combining background knowledge in form of sparse argumentation networks with dense neural networks that have been trained for complementary purposes and for learning the parameters of quantitative argumentation frameworks in an end-to-end fashion from data.
翻訳日:2021-05-15 15:02:49 公開日:2020-12-10
# (参考訳) hrcenternet:歴史文書における漢字セグメンテーションへのアンカーレスアプローチ [全文訳有]

HRCenterNet: An Anchorless Approach to Chinese Character Segmentation in Historical Documents ( http://arxiv.org/abs/2012.05739v1 )

ライセンス: CC BY 4.0
Chia-Wei Tang, Chao-Lin Liu and Po-Sen Chiu(参考訳) 史料から得られる情報は常に人類文明の伝達に欠かせないものであるが、これらの書物は様々な要因により損害を受けやすいものでもある。 最近の技術により、これらの文書の自動デジタル化は、最も迅速かつ効果的な保存方法の1つである。 自動テキストデジタル化の主なステップは、主に文字分割と文字認識の2段階に分けられる。 そこで本研究では,中国古文書の文字分割にのみ注目する。 本研究では,HRCenterNetというモデルと,アンカーレスオブジェクト検出手法と並列化アーキテクチャを組み合わせたモデルを提案する。 MTHv2データセットは、3000以上の中国古文書画像と100万以上の漢字で構成されており、これらの膨大なデータにより、我々のモデルのセグメンテーション能力は平均でIoU 0.81を達成する。 ソースコードはhttps://github.com/t verous/hrcenternetで入手できます。

The information provided by historical documents has always been indispensable in the transmission of human civilization, but it has also made these books susceptible to damage due to various factors. Thanks to recent technology, the automatic digitization of these documents are one of the quickest and most effective means of preservation. The main steps of automatic text digitization can be divided into two stages, mainly: character segmentation and character recognition, where the recognition results depend largely on the accuracy of segmentation. Therefore, in this study, we will only focus on the character segmentation of historical Chinese documents. In this research, we propose a model named HRCenterNet, which is combined with an anchorless object detection method and parallelized architecture. The MTHv2 dataset consists of over 3000 Chinese historical document images and over 1 million individual Chinese characters; with these enormous data, the segmentation capability of our model achieves IoU 0.81 on average with the best speed-accuracy trade-off compared to the others. Our source code is available at https://github.com/T verous/HRCenterNet.
翻訳日:2021-05-15 14:39:38 公開日:2020-12-10
# (参考訳) ニューラルスタイル転送によるバングラデシュ絵画の復元画像 : 総合的な実験, 評価, 人間の視点 [全文訳有]

Restyling Images with the Bangladeshi Paintings Using Neural Style Transfer: A Comprehensive Experiment, Evaluation, and Human Perspective ( http://arxiv.org/abs/2101.05077v1 )

ライセンス: CC BY 4.0
Manal, Ali Hasan Md. Linkon, Md. Mahir Labib, Marium-E-Jannat and Md Saiful Islam(参考訳) 今日の世界では、ニューラル・スタイル・トランスファー(NST)が流行語となっている。 NSTは、コンテンツ画像と参照画像の2つのスタイル(著名な画家の作品など)を組み合わせることで、出力画像が素材の画像のように見えるが、参照画像の形式でレンダリングされる。 しかし、バングラデシュの画家の作品や絵画を用いた研究はない。 バングラデシュの絵画は2千年以上の歴史があり、現在もバングラデシュの画家によって実践されている。 本研究では,バングラデシュ絵画におけるNSTのスタイリング画像を生成し,バングラデシュ絵画におけるNSTの美的嗜好に関する人間の視点を分析した。 本研究の受容性を保証するため,年齢・性別の異なる60人を対象に,生成したスタイリゼーション画像の質的評価を行った。 我々は,NSTがバングラデシュの絵画に対してどのように機能し,NSTアルゴリズムを質的に,定量的に評価するかを説明した。 本研究は,バングラデシュ絵画を用いたNSTスタイリング画像がモバイルUI/GUIおよび人的視点からの資料翻訳に与える影響の前提条件として機能する。 本研究は,NST関連研究の促進とバングラデシュ美術の活用を促進することを目的としている。

In today's world, Neural Style Transfer (NST) has become a trendsetting term. NST combines two pictures, a content picture and a reference image in style (such as the work of a renowned painter) in a way that makes the output image look like an image of the material, but rendered with the form of a reference picture. However, there is no study using the artwork or painting of Bangladeshi painters. Bangladeshi painting has a long history of more than two thousand years and is still being practiced by Bangladeshi painters. This study generates NST stylized image on Bangladeshi paintings and analyzes the human point of view regarding the aesthetic preference of NST on Bangladeshi paintings. To assure our study's acceptance, we performed qualitative human evaluations on generated stylized images by 60 individual humans of different age and gender groups. We have explained how NST works for Bangladeshi paintings and assess NST algorithms, both qualitatively \& quantitatively. Our study acts as a pre-requisite for the impact of NST stylized image using Bangladeshi paintings on mobile UI/GUI and material translation from the human perspective. We hope that this study will encourage new collaborations to create more NST related studies and expand the use of Bangladeshi artworks.
翻訳日:2021-05-15 14:24:41 公開日:2020-12-10
# (参考訳) ライトウェイトCNNアーキテクチャとトランスファーラーニングを組み合わせた深層学習アプローチ:バングラデシュ紙幣の自動検出と認識のためのアプローチ [全文訳有]

Deep Learning Approach Combining Lightweight CNN Architecture with Transfer Learning: An Automatic Approach for the Detection and Recognition of Bangladeshi Banknotes ( http://arxiv.org/abs/2101.05081v1 )

ライセンス: CC BY 4.0
Ali Hasan Md. Linkon, Md. Mahir Labib, Faisal Haque Bappy, Soumik Sarker, Marium-E-Jannat and Md Saiful Islam(参考訳) 紙幣の自動検出と認識は、視覚障害者や銀行自身にとって、異なる紙幣を扱うための効率的な管理を提供することで、非常に有用な技術である。 軽量モデルは、あらゆる便利なIoTベースのガジェット/デバイスに簡単に統合できる。 本稿では,移動学習と組み合わせた軽量畳み込みニューラルネットワークアーキテクチャに基づく最先端の深層学習手法について述べる。 バングラデシュの紙幣画像を含む2つの異なるデータセットを持つベースモデルとして、ResNet152v2、MobileNet、NASNetMobileが使用された。 バングラ通貨のデータセットは、バングラデシュの銀行券8000枚で、バングラ通貨のデータセットは1970年の画像で構成されている。 モデルの性能は、データセットと2つのデータセットの組み合わせの両方を用いて測定した。 最大効率を達成するために,様々な拡張,ハイパーパラメータチューニング,最適化技術を用いた。 我々は、MobileNetを用いた8000の画像データセットで98.88\%、NASNetMobileを用いた1970年の画像データセットで100\%、MobileNetを用いた組み合わせデータセット(9970画像)で97.77\%の最大テスト精度を達成した。

Automatic detection and recognition of banknotes can be a very useful technology for people with visual difficulties and also for the banks itself by providing efficient management for handling different paper currencies. Lightweight models can easily be integrated into any handy IoT based gadgets/devices. This article presents our experiments on several state-of-the-art deep learning methods based on Lightweight Convolutional Neural Network architectures combining with transfer learning. ResNet152v2, MobileNet, and NASNetMobile were used as the base models with two different datasets containing Bangladeshi banknote images. The Bangla Currency dataset has 8000 Bangladeshi banknote images where the Bangla Money dataset consists of 1970 images. The performances of the models were measured using both the datasets and the combination of the two datasets. In order to achieve maximum efficiency, we used various augmentations, hyperparameter tuning, and optimizations techniques. We have achieved maximum test accuracy of 98.88\% on 8000 images dataset using MobileNet, 100\% on the 1970 images dataset using NASNetMobile, and 97.77\% on the combined dataset (9970 images) using MobileNet.
翻訳日:2021-05-15 14:17:39 公開日:2020-12-10
# (参考訳) CVaRバンドのためのトンプソンサンプリング

Thompson Sampling for CVaR Bandits ( http://arxiv.org/abs/2012.05754v1 )

ライセンス: CC BY 4.0
Dorian Baudry, Romain Gautron, Emilie Kaufmann, Odalric-Ambryn Maillard(参考訳) リスク認識は、様々な現実世界の問題を定式化する重要な特徴である。 本稿では,報奨分布のあるレベル {\alpha} におけるリスク条件値 (cvar) を用いて各アームの品質を測定するマルチアームバンディット問題について検討する。 この環境での既存の研究は主にアッパー信頼境界アルゴリズムに焦点を当てているが、CVaRバンディットに対する最初のトンプソンサンプリングアプローチを導入する。 リオウとホンダによる最近の研究に基づいて、有界報酬に対する {\alpha}-NPTS と多項分布に対する {\alpha}-Multinomial-TS を提案する。 本稿では,CVaR の反響的最適性の概念をCVaR の帯域に拡張し,この下界を最初に達成したアルゴリズムは {\alpha}-Multinomial-TS であることを示す。 最後に,彼らのucbに対するトンプソンサンプリングアプローチの利点を実証的に示す。

Risk awareness is an important feature to formulate a variety of real world problems. In this paper we study a multi-arm bandit problem in which the quality of each arm is measured by the Conditional Value at Risk (CVaR) at some level {\alpha} of the reward distribution. While existing works in this setting mainly focus on Upper Confidence Bound algorithms, we introduce the first Thompson Sampling approaches for CVaR bandits. Building on a recent work by Riou and Honda (2020), we propose {\alpha}-NPTS for bounded rewards and {\alpha}-Multinomial-TS for multinomial distributions. We provide a novel lower bound on the CVaR regret which extends the concept of asymptotic optimality to CVaR bandits and prove that {\alpha}-Multinomial-TS is the first algorithm to achieve this lower bound. Finally, we demonstrate empirically the benefit of Thompson Sampling approaches over their UCB counterparts.
翻訳日:2021-05-15 14:12:05 公開日:2020-12-10
# (参考訳) マルチセンス言語モデリング [全文訳有]

Multi-Sense Language Modelling ( http://arxiv.org/abs/2012.05776v1 )

ライセンス: CC BY 4.0
Andrea Lekkas, Peter Schneider-Kamp, Isabelle Augenstein(参考訳) 言語モデルの有効性は、そのトークン表現に影響され、文脈情報をエンコードし、複数の意味(ポリセミー)を持つ同じ単語形式を扱う必要がある。 現在、共通言語モデリングアーキテクチャのどれも、明確にポリセミをモデル化していない。 我々は,次の単語を予測できるだけでなく,文脈における意味を予測できる言語モデルを提案する。 我々は、この高い予測粒度は、補助的な記述のようなエンドタスクに有用であり、言語モデルと知識ベースをより正確に結びつけることができると主張している。 マルチセンス言語モデリングには,標準言語モデルを超えるアーキテクチャを必要とすることが判明し,そのタスクを単語に分解し,その後に感覚予測タスクを付加する構造化予測フレームワークを提案する。 感覚予測には,定義や単語感覚の例を符号化したグラフ注意ネットワークを利用する。 全体として、マルチセンス言語モデリングは極めて困難なタスクであり、将来の作業はより注釈付きトレーニングデータセットの作成に重点を置くことを示唆している。

The effectiveness of a language model is influenced by its token representations, which must encode contextual information and handle the same word form having a plurality of meanings (polysemy). Currently, none of the common language modelling architectures explicitly model polysemy. We propose a language model which not only predicts the next word, but also its sense in context. We argue that this higher prediction granularity may be useful for end tasks such as assistive writing, and allow for more a precise linking of language models with knowledge bases. We find that multi-sense language modelling requires architectures that go beyond standard language models, and here propose a structured prediction framework that decomposes the task into a word followed by a sense prediction task. For sense prediction, we utilise a Graph Attention Network, which encodes definitions and example uses of word senses. Overall, we find that multi-sense language modelling is a highly challenging task, and suggest that future work focus on the creation of more annotated training datasets.
翻訳日:2021-05-15 13:27:39 公開日:2020-12-10
# (参考訳) 論点マイニングによるピアレビューの分析 [全文訳有]

Argument Mining Driven Analysis of Peer-Reviews ( http://arxiv.org/abs/2012.07743v1 )

ライセンス: CC BY 4.0
Michael Fromm, Evgeniy Faerman, Max Berrendorf, Siddharth Bhargava, Ruoxia Qi, Yao Zhang, Lukas Dennert, Sophia Selle, Yang Mao, Thomas Seidl(参考訳) ピアレビューは現代の研究の中心的なプロセスであり、出版物の品質と信頼性を確保するのに不可欠である。 同時に、時間を要するプロセスであり、新興分野への関心が高まっているため、特にこの分野の上級研究者にとって、高いレビュー作業負荷が生じることが多い。 この問題に対処する方法はオープンな問題であり、主要なカンファレンスすべてで活発に議論されている。 本研究では,編集者,メタレビュアー,レビュアーの支援を目的としたArgument Miningに基づくアプローチを提案する。 学術論文の分野における意思決定プロセスは議論によって駆動され,様々なユースケースにおいて自動議論識別が有用であることを示す。 以上の知見の1つは、ピアレビュープロセスで使われる引数が他のドメインの引数とは異なるため、事前学習されたモデルの転送が困難であるということです。 そこで我々は,異なるコンピュータサイエンスカンファレンスから,注釈付き議論を伴う新たなピアレビューデータセットをコミュニティに提供する。 広範な経験的評価において,議論のマイニングは,出版決定に最も重要なレビューから,最も関連性の高い部分を効率的に抽出できることを示した。 抽出された引数は、コンテキストから切り離すことなく、レビューでハイライトできるため、プロセスは解釈可能である。

Peer reviewing is a central process in modern research and essential for ensuring high quality and reliability of published work. At the same time, it is a time-consuming process and increasing interest in emerging fields often results in a high review workload, especially for senior researchers in this area. How to cope with this problem is an open question and it is vividly discussed across all major conferences. In this work, we propose an Argument Mining based approach for the assistance of editors, meta-reviewers, and reviewers. We demonstrate that the decision process in the field of scientific publications is driven by arguments and automatic argument identification is helpful in various use-cases. One of our findings is that arguments used in the peer-review process differ from arguments in other domains making the transfer of pre-trained models difficult. Therefore, we provide the community with a new peer-review dataset from different computer science conferences with annotated arguments. In our extensive empirical evaluation, we show that Argument Mining can be used to efficiently extract the most relevant parts from reviews, which are paramount for the publication decision. The process remains interpretable since the extracted arguments can be highlighted in a review without detaching them from their context.
翻訳日:2021-05-15 13:14:45 公開日:2020-12-10
# (参考訳) ヘッセン近似のノルム制御による確率減衰型L-BFGS [全文訳有]

Stochastic Damped L-BFGS with Controlled Norm of the Hessian Approximation ( http://arxiv.org/abs/2012.05783v1 )

ライセンス: CC BY-SA 4.0
Sanae Lotfi and Tiphaine Bonniot de Ruisselet and Dominique Orban and Andrea Lodi(参考訳) そこで我々は,ヘシアン近似の最大値と最小値の境界を推定し,その品質と条件のバランスをとる新しい確率分散減衰型l-bfgsアルゴリズムを提案する。 我々のアルゴリズムであるVARCHENは、SdLBFGSと呼ばれる新しい確率減衰L-BFGSアルゴリズムを提案している。 我々はほぼ確実に定常点への収束と複雑性の境界を確立する。 我々は,sdlbfgs-vr や svrg よりも sdlbfgs-vr や svrg が sdlbfgs-vr や svrg よりも,深層学習の文脈で発生する高度に非凸で不条件な問題である修正 davidnet 問題に対して頑健であることを実証的に証明し,その性能はロジスティック回帰問題や非凸支持ベクトルマシン問題に匹敵することを示した。

We propose a new stochastic variance-reduced damped L-BFGS algorithm, where we leverage estimates of bounds on the largest and smallest eigenvalues of the Hessian approximation to balance its quality and conditioning. Our algorithm, VARCHEN, draws from previous work that proposed a novel stochastic damped L-BFGS algorithm called SdLBFGS. We establish almost sure convergence to a stationary point and a complexity bound. We empirically demonstrate that VARCHEN is more robust than SdLBFGS-VR and SVRG on a modified DavidNet problem -- a highly nonconvex and ill-conditioned problem that arises in the context of deep learning, and their performance is comparable on a logistic regression problem and a nonconvex support-vector machine problem.
翻訳日:2021-05-15 12:59:17 公開日:2020-12-10
# (参考訳) インド語のためのペアワイズNMTの探索 [全文訳有]

Exploring Pair-Wise NMT for Indian Languages ( http://arxiv.org/abs/2012.05786v1 )

ライセンス: CC BY 4.0
Kartheek Akella, Sai Himal Allu, Sridhar Suresh Ragupathi, Aman Singhal, Zeeshan Khan, Vinay P. Namboodiri, C V Jawahar(参考訳) 本稿では、特定の低資源インド語に対するペアワイズ機械翻訳の改善という課題に対処する。 多言語NMTモデルは資源不足言語に対して妥当な有効性を示した。 そこで本研究では,フィルタした逆翻訳プロセスと,制限されたペアワイド言語コーパスの微調整により,これらのモデルの性能を著しく向上できることを示す。 本稿では,本手法が多言語モデルのベースライン上での性能を著しく向上し,インド諸言語における最新の結果が得られることを示す。

In this paper, we address the task of improving pair-wise machine translation for specific low resource Indian languages. Multilingual NMT models have demonstrated a reasonable amount of effectiveness on resource-poor languages. In this work, we show that the performance of these models can be significantly improved upon by using back-translation through a filtered back-translation process and subsequent fine-tuning on the limited pair-wise language corpora. The analysis in this paper suggests that this method can significantly improve a multilingual model's performance over its baseline, yielding state-of-the-art results for various Indian languages.
翻訳日:2021-05-15 12:42:37 公開日:2020-12-10
# (参考訳) マイクロモーメントスマートプラグを用いたアプライアンスレベルモニタリング [全文訳有]

Appliance-Level Monitoring with Micro-Moment Smart Plugs ( http://arxiv.org/abs/2012.05787v1 )

ライセンス: CC BY 4.0
Abdullah Alsalemi, Yassine Himeur, Faycal Bensaali, Abbes Amira(参考訳) 人口は社会や世界の発展に影響を及ぼすだけでなく、地球温暖化を引き起こすエネルギー関連の問題に対して努力している。 様々な幅広いアプローチが、産業と研究コミュニティの両方によって開発されている。 しかし、デバイスメトリクスやベンチマークではなく、人間の行動を変えることを目的とした包括的なエンドツーエンドソリューションの必要性は、ますます高まっている。 本稿では,より大規模なマルチアプライアンスエネルギー効率プログラムの一環として,マイクロモーメントベースのスマートプラグシステムを提案する。 電力消費ユニットと環境監視ユニットの2つのサブユニットを含むスマートプラグは、それぞれ温度、湿度、光度、部屋の占有といったコンテキスト情報とともに家電製品のエネルギー消費量を収集する。 プラグはホームオートメーション機能も備えている。 付随するモバイルアプリケーションにより、エンドユーザーは環境情報とともにエネルギー消費データを可視化することができる。 提案方式は,適切な計算と無線性能を維持しつつ,コスト効率の高いデプロイメントを実現する。

Human population are striving against energy-related issues that not only affects society and the development of the world, but also causes global warming. A variety of broad approaches have been developed by both industry and the research community. However, there is an ever increasing need for comprehensive, end-to-end solutions aimed at transforming human behavior rather than device metrics and benchmarks. In this paper, a micro-moment-based smart plug system is proposed as part of a larger multi-appliance energy efficiency program. The smart plug, which includes two sub-units: the power consumption unit and environmental monitoring unit collect energy consumption of appliances along with contextual information, such as temperature, humidity, luminosity and room occupancy respectively. The plug also allows home automation capability. With the accompanying mobile application, end-users can visualize energy consumption data along with ambient environmental information. Current implementation results show that the proposed system delivers cost-effective deployment while maintaining adequate computation and wireless performance.
翻訳日:2021-05-15 12:32:25 公開日:2020-12-10
# (参考訳) 因子モデルを用いた前処理ノイズ関数データ [全文訳有]

Preprocessing noisy functional data using factor models ( http://arxiv.org/abs/2012.05824v1 )

ライセンス: CC BY 4.0
Siegfried H\"ormann and Fatima Jammoul(参考訳) 離散的な観測点の集合で測定される関数的データを考察する。 このようなデータはノイズで測定されることが多く、ターゲットは基礎となる信号の復元である。 最も一般的に、実践者は、例えば、\ kernel smoothing や spline fit のような、スムージングのアプローチを用いている。 このような曲線フィッティング技法の欠点は、それらが関数によって機能し、サンプル全体の情報を考慮していないことである。 本稿では,信号と雑音を因子モデルの共通成分と特異成分として自然に表現することができることを論じる。 そこで本研究では,因子モデルに基づく推定手法を提案する。 本研究の目的は,提案手法の背景にある理由を説明し,シミュレーションおよび実データの性能を競合手法と比較することである。

We consider functional data which are measured on a discrete set of observation points. Often such data are measured with noise, and then the target is to recover the underlying signal. Most commonly, practitioners use some smoothing approach, e.g.,\ kernel smoothing or spline fitting towards this goal. The drawback of such curve fitting techniques is that they act function by function, and don't take into account information from the entire sample. In this paper we argue that signal and noise can be naturally represented as the common and idiosyncratic component, respectively, of a factor model. Accordingly, we propose to an estimation scheme which is based on factor models. The purpose of this paper is to explain the reasoning behind our approach and to compare its performance on simulated and on real data to competing methods.
翻訳日:2021-05-15 12:22:35 公開日:2020-12-10
# (参考訳) 口語ペルシア語の自動標準化 [全文訳有]

Automatic Standardization of Colloquial Persian ( http://arxiv.org/abs/2012.05879v1 )

ライセンス: CC BY 4.0
Mohammad Sadegh Rasooli, Farzane Bakhtyari, Fatemeh Shafiei, Mahsa Ravanbakhsh, Chris Callison-Burch(参考訳) ペルシア語には標準語と口語という2つの種類がある。 ペルシャのほとんどの自然言語処理ツールは、テキストが標準形式であると仮定している: この仮定は、多くの実際のアプリケーション、特にwebコンテンツにおいて誤りである。 本稿では,シーケンシャル・ツー・シーケンス変換に基づく簡易かつ効果的な標準化手法について述べる。 逐次モデル学習のための人工的並列言語から標準語へのデータを生成するアルゴリズムを設計した。 さらに,多種多様なドメインから得られた1912文の公開評価データをアノテートする。 我々の本質的評価では,本書のbleuスコアが46.4である既定規則に基づく標準化モデルと比較して,62.8 対 61.7 のbleuスコアが高かった。 また,本モデルでは,開発データの絶対bleuスコアが1.4,テストデータが0.8で,訓練データがペルシャ語から派生したシナリオにおいて,英語からペルシア語への機械翻訳が向上することを示す。

The Iranian Persian language has two varieties: standard and colloquial. Most natural language processing tools for Persian assume that the text is in standard form: this assumption is wrong in many real applications especially web content. This paper describes a simple and effective standardization approach based on sequence-to-sequence translation. We design an algorithm for generating artificial parallel colloquial-to-standa rd data for learning a sequence-to-sequence model. Moreover, we annotate a publicly available evaluation data consisting of 1912 sentences from a diverse set of domains. Our intrinsic evaluation shows a higher BLEU score of 62.8 versus 61.7 compared to an off-the-shelf rule-based standardization model in which the original text has a BLEU score of 46.4. We also show that our model improves English-to-Persian machine translation in scenarios for which the training data is from colloquial Persian with 1.4 absolute BLEU score difference in the development data, and 0.8 in the test data.
翻訳日:2021-05-15 11:05:13 公開日:2020-12-10
# (参考訳) ロバスト一貫性ビデオ深度推定 [全文訳有]

Robust Consistent Video Depth Estimation ( http://arxiv.org/abs/2012.05901v1 )

ライセンス: CC BY 4.0
Johannes Kopf, Xuejian Rong, Jia-Bin Huang(参考訳) 本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。 我々は,一像深度推定のために訓練された畳み込みニューラルネットワークと幾何学的最適化を併用して,スムーズなカメラ軌跡を推定し,詳細かつ安定した深度再構成を行う。 本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。 従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。 提案手法は,深度とポーズの両面でSintelベンチマークの精度を定量的に上回り,様々な野生のデータセットの質的な結果が得られる。

We present an algorithm for estimating consistent dense depth maps and camera poses from a monocular video. We integrate a learning-based depth prior, in the form of a convolutional neural network trained for single-image depth estimation, with geometric optimization, to estimate a smooth camera trajectory as well as detailed and stable depth reconstruction. Our algorithm combines two complementary techniques: (1) flexible deformation-splines for low-frequency large-scale alignment and (2) geometry-aware depth filtering for high-frequency alignment of fine depth details. In contrast to prior approaches, our method does not require camera poses as input and achieves robust reconstruction for challenging hand-held cell phone captures containing a significant amount of noise, shake, motion blur, and rolling shutter deformations. Our method quantitatively outperforms state-of-the-arts on the Sintel benchmark for both depth and pose estimations and attains favorable qualitative results across diverse wild datasets.
翻訳日:2021-05-15 10:26:21 公開日:2020-12-10
# (参考訳) 『Let's Eat Grandma』:感性分析のための文表現における句読点の意義 [全文訳有]

"Let's Eat Grandma": When Punctuation Matters in Sentence Representation for Sentiment Analysis ( http://arxiv.org/abs/2101.03029v1 )

ライセンス: CC BY 4.0
Mansooreh Karami, Ahmadreza Mosallanezhad, Michelle V Mancenido, Huan Liu(参考訳) ニューラルネットワークベースの埋め込みは、語彙的および意味的類似性と類似性を捉えるために、テキストのベクトル表現を作成するための主流のアプローチである。 一般に、既存の符号化法は句読点を重要でない情報として無視するので、タスク性能を向上させるために前処理段階では日常的に削除される。 本稿では,句読点が感情分析において重要な役割を果たすと仮定し,構文的・文脈的パフォーマンスを改善する新しい表現モデルを提案する。 我々は、公開データセットで実験を行い、我々のモデルが他の最先端のベースライン手法よりも正確に感情を識別できることを検証することで、我々の発見を裏付ける。

Neural network-based embeddings have been the mainstream approach for creating a vector representation of the text to capture lexical and semantic similarities and dissimilarities. In general, existing encoding methods dismiss the punctuation as insignificant information; consequently, they are routinely eliminated in the pre-processing phase as they are shown to improve task performance. In this paper, we hypothesize that punctuation could play a significant role in sentiment analysis and propose a novel representation model to improve syntactic and contextual performance. We corroborate our findings by conducting experiments on publicly available datasets and verify that our model can identify the sentiments more accurately over other state-of-the-art baseline methods.
翻訳日:2021-05-15 09:54:09 公開日:2020-12-10
# (参考訳) commpool:階層グラフ表現学習のための解釈可能なグラフプーリングフレームワーク [全文訳有]

CommPOOL: An Interpretable Graph Pooling Framework for Hierarchical Graph Representation Learning ( http://arxiv.org/abs/2012.05980v1 )

ライセンス: CC BY 4.0
Haoteng Tang, Guixiang Ma, Lifang He, Heng Huang, Liang Zhan(参考訳) 近年,グラフ分類などのグラフレベルのタスクに有効なグラフ表現学習手法である階層型グラフプーリングニューラルネットワーク(HGPNN)の出現と発展を目撃している。 しかし、現在のHGPNNはグラフ固有の構造(例えば、コミュニティ構造)を十分に活用していない。 さらに,既存のHGPNNにおけるプール操作の解釈は困難である。 本稿では,グラフ表現学習プロセスにおけるグラフの階層的コミュニティ構造をキャプチャし,保存することのできる,新しい解釈可能なグラフプーリングフレームワークであるCommPOOLを提案する。 具体的には、CommPOOLにおけるコミュニティプーリング機構は、教師なしアプローチを用いて、グラフ固有のコミュニティ構造を解釈可能な方法でキャプチャする。 CommPOOLは階層的なグラフ表現学習のための汎用的で柔軟なフレームワークであり、様々なグラフレベルのタスクをさらに促進することができる。 5つのベンチマークデータセットと1つの合成データセットの評価は、グラフ分類のためのグラフ表現学習におけるcommpoolの優れた性能と、グラフのコミュニティ構造を捉えて保存する効果を示している。

Recent years have witnessed the emergence and flourishing of hierarchical graph pooling neural networks (HGPNNs) which are effective graph representation learning approaches for graph level tasks such as graph classification. However, current HGPNNs do not take full advantage of the graph's intrinsic structures (e.g., community structure). Moreover, the pooling operations in existing HGPNNs are difficult to be interpreted. In this paper, we propose a new interpretable graph pooling framework - CommPOOL, that can capture and preserve the hierarchical community structure of graphs in the graph representation learning process. Specifically, the proposed community pooling mechanism in CommPOOL utilizes an unsupervised approach for capturing the inherent community structure of graphs in an interpretable manner. CommPOOL is a general and flexible framework for hierarchical graph representation learning that can further facilitate various graph-level tasks. Evaluations on five public benchmark datasets and one synthetic dataset demonstrate the superior performance of CommPOOL in graph representation learning for graph classification compared to the state-of-the-art baseline methods, and its effectiveness in capturing and preserving the community structure of graphs.
翻訳日:2021-05-15 08:47:34 公開日:2020-12-10
# (参考訳) MDCNN分類器を用いた心疾患予測のためのIoTフレームワーク [全文訳有]

An IoT Framework for Heart Disease Prediction based on MDCNN Classifier ( http://arxiv.org/abs/2012.05999v1 )

ライセンス: CC BY 4.0
Mohammad Ayoub Khan(参考訳) 現在、心臓病が世界中で死因となっている。 高度な知識とともに経験を必要とするため、心臓病の予測は複雑な作業である。 IoT(Internet of Things)技術は近年,心臓疾患の診断と予測のためのセンサ値収集に採用されている。 多くの研究者は心疾患の診断に焦点を当てているが、診断結果の正確さは低い。 この問題に対処するため、MDCNN(Modified Deep Convolutional Neural Network)を用いて、心疾患をより正確に評価するためのIoTフレームワークが提案されている。 患者に取り付けられたスマートウォッチ及び心臓モニタ装置は、血圧と心電図(ECG)を監視する。 MDCNNは、受信したセンサデータを正常かつ異常に分類するために使用される。 本システムの性能は,提案するmdcnnと既存のディープラーニングニューラルネットワーク,ロジスティック回帰を比較して解析する。 その結果, MDCNN を用いた心疾患予測システムは, 他の方法よりも優れていた。 提案手法は,最大レコード数に対して,既存の分類器よりも優れた98.2の精度が得られることを示す。

Nowadays, heart disease is the leading cause of death worldwide. Predicting heart disease is a complex task since it requires experience along with advanced knowledge. Internet of Things (IoT) technology has lately been adopted in healthcare systems to collect sensor values for heart disease diagnosis and prediction. Many researchers have focused on the diagnosis of heart disease, yet the accuracy of the diagnosis results is low. To address this issue, an IoT framework is proposed to evaluate heart disease more accurately using a Modified Deep Convolutional Neural Network (MDCNN). The smartwatch and heart monitor device that is attached to the patient monitors the blood pressure and electrocardiogram (ECG). The MDCNN is utilized for classifying the received sensor data into normal and abnormal. The performance of the system is analyzed by comparing the proposed MDCNN with existing deep learning neural networks and logistic regression. The results demonstrate that the proposed MDCNN based heart disease prediction system performs better than other methods. The proposed method shows that for the maximum number of records, the MDCNN achieves an accuracy of 98.2 which is better than existing classifiers.
翻訳日:2021-05-15 08:30:01 公開日:2020-12-10
# (参考訳) メタ強化学習のための性能評価政策サンプリング [全文訳有]

Performance-Weighed Policy Sampling for Meta-Reinforcement Learning ( http://arxiv.org/abs/2012.06016v1 )

ライセンス: CC BY 4.0
Ibrahim Ahmed, Marcos Quinones-Grueiro, Gautam Biswas(参考訳) 本稿では,新しい学習課題に適用した場合に,少数の学習例からポリシー関数の高速収束を生成する拡張モデル非依存メタラーニング(E-MAML)アルゴリズムについて述べる。 Model-Agnostic Meta-Learning (MAML)上に構築されたE-MAMLは、以前のタスクの環境で学んだポリシーパラメータのセットを維持している。 動的システムのための強化学習(RL)に基づくオンラインフォールトトレラント制御手法の開発にE-MAMLを適用した。 この強化は、新しい障害が発生したときに適用され、新しい障害によるシステム動作の少数のサンプルでより高速な適応を実現する新しいrlポリシーのパラメータを再初期化する。 これはMAMLのランダムなタスクサンプリングステップを置き換える。 代わりに、すでに生成されたコントローラのエクスペリエンスを利用する。 この拡張は、パラメータ空間に最大にまたがって新しい障害への適応を容易にするためにサンプルされる。 本稿では,E-MAMLとPPOを組み合わせたアプローチの有効性を,よく知られたカートポールの例に示すとともに,航空機の燃料輸送システムについて述べる。

This paper discusses an Enhanced Model-Agnostic Meta-Learning (E-MAML) algorithm that generates fast convergence of the policy function from a small number of training examples when applied to new learning tasks. Built on top of Model-Agnostic Meta-Learning (MAML), E-MAML maintains a set of policy parameters learned in the environment for previous tasks. We apply E-MAML to developing reinforcement learning (RL)-based online fault tolerant control schemes for dynamic systems. The enhancement is applied when a new fault occurs, to re-initialize the parameters of a new RL policy that achieves faster adaption with a small number of samples of system behavior with the new fault. This replaces the random task sampling step in MAML. Instead, it exploits the extant previously generated experiences of the controller. The enhancement is sampled to maximally span the parameter space to facilitate adaption to the new fault. We demonstrate the performance of our approach combining E-MAML with proximal policy optimization (PPO) on the well-known cart pole example, and then on the fuel transfer system of an aircraft.
翻訳日:2021-05-15 08:11:38 公開日:2020-12-10
# (参考訳) 圧縮可変精度ウェイトをサポートしたMACレスニューラルネットワークプロセッサ [全文訳有]

A MAC-less Neural Inference Processor Supporting Compressed, Variable Precision Weights ( http://arxiv.org/abs/2012.06018v1 )

ライセンス: CC BY 4.0
Vincenzo Liguori(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)の2つのアーキテクチャを紹介する。 どちらのアーキテクチャも計算複雑性と帯域幅を減らすために重みの幅と圧縮を利用する。 最初のアーキテクチャは multiply-accumulator s (macs) を使用するが、ゼロウェイトをスキップすることで不要な乗算を避ける。 第2のアーキテクチャは、より小さなビット層乗算器(BLMAC)でリソース集約MACを置換することで、ビット表現のレベルでの重みの幅を利用する。 BLMACを使用すると、可変サイズの整数や浮動小数点として、可変精度の重み付けが可能である。 第2のアーキテクチャの実装に関するいくつかの詳細が述べられている。 演算符号化による重み圧縮や帯域幅の影響についても論じる。 最後に,パスファインダー設計と各種技術の実装結果について述べる。

This paper introduces two architectures for the inference of convolutional neural networks (CNNs). Both architectures exploit weight sparsity and compression to reduce computational complexity and bandwidth. The first architecture uses multiply-accumulator s (MACs) but avoids unnecessary multiplications by skipping zero weights. The second architecture exploits weight sparsity at the level of their bit representation by substituting resource-intensive MACs with much smaller Bit Layer Multiply Accumulators (BLMACs). The use of BLMACs also allows variable precision weights as variable size integers and even floating points. Some details of an implementation of the second architecture are given. Weight compression with arithmetic coding is also discussed as well as bandwidth implications. Finally, some implementation results for a pathfinder design and various technologies are presented.
翻訳日:2021-05-15 08:01:51 公開日:2020-12-10
# (参考訳) 圧縮モデルに対する普遍攻撃のロバスト性と伝達性 [全文訳有]

Robustness and Transferability of Universal Attacks on Compressed Models ( http://arxiv.org/abs/2012.06024v1 )

ライセンス: CC BY 4.0
Alberto G. Matachana, Kenneth T. Co, Luis Mu\~noz-Gonz\'alez, David Martinez, Emil C. Lupu(参考訳) プルーニングや量子化のようなニューラルネットワーク圧縮手法は、エッジデバイスにディープニューラルネットワーク(DNN)を効率的にデプロイするのに非常に効果的である。 しかし、DNNは、これらのモデルを騙すために特別に設計された敵の例に目立たない入力に弱いままである。 特に、UAP(Universal Adversarial Perturbations)は、大規模な入力セットをまたいで一般化可能な敵の摂動を生成する強力な種類の敵攻撃である。 本研究では, 様々な圧縮技術がUAP攻撃に与える影響を解析し, プルーニングと量子化の異なる形態を含む。 CIFAR-10とSVHNデータセットの非圧縮モデルと比較し、圧縮モデルからホワイトボックスとトランスファー攻撃への堅牢性を検証した。 評価の結果,ソフトフィルタやポストトレーニングプルーニングなど,プルーニング法の違いが明らかとなった。 我々は,prunedモデルとfullモデル間のuap転送攻撃は限定的であり,これらのモデル間のシステム的脆弱性が異なることを示唆する。 この発見は、異なる圧縮技術を用いることで、ブラックボックス転送攻撃の有効性を損なうおそれがある。 いくつかのシナリオでは、量子化は勾配マスキングを生じさせ、誤ったセキュリティ感覚を与える。 最後に,uap攻撃に対する圧縮モデルのロバスト性に関する結論はアプリケーションに依存し,実験で使用した2つのデータセットで異なる現象を観測する。

Neural network compression methods like pruning and quantization are very effective at efficiently deploying Deep Neural Networks (DNNs) on edge devices. However, DNNs remain vulnerable to adversarial examples-inconspicuo us inputs that are specifically designed to fool these models. In particular, Universal Adversarial Perturbations (UAPs), are a powerful class of adversarial attacks which create adversarial perturbations that can generalize across a large set of inputs. In this work, we analyze the effect of various compression techniques to UAP attacks, including different forms of pruning and quantization. We test the robustness of compressed models to white-box and transfer attacks, comparing them with their uncompressed counterparts on CIFAR-10 and SVHN datasets. Our evaluations reveal clear differences between pruning methods, including Soft Filter and Post-training Pruning. We observe that UAP transfer attacks between pruned and full models are limited, suggesting that the systemic vulnerabilities across these models are different. This finding has practical implications as using different compression techniques can blunt the effectiveness of black-box transfer attacks. We show that, in some scenarios, quantization can produce gradient-masking, giving a false sense of security. Finally, our results suggest that conclusions about the robustness of compressed models to UAP attacks is application dependent, observing different phenomena in the two datasets used in our experiments.
翻訳日:2021-05-15 07:38:54 公開日:2020-12-10
# (参考訳) ツイートの感情分析のためのディープニューラルネットワークとトランスファー学習の検討 [全文訳有]

Exploring Deep Neural Networks and Transfer Learning for Analyzing Emotions in Tweets ( http://arxiv.org/abs/2012.06025v1 )

ライセンス: CC BY 4.0
Yasas Senarath, Uthayasanker Thayasivam(参考訳) 本稿では,ツイート中の感情分析に深層学習と伝達学習を用いる実験を行い,深層学習モデルを解釈する方法を提案する。 感情分析のための提案手法は,Long Short Term Memory(LSTM)ネットワークと畳み込みニューラルネットワーク(CNN)を組み合わせたものである。 次に,この手法を伝達学習手法を用いて感情強度予測に拡張する。 さらに,モデルの理解を深めるために,ツイート中の各単語の重要性を可視化する手法を提案する。 実験では,提案モデルが感情の強度を予測するための競争結果を保ちながら,感情分類の最先端を上回っていることを示す。

In this paper, we present an experiment on using deep learning and transfer learning techniques for emotion analysis in tweets and suggest a method to interpret our deep learning models. The proposed approach for emotion analysis combines a Long Short Term Memory (LSTM) network with a Convolutional Neural Network (CNN). Then we extend this approach for emotion intensity prediction using transfer learning technique. Furthermore, we propose a technique to visualize the importance of each word in a tweet to get a better understanding of the model. Experimentally, we show in our analysis that the proposed models outperform the state-of-the-art in emotion classification while maintaining competitive results in predicting emotion intensity.
翻訳日:2021-05-15 07:23:12 公開日:2020-12-10
# (参考訳) Ubisoftのローラーチャンピオンのための強化学習エージェント [全文訳有]

Reinforcement Learning Agents for Ubisoft's Roller Champions ( http://arxiv.org/abs/2012.06031v1 )

ライセンス: CC BY-SA 4.0
Nancy Iskander, Aurelien Simoni, Eloi Alonso, Maxim Peter(参考訳) 近年、強化学習(RL)は研究や大衆文化で人気が高まっている。 しかし、懐疑論は現代のビデオゲーム開発におけるRLの実用性を取り巻くものである。 本稿では,現代,非自明なビデオゲームにおいて,RLが人工知能(AI)設計の優れたツールとなることを実例で示す。 我々は,オバル型スケート競技場での3v3対戦型スポーツゲームであるubisofts roller championsに対して,rlシステムを提案する。 私たちのシステムは,ゲームプレイの変更に伴って新しいモデルをトレーニングするために1~4日を要し,アジャイルで迅速な開発に追随するように設計されています。 AIは2v2モード、ボットモードでのトレーニング、そして非接続のプレイヤーを置き換えるクラシックゲームモードなど様々なゲームモードに対応している。 我々はAIが高度な協調戦略を開発し、ボーナスとしてゲームのバランスをとるのに役立つことを観察する。 関連動画はhttps://vimeo.com/46 6780171 (password: rollerRWRL2020)でご覧ください。

In recent years, Reinforcement Learning (RL) has seen increasing popularity in research and popular culture. However, skepticism still surrounds the practicality of RL in modern video game development. In this paper, we demonstrate by example that RL can be a great tool for Artificial Intelligence (AI) design in modern, non-trivial video games. We present our RL system for Ubisoft's Roller Champions, a 3v3 Competitive Multiplayer Sports Game played on an oval-shaped skating arena. Our system is designed to keep up with agile, fast-paced development, taking 1--4 days to train a new model following gameplay changes. The AIs are adapted for various game modes, including a 2v2 mode, a Training with Bots mode, in addition to the Classic game mode where they replace players who have disconnected. We observe that the AIs develop sophisticated co-ordinated strategies, and can aid in balancing the game as an added bonus. Please see the accompanying video at https://vimeo.com/46 6780171 (password: rollerRWRL2020) for examples.
翻訳日:2021-05-15 07:15:26 公開日:2020-12-10
# (参考訳) 人工知能と協力 [全文訳有]

Artificial Intelligence & Cooperation ( http://arxiv.org/abs/2012.06034v1 )

ライセンス: CC BY 4.0
Elisa Bertino, Finale Doshi-Velez, Maria Gini, Daniel Lopresti, and David Parkes(参考訳) 人工知能(AI)の台頭は、意思決定を機械に委譲する意志の高まりをもたらします。 しかし、機械に私たちに影響を与える決定権を与えるのではなく、AIシステムと協調して働く方法が必要だ。 人とのAIシステムとAIシステムがどのように協調行動をもたらすかを理解するために、「AIと協力」の研究が不可欠である。 aiへの信頼も重要だ – 本質的に信頼であり、時間とともにのみ得られる信頼である。 ここでは「AI」という言葉を最も広義に用いており、最近の20年にわたるAI研究のコミュニティロードマップ(Gil and Selman, 2019)で採用されている。 成功すれば、人間とAIの協力は、人間と人間の協力と同じように社会を構築することができる。 助けを求める本質的な意志からでも、自己利益を通じても、人間社会は強くなり、人類は協力を通じて成功している。 家族ユニットとして、隣人と、同僚として、見知らぬ人たちと「小さな」協力し、商業、気候変動、軍縮に関する問題に関する協力的な成果を求めるグローバルコミュニティとして「大規模」に協力します。 自然界では、細胞や動物の間でも協力が進化している。 人間とaiの協力に関わる多くのケースは非対称であり、最終的には人間が制御するが、aiシステムはあまりにも複雑になり、今日でも人間が単に受動的オブザーバーとして機能するときに、理性、推奨、行動を完全に理解することは不可能である。

The rise of Artificial Intelligence (AI) will bring with it an ever-increasing willingness to cede decision-making to machines. But rather than just giving machines the power to make decisions that affect us, we need ways to work cooperatively with AI systems. There is a vital need for research in "AI and Cooperation" that seeks to understand the ways in which systems of AIs and systems of AIs with people can engender cooperative behavior. Trust in AI is also key: trust that is intrinsic and trust that can only be earned over time. Here we use the term "AI" in its broadest sense, as employed by the recent 20-Year Community Roadmap for AI Research (Gil and Selman, 2019), including but certainly not limited to, recent advances in deep learning. With success, cooperation between humans and AIs can build society just as human-human cooperation has. Whether coming from an intrinsic willingness to be helpful, or driven through self-interest, human societies have grown strong and the human species has found success through cooperation. We cooperate "in the small" -- as family units, with neighbors, with co-workers, with strangers -- and "in the large" as a global community that seeks cooperative outcomes around questions of commerce, climate change, and disarmament. Cooperation has evolved in nature also, in cells and among animals. While many cases involving cooperation between humans and AIs will be asymmetric, with the human ultimately in control, AI systems are growing so complex that, even today, it is impossible for the human to fully comprehend their reasoning, recommendations, and actions when functioning simply as passive observers.
翻訳日:2021-05-15 07:03:40 公開日:2020-12-10
# 文脈的類似性を考慮したフレキシブルFew-Shot学習

Flexible Few-Shot Learning with Contextual Similarity ( http://arxiv.org/abs/2012.05895v1 )

ライセンス: Link先を確認
Mengye Ren, Eleni Triantafillou, Kuan-Chieh Wang, James Lucas, Jake Snell, Xaq Pitkow, Andreas S. Tolias, Richard Zemel(参考訳) 既存の数ショット学習アプローチは、永続的で厳密なクラス概念を持つタスクを扱う。 通常、学習者は、トレーニング時に一定の数のクラスからのみデータを観察し、テスト時に新しいクラスのセットに一般化するように要求される。 同じクラスの2つの例は、どのエピソードでも常に同じラベルが割り当てられる。 本研究では,学習者には与えられない課題状況に応じて,事例間の類似性がエピソードごとに変化しうる現実的な環境について考察する。 このフレキシブルな数ショットシナリオのために、タスクは顔(Celeb-A)、靴(Zappos50K)、一般的なオブジェクト(ImageNet-with-Attri butes)の画像に基づいて、新しいベンチマークデータセットを定義する。 分類基準とエピソード的アプローチは、標準的な数ショット学習に適する表現を学習する一方で、テスト中に新しい類似性の定義が生じると、柔軟なタスクに苦しむ。 本稿では,最近のコントラストのない非教師付き学習技術を構築し,汎用性と柔軟な特徴の獲得を目的とした,インスタンスとクラス不変学習の組み合わせを提案する。 我々のアプローチは,新しいフレキシブルなマイズショット学習ベンチマークに強く依存し,教師なし学習がより一般化可能な表現を得ることを実証した。

Existing approaches to few-shot learning deal with tasks that have persistent, rigid notions of classes. Typically, the learner observes data only from a fixed number of classes at training time and is asked to generalize to a new set of classes at test time. Two examples from the same class would always be assigned the same labels in any episode. In this work, we consider a realistic setting where the similarities between examples can change from episode to episode depending on the task context, which is not given to the learner. We define new benchmark datasets for this flexible few-shot scenario, where the tasks are based on images of faces (Celeb-A), shoes (Zappos50K), and general objects (ImageNet-with-Attri butes). While classification baselines and episodic approaches learn representations that work well for standard few-shot learning, they suffer in our flexible tasks as novel similarity definitions arise during testing. We propose to build upon recent contrastive unsupervised learning techniques and use a combination of instance and class invariance learning, aiming to obtain general and flexible features. We find that our approach performs strongly on our new flexible few-shot learning benchmarks, demonstrating that unsupervised learning obtains more generalizable representations.
翻訳日:2021-05-15 06:40:45 公開日:2020-12-10
# AutoSelect:3Dマルチオブジェクト追跡のための自動および動的検出選択

AutoSelect: Automatic and Dynamic Detection Selection for 3D Multi-Object Tracking ( http://arxiv.org/abs/2012.05894v1 )

ライセンス: Link先を確認
Xinshuo Weng, Kris Kitani(参考訳) 3Dマルチオブジェクトトラッキングは、自動運転車のようなロボット認識システムにおいて重要なコンポーネントである。 最近の研究は、過去のトラックレットと現在のフレーム内の検出とをマッチングすることを目的とした、トラッキングバイ検出パイプラインに従っている。 偽陽性検出との整合を避けるために、先行作業はしきい値を介して低い信頼度で検出をフィルタリングする。 しかし、適切なしきい値を見つけることは簡単ではなく、アブレーションによる広範囲な手動探索を必要とする。 また、この閾値はターゲットオブジェクトカテゴリなどの多くの要因に敏感であるため、これらの要因が変わった場合、しきい値を再調査する必要がある。 そこで本研究では,高品質な検出を自動的に選択し,手動しきい値探索に必要な作業を取り除くことを提案する。 また、以前の作業では、特定のフレームや特定のオブジェクトに対して、サブ最適であるデータシーケンス毎に単一のしきい値を使用することが多い。 代わりに、フレームごとまたはオブジェクトごとのしきい値を動的に検索し、パフォーマンスをさらに向上します。 kittiとnuscenesの実験を通じて、リコールを維持しながら45.7\%$ false positivesをフィルタリングし、新しいs.o.t.a.を得る。 パフォーマンスと手動のしきい値調整の必要性の排除。

3D multi-object tracking is an important component in robotic perception systems such as self-driving vehicles. Recent work follows a tracking-by-detectio n pipeline, which aims to match past tracklets with detections in the current frame. To avoid matching with false positive detections, prior work filters out detections with low confidence scores via a threshold. However, finding a proper threshold is non-trivial, which requires extensive manual search via ablation study. Also, this threshold is sensitive to many factors such as target object category so we need to re-search the threshold if these factors change. To ease this process, we propose to automatically select high-quality detections and remove the efforts needed for manual threshold search. Also, prior work often uses a single threshold per data sequence, which is sub-optimal in particular frames or for certain objects. Instead, we dynamically search threshold per frame or per object to further boost performance. Through experiments on KITTI and nuScenes, our method can filter out $45.7\%$ false positives while maintaining the recall, achieving new S.O.T.A. performance and removing the need for manually threshold tuning.
翻訳日:2021-05-15 06:40:24 公開日:2020-12-10
# オートマチック・ニューロナレ(TAN)におけるPr{\'e}の判断に関する定量的研究

Approches quantitatives de l'analyse des pr{\'e}dictions en traduction automatique neuronale (TAN) ( http://arxiv.org/abs/2012.05541v1 )

ライセンス: Link先を確認
Maria Zimina-Poirot (CLILLAC-ARP), Nicolas Ballier (CLILLAC-ARP), Jean-Baptiste Yun\`es (IRIF)(参考訳) ニューラルマシン翻訳における最適学習条件に関する大規模プロジェクトの一環として,翻訳エンジンの特性学習フェーズについて検討する。 全実験はOpenNMT-Pyを用いて行われ、前処理ステップはEuroparlトレーニングコーパスを使用して実施され、InterSECTコーパスは検証に使用される。 トレーニングフェーズの縦断解析は、翻訳の進行が必ずしも線形であるとは限らないことを示唆する。 本研究は,神経機械翻訳 (nmt) における作業中の異なる過程をマッピングするために,時系列進行に関連する現象の重要性を明らかにすることを目的とした。

As part of a larger project on optimal learning conditions in neural machine translation, we investigate characteristic training phases of translation engines. All our experiments are carried out using OpenNMT-Py: the pre-processing step is implemented using the Europarl training corpus and the INTERSECT corpus is used for validation. Longitudinal analyses of training phases suggest that the progression of translations is not always linear. Following the results of textometric explorations, we identify the importance of the phenomena related to chronological progression, in order to map different processes at work in neural machine translation (NMT).
翻訳日:2021-05-15 06:39:36 公開日:2020-12-10
# 時空間グラフニューラルネットワークを用いたビデオオブジェクト分割のためのマスク再構成

Spatiotemporal Graph Neural Network based Mask Reconstruction for Video Object Segmentation ( http://arxiv.org/abs/2012.05499v1 )

ライセンス: Link先を確認
Daizong Liu, Shuangjie Xu, Xiao-Yang Liu, Zichuan Xu, Wei Wei, Pan Zhou(参考訳) 本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。 従来の検出に基づく手法は比較的優れた性能を示すが、これらの手法は、選択された候補の外で局所パッチの詳細を失う可能性のある、欲求戦略によって最良の提案を抽出する。 本稿では,ビデオオブジェクトセグメンテーションのためのより正確なマスクを再構成するための新しい時空間グラフニューラルネットワーク(STG-Net)を提案する。 空間グラフでは、フレームのオブジェクト提案をノードとして扱い、それらの相関をマスクコンテキストアグリゲーションのためのエッジウェイト戦略で表現する。 過去のフレームから時間情報を取得するために,メモリネットワークを用いて,過去のマスクを時間グラフで検索し,現在のフレームのマスクを洗練する。 局所パッチの詳細と時間的関係の両方を組み合わせることで、オブジェクトの閉塞や欠落といった課題にもっと対処できるのです。 オンライン学習や微調整がなければ、私たちのstg-netは4つの大きなベンチマーク(davis、youtube-vos、segtrack-v2、youtube-objects)で最先端のパフォーマンスを実現します。

This paper addresses the task of segmenting class-agnostic objects in semi-supervised setting. Although previous detection based methods achieve relatively good performance, these approaches extract the best proposal by a greedy strategy, which may lose the local patch details outside the chosen candidate. In this paper, we propose a novel spatiotemporal graph neural network (STG-Net) to reconstruct more accurate masks for video object segmentation, which captures the local contexts by utilizing all proposals. In the spatial graph, we treat object proposals of a frame as nodes and represent their correlations with an edge weight strategy for mask context aggregation. To capture temporal information from previous frames, we use a memory network to refine the mask of current frame by retrieving historic masks in a temporal graph. The joint use of both local patch details and temporal relationships allow us to better address the challenges such as object occlusion and missing. Without online learning and fine-tuning, our STG-Net achieves state-of-the-art performance on four large benchmarks (DAVIS, YouTube-VOS, SegTrack-v2, and YouTube-Objects), demonstrating the effectiveness of the proposed approach.
翻訳日:2021-05-15 06:39:00 公開日:2020-12-10
# 視覚に基づくオンライン中古品の価格提案

Vision-based Price Suggestion for Online Second-hand Items ( http://arxiv.org/abs/2012.06009v1 )

ライセンス: Link先を確認
Liang Han, Zhaozheng Yin, Zhurong Xia, Li Guo, Mingqian Tang, Rong Jin(参考訳) 購入決定を下す前に商品(例えば、tシャツの表面に触れたり、香水の匂いを嗅ぐなど)を詳しくチェックする機会がある物理的な店舗での買い物とは異なり、オンライン買い物客はアップロードされた商品画像に大きく依存して購入決定を行う。 商品の価格を見積もるのは簡単ではないため、オンラインで中古品の売買や購入は難しい。 本研究では,オンライン中古品購入プラットフォームにおける視覚に基づく価格提案システムを提案する。 ビジョンベースの価格提案の目標は、売り手がオンラインプラットフォームにアップロードされた画像を使って、中古リストの効果的な価格を設定することにある。 まず,他の画像に基づく項目情報(カテゴリ,ブランドなど)の助けを借りて,画像から代表的視覚的特徴を抽出することを提案する。 そこで,我々は,抽出した視覚的特徴とショッピングプラットフォームからの統計的特徴を取り入れた視覚的価格提案モジュールを設計し,バイナリ分類モデルにより,アップロードされたアイテムイメージが価格提案に適しているかを判断し,回帰モデルにより商品の価格提案を行う。 プラットフォームからの2つの要求により、分類モデルと回帰モデルとを協調的に最適化する2つの異なる目的関数が提案される。 モデルトレーニングを改善するため,共同最適化のためのウォームアップトレーニング戦略を提案する。 大規模実世界のデータセットに関する広範囲な実験は、我々のビジョンに基づく価格予測システムの有効性を実証する。

Different from shopping in physical stores, where people have the opportunity to closely check a product (e.g., touching the surface of a T-shirt or smelling the scent of perfume) before making a purchase decision, online shoppers rely greatly on the uploaded product images to make any purchase decision. The decision-making is challenging when selling or purchasing second-hand items online since estimating the items' prices is not trivial. In this work, we present a vision-based price suggestion system for the online second-hand item shopping platform. The goal of vision-based price suggestion is to help sellers set effective prices for their second-hand listings with the images uploaded to the online platforms. First, we propose to better extract representative visual features from the images with the aid of some other image-based item information (e.g., category, brand). Then, we design a vision-based price suggestion module which takes the extracted visual features along with some statistical item features from the shopping platform as the inputs to determine whether an uploaded item image is qualified for price suggestion by a binary classification model, and provide price suggestions for items with qualified images by a regression model. According to two demands from the platform, two different objective functions are proposed to jointly optimize the classification model and the regression model. For better model training, we also propose a warm-up training strategy for the joint optimization. Extensive experiments on a large real-world dataset demonstrate the effectiveness of our vision-based price prediction system.
翻訳日:2021-05-15 06:38:22 公開日:2020-12-10
# Ensemble Squared: メタオートMLシステム

Ensemble Squared: A Meta AutoML System ( http://arxiv.org/abs/2012.05390v1 )

ライセンス: Link先を確認
Jason Yoo, Tony Joseph, Dylan Yung, S. Ali Nasseri, Frank Wood(参考訳) 機械学習ソリューションに適応できる問題の数は増え続け、コンピューティングパワーとさまざまな機械学習技術の両方が同時に成長し、自動化機械学習(automl)への関心が爆発的に高まっている。 本稿では,AutoMLシステムのレベルでのアンサンブルを行う「メタ」オートMLシステムであるEnsemble Squared(Ensemble$^2$)を提案する。 アンサンブル$^2$は、既存の競合であるautomlシステムの多様性を利用して、それらセットによって同時に生成されたトップパフォーマンスモデルをセンセンシングする。 我々の研究は、AutoMLシステムの多様性がAutoMLシステムのレベルでのアンサンブルを正当化するのに十分であることを示している。 また、これを実証するために、OpenML分類チャレンジに基づいてAutoML結果の新たな状態を確立する。

The continuing rise in the number of problems amenable to machine learning solutions, coupled with simultaneous growth in both computing power and variety of machine learning techniques has led to an explosion of interest in automated machine learning (AutoML). This paper presents Ensemble Squared (Ensemble$^2$), a "meta" AutoML system that ensembles at the level of AutoML systems. Ensemble$^2$ exploits the diversity of existing, competing AutoML systems by ensembling the top-performing models simultaneously generated by a set of them. Our work shows that diversity in AutoML systems is sufficient to justify ensembling at the AutoML system level. In demonstrating this, we also establish a new state of the art AutoML result on the OpenML classification challenge.
翻訳日:2021-05-15 06:37:37 公開日:2020-12-10
# 深層学習理論の留意点

Notes on Deep Learning Theory ( http://arxiv.org/abs/2012.05760v1 )

ライセンス: Link先を確認
Eugene A. Golikov(参考訳) これは、私が2020年秋にモスクワ物理技術研究所(MIPT)とYandex School of Data Analysis(YSDA)で行った講義のメモです。 このノートは初期化、損失ランドスケープ、一般化、ニューラルネットワークカーネル理論のいくつかの側面をカバーしている。 他の多くの話題(例: 表現性,平均場理論,二重降下現象)は現在のバージョンでは欠落しており,今後の改訂で追加する予定である。

These are the notes for the lectures that I was giving during Fall 2020 at the Moscow Institute of Physics and Technology (MIPT) and at the Yandex School of Data Analysis (YSDA). The notes cover some aspects of initialization, loss landscape, generalization, and a neural tangent kernel theory. While many other topics (e.g. expressivity, a mean-field theory, a double descent phenomenon) are missing in the current version, we plan to add them in future revisions.
翻訳日:2021-05-15 06:36:52 公開日:2020-12-10
# グラフニューラルネットワークにおける破滅的予測の克服

Overcoming Catastrophic Forgetting in Graph Neural Networks ( http://arxiv.org/abs/2012.06002v1 )

ライセンス: Link先を確認
Huihui Liu, Yiding Yang, Xinchao Wang(参考訳) 破滅的な忘れは、ニューラルネットワークが新しいタスクを学ぶ際に、以前の学習した知識を「忘れる」傾向があることを指す。 従来の手法では、グリッドドメインに画像のような入力サンプルがある畳み込みニューラルネットワーク(CNN)でこの問題を克服することに重点を置いていたが、非グリッドデータを処理するグラフニューラルネットワーク(GNN)は概ね見過ごされている。 本稿では,大惨な忘れ難題を克服し,GNNにおける継続学習を強化するための新しいスキームを提案する。 我々のアプローチの核心は汎用モジュールであり、トポロジー対応の重み保存~(TWP)と呼ばれ、プラグイン・アンド・プレイ方式で任意の形式のGNNに適用できる。 下流タスクで重要なパラメータの更新を遅くするだけに依存するcnnベースの連続学習のメインストリームとは異なり、twpは入力グラフの局所構造を明示的に探索し、トポロジー集約において重要な役割を果たすパラメータの安定化を試みる。 いくつかのデータセット上で異なるGNNバックボーン上でのTWPを評価し,その性能が最先端であることを示す。 コードは \url{https://github.com/h hliu79/TWP} で公開されている。

Catastrophic forgetting refers to the tendency that a neural network "forgets" the previous learned knowledge upon learning new tasks. Prior methods have been focused on overcoming this problem on convolutional neural networks (CNNs), where the input samples like images lie in a grid domain, but have largely overlooked graph neural networks (GNNs) that handle non-grid data. In this paper, we propose a novel scheme dedicated to overcoming catastrophic forgetting problem and hence strengthen continual learning in GNNs. At the heart of our approach is a generic module, termed as topology-aware weight preserving~(TWP), applicable to arbitrary form of GNNs in a plug-and-play fashion. Unlike the main stream of CNN-based continual learning methods that rely on solely slowing down the updates of parameters important to the downstream task, TWP explicitly explores the local structures of the input graph, and attempts to stabilize the parameters playing pivotal roles in the topological aggregation. We evaluate TWP on different GNN backbones over several datasets, and demonstrate that it yields performances superior to the state of the art. Code is publicly available at \url{https://github.com/h hliu79/TWP}.
翻訳日:2021-05-15 06:36:42 公開日:2020-12-10
# xRAI: AIによる説明可能な表現

xRAI: Explainable Representations through AI ( http://arxiv.org/abs/2012.06006v1 )

ライセンス: Link先を確認
Christiann Bartelt and Sascha Marton and Heiner Stuckenschmidt(参考訳) 本稿では,ニューラルネットワークがトレーニングされたネットワークから学習すべき数学的関数の記号表現を抽出する手法を提案する。 この手法は、訓練されたネットワークの重みとバイアスを入力として受け取り、ネットワークが学習する関数の数値表現をシンボル表現に直接変換できるいわゆる解釈ネットワークを訓練する考え方に基づいている。 ブール関数と低階多項式を例に、関数の異なるクラスに対する解釈ネットをオフラインで学習可能であることを示す。 トレーニングはかなり効率的で、結果の品質が有望であることを示す。 我々の研究は,目標関数を明確化することで,神経決定の理解を深める問題への貢献を提供することを目的としている。

We present xRAI an approach for extracting symbolic representations of the mathematical function a neural network was supposed to learn from the trained network. The approach is based on the idea of training a so-called interpretation network that receives the weights and biases of the trained network as input and outputs the numerical representation of the function the network was supposed to learn that can be directly translated into a symbolic representation. We show that interpretation nets for different classes of functions can be trained on synthetic data offline using Boolean functions and low-order polynomials as examples. We show that the training is rather efficient and the quality of the results are promising. Our work aims to provide a contribution to the problem of better understanding neural decision making by making the target function explicit
翻訳日:2021-05-15 06:36:20 公開日:2020-12-10
# 市場のボラティリティ予測に対する感情分析的アプローチ

A Sentiment Analysis Approach to the Prediction of Market Volatility ( http://arxiv.org/abs/2012.05906v1 )

ライセンス: Link先を確認
Justina Deveikyte, Helyette Geman, Carlo Piccari, Alessandro Provetti(参考訳) 将来のボラティリティとリターンの予測と定量化は、ポートフォリオ最適化とリスク管理の両方において、金融モデリングにおいて重要な役割を果たす。 今日の自然言語処理は、ニュースやソーシャルメディアのコメントを処理し、投資家の自信のシグナルを検出する。 金融ニュースとつぶやきから抽出した感情とFTSE100の動きとの関係について検討した。 本研究は, ある日のセンチメント尺度と市場のボラティリティと翌日のリターンの相関関係の強さを検討した。 ニュースの見出しから得られた感情は、市場のリターンを予測するシグナルとして使われる可能性があり、ボラティリティには当てはまらない。 また、驚くべき発見として、twitterのコメントに見られる感情の相関係数は-0.7、p値は0.05以下であり、これは、ある日のツイートから得られたポジティブな感情と翌日に観測されたボラティリティとの間に強い負の相関を示している。 潜在ディリクレ割当に基づくトピックモデリングを展開することで,新しい情報の到来に対応して,市場変動予測のための正確な分類器を開発し,ツイートや金融ニュースの収集から特徴ベクトルを抽出する。 得られた特徴を分類器に追加入力として使用した。 感情とトピックモデリングの組み合わせにより,分類器は63%のボラティリティの方向予測精度を得た。

Prediction and quantification of future volatility and returns play an important role in financial modelling, both in portfolio optimization and risk management. Natural language processing today allows to process news and social media comments to detect signals of investors' confidence. We have explored the relationship between sentiment extracted from financial news and tweets and FTSE100 movements. We investigated the strength of the correlation between sentiment measures on a given day and market volatility and returns observed the next day. The findings suggest that there is evidence of correlation between sentiment and stock market movements: the sentiment captured from news headlines could be used as a signal to predict market returns; the same does not apply for volatility. Also, in a surprising finding, for the sentiment found in Twitter comments we obtained a correlation coefficient of -0.7, and p-value below 0.05, which indicates a strong negative correlation between positive sentiment captured from the tweets on a given day and the volatility observed the next day. We developed an accurate classifier for the prediction of market volatility in response to the arrival of new information by deploying topic modelling, based on Latent Dirichlet Allocation, to extract feature vectors from a collection of tweets and financial news. The obtained features were used as additional input to the classifier. Thanks to the combination of sentiment and topic modelling our classifier achieved a directional prediction accuracy for volatility of 63%.
翻訳日:2021-05-15 06:36:08 公開日:2020-12-10
# DA-HGT:ドメイン適応不均一グラフ変換器

DA-HGT: Domain Adaptive Heterogeneous Graph Transformer ( http://arxiv.org/abs/2012.05688v1 )

ライセンス: Link先を確認
Tiancheng Huang, Ke Xu, Donglin Wang(参考訳) グラフネットワークを用いたドメイン適応は、グラフパラメータを共有することでラベル識別ノードとネットワーク不変ノードの埋め込みを学習する。 既存の作品の多くは均質ネットワークのドメイン適応に焦点を当てており、共有ノードタイプのみを考慮しつつ、個々のネットワーク内のプライベートノードタイプを無視する異質なケースを研究し始めた作品も少なくない。 しかし、特定のソースとターゲットの異種ネットワークでは、一般に共有ノードタイプとプライベートノードタイプが含まれており、プライベートタイプはグラフドメイン適応に余分な困難をもたらす。 本稿では、部分共有ノード型を持つ異種情報ネットワーク(HIN)について検討し、その間のドメインシフトを処理するための新しいドメイン適応異種グラフ変換器(DA-HGT)を提案する。 DA-HGTは、2つのHINにおいて同一のノードとエッジの分布を調整するだけでなく、知識伝達の性能を向上させるために異なるタイプのノードとエッジをフル活用する。 いくつかのデータセットに対する大規模な実験により、DA-HGTは異種ネットワークをまたいだ様々な領域適応タスクにおいて最先端の手法より優れていることが示された。

Domain adaptation using graph networks is to learn label-discriminative and network-invariant node embeddings by sharing graph parameters. Most existing works focus on domain adaptation of homogeneous networks, and just a few works begin to study heterogeneous cases that only consider the shared node types but ignore the private node types in individual networks. However, for a given source and target heterogeneous networks, they generally contain shared and private node types, where private types bring an extra challenge for graph domain adaptation. In this paper, we investigate Heterogeneous Information Networks (HINs) with partial shared node types and propose a novel domain adaptive heterogeneous graph transformer (DA-HGT) to handle the domain shift between them. DA-HGT can not only align the distributions of identical-type nodes and edges in two HINs but also make full use of different-type nodes and edges to improve the performance of knowledge transfer. Extensive experiments on several datasets demonstrate that DA-HGT can outperform state-of-the-art methods in various domain adaptation tasks across heterogeneous networks.
翻訳日:2021-05-15 06:35:14 公開日:2020-12-10
# シンプルな機械学習による接触追跡

A Simplistic Machine Learning Approach to Contact Tracing ( http://arxiv.org/abs/2012.05940v1 )

ライセンス: Link先を確認
Carlos G\'omez, Niamh Belton, Boi Quach, Jack Nicholls, Devanshu Anand(参考訳) このレポートは、ML-Labs (SFI Centre for Machine Learning) が提供する修正NISTの課題である Too Close For Too Long に基づいている。 修正された課題は、時間計算の側面(長すぎる)を除外する。 携帯機器データから特徴を手作りすることにより、GBMとMLPという2つの機械学習モデルを開発し、2つの携帯電話間の距離を推定する。 本手法は,香港科学技術大学(HKUST)によるNISTの課題を,かなりの差で克服することができる。

This report is based on the modified NIST challenge, Too Close For Too Long, provided by the SFI Centre for Machine Learning (ML-Labs). The modified challenge excludes the time calculation (too long) aspect. By handcrafting features from phone instrumental data we develop two machine learning models, a GBM and an MLP, to estimate distance between two phones. Our method is able to outperform the leading NIST challenge result by the Hong Kong University of Science and Technology (HKUST) by a significant margin.
翻訳日:2021-05-15 06:34:55 公開日:2020-12-10
# 芸術作品の調和を検知できるのか? 機械学習のアプローチ

Can we detect harmony in artistic compositions? A machine learning approach ( http://arxiv.org/abs/2012.05633v1 )

ライセンス: Link先を確認
Adam Vandor, Marie van Vollenhoven, Gerhard Weiss, Gerasimos Spanakis(参考訳) 視覚構成における調和は、人間でも数学的に定義または容易に表現できない概念である。 本研究の目的は,異なるレベルの調和を持つ芸術作品の数値表現を見出すことであった。 我々は人間に、伝達する調和に基づいて、グレースケール画像のコレクションを評価するよう依頼する。 画像を表現するため、一連の特殊特徴を設計・抽出した。 これにより、主観的に判断された構成に客観的な措置を割り当てることが可能となった。 評価と抽出された特徴から,調和分類問題において,これらの表現の効率を評価するために機械学習アルゴリズムを用いた。 最高の演奏モデル(SVM)は、調和の概念を人間によって評価できる数学的方法で表現できるという仮定を補強し、調和画像と不規則画像の区別において80%の精度を達成した。

Harmony in visual compositions is a concept that cannot be defined or easily expressed mathematically, even by humans. The goal of the research described in this paper was to find a numerical representation of artistic compositions with different levels of harmony. We ask humans to rate a collection of grayscale images based on the harmony they convey. To represent the images, a set of special features were designed and extracted. By doing so, it became possible to assign objective measures to subjectively judged compositions. Given the ratings and the extracted features, we utilized machine learning algorithms to evaluate the efficiency of such representations in a harmony classification problem. The best performing model (SVM) achieved 80% accuracy in distinguishing between harmonic and disharmonic images, which reinforces the assumption that concept of harmony can be expressed in a mathematical way that can be assessed by humans.
翻訳日:2021-05-15 06:34:47 公開日:2020-12-10
# 視覚表現学習における概念一般化

Concept Generalization in Visual Representation Learning ( http://arxiv.org/abs/2012.05649v1 )

ライセンス: Link先を確認
Mert Bulent Sariyildiz, Yannis Kalantidis, Diane Larlus, Karteek Alahari(参考訳) 概念の一般化の測定、すなわち、(seen)視覚概念のセットでトレーニングされたモデルが、新しい(seen)概念のセットを認識するために使用できる範囲は、視覚表現を評価する一般的な方法であり、特に、自己教師付き学習で学習される場合である。 それでも、使われない概念の選択は、通常任意に行われ、表現を訓練するために使用される概念とは独立して行われ、したがって両者のセマンティックな関係は無視される。 本稿では,目に見える概念と目に見えない概念のセマンティックな関係が一般化性能に与える影響を論じ,概念の一般化を原則的に測定できるImageNetデータセットの新しいベンチマークであるImageNet-CoGを提案する。 我々のベンチマークでは、WordNetから得られた専門家の知識を活用して、ユビキタストレーニングセットであるImageNet-1Kサブセットから意味的に、より遠く離れたImageNet概念セットのシーケンスを定義する。 私たちは、概念一般化のプリズムの下で、教師付き、半教師付き、自己監督型のアプローチから、これらのモデルを分析し、我々のベンチマークが興味深い洞察をいかに明らかにできるかを示します。 ベンチマークのリソースはhttps://europe.naver labs.com/cog-benchma rk.comで提供します。

Measuring concept generalization, i.e., the extent to which models trained on a set of (seen) visual concepts can be used to recognize a new set of (unseen) concepts, is a popular way of evaluating visual representations, especially when they are learned with self-supervised learning. Nonetheless, the choice of which unseen concepts to use is usually made arbitrarily, and independently from the seen concepts used to train representations, thus ignoring any semantic relationships between the two. In this paper, we argue that semantic relationships between seen and unseen concepts affect generalization performance and propose ImageNet-CoG, a novel benchmark on the ImageNet dataset that enables measuring concept generalization in a principled way. Our benchmark leverages expert knowledge that comes from WordNet in order to define a sequence of unseen ImageNet concept sets that are semantically more and more distant from the ImageNet-1K subset, a ubiquitous training set. This allows us to benchmark visual representations learned on ImageNet-1K out-of-the box: we analyse a number of such models from supervised, semi-supervised and self-supervised approaches under the prism of concept generalization, and show how our benchmark is able to uncover a number of interesting insights. We will provide resources for the benchmark at https://europe.naver labs.com/cog-benchma rk.
翻訳日:2021-05-15 06:34:33 公開日:2020-12-10
# フルGlow:よりリアルな画像生成のための条件付きGlow

Full-Glow: Fully conditional Glow for more realistic image generation ( http://arxiv.org/abs/2012.05846v1 )

ライセンス: Link先を確認
Moein Sorkhei, Gustav Eje Henter, Hedvig Kjellstr\"om(参考訳) 自動運転車のような自律エージェントは、トレーニングのために大量のラベル付きビジュアルデータを必要とする。 このようなデータを取得するための有効なアプローチは、収集した実データで生成モデルをトレーニングし、収集した実データセットをモデルからの合成画像で拡張し、シーンレイアウトと基底真理ラベルを制御して生成する。 本稿では,シーンレイアウトを表す意味的セグメンテーションマップを与えられた新しい街路シーンの多目的かつ現実的な画像を生成するためのフルグレー,フル条件のグローベースアーキテクチャを提案する。 ベンチマーク比較では,事前学習したpspnetのセグメンテーション性能の観点から,最近の研究よりも優れるモデルを示す。 これは、モデルからのイメージが、他のモデルよりも高い程度に、同じ種類のシーンやオブジェクトの実際のイメージに似ており、視覚的意味セグメンテーションやオブジェクト認識システムのトレーニングデータとして適していることを示している。

Autonomous agents, such as driverless cars, require large amounts of labeled visual data for their training. A viable approach for acquiring such data is training a generative model with collected real data, and then augmenting the collected real dataset with synthetic images from the model, generated with control of the scene layout and ground truth labeling. In this paper we propose Full-Glow, a fully conditional Glow-based architecture for generating plausible and realistic images of novel street scenes given a semantic segmentation map indicating the scene layout. Benchmark comparisons show our model to outperform recent works in terms of the semantic segmentation performance of a pretrained PSPNet. This indicates that images from our model are, to a higher degree than from other models, similar to real images of the same kinds of scenes and objects, making them suitable as training data for a visual semantic segmentation or object recognition system.
翻訳日:2021-05-15 06:34:10 公開日:2020-12-10
# ボディーショット学習のラベルは少ないか?

Are Fewer Labels Possible for Few-shot Learning? ( http://arxiv.org/abs/2012.05899v1 )

ライセンス: Link先を確認
Suichan Li and Dongdong Chen and Yinpeng Chen and Lu Yuan and Lei Zhang and Qi Chu and Nenghai Yu(参考訳) ごく限られたデータとラベルのため、わずかなショット学習は難しい。 近年のBiT (Big Transfer) 研究は、異なる領域における大規模ラベル付きデータセットの事前トレーニングによって、少数ショット学習が大きな恩恵を受けることを示した。 ラベルのない)プレトレーニングと(ラベルが少ない)微調整の両方で、可能な限り少数のショット学習にラベルを使用できるか? 私たちのキーとなる洞察は、機能領域におけるターゲットサンプルのクラスタリングが、数ショットの微調整に必要なすべてであるということです。 これは、バニラが教師なしのプリトレイン(poor clustering)が教師なしのプリトレインより悪い理由を説明する。 本稿では,その量が非常に限られているにもかかわらず,ターゲットデータを含むことにより,より優れたクラスタリングを実現するトランスダクティブな教師なし事前学習を提案する。 改良されたクラスタリングの結果は、ユーザがラベル付けする最も代表的なサンプル(固有サンプル)を特定する上で大きな価値があり、代わりにラベル付き固有サンプルとの微調整がさらに改善される。 そこで本研究では,ファインチューニングにおけるクラスタリングと固有サンプルの共進化を活かし,ショット学習の削減を図る。 我々は10の異なる少数ショットのターゲットデータセットで実験を行い、平均的な少数ショットのパフォーマンスはバニラインダクティブな非教師付き転送と教師付き転送の両方を大きなマージンで上回っている。 例えば、各対象カテゴリが10個のラベル付きサンプルしか持たない場合、上記の2つのベースラインの平均精度は、それぞれ9.2%と3.42である。

Few-shot learning is challenging due to its very limited data and labels. Recent studies in big transfer (BiT) show that few-shot learning can greatly benefit from pretraining on large scale labeled dataset in a different domain. This paper asks a more challenging question: "can we use as few as possible labels for few-shot learning in both pretraining (with no labels) and fine-tuning (with fewer labels)?". Our key insight is that the clustering of target samples in the feature space is all we need for few-shot finetuning. It explains why the vanilla unsupervised pretraining (poor clustering) is worse than the supervised one. In this paper, we propose transductive unsupervised pretraining that achieves a better clustering by involving target data even though its amount is very limited. The improved clustering result is of great value for identifying the most representative samples ("eigen-samples") for users to label, and in return, continued finetuning with the labeled eigen-samples further improves the clustering. Thus, we propose eigen-finetuning to enable fewer shot learning by leveraging the co-evolution of clustering and eigen-samples in the finetuning. We conduct experiments on 10 different few-shot target datasets, and our average few-shot performance outperforms both vanilla inductive unsupervised transfer and supervised transfer by a large margin. For instance, when each target category only has 10 labeled samples, the mean accuracy gain over the above two baselines is 9.2% and 3.42 respectively.
翻訳日:2021-05-15 06:33:55 公開日:2020-12-10
# 動画における行動認識のためのモーションコード埋め込みの開発

Developing Motion Code Embedding for Action Recognition in Videos ( http://arxiv.org/abs/2012.05438v1 )

ライセンス: Link先を確認
Maxat Alibayev, David Paulius, and Yu Sun(参考訳) 本研究では,動きのベクトル化表現であるモーションコード (motion codes) と呼ばれる動き埋め込み戦略を提案する。 これらの運動符号は頑健な運動表現を提供し、運動分類と呼ばれる特徴階層を用いて得られる。 我々は、視覚的特徴と意味的特徴を組み合わせたディープニューラルネットワークモデルを開発し、訓練し、モーション分類で見られる特徴を特定し、動画をモーションコードで埋め込んだり、注釈付けしたりしました。 機械学習タスクの特徴としてモーションコードの可能性を示すために,モーション埋め込みモデルから抽出した特徴を,現在最先端のアクション認識モデルに統合した。 得られたモデルは,EPIC-KITCHENSデータセットから得られたエゴセントリックビデオの動詞分類タスクのベースラインモデルよりも高い精度を実現した。

In this work, we propose a motion embedding strategy known as motion codes, which is a vectorized representation of motions based on a manipulation's salient mechanical attributes. These motion codes provide a robust motion representation, and they are obtained using a hierarchy of features called the motion taxonomy. We developed and trained a deep neural network model that combines visual and semantic features to identify the features found in our motion taxonomy to embed or annotate videos with motion codes. To demonstrate the potential of motion codes as features for machine learning tasks, we integrated the extracted features from the motion embedding model into the current state-of-the-art action recognition model. The obtained model achieved higher accuracy than the baseline model for the verb classification task on egocentric videos from the EPIC-KITCHENS dataset.
翻訳日:2021-05-15 06:33:28 公開日:2020-12-10
# R-AGNO-RPN:分解能非依存検出のためのLIDARカメラ領域ディープネットワーク

R-AGNO-RPN: A LIDAR-Camera Region Deep Network for Resolution-Agnostic Detection ( http://arxiv.org/abs/2012.05740v1 )

ライセンス: Link先を確認
Ruddy Th\'eodose, Dieumet Denis, Thierry Chateau, Vincent Fr\'emont, Paul Checchin(参考訳) 現在のニューラルネットワークベースのオブジェクト検出アプローチは、LiDARポイントクラウドを処理し、通常、ある種類のLiDARセンサーからトレーニングされる。 しかし、その性能は、異なるLiDARセンサーから来るデータ、すなわち異なる点のクラウド解像度で使用されるデータでテストされると低下する。 本稿では,3次元点雲とRGB画像の融合に基づく領域提案ネットワークであるR-AGNO-RPNを提案する。 提案手法は,低点のクラウド解像度にも適用可能なように設計されているため,削減されたデータ上で精製されたボックスを推定するのではなく,オブジェクトのローカライズに焦点をあてる。 低解像度ポイントクラウドへのレジリエンスは、鳥の目視に正確にマッピングされた画像特徴と、rgb画像の寄与を改善する特定のデータ拡張手順によって得られる。 提案手法を用いて,kitti 3dオブジェクト検出とnuscenesデータセットから得られたデータについて実験を行った。 さらに,その性能を評価するために,よく知られた3D検出ネットワークであるPointPillarsと比較した。 実験結果から, 原点の80 % の値に削減された点群においても, 提案手法のローカライゼーションが可能であることがわかった。

Current neural networks-based object detection approaches processing LiDAR point clouds are generally trained from one kind of LiDAR sensors. However, their performances decrease when they are tested with data coming from a different LiDAR sensor than the one used for training, i.e., with a different point cloud resolution. In this paper, R-AGNO-RPN, a region proposal network built on fusion of 3D point clouds and RGB images is proposed for 3D object detection regardless of point cloud resolution. As our approach is designed to be also applied on low point cloud resolutions, the proposed method focuses on object localization instead of estimating refined boxes on reduced data. The resilience to low-resolution point cloud is obtained through image features accurately mapped to Bird's Eye View and a specific data augmentation procedure that improves the contribution of the RGB images. To show the proposed network's ability to deal with different point clouds resolutions, experiments are conducted on both data coming from the KITTI 3D Object Detection and the nuScenes datasets. In addition, to assess its performances, our method is compared to PointPillars, a well-known 3D detection network. Experimental results show that even on point cloud data reduced by $80\%$ of its original points, our method is still able to deliver relevant proposals localization.
翻訳日:2021-05-15 06:33:16 公開日:2020-12-10
# プライバシー保護接点追跡のための説明可能なリンク予測

Explainable Link Prediction for Privacy-Preserving Contact Tracing ( http://arxiv.org/abs/2012.05516v1 )

ライセンス: Link先を確認
Balaji Ganesan, Hima Patel, Sameep Mehta(参考訳) 接触追跡は、SARS-Cov2ウイルスに感染した人に近い人を特定するために使用されている。 物理的な接触追跡を容易にまたは補完するために、多くのデジタルコントラクトトレースアプリケーションが導入された。 しかし、コントラクトトレースアプリケーションの実装には多くのプライバシー上の問題があるため、これらのアプリケーションに感染状況のインストールや更新を嫌がらせている。 本稿では,これらのアプリケーションに対する信頼を向上し,人々による採用を促進する,グラフニューラルネットワークと説明可能性のアイデアを紹介する。

Contact Tracing has been used to identify people who were in close proximity to those infected with SARS-Cov2 coronavirus. A number of digital contract tracing applications have been introduced to facilitate or complement physical contact tracing. However, there are a number of privacy issues in the implementation of contract tracing applications, which make people reluctant to install or update their infection status on these applications. In this concept paper, we present ideas from Graph Neural Networks and explainability, that could improve trust in these applications, and encourage adoption by people.
翻訳日:2021-05-15 06:32:55 公開日:2020-12-10
# 大規模ヘテロジニアス知識グラフに対するスケーラブルかつ解釈可能なルールベースリンク予測

Scalable and interpretable rule-based link prediction for large heterogeneous knowledge graphs ( http://arxiv.org/abs/2012.05750v1 )

ライセンス: Link先を確認
Simon Ott, Laura Graf, Asan Agibetov, Christian Meilicke, Matthias Samwald(参考訳) ニューラルネットワークを用いた機械学習モデルは、バイオメディカル知識グラフにおける新しいリンクを予測することを約束している。 残念ながら、実用性は解釈可能性の欠如によって低下している。 近年、AnyBURLは完全に解釈可能なルールベースのアルゴリズムが、多くの汎用リンク予測ベンチマークで高い競争力を得た。 しかしながら、複雑な生物医学的知識ベースにおける大規模予測タスクへの適用性は、長い推論時間と複数のルールによる予測の集約の困難によって制限される。 スケーラブルなクラスタリングアルゴリズムを通じてルールを集約するsafran rule application frameworkを導入することで、anyburlを改善した。 SAFRANは、確立された汎用ベンチマーク FB15K-237 と大規模バイオメディカルベンチマーク OpenBioLink 上で、完全に解釈可能なリンク予測のための新しい最先端の結果を得る。 さらに、fb15k-237上で確立された複数の組込みベースのアルゴリズムの結果を超え、openbiolink上のルールベースと組込みベースのアルゴリズムのギャップを狭める。 また、SAFRANは最大2桁の推論速度を増大させることを示した。

Neural embedding-based machine learning models have shown promise for predicting novel links in biomedical knowledge graphs. Unfortunately, their practical utility is diminished by their lack of interpretability. Recently, the fully interpretable, rule-based algorithm AnyBURL yielded highly competitive results on many general-purpose link prediction benchmarks. However, its applicability to large-scale prediction tasks on complex biomedical knowledge bases is limited by long inference times and difficulties with aggregating predictions made by multiple rules. We improve upon AnyBURL by introducing the SAFRAN rule application framework which aggregates rules through a scalable clustering algorithm. SAFRAN yields new state-of-the-art results for fully interpretable link prediction on the established general-purpose benchmark FB15K-237 and the large-scale biomedical benchmark OpenBioLink. Furthermore, it exceeds the results of multiple established embedding-based algorithms on FB15K-237 and narrows the gap between rule-based and embedding-based algorithms on OpenBioLink. We also show that SAFRAN increases inference speeds by up to two orders of magnitude.
翻訳日:2021-05-15 06:32:19 公開日:2020-12-10
# 適応脚歩行のマルチエキスパート学習

Multi-expert learning of adaptive legged locomotion ( http://arxiv.org/abs/2012.05810v1 )

ライセンス: Link先を確認
Chuanyu Yang, Kai Yuan, Qiuguo Zhu, Wanming Yu, Zhibin Li(参考訳) 万能ロボットの移動を実現するには、これまで目に見えない状況に適応できるモータースキルが必要である。 代表的専門家のスキル群から適応的なスキルを生み出すことを学ぶマルチエキスパート学習アーキテクチャ(MELA)を提案する。 トレーニング中、MELAはまず、個別の深層ニューラルネットワーク(DNN)で、個別にトレーニング済みのエキスパートセットによって初期化される。 そして、これらのDNNの組み合わせをGating Neural Network(GNN)を使って学習することにより、MELAは、さまざまな移動モードを通じて、より専門的な専門家と移行スキルを取得することができる。 実行中、MELAは複数のDNNを常にブレンドし、新しいDNNを動的に合成し、状況の変化に応じて適応的な振る舞いを生成する。 このアプローチは、訓練された専門家スキルの利点と、適応ポリシーの高速オンライン合成を利用して、タスク変更時の応答性モータースキルを生成する。 統合されたMELAフレームワークを用いて,コヒーレントトロッティング,ステアリング,転倒回復を自律的に行う実四足歩行ロボットのマルチスキル・ロコモーションを実演し,未知のシナリオに適応可能なマルチエキスパート学習生成のメリットを示した。

Achieving versatile robot locomotion requires motor skills which can adapt to previously unseen situations. We propose a Multi-Expert Learning Architecture (MELA) that learns to generate adaptive skills from a group of representative expert skills. During training, MELA is first initialised by a distinct set of pre-trained experts, each in a separate deep neural network (DNN). Then by learning the combination of these DNNs using a Gating Neural Network (GNN), MELA can acquire more specialised experts and transitional skills across various locomotion modes. During runtime, MELA constantly blends multiple DNNs and dynamically synthesises a new DNN to produce adaptive behaviours in response to changing situations. This approach leverages the advantages of trained expert skills and the fast online synthesis of adaptive policies to generate responsive motor skills during the changing tasks. Using a unified MELA framework, we demonstrated successful multi-skill locomotion on a real quadruped robot that performed coherent trotting, steering, and fall recovery autonomously, and showed the merit of multi-expert learning generating behaviours which can adapt to unseen scenarios.
翻訳日:2021-05-15 06:32:02 公開日:2020-12-10
# 高次元運動計画のためのコスト・ツー・ゴー関数生成ネットワーク

Cost-to-Go Function Generating Networks for High Dimensional Motion Planning ( http://arxiv.org/abs/2012.06023v1 )

ライセンス: Link先を確認
Jinwook Huh, Volkan Isler, and Daniel D. Lee(参考訳) 本稿では,マニピュレータ動作計画のためのコスト・ツー・ゴー関数を学習するc2g-HOFネットワークを提案する。 c2g-HOFアーキテクチャは、ニューラルネットワーク(c2g-network)として表される構成空間上のコスト対Go関数と、与えられた入力ワークスペースのc2g-networkの重みを出力する高次関数(HOF)ネットワークで構成される。 どちらのネットワークも、従来のモーションプランナーから計算したコストを使って、教師付きでエンドツーエンドでトレーニングされる。 トレーニングされたc2g-hofは、ワークスペースセンサ入力(3dのポイントクラウドまたは2dのイメージとして表現される)から直接、滑らかで連続的なコスト・ツー・ゴー関数を生成することができる。 推論時には、c2g-ネットワークの重みを極めて効率的に計算し、コスト対号関数の勾配を単純に追従することで、最適軌道を生成する。 我々は,c2g-HOFと従来のロボットの計画アルゴリズムを比較した。 実験結果から, c2g-HOF を用いた計画は他の動作計画アルゴリズムよりもかなり高速であり, 衝突チェックを含む場合の桁違いの改善が得られた。 さらに、c2g-HOFは、スムーズなサンプル軌道から構成空間で訓練されているにもかかわらず、スムーズで低コストな軌道を生成するために一般化されている。 複雑な作業空間における動作計画が軌道全体に対してわずか0.13秒しか必要としない7DoFマニピュレータアーム上でのコスト・ツー・ゴー・プランニングを実証する。

This paper presents c2g-HOF networks which learn to generate cost-to-go functions for manipulator motion planning. The c2g-HOF architecture consists of a cost-to-go function over the configuration space represented as a neural network (c2g-network) as well as a Higher Order Function (HOF) network which outputs the weights of the c2g-network for a given input workspace. Both networks are trained end-to-end in a supervised fashion using costs computed from traditional motion planners. Once trained, c2g-HOF can generate a smooth and continuous cost-to-go function directly from workspace sensor inputs (represented as a point cloud in 3D or an image in 2D). At inference time, the weights of the c2g-network are computed very efficiently and near-optimal trajectories are generated by simply following the gradient of the cost-to-go function. We compare c2g-HOF with traditional planning algorithms for various robots and planning scenarios. The experimental results indicate that planning with c2g-HOF is significantly faster than other motion planning algorithms, resulting in orders of magnitude improvement when including collision checking. Furthermore, despite being trained from sparsely sampled trajectories in configuration space, c2g-HOF generalizes to generate smoother, and often lower cost, trajectories. We demonstrate cost-to-go based planning on a 7 DoF manipulator arm where motion planning in a complex workspace requires only 0.13 seconds for the entire trajectory.
翻訳日:2021-05-15 06:31:39 公開日:2020-12-10
# 大規模非定常雑音共分散行列:クロスバリデーションアプローチ

Large Non-Stationary Noisy Covariance Matrices: A Cross-Validation Approach ( http://arxiv.org/abs/2012.05757v1 )

ライセンス: Link先を確認
Vincent W. C. Tan, Stefan Zohren(参考訳) 指数重み付けされた移動平均を用いて、クロスバリデーションによりサンプル内固有値を縮小することにより、金融時系列の非定常性を利用する新しい共分散推定器を導入する。 私たちの推定器は、行列のランダムなエントリや共分散行列の構造の分布を仮定しないという点で、モデルに依存しない。 さらに,推定器の力学の時間スケールを特徴付けるハイパーパラメータの自動チューニングのガイダンスを,ランダム行列理論によってどのように提供できるかを示す。 断面次元と時系列次元の両方のノイズを減衰させることにより、指数重み付けと一様重み付けの共分散行列に基づく競合する推定器に対する推定器の優位性を実証的に証明する。

We introduce a novel covariance estimator that exploits the heteroscedastic nature of financial time series by employing exponential weighted moving averages and shrinking the in-sample eigenvalues through cross-validation. Our estimator is model-agnostic in that we make no assumptions on the distribution of the random entries of the matrix or structure of the covariance matrix. Additionally, we show how Random Matrix Theory can provide guidance for automatic tuning of the hyperparameter which characterizes the time scale for the dynamics of the estimator. By attenuating the noise from both the cross-sectional and time-series dimensions, we empirically demonstrate the superiority of our estimator over competing estimators that are based on exponentially-weight ed and uniformly-weighted covariance matrices.
翻訳日:2021-05-15 06:31:08 公開日:2020-12-10
# マルチクラスX線胸部画像を用いた畳み込みニューラルネットワークによるCovid-19の検出

Detection of Covid-19 Patients with Convolutional Neural Network Based Features on Multi-class X-ray Chest Images ( http://arxiv.org/abs/2012.05525v1 )

ライセンス: Link先を確認
Ali Narin(参考訳) コビッドウイルスは深刻な致命的な病気で、世界保健機関(WHO)がパンデミックとして発表した。 世界中で新型コロナウイルス(covid-19)パンデミック(covid-19)の終結に向けて全力を挙げている。 最も重要なのは、Covid-19を入手した人を特定することだ。 逆転写ポリメラーゼ鎖反応(RT-PCR)試験を支援する方法と方法が文献で紹介されている。 本研究では,コビッドウイルスが呼吸器系を攻撃したことから,胸部X線画像のアクセスを容易かつ迅速に行うことができた。 これらの画像からの畳み込みニューラルネットワークモデルである残差ネットワーク(ResNet-50)で抽出した特徴を用いて,サポートベクタマシンを用いた分類性能を得た。 Covid-19は5倍のクロスバリデーション法で96.35%の感度を持つサポートベクターマシン(SVM)クアドラティックで検出されるが、SVMクアドラティックとSVMキュービックの両方で最高性能値が99%以上検出されている。 これらの結果から,本手法は放射線医学の専門家に有効であり,誤検出率の低減に役立つと考えられる。

Covid-19 is a very serious deadly disease that has been announced as a pandemic by the world health organization (WHO). The whole world is working with all its might to end Covid-19 pandemic, which puts countries in serious health and economic problems, as soon as possible. The most important of these is to correctly identify those who get the Covid-19. Methods and approaches to support the reverse transcription polymerase chain reaction (RT-PCR) test have begun to take place in the literature. In this study, chest X-ray images, which can be accessed easily and quickly, were used because the covid-19 attacked the respiratory systems. Classification performances with support vector machines have been obtained by using the features extracted with residual networks (ResNet-50), one of the convolutional neural network models, from these images. While Covid-19 detection is obtained with support vector machines (SVM)-quadratic with the highest sensitivity value of 96.35% with the 5-fold cross-validation method, the highest overall performance value has been detected with both SVM-quadratic and SVM-cubic above 99%. According to these high results, it is thought that this method, which has been studied, will help radiology specialists and reduce the rate of false detection.
翻訳日:2021-05-15 06:30:55 公開日:2020-12-10
# Debiased-CAMによる深層畳み込みネットワークの偏見に依存しない忠実な視覚的説明

Debiased-CAM for bias-agnostic faithful visual explanations of deep convolutional networks ( http://arxiv.org/abs/2012.05567v1 )

ライセンス: Link先を確認
Wencan Zhang, Mariella Dimiccoli, Brian Y. Lim(参考訳) クラスアクティベーションマップ(cams)は、突出したピクセルを識別することで畳み込みニューラルネットワークの予測を説明するが、バイアス下の画像(画像が誤ってぼやけたり、プライバシ保護のために故意にぼやけたり、不適切なホワイトバランスの画像など)で予測を説明すると、誤ったアライメントと誤解を招く。 これらのバイアス画像の予測性能を改善するためにモデル微調整を行ったが、画像バイアスの増加に伴いCAM説明がより逸脱し、不誠実になることを示す。 我々は,CAMとバイアスレベル予測のための補助タスクを備えた多入力マルチタスクモデルを訓練することにより,様々なバイアスタイプやレベルにわたる説明の忠実さを回復する。 CAMを予測タスクとし、主モデル層を再トレーニングし、不偏像のCAMから自己教師付き学習を行うことにより、説明が調整可能となる。 このモデルは、偏りのない形態から生成されたかのようにバイアス画像上の予測について、代表的でバイアスに依存しないCAMの説明を提供する。 バイアスと予測タスクが異なる4つのシミュレーション研究において、Debiased-CAMはCAMの忠実さとタスクパフォーマンスを改善した。 さらに,その真理と有用性を検証するために,制御されたユーザ調査を2回実施した。 参加者の反応の定量的、質的な分析により、Debiased-CAMはより真実で役に立つと確認された。 したがって、Debiased-CAMは様々なバイアス源を持つ幅広い現実世界のアプリケーションに対してより忠実で関連する説明を生成する基盤を提供する。

Class activation maps (CAMs) explain convolutional neural network predictions by identifying salient pixels, but they become misaligned and misleading when explaining predictions on images under bias, such as images blurred accidentally or deliberately for privacy protection, or images with improper white balance. Despite model fine-tuning to improve prediction performance on these biased images, we demonstrate that CAM explanations become more deviated and unfaithful with increased image bias. We present Debiased-CAM to recover explanation faithfulness across various bias types and levels by training a multi-input, multi-task model with auxiliary tasks for CAM and bias level predictions. With CAM as a prediction task, explanations are made tunable by retraining the main model layers and made faithful by self-supervised learning from CAMs of unbiased images. The model provides representative, bias-agnostic CAM explanations about the predictions on biased images as if generated from their unbiased form. In four simulation studies with different biases and prediction tasks, Debiased-CAM improved both CAM faithfulness and task performance. We further conducted two controlled user studies to validate its truthfulness and helpfulness, respectively. Quantitative and qualitative analyses of participant responses confirmed Debiased-CAM as more truthful and helpful. Debiased-CAM thus provides a basis to generate more faithful and relevant explanations for a wide range of real-world applications with various sources of bias.
翻訳日:2021-05-15 06:30:30 公開日:2020-12-10
# 容積医用画像データにおける3次元バウンディングボックス検出 : 体系的文献レビュー

3D Bounding Box Detection in Volumetric Medical Image Data: A Systematic Literature Review ( http://arxiv.org/abs/2012.05745v1 )

ライセンス: Link先を確認
Daria Kern, Andre Mastmeyer(参考訳) 本稿では,ボリューム医療画像データにおける3次元境界ボックス検出の現状と動向について論じる。 この目的のために、近年の関連論文の概要を述べる。 2Dと3Dの実装について議論し比較する。 解剖学的構造をローカライズするための複数のアプローチを示す。 その結果,最近の研究は,畳み込みニューラルネットワークや手作業による特徴工学の手法など,ディープラーニングの手法に焦点が当てられている。 ランダム回帰。 境界ボックス検出オプションの概要を示し、研究者がターゲットオブジェクトに対して最も有望なアプローチを選択するのに役立つ。

This paper discusses current methods and trends for 3D bounding box detection in volumetric medical image data. For this purpose, an overview of relevant papers from recent years is given. 2D and 3D implementations are discussed and compared. Multiple identified approaches for localizing anatomical structures are presented. The results show that most research recently focuses on Deep Learning methods, such as Convolutional Neural Networks vs. methods with manual feature engineering, e.g. Random-Regression-Fo rests. An overview of bounding box detection options is presented and helps researchers to select the most promising approach for their target objects.
翻訳日:2021-05-15 06:30:06 公開日:2020-12-10
# クラウド分野に適したアーキテクチャを用いたディープラーニングによる3次元散乱トモグラフィ

3D Scattering Tomography by Deep Learning with Architecture Tailored to Cloud Fields ( http://arxiv.org/abs/2012.05960v1 )

ライセンス: Link先を確認
Yael Sde-Chen, Yoav Y. Schechner, Vadim Holodovsky, Eshkol Eytan(参考訳) 本研究では,マルチビュー画像からの散乱量の3次元再構成を行う,コンピュータ断層撮影用深層ニューラルネットワークである3deepctを提案する。 私たちのアーキテクチャは、大気の雲の静止した性質によって決定される。 体積散乱トモグラフィーの課題は、その2次元投影から体積を回復することである。 この問題は広範に研究され、信号処理と物理モデルに基づく様々な逆法が導かれた。 しかし、そのような手法は通常反復的であり、高い計算負荷と長い収束時間を示す。 また, 3DeepCTは, 計算時間の大幅な改善とともに, 物理に基づく逆散乱法よりも精度が高いことを示す。 本研究では3DeepCTと物理に基づく手法を組み合わせたハイブリッドモデルを提案する。 得られたハイブリッド技術は、高速な推論時間と回復性能の向上を享受する。

We present 3DeepCT, a deep neural network for computed tomography, which performs 3D reconstruction of scattering volumes from multi-view images. Our architecture is dictated by the stationary nature of atmospheric cloud fields. The task of volumetric scattering tomography aims at recovering a volume from its 2D projections. This problem has been studied extensively, leading, to diverse inverse methods based on signal processing and physics models. However, such techniques are typically iterative, exhibiting high computational load and long convergence time. We show that 3DeepCT outperforms physics-based inverse scattering methods in term of accuracy as well as offering a significant orders of magnitude improvement in computational time. To further improve the recovery accuracy, we introduce a hybrid model that combines 3DeepCT and physics-based method. The resultant hybrid technique enjoys fast inference time and improved recovery performance.
翻訳日:2021-05-15 06:29:55 公開日:2020-12-10
# Neural-Swarm2:学習インタラクションを用いた異種マルチロータ群の設計と制御

Neural-Swarm2: Planning and Control of Heterogeneous Multirotor Swarms using Learned Interactions ( http://arxiv.org/abs/2012.05457v1 )

ライセンス: Link先を確認
Guanya Shi, Wolfgang H\"onig, Xichen Shi, Yisong Yue, Soon-Jo Chung(参考訳) 本稿では,群れ内の異種マルチロータを安全に近接飛行させる運動計画・制御のための学習ベース手法であるneural-swarm2を提案する。 このようなドローンの運用は、近くのドローンが生み出すダウンウォッシュや地上効果のような複雑な空気力学的相互作用力のために困難である。 従来の計画と制御方法はこれらの相互作用力の捕獲を怠り、飛行中にスウォーム構成が疎遠になった。 本手法は,物理学に基づく名目ダイナミクスモデルと学習型深層ニューラルネットワーク(dnns)と強いリプシッツ特性を組み合わせたものである。 我々は,不均一なマルチロータ間の空力的相互作用を正確に予測する2つの手法を進化させた。i)不均一なデータに対するスペクトル正規化と一般化保証,i)不均一な近傍を表現性を低下させることなく置換不変に支持するための不均一な深度集合。 学習された残差ダイナミクスは、学習された相互作用力がモデリング誤差を減少させるため、対話認識型マルチロボット動作計画と非線形追従制御設計の両方に有益である。 実験結果から、Neural-Swarm2はトレーニングケースを超えてより大きなSwarmに一般化でき、最低ケース追跡エラーの最大3倍の削減でベースラインの非線形トラッキングコントローラよりも大幅に優れていた。

We present Neural-Swarm2, a learning-based method for motion planning and control that allows heterogeneous multirotors in a swarm to safely fly in close proximity. Such operation for drones is challenging due to complex aerodynamic interaction forces, such as downwash generated by nearby drones and ground effect. Conventional planning and control methods neglect capturing these interaction forces, resulting in sparse swarm configuration during flight. Our approach combines a physics-based nominal dynamics model with learned Deep Neural Networks (DNNs) with strong Lipschitz properties. We evolve two techniques to accurately predict the aerodynamic interactions between heterogeneous multirotors: i) spectral normalization for stability and generalization guarantees of unseen data and ii) heterogeneous deep sets for supporting any number of heterogeneous neighbors in a permutation-invarian t manner without reducing expressiveness. The learned residual dynamics benefit both the proposed interaction-aware multi-robot motion planning and the nonlinear tracking control designs because the learned interaction forces reduce the modelling errors. Experimental results demonstrate that Neural-Swarm2 is able to generalize to larger swarms beyond training cases and significantly outperforms a baseline nonlinear tracking controller with up to three times reduction in worst-case tracking errors.
翻訳日:2021-05-15 06:29:43 公開日:2020-12-10
# 翻訳をデータ拡張として用いたQAのための多言語変換学習

Multilingual Transfer Learning for QA Using Translation as Data Augmentation ( http://arxiv.org/abs/2012.05958v1 )

ライセンス: Link先を確認
Mihaela Bornea, Lin Pan, Sara Rosenthal, Radu Florian, Avirup Sil(参考訳) 多言語質問応答に関する先行研究は、英語でQAモデルを訓練し、他の言語でテストするゼロショット言語学習を実行するために、大規模な多言語事前学習言語モデル(LM)を使うことに主に焦点を合わせてきた。 本研究では,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。 最初の戦略は、機械翻訳生成データによる英語のトレーニングデータを強化する。 この結果、元々のトレーニングセットの14倍の大きさの多言語銀ラベルQAペアのコーパスが得られる。 さらに,(ゼロリソース)言語間転送性能を著しく向上させ,言語変化の少ないlm埋め込みを実現する,言語敵訓練と言語調停フレームワークを提案する。 実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。

Prior work on multilingual question answering has mostly focused on using large multilingual pre-trained language models (LM) to perform zero-shot language-wise learning: train a QA model on English and test on other languages. In this work, we explore strategies that improve cross-lingual transfer by bringing the multilingual embeddings closer in the semantic space. Our first strategy augments the original English training data with machine translation-generate d data. This results in a corpus of multilingual silver-labeled QA pairs that is 14 times larger than the original training set. In addition, we propose two novel strategies, language adversarial training and language arbitration framework, which significantly improve the (zero-resource) cross-lingual transfer performance and result in LM embeddings that are less language-variant. Empirically, we show that the proposed models outperform the previous zero-shot baseline on the recently introduced multilingual MLQA and TyDiQA datasets.
翻訳日:2021-05-15 06:28:00 公開日:2020-12-10
# 等価因果モデル

Equivalent Causal Models ( http://arxiv.org/abs/2012.05603v1 )

ライセンス: Link先を確認
Sander Beckers(参考訳) 本研究の目的は,両モデルが同一変数で構成されていない状況下で,等価因果モデルの最初の体系的探索と定義を提供することである。 この考え方は、2つのモデルが共通変数を使って表現できるすべての「重要」因果情報に同意するときに等価である。 私は因果モデルの2つの主な特徴、すなわち構造的関係と機能的関係に注目してそうします。 特に、因果関係のいくつかの関係と因果関係のいくつかの関係を定義し、これらの関係の最も一般的なものは等価なモデルで保存されることを要求する。

The aim of this paper is to offer the first systematic exploration and definition of equivalent causal models in the context where both models are not made up of the same variables. The idea is that two models are equivalent when they agree on all "essential" causal information that can be expressed using their common variables. I do so by focussing on the two main features of causal models, namely their structural relations and their functional relations. In particular, I define several relations of causal ancestry and several relations of causal sufficiency, and require that the most general of these relations are preserved across equivalent models.
翻訳日:2021-05-15 06:27:43 公開日:2020-12-10
# GNN-XML:超多ラベルテキスト分類のためのグラフニューラルネットワーク

GNN-XML: Graph Neural Networks for Extreme Multi-label Text Classification ( http://arxiv.org/abs/2012.05860v1 )

ライセンス: Link先を確認
Daoming Zong and Shiliang Sun(参考訳) extreme multi-label text classification (xmtc) は、非常に大きなラベルセットから最も関連するラベルのサブセットでテキストインスタンスをタグ付けすることを目的としている。 XMTCは、ニュースアノテーションや製品レコメンデーションといったモダンな応用によって生み出された膨大なラベルセットによって、近年注目を集めている。 XMTCの主な課題は、データのスケーラビリティとスパーシリティであり、その結果、2つの問題に繋がる: i) 極端なラベル設定にスケールする難しさ、i) 長い尾を持つラベル分布の存在。 これらの問題を解決するために,XMTC問題に適したスケーラブルグラフニューラルネットワークフレームワークであるGNN-XMLを提案する。 具体的には,共起パターンをマイニングし,相関行列に基づいてラベルグラフを構築することでラベル相関を利用する。 次に,低パスグラフフィルタとグラフ畳み込みを行い,ラベル依存とラベル特徴を共同でモデル化し,意味的ラベルクラスタを誘導する。 さらに、表現学習と分類器学習を分離し、末尾ラベルをモデル化する両分岐グラフ同型ネットワークを提案する。 複数のベンチマークデータセットによる実験結果から、GNN-XMLは予測効率とモデルサイズを同等に保ちながら最先端の手法を大幅に上回ることがわかった。

Extreme multi-label text classification (XMTC) aims to tag a text instance with the most relevant subset of labels from an extremely large label set. XMTC has attracted much recent attention due to massive label sets yielded by modern applications, such as news annotation and product recommendation. The main challenges of XMTC are the data scalability and sparsity, thereby leading to two issues: i) the intractability to scale to the extreme label setting, ii) the presence of long-tailed label distribution, implying that a large fraction of labels have few positive training instances. To overcome these problems, we propose GNN-XML, a scalable graph neural network framework tailored for XMTC problems. Specifically, we exploit label correlations via mining their co-occurrence patterns and build a label graph based on the correlation matrix. We then conduct the attributed graph clustering by performing graph convolution with a low-pass graph filter to jointly model label dependencies and label features, which induces semantic label clusters. We further propose a bilateral-branch graph isomorphism network to decouple representation learning and classifier learning for better modeling tail labels. Experimental results on multiple benchmark datasets show that GNN-XML significantly outperforms state-of-the-art methods while maintaining comparable prediction efficiency and model size.
翻訳日:2021-05-15 06:26:52 公開日:2020-12-10
# 抽象辞書フレームワークの強い適応性

Strong Admissibility for Abstract Dialectical Frameworks ( http://arxiv.org/abs/2012.05997v1 )

ライセンス: Link先を確認
Atefeh Keshavarzi Zafarghandi, Rineke Verbrugge and Bart Verheij(参考訳) 抽象弁証法フレームワーク(ADF)は、一般的な論理的満足度条件を満たす議論をモデル化し評価するための形式主義として導入された。 引数の受け入れを解決するために使われる異なる基準はセマンティクスと呼ばれる。 ADFのセマンティックスは主に許容性の概念に基づいて定義されている。 しかし、抽象的議論フレームワークで研究されている強許容意味論の概念は、adfsにはまだ導入されていない。 本研究は,AFFに対する解釈の強い許容性の概念を提示する。 さらに, ADFの強い許容可能な解釈は, 基底解釈をトップ要素として格子を形成することを示す。

Abstract dialectical frameworks (ADFs) have been introduced as a formalism for modeling and evaluating argumentation allowing general logical satisfaction conditions. Different criteria used to settle the acceptance of arguments are called semantics. Semantics of ADFs have so far mainly been defined based on the concept of admissibility. However, the notion of strongly admissible semantics studied for abstract argumentation frameworks has not yet been introduced for ADFs. In the current work we present the concept of strong admissibility of interpretations for ADFs. Further, we show that strongly admissible interpretations of ADFs form a lattice with the grounded interpretation as top element.
翻訳日:2021-05-15 06:26:27 公開日:2020-12-10
# 医療AIの3つのゴースト:ブラックボックスは実現可能か?

The Three Ghosts of Medical AI: Can the Black-Box Present Deliver? ( http://arxiv.org/abs/2012.06000v1 )

ライセンス: Link先を確認
Thomas P. Quinn, Stephan Jacobs, Manisha Senadeera, Vuong Le, Simon Coghlan(参考訳) 私たちのタイトルは、Ebenezer Scrooge氏がthe past, present, and future of Christmas holiday eventsをガイドした『textit{A Christmas Carol}』で遭遇した3つのクリスマスゴーストに言及しています。 同様に、私たちの記事は、医療AIの過去、現在、未来を読者に伝える。 そのために私たちは、現代の機械学習の要点である、強力だが本質的に不透明なモデルに依存しています。 医療領域に適用された場合、これらのモデルは、臨床医や患者エンドユーザが必要とする透明性の必要性を満たさない。 この失敗の意義を概観し,(1)不透明モデルには品質保証が欠如していること,(2)信頼が得られないこと,(3)医師と患者との対話が制限されていることを論じる。 次に、モデル設計とモデル検証のあらゆる面における透明性の維持が、医療AIの信頼性の確保にどのように役立つかについて議論する。

Our title alludes to the three Christmas ghosts encountered by Ebenezer Scrooge in \textit{A Christmas Carol}, who guide Ebenezer through the past, present, and future of Christmas holiday events. Similarly, our article will take readers through a journey of the past, present, and future of medical AI. In doing so, we focus on the crux of modern machine learning: the reliance on powerful but intrinsically opaque models. When applied to the healthcare domain, these models fail to meet the needs for transparency that their clinician and patient end-users require. We review the implications of this failure, and argue that opaque models (1) lack quality assurance, (2) fail to elicit trust, and (3) restrict physician-patient dialogue. We then discuss how upholding transparency in all aspects of model design and model validation can help ensure the reliability of medical AI.
翻訳日:2021-05-15 06:26:18 公開日:2020-12-10
# 競合に基づく探索によるマルチエージェントパス探索のための競合を解決する学習

Learning to Resolve Conflicts for Multi-Agent Path Finding with Conflict-Based Search ( http://arxiv.org/abs/2012.06005v1 )

ライセンス: Link先を確認
Taoan Huang, Bistra Dilkina, Sven Koenig(参考訳) conflict-based search (cbs) はマルチエージェントパス探索のための最先端アルゴリズムである。 ハイレベルでは、CBSはコンフリクトを繰り返し検出し、現在の問題を2つのサブプロブレムに分割して解決する。 以前の作業では、対立を3つのクラスに分類し、常に上位優先度のクラスから対立を選択することで解決すべき対立を選択する。 本研究では,コンフリクト選択のためのオラクルを提案し,その結果,従来よりも探索木のサイズが小さくなった。 しかし、オラクルの計算は遅い。 そこで我々は,oracle の意思決定を観察し,oracle の判断を正確かつ迅速に模倣する線形ランキング関数で表される競合選択戦略を学習する,コンフリクト選択のための機械学習フレームワークを提案する。 ベンチマークマップ実験により,現状のCBSソルバに比べて,本手法は成功率,探索木サイズ,実行時間を大幅に向上することが示された。

Conflict-Based Search (CBS) is a state-of-the-art algorithm for multi-agent path finding. At the high level, CBS repeatedly detects conflicts and resolves one of them by splitting the current problem into two subproblems. Previous work chooses the conflict to resolve by categorizing the conflict into three classes and always picking a conflict from the highest-priority class. In this work, we propose an oracle for conflict selection that results in smaller search tree sizes than the one used in previous work. However, the computation of the oracle is slow. Thus, we propose a machine-learning framework for conflict selection that observes the decisions made by the oracle and learns a conflict-selection strategy represented by a linear ranking function that imitates the oracle's decisions accurately and quickly. Experiments on benchmark maps indicate that our method significantly improves the success rates, the search tree sizes and runtimes over the current state-of-the-art CBS solver.
翻訳日:2021-05-15 06:25:59 公開日:2020-12-10
# テキストと画像を用いたオンライン中古品の価格提案

Price Suggestion for Online Second-hand Items with Texts and Images ( http://arxiv.org/abs/2012.06008v1 )

ライセンス: Link先を確認
Liang Han, Zhaozheng Yin, Zhurong Xia, Mingqian Tang, Rong Jin(参考訳) 本稿では、アップロードされた画像とテキスト記述に基づいて、オンライン中古リストの知的価格提案システムを提案する。 価格予測の目標は、売り手がオンラインプラットフォームにアップロードされた画像とテキスト記述を使って、中古品の有効で合理的な価格を設定することにある。 具体的には、抽出した視覚的特徴とテキスト的特徴と、その抽出した商品購入プラットフォームから収集した統計的特徴とを合わせて、バイナリ分類モデルを用いて、アップロードされた中古品目の画像とテキストが妥当な価格提案に適しているかを判断し、回帰モデルを用いて、中古品目の価格提案を行うマルチモーダル価格提案システムを設計する。 異なる要求を満たすために、2つの異なる制約が分類モデルと回帰モデルの合同訓練に追加される。 さらに、リグレッションモデルを最適化して中古品の価格提案を提供するようにカスタマイズした損失関数をデザインし、売り手の利得を最大化できるだけでなく、オンライン取引を容易にする。 また,提案する価格提案システムを評価するための指標を導出する。 大規模実世界のデータセットに関する広範な実験は、提案されたマルチモーダル価格提案システムの有効性を示している。

This paper presents an intelligent price suggestion system for online second-hand listings based on their uploaded images and text descriptions. The goal of price prediction is to help sellers set effective and reasonable prices for their second-hand items with the images and text descriptions uploaded to the online platforms. Specifically, we design a multi-modal price suggestion system which takes as input the extracted visual and textual features along with some statistical item features collected from the second-hand item shopping platform to determine whether the image and text of an uploaded second-hand item are qualified for reasonable price suggestion with a binary classification model, and provide price suggestions for second-hand items with qualified images and text descriptions with a regression model. To satisfy different demands, two different constraints are added into the joint training of the classification model and the regression model. Moreover, a customized loss function is designed for optimizing the regression model to provide price suggestions for second-hand items, which can not only maximize the gain of the sellers but also facilitate the online transaction. We also derive a set of metrics to better evaluate the proposed price suggestion system. Extensive experiments on a large real-world dataset demonstrate the effectiveness of the proposed multi-modal price suggestion system.
翻訳日:2021-05-15 06:25:44 公開日:2020-12-10
# 判別埋め込みを用いた大域的相関ネットワークを用いた医療画像のマイナショットセグメンテーション

Few-shot Medical Image Segmentation using a Global Correlation Network with Discriminative Embedding ( http://arxiv.org/abs/2012.05440v1 )

ライセンス: Link先を確認
Liyan Sun, Chenxin Li, Xinghao Ding, Yue Huang, Guisheng Wang and Yizhou Yu(参考訳) 深層畳み込みニューラルネットワークは、医用画像の計算と分析において顕著な進歩を遂げたにもかかわらず、教師付き学習のパラダイムは、過剰な適合を避け、有望な結果を達成するために、トレーニングのための大量のアノテーションを要求する。 臨床実践においては, 専門的な生物医学的知識を必要とする状況において, 大量の意味的アノテーションを得ることは困難であり, 注釈付きクラスがほとんど存在しない場合も一般的である。 本研究では,訓練画像の少ない未発見クラスにセグメンテーションモデルを高速に一般化する,医療画像セグメンテーションのための新しい手法を提案する。 我々は, 深層畳み込みネットワークを用いて, エピソディカルに訓練した画像分割器を構築した。 医用画像の空間的一貫性と規則性により,サポート画像とクエリ画像の相関を捕捉し,グローバル相関ネットワークと呼ばれるディープネットワークに組み込む,効率的なグローバル相関モジュールを開発した。 さらに,異なる臓器の機能ドメインを遠くに保ちながら,同一クラスの特徴ドメインのクラスタリングを促進するために,深層埋め込みの識別性を高める。 アブレーション研究は,大域相関モジュールと判別埋め込み損失の有効性を実証した。 解剖学的腹部像のCT像とMRI像の併用実験を行い,本モデルの有効性を実証した。

Despite deep convolutional neural networks achieved impressive progress in medical image computing and analysis, its paradigm of supervised learning demands a large number of annotations for training to avoid overfitting and achieving promising results. In clinical practices, massive semantic annotations are difficult to acquire in some conditions where specialized biomedical expert knowledge is required, and it is also a common condition where only few annotated classes are available. In this work, we proposed a novel method for few-shot medical image segmentation, which enables a segmentation model to fast generalize to an unseen class with few training images. We construct our few-shot image segmentor using a deep convolutional network trained episodically. Motivated by the spatial consistency and regularity in medical images, we developed an efficient global correlation module to capture the correlation between a support and query image and incorporate it into the deep network called global correlation network. Moreover, we enhance discriminability of deep embedding to encourage clustering of the feature domains of the same class while keep the feature domains of different organs far apart. Ablation Study proved the effectiveness of the proposed global correlation module and discriminative embedding loss. Extensive experiments on anatomical abdomen images on both CT and MRI modalities are performed to demonstrate the state-of-the-art performance of our proposed model.
翻訳日:2021-05-15 06:25:21 公開日:2020-12-10
# 視覚関係予測のためのテンソル構成ネット

Tensor Composition Net for Visual Relationship Prediction ( http://arxiv.org/abs/2012.05473v1 )

ライセンス: Link先を確認
Yuting Qiang, Yongxin Yang, Yanwen Guo and Timothy M. Hospedales(参考訳) 画像中の視覚的関係を予測するための新しいテンソル合成ネットワーク(TCN)を提案する。 subject-predicate-ob ject形式の視覚的関係は、単純な画像タグよりも強力なクエリモダリティを提供する。 しかし、視覚関係予測(vrp)は従来の画像タグ付けよりも画像理解のより難しいテストを提供しており、大きなラベル空間と不完全なアノテーションのため学習が困難である。 TCNのキーとなる考え方は、視覚的関係テンソルの低階特性を利用して、オブジェクトとリレーション間の相関を利用して、画像内のすべてのオブジェクトとその関係を構造化した予測を行うことである。 提案手法の有効性を示すために,まずVRP上の複数ラベルの分類方法と比較し,そのモデルが最先端のMLIC法より優れていることを示す。 次に、テンソル(de)コンポジション層のおかげで、トレーニングデータセットで見たことのない視覚的な関係を予測できることを示します。 最後に,TNの画像レベルの視覚的関係予測が,関係に基づく画像検索のシンプルかつ効率的なメカニズムを提供することを示す。

We present a novel Tensor Composition Network (TCN) to predict visual relationships in images. Visual Relationships in subject-predicate-ob ject form provide a more powerful query modality than simple image tags. However Visual Relationship Prediction (VRP) also provides a more challenging test of image understanding than conventional image tagging, and is difficult to learn due to a large label-space and incomplete annotation. The key idea of our TCN is to exploit the low rank property of the visual relationship tensor, so as to leverage correlations within and across objects and relationships, and make a structured prediction of all objects and their relations in an image. To show the effectiveness of our method, we first empirically compare our model with multi-label classification alternatives on VRP, and show that our model outperforms state-of-the-art MLIC methods. We then show that, thanks to our tensor (de)composition layer, our model can predict visual relationships which have not been seen in training dataset. We finally show our TCN's image-level visual relationship prediction provides a simple and efficient mechanism for relation-based image retrieval.
翻訳日:2021-05-15 06:24:58 公開日:2020-12-10
# Auto-MVCNN:マルチビュー3次元形状認識のためのニューラルネットワーク検索

Auto-MVCNN: Neural Architecture Search for Multi-view 3D Shape Recognition ( http://arxiv.org/abs/2012.05493v1 )

ライセンス: Link先を確認
Zhaoqun Li, Hongren Wang, Jinxing Li(参考訳) 3次元形状認識において、多視点法は人間の視点を利用して3次元形状を解析し、大きな成果を上げている。 ディープラーニングにおける既存の研究の多くは、機能抽出能力の高さから、手作りネットワークをバックボーンとして採用している。 しかし、これらのネットワークアーキテクチャが3D解析に適しているかどうかは不明だ。 本稿では,マルチビュー3次元形状認識におけるアーキテクチャの最適化を目的とした,Auto-MVCNNというニューラルアーキテクチャ探索手法を提案する。 Auto-MVCNNは、統合セルを自動的に検索してビュー特徴間の固有の相関を探索することで、勾配ベースのフレームワークを拡張してマルチビュー画像を処理する。 さらに,トレードオフパラメータ探索による検索性能向上のためのエンドツーエンド手法を開発した。 広範な実験結果から,検索したアーキテクチャは,手作業で設計したアーキテクチャよりも様々な面で著しく優れており,同時に最先端の性能を実現する。

In 3D shape recognition, multi-view based methods leverage human's perspective to analyze 3D shapes and have achieved significant outcomes. Most existing research works in deep learning adopt handcrafted networks as backbones due to their high capacity of feature extraction, and also benefit from ImageNet pretraining. However, whether these network architectures are suitable for 3D analysis or not remains unclear. In this paper, we propose a neural architecture search method named Auto-MVCNN which is particularly designed for optimizing architecture in multi-view 3D shape recognition. Auto-MVCNN extends gradient-based frameworks to process multi-view images, by automatically searching the fusion cell to explore intrinsic correlation among view features. Moreover, we develop an end-to-end scheme to enhance retrieval performance through the trade-off parameter search. Extensive experimental results show that the searched architectures significantly outperform manually designed counterparts in various aspects, and our method achieves state-of-the-art performance at the same time.
翻訳日:2021-05-15 06:24:41 公開日:2020-12-10
# 3次元シーンにおける長期人間の動作と相互作用の合成

Synthesizing Long-Term 3D Human Motion and Interaction in 3D Scenes ( http://arxiv.org/abs/2012.05522v1 )

ライセンス: Link先を確認
Jiashun Wang and Huazhe Xu and Jingwei Xu and Sifei Liu and Xiaolong Wang(参考訳) 人間の3D動作の合成は多くのグラフィックアプリケーションにおいて重要な役割を担い、人間の活動を理解する。 現実的で自然な人間の動きを生み出すために多くの努力がなされてきたが、ほとんどのアプローチは人間とシーンの相互作用と余裕をモデル化することの重要性を無視している。 一方、手頃な推論(例えば、床に立ったり、椅子に座ったり)は、主に静的な人間のポーズやジェスチャーで研究されており、人間の動きで対処されることはめったにない。 本稿では,人間の動作合成とシーン余裕推論の橋渡しを提案する。 本研究では,3次元シーン構造上での長期動作条件を合成する階層的生成フレームワークを提案する。 このフレームワークを基盤として,現実的な合成を改善するために,人間のメッシュとシーンポイントクラウド間の幾何的制約をさらに強化する。 実験では,自然および物理的に再現可能な人間の動きをシーン内で生成する従来の手法よりも大幅に改善した。

Synthesizing 3D human motion plays an important role in many graphics applications as well as understanding human activity. While many efforts have been made on generating realistic and natural human motion, most approaches neglect the importance of modeling human-scene interactions and affordance. On the other hand, affordance reasoning (e.g., standing on the floor or sitting on the chair) has mainly been studied with static human pose and gestures, and it has rarely been addressed with human motion. In this paper, we propose to bridge human motion synthesis and scene affordance reasoning. We present a hierarchical generative framework to synthesize long-term 3D human motion conditioning on the 3D scene structure. Building on this framework, we further enforce multiple geometry constraints between the human mesh and scene point clouds via optimization to improve realistic synthesis. Our experiments show significant improvements over previous approaches on generating natural and physically plausible human motion in a scene.
翻訳日:2021-05-15 06:24:23 公開日:2020-12-10
# ステレオマッチングのための直接深度学習ネットワーク

Direct Depth Learning Network for Stereo Matching ( http://arxiv.org/abs/2012.05570v1 )

ライセンス: Link先を確認
Hong Zhang and Haojie Li and Shenglun Chen and Tiantian Yan and Zhihui Wang and Guo Lu and Wanli Ouyang(参考訳) ステレオマッチングは、自動運転の重要なタスクであり、近年は大きな進歩を遂げている。 既存のステレオマッチング法は、深さの代わりに差を推定する。 三角法則に従って深度から深度を算出できるため, 深度推定誤差の評価基準として不一致誤差を扱い, 深度推定誤差を評価する。 しかし, 深さの誤差は, 差の誤差だけでなく, 点の深さ範囲にも依存することがわかった。 したがって、たとえ差分誤差が低いとしても、特に遠点の場合、深さ誤差は大きい。 本稿では,ステレオマッチングのための新しい直接深層学習ネットワーク(ddl-net)を提案する。 DDL-Netは、粗度推定段階と適応勾配深度補正段階の2段階で構成されており、これらは全て不均一性ではなく深さによって監督されている。 特に、粗深さ推定段階は、対応する候補を深さ範囲に応じて均一にサンプリングし、コストボリュームを構築し、粗深さを出力する。 適応細粒度微細化ステージは粗深さ付近でさらなるマッチングを行い、不正確な一致と誤一致を補正する。 粗い深さに頑健で、各点の深さ範囲に適応させるために、アダプティブグラインドデプスリファインメントステージにグラニュラリティ不確実性を導入する。 粒度不確かさはマッチング範囲を調整し、粗い予測信頼度と深さ範囲に応じて候補の特徴を選択する。 SceneFlowデータセットとDrivingStereoデータセットにおけるDDL-Netの性能を、異なる深さのメトリクスで検証する。 その結果、DDL-NetはSceneFlowデータセットで25%、DrivingStereoデータセットで12.%の平均的な改善を実現していることがわかった。 さらに重要なことは,大距離で最先端の精度を実現することだ。

Being a crucial task of autonomous driving, Stereo matching has made great progress in recent years. Existing stereo matching methods estimate disparity instead of depth. They treat the disparity errors as the evaluation metric of the depth estimation errors, since the depth can be calculated from the disparity according to the triangulation principle. However, we find that the error of the depth depends not only on the error of the disparity but also on the depth range of the points. Therefore, even if the disparity error is low, the depth error is still large, especially for the distant points. In this paper, a novel Direct Depth Learning Network (DDL-Net) is designed for stereo matching. DDL-Net consists of two stages: the Coarse Depth Estimation stage and the Adaptive-Grained Depth Refinement stage, which are all supervised by depth instead of disparity. Specifically, Coarse Depth Estimation stage uniformly samples the matching candidates according to depth range to construct cost volume and output coarse depth. Adaptive-Grained Depth Refinement stage performs further matching near the coarse depth to correct the imprecise matching and wrong matching. To make the Adaptive-Grained Depth Refinement stage robust to the coarse depth and adaptive to the depth range of the points, the Granularity Uncertainty is introduced to Adaptive-Grained Depth Refinement stage. Granularity Uncertainty adjusts the matching range and selects the candidates' features according to coarse prediction confidence and depth range. We verify the performance of DDL-Net on SceneFlow dataset and DrivingStereo dataset by different depth metrics. Results show that DDL-Net achieves an average improvement of 25% on the SceneFlow dataset and $12\%$ on the DrivingStereo dataset comparing the classical methods. More importantly, we achieve state-of-the-art accuracy at a large distance.
翻訳日:2021-05-15 06:23:48 公開日:2020-12-10
# 差分推定のための低分解能完全マッチング

Full Matching on Low Resolution for Disparity Estimation ( http://arxiv.org/abs/2012.05586v1 )

ライセンス: Link先を確認
Hong Zhang and Shenglun Chen and Zhihui Wang and Haojie Li and Wanli Ouyang(参考訳) 本研究では,マルチステージ完全一致不一致推定法(MFM)を提案する。 低解像度の4Dボリュームを最適化することに集中して、低解像度の3Dコストボリュームを推定する代わりに、低解像度の4Dボリュームステップから直接、すべての類似度スコアを段階的に切り離すことを実証する。 そこで我々はまず,全整合タスクをコスト集約モジュールの複数の段階に分解することを提案する。 具体的には、高分解能予測結果を複数のグループに分解し、新しく設計されたコストアグリゲーションモジュールの各ステージは、ポイントのグループの結果を見積もるためにのみ学習する。 これにより、1段階からの低解像度4Dボリューム出力から、全ての候補の類似度スコアを学習する際に、機能内部の競合が軽減される。 そこで本研究では,複数段階の関係を利用して各段階の類似度スコアを推定し,複数段階の連続多段階フレームワークによる不均衡予測を解消する,多段階間相互援助戦略を提案する。 実験により,提案手法はより精度の高い不均一性推定を行い,Scene Flow,KITTI 2012,KITTI 2015データセットの最先端手法より優れていた。

A Multistage Full Matching disparity estimation scheme (MFM) is proposed in this work. We demonstrate that decouple all similarity scores directly from the low-resolution 4D volume step by step instead of estimating low-resolution 3D cost volume through focusing on optimizing the low-resolution 4D volume iteratively leads to more accurate disparity. To this end, we first propose to decompose the full matching task into multiple stages of the cost aggregation module. Specifically, we decompose the high-resolution predicted results into multiple groups, and every stage of the newly designed cost aggregation module learns only to estimate the results for a group of points. This alleviates the problem of feature internal competitive when learning similarity scores of all candidates from one low-resolution 4D volume output from one stage. Then, we propose the strategy of \emph{Stages Mutual Aid}, which takes advantage of the relationship of multiple stages to boost similarity scores estimation of each stage, to solve the unbalanced prediction of multiple stages caused by serial multistage framework. Experiment results demonstrate that the proposed method achieves more accurate disparity estimation results and outperforms state-of-the-art methods on Scene Flow, KITTI 2012 and KITTI 2015 datasets.
翻訳日:2021-05-15 06:23:20 公開日:2020-12-10
# 低光度画像強調のための協調事前探索によるretinexインスパイアアンロール

Retinex-inspired Unrolling with Cooperative Prior Architecture Search for Low-light Image Enhancement ( http://arxiv.org/abs/2012.05609v1 )

ライセンス: Link先を確認
Risheng Liu and Long Ma and Jiaao Zhang and Xin Fan and Zhongxuan Luo(参考訳) 低照度画像強調は低レベルの視野において非常に重要な役割を果たす。 最近の研究は、この課題に対処する様々なディープラーニングモデルを構築している。 しかし、これらのアプローチは主に重要なアーキテクチャ工学に依存しており、高い計算負荷を抱えている。 本稿では,Retinex-inspired Unrolling with Architecture Search (RUAS) という新しい手法を提案する。 具体的には、retinexルールに基づいて、ruasはまず、低光度画像の固有の未公開構造を特徴付けるモデルを確立し、それらの最適化プロセスを展開して、我々の全体的伝播構造を構築する。 そして、コンパクトな検索空間から低照度先行アーキテクチャを発見するための協調参照フリー学習戦略を設計することにより、russは高速で計算資源の少ないトップパフォーマンス画像拡張ネットワークを得ることができる。 最近提案された最先端手法に対するRUASフレームワークの優位性を検証する。

Low-light image enhancement plays very important roles in low-level vision field. Recent works have built a large variety of deep learning models to address this task. However, these approaches mostly rely on significant architecture engineering and suffer from high computational burden. In this paper, we propose a new method, named Retinex-inspired Unrolling with Architecture Search (RUAS), to construct lightweight yet effective enhancement network for low-light images in real-world scenario. Specifically, building upon Retinex rule, RUAS first establishes models to characterize the intrinsic underexposed structure of low-light images and unroll their optimization processes to construct our holistic propagation structure. Then by designing a cooperative reference-free learning strategy to discover low-light prior architectures from a compact search space, RUAS is able to obtain a top-performing image enhancement network, which is with fast speed and requires few computational resources. Extensive experiments verify the superiority of our RUAS framework against recently proposed state-of-the-art methods.
翻訳日:2021-05-15 06:22:23 公開日:2020-12-10
# パーセプタリー・グラウンドド・スタイル・トランスファー・ラーニングによる古代花瓶絵画におけるポーズ推定の強化

Enhancing Human Pose Estimation in Ancient Vase Paintings via Perceptually-grounde d Style Transfer Learning ( http://arxiv.org/abs/2012.05616v1 )

ライセンス: Link先を確認
Prathmesh Madhu, Angel Villar-Corrales, Ronak Kosti, Torsten Bendschus, Corinna Reinhardt, Peter Bell, Andreas Maier, Vincent Christlein(参考訳) 人間のポーズ推定(HPE)は、ギリシアの花瓶絵などの絵画コレクションに描かれている人物の視覚的ナレーションと身体の動きを理解する中心的な部分である。 残念ながら、既存のHPE法はドメインをまたいでうまく一般化しないため、認識されていないポーズが生じる。 そこで本研究では,(1) 既知の人物の自然像のデータセットを適応させ, 画像スタイル変換によるギリシアの花瓶絵画の様式にアノテーションを付加する2つのアプローチを提案する。 知覚的一貫性を強制するために,知覚的接地型トランスファートレーニングを導入する。 そして、この新しく作成されたデータセットでベースモデルを微調整します。 スタイル変換学習を用いることで,平均精度(mAP)が6%以上,平均リコール(mAR)が6%以上向上することがわかった。 2) より強固な結果を改善するため,紀元前6~5世紀の古代ギリシアの花瓶絵と注釈を添えた小さなデータセット(ClassArch)を作成した。 このデータに対するスタイル変換モデルによる微調整により、パフォーマンスがさらに向上することを示す。 徹底的なアブレーション研究では,スタイル強度の影響を対象とした解析を行い,モデルが汎用的なドメインスタイルを学習していることを明らかにする。 さらに,提案手法の有効性を示すために,ポーズに基づく画像検索を行う。

Human pose estimation (HPE) is a central part of understanding the visual narration and body movements of characters depicted in artwork collections, such as Greek vase paintings. Unfortunately, existing HPE methods do not generalise well across domains resulting in poorly recognized poses. Therefore, we propose a two step approach: (1) adapting a dataset of natural images of known person and pose annotations to the style of Greek vase paintings by means of image style-transfer. We introduce a perceptually-grounde d style transfer training to enforce perceptual consistency. Then, we fine-tune the base model with this newly created dataset. We show that using style-transfer learning significantly improves the SOTA performance on unlabelled data by more than 6% mean average precision (mAP) as well as mean average recall (mAR). (2) To improve the already strong results further, we created a small dataset (ClassArch) consisting of ancient Greek vase paintings from the 6-5th century BCE with person and pose annotations. We show that fine-tuning on this data with a style-transferred model improves the performance further. In a thorough ablation study, we give a targeted analysis of the influence of style intensities, revealing that the model learns generic domain styles. Additionally, we provide a pose-based image retrieval to demonstrate the effectiveness of our method.
翻訳日:2021-05-15 06:22:08 公開日:2020-12-10
# 3次元点雲上の幾何学的逆襲と防御

Geometric Adversarial Attacks and Defenses on 3D Point Clouds ( http://arxiv.org/abs/2012.05657v1 )

ライセンス: Link先を確認
Itai Lang, Uriel Kotlicki, Shai Avidan(参考訳) ディープニューラルネットワークは、ネットワークの結果を悪質に変化させる敵の例が多い。 安全クリティカルシステムにおける3Dセンサの普及と3Dポイントセットのためのディープラーニングモデルの大規模展開により、このようなモデルに対する敵の攻撃や防御への関心が高まっている。 これまでのところ、研究はセマンティックレベル、すなわちdeep point cloudの分類に重点を置いてきた。 しかし、点雲は幾何学的関係の形で広く使われており、幾何のエンコーディングと再構成を含む。 本研究は,幾何学的レベルでの逆例を考察する。 つまり、クリーンなソースポイントクラウドへの小さな変更は、autoencoderモデルを通過した後、異なるターゲットクラスからの形状へと導かれる。 防御側では,敵の入力に防御を施した後も,攻撃対象形状の残余が再建された出力に残っていることを示す。 私たちのコードはhttps://github.com/i tailang/geometric_ad vで公開されています。

Deep neural networks are prone to adversarial examples that maliciously alter the network's outcome. Due to the increasing popularity of 3D sensors in safety-critical systems and the vast deployment of deep learning models for 3D point sets, there is a growing interest in adversarial attacks and defenses for such models. So far, the research has focused on the semantic level, namely, deep point cloud classifiers. However, point clouds are also widely used in a geometric-related form that includes encoding and reconstructing the geometry. In this work, we explore adversarial examples at a geometric level. That is, a small change to a clean source point cloud leads, after passing through an autoencoder model, to a shape from a different target class. On the defense side, we show that remnants of the attack's target shape are still present at the reconstructed output after applying the defense to the adversarial input. Our code is publicly available at https://github.com/i tailang/geometric_ad v.
翻訳日:2021-05-15 06:21:45 公開日:2020-12-10
# 合成活動認識のための多レベル特徴の相互融合

Interactive Fusion of Multi-level Features for Compositional Activity Recognition ( http://arxiv.org/abs/2012.05689v1 )

ライセンス: Link先を確認
Rui Yan, Lingxi Xie, Xiangbo Shu, and Jinhui Tang(参考訳) 複雑な動作を理解するには、外観、位置、意味的特徴を含む複数の情報ソースを統合する必要がある。 しかし、これらの特徴はしばしばモダリティや次元において大きく異なるため、融合することは困難である。 本稿では,異なる空間にまたがる特徴を投影し,補助的な予測タスクを用いて誘導することで,この目標を達成する新しいフレームワークを提案する。 具体的には,特徴抽出,意味的特徴相互作用,意味的特徴予測という3つのステップでフレームワークを実装した。 我々は,2つの行動認識データセット,SomethingとCharadesに対するアプローチを評価した。 interactive fusionは、市販のアクション認識アルゴリズム以上の一貫性のある精度を実現している。 特に something-else では、何か何かの合成設定では、interactive fusion は top-1 の精度で2.9%の大幅な向上を報告している。

To understand a complex action, multiple sources of information, including appearance, positional, and semantic features, need to be integrated. However, these features are difficult to be fused since they often differ significantly in modality and dimensionality. In this paper, we present a novel framework that accomplishes this goal by interactive fusion, namely, projecting features across different spaces and guiding it using an auxiliary prediction task. Specifically, we implement the framework in three steps, namely, positional-to-appear ance feature extraction, semantic feature interaction, and semantic-to-position al prediction. We evaluate our approach on two action recognition datasets, Something-Something and Charades. Interactive fusion achieves consistent accuracy gain beyond off-the-shelf action recognition algorithms. In particular, on Something-Else, the compositional setting of Something-Something, interactive fusion reports a remarkable gain of 2.9% in terms of top-1 accuracy.
翻訳日:2021-05-15 06:21:32 公開日:2020-12-10
# OneNet: エンドツーエンドのワンステージオブジェクト検出を目指す

OneNet: Towards End-to-End One-Stage Object Detection ( http://arxiv.org/abs/2012.05780v1 )

ライセンス: Link先を確認
Peize Sun, Yi Jiang, Enze Xie, Zehuan Yuan, Changhu Wang, Ping Luo(参考訳) 終端から終端までの1段階の物体検出は、これまで続いた。 本稿では,ラベル割り当てにおける試料と地表面の分類コストの欠如が,非最大抑制(nms)を除去しエンドツーエンドに到達するための1段階検出器の主な障害であることを示す。 既存の1段階のオブジェクト検出器は、ラベルをロケーションコストのみに割り当てる。 ボックスIoUまたはポイント距離。 分類コストがなければ、唯一の位置コストは推論における高い信頼度スコアの冗長なボックスにつながるため、NMSは後処理を必要とする。 エンド・ツー・エンドのワンステージ物体検出器を設計するために,最小コスト割り当てを提案する。 コストは、サンプルと地表面の間の分類コストと位置コストの合計である。 各対象の接地真実に対して、最小コストの1つのサンプルのみが正のサンプルとして割り当てられ、他のサンプルはすべて負のサンプルである。 提案手法の有効性を評価するため,OneNetという超単純なワンステージ検出器を設計した。 以上の結果から,OneNetは最小コスト割当でトレーニングした場合,複製箱の生成を回避し,エンド・ツー・エンドの検出器を実現することができた。 COCOデータセットでは、OneNetは画像サイズ512ピクセルの35.0 AP/80 FPSと37.7 AP/50 FPSを達成した。 OneNetがエンドツーエンドのワンステージオブジェクト検出の効果的なベースラインになることを期待しています。 コードは以下の通り。 \url{https://github.com/P eizeSun/OneNet}。

End-to-end one-stage object detection trailed thus far. This paper discovers that the lack of classification cost between sample and ground-truth in label assignment is the main obstacle for one-stage detectors to remove Non-maximum Suppression(NMS) and reach end-to-end. Existing one-stage object detectors assign labels by only location cost, e.g. box IoU or point distance. Without classification cost, sole location cost leads to redundant boxes of high confidence scores in inference, making NMS necessary post-processing. To design an end-to-end one-stage object detector, we propose Minimum Cost Assignment. The cost is the summation of classification cost and location cost between sample and ground-truth. For each object ground-truth, only one sample of minimum cost is assigned as the positive sample; others are all negative samples. To evaluate the effectiveness of our method, we design an extremely simple one-stage detector named OneNet. Our results show that when trained with Minimum Cost Assignment, OneNet avoids producing duplicated boxes and achieves to end-to-end detector. On COCO dataset, OneNet achieves 35.0 AP/80 FPS and 37.7 AP/50 FPS with image size of 512 pixels. We hope OneNet could serve as an effective baseline for end-to-end one-stage object detection. The code is available at: \url{https://github.com/P eizeSun/OneNet}.
翻訳日:2021-05-15 06:21:17 公開日:2020-12-10
# SPAA: ディープイメージ分類器に対するステルスプロジェクターによる敵攻撃

SPAA: Stealthy Projector-based Adversarial Attacks on Deep Image Classifiers ( http://arxiv.org/abs/2012.05858v1 )

ライセンス: Link先を確認
Bingyao Huang, Haibin Ling(参考訳) 光ベースの敵対攻撃は、プロジェクタなどの制御可能な光源を用いて物理的光条件を変更することによって、ディープラーニングベースの画像分類器を騙すことを目的としている。 慎重にデザインされたステッカーや印刷された逆さまのオブジェクトを配置する物理的な攻撃と比較すると、プロジェクターベースの攻撃は物理的なエンティティを変更することを妨げる。 さらに、プロジェクションパターンを変更することにより、プロジェクターベースの攻撃を過渡的かつ動的に行うことができる。 しかし、既存のアプローチでは、カメラが捉えた混乱をはっきりと認識できるような敵のパターンを投影することに重点を置いている。 本稿では,この問題をエンド・ツー・エンドの微分可能なプロセスとして初めて定式化し,ステルスプロジェクタに基づく逆アタック(SPAA)を提案する。 SPAAでは、PCNetと呼ばれるディープニューラルネットワークを用いて実際のプロジェクト・アンド・キャプチャ操作を近似し、生成した対角投影が物理的に妥当であるようなプロジェクタベースの攻撃の最適化にPCNetを含める。 最後に,頑健かつステルス性のある対向射影を生成するために,最小摂動と対向信頼しきい値を用いて対向損失とステルス損失の最適化を交互に行う最適化アルゴリズムを提案する。 実験の結果,SPAAは攻撃成功率の向上とステルス性の向上により,他の手法よりも優れていることがわかった。

Light-based adversarial attacks aim to fool deep learning-based image classifiers by altering the physical light condition using a controllable light source, e.g., a projector. Compared with physical attacks that place carefully designed stickers or printed adversarial objects, projector-based ones obviate modifying the physical entities. Moreover, projector-based attacks can be performed transiently and dynamically by altering the projection pattern. However, existing approaches focus on projecting adversarial patterns that result in clearly perceptible camera-captured perturbations, while the more interesting yet challenging goal, stealthy projector-based attack, remains an open problem. In this paper, for the first time, we formulate this problem as an end-to-end differentiable process and propose Stealthy Projector-based Adversarial Attack (SPAA). In SPAA, we approximate the real project-and-capture operation using a deep neural network named PCNet, then we include PCNet in the optimization of projector-based attacks such that the generated adversarial projection is physically plausible. Finally, to generate robust and stealthy adversarial projections, we propose an optimization algorithm that uses minimum perturbation and adversarial confidence thresholds to alternate between the adversarial loss and stealthiness loss optimization. Our experimental evaluations show that the proposed SPAA clearly outperforms other methods by achieving higher attack success rates and meanwhile being stealthier.
翻訳日:2021-05-15 06:20:29 公開日:2020-12-10
# 自動符号化による画像グラフ画像翻訳

Image-Graph-Image Translation via Auto-Encoding ( http://arxiv.org/abs/2012.05975v1 )

ライセンス: Link先を確認
Chenyang Lu and Gijs Dubbelman(参考訳) この研究は、外部の監視を必要とせず、画像から画像への変換タスクを学習する最初の畳み込みニューラルネットワークを示す。 オブジェクトをノードとして表現し、それらの関係をエッジとして表現する画像コンテンツのグラフ表現を得ることは、シーン理解において重要なタスクである。 現在のアプローチは、十分に管理されたアプローチに従っており、綿密なアノテーションを必要とする。 これを解決するために、我々は、ボトルネックがグラフのノードとエッジをエンコードする完全微分可能なオートエンコーダに基づく自己教師型アプローチを初めて提示する。 この自己教師付きアプローチは、現在単純な線引きをグラフにエンコードでき、トリプレットマッチングのf1スコアで完全に教師付きベースラインと同等の結果を得ることができる。 これらの有望な結果に加えて、より複雑な画像をカバーするために我々のアプローチをどのように拡張できるかについて、今後の研究の方向性を示す。

This work presents the first convolutional neural network that learns an image-to-graph translation task without needing external supervision. Obtaining graph representations of image content, where objects are represented as nodes and their relationships as edges, is an important task in scene understanding. Current approaches follow a fully-supervised approach thereby requiring meticulous annotations. To overcome this, we are the first to present a self-supervised approach based on a fully-differentiable auto-encoder in which the bottleneck encodes the graph's nodes and edges. This self-supervised approach can currently encode simple line drawings into graphs and obtains comparable results to a fully-supervised baseline in terms of F1 score on triplet matching. Besides these promising results, we provide several directions for future research on how our approach can be extended to cover more complex imagery.
翻訳日:2021-05-15 06:20:01 公開日:2020-12-10
# 検出駆動型水中画像強調のための生成的アプローチ

A Generative Approach for Detection-driven Underwater Image Enhancement ( http://arxiv.org/abs/2012.05990v1 )

ライセンス: Link先を確認
Chelsey Edge, Md Jahidul Islam, Christopher Morse, Junaed Sattar(参考訳) 本稿では,水中領域におけるダイバー検出を改善するために,画像強調のための生成モデルを提案する。 特に,GAN(Generative Adversarial Network)に基づく画像強調とダイバー検出タスクを統合したモデルを提案する。 提案手法は,GAN目標関数を再構成し,事前学習したダイバー検出器からの情報を含むことにより,視覚条件が悪ければ検出者の精度を向上する画像を生成する。 検出器出力をジェネレータと識別器ネットワークの両方に組み込むことで、美的品質以上の画像の改善、特にスキューバダイバーのロボットによる検出の改善に焦点を絞ることができる。 我々は、最先端のダイバー検出器を用いて、スキューバダイバーの大規模なデータセット上でネットワークをトレーニングし、人間のロボットチームの海洋探査から収集した画像にその有用性を実証する。 実験により,本手法は生画像のダイバー検出性能を大幅に向上させるとともに,最先端水中画像強調アルゴリズムの出力における検出性能も向上することが示された。 最後に,組込みデバイス上でのネットワークの推論性能を実証し,モバイルロボットプラットフォーム上での動作可能性を強調した。

In this paper, we introduce a generative model for image enhancement specifically for improving diver detection in the underwater domain. In particular, we present a model that integrates generative adversarial network (GAN)-based image enhancement with the diver detection task. Our proposed approach restructures the GAN objective function to include information from a pre-trained diver detector with the goal to generate images which would enhance the accuracy of the detector in adverse visual conditions. By incorporating the detector output into both the generator and discriminator networks, our model is able to focus on enhancing images beyond aesthetic qualities and specifically to improve robotic detection of scuba divers. We train our network on a large dataset of scuba divers, using a state-of-the-art diver detector, and demonstrate its utility on images collected from oceanic explorations of human-robot teams. Experimental evaluations demonstrate that our approach significantly improves diver detection performance over raw, unenhanced images, and even outperforms detection performance on the output of state-of-the-art underwater image enhancement algorithms. Finally, we demonstrate the inference performance of our network on embedded devices to highlight the feasibility of operating on board mobile robotic platforms.
翻訳日:2021-05-15 06:19:46 公開日:2020-12-10
# 不確実性を考慮した深部校正サルエント物体検出

Uncertainty-Aware Deep Calibrated Salient Object Detection ( http://arxiv.org/abs/2012.06020v1 )

ライセンス: Link先を確認
Jing Zhang, Yuchao Dai, Xin Yu, Mehrtash Harandi, Nick Barnes, Richard Hartley(参考訳) 既存のディープニューラルネットワークに基づくサルエントオブジェクト検出(SOD)手法は主に高いネットワーク精度の追求に重点を置いている。 しかし,ネットワークの精度と予測信頼性のギャップを克服する手法は,信頼性の非校正問題として知られる。 したがって、最先端のSODネットワークは過信されがちである。 言い換えれば、予測されたネットワークの信頼性は、サルエントオブジェクト検出の正しさの実際の確率を反映していないため、実際の適用性が著しく阻害される。 本稿では,不確実性を考慮した深部SODネットワークを提案し,深部SODネットワークの過信を防止するための2つの戦略を提案する。 第1の戦略、すなわち境界分布平滑化(BDS)は、画素ワイドの不確実性に関して元のバイナリ基底を滑らかにすることで連続的なラベルを生成する。 第2の戦略、すなわち、不確実性認識温度スケーリング(UATS)は、空間変化温度スケーリングによるトレーニングとテストの両方で緩和されたシグモイド関数を利用して、軟化出力を生成する。 どちらの戦略も最小限の努力で既存のディープSODネットワークに組み込むことができる。 さらに, あるデータセット上でモデルがどのようにキャリブレーションされるかを測定するために, より密度の高いキャリブレーション尺度Cを提案する。 7つのベンチマークデータセットの大規模な実験結果から,SODモデルの校正だけでなく,ネットワークの精度も向上できることがわかった。

Existing deep neural network based salient object detection (SOD) methods mainly focus on pursuing high network accuracy. However, those methods overlook the gap between network accuracy and prediction confidence, known as the confidence uncalibration problem. Thus, state-of-the-art SOD networks are prone to be overconfident. In other words, the predicted confidence of the networks does not reflect the real probability of correctness of salient object detection, which significantly hinder their real-world applicability. In this paper, we introduce an uncertaintyaware deep SOD network, and propose two strategies from different perspectives to prevent deep SOD networks from being overconfident. The first strategy, namely Boundary Distribution Smoothing (BDS), generates continuous labels by smoothing the original binary ground-truth with respect to pixel-wise uncertainty. The second strategy, namely Uncertainty-Aware Temperature Scaling (UATS), exploits a relaxed Sigmoid function during both training and testing with spatially-variant temperature scaling to produce softened output. Both strategies can be incorporated into existing deep SOD networks with minimal efforts. Moreover, we propose a new saliency evaluation metric, namely dense calibration measure C, to measure how the model is calibrated on a given dataset. Extensive experimental results on seven benchmark datasets demonstrate that our solutions can not only better calibrate SOD models, but also improve the network accuracy.
翻訳日:2021-05-15 06:19:27 公開日:2020-12-10
# この顔は存在しない。 しかし、それはあなたのものだ。 生成モデルにおけるアイデンティティリーク

This Face Does Not Exist ... But It Might Be Yours! Identity Leakage in Generative Models ( http://arxiv.org/abs/2101.05084v1 )

ライセンス: Link先を確認
Patrick Tinsley, Adam Czajka, Patrick Flynn(参考訳) generative adversarial network (gans) は「存在しない」物体の高解像度フォトリアリスティック画像を生成することができる。 これらの合成画像は、偽物として検出することがかなり難しい。 しかし、これらの生成モデルを訓練する方法は、特に合成顔の文脈において、供給されたトレーニングデータから情報漏洩の可能性を示すヒントとなる。 本稿では,顔画像中の識別情報を学習コーパスから合成サンプルに流し,既存モデルの構築・使用時の敵対的動作を伴わないことを示す実験を行う。 これはプライバシーに関する疑問を提起する一方で、(a)特徴空間における顔多様体の特徴と(b)画像が訓練に使われた実際の被験者のアイデンティティ情報を不注意に明らかにしない生成モデルの作成方法についての議論を刺激する。 顔認識,FaceNet,ArcFace,Sph ereFace,Neurotechnol ogy MegaMatcherの5つの異なる顔マッチングモデルとStyleGAN2合成モデルを用いて,このID漏洩が存在することを示す。 では、これらの合成された顔は本当に存在しないと言えるだろうか? 本論文では,実顔と合成顔のデータベースを作成し,本研究で論じられた結果の完全な再現性を実現する。

Generative adversarial networks (GANs) are able to generate high resolution photo-realistic images of objects that "do not exist." These synthetic images are rather difficult to detect as fake. However, the manner in which these generative models are trained hints at a potential for information leakage from the supplied training data, especially in the context of synthetic faces. This paper presents experiments suggesting that identity information in face images can flow from the training corpus into synthetic samples without any adversarial actions when building or using the existing model. This raises privacy-related questions, but also stimulates discussions of (a) the face manifold's characteristics in the feature space and (b) how to create generative models that do not inadvertently reveal identity information of real subjects whose images were used for training. We used five different face matchers (face_recognition, FaceNet, ArcFace, SphereFace and Neurotechnology MegaMatcher) and the StyleGAN2 synthesis model, and show that this identity leakage does exist for some, but not all methods. So, can we say that these synthetically generated faces truly do not exist? Databases of real and synthetically generated faces are made available with this paper to allow full replicability of the results discussed in this work.
翻訳日:2021-05-15 06:19:01 公開日:2020-12-10
# Bew: ビジネスエンティティ関連のWeb質問に答える

Bew: Towards Answering Business-Entity-Rela ted Web Questions ( http://arxiv.org/abs/2012.05818v1 )

ライセンス: Link先を確認
Qingqing Cao, Oriana Riva, Aruna Balasubramanian, Niranjan Balasubramanian(参考訳) bewqaは、bew questionsと呼ばれる一連の質問に答えるために特別に設計されたシステムです。 レストラン、ホテル、映画館などのビジネスやサービスに関連する質問は、「何時まで幸せな時間か?」などである。 これらの質問は、答がオープンドメインのWebで見出され、周囲のコンテキストなしで短い文で表示され、Webページ情報が頻繁に更新されるため、答えが難しい。 これらの条件下では、既存のQAシステムは性能が良くない。 我々は,ビジネス関連のwebページのテンプレートをマイニングし,テンプレートを用いて検索のガイドを行う,bewqaと呼ばれる実用的なアプローチを提案する。 ドメイン内のビジネスエンティティに関する情報を集約するアグリゲータWebサイト(レストランなど)を利用してテンプレートを自動的に抽出する方法を示す。 私たちは、最も答えを含む可能性が高い抽出されたテンプレートからセクションを識別することで、ある質問に答えます。 そうすることで、回答が十分なコンテキストを持っていなくても、答えを抽出できます。 重要な点として、BewQAはトレーニングを一切必要としない。 レストランのドメインで1066 Bewの質問と真実の回答のデータセットをクラウドソースしています。 最先端のQAモデルと比較して、BewQAはF1スコアの27%改善している。 商用検索エンジンと比較すると、BewQAは正確に29%以上のBew質問に答えた。

We present BewQA, a system specifically designed to answer a class of questions that we call Bew questions. Bew questions are related to businesses/services such as restaurants, hotels, and movie theaters; for example, "Until what time is happy hour?". These questions are challenging to answer because the answers are found in open-domain Web, are present in short sentences without surrounding context, and are dynamic since the webpage information can be updated frequently. Under these conditions, existing QA systems perform poorly. We present a practical approach, called BewQA, that can answer Bew queries by mining a template of the business-related webpages and using the template to guide the search. We show how we can extract the template automatically by leveraging aggregator websites that aggregate information about business entities in a domain (e.g., restaurants). We answer a given question by identifying the section from the extracted template that is most likely to contain the answer. By doing so we can extract the answers even when the answer span does not have sufficient context. Importantly, BewQA does not require any training. We crowdsource a new dataset of 1066 Bew questions and ground-truth answers in the restaurant domain. Compared to state-of-the-art QA models, BewQA has a 27 percent point improvement in F1 score. Compared to a commercial search engine, BewQA answered correctly 29% more Bew questions.
翻訳日:2021-05-15 06:18:12 公開日:2020-12-10
# クラス条件仮定を超えて:インスタンス依存のラベルノイズと戦うための第一の試み

Beyond Class-Conditional Assumption: A Primary Attempt to Combat Instance-Dependent Label Noise ( http://arxiv.org/abs/2012.05458v1 )

ライセンス: Link先を確認
Pengfei Chen, Junjie Ye, Guangyong Chen, Jingwei Zhao, Pheng-Ann Heng(参考訳) ラベルノイズ下での教師付き学習は近年多くの進歩を遂げているが、既存の理論的知見と経験的結果は、そのノイズが真のラベルが与えられた入力特徴とは無関係であるというクラス条件ノイズ(CCN)の仮定に基づいて大きく裏付けられている。 本研究では,実世界のデータセットにおけるノイズがccnである可能性は低いという理論的仮説を検証し,ラベルノイズがインスタンスに依存することを確認し,ccnの仮定を超越する緊急必要性を正当化するものであることを証明し,より一般的かつ実用的なインスタンス依存ノイズ(idn)の研究を動機付ける。 我々は,IDNに関する理論と方法論の発達を促進するために,制御可能なIDNを生成するアルゴリズムを形式化し,IDNが意味論的かつ困難なものであることを示す理論的および実証的な証拠を提示する。 idnに対抗するための第一の試みとして、様々なノイズ分数を持つidnの下で際立っている、自己進化平均ラベル(seal)と呼ばれる小さなアルゴリズムを提案する。 私たちのコードはリリースされます。 特に、第2節における我々の理論的分析は、IDNを研究するための厳格な動機を与えています。

Supervised learning under label noise has seen numerous advances recently, while existing theoretical findings and empirical results broadly build up on the class-conditional noise (CCN) assumption that the noise is independent of input features given the true label. In this work, we present a theoretical hypothesis testing and prove that noise in real-world dataset is unlikely to be CCN, which confirms that label noise should depend on the instance and justifies the urgent need to go beyond the CCN assumption.The theoretical results motivate us to study the more general and practical-relevant instance-dependent noise (IDN). To stimulate the development of theory and methodology on IDN, we formalize an algorithm to generate controllable IDN and present both theoretical and empirical evidence to show that IDN is semantically meaningful and challenging. As a primary attempt to combat IDN, we present a tiny algorithm termed self-evolution average label (SEAL), which not only stands out under IDN with various noise fractions, but also improves the generalization on real-world noise benchmark Clothing1M. Our code is released. Notably, our theoretical analysis in Section 2 provides rigorous motivations for studying IDN, which is an important topic that deserves more research attention in future.
翻訳日:2021-05-15 06:17:51 公開日:2020-12-10
# 最適トレーニング重量と活性化量子化ネットワークの再現性

Recurrence of Optimum for Training Weight and Activation Quantized Networks ( http://arxiv.org/abs/2012.05529v1 )

ライセンス: Link先を確認
Ziang Long, Penghang Yin, Jack Xin(参考訳) リソース制約のあるプラットフォーム上での効率的な推論のために、ディープニューラルネットワーク(DNN)が量子化される。 しかし、低精度の重みとアクティベーションを持つディープラーニングモデルのトレーニングには、離散的なセット制約を受ける段階的損失関数を最小化する要求の最適化タスクが伴う。 多くのトレーニング手法が提案されているが、DNNの完全量子化のための既存の研究はほとんど経験的である。 理論的観点から,ネットワーク量子化の組合せ的性質を克服する実践的手法を考察する。 具体的には, 量子化された重みで評価される損失関数(いわゆる粗勾配)のヒューリスティックな \emph{fake}勾配の否定において, 浮き重みで1段階ずつ繰り返し移動させることにより, 2-線型層ネットワークを定量化する, 単純かつ強力な投影勾配様アルゴリズムについて検討した。 軽度条件下では、量子化重みの列が完全量子化ネットワークのトレーニングのための離散化最小化問題の大域的最適度を繰り返すことが初めて証明された。 また,訓練用量子化深層ネットワークにおける重み進化の繰り返し現象の数値的証拠を示す。

Deep neural networks (DNNs) are quantized for efficient inference on resource-constrained platforms. However, training deep learning models with low-precision weights and activations involves a demanding optimization task, which calls for minimizing a stage-wise loss function subject to a discrete set-constraint. While numerous training methods have been proposed, existing studies for full quantization of DNNs are mostly empirical. From a theoretical point of view, we study practical techniques for overcoming the combinatorial nature of network quantization. Specifically, we investigate a simple yet powerful projected gradient-like algorithm for quantizing two-linear-layer networks, which proceeds by repeatedly moving one step at float weights in the negation of a heuristic \emph{fake} gradient of the loss function (so-called coarse gradient) evaluated at quantized weights. For the first time, we prove that under mild conditions, the sequence of quantized weights recurrently visits the global optimum of the discrete minimization problem for training fully quantized network. We also show numerical evidence of the recurrence phenomenon of weight evolution in training quantized deep networks.
翻訳日:2021-05-15 06:17:27 公開日:2020-12-10
# 学習できないことを学ぶ: 帰納的分布検出のための正規化アンサンブル

Learn what you can't learn: Regularized Ensembles for Transductive Out-of-distribution Detection ( http://arxiv.org/abs/2012.05825v1 )

ライセンス: Link先を確認
Alexandru \c{T}ifrea, Eric Stavarache, Fanny Yang(参考訳) マシンラーニングモデルは、id(in-distribution)ホールドアウトデータで優れた一般化結果を達成した場合によく使用される。 野生で働いている場合は、予測できないサンプルも検出できるはずだ。 ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。 OODデータが目に見えないクラスまたは破損した測定値で構成されている場合。 本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。 このトランスダクティブ・セッティングは、わずかに遅延したOOD検出の利点が追加チューニングの金銭的コストを上回る場合に有効である。 本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。 我々は,CIFAR-10/CIFAR-100の未確認クラス,CIFAR-C,強共変量シフト(ImageNet vs ObjectNet)など,難解なOOD検出シナリオにおいて,インダクティブベースラインとトランスダクティブベースラインの両方を大幅に上回っていることを示す。

Machine learning models are often used in practice if they achieve good generalization results on in-distribution (ID) holdout data. When employed in the wild, they should also be able to detect samples they cannot predict well. We show that current out-of-distribution (OOD) detection algorithms for neural networks produce unsatisfactory results in a variety of OOD detection scenarios, e.g. when OOD data consists of unseen classes or corrupted measurements. This paper studies how such "hard" OOD scenarios can benefit from adjusting the detection method after observing a batch of the test data. This transductive setting is relevant when the advantage of even a slightly delayed OOD detection outweighs the financial cost for additional tuning. We propose a novel method that uses an artificial labeling scheme for the test data and regularization to obtain ensembles of models that produce contradictory predictions only on the OOD samples in a test batch. We show via comprehensive experiments that our approach is indeed able to significantly outperform both inductive and transductive baselines on difficult OOD detection scenarios, such as unseen classes on CIFAR-10/CIFAR-100, severe corruptions(CIFAR-C) , and strong covariate shift (ImageNet vs ObjectNet).
翻訳日:2021-05-15 06:16:05 公開日:2020-12-10
# 学習報酬機能を理解する

Understanding Learned Reward Functions ( http://arxiv.org/abs/2012.05862v1 )

ライセンス: Link先を確認
Eric J. Michaud, Adam Gleave, Stuart Russell(参考訳) 多くの実世界のタスクでは、RLエージェントの報酬関数を手続き的に指定することはできない。 このような場合、報酬関数は人間との相互作用や観察から学ぶ必要がある。 しかし、現在の報酬学習技術は、ユーザの好みを正確に反映した報酬関数を生成できない場合がある。 報酬学習の大幅な進歩は、学習した報酬関数を監査して、本当にユーザの好みを捉えているかどうかを確認することが重要である。 本稿では,学習報酬関数の解釈手法について検討する。 特に,障害モードを識別し,報酬関数のロバスト性を予測するために,敬礼法を適用した。 学習報酬関数は、環境の偶発的な側面に依存する驚くべきアルゴリズムをしばしば実装する。 また,既存の解釈手法が報酬出力の無関係な変化にしばしば対応していることが判明し,報酬解釈手法とポリシー解釈可能性とは大きく異なる方法が必要であることが示唆された。

In many real-world tasks, it is not possible to procedurally specify an RL agent's reward function. In such cases, a reward function must instead be learned from interacting with and observing humans. However, current techniques for reward learning may fail to produce reward functions which accurately reflect user preferences. Absent significant advances in reward learning, it is thus important to be able to audit learned reward functions to verify whether they truly capture user preferences. In this paper, we investigate techniques for interpreting learned reward functions. In particular, we apply saliency methods to identify failure modes and predict the robustness of reward functions. We find that learned reward functions often implement surprising algorithms that rely on contingent aspects of the environment. We also discover that existing interpretability techniques often attend to irrelevant changes in reward output, suggesting that reward interpretability may need significantly different methods from policy interpretability.
翻訳日:2021-05-15 06:15:41 公開日:2020-12-10
# 相互情報最大化による二部グラフ埋め込み

Bipartite Graph Embedding via Mutual Information Maximization ( http://arxiv.org/abs/2012.05442v1 )

ライセンス: Link先を確認
Jiangxia Cao, Xixun Lin, Shu Guo, Luchen Liu, Tingwen Liu, Bin Wang(参考訳) バイパートグラフの埋め込みは、様々なアプリケーションドメインで広く使われているため、最近多くの注目を集めている。 ランダムなウォークベースやレコンストラクションベースの目的を用いる従来の手法のほとんどは、ローカルグラフ構造を学ぶのに効果的である。 しかし、均質ノードのコミュニティ構造や異種ノードの長距離依存性を含む二成分グラフの全体的性質はよく保存されていない。 本稿では,BiGIと呼ばれる二部グラフを埋め込んで,そのグローバルな特性をとらえる手法を提案する。 具体的には、BiGIはまず、2つのプロトタイプ表現からなるグローバル表現を生成する。 BiGIはサンプルエッジを,提案したサブグラフレベルのアテンション機構を通じて局所表現として符号化する。 局所表現とグローバル表現の相互情報を最大化することにより、BiGIは二部グラフのノードをグローバルに関連付けることができる。 提案モデルは,top-kレコメンデーションとリンク予測のための様々なベンチマークデータセット上で評価される。 大規模な実験により、BiGIは最先端のベースラインよりも一貫した、重要な改善を達成している。 詳細な解析は、二部グラフのグローバル特性をモデル化する高い効果を検証する。

Bipartite graph embedding has recently attracted much attention due to the fact that bipartite graphs are widely used in various application domains. Most previous methods, which adopt random walk-based or reconstruction-based objectives, are typically effective to learn local graph structures. However, the global properties of bipartite graph, including community structures of homogeneous nodes and long-range dependencies of heterogeneous nodes, are not well preserved. In this paper, we propose a bipartite graph embedding called BiGI to capture such global properties by introducing a novel local-global infomax objective. Specifically, BiGI first generates a global representation which is composed of two prototype representations. BiGI then encodes sampled edges as local representations via the proposed subgraph-level attention mechanism. Through maximizing the mutual information between local and global representations, BiGI enables nodes in bipartite graph to be globally relevant. Our model is evaluated on various benchmark datasets for the tasks of top-K recommendation and link prediction. Extensive experiments demonstrate that BiGI achieves consistent and significant improvements over state-of-the-art baselines. Detailed analyses verify the high effectiveness of modeling the global properties of bipartite graph.
翻訳日:2021-05-15 06:15:04 公開日:2020-12-10
# メタ学習者による冷間開始シーケンス勧告

Cold-start Sequential Recommendation via Meta Learner ( http://arxiv.org/abs/2012.05462v1 )

ライセンス: Link先を確認
Yujia Zheng, Siyi Liu, Zekun Li, Shu Wu(参考訳) 本稿では,メタラーニングを逐次推奨することで,アイテムコールドスタート問題を緩和する。 シークエンシャルレコメンデーションは、過去の行動シーケンスに基づいてユーザの動的嗜好を捉え、ほとんどのオンラインレコメンデーションシナリオの重要なコンポーネントとして機能することを目的としている。 しかし、ほとんどの以前の手法ではコールドスタートアイテムを推奨するのに苦労している。 シーケンシャルなレコメンデーションタスクの設定には概して副次的な情報がないため、ユーザとイテムのインタラクションしか利用できない場合、従来のコールドスタートメソッドは適用できない。 そこで本研究では,メタラーニングに基づくコールドスタート・シーケンシャルレコメンデーションフレームワーク,mecosを提案する。 このタスクは、新しくて挑戦的なコンテキストにおいて重要な問題をターゲットにしているため、非自明である。 mecosは限られたインタラクションからユーザの好みを効果的に抽出し、ターゲットのコールドスタートアイテムと潜在的なユーザとのマッチングを学ぶ。 さらに、このフレームワークはニューラルネットワークベースのモデルと無痛に統合できます。 3つの実世界のデータセットで実施された大規模な実験により、平均的な改善は99%、91%、HR@10の70%に向上した。

This paper explores meta-learning in sequential recommendation to alleviate the item cold-start problem. Sequential recommendation aims to capture user's dynamic preferences based on historical behavior sequences and acts as a key component of most online recommendation scenarios. However, most previous methods have trouble recommending cold-start items, which are prevalent in those scenarios. As there is generally no side information in the setting of sequential recommendation task, previous cold-start methods could not be applied when only user-item interactions are available. Thus, we propose a Meta-learning-based Cold-Start Sequential Recommendation Framework, namely Mecos, to mitigate the item cold-start problem in sequential recommendation. This task is non-trivial as it targets at an important problem in a novel and challenging context. Mecos effectively extracts user preference from limited interactions and learns to match the target cold-start item with the potential user. Besides, our framework can be painlessly integrated with neural network-based models. Extensive experiments conducted on three real-world datasets verify the superiority of Mecos, with the average improvement up to 99%, 91%, and 70% in HR@10 over state-of-the-art baseline methods.
翻訳日:2021-05-15 06:14:47 公開日:2020-12-10
# 音声と画像の直接マルチモーダル数ショット学習

Direct multimodal few-shot learning of speech and images ( http://arxiv.org/abs/2012.05680v1 )

ライセンス: Link先を確認
Leanne Nortje, Herman Kamper(参考訳) 音声単語と画像の共有埋め込み空間を,わずかにペア化された例から学習する,直接マルチモーダルな複数ショットモデルを提案する。 例えば、エージェントが画像のオブジェクトを記述する言葉とともに画像を表示することを想像してください。 ペン、本、消しゴム。 各クラスのいくつかのペア例を観察した後、モデルは、目に見えない一連の写真の中で「本」を識別するよう依頼される。 先行研究は、学習された一助表現に依存する2段階の間接的アプローチを用いており、音声音声と画像画像の比較は、与えられた音声画像ペアの支持セット間で行われる。 本稿では,マルチモーダル三重項ネットワーク(MTriplet)とマルチモーダル対応オートエンコーダ(MCAE)という,異なるモーダルからの入力が直接的に比較される単一マルチモーダル空間を学習する2つの直接モデルを提案する。 これらの直接モデルを訓練するために、言語画像対を抽出する: サポートセットは、未実装のドメイン内音声と画像のペアリングに使用される。 音声と画像の桁マッチングタスクでは、直接モデルは間接モデルより優れ、MTripletは最高のマルチモーダル5ショット精度を達成する。 この改善は、直接モデルにおける教師なし学習と転送学習の組み合わせと、2段階の複合化誤差の欠如によるものである。

We propose direct multimodal few-shot models that learn a shared embedding space of spoken words and images from only a few paired examples. Imagine an agent is shown an image along with a spoken word describing the object in the picture, e.g. pen, book and eraser. After observing a few paired examples of each class, the model is asked to identify the "book" in a set of unseen pictures. Previous work used a two-step indirect approach relying on learned unimodal representations: speech-speech and image-image comparisons are performed across the support set of given speech-image pairs. We propose two direct models which instead learn a single multimodal space where inputs from different modalities are directly comparable: a multimodal triplet network (MTriplet) and a multimodal correspondence autoencoder (MCAE). To train these direct models, we mine speech-image pairs: the support set is used to pair up unlabelled in-domain speech and images. In a speech-to-image digit matching task, direct models outperform indirect models, with the MTriplet achieving the best multimodal five-shot accuracy. We show that the improvements are due to the combination of unsupervised and transfer learning in the direct models, and the absence of two-step compounding errors.
翻訳日:2021-05-15 06:13:57 公開日:2020-12-10
# 複合敵攻撃

Composite Adversarial Attacks ( http://arxiv.org/abs/2012.05434v1 )

ライセンス: Link先を確認
Xiaofeng Mao, Yuefeng Chen, Shuhui Wang, Hang Su, Yuan He, Hui Xue(参考訳) 敵攻撃は機械学習(ML)モデルを識別する技法であり、敵の堅牢性を評価する手段を提供する。 実際には、攻撃アルゴリズムは人間の専門家によって人工的に選択され、調整され、MLシステムを破る。 しかし、攻撃者の手動による選択は準最適であり、誤ってモデルのセキュリティを評価する。 本稿では,攻撃アルゴリズムとそれらのハイパーパラメータの最適な組み合わせを, \textbf{32 base attack} の候補プールから自動的に探索する手法である composite adversarial attack (caa) を提案する。 我々は,攻撃方針を攻撃シーケンスとして表現する探索空間,すなわち,先行する攻撃者の出力を後継者の初期化入力として使用する。 多目的NSGA-II遺伝的アルゴリズムは、最小限の複雑さで最強の攻撃ポリシーを見つけるために用いられる。 実験の結果、caaは11の異なる防御で上位10人の攻撃者を打ち負かし(\textbf{6 $\times$ faster than autoattack})、l_{\infty}$, $l_{2}$, unrestricted adversarial attackの新たな最先端を実現した。

Adversarial attack is a technique for deceiving Machine Learning (ML) models, which provides a way to evaluate the adversarial robustness. In practice, attack algorithms are artificially selected and tuned by human experts to break a ML system. However, manual selection of attackers tends to be sub-optimal, leading to a mistakenly assessment of model security. In this paper, a new procedure called Composite Adversarial Attack (CAA) is proposed for automatically searching the best combination of attack algorithms and their hyper-parameters from a candidate pool of \textbf{32 base attackers}. We design a search space where attack policy is represented as an attacking sequence, i.e., the output of the previous attacker is used as the initialization input for successors. Multi-objective NSGA-II genetic algorithm is adopted for finding the strongest attack policy with minimum complexity. The experimental result shows CAA beats 10 top attackers on 11 diverse defenses with less elapsed time (\textbf{6 $\times$ faster than AutoAttack}), and achieves the new state-of-the-art on $l_{\infty}$, $l_{2}$ and unrestricted adversarial attacks.
翻訳日:2021-05-15 06:13:36 公開日:2020-12-10
# 低レベル視覚のための制御機構とアーキテクチャ拡張を用いた学習最適化による画像伝搬

Learning Optimization-inspire d Image Propagation with Control Mechanisms and Architecture Augmentations for Low-level Vision ( http://arxiv.org/abs/2012.05435v1 )

ライセンス: Link先を確認
Risheng Liu, Zhu Liu, Pan Mu, Zhouchen Lin, Xin Fan, Zhongxuan Luo(参考訳) 近年、最適化の観点からディープラーニングモデルを構築することは、低レベルの視覚問題を解決する上で有望な方向となっている。 既存のアプローチの主な考え方は、数値的な反復と手動で設計されたネットワークアーキテクチャを組み合わせることで、特定の種類の最適化モデルのための画像伝搬を生成することである。 しかしながら、これらのヒューリスティック学習モデルは、伝播を制御するメカニズムを欠き、アーキテクチャ工学に大きく依存することが多い。 上記の問題を緩和するために,多種多様な低レベル視覚タスクに対する生成,識別,補正(GDC)の原則を集約する,統一的な最適化にインスパイアされた深部画像伝搬フレームワークを提案する。 具体的には,まず汎用的最適化目標を用いて低レベル視覚タスクを定式化し,3つの異なる視点から基本伝播モジュールを構築する。 画像伝搬を誘導する制御機構を設計することにより、完全かつ部分的に定義された最適化定式化のGDCの収束保証を得る。 さらに,2つのアーキテクチャ拡張戦略(正規化と自動探索)を導入し,それぞれ伝播安定性とタスク/データ適応能力を高める。 異なる低レベルビジョンアプリケーションに関する広範囲な実験は、gdcの有効性と柔軟性を示している。

In recent years, building deep learning models from optimization perspectives has becoming a promising direction for solving low-level vision problems. The main idea of most existing approaches is to straightforwardly combine numerical iterations with manually designed network architectures to generate image propagations for specific kinds of optimization models. However, these heuristic learning models often lack mechanisms to control the propagation and rely on architecture engineering heavily. To mitigate the above issues, this paper proposes a unified optimization-inspire d deep image propagation framework to aggregate Generative, Discriminative and Corrective (GDC for short) principles for a variety of low-level vision tasks. Specifically, we first formulate low-level vision tasks using a generic optimization objective and construct our fundamental propagative modules from three different viewpoints, i.e., the solution could be obtained/learned 1) in generative manner; 2) based on discriminative metric, and 3) with domain knowledge correction. By designing control mechanisms to guide image propagations, we then obtain convergence guarantees of GDC for both fully- and partially-defined optimization formulations. Furthermore, we introduce two architecture augmentation strategies (i.e., normalization and automatic search) to respectively enhance the propagation stability and task/data-adaption ability. Extensive experiments on different low-level vision applications demonstrate the effectiveness and flexibility of GDC.
翻訳日:2021-05-15 06:13:14 公開日:2020-12-10
# 指紋認識のための超解像誘導細孔検出

Super-resolution Guided Pore Detection for Fingerprint Recognition ( http://arxiv.org/abs/2012.05959v1 )

ライセンス: Link先を確認
Syeda Nyma Ferdous, Ali Dabouei, Jeremy Dawson, Nasser M Nasrabadi(参考訳) 指紋認識アルゴリズムの性能は、指紋から抽出した細かな特徴に依存する。 マイナスのパターンとリッジパターンは別として、細孔の特徴は指紋認識に有用であることが証明されている。 微視的特徴や隆起的特徴は低解像度画像からかなり得ることができるが, 細部を保存した従来の500ppiレガシ指紋の画質向上モデルを必要とする高解像度の指紋画像の場合のみ, 細孔的特徴を用いることができる。 低解像度指紋から細孔情報を復元するソリューションを見つけるために,超高解像度と細孔検出ネットワークを組み合わせた共同学習方式を採用する。 修正したsrgan(single image super- resolution generative adversarial network)フレームワークは,細孔検出ネットワークを補助する低解像度の指紋から高精度に高分解能の指紋サンプルを再構成し,高精度に細孔を同定する。 ネットワークは、実際の低解像度指紋サンプルから特徴的特徴表現を共同で学習し、それから高解像度サンプルをうまく合成する。 全被験者に識別情報と一意性を加えるため,srgan quality discriminatorを用いた深部指紋検査装置から抽出した特徴を統合した。 また,抽出した特徴を最大限活用するために,隆起パターンを利用した隆起再建損失も加えた。 提案手法は,指紋画像の品質向上により認識問題を解決する。 オリジナル高分解能画像を用いて得られた精度に近い合成試料の高認識精度は,提案モデルの有効性を検証した。

Performance of fingerprint recognition algorithms substantially rely on fine features extracted from fingerprints. Apart from minutiae and ridge patterns, pore features have proven to be usable for fingerprint recognition. Although features from minutiae and ridge patterns are quite attainable from low-resolution images, using pore features is practical only if the fingerprint image is of high resolution which necessitates a model that enhances the image quality of the conventional 500 ppi legacy fingerprints preserving the fine details. To find a solution for recovering pore information from low-resolution fingerprints, we adopt a joint learning-based approach that combines both super-resolution and pore detection networks. Our modified single image Super-Resolution Generative Adversarial Network (SRGAN) framework helps to reliably reconstruct high-resolution fingerprint samples from low-resolution ones assisting the pore detection network to identify pores with a high accuracy. The network jointly learns a distinctive feature representation from a real low-resolution fingerprint sample and successfully synthesizes a high-resolution sample from it. To add discriminative information and uniqueness for all the subjects, we have integrated features extracted from a deep fingerprint verifier with the SRGAN quality discriminator. We also add ridge reconstruction loss, utilizing ridge patterns to make the best use of extracted features. Our proposed method solves the recognition problem by improving the quality of fingerprint images. High recognition accuracy of the synthesized samples that is close to the accuracy achieved using the original high-resolution images validate the effectiveness of our proposed model.
翻訳日:2021-05-15 06:11:48 公開日:2020-12-10
# particle swarm optimizationからコンセンサスベース最適化へ:確率モデリングと平均場限界

From particle swarm optimization to consensus based optimization: stochastic modeling and mean-field limit ( http://arxiv.org/abs/2012.05613v1 )

ライセンス: Link先を確認
Sara Grassi, Lorenzo Pareschi(参考訳) 本稿では,大域的最適化問題の解法として人気粒子群最適化法 (PSO) の確率微分方程式に基づいて連続的な記述を考察し, フラソフ-フォッカー-プランク型方程式に基づく対応する平均場近似を大粒子制限で導出する。 局所的最良位置を保存する必要性によって引き起こされる記憶効果の欠点は、局所的最良の進化を記述する追加の微分方程式の導入によって克服される。 グローバルベストの正規化プロセスは、各平均フィールド記述を正式に導出することを許可する。 その後,小慣性限界において,最近導入されたコンセンサスベース最適化 (cbo) 法との関係を明らかにするマクロ流体力学方程式を計算した。 いくつかの数値的な例は、平均場過程、小さな慣性限界、そしてこの大域最適化法の一般的なクラスの可能性を示している。

In this paper we consider a continuous description based on stochastic differential equations of the popular particle swarm optimization (PSO) process for solving global optimization problems and derive in the large particle limit the corresponding mean-field approximation based on Vlasov-Fokker-Planck -type equations. The disadvantage of memory effects induced by the need to store the local best position is overcome by the introduction of an additional differential equation describing the evolution of the local best. A regularization process for the global best permits to formally derive the respective mean-field description. Subsequently, in the small inertia limit, we compute the related macroscopic hydrodynamic equations that clarify the link with the recently introduced consensus based optimization (CBO) methods. Several numerical examples illustrate the mean field process, the small inertia limit and the potential of this general class of global optimization methods.
翻訳日:2021-05-15 06:11:20 公開日:2020-12-10
# 銀河系ダークマターハロースへのハイブリッド分析および機械学習バリオン特性挿入

Hybrid analytic and machine-learned baryonic property insertion into galactic dark matter haloes ( http://arxiv.org/abs/2012.05820v1 )

ライセンス: Link先を確認
Ben Moews, Romeel Dav\'e, Sourav Mitra, Sultan Hassan, Weiguang Cui(参考訳) 重力効果のみに依存する宇宙論的なダークマターのみのシミュレーションは計算が容易であるが、シミュレーション銀河のバロン特性は計算コストがかかる複雑な流体力学シミュレーションを必要とする。 我々は、銀河の恒星、ガス、金属含有量の進化を記述する解析的形式論である平衡モデルの拡張バージョンを機械学習フレームワークにマージすることを検討する。 これにより、解析形式だけで得られる以上の特性を回復することができ、バリオン特性を持つN体シミュレーションにおいて銀河の暗黒物質ハローを発生させる高速な流体力学シミュレーションエミュレータを作成できる。 到達した精度とこのアプローチがもたらす速度の優位性との間にはトレードオフがあるが、我々の結果は、バリオニクス特性のサブセットに対する機械学習のみを用いたアプローチよりも優れている。 本研究では,このハイブリッドシステムにより,フル流体力学スイートの特性をある程度模倣することで,ダークマターのみの情報の迅速な補完が可能であることを実証し,ハイブリッドと機械学習のみのフレームワークの利点とデメリットについて論じる。 宇宙論において、よくデプロイされるシミュレーションの加速を提供する。

While cosmological dark matter-only simulations relying solely on gravitational effects are comparably fast to compute, baryonic properties in simulated galaxies require complex hydrodynamic simulations that are computationally costly to run. We explore the merging of an extended version of the equilibrium model, an analytic formalism describing the evolution of the stellar, gas, and metal content of galaxies, into a machine learning framework. In doing so, we are able to recover more properties than the analytic formalism alone can provide, creating a high-speed hydrodynamic simulation emulator that populates galactic dark matter haloes in N-body simulations with baryonic properties. While there exists a trade-off between the reached accuracy and the speed advantage this approach offers, our results outperform an approach using only machine learning for a subset of baryonic properties. We demonstrate that this novel hybrid system enables the fast completion of dark matter-only information by mimicking the properties of a full hydrodynamic suite to a reasonable degree, and discuss the advantages and disadvantages of hybrid versus machine learning-only frameworks. In doing so, we offer an acceleration of commonly deployed simulations in cosmology.
翻訳日:2021-05-15 06:11:05 公開日:2020-12-10
# N体シミュレーションにおける宇宙の進化の学習

Learning the Evolution of the Universe in N-body Simulations ( http://arxiv.org/abs/2012.05472v1 )

ライセンス: Link先を確認
Chang Chen, Yin Li, Francisco Villaescusa-Navarro, Shirley Ho, Anthony Pullen(参考訳) 大規模な宇宙探査の物理を小さな(非線形)スケールまで理解すれば、宇宙に関する我々の知識が大幅に向上する。 非線型状態の予測を得るために、大規模なN体シミュレーションが構築されている。 しかし、N体シミュレーションは計算コストが高く、大量のデータを生成し、ストレージに負担をかける。 これらのデータは、異なる時刻にシミュレーションされた宇宙のスナップショットであり、正確な履歴を保存するには、精密なサンプリングが必要である。 2つの広範囲なスナップショットから中間時間段階における非線形n体シミュレーションを予測するために,ディープニューラルネットワークモデルを用いた。 この結果は,N体シミュレーションにおいて,立方体ヘルミット補間ベンチマーク法より優れている。 この研究は、ストレージ要件を大幅に削減し、宇宙のスナップショットから宇宙の歴史を再構築することができる。

Understanding the physics of large cosmological surveys down to small (nonlinear) scales will significantly improve our knowledge of the Universe. Large N-body simulations have been built to obtain predictions in the non-linear regime. However, N-body simulations are computationally expensive and generate large amount of data, putting burdens on storage. These data are snapshots of the simulated Universe at different times, and fine sampling is necessary to accurately save its whole history. We employ a deep neural network model to predict the nonlinear N-body simulation at an intermediate time step given two widely separated snapshots. Our results outperform the cubic Hermite interpolation benchmark method in interpolating N-body simulations. This work can greatly reduce the storage requirement and allow us to reconstruct the cosmic history from far fewer snapshots of the universe.
翻訳日:2021-05-15 06:10:46 公開日:2020-12-10
# デジタルオキシメトリーバイオマーカーを用いた慢性閉塞性肺疾患の夜間診断のための機械学習

Machine learning for nocturnal diagnosis of chronic obstructive pulmonary disease using digital oximetry biomarkers ( http://arxiv.org/abs/2012.05492v1 )

ライセンス: Link先を確認
Jeremy Levy, Daniel Alvarez, Felix del Campo, and Joachim A. Behar(参考訳) 目的:慢性閉塞性肺疾患(COPD)は非常に多い慢性疾患である。 COPDは死亡率、死亡率、医療費の主な源である。 スピロメトリーは, COPDの診断および重症度評価のための金標準検査である。 しかし、PD患者の多くは未診断で治療を受けていない。 COPDの頻度が高いこと、その臨床的重要性を考えると、特に睡眠障害の呼吸などリスクのある特定のグループにおいて、未診断のCOPDを識別するための新しいアルゴリズムを開発することが重要である。 我々の知る限り、夜間オキシメトリー時系列による COPD 診断の可能性は研究されていない。 アプローチ: COPD患者は、この状態に特有の一晩のオキシメトリー時系列の特定のパターンおよび/またはダイナミクスを発揮できると仮定する。 本研究は,44のオキシメトリデジタルバイオマーカーと5つの人口動態を用いた夜間 COPD 診断への新しいアプローチを導入し,睡眠時無呼吸のリスクがある集団検体の性能評価を行った。 総計350名の独特な患者がpsg(polysomnography) 記録を行った。 これらの特徴を用いてランダムフォレスト(rf)分類器を訓練し、ネストクロスバリデーション法を用いて評価する。 意義:我々の研究は数多くの新しい科学的貢献をしている。 まず,睡眠障害呼吸のリスクのある個体群を対象に,夜間オキシメトリー時系列からの COPD 診断の可能性について実験を行った。 デジタルオキシメトリバイオマーカーは、PDが一晩でどのように現れるかを最もよく反映している。 その結果,一晩一チャンネルオキシメトリーは COPD 診断に有用であることが示唆された。

Objective: Chronic obstructive pulmonary disease (COPD) is a highly prevalent chronic condition. COPD is a major source of morbidity, mortality and healthcare costs. Spirometry is the gold standard test for a definitive diagnosis and severity grading of COPD. However, a large proportion of individuals with COPD are undiagnosed and untreated. Given the high prevalence of COPD and its clinical importance, it is critical to develop new algorithms to identify undiagnosed COPD, especially in specific groups at risk, such as those with sleep disorder breathing. To our knowledge, no research has looked at the feasibility of COPD diagnosis from the nocturnal oximetry time series. Approach: We hypothesize that patients with COPD will exert certain patterns and/or dynamics of their overnight oximetry time series that are unique to this condition. We introduce a novel approach to nocturnal COPD diagnosis using 44 oximetry digital biomarkers and 5 demographic features and assess its performance in a population sample at risk of sleep-disordered breathing. A total of n=350 unique patients polysomnography (PSG) recordings. A random forest (RF) classifier is trained using these features and evaluated using the nested cross-validation procedure. Significance: Our research makes a number of novel scientific contributions. First, we demonstrated for the first time, the feasibility of COPD diagnosis from nocturnal oximetry time series in a population sample at risk of sleep disordered breathing. We highlighted what digital oximetry biomarkers best reflect how COPD manifests overnight. The results motivate that overnight single channel oximetry is a valuable pathway for COPD diagnosis.
翻訳日:2021-05-15 06:10:34 公開日:2020-12-10
# SE-ECGNet:ECG信号分類のためのSqueeze-and-Excitati onモジュール付きマルチスケールディープ残留ネットワーク

SE-ECGNet: A Multi-scale Deep Residual Network with Squeeze-and-Excitati on Module for ECG Signal Classification ( http://arxiv.org/abs/2012.05510v1 )

ライセンス: Link先を確認
Haozhen Zhang, Wei Zhao, Shuang Liu(参考訳) 心電図(ECG)信号の分類は、多くの時間がかかり、高い誤診率に悩まされるが、心臓科医にとって非常に難しい課題である。 ECG信号の分類の難しさは、長期のシーケンス依存によって引き起こされる。 ECG信号分類の既存のアプローチでは、LSTMやGRUといった、長いシーケンスの正確な特徴を抽出できないリカレントニューラルネットワークモデルが使われている。 その他のアプローチでは、ResNetなどの1次元畳み込みニューラルネットワーク(CNN)を利用し、ECG信号からのマルチリード情報をうまく利用できないため、上記の観測に基づいて、ECG信号分類タスクのためのマルチスケールディープ残差ネットワークを開発する。 我々は,マルチリード信号を2次元行列として扱うことを提案し,マルチスケールの2次元畳み込みブロックと1次元畳み込みブロックを組み合わせて特徴抽出を行う。 提案モデルは,MIT-BIHデータセットの99.2%F1スコア,Alibabaデータセットの89.4%F1スコアを達成し,最先端のパフォーマンスを2%と3%で上回り,関連するコードとデータをhttps://github.com/A madeuszhao/SE-ECGNet で閲覧する。

The classification of electrocardiogram (ECG) signals, which takes much time and suffers from a high rate of misjudgment, is recognized as an extremely challenging task for cardiologists. The major difficulty of the ECG signals classification is caused by the long-term sequence dependencies. Most existing approaches for ECG signal classification use Recurrent Neural Network models, e.g., LSTM and GRU, which are unable to extract accurate features for such long sequences. Other approaches utilize 1-Dimensional Convolutional Neural Network (CNN), such as ResNet or its variant, and they can not make good use of the multi-lead information from ECG signals.Based on the above observations, we develop a multi-scale deep residual network for the ECG signal classification task. We are the first to propose to treat the multi-lead signal as a 2-dimensional matrix and combines multi-scale 2-D convolution blocks with 1-D convolution blocks for feature extraction. Our proposed model achieves 99.2% F1-score in the MIT-BIH dataset and 89.4% F1-score in Alibaba dataset and outperforms the state-of-the-art performance by 2% and 3%, respectively, view related code and data at https://github.com/A madeuszhao/SE-ECGNet
翻訳日:2021-05-15 06:10:11 公開日:2020-12-10
# 深部畳み込みニューラルネットワークを用いた弱監視不整脈検出

Weakly Supervised Arrhythmia Detection Based on Deep Convolutional Neural Network ( http://arxiv.org/abs/2012.05641v1 )

ライセンス: Link先を確認
Yang Liu, Kuanquan Wang, Qince Li, Runnan He, Yongfeng Yuan, and Henggui Zhang(参考訳) 改良されたディープラーニングは、大規模なデータセットの十分なアノテーションから大きく恩恵を受ける自動ECG分類の研究で広く利用されている。 しかし、既存の大きなECGデータセットは概ねアノテートされているため、それらに基づいて訓練された分類モデルは、レコード全体の異常を検出できるだけでなく、正確な発生時刻を決定できない。 さらに、細かな注釈付きECGデータセットを構築するには膨大な時間と経済的コストがかかる可能性がある。 そこで本研究では,異常心電図と発生時刻を検出するための弱教師付き深層学習モデルを提案する。 モデルの利用可能な監督情報は、各イベントの特定の発生時間を除いて、ecgレコード内のイベントタイプに制限される。 深層畳み込みニューラルネットワークの特徴的局所性を利用することで、まずモデルが局所的特徴に基づく予測を行い、次に局所的予測を集約してレコード全体における各事象の存在を推測する。 トレーニングを通じて、局所的な予測は、各イベントの特定の発生時刻を反映することが期待される。 AFDBデータセットとMITDBデータセットを用いて心臓のリズム不整脈と形態的不整脈を検出するモデルを適用した。 その結果、このモデルは心房細動の検出において99.09%、完全な教師付き学習モデルに匹敵する形態的不整脈の検出において99.13%のビートレベルアキュラシーを達成し、その効果を示した。 この手法によって明らかになった局所予測マップは、記録レベルの分類モデルの決定論理の解析と診断にも有用である。

Supervised deep learning has been widely used in the studies of automatic ECG classification, which largely benefits from sufficient annotation of large datasets. However, most of the existing large ECG datasets are roughly annotated, so the classification model trained on them can only detect the existence of abnormalities in a whole recording, but cannot determine their exact occurrence time. In addition, it may take huge time and economic cost to construct a fine-annotated ECG dataset. Therefore, this study proposes weakly supervised deep learning models for detecting abnormal ECG events and their occurrence time. The available supervision information for the models is limited to the event types in an ECG record, excluding the specific occurring time of each event. By leverage of feature locality of deep convolution neural network, the models first make predictions based on the local features, and then aggregate the local predictions to infer the existence of each event during the whole record. Through training, the local predictions are expected to reflect the specific occurring time of each event. To test their potentials, we apply the models for detecting cardiac rhythmic and morphological arrhythmias by using the AFDB and MITDB datasets, respectively. The results show that the models achieve beat-level accuracies of 99.09% in detecting atrial fibrillation, and 99.13% in detecting morphological arrhythmias, which are comparable to that of fully supervised learning models, demonstrating their effectiveness. The local prediction maps revealed by this method are also helpful to analyze and diagnose the decision logic of record-level classification models.
翻訳日:2021-05-15 06:09:31 公開日:2020-12-10
# 夜間スリープ脳波を用いた運転シミュレーション環境下での自動マイクロスリープ検出

Automatic Micro-sleep Detection under Car-driving Simulation Environment using Night-sleep EEG ( http://arxiv.org/abs/2012.05705v1 )

ライセンス: Link先を確認
Young-Seok Kweon, Gi-Hwan Shin, Heon-Gyu Kwak, Minji Lee(参考訳) マイクロスリープ(micro-sleep)は、1秒から30秒続く短い睡眠である。 運転中の検出は、多くの人の命を請求する事故を防ぐために不可欠です。 脳電図(EEG)は、脳波が意識と睡眠と関連していたため、微小睡眠を検出するのに適している。 ディープラーニングは脳の状態を認識する上で優れた性能を示したが、十分なデータが必要である。 しかし、運転中のマイクロスリープデータの収集は非効率であり、騒音によるデータ品質低下のリスクが高い。 自宅での睡眠データは、運転中のマイクロ睡眠データよりも収集が容易である。 そこで我々は,睡眠時脳波を用いた深層学習手法を提案し,睡眠時脳波の検出性能を向上した。 夜間脳波を用いて5クラス睡眠ステージを分類するためにU-Netを事前訓練し,U-Netが推定した睡眠ステージを用いて運転中のマイクロ睡眠を検出する。 このマイクロスリープ検出性能は従来の手法と比較して約30%向上した。 提案手法は,マイクロスリープが非ラピッドアイムーブメント(NREM)睡眠の初期に対応するという仮説に基づいていた。 睡眠時と睡眠時における脳波分布はNREM睡眠時と同様の分布を示した。 以上の結果から, NREM睡眠早期とマイクロスリープの類似性が示唆され, 運転時のマイクロスリープ防止に有効であった。

A micro-sleep is a short sleep that lasts from 1 to 30 secs. Its detection during driving is crucial to prevent accidents that could claim a lot of people's lives. Electroencephalogram (EEG) is suitable to detect micro-sleep because EEG was associated with consciousness and sleep. Deep learning showed great performance in recognizing brain states, but sufficient data should be needed. However, collecting micro-sleep data during driving is inefficient and has a high risk of obtaining poor data quality due to noisy driving situations. Night-sleep data at home is easier to collect than micro-sleep data during driving. Therefore, we proposed a deep learning approach using night-sleep EEG to improve the performance of micro-sleep detection. We pre-trained the U-Net to classify the 5-class sleep stages using night-sleep EEG and used the sleep stages estimated by the U-Net to detect micro-sleep during driving. This improved micro-sleep detection performance by about 30\% compared to the traditional approach. Our approach was based on the hypothesis that micro-sleep corresponds to the early stage of non-rapid eye movement (NREM) sleep. We analyzed EEG distribution during night-sleep and micro-sleep and found that micro-sleep has a similar distribution to NREM sleep. Our results provide the possibility of similarity between micro-sleep and the early stage of NREM sleep and help prevent micro-sleep during driving.
翻訳日:2021-05-15 06:09:04 公開日:2020-12-10
# 患者のノーショー行動予測による医療アクセス管理の改善

Improving healthcare access management by predicting patient no-show behaviour ( http://arxiv.org/abs/2012.05724v1 )

ライセンス: Link先を確認
David Barrera Ferro, Sally Brailsford, Cristi\'an Bravo, Honora Smith(参考訳) 医療アポイントメントの出席率の低さは、サービス提供者の健康状態や効率上の問題と関連している。 この問題に対処するため、ヘルスケアマネージャは、出席率の向上や、リソース割り当てポリシーの適用によるノーショーの運用効果の最小化を目標とすることができる。 しかし, 患者行動の不確実性を考えると, ノンショー確率に関する関連情報の生成は, 両者の意思決定プロセスを支援する可能性がある。 この文脈では、多くの研究者が複数の回帰モデルを使用して患者とアポイントメントの特徴を識別している。 本研究は,コロンビア・ボゴット・アの未保存地域を対象とした予防ケアプログラムにおいて,参加を促す戦略の実施を支援するための意思決定支援システム(DSS)を開発する。 私たちの文学への貢献は3倍です。 まず,回帰モデルの精度を向上させるために,異なる機械学習手法の有効性を評価する。 特にランダムフォレストとニューラルネットワークは、非線形性と可変相互作用の問題をモデル化するために使用される。 次に,ニューラルネットの予測の解法を改良し,モデリングステップから洞察を得るために,層間相関伝播の新たな利用を提案する。 第3に,発展途上国における無表示確率を説明する変数を特定し,その政策的意義と医療アクセス改善の可能性について検討する。 過去の研究で報告された関係の定量化に加えて、所得と近隣犯罪統計が無表示確率に影響を与えることが判明した。 パイロット行動介入における患者優先化を支援するとともに,予定決定を通知する。

Low attendance levels in medical appointments have been associated with poor health outcomes and efficiency problems for service providers. To address this problem, healthcare managers could aim at improving attendance levels or minimizing the operational impact of no-shows by adapting resource allocation policies. However, given the uncertainty of patient behaviour, generating relevant information regarding no-show probabilities could support the decision-making process for both approaches. In this context many researchers have used multiple regression models to identify patient and appointment characteristics than can be used as good predictors for no-show probabilities. This work develops a Decision Support System (DSS) to support the implementation of strategies to encourage attendance, for a preventive care program targeted at underserved communities in Bogot\'a, Colombia. Our contribution to literature is threefold. Firstly, we assess the effectiveness of different machine learning approaches to improve the accuracy of regression models. In particular, Random Forest and Neural Networks are used to model the problem accounting for non-linearity and variable interactions. Secondly, we propose a novel use of Layer-wise Relevance Propagation in order to improve the explainability of neural network predictions and obtain insights from the modelling step. Thirdly, we identify variables explaining no-show probabilities in a developing context and study its policy implications and potential for improving healthcare access. In addition to quantifying relationships reported in previous studies, we find that income and neighbourhood crime statistics affect no-show probabilities. Our results will support patient prioritization in a pilot behavioural intervention and will inform appointment planning decisions.
翻訳日:2021-05-15 06:08:42 公開日:2020-12-10
# 自律室内ナビゲーションのためのライダーセグメンテーションの自己教師付き学習

Self-Supervised Learning of Lidar Segmentation for Autonomous Indoor Navigation ( http://arxiv.org/abs/2012.05897v1 )

ライセンス: Link先を確認
Hugues Thomas, Ben Agro, Mona Gridseth, Jian Zhang and Timothy D. Barfoot(参考訳) ライダーフレームのセマンティックセグメンテーションのための自己教師型学習手法を提案する。 本手法は,人間のアノテーションを使わずに,ディープポイントクラウドセグメンテーションアーキテクチャをトレーニングするために用いられる。 アノテーションプロセスは、同時ローカライゼーションとマッピング(SLAM)とレイトレーシングアルゴリズムを組み合わせて自動化される。 同じ環境で複数のナビゲーションセッションを行うことで,壁などの永続的な構造を識別し,人やテーブルなどの短期的・長期的な移動物体を分離することができる。 新しいセッションは、これらの意味ラベルを予測するためにトレーニングされたネットワークを使って実行することができる。 私たちは、あるセッションから次のセッションまで、時間とともに自分自身を改善するアプローチの能力を示しています。 意味的にフィルタリングされたポイントクラウドによって、ロボットはより複雑なシナリオをナビゲートし、トレーニングプールに追加すると、ネットワーク予測を改善するのに役立つ。 ネットワーク予測に対する洞察を提供し、我々のアプローチが共通のローカライズ手法の性能を向上させることを示す。

We present a self-supervised learning approach for the semantic segmentation of lidar frames. Our method is used to train a deep point cloud segmentation architecture without any human annotation. The annotation process is automated with the combination of simultaneous localization and mapping (SLAM) and ray-tracing algorithms. By performing multiple navigation sessions in the same environment, we are able to identify permanent structures, such as walls, and disentangle short-term and long-term movable objects, such as people and tables, respectively. New sessions can then be performed using a network trained to predict these semantic labels. We demonstrate the ability of our approach to improve itself over time, from one session to the next. With semantically filtered point clouds, our robot can navigate through more complex scenarios, which, when added to the training pool, help to improve our network predictions. We provide insights into our network predictions and show that our approach can also improve the performances of common localization techniques.
翻訳日:2021-05-15 06:08:11 公開日:2020-12-10
# マルチマルジナル最適輸送問題に対する硬度結果

Hardness results for Multimarginal Optimal Transport problems ( http://arxiv.org/abs/2012.05398v1 )

ライセンス: Link先を確認
Jason M. Altschuler and Enric Boix-Adsera(参考訳) マルチマルジナル最適輸送(MOT)は、固定辺を持つ結合確率分布に対する線形プログラミングの問題である。 多くのアプリケーションにおいて鍵となる問題はmotの解決の複雑さである: 線形プログラムは、辺数 k とそのサポートサイズ n の指数関数的な大きさを持つ。最近の作業で、mot はpoly(n,k)-time であり、poly(n,k)-size implicit representations を持つ特定のコストファミリーに対して可解であることが示されている。 しかし、この一連のアルゴリズム研究がどのようなコストがかかるのかは明らかではない。 これらの基本的制約を理解するために,本論文はMOTの難読化結果の研究を開始する。 我々の主な技術的貢献は、MOT問題に対するNP硬さと不適応性を示すツールキットの開発である。 本手法は,過去のアルゴリズム的試みに抵抗した文献で研究されているmot問題の難解性を確立するために,このツールキットを用いて実証する。 例えば、抑止コストがMOTを誘引しやすくする証拠として、そのような関心事のいくつかがNP困難であることを示す。

Multimarginal Optimal Transport (MOT) is the problem of linear programming over joint probability distributions with fixed marginals. A key issue in many applications is the complexity of solving MOT: the linear program has exponential size in the number of marginals k and their support sizes n. A recent line of work has shown that MOT is poly(n,k)-time solvable for certain families of costs that have poly(n,k)-size implicit representations. However, it is unclear what further families of costs this line of algorithmic research can encompass. In order to understand these fundamental limitations, this paper initiates the study of intractability results for MOT. Our main technical contribution is developing a toolkit for proving NP-hardness and inapproximability results for MOT problems. We demonstrate this toolkit by using it to establish the intractability of a number of MOT problems studied in the literature that have resisted previous algorithmic efforts. For instance, we provide evidence that repulsive costs make MOT intractable by showing that several such problems of interest are NP-hard to solve--even approximately.
翻訳日:2021-05-15 06:07:35 公開日:2020-12-10
# 人力・連系・自動車両の混在交通に対するデータ駆動断面積管理ソリューション

Data-Driven Intersection Management Solutions for Mixed Traffic of Human-Driven and Connected and Automated Vehicles ( http://arxiv.org/abs/2012.05402v1 )

ライセンス: Link先を確認
Masoud Bashiri(参考訳) この論文は、コネクテッドカーとオートマチックカーの存在下での都市交通制御のための2つの解決策を提案する。 まず, 1つの交差点で高速かつスムーズな交通流を生成するために, 小隊システムとV2I通信を利用する協調的交差点管理問題に対して, 集中型小隊制御器を提案する。 第二に,コネクテッドカーの存在下での適応信号制御のためのデータ駆動手法を提案する。 提案方式は、最適信号タイミングのデータ駆動手法と、ルーティング決定を推定するためのデータ駆動ヒューリスティック手法に依存する。 追加のセンサーを交点に設置する必要はなく、現在の適応型信号制御装置の典型的な設定と比べて設置コストを削減できる。 提案するトラヒックコントローラは、最適な信号タイミングモジュールとトラヒック状態推定器を含む。 信号タイミングモジュールは、微視的シミュレーションデータに基づいて訓練されたニューラルネットワークモデルであり、車両遅延や平均待ち時間のような所定の性能指標に従って最適な結果を得る。 交通状態推定器は、接続された車両の情報に基づいて、交通の経路決定を推定する。 推定誤差を最小化するヒューリスティックな手法を提案する。 パラメータチューニングが十分であれば,コネクテッドカーの市場浸透率(mpr)が増加するにつれて,推定誤差が減少する。 推定誤差は10%のMPRで30%以下であり、MPRが30%以上大きくなると20%以下に低下する。 シミュレーションにより,提案手法は高速道路容量マニュアルの手法を上回り,適切なオフラインパラメータチューニングを行うことで,車両平均遅延を最大25%低減できることを示した。

This dissertation proposes two solutions for urban traffic control in the presence of connected and automated vehicles. First a centralized platoon-based controller is proposed for the cooperative intersection management problem that takes advantage of the platooning systems and V2I communication to generate fast and smooth traffic flow at a single intersection. Second, a data-driven approach is proposed for adaptive signal control in the presence of connected vehicles. The proposed system relies on a data-driven method for optimal signal timing and a data-driven heuristic method for estimating routing decisions. It requires no additional sensors to be installed at the intersection, reducing the installation costs compared to typical settings of state-of-the-practic e adaptive signal controllers. The proposed traffic controller contains an optimal signal timing module and a traffic state estimator. The signal timing module is a neural network model trained on microscopic simulation data to achieve optimal results according to a given performance metric such as vehicular delay or average queue length. The traffic state estimator relies on connected vehicles' information to estimate the traffic's routing decisions. A heuristic method is proposed to minimize the estimation error. With sufficient parameter tuning, the estimation error decreases as the market penetration rate (MPR) of connected vehicles grows. Estimation error is below 30% for an MPR of 10% and it shrinks below 20% when MPR grows larger than 30%. Simulations showed that the proposed traffic controller outperforms Highway Capacity Manual's methodology and given proper offline parameter tuning, it can decrease average vehicular delay by up to 25%.
翻訳日:2021-05-15 06:07:14 公開日:2020-12-10
# TNNベースのニューロモルフィックプロセッサ実装のためのカスタム7nmCMOS標準セルライブラリ

A Custom 7nm CMOS Standard Cell Library for Implementing TNN-based Neuromorphic Processors ( http://arxiv.org/abs/2012.05419v1 )

ライセンス: Link先を確認
Harideep Nair, Prabhu Vellaisamy, Santha Bhasuthkar, and John Paul Shen(参考訳) 極端エネルギー効率で脳のような感覚処理を模倣できるテンポラルニューラルネットワーク(TNN)を実装するための7nm CMOSセルライブラリのために、高度に最適化されたカスタムマクロ拡張セットを開発した。 MNISTのTNNプロトタイプ(13,750ニューロンと315,000シナプス)は1.56mm2ダイ面積しか必要とせず、1.69mWしか消費しない。

A set of highly-optimized custom macro extensions is developed for a 7nm CMOS cell library for implementing Temporal Neural Networks (TNNs) that can mimic brain-like sensory processing with extreme energy efficiency. A TNN prototype (13,750 neurons and 315,000 synapses) for MNIST requires only 1.56mm2 die area and consumes only 1.69mW.
翻訳日:2021-05-15 06:06:47 公開日:2020-12-10
# 複数音源の2次元定位学習

Learning Multiple Sound Source 2D Localization ( http://arxiv.org/abs/2012.05515v1 )

ライセンス: Link先を確認
Guillaume Le Moing, Phongtharin Vinayavekhin, Tadanobu Inoue, Jayakorn Vongkulbhisal, Asim Munawar, Ryuki Tachibana, Don Joven Agravante(参考訳) 本稿では,複数音源定位のための深層学習に基づく新しいアルゴリズムを提案する。 具体的には、複数のマイクロホンアレイを用いて、囲んだ環境で複数の音源の2次元カルト座標を求める。 この目的のために,符号化復号化アーキテクチャを用いて2つの改良点を提案する。 さらに,精度を向上させる2つの新しい局在表現を提案する。 最後に、解像度に基づく複数ソースアソシエーションに基づいて、異なるローカライズアプローチの評価と比較を可能にする新しいメトリクスを開発した。 本手法を合成データと実データの両方でテストした。 その結果,本手法は従来のベースラインアプローチにより改善することが判明した。

In this paper, we propose novel deep learning based algorithms for multiple sound source localization. Specifically, we aim to find the 2D Cartesian coordinates of multiple sound sources in an enclosed environment by using multiple microphone arrays. To this end, we use an encoding-decoding architecture and propose two improvements on it to accomplish the task. In addition, we also propose two novel localization representations which increase the accuracy. Lastly, new metrics are developed relying on resolution-based multiple source association which enables us to evaluate and compare different localization approaches. We tested our method on both synthetic and real world data. The results show that our method improves upon the previous baseline approach for this problem.
翻訳日:2021-05-15 06:06:01 公開日:2020-12-10
# カテゴリー認識:深層学習のための基礎研究

Categorical Perception: A Groundwork for Deep Learning ( http://arxiv.org/abs/2012.05549v1 )

ライセンス: Link先を確認
Laurent Bonnasse-Gahot and Jean-Pierre Nadal(参考訳) 分類は、ディープラーニングがうまく取り組んでいる主なタスクの1つです。 分類もまた基本的な認知能力である。 カテゴリー内圧縮とカテゴリー間分離が特徴であり、入力空間に近接する2つの項目は、異なるカテゴリに属する場合と同一のカテゴリに属する場合とでは、より近く知覚される。 本稿では,認知科学の実験的および理論的結果について検討し,ニューラルネットワークのカテゴリー的効果について考察する。 我々の形式的および数値的な分析は、深い層における神経表現の幾何学に関する洞察を与え、圏境界付近の空間の拡大と圏境界から遠く離れた収縮をもたらす。 2つの相補的なアプローチを用いて分類表現を考察する: 1つは、異なるカテゴリーの刺激間の形態的連続性によって精神物理学と認知神経科学の実験を模倣し、もう1つは、集団レベルでのクラスの分離性(ニューラルネットワークの所定の層)を定量化する分類性指数を導入する。 浅層ニューラルネットワークと深層ニューラルネットワークの両方に,学習が自動的にカテゴリー知覚を誘発することを示す。 さらに、層が深くなるほど、分類学的効果が強くなることを示す。 我々の分析の重要な成果は、ドロップアウト正規化手法の異なるヒューリスティックな実践の有効性の一貫性と統一性を提供することである。 隠れた層に注入されたノイズは、カテゴリの組織に従って構造化され、クラス全体よりもカテゴリ内でより可変性が許容されます。

Classification is one of the major tasks that deep learning is successfully tackling. Categorization is also a fundamental cognitive ability. A well-known perceptual consequence of categorization in humans and other animals, called categorical perception, is characterized by a within-category compression and a between-category separation: two items, close in input space, are perceived closer if they belong to the same category than if they belong to different categories. Elaborating on experimental and theoretical results in cognitive science, here we study categorical effects in artificial neural networks. Our formal and numerical analysis provides insights into the geometry of the neural representation in deep layers, with expansion of space near category boundaries and contraction far from category boundaries. We investigate categorical representation by using two complementary approaches: one mimics experiments in psychophysics and cognitive neuroscience by means of morphed continua between stimuli of different categories, while the other introduces a categoricality index that quantifies the separability of the classes at the population level (a given layer in the neural network). We show on both shallow and deep neural networks that category learning automatically induces categorical perception. We further show that the deeper a layer, the stronger the categorical effects. An important outcome of our analysis is to provide a coherent and unifying view of the efficacy of different heuristic practices of the dropout regularization technique. Our views, which find echoes in the neuroscience literature, insist on the differential role of noise as a function of the level of representation and in the course of learning: noise injected in the hidden layers gets structured according to the organization of the categories, more variability being allowed within a category than across classes.
翻訳日:2021-05-15 06:05:39 公開日:2020-12-10
# HpGAN: 生成逆ネットワークを用いたシーケンス検索

HpGAN: Sequence Search with Generative Adversarial Networks ( http://arxiv.org/abs/2012.05645v1 )

ライセンス: Link先を確認
Mingxing Zhang, Zhengchun Zhou, Lanping Li, Zilong Liu, Meng Yang, and Yanghe Feng(参考訳) シーケンスは多くのエンジニアリングアプリケーションやシステムで重要な役割を果たす。 望ましい性質を持つ配列の探索は、長い間興味深いが困難な研究トピックであった。 本稿では, GAN (Generative Adversarial Network) を用いて, 所望の配列をアルゴリズム的に探索するHpGANを提案する。 HpGANはゼロサムゲームに基づいて生成モデルをトレーニングし、トレーニングシーケンスに類似した特徴を持つシーケンスを生成する。 HpGANでは,離散データ生成におけるGANの制限を回避するために,ホップフィールドネットワークをエンコーダとして設計する。 代数ツールによる伝統的なシーケンス構築と比較すると、HpGANは数学的な解析を防ぐ複雑な目的を持つ難解な問題に特に適している。 1) HpGANは, 相互直交相補的符号集合 (MOCCS) と最適奇長Z-補的ペア (OB-ZCPs) の2つの用途で, 訓練セットに含まれない多くの異なる相互直交相補的符号集合 (MOCCS) を発見した。 文献では、MOCSSとOB-ZCPの両方が無線通信に広く応用されている。 2) hpganはパルス圧縮レーダシステムにおけるミスマッチフィルタ(mmf)推定器の有名なレジェンド列に対して4倍の信号対干渉比を達成する新しいシーケンスを発見した。 これらの配列はalphaseqで発見された配列よりも優れている。

Sequences play an important role in many engineering applications and systems. Searching sequences with desired properties has long been an interesting but also challenging research topic. This article proposes a novel method, called HpGAN, to search desired sequences algorithmically using generative adversarial networks (GAN). HpGAN is based on the idea of zero-sum game to train a generative model, which can generate sequences with characteristics similar to the training sequences. In HpGAN, we design the Hopfield network as an encoder to avoid the limitations of GAN in generating discrete data. Compared with traditional sequence construction by algebraic tools, HpGAN is particularly suitable for intractable problems with complex objectives which prevent mathematical analysis. We demonstrate the search capabilities of HpGAN in two applications: 1) HpGAN successfully found many different mutually orthogonal complementary code sets (MOCCS) and optimal odd-length Z-complementary pairs (OB-ZCPs) which are not part of the training set. In the literature, both MOCSSs and OB-ZCPs have found wide applications in wireless communications. 2) HpGAN found new sequences which achieve four-times increase of signal-to-interferen ce ratio--benchmarked against the well-known Legendre sequence--of a mismatched filter (MMF) estimator in pulse compression radar systems. These sequences outperform those found by AlphaSeq.
翻訳日:2021-05-15 06:05:11 公開日:2020-12-10