このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210306となっている論文です。

PDF登録状況(公開日: 20210306)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) DiffPrune: 決定論的近似バイナリゲートと$L_0$正規化によるニューラルネットワークのプルーニング [全文訳有]

DiffPrune: Neural Network Pruning with Deterministic Approximate Binary Gates and $L_0$ Regularization ( http://arxiv.org/abs/2012.03653v2 )

ライセンス: CC BY 4.0
Yaniv Shulman(参考訳) 現代のニューラルネットワークアーキテクチャは通常、数百万のパラメータを持ち、パラメータが過度にパラメータ化されていることを示す効果を著しく損なうことなく、大幅に刈り取ることができる。 この作品の貢献は2つある。 1つ目は、任意の実値多変量確率変数の決定論的かつ微分可能変換によって多変量ベルヌーイ確率変数を近似する方法である。 2つ目は、決定論的あるいは確率的に計算され、正確なゼロ値を取る近似二進ゲートを持つパラメータの要素的に乗算によるモデル選択の方法である。 スパーシティは、$l_0$の損失に代理正規化を含めることによって奨励される。 本手法は,確率的勾配降下を伴う経験的リスク最小化法により,モデルアーキテクチャの簡易かつ効率的な学習を可能にし,理論的には訓練中の条件計算を可能にする。 このメソッドはパラメータやアクティベーションよりも任意のグループスパルシティをサポートするので、非構造化または柔軟な構造化モデルプルーニングのフレームワークを提供する。 提案手法の有効性を実証するために実験を行った。

Modern neural network architectures typically have many millions of parameters and can be pruned significantly without substantial loss in effectiveness which demonstrates they are over-parameterized. The contribution of this work is two-fold. The first is a method for approximating a multivariate Bernoulli random variable by means of a deterministic and differentiable transformation of any real-valued multivariate random variable. The second is a method for model selection by element-wise multiplication of parameters with approximate binary gates that may be computed deterministically or stochastically and take on exact zero values. Sparsity is encouraged by the inclusion of a surrogate regularization to the $L_0$ loss. Since the method is differentiable it enables straightforward and efficient learning of model architectures by an empirical risk minimization procedure with stochastic gradient descent and theoretically enables conditional computation during training. The method also supports any arbitrary group sparsity over parameters or activations and therefore offers a framework for unstructured or flexible structured model pruning. To conclude experiments are performed to demonstrate the effectiveness of the proposed approach.
翻訳日:2021-05-20 09:17:28 公開日:2021-03-06
# 試験データに適合したビデオデブラリング

Video Deblurring by Fitting to Test Data ( http://arxiv.org/abs/2012.05228v2 )

ライセンス: Link先を確認
Xuanchi Ren, Zian Qian, Qifeng Chen(参考訳) 自律走行車やロボットが撮影した動画では、動きがぼやけている。 本研究では,テストビデオにディープネットワークを組み込むことにより,映像の劣化に対する新しいアプローチを提案する。 私たちのキーとなる観察は、動画の中のいくつかのフレームは、他のフレームよりもはるかにシャープなので、シャープなフレーム内のテクスチャ情報をぼやけたフレームに転送できるということです。 ビデオからシャープなフレームをヒューリスティックに選択し、これらのシャープなフレームに畳み込みニューラルネットワークを訓練する。 トレーニングされたネットワークは、シーン内の十分な詳細を吸収し、すべてのビデオフレームで遅延処理を行う。 内部学習手法として,本手法はトレーニングデータとテストデータの間にドメインギャップがなく,既存のビデオデブロアリング手法では問題となる。 実世界のビデオデータを用いた実験では,最先端のビデオデブラリング手法よりもクリアでシャープな映像を再現できることを示した。 コードとデータはhttps://github.com/x renaa/deblur-by-fitt ingで入手できる。

Motion blur in videos captured by autonomous vehicles and robots can degrade their perception capability. In this work, we present a novel approach to video deblurring by fitting a deep network to the test video. Our key observation is that some frames in a video with motion blur are much sharper than others, and thus we can transfer the texture information in those sharp frames to blurry frames. Our approach heuristically selects sharp frames from a video and then trains a convolutional neural network on these sharp frames. The trained network often absorbs enough details in the scene to perform deblurring on all the video frames. As an internal learning method, our approach has no domain gap between training and test data, which is a problematic issue for existing video deblurring approaches. The conducted experiments on real-world video data show that our model can reconstruct clearer and sharper videos than state-of-the-art video deblurring approaches. Code and data are available at https://github.com/x renaa/Deblur-by-Fitt ing.
翻訳日:2021-05-16 02:00:11 公開日:2021-03-06
# 交通流予測のための時空間融合グラフニューラルネットワーク

Spatial-Temporal Fusion Graph Neural Networks for Traffic Flow Forecasting ( http://arxiv.org/abs/2012.09641v2 )

ライセンス: Link先を確認
Mengzhang Li, Zhanxing Zhu(参考訳) 交通流の時空間データ予測は複雑な空間的依存関係と異なる道路間の時間的パターンの動的傾向のために難しい課題である。 既存のフレームワークは通常、与えられた空間隣接グラフと、空間的および時間的相関をモデル化するための洗練されたメカニズムを利用する。 しかし、不完全な隣接接続を持つ空間グラフ構造の限られた表現は、これらのモデルの効果的な時空間依存学習を制限する可能性がある。 これらの制約を克服するため,交通流予測のための空間時間融合グラフニューラルネットワーク(STFGNN)を提案する。 SFTGNNは、データ駆動方式により生成される様々な空間グラフと時間グラフの融合操作により、隠れた時空間依存を効果的に学習することができる。 一方、この融合グラフモジュールと新しいゲート畳み込みモジュールを統一層に統合することで、SFTGNNは長いシーケンスを処理できる。 複数の公共交通機関を対象とした実験結果から,本手法が他のベースラインよりも常に最先端の性能を実現することを示す。

Spatial-temporal data forecasting of traffic flow is a challenging task because of complicated spatial dependencies and dynamical trends of temporal pattern between different roads. Existing frameworks typically utilize given spatial adjacency graph and sophisticated mechanisms for modeling spatial and temporal correlations. However, limited representations of given spatial graph structure with incomplete adjacent connections may restrict effective spatial-temporal dependencies learning of those models. To overcome those limitations, our paper proposes Spatial-Temporal Fusion Graph Neural Networks (STFGNN) for traffic flow forecasting. SFTGNN could effectively learn hidden spatial-temporal dependencies by a novel fusion operation of various spatial and temporal graphs, which is generated by a data-driven method. Meanwhile, by integrating this fusion graph module and a novel gated convolution module into a unified layer, SFTGNN could handle long sequences. Experimental results on several public traffic datasets demonstrate that our method achieves state-of-the-art performance consistently than other baselines.
翻訳日:2021-05-07 05:35:42 公開日:2021-03-06
# 協調型マルチロボット知覚のための同時視点と特徴選択

Simultaneous View and Feature Selection for Collaborative Multi-Robot Perception ( http://arxiv.org/abs/2012.09328v2 )

ライセンス: Link先を確認
Brian Reily, Hao Zhang(参考訳) 協調型マルチロボット認識は環境の複数のビューを提供し、個々のロボットが視界の弱いときや障害物によって閉塞が引き起こされたときでも、環境を協調的に理解するための様々な視点を提供する。 これらの複数の観測は、正確に認識するためにインテリジェントに融合されなければならず、不要なロボットが他の目標を観測し続けるために、関連する観測を選択する必要がある。 この研究問題は文献ではまだよく研究されていない。 本稿では、ビュー選択、特徴選択、オブジェクト認識を同時に統一された正規化された最適化形式に統合する、協調的マルチロボット認識のための新しいアプローチを提案する。 導入される非スムースノルムによる最適化定式化は解決が困難であるため,最適解に収束することが保証される新しい反復最適化アルゴリズムを実装した。 シミュレーションにおけるケーススタディと物理的マルチロボットシステムによるアプローチの評価を行った。 実験の結果, 正確な物体認識と効果的な視点と特徴選択により, 効果的な協調的知覚が可能となった。

Collaborative multi-robot perception provides multiple views of an environment, offering varying perspectives to collaboratively understand the environment even when individual robots have poor points of view or when occlusions are caused by obstacles. These multiple observations must be intelligently fused for accurate recognition, and relevant observations need to be selected in order to allow unnecessary robots to continue on to observe other targets. This research problem has not been well studied in the literature yet. In this paper, we propose a novel approach to collaborative multi-robot perception that simultaneously integrates view selection, feature selection, and object recognition into a unified regularized optimization formulation, which uses sparsity-inducing norms to identify the robots with the most representative views and the modalities with the most discriminative features. As our optimization formulation is hard to solve due to the introduced non-smooth norms, we implement a new iterative optimization algorithm, which is guaranteed to converge to the optimal solution. We evaluate our approach through a case-study in simulation and on a physical multi-robot system. Experimental results demonstrate that our approach enables effective collaborative perception through accurate object recognition and effective view and feature selection.
翻訳日:2021-05-02 07:18:27 公開日:2021-03-06
# (参考訳) イベントログにおける自然言語からの意味過程情報抽出 [全文訳有]

Extracting Semantic Process Information from the Natural Language in Event Logs ( http://arxiv.org/abs/2103.11761v1 )

ライセンス: CC BY 4.0
Adrian Rebmann and Han van der Aa(参考訳) プロセスマイニングは、ビジネスプロセスの真の実行に関する洞察を得るために、記録されたイベントデータの分析に焦点を当てます。 基本的なプロセスマイニング技術は、そのようなデータを抽象イベントのシーケンスとして扱うが、より高度な技術は、組織マイニングのリソースやアーティファクト中心の分析におけるビジネスオブジェクトといった、特定の種類の情報を利用できることに依存する。 しかし、この情報は一般には入手できないが、むしろアドホックな方法での出来事と関連付けられており、しばしば非構造化のテキスト属性の一部としてさえある。 イベントログのサイズと複雑さを考えると、このようなプロセス情報を抽出する自動サポートが求められ、それによって高度なプロセスマイニング技術が実現される。 本稿では,イベントデータのセマンティックロールラベリングによってこれを実現する手法を提案する。 本研究では,最先端言語モデルに基づくテキスト属性値の解析と,新しい属性分類手法を組み合わせる。 この方法では,イベント毎に最大8つの意味的役割に関する情報を抽出する。 幅広いイベントログを用いて定量的評価を行い,提案手法の有効性を示すとともに,抽出した情報の有効性を示す。

Process mining focuses on the analysis of recorded event data in order to gain insights about the true execution of business processes. While foundational process mining techniques treat such data as sequences of abstract events, more advanced techniques depend on the availability of specific kinds of information, such as resources in organizational mining and business objects in artifact-centric analysis. However, this information is generally not readily available, but rather associated with events in an ad hoc manner, often even as part of unstructured textual attributes. Given the size and complexity of event logs, this calls for automated support to extract such process information and, thereby, enable advanced process mining techniques. In this paper, we present an approach that achieves this through so-called semantic role labeling of event data. We combine the analysis of textual attribute values, based on a state-of-the-art language model, with a novel attribute classification technique. In this manner, our approach extracts information about up to eight semantic roles per event. We demonstrate the approach's efficacy through a quantitative evaluation using a broad range of event logs and demonstrate the usefulness of the extracted information in a case study.
翻訳日:2021-04-05 06:13:12 公開日:2021-03-06
# (参考訳) JPS-daprinfo:日本語対話行為分析と人物関連情報検出のためのデータセット [全文訳有]

JPS-daprinfo: A Dataset for Japanese Dialog Act Analysis and People-related Information Detection ( http://arxiv.org/abs/2103.11786v1 )

ライセンス: CC BY-SA 4.0
Changzeng Fu(参考訳) テキスト分類のための音声日本語データセット (i-jas) のラベリング作業を行い, 参加者の過去と未来を議論する双方向日本語会話の50のインタビュー対話を含む。 各会話の長さは30分である。 このデータセットから,日本語母語話者のインタビュー対話をサンプルとして選択した。 データセットから,13ラベルの注釈文を作成した。 ラベル付け作業は,データアノテーションの経験のある日本語話者によって行われた。 注釈付きサンプルの総量は20130。

We conducted a labeling work on a spoken Japanese dataset (I-JAS) for the text classification, which contains 50 interview dialogues of two-way Japanese conversation that discuss the participants' past present and future. Each dialogue is 30 minutes long. From this dataset, we selected the interview dialogues of native Japanese speakers as the samples. Given the dataset, we annotated sentences with 13 labels. The labeling work was conducted by native Japanese speakers who have experiences with data annotation. The total amount of the annotated samples is 20130.
翻訳日:2021-04-05 05:57:32 公開日:2021-03-06
# (参考訳) 1型糖尿病管理におけるlstmsと深層残留ネットワークによる炭水化物およびbolusレコメンデーション [全文訳有]

LSTMs and Deep Residual Networks for Carbohydrate and Bolus Recommendations in Type 1 Diabetes Management ( http://arxiv.org/abs/2103.06708v1 )

ライセンス: CC BY 4.0
Jeremy Beauchamp, Razvan Bunescu, Cindy Marling, Zhongen Li, and Chang Liu(参考訳) 深刻な糖尿病の合併症を避けるため、1型糖尿病の患者は血糖値(BGL)をできるだけ正常に保たなければならない。 インスリン摂取量と炭水化物消費はBGLの管理において重要である。 1960年代から、bgl、インスリン投与、炭水化物摂取、その他の生理的および生活習慣的要因の履歴に基づいて血糖値を予測するモデルが開発されている。 このような予測は、差し迫った安全でないBGLを警告したり、人工膵内のインスリンの流れを制御するために使用することができる。 これまでの研究では、LSTMによる血糖値の予測手法を導入しており、食事やインスリンの量を入力し、将来のBGLに影響を及ぼす「もし」シナリオを対象としている。 本研究は,「What-if」シナリオを逆転させ,将来望まれるBGレベルに達するためのインスリンあるいは炭水化物レコメンデーションをトレーニング可能な2つのLSTMのチェーンに基づく同様のアーキテクチャを導入する。 時系列予測のための最近の最先端モデルを活用することで、我々は同じ推奨タスクのための新しいアーキテクチャを導き出し、2つのLSTMチェーンを深層残差アーキテクチャ内の繰り返しブロックとして利用する。 OhioT1DMデータセットの実際の患者データを用いた実験的評価は、新しい統合アーキテクチャが以前のLSTMベースのアプローチと良好に比較され、ベースラインを大幅に上回っていることを示している。 有望な結果は、この新たなアプローチがBGLの自己管理のために1型糖尿病患者に実用的に有効である可能性を示唆している。

To avoid serious diabetic complications, people with type 1 diabetes must keep their blood glucose levels (BGLs) as close to normal as possible. Insulin dosages and carbohydrate consumption are important considerations in managing BGLs. Since the 1960s, models have been developed to forecast blood glucose levels based on the history of BGLs, insulin dosages, carbohydrate intake, and other physiological and lifestyle factors. Such predictions can be used to alert people of impending unsafe BGLs or to control insulin flow in an artificial pancreas. In past work, we have introduced an LSTM-based approach to blood glucose level prediction aimed at "what if" scenarios, in which people could enter foods they might eat or insulin amounts they might take and then see the effect on future BGLs. In this work, we invert the "what-if" scenario and introduce a similar architecture based on chaining two LSTMs that can be trained to make either insulin or carbohydrate recommendations aimed at reaching a desired BG level in the future. Leveraging a recent state-of-the-art model for time series forecasting, we then derive a novel architecture for the same recommendation task, in which the two LSTM chain is used as a repeating block inside a deep residual architecture. Experimental evaluations using real patient data from the OhioT1DM dataset show that the new integrated architecture compares favorably with the previous LSTM-based approach, substantially outperforming the baselines. The promising results suggest that this novel approach could potentially be of practical use to people with type 1 diabetes for self-management of BGLs.
翻訳日:2021-04-05 05:53:50 公開日:2021-03-06
# 絡み合ったq畳み込みニューラルネットワーク

Entangled q-Convolutional Neural Nets ( http://arxiv.org/abs/2103.11785v1 )

ライセンス: Link先を確認
Vassilis Anagiannis and Miranda C. N. Cheng(参考訳) 本稿では,畳み込みニューラルネットワークと重要な特徴を共有し,テンソルネットワーク記述を認める,機械学習モデルであるq-cnnモデルを提案する。 例として、MNISTおよびFashion MNIST分類タスクにq-CNNを適用する。 ネットワークが量子状態を分類ラベルとどのように関連づけるかを説明し、これらのネットワーク状態の絡み合い構造を研究する。 MNISTデータセットとFashion-MNISTデータセットの両方の実験では、ネットワークがデータの微細な特徴を学習するにつれて、トレーニング中の左右両分断エントロピーの増大が観察される。 より一般的には、絡み合いエントロピーの値とコスト関数の値との普遍的な負の相関を観測し、ネットワークが正確にタスクを実行するために絡み合い構造を学習する必要があることを示唆する。 これにより、与えられたタスクに適した機械学習アルゴリズムを設計するためのガイドとして、絡み合い構造を利用することができる。

We introduce a machine learning model, the q-CNN model, sharing key features with convolutional neural networks and admitting a tensor network description. As examples, we apply q-CNN to the MNIST and Fashion MNIST classification tasks. We explain how the network associates a quantum state to each classification label, and study the entanglement structure of these network states. In both our experiments on the MNIST and Fashion-MNIST datasets, we observe a distinct increase in both the left/right as well as the up/down bipartition entanglement entropy during training as the network learns the fine features of the data. More generally, we observe a universal negative correlation between the value of the entanglement entropy and the value of the cost function, suggesting that the network needs to learn the entanglement structure in order the perform the task accurately. This supports the possibility of exploiting the entanglement structure as a guide to design the machine learning algorithm suitable for given tasks.
翻訳日:2021-04-05 00:58:30 公開日:2021-03-06
# 回帰解析によるクロスドレイン構造における水圧閉塞の予測

Prediction of Hydraulic Blockage at Cross Drainage Structures using Regression Analysis ( http://arxiv.org/abs/2103.10930v1 )

ライセンス: Link先を確認
Umair Iqbal, Johan Barthelemy, Pascal Perez and Wanqing Li(参考訳) カルバートなどのクロスドレージ構造の水圧閉塞は, 都市部洪水の引き金となる主要な要因の一つであると考えられている。 しかし,洪水時のデータ不足や土石の相互作用の非線形性から,従来の水圧遮断のモデル化は不可能である。 本稿では,水理ブロックの予測に機械学習回帰分析を用いることを提案する。 関連するデータは、スケールしたインラブスタディを実行し、異なるブロックシナリオを複製することで収集されている。 回帰分析の結果,Artificial Neural Network (ANN) は油圧遮断予測において$R^2$の0.89で最適であった。 スマートシティにおける油圧センサの展開とビッグデータの活用により,従来の実験的・水文学的アプローチでは対処が難しいブロック検出問題に対処する上で,回帰分析が有用であることが示唆された。

Hydraulic blockage of cross-drainage structures such as culverts is considered one of main contributor in triggering urban flash floods. However, due to lack of during floods data and highly non-linear nature of debris interaction, conventional modelling for hydraulic blockage is not possible. This paper proposes to use machine learning regression analysis for the prediction of hydraulic blockage. Relevant data has been collected by performing a scaled in-lab study and replicating different blockage scenarios. From the regression analysis, Artificial Neural Network (ANN) was reported best in hydraulic blockage prediction with $R^2$ of 0.89. With deployment of hydraulic sensors in smart cities, and availability of Big Data, regression analysis may prove helpful in addressing the blockage detection problem which is difficult to counter using conventional experimental and hydrological approaches.
翻訳日:2021-04-05 00:57:50 公開日:2021-03-06
# 現代のCPUにおけるSLIDEディープラーニングの高速化:ベクトル化、量子化、メモリ最適化など

Accelerating SLIDE Deep Learning on Modern CPUs: Vectorization, Quantizations, Memory Optimizations, and More ( http://arxiv.org/abs/2103.10891v1 )

ライセンス: Link先を確認
Shabnam Daghaghi, Nicholas Meisburger, Mengnan Zhao, Yong Wu, Sameh Gobriel, Charlie Tai, Anshumali Shrivastava(参考訳) cpu(中央処理ユニット)のディープラーニング実装が勢いを増している。 既存のハードウェアの再利用と仮想化の容易さにより、コモディティx86アーキテクチャ上のAI機能の強化は商業的に魅力的である。 この方向の注目すべき仕事はSLIDEシステムである。 SLIDEはスパースハッシュテーブルベースのバックプロパゲーションのC++実装であり、数億のパラメータニューラルモデルのトレーニングにおいてGPUよりもはるかに高速であることが示されている。 本稿では、SLIDEの現在の実装は準最適であり、現代のCPUで利用可能ないくつかの機会を生かしていないと論じる。 特に,SLIDE の計算によって AVX (Advanced Vector Extensions)-512 によるベクトル化が可能となることを示す。 さらに,様々なメモリ最適化や量子化の機会に注目した。 これらすべてを組み合わせることで、同じハードウェア上の計算の最大7倍のスピードアップが得られる。 我々の実験は、大規模(数百万のパラメータ)のレコメンデーションとNLPモデルに焦点を当てている。 我々の研究は、現代のcpu上でディープラーニングのためのランダム化アルゴリズムを実装するための、いくつかの新しい視点と機会を強調している。 コードとベンチマークスクリプトはhttps://github.com/r ush-lab/slideで提供します。

Deep learning implementations on CPUs (Central Processing Units) are gaining more traction. Enhanced AI capabilities on commodity x86 architectures are commercially appealing due to the reuse of existing hardware and virtualization ease. A notable work in this direction is the SLIDE system. SLIDE is a C++ implementation of a sparse hash table based back-propagation, which was shown to be significantly faster than GPUs in training hundreds of million parameter neural models. In this paper, we argue that SLIDE's current implementation is sub-optimal and does not exploit several opportunities available in modern CPUs. In particular, we show how SLIDE's computations allow for a unique possibility of vectorization via AVX (Advanced Vector Extensions)-512. Furthermore, we highlight opportunities for different kinds of memory optimization and quantizations. Combining all of them, we obtain up to 7x speedup in the computations on the same hardware. Our experiments are focused on large (hundreds of millions of parameters) recommendation and NLP models. Our work highlights several novel perspectives and opportunities for implementing randomized algorithms for deep learning on modern CPUs. We provide the code and benchmark scripts at https://github.com/R USH-LAB/SLIDE
翻訳日:2021-04-05 00:57:38 公開日:2021-03-06
# (参考訳) cnn最適化のための解析的キャラクタリゼーションと設計空間探索 [全文訳有]

Analytical Characterization and Design Space Exploration for Optimization of CNNs ( http://arxiv.org/abs/2101.09808v2 )

ライセンス: CC BY 4.0
Rui Li, Yufan Xu, Aravind Sukumaran-Rajam, Atanas Rountev, and P. Sadayappan(参考訳) メモリ階層を通じたデータの移動は、畳み込みニューラルネットワーク(CNN)のような機械学習のコアアルゴリズムのパフォーマンスを制限する基本的なボトルネックである。 ループタイルやループ置換を含むループレベルの最適化は、データ移動を減らすための基本的な変換です。 しかし、最適なループレベルの最適化構成を見つけるための検索スペースは爆発的に大きい。 本稿では,マルチコアCPU上でのCNNの最適ループレベル最適化構成を求めるための解析モデルを提案する。 実験により,本手法は最新のライブラリや自動チューニングによるCNNの最適化よりも,同等あるいは優れた性能を実現することが示された。

Moving data through the memory hierarchy is a fundamental bottleneck that can limit the performance of core algorithms of machine learning, such as convolutional neural networks (CNNs). Loop-level optimization, including loop tiling and loop permutation, are fundamental transformations to reduce data movement. However, the search space for finding the best loop-level optimization configuration is explosively large. This paper develops an analytical modeling approach for finding the best loop-level optimization configuration for CNNs on multi-core CPUs. Experimental evaluation shows that this approach achieves comparable or better performance than state-of-the-art libraries and auto-tuning based optimizers for CNNs.
翻訳日:2021-03-16 11:52:53 公開日:2021-03-06
# ホップフィールドネットワークと制限ボルツマンマシンのマッピングについて

On the mapping between Hopfield networks and Restricted Boltzmann Machines ( http://arxiv.org/abs/2101.11744v2 )

ライセンス: Link先を確認
Matthew Smart, Anton Zilman(参考訳) ホップフィールド・ネットワーク(HN)と制限ボルツマン・マシン(RBM)は統計物理学、機械学習、神経科学の2つの重要なモデルである。 近年、統計力学の定式化の下での類似性から、HNsとRBMsの関係への関心が高まっている。 HNとRBMの正確なマッピングは、直交(非相関)符号化パターンの特別なケースで以前に指摘されている。 ここでは、既存のデータセットに広く適用できる相関パターンHNの正確なマッピングを紹介します。 具体的には、$N$ バイナリ変数と $p<N$ 任意のバイナリパターンを持つ HN は、$N$ バイナリ可視変数と $p$ gaussian 隠れ変数を持つ RBM に変換できることを示します。 逆写像が存在する条件を概説し、MNISTデータセット上で実験を行い、このマッピングがRBM重み付けに有用な初期化を提供することを示唆する。 本稿では,拡張性,RBMの訓練におけるこの対応の重要性,およびRBMを利用した深層建築の性能の理解について論じる。

Hopfield networks (HNs) and Restricted Boltzmann Machines (RBMs) are two important models at the interface of statistical physics, machine learning, and neuroscience. Recently, there has been interest in the relationship between HNs and RBMs, due to their similarity under the statistical mechanics formalism. An exact mapping between HNs and RBMs has been previously noted for the special case of orthogonal (uncorrelated) encoded patterns. We present here an exact mapping in the case of correlated pattern HNs, which are more broadly applicable to existing datasets. Specifically, we show that any HN with $N$ binary variables and $p<N$ arbitrary binary patterns can be transformed into an RBM with $N$ binary visible variables and $p$ gaussian hidden variables. We outline the conditions under which the reverse mapping exists, and conduct experiments on the MNIST dataset which suggest the mapping provides a useful initialization to the RBM weights. We discuss extensions, the potential importance of this correspondence for the training of RBMs, and for understanding the performance of deep architectures which utilize RBMs.
翻訳日:2021-03-13 19:31:22 公開日:2021-03-06
# (参考訳) 脳全体のアーキテクチャアプローチ:脳を参照して人工知能の発達を加速させる [全文訳有]

The whole brain architecture approach: Accelerating the development of artificial general intelligence by referring to the brain ( http://arxiv.org/abs/2103.06123v1 )

ライセンス: CC BY-SA 4.0
Hiroshi Yamakawa(参考訳) 機械学習を含む多数の計算メカニズムの組み合わせによって生み出されるデザイン空間の広さは、人工知能(agi)を作成する上での障害である。 言い換えれば、脳にインスパイアされたAGI開発は、既存の汎用知能のモデルである生物学的脳のように見えるデザイン空間を削減し、この問題を解決するための有望な計画である。 しかし、脳のアーキテクチャを理解するのに必要な神経科学的なデータが広範囲で複雑であるため、個人が脳全体に対応するソフトウェアプログラムを設計することは困難です。 全脳アーキテクチャアプローチは、脳に触発されたAGI開発プロセスを、情報の流れと対応するコンポーネントのダイアグラムである脳参照アーキテクチャ(BRA)を設計するタスクと、BRAを使用して各コンポーネントを開発するタスクに分割します。 これをBRA駆動開発と呼ぶ。 もう一つの困難は、神経科学データから脳の認知行動機能を再現するために必要な操作原理の抽出である。 そこで本研究では、神経科学的な発見と一致する仮定的コンポーネント図を作成する仮説構築手法である構造制約インタフェース分解(SCID)法を提案する。 このアプローチの応用は、脳の様々な領域を構築するために始まりました。 今後,脳に触発されたソフトウェアの生物学的妥当性を評価する方法を検討する。 この評価は、脳の同じ領域に関連する、マージされるべき異なる計算メカニズムを優先するためにも使用されます。

The vastness of the design space created by the combination of a large number of computational mechanisms, including machine learning, is an obstacle to creating an artificial general intelligence (AGI). Brain-inspired AGI development, in other words, cutting down the design space to look more like a biological brain, which is an existing model of a general intelligence, is a promising plan for solving this problem. However, it is difficult for an individual to design a software program that corresponds to the entire brain because the neuroscientific data required to understand the architecture of the brain are extensive and complicated. The whole-brain architecture approach divides the brain-inspired AGI development process into the task of designing the brain reference architecture (BRA) -- the flow of information and the diagram of corresponding components -- and the task of developing each component using the BRA. This is called BRA-driven development. Another difficulty lies in the extraction of the operating principles necessary for reproducing the cognitive-behavioral function of the brain from neuroscience data. Therefore, this study proposes the Structure-constraine d Interface Decomposition (SCID) method, which is a hypothesis-building method for creating a hypothetical component diagram consistent with neuroscientific findings. The application of this approach has begun for building various regions of the brain. Moving forward, we will examine methods of evaluating the biological plausibility of brain-inspired software. This evaluation will also be used to prioritize different computational mechanisms, which should be merged, associated with the same regions of the brain.
翻訳日:2021-03-11 21:41:08 公開日:2021-03-06
# (参考訳) 長方形チャネルにおける横せん断応力分布推定のための機械学習と数理モデル [全文訳有]

Machine Learning versus Mathematical Model to Estimate the Transverse Shear Stress Distribution in a Rectangular Channel ( http://arxiv.org/abs/2103.05447v1 )

ライセンス: CC BY 4.0
Babak Lashkar-Ara, Niloofar Kalantari, Zohreh Sheikh Khozani, Amir Mosavi(参考訳) 油圧工学の最も重要な主題の1つはベッドおよび壁のせん断の圧力の長方形のチャネルの横の配分の信頼できる推定です。 本研究では,Tsallisエントロピー,遺伝的プログラミング(GP)および適応型ニューロファジィ推論システム(ANFIS)を用いて,長方形チャネルにおけるせん断応力分布(SSD)を評価する。 Tsallisエントロピー、GPおよびANFISモデルの結果を評価するために、最適化されたPrestonチューブを使用してせん断応力を測定する実験室観察が使用された。 これは、矩形チャネルの様々なアスペクト比でSSDを測定するために使用される。 せん断応力率を調べるために,合計112の異なるデータを含む10種類のデータ列を用いた。 感度解析の結果、平滑な長方形チャネルにおけるSSDの最も影響力のあるパラメータは、横座標がBであり、流れ深さがHである次元のないパラメータB/Hであることを示しています。ベッドのパラメータ(B/B)、ベッドのパラメータ(B/H)、および入力としての壁のパラメータ(z/H)では、GPのモデリングは、他のものよりも優れていました。 この分析から,GPおよびANFISアルゴリズムを用いることで,Tsallisエントロピーに基づく方程式よりも滑らかな矩形チャネルにおけるせん断応力を推定できる可能性が示唆された。

One of the most important subjects of hydraulic engineering is the reliable estimation of the transverse distribution in the rectangular channel of bed and wall shear stresses. This study makes use of the Tsallis entropy, genetic programming (GP) and adaptive neuro-fuzzy inference system (ANFIS) methods to assess the shear stress distribution (SSD) in the rectangular channel. To evaluate the results of the Tsallis entropy, GP and ANFIS models, laboratory observations were used in which shear stress was measured using an optimized Preston tube. This is then used to measure the SSD in various aspect ratios in the rectangular channel. To investigate the shear stress percentage, 10 data series with a total of 112 different data were used. The results of the sensitivity analysis show that the most influential parameter for the SSD in a smooth rectangular channel is the dimensionless parameter B/H, Where the transverse coordinate is B, and the flow depth is H. With the parameters (b/B), (B/H) for the bed and (z/H), (B/H) for the wall as inputs, the modeling of the GP was better than the other one. Based on the analysis, it can be concluded that the use of GP and ANFIS algorithms is more effective in estimating shear stress in smooth rectangular channels than the Tsallis entropy-based equations.
翻訳日:2021-03-11 07:30:10 公開日:2021-03-06
# (参考訳) 3次元物体検出と道路理解のためのシンプルで効率的なマルチタスクネットワーク [全文訳有]

A Simple and Efficient Multi-task Network for 3D Object Detection and Road Understanding ( http://arxiv.org/abs/2103.04056v1 )

ライセンス: CC BY 4.0
Di Feng, Yiyang Zhou, Chenfeng Xu, Masayoshi Tomizuka, Wei Zhan(参考訳) 動的物体の検出とドライビング可能なエリアや地上高度などの静的道路情報の予測は、安全な自動運転に不可欠である。 先行研究は各知覚課題を別々に研究し、集団的定量的分析を欠いていた。 本研究では,単純で効率的なマルチタスクネットワークを用いて,すべての知覚タスクを実行できることを示す。 提案するネットワークであるLidarMTLは、生のLiDAR点雲を入力とし、3次元物体検出と道路理解のための6つの知覚出力を予測する。 ネットワークは、3Dスパースコンボリューションとデコンボリューション操作を備えたエンコーダデコーダアーキテクチャに基づいています。 広範な実験により、最先端の物体検出器や他のタスク固有のネットワークと比較し、競合する精度で提案手法を検証した。 LidarMTLはオンラインのローカライゼーションにも活用されている。 コードと事前トレーニングされたモデルはhttps://github.com/f rankfengdi/LidarMTLで公開されている。

Detecting dynamic objects and predicting static road information such as drivable areas and ground heights are crucial for safe autonomous driving. Previous works studied each perception task separately, and lacked a collective quantitative analysis. In this work, we show that it is possible to perform all perception tasks via a simple and efficient multi-task network. Our proposed network, LidarMTL, takes raw LiDAR point cloud as inputs, and predicts six perception outputs for 3D object detection and road understanding. The network is based on an encoder-decoder architecture with 3D sparse convolution and deconvolution operations. Extensive experiments verify the proposed method with competitive accuracies compared to state-of-the-art object detectors and other task-specific networks. LidarMTL is also leveraged for online localization. Code and pre-trained model have been made available at https://github.com/f rankfengdi/LidarMTL.
翻訳日:2021-03-10 23:35:20 公開日:2021-03-06
# (参考訳) 深層学習に基づく陸域排水網の分類に関する新しいアプローチと太陽系天体の予備的結果 [全文訳有]

A novel approach to the classification of terrestrial drainage networks based on deep learning and preliminary results on Solar System bodies ( http://arxiv.org/abs/2103.04116v1 )

ライセンス: CC BY 4.0
Carlo Donadio, Massimo Brescia, Alessia Riccardo, Giuseppe Angora, Michele Delli Veneri, Giuseppe Riccio(参考訳) 排水網の地形とその形態を決定するアバイオティクス・バイオティクス因子を記述するために,いくつかのアプローチが提案されている。 各種の制御因子に応答する形態的変化の明示的証明と,原因・影響リンクの表現が困難であることには,本質的な複雑性がある。 従来の排水ネットワーク分類法は, 鍵特性の手動抽出を基本とし, パターン認識手法として適用する。 しかし、これらのアプローチは予測能力も均一性も低い。 我々は,画像によるデータ駆動教師付き学習に基づいて,地球外事例にも拡張した別のアプローチを提案する。 ディープラーニングモデルでは、抽出および分類フェーズは、より客観的、分析、および自動フレームワークに統合されます。 その結果, 深層学習は地形学や関連分野におけるデータ探索の有効な方法であり, トレーニング画像の数が少ないこと, 排水サンプルの形状の相似性など, 初期の困難にもかかわらず, 深層学習が有効な方法であることがわかった。

Several approaches were proposed to describe the geomorphology of drainage networks and the abiotic/biotic factors determining their morphology. There is an intrinsic complexity of the explicit qualification of the morphological variations in response to various types of control factors and the difficulty of expressing the cause-effect links. Traditional methods of drainage network classification are based on the manual extraction of key characteristics, then applied as pattern recognition schemes. These approaches, however, have low predictive and uniform ability. We present a different approach, based on the data-driven supervised learning by images, extended also to extraterrestrial cases. With deep learning models, the extraction and classification phase is integrated within a more objective, analytical, and automatic framework. Despite the initial difficulties, due to the small number of training images available, and the similarity between the different shapes of the drainage samples, we obtained successful results, concluding that deep learning is a valid way for data exploration in geomorphology and related fields.
翻訳日:2021-03-10 20:09:10 公開日:2021-03-06
# (参考訳) ジェネレーティブ・ディバイサル・ネットワークに対する効率的な連続的適応 [全文訳有]

Efficient Continual Adaptation for Generative Adversarial Networks ( http://arxiv.org/abs/2103.04032v1 )

ライセンス: CC BY 4.0
Sakshi Varshney, Vinay Kumar Verma, Lawrence Carin, Piyush Rai(参考訳) パラメータ効率の高い特徴写像変換の設計と活用により,GAN(ジェネレーション・アドバーサリ・ネットワーク)の継続的学習手法を提案する。 我々のアプローチは、グローバルパラメータとタスク固有のパラメータのセットを学習することに基づいている。 グローバルパラメータはタスク間で修正され、タスク固有のパラメータは各タスクのローカルアダプタとして動作し、前のタスクの機能マップを新しいタスクの機能マップに効率的に変換するのに役立つ。 さらに,GANトレーニングを安定させる変換特徴空間における要素回りの残留バイアスを提案する。 連続的なGANに対する最近のアプローチとは対照的に、メモリリプレイや以前のタスクのパラメータに対する正規化、高価なウェイト変換には依存していません。 困難で多様なデータセットに関する広範な実験を通じて、特徴マップ変換に基づくアプローチは、パラメータが大幅に少なく、最先端の連続GAN法を上回り、識別タスクの再生再生に基づく連続学習に使用できる高品質のサンプルを生成することを示しています。

We present a continual learning approach for generative adversarial networks (GANs), by designing and leveraging parameter-efficient feature map transformations. Our approach is based on learning a set of global and task-specific parameters. The global parameters are fixed across tasks whereas the task specific parameters act as local adapters for each task, and help in efficiently transforming the previous task's feature map to the new task's feature map. Moreover, we propose an element-wise residual bias in the transformed feature space which highly stabilizes GAN training. In contrast to the recent approaches for continual GANs, we do not rely on memory replay, regularization towards previous tasks' parameters, or expensive weight transformations. Through extensive experiments on challenging and diverse datasets, we show that the feature-map transformation based approach outperforms state-of-the-art continual GANs methods, with substantially fewer parameters, and also generates high-quality samples that can be used in generative replay based continual learning of discriminative tasks.
翻訳日:2021-03-10 18:07:54 公開日:2021-03-06
# (参考訳) 言語とビジョンを持つクロスモーダルタスクにおけるトランスフォーマーアーキテクチャの展望と展望 [全文訳有]

Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and Vision ( http://arxiv.org/abs/2103.04037v1 )

ライセンス: CC BY 4.0
Andrew Shin, Masato Ishii, Takuya Narihira(参考訳) トランスフォーマーアーキテクチャは、長年の繰り返しニューラルネットワークによって支配されてきた計算言語分野に根本的な変化をもたらした。 その成功は、言語とビジョンによるクロスモーダルタスクの劇的な変化も意味しており、多くの研究者がこの問題に取り組んでいます。 本稿では,この分野で最も重要なマイルストーンのいくつかについてレビューするとともに,トランスフォーマーアーキテクチャがビゾリンガ主義的なクロスモーダルタスクにどのように組み込まれてきたかに関する全体的なトレンドについて述べる。 さらに,現状の限界について検討し,今後の展望について考察する。

Transformer architectures have brought about fundamental changes to computational linguistic field, which had been dominated by recurrent neural networks for many years. Its success also implies drastic changes in cross-modal tasks with language and vision, and many researchers have already tackled the issue. In this paper, we review some of the most critical milestones in the field, as well as overall trends on how transformer architecture has been incorporated into visuolinguistic cross-modal tasks. Furthermore, we discuss its current limitations and speculate upon some of the prospects that we find imminent.
翻訳日:2021-03-10 17:12:00 公開日:2021-03-06
# (参考訳) NeRD: 医用画像分割のための分布のニューラル表現 [全文訳有]

NeRD: Neural Representation of Distribution for Medical Image Segmentation ( http://arxiv.org/abs/2103.04020v1 )

ライセンス: CC BY 4.0
Hang Zhang, Rongguang Wang, Jinwei Zhang, Chao Li, Gufeng Yang, Pascal Spincemaille, Thanh Nguyen, and Yi Wang(参考訳) 本稿では,特徴分布に対する関数マッピング画像座標を最適化することにより,特徴分布を推定できる畳み込みニューラルネットワーク(CNN)モジュールであるNeRD(Neural Representation of Distribution)技術を紹介する。 NeRDを用いて,パディングやプーリングなどの一般的なネットワーク操作による特徴分布シフト問題の負の影響を補うことができる医療画像セグメンテーションのためのエンドツーエンドのディープラーニングモデルを提案する。 暗黙関数は、画像座標をクエリすることによって特徴分布のパラメータ空間を表すのに用いられる。 NeRDでは, オーバーセグメンテーションや欠落などの問題の影響が低減され, 難治性白質病変の分節化と左心房分節化に対する実験結果が提案手法の有効性を検証した。 コードはhttps://github.com/t inymilky/NeRDから入手できる。

We introduce Neural Representation of Distribution (NeRD) technique, a module for convolutional neural networks (CNNs) that can estimate the feature distribution by optimizing an underlying function mapping image coordinates to the feature distribution. Using NeRD, we propose an end-to-end deep learning model for medical image segmentation that can compensate the negative impact of feature distribution shifting issue caused by commonly used network operations such as padding and pooling. An implicit function is used to represent the parameter space of the feature distribution by querying the image coordinate. With NeRD, the impact of issues such as over-segmenting and missing have been reduced, and experimental results on the challenging white matter lesion segmentation and left atrial segmentation verify the effectiveness of the proposed method. The code is available via https://github.com/t inymilky/NeRD.
翻訳日:2021-03-10 16:26:19 公開日:2021-03-06
# (参考訳) パームプランテーションにおける自律噴霧のためのリアルタイム低コスト人工知能システム [全文訳有]

A Real-time Low-cost Artificial Intelligence System for Autonomous Spraying in Palm Plantations ( http://arxiv.org/abs/2103.04132v1 )

ライセンス: CC0 1.0
Zhenwang Qin, Wensheng Wang, Karl-Heinz Dammer, Leifeng Guo and Zhen Cao(参考訳) 精密作物保護では、画像処理における(ターゲット指向)物体検出は、無人航空機(UAV、作物保護ドローン)を適切な場所にナビゲートし、農薬を適用するのに役立ちます。 非目標領域の不要な適用は回避できる。 ディープラーニングアルゴリズムは、コンピュータビジョンタスクにおいて、高い計算時間、メモリフットプリント、消費電力を必要とする。 エッジ人工知能(edge artificial intelligence)に基づいて,ハードウェアアクセラレーション,効率的なアルゴリズム,モデル圧縮など,この問題に対処するための主要な3つのパスを調査した。 最後に、それらを統合して、Ag-YOLOと呼ばれる軽いディープニューラルネットワーク(DNN)に基づくソリューションを提案します。 このソリューションはサイズ、コスト、柔軟性、高速、エネルギー効率が制限される。 ハードウェアは18グラムの重量と1.5ワットのエネルギー消費で、開発されたDNNモデルには838キロバイトのディスクスペースが必要です。 YOLOv3-Tinyとして知られる最先端のYOLOv3フレームワークの小さなバージョンと比較して,開発ハードウェアとソフトウェアをテストして,プランテーション中の個々の手のひらを検出する。 毎秒36.5フレームの速度で平均0.9205のF1スコア(YOLOv3-Tinyアルゴリズムの18フレームと8.66メガバイトの同様の精度と比較して)を達成した。 この開発された検出システムは、マシンがUSBポートを持ち、Linuxオペレーティングシステムを実行する限り、すでに購入した任意のマシンに簡単に接続されます。

In precision crop protection, (target-orientated) object detection in image processing can help navigate Unmanned Aerial Vehicles (UAV, crop protection drones) to the right place to apply the pesticide. Unnecessary application of non-target areas could be avoided. Deep learning algorithms dominantly use in modern computer vision tasks which require high computing time, memory footprint, and power consumption. Based on the Edge Artificial Intelligence, we investigate the main three paths that lead to dealing with this problem, including hardware accelerators, efficient algorithms, and model compression. Finally, we integrate them and propose a solution based on a light deep neural network (DNN), called Ag-YOLO, which can make the crop protection UAV have the ability to target detection and autonomous operation. This solution is restricted in size, cost, flexible, fast, and energy-effective. The hardware is only 18 grams in weight and 1.5 watts in energy consumption, and the developed DNN model needs only 838 kilobytes of disc space. We tested the developed hardware and software in comparison to the tiny version of the state-of-art YOLOv3 framework, known as YOLOv3-Tiny to detect individual palm in a plantation. An average F1 score of 0.9205 at the speed of 36.5 frames per second (in comparison to similar accuracy at 18 frames per second and 8.66 megabytes of the YOLOv3-Tiny algorithm) was reached. This developed detection system is easily plugged into any machines already purchased as long as the machines have USB ports and run Linux Operating System.
翻訳日:2021-03-10 16:14:53 公開日:2021-03-06
# (参考訳) 複数のマシンタスクに対するエンドツーエンド最適化画像圧縮 [全文訳有]

End-to-end optimized image compression for multiple machine tasks ( http://arxiv.org/abs/2103.04178v1 )

ライセンス: CC BY 4.0
Lahiru D. Chamain, Fabien Racap\'e, Jean B\'egaint, Akshay Pushparaja and Simon Feltman(参考訳) キャプチャされた画像とビデオのシェアは、人間が見るのではなく、コンピュータビジョンアルゴリズムによるストレージとリモート分析のために送信される。 従来の標準コーデックとは異なり、ニューラルネットワークベースのコーデックは、ターゲットレートと任意の識別可能なパフォーマンスメトリックに関して画像を最適に圧縮するために、エンドツーエンドでトレーニングすることができます。 このような圧縮ツールを訓練して、特定のコンピュータビジョンタスクのレート精度を向上させることは可能だが、複数のマシンタスクで圧縮ビットストリームを再利用することは実用的かつ関連性がある。 この目的のために、デコーダとタスクアルゴリズムの間に挿入される「コネクタ」を導入し、以前に特定のタスク用に最適化された圧縮コンテンツが、他の複数のマシンタスクに直接変換できるようにします。 オブジェクト検出に最適化された同じビットストリームを用いて,画像分類とオブジェクトセグメンテーションの両方において高いレート精度向上を実現し,提案手法の有効性を実証する。

An increasing share of captured images and videos are transmitted for storage and remote analysis by computer vision algorithms, rather than to be viewed by humans. Contrary to traditional standard codecs with engineered tools, neural network based codecs can be trained end-to-end to optimally compress images with respect to a target rate and any given differentiable performance metric. Although it is possible to train such compression tools to achieve better rate-accuracy performance for a particular computer vision task, it could be practical and relevant to re-use the compressed bit-stream for multiple machine tasks. For this purpose, we introduce 'Connectors' that are inserted between the decoder and the task algorithms to enable a direct transformation of the compressed content, which was previously optimized for a specific task, to multiple other machine tasks. We demonstrate the effectiveness of the proposed method by achieving significant rate-accuracy performance improvement for both image classification and object segmentation, using the same bit-stream, originally optimized for object detection.
翻訳日:2021-03-10 15:54:42 公開日:2021-03-06
# (参考訳) 単調ブール関数の影響によるコンセンサス最大化 [全文訳有]

Consensus Maximisation Using Influences of Monotone Boolean Functions ( http://arxiv.org/abs/2103.04200v1 )

ライセンス: CC BY 4.0
Ruwan Tennakoon, David Suter, Erchuan Zhang, Tat-Jun Chin, Alireza Bab-Hadiashar(参考訳) コンピュータビジョンの堅牢なフィッティングに広く使用されているコンセンサス最大化(MaxCon)は、ある程度の許容レベル内のモデルに適合する最大のデータサブセットを見つけることを目指しています。 本稿では,マックスコン問題と,ブールキューブ上に定義されたモノトンブール関数 (MBF) の最大零点を求める抽象的問題との関係を概説する。 そして、(MBFにおける)影響の概念と(MaxConにおける)外れ値の概念を結びつけ、データ内の最大の構造に属する点の影響が、ある条件下では一般に小さくなることを示す。 この観察に基づいて,コンセンサス最大化を行う反復アルゴリズムを提案する。 合成および実画像データ実験の結果、MBFベースのアルゴリズムは比較的高速に近似解を生成できることが示されている。 これは、観測データに多数の外れ値(グロスまたは擬似)が存在する場合に特に重要である。

Consensus maximisation (MaxCon), which is widely used for robust fitting in computer vision, aims to find the largest subset of data that fits the model within some tolerance level. In this paper, we outline the connection between MaxCon problem and the abstract problem of finding the maximum upper zero of a Monotone Boolean Function (MBF) defined over the Boolean Cube. Then, we link the concept of influences (in a MBF) to the concept of outlier (in MaxCon) and show that influences of points belonging to the largest structure in data would generally be smaller under certain conditions. Based on this observation, we present an iterative algorithm to perform consensus maximisation. Results for both synthetic and real visual data experiments show that the MBF based algorithm is capable of generating a near optimal solution relatively quickly. This is particularly important where there are large number of outliers (gross or pseudo) in the observed data.
翻訳日:2021-03-10 15:26:25 公開日:2021-03-06
# (参考訳) オフビリーフ学習 [全文訳有]

Off-Belief Learning ( http://arxiv.org/abs/2103.04000v1 )

ライセンス: CC BY 4.0
Hengyuan Hu, Adam Lerer, Brandon Cui, Luis Pineda, David Wu, Noam Brown, Jakob Foerster(参考訳) Dec-POMDPの標準的な問題設定はセルフプレイであり、最適に連携するポリシーのセットを見つけることが目標である。 自己再生を通じて学んだ政策は、任意の規則を採用し、他のエージェントの行動に関する仮定に基づいて多段階の反事実的推論に依存する可能性があるため、人間または独立訓練されたエージェントとペアリングすると失敗する。 対照的に、現在の方法は、完全に根拠づけられている最適な政策を学ぶことはできません。つまり、他のエージェントの行動を観察することから反実情報に頼ることはありません。 これに対処するために、OBL(off-belief Learning})を提示する:各ステップでOBLエージェントは、過去のすべてのアクションが与えられた固定ポリシー($\pi_0$)によって取られたと仮定するが、将来のアクションはこれらの同じ仮定の下で最適なポリシーによって取られる。 $\pi_0$ が一様ランダムであるとき、OBL は最適接地ポリシーを学習する。 OBLは階層で反復することができ、1つのレベルから最適なポリシーが次のレベルへの入力になります。 これは反事実推論を制御的に導入する。 任意の平衡政策に収束する独立したrlとは異なり、oblは一意な方針に収束し、ゼロショット協調に適する。 OBLは架空の遷移機構で高次元設定にスケールすることができ、単純なおもちゃ設定とベンチマークのヒューマンAI/ゼロショットコーディネート問題Hanabiの両方で強力なパフォーマンスを示します。

The standard problem setting in Dec-POMDPs is self-play, where the goal is to find a set of policies that play optimally together. Policies learned through self-play may adopt arbitrary conventions and rely on multi-step counterfactual reasoning based on assumptions about other agents' actions and thus fail when paired with humans or independently trained agents. In contrast, no current methods can learn optimal policies that are fully grounded, i.e., do not rely on counterfactual information from observing other agents' actions. To address this, we present off-belief learning} (OBL): at each time step OBL agents assume that all past actions were taken by a given, fixed policy ($\pi_0$), but that future actions will be taken by an optimal policy under these same assumptions. When $\pi_0$ is uniform random, OBL learns the optimal grounded policy. OBL can be iterated in a hierarchy, where the optimal policy from one level becomes the input to the next. This introduces counterfactual reasoning in a controlled manner. Unlike independent RL which may converge to any equilibrium policy, OBL converges to a unique policy, making it more suitable for zero-shot coordination. OBL can be scaled to high-dimensional settings with a fictitious transition mechanism and shows strong performance in both a simple toy-setting and the benchmark human-AI/zero-shot coordination problem Hanabi.
翻訳日:2021-03-10 13:34:55 公開日:2021-03-06
# (参考訳) 機械学習プロジェクトにおけるコードの臭いの流行

The Prevalence of Code Smells in Machine Learning projects ( http://arxiv.org/abs/2103.04146v1 )

ライセンス: CC BY-SA 4.0
Bart van Oort, Lu\'is Cruz, Maur\'icio Aniche, Arie van Deursen(参考訳) 人工知能(AI)と機械学習(ML)は、現在のコンピュータ科学の世界に広く浸透している。 しかし、この分野ではまだソフトウェアエンジニアリングの経験とベストプラクティスが不足しています。 そのようなベストプラクティスの1つ、静的コード解析は、ソースコードの(潜在的な)欠陥、リファクタリングの機会、一般的なコーディング標準の違反を見つけるのに使うことができる。 私たちの研究は、MLプロジェクトで最も多いコードの臭いを発見しました。 74のオープンソースMLプロジェクトのデータセットを収集し、依存関係をインストールし、Pylintを実行しました。 その結果、検出されたすべてのコードの臭いのトップ20に到達した。 これらの臭いを手動で分析した結果、コード重複は広く、識別命名スタイルのPEP8規則は、数学的表記法に類似しているため、必ずしもMLコードに適用できないことが示された。 しかし、さらに興味深いことに、主にPythonプロジェクトの依存性管理に関連するMLプロジェクトの保守性と再現性の障害がいくつかありました。 また、PyTorchのような著名なMLライブラリを含むインポートされた依存関係の正しい使用をPylintが確実にチェックできないことも分かりました。

Artificial Intelligence (AI) and Machine Learning (ML) are pervasive in the current computer science landscape. Yet, there still exists a lack of software engineering experience and best practices in this field. One such best practice, static code analysis, can be used to find code smells, i.e., (potential) defects in the source code, refactoring opportunities, and violations of common coding standards. Our research set out to discover the most prevalent code smells in ML projects. We gathered a dataset of 74 open-source ML projects, installed their dependencies and ran Pylint on them. This resulted in a top 20 of all detected code smells, per category. Manual analysis of these smells mainly showed that code duplication is widespread and that the PEP8 convention for identifier naming style may not always be applicable to ML code due to its resemblance with mathematical notation. More interestingly, however, we found several major obstructions to the maintainability and reproducibility of ML projects, primarily related to the dependency management of Python projects. We also found that Pylint cannot reliably check for correct usage of imported dependencies, including prominent ML libraries such as PyTorch.
翻訳日:2021-03-10 07:32:17 公開日:2021-03-06
# (参考訳) Simplified Swarm Optimization を用いた畳み込みニューラルネットワークハイパーパラメータ最適化

Convolution Neural Network Hyperparameter Optimization Using Simplified Swarm Optimization ( http://arxiv.org/abs/2103.03995v1 )

ライセンス: CC0 1.0
Wei-Chang Yeh, Yi-Ping Lin, Yun-Chia Liang, Chyh-Ming Lai(参考訳) コンピュータビジョンに適用される機械学習手法のうち、畳み込みニューラルネットワーク(cnn)は画像認識の分野で広く使われている。 しかし、既存のCNNモデルは効率的であることが証明されているものの、優れた性能を持つネットワークアーキテクチャを見つけるのは容易ではない。 ネットワークアーキテクチャの最適化を選択する研究もある一方で、畳み込みカーネルの数やサイズ、畳み込みストライド、プールサイズなど、ハイパーパラメータを最適化する研究もある。 その多くは手動で設計されており、関連する専門知識と多くの時間を要する。 そこで本研究では,MNIST, Fashion MNIST, Cifar10を検証に用いながら,Simplified Swarm Optimization (SSO) をLeNetモデルのハイパーパラメータ最適化に適用するアイデアを提案する。 実験の結果,提案アルゴリズムは元のLeNetモデルよりも精度が高く,トレーニング後のハイパーパラメータ設定を改善するのに非常に短い時間しかかからないことがわかった。 さらに,各層における特徴マップの出力形状を解析し,驚いたことに,ほとんどが長方形であった。 この研究の貢献は、既存のモデルでより良い結果を得るためのよりシンプルな方法を提供することであり、この研究は他のcnnアーキテクチャにも適用できる。

Among the machine learning approaches applied in computer vision, Convolutional Neural Network (CNN) is widely used in the field of image recognition. However, although existing CNN models have been proven to be efficient, it is not easy to find a network architecture with better performance. Some studies choose to optimize the network architecture, while others chose to optimize the hyperparameters, such as the number and size of convolutional kernels, convolutional strides, pooling size, etc. Most of them are designed manually, which requires relevant expertise and takes a lot of time. Therefore, this study proposes the idea of applying Simplified Swarm Optimization (SSO) on the hyperparameter optimization of LeNet models while using MNIST, Fashion MNIST, and Cifar10 as validation. The experimental results show that the proposed algorithm has higher accuracy than the original LeNet model, and it only takes a very short time to find a better hyperparameter configuration after training. In addition, we also analyze the output shape of the feature map after each layer, and surprisingly, the results were mostly rectangular. The contribution of the study is to provide users with a simpler way to get better results with the existing model., and this study can also be applied to other CNN architectures.
翻訳日:2021-03-10 06:29:28 公開日:2021-03-06
# (参考訳) 糖尿病網膜症の5段階検出のためのマルチタスク深層学習モデル [全文訳有]

Multitasking Deep Learning Model for Detection of Five Stages of Diabetic Retinopathy ( http://arxiv.org/abs/2103.04207v1 )

ライセンス: CC BY 4.0
Sharmin Majumder, Nasser Kehtarnavaz(参考訳) 本論文では, DR, 軽度DR, 中等度DR, 重症DR, 増殖DRの5段階すべてを検出するマルチタスク深層学習モデルを提案する。 このマルチタスクモデルは1つの分類モデルと1つの回帰モデルで構成され、それぞれ独自の損失関数を持つ。 より高い重大度レベルは通常、低い重大度レベル後に発生するが、この依存性は分類と回帰モデルを結合することで考慮される。 回帰モデルは、ステージ間の依存性を学習し、高い重大度レベルに対して高いスコアを生成するDRの重大度レベルに対応するスコアを出力する。 回帰モデルと分類モデルを別々に訓練した後、これら2つのモデルから抽出された特徴を連結して多層パーセプトロンネットワークに入力し、博士の5段階を分類し、このマルチタスクアプローチを実現するために修正されたスクイーズ励起密結合深層ニューラルネットワークを開発した。 次に、開発したマルチタスクモデルを用いて、APTOSとEyePACSの2つの大きなKaggleデータセットを調べ、DRの5段階を検出する。 Xception Networkに基づくマルチタスク変換学習モデルも開発され,DRを5段階に分類して提案手法の評価を行った。 その結果, aptos と eyepacs のデータセットではそれぞれ 0.90 と 0.88 の重み付き kappa スコアを達成し, 既存の dr の5段階検出法よりも高い値を示した。

This paper presents a multitask deep learning model to detect all the five stages of diabetic retinopathy (DR) consisting of no DR, mild DR, moderate DR, severe DR, and proliferate DR. This multitask model consists of one classification model and one regression model, each with its own loss function. Noting that a higher severity level normally occurs after a lower severity level, this dependency is taken into consideration by concatenating the classification and regression models. The regression model learns the inter-dependency between the stages and outputs a score corresponding to the severity level of DR generating a higher score for a higher severity level. After training the regression model and the classification model separately, the features extracted by these two models are concatenated and inputted to a multilayer perceptron network to classify the five stages of DR. A modified Squeeze Excitation Densely Connected deep neural network is developed to implement this multitasking approach. The developed multitask model is then used to detect the five stages of DR by examining the two large Kaggle datasets of APTOS and EyePACS. A multitasking transfer learning model based on Xception network is also developed to evaluate the proposed approach by classifying DR into five stages. It is found that the developed model achieves a weighted Kappa score of 0.90 and 0.88 for the APTOS and EyePACS datasets, respectively, higher than any existing methods for detection of the five stages of DR
翻訳日:2021-03-10 06:28:27 公開日:2021-03-06
# (参考訳) 組成誘導バイアス測定のための枠組み [全文訳有]

A Framework for Measuring Compositional Inductive Bias ( http://arxiv.org/abs/2103.04180v1 )

ライセンス: CC BY 4.0
Hugh Perkins(参考訳) 本稿では、創発的コミュニケーションの文脈におけるモデルの構成誘導バイアスを測定するためのフレームワークを提案する。 頻繁に使用されるモデルの組成誘導バイアスの限界を探究する、破損した構成文法を考案する。 これらの破損した構成文法を使用して、幅広いモデルを比較し、対照し、ソフト、ガムベル、および離散表現の選択を比較します。 そこで我々は,トークンの再配置可能な原子群に対する誘導バイアスを示すような階層モデルを提案し,単語の出現を促す可能性がある。 我々は,送信側と受信側ネットワークの構成的帰納的バイアスを分離して探索し,エンドツーエンドで自動エンコーダとして配置した。

We present a framework for measuring the compositional inductive bias of models in the context of emergent communications. We devise corrupted compositional grammars that probe for limitations in the compositional inductive bias of frequently used models. We use these corrupted compositional grammars to compare and contrast a wide range of models, and to compare the choice of soft, Gumbel, and discrete representations. We propose a hierarchical model which might show an inductive bias towards relocatable atomic groups of tokens, thus potentially encouraging the emergence of words. We experiment with probing for the compositional inductive bias of sender and receiver networks in isolation, and also placed end-to-end, as an auto-encoder.
翻訳日:2021-03-10 06:01:03 公開日:2021-03-06
# (参考訳) カウントからの学習: 微調整対象の局所化と検出のための時間分類の活用 [全文訳有]

Learning from Counting: Leveraging Temporal Classification for Weakly Supervised Object Localization and Detection ( http://arxiv.org/abs/2103.04009v1 )

ライセンス: CC BY 4.0
Chia-Yu Hsu and Wenwen Li(参考訳) 本稿では,弱教師付き物体検出(wsod)を支援するための時間的分類手法を提案する。 具体的には,2d画像を1dシーケンスデータにシリアライズするラスタースキャンオーダー手法を導入し,lstm(long, short-term memory)とctc(connectionist temporal classification)ネットワークを併用して,総数(関心対象)に基づくオブジェクトの局在化を実現する。 提案するネットワークLSTM-CCTC (Count-based CTC) と呼ぶ。 この「カウントからの学習」戦略は、既存のWSOD手法と異なり、我々のアプローチはターゲットオブジェクトの前後の臨界点を自動的に識別する。 この戦略は、object localiza-tionの多数の候補プロポーザルを生成する必要性を大幅に削減する。 実験により, PASCAL VOCデータセットの評価に基づいて, 最先端の性能が得られた。

This paper reports a new solution of leveraging temporal classification to support weakly supervised object detection (WSOD). Specifically, we introduce raster scan-order techniques to serialize 2D images into 1D sequence data, and then leverage a combined LSTM (Long, Short-Term Memory) and CTC (Connectionist Temporal Classification) network to achieve object localization based on a total count (of interested objects). We term our proposed network LSTM-CCTC (Count-based CTC). This "learning from counting" strategy differs from existing WSOD methods in that our approach automatically identifies critical points on or near a target object. This strategy significantly reduces the need of generating a large number of candidate proposals for object localiza- tion. Experiments show that our method yields state-of-the-art performance based on an evaluation on PASCAL VOC datasets.
翻訳日:2021-03-10 03:39:38 公開日:2021-03-06
# (参考訳) カモフラージュオブジェクトの同時位置決め、セグメンテーション、ランク付け [全文訳有]

Simultaneously Localize, Segment and Rank the Camouflaged Objects ( http://arxiv.org/abs/2103.04011v1 )

ライセンス: CC BY 4.0
Yunqiu Lyu and Jing Zhang and Yuchao Dai and Aixuan Li and Bowen Liu and Nick Barnes and Deng-Ping Fan(参考訳) カモフラージュ(camouflage)は、生物の生存に重要な防御機構である。 カモフラージュの一般的な戦略は、背景マッチング、環境の色とパターンの模倣、破壊的な彩色、身体の輪郭 [35] である。 camouflaged object detection (cod) は、周囲に隠されているcamouflaged objectを分割することを目的としている。 既存のCODモデルは、カモフラージュのレベルを表わさずにカモフラージュされたオブジェクトをセグメント化するためにバイナリグラウンドの真実に基づいて構築されます。 本稿では,この課題を再検討し,特定の背景に対する迷彩物体の目立たないようにモデル化することで,迷彩や動物の進化についての理解を深めるだけでなく,より洗練された迷彩技術を設計するためのガイダンスも提供する。 さらに, 捕食者によって検出可能なカモフラージュ対象の特定の部分であることも観察した。 上記のカモフラージュ対象の理解により,カモフラージュ対象のローカライズ,セグメンテーション,ランク付けを同時に行う第1のランキングベースcodネットワーク(rank-net)を提案する。 局所化モデルは,カモフラージュされた対象を明確化する識別領域を見つけるために提案される。 セグメンテーションモデルは、カモフラージュされたオブジェクトの全スコープをセグメンテーションする。 そして、ランキングモデルは、異なる迷彩物体の検出可能性を推測する。 さらに,CODモデルの一般化能力を評価するために,大規模なCODテストセットを提供する。 実験結果から,本モデルが新たな最先端技術を実現し,より解釈可能なCODネットワークが実現された。

Camouflage is a key defence mechanism across species that is critical to survival. Common strategies for camouflage include background matching, imitating the color and pattern of the environment, and disruptive coloration, disguising body outlines [35]. Camouflaged object detection (COD) aims to segment camouflaged objects hiding in their surroundings. Existing COD models are built upon binary ground truth to segment the camouflaged objects without illustrating the level of camouflage. In this paper, we revisit this task and argue that explicitly modeling the conspicuousness of camouflaged objects against their particular backgrounds can not only lead to a better understanding about camouflage and evolution of animals, but also provide guidance to design more sophisticated camouflage techniques. Furthermore, we observe that it is some specific parts of the camouflaged objects that make them detectable by predators. With the above understanding about camouflaged objects, we present the first ranking based COD network (Rank-Net) to simultaneously localize, segment and rank camouflaged objects. The localization model is proposed to find the discriminative regions that make the camouflaged object obvious. The segmentation model segments the full scope of the camouflaged objects. And, the ranking model infers the detectability of different camouflaged objects. Moreover, we contribute a large COD testing set to evaluate the generalization ability of COD models. Experimental results show that our model achieves new state-of-the-art, leading to a more interpretable COD network.
翻訳日:2021-03-10 03:25:25 公開日:2021-03-06
# (参考訳) 大規模医用画像分類のための雑音ラベル学習 [全文訳有]

Noisy Label Learning for Large-scale Medical Image Classification ( http://arxiv.org/abs/2103.04053v1 )

ライセンス: CC BY 4.0
Fengbei Liu, Yu Tian, Filipe R. Cordeiro, Vasileios Belagiannis, Ian Reid, Gustavo Carneiro(参考訳) ディープラーニングモデルの分類精度は、トレーニングセットのサイズだけでなく、ラベルの品質にも依存します。 医用画像分類では,大規模データセットが豊富になっているが,自然言語処理ツールを用いて放射線報告書から自動抽出した場合,そのラベルがノイズとなる。 ディープラーニングモデルがこれらのノイズラベルサンプルをオーバーフィットさせることができるため、ラベルノイズを処理するトレーニングアプローチを研究することが重要である。 本論文では,最新のSOTA(noisy-label multi-class training approach)を用いて,トレーニングセットにラベルノイズを含む大規模データセットであるChest X-ray14のマルチラベル分類器を学習する。 このデータセットは、テストセットにもラベルノイズがあることを考えると、ノイズの多いテストデータに基づいて、隠れたクリーンテストデータ上でモデルのパフォーマンスを推定する新しい理論的に健全な方法を提案します。 清潔なデータ性能推定を用いて,胸部x線14のラベルノイズの大部分は'no find'クラスに存在しており,このクラスはラベルミスによる14の疾患のうち1つ以上を含む可能性が最も高いため直感的に正しい。

The classification accuracy of deep learning models depends not only on the size of their training sets, but also on the quality of their labels. In medical image classification, large-scale datasets are becoming abundant, but their labels will be noisy when they are automatically extracted from radiology reports using natural language processing tools. Given that deep learning models can easily overfit these noisy-label samples, it is important to study training approaches that can handle label noise. In this paper, we adapt a state-of-the-art (SOTA) noisy-label multi-class training approach to learn a multi-label classifier for the dataset Chest X-ray14, which is a large scale dataset known to contain label noise in the training set. Given that this dataset also has label noise in the testing set, we propose a new theoretically sound method to estimate the performance of the model on a hidden clean testing data, given the result on the noisy testing data. Using our clean data performance estimation, we notice that the majority of label noise on Chest X-ray14 is present in the class 'No Finding', which is intuitively correct because this is the most likely class to contain one or more of the 14 diseases due to labelling mistakes.
翻訳日:2021-03-10 03:05:03 公開日:2021-03-06
# (参考訳) 適応型マルチティーチャーマルチレベル知識蒸留 [全文訳有]

Adaptive Multi-Teacher Multi-level Knowledge Distillation ( http://arxiv.org/abs/2103.04062v1 )

ライセンス: CC BY 4.0
Yuang Liu, Wei Zhang, Jun Wang(参考訳) 知識蒸留〜(KD)は,教師ネットワークから抽出した追加の指導知識を活用することで,軽量な学生ネットワークの性能向上のための効果的な学習パラダイムである。 ほとんどの先駆的な研究は、蒸留学習法で1人の教師だけから学び、学生が複数の教師から同時に学ぶ可能性を無視するか、または単に各教師を等しく重要と扱い、特定の例に対する教師の異なる重要性を明らかにすることができません。 To bridge this gap, we propose a novel adaptive multi-teacher multi-level knowledge distillation learning framework~(AMTML-KD) , which consists two novel insights: (i) associating each teacher with a latent representation to adaptively learn instance-level teacher importance weights which are leveraged for acquiring integrated soft-targets~(high-l evel knowledge) and (ii) enabling the intermediate-level hints~(intermediate- level knowledge) to be gathered from multiple teachers by the proposed multi-group hint strategy. そのため、学生モデルはAMMTML-KDを介して複数の教師から多レベルの知識を学ぶことができます。 公開データセットに関する広範な結果は、提案された学習フレームワークが学生が強力な競合他社よりもパフォーマンスを向上させることを保証します。

Knowledge distillation~(KD) is an effective learning paradigm for improving the performance of lightweight student networks by utilizing additional supervision knowledge distilled from teacher networks. Most pioneering studies either learn from only a single teacher in their distillation learning methods, neglecting the potential that a student can learn from multiple teachers simultaneously, or simply treat each teacher to be equally important, unable to reveal the different importance of teachers for specific examples. To bridge this gap, we propose a novel adaptive multi-teacher multi-level knowledge distillation learning framework~(AMTML-KD) , which consists two novel insights: (i) associating each teacher with a latent representation to adaptively learn instance-level teacher importance weights which are leveraged for acquiring integrated soft-targets~(high-l evel knowledge) and (ii) enabling the intermediate-level hints~(intermediate- level knowledge) to be gathered from multiple teachers by the proposed multi-group hint strategy. As such, a student model can learn multi-level knowledge from multiple teachers through AMTML-KD. Extensive results on publicly available datasets demonstrate the proposed learning framework ensures student to achieve improved performance than strong competitors.
翻訳日:2021-03-10 02:53:44 公開日:2021-03-06
# (参考訳) WebFace260M:百万規模のディープフェイス認識のパワーを示すベンチマーク [全文訳有]

WebFace260M: A Benchmark Unveiling the Power of Million-Scale Deep Face Recognition ( http://arxiv.org/abs/2103.04098v1 )

ライセンス: CC BY 4.0
Zheng Zhu, Guan Huang, Jiankang Deng, Yun Ye, Junjie Huang, Xinze Chen, Jiagang Zhu, Tian Yang, Jiwen Lu, Dalong Du, Jie Zhou(参考訳) 本稿では,ノイズの多い4Mの顔260M (WebFace260M) と2Mの顔242M (WebFace42M) のトレーニングデータを含む新しい100万規模の顔ベンチマークと,精巧に設計された時間制約評価プロトコルを提案する。 まず、4Mの名前リストを収集し、インターネットから260Mの顔をダウンロードする。 次に、CAST(Self-Training)パイプラインを自動利用して、効率的でスケーラブルな巨大なWebFace260Mを浄化する。 私たちの知る限りでは、クリーンなWebFace42Mは最大の公衆顔認識トレーニングセットであり、アカデミアと業界のデータギャップを埋めることを期待しています。 実用シナリオを参照して、推論時間制約(fruits)プロトコルとテストセットによる顔認識を総合的に評価するために構築する。 このベンチマークにより、数百万規模の顔認識の問題を掘り下げます。 性能を損なわずに効率的に顔認識モデルを訓練する分散フレームワークを開発。 WebFace42Mにより、挑戦的なIJB-Cセットの相対40%の故障率を削減し、NIST-FRVTの430エントリの中で3位にランク付けします。 10%のデータ(WebFace4M)でさえ、公開トレーニングセットよりも優れたパフォーマンスを示している。 さらに、MobileNet、EfficientNet、AttentionNet、ResNet、SENet、ResNeXt、RegNetファミリーを含むFRUITS-100ms/500ms/1 000msプロトコルに基づく豊富な属性テストに基づいて包括的なベースラインが確立されています。 ベンチマークウェブサイトはhttps://www.face-ben chmark.org。

In this paper, we contribute a new million-scale face benchmark containing noisy 4M identities/260M faces (WebFace260M) and cleaned 2M identities/42M faces (WebFace42M) training data, as well as an elaborately designed time-constrained evaluation protocol. Firstly, we collect 4M name list and download 260M faces from the Internet. Then, a Cleaning Automatically utilizing Self-Training (CAST) pipeline is devised to purify the tremendous WebFace260M, which is efficient and scalable. To the best of our knowledge, the cleaned WebFace42M is the largest public face recognition training set and we expect to close the data gap between academia and industry. Referring to practical scenarios, Face Recognition Under Inference Time conStraint (FRUITS) protocol and a test set are constructed to comprehensively evaluate face matchers. Equipped with this benchmark, we delve into million-scale face recognition problems. A distributed framework is developed to train face recognition models efficiently without tampering with the performance. Empowered by WebFace42M, we reduce relative 40% failure rate on the challenging IJB-C set, and ranks the 3rd among 430 entries on NIST-FRVT. Even 10% data (WebFace4M) shows superior performance compared with public training set. Furthermore, comprehensive baselines are established on our rich-attribute test set under FRUITS-100ms/500ms/1 000ms protocol, including MobileNet, EfficientNet, AttentionNet, ResNet, SENet, ResNeXt and RegNet families. Benchmark website is https://www.face-ben chmark.org.
翻訳日:2021-03-10 02:41:02 公開日:2021-03-06
# (参考訳) 生成セルオートマトンによる3次元形状生成の学習 [全文訳有]

Learning to Generate 3D Shapes with Generative Cellular Automata ( http://arxiv.org/abs/2103.04130v1 )

ライセンス: CC BY 4.0
Dongsu Zhang, Changwoon Choi, Jeonghwan Kim, Young Min Kim(参考訳) 本稿では,多様で高品質な形状を生成できる確率的3次元生成モデルとして,生成セルオートマトンを提案する。 形状生成過程をマルコフ鎖の遷移核からのサンプリングとして定式化し、サンプリング鎖は最終的に学習した分布の完全な形状へと進化する。 トランジッションカーネルはセルオートマタの局所更新ルールを採用し、3d形状の接続性とスパース性を利用して、高解像度の3dグリッド空間における探索空間を効果的に削減する。 我々の進歩的生成は、占有されたボクセルとその近傍のスパース集合にのみ焦点をあて、表現力のあるスパース畳み込みネットワークの利用を可能にする。 本稿では,サンプリングチェーンとは若干異なるが,トレーニングデータの完全な形状に収束する配列を持つ生成セルオートマトンを局所的に均質に規則化する効果的なトレーニング手法を提案する。 確率的形状完了と形状生成に関する広範な実験により,最近の手法との競合性が得られた。

We present a probabilistic 3D generative model, named Generative Cellular Automata, which is able to produce diverse and high quality shapes. We formulate the shape generation process as sampling from the transition kernel of a Markov chain, where the sampling chain eventually evolves to the full shape of the learned distribution. The transition kernel employs the local update rules of cellular automata, effectively reducing the search space in a high-resolution 3D grid space by exploiting the connectivity and sparsity of 3D shapes. Our progressive generation only focuses on the sparse set of occupied voxels and their neighborhood, thus enabling the utilization of an expressive sparse convolutional network. We propose an effective training scheme to obtain the local homogeneous rule of generative cellular automata with sequences that are slightly different from the sampling chain but converge to the full shapes in the training data. Extensive experiments on probabilistic shape completion and shape generation demonstrate that our method achieves competitive performance against recent methods.
翻訳日:2021-03-10 02:19:50 公開日:2021-03-06
# (参考訳) LongReMix: ノイズの多いラベル環境における高信頼サンプルによるロバスト学習 [全文訳有]

LongReMix: Robust Learning with High Confidence Samples in a Noisy Label Environment ( http://arxiv.org/abs/2103.04173v1 )

ライセンス: CC BY 4.0
Filipe R. Cordeiro, Ragav Sachdeva, Vasileios Belagiannis, Ian Reid, Gustavo Carneiro(参考訳) ディープニューラルネットワークモデルは、限られた量のラベルノイズに対して堅牢ですが、ノイズレートの問題でノイズの多いラベルを記憶する能力はまだオープンな問題です。 最も競争力のあるノイズラベル学習アルゴリズムは、トレーニングサンプルをクリーンまたはノイズに分類するための教師なし学習を含む2段階のプロセスと、クリーンに分類されたサンプルで形成されたラベル付きセットと、ノイズに分類されたサンプルのラベル付きセットとを用いて、経験的ビクタナルリスク(evr)を最小化する半教師付き学習とからなる。 本稿では,この2段階ノイズラベル学習手法の一般化は,教師なし分類器の精度とEVRを最小化するためのトレーニングセットのサイズに依存すると仮定する。 この2つの仮説を実証的に検証し,新しい2段階雑音ラベル学習アルゴリズムlongremixを提案する。 CIFAR-10, CIFAR-100, WebVision, Clothing1M, Food101-NでLongReMixを試験した。 その結果,我々のlongremixは,特にラベルノイズ問題において,競合するアプローチよりも優れていることがわかった。 さらに,本手法は,ほとんどのデータセットにおいて最先端の性能を実現する。 コードはペーパーの受諾時に利用できます。

Deep neural network models are robust to a limited amount of label noise, but their ability to memorise noisy labels in high noise rate problems is still an open issue. The most competitive noisy-label learning algorithms rely on a 2-stage process comprising an unsupervised learning to classify training samples as clean or noisy, followed by a semi-supervised learning that minimises the empirical vicinal risk (EVR) using a labelled set formed by samples classified as clean, and an unlabelled set with samples classified as noisy. In this paper, we hypothesise that the generalisation of such 2-stage noisy-label learning methods depends on the precision of the unsupervised classifier and the size of the training set to minimise the EVR. We empirically validate these two hypotheses and propose the new 2-stage noisy-label training algorithm LongReMix. We test LongReMix on the noisy-label benchmarks CIFAR-10, CIFAR-100, WebVision, Clothing1M, and Food101-N. The results show that our LongReMix generalises better than competing approaches, particularly in high label noise problems. Furthermore, our approach achieves state-of-the-art performance in most datasets. The code will be available upon paper acceptance.
翻訳日:2021-03-10 01:57:52 公開日:2021-03-06
# (参考訳) 離散表現によるTabNetモデルにおける病院の予測の公平性 [全文訳有]

Fairness in TabNet Model by Disentangled Representation for the Prediction of Hospital No-Show ( http://arxiv.org/abs/2103.04048v1 )

ライセンス: CC BY 4.0
Sabri Boughorbel, Fethi Jarray, Abdou Kadri(参考訳) 患者のノーショーは、収入の損失、待ち時間の増加、健康成績の悪化につながる健康センターの大きな負担です。 ノーショー予測のための機械学習(ML)モデルの開発は、この重要な問題に対処するのに役立ちます。 医療サービスへのアクセス機会の平等を確保するため、ノーショー予測のための公正なMLモデルを検討することが不可欠である。 このwo rkでは、公正性を確保しつつ、表データに基づくノーショー予測のためのディープラーニングモデルの開発に興味があります。 我々のベースラインモデルであるTabNetは、注意的特徴変換rsを使用し、有望なグラフデータの結果を示した。 センシティブなコンポーネントから予測を解く表現学習に基づくFair-TabNetを提案します。 モデルでは,非ショー変数と敏感変数の損失関数を協調的に最小化し,感度表現と予測表現が直交していることを保証する。 実験分析では,2019年に収集した210,000件の病院データを用いた。 予備的な結果から,提案するFair-TabNetはTabNet上での予測性能,公平性,収束速度を向上し,アポイント・ノーショー予測を行う。 表データに対する最先端の技術モデルとの比較は有望な結果を示し、ハイパーパラメータのチューニングの改善によってさらに改善される可能性がある。

Patient no-shows is a major burden for health centers leading to loss of revenue, increased waiting time and deteriorated health outcome. Developing machine learning (ML) models for the prediction of no -shows could help addressing this important issue. It is crucial to consider fair ML models for no-show prediction in order to ensure equality of opportunity in accessing healthcare services. In this wo rk, we are interested in developing deep learning models for no-show prediction based on tabular data while ensuring fairness properties. Our baseline model, TabNet, uses on attentive feature transforme rs and has shown promising results for tabular data. We propose Fair-TabNet based on representation learning that disentangles predictive from sensitive components. The model is trained to jointly min imize loss functions on no-shows and sensitive variables while ensuring that the sensitive and prediction representations are orthogonal. In the experimental analysis, we used a hospital dataset of 210, 000 appointments collected in 2019. Our preliminary results show that the proposed Fair-TabNet improves the predictive, fairness performance and convergence speed over TabNet for the task of appointment no-show prediction. The comparison with the state-of-the art models for tabular data shows promising results and could be further improved by a better tuning of hyper-parameters.
翻訳日:2021-03-09 20:32:53 公開日:2021-03-06
# (参考訳) あまりノイズのないデータから継続的に学習する学習 [全文訳有]

Learning to Continually Learn Rapidly from Few and Noisy Data ( http://arxiv.org/abs/2103.04066v1 )

ライセンス: CC BY 4.0
Nicholas I-Hsien Kuo, Mehrtash Harandi, Nicolas Fourrier, Christian Walder, Gabriela Ferraro, and Hanna Suominen(参考訳) ニューラルネットワークは破滅的な忘れがちで、データ分散の定常性を保証することなく、シーケンシャルに新しいタスクを学習できない。 新しいタスクを学習しながら、外部に格納された古いデータを同時にトレーニングすることで、継続的な学習を実現することができる。 しかし、過去のタスクが少ないメモリで割り当てられると、リプレイは効果が低下する。 この難易度を克服するため、リプレイメカニクスをメタラーニングで補い、迅速な知識獲得を実現しました。 textit{learns a learning rate per parameter per past task} というメタリーナーを用いることで、ベース学習者がメモリ使用量が少なくなると強い結果が得られることが分かった。 さらに, 連続学習におけるメタラーニングの利点は, ノイズの存在下で継続的に学習し, より少ない更新で高い精度でベースラーニング者が得られるという強靭性を示した。

Neural networks suffer from catastrophic forgetting and are unable to sequentially learn new tasks without guaranteed stationarity in data distribution. Continual learning could be achieved via replay -- by concurrently training externally stored old data while learning a new task. However, replay becomes less effective when each past task is allocated with less memory. To overcome this difficulty, we supplemented replay mechanics with meta-learning for rapid knowledge acquisition. By employing a meta-learner, which \textit{learns a learning rate per parameter per past task}, we found that base learners produced strong results when less memory was available. Additionally, our approach inherited several meta-learning advantages for continual learning: it demonstrated strong robustness to continually learn under the presence of noises and yielded base learners to higher accuracy in less updates.
翻訳日:2021-03-09 20:26:32 公開日:2021-03-06
# (参考訳) context dropout: 効率的なサンプル依存ドロップアウトモジュール [全文訳有]

Contextual Dropout: An Efficient Sample-Dependent Dropout Module ( http://arxiv.org/abs/2103.04181v1 )

ライセンス: CC BY 4.0
Xinjie Fan, Shujian Zhang, Korawat Tanwisuth, Xiaoning Qian, Mingyuan Zhou(参考訳) ドロップアウトは、ディープニューラルネットワークのトレーニングプロセスを正規化するだけでなく、予測の不確実性を予測するためのシンプルで効果的なモジュールとして実証されています。 しかし, 不確実性推定の質はドロップアウト確率に大きく依存する。 現在のモデルのほとんどは、そのシンプルさのため、すべてのデータサンプルに同じドロップアウト分布を使用している。 モデリングの不確実性の柔軟性の潜在的な向上にもかかわらず、サンプル依存のドロップアウトは、しばしばスケーラビリティの問題に直面したり、非自明なモデル変更を伴うため、あまり検討されていない。 本稿では,メモリと計算コストをわずかに増大させることなく,多種多様なモデルに適用可能な,シンプルでスケーラブルなサンプル依存型ドロップアウトモジュールとして,効率的な構造設計によるコンテキスト型ドロップアウトを提案する。 我々は,BernoulliとGaussianのいずれのドロップアウトとも互換性のある,変動目的のドロップアウト確率を学習する。 画像分類や視覚的質問応答に応用した各種モデルにコンテキストドロップアウトモジュールを適用し,ImageNetやVQA 2.0のような大規模データセットを用いた手法のスケーラビリティを実証する。 提案手法は,不確実性推定の精度と品質の両面において,ベースライン法よりも優れていた。

Dropout has been demonstrated as a simple and effective module to not only regularize the training process of deep neural networks, but also provide the uncertainty estimation for prediction. However, the quality of uncertainty estimation is highly dependent on the dropout probabilities. Most current models use the same dropout distributions across all data samples due to its simplicity. Despite the potential gains in the flexibility of modeling uncertainty, sample-dependent dropout, on the other hand, is less explored as it often encounters scalability issues or involves non-trivial model changes. In this paper, we propose contextual dropout with an efficient structural design as a simple and scalable sample-dependent dropout module, which can be applied to a wide range of models at the expense of only slightly increased memory and computational cost. We learn the dropout probabilities with a variational objective, compatible with both Bernoulli dropout and Gaussian dropout. We apply the contextual dropout module to various models with applications to image classification and visual question answering and demonstrate the scalability of the method with large-scale datasets, such as ImageNet and VQA 2.0. Our experimental results show that the proposed method outperforms baseline methods in terms of both accuracy and quality of uncertainty estimation.
翻訳日:2021-03-09 20:13:21 公開日:2021-03-06
# (参考訳) 深層強化学習による狭小ギャップの通過 [全文訳有]

Passing Through Narrow Gaps with Deep Reinforcement Learning ( http://arxiv.org/abs/2103.03991v1 )

ライセンス: CC BY 4.0
Brendan Tidd, Akansel Cosgun, Jurgen Leitner, and Nicolas Hudson(参考訳) DARPA地下挑戦では、ロボットのチームが困難で多様な地下環境を横断する必要があります。 小さなギャップを横切ることは、ロボットが遭遇する難しいシナリオの1つだ。 不完全なセンサー情報は、手動の微調整を必要とする古典的なナビゲーション手法では困難である。 本稿では,ロボットとギャップとの接触が必要な小さな隙間を自律的に移動するための深層強化学習手法を提案する。 私たちはまず、小さなギャップ(ロボットよりもわずかセンチメートル幅)を通り抜けるためのギャップ行動ポリシーを学びます。 次に,目標条件付き行動選択ポリシーを学習し,ギャップ行動ポリシーをいつ有効にするかを決定する。 我々はシミュレーションでポリシーを訓練し,シミュレーションおよび実プラットフォーム上での大規模追従ロボットの有効性を実証する。 シミュレーション実験では,操作者がギャップ動作を手動でアクティベートした場合の93%成功率,行動選択ポリシーを用いた自律的アクティベーションでは67%を達成した。 実際のロボット実験では、手動アクティベーションで73%、自律的な行動選択で40%の成功率を達成した。 シミュレーションによるアプローチの実現可能性を示す一方で,シミュレーションと実世界のシナリオにおける性能の違いは,深層強化学習方針における直接sim-to-real転送の難しさを浮き彫りにしている。 シミュレーション環境と実環境の両方において、別の手法ではギャップを越えられなかった。

The DARPA subterranean challenge requires teams of robots to traverse difficult and diverse underground environments. Traversing small gaps is one of the challenging scenarios that robots encounter. Imperfect sensor information makes it difficult for classical navigation methods, where behaviours require significant manual fine tuning. In this paper we present a deep reinforcement learning method for autonomously navigating through small gaps, where contact between the robot and the gap may be required. We first learn a gap behaviour policy to get through small gaps (only centimeters wider than the robot). We then learn a goal-conditioned behaviour selection policy that determines when to activate the gap behaviour policy. We train our policies in simulation and demonstrate their effectiveness with a large tracked robot in simulation and on the real platform. In simulation experiments, our approach achieves 93% success rate when the gap behaviour is activated manually by an operator, and 67% with autonomous activation using the behaviour selection policy. In real robot experiments, our approach achieves a success rate of 73% with manual activation, and 40% with autonomous behaviour selection. While we show the feasibility of our approach in simulation, the difference in performance between simulated and real world scenarios highlight the difficulty of direct sim-to-real transfer for deep reinforcement learning policies. In both the simulated and real world environments alternative methods were unable to traverse the gap.
翻訳日:2021-03-09 17:22:57 公開日:2021-03-06
# 自然言語処理ループに人間を配置する:調査

Putting Humans in the Natural Language Processing Loop: A Survey ( http://arxiv.org/abs/2103.04044v1 )

ライセンス: Link先を確認
Zijie J. Wang, Dongjin Choi, Shenyu Xu, Diyi Yang(参考訳) 人間のフィードバックから学ぶ自然言語処理(NLP)システムをどのように設計できますか? Human-in-the-loop (HITL) NLPフレームワークは、モデル自体を改善するために、人間のフィードバックを継続的に統合する研究団体が増えている。 HITL NLP研究は、さまざまなNLP問題を解決し、さまざまな人々から多様なフィードバックを集め、さまざまな方法で収集されたフィードバックから学ぶことができます。 本稿では,機械学習(ML)とヒューマン・コンピュータインタラクション(HCI)の両コミュニティからのHITL NLP作業について,その短さと刺激的な歴史を強調し,タスク,目標,ヒューマンインタラクション,フィードバック学習方法に焦点を当てた最近のフレームワークを網羅的に要約する。 最後に,人間のフィードバックをNLP開発ループに統合するための今後の方向性について論じる。

How can we design Natural Language Processing (NLP) systems that learn from human feedback? There is a growing research body of Human-in-the-loop (HITL) NLP frameworks that continuously integrate human feedback to improve the model itself. HITL NLP research is nascent but multifarious -- solving various NLP problems, collecting diverse feedback from different people, and applying different methods to learn from collected feedback. We present a survey of HITL NLP work from both Machine Learning (ML) and Human-Computer Interaction (HCI) communities that highlights its short yet inspiring history, and thoroughly summarize recent frameworks focusing on their tasks, goals, human interactions, and feedback learning methods. Finally, we discuss future directions for integrating human feedback in the NLP development loop.
翻訳日:2021-03-09 16:07:05 公開日:2021-03-06
# オンライン・コンティニュアル・アナロジー推論における選択リプレイの学習促進

Selective Replay Enhances Learning in Online Continual Analogical Reasoning ( http://arxiv.org/abs/2103.03987v1 )

ライセンス: Link先を確認
Tyler L. Hayes and Christopher Kanan(参考訳) 連続学習では、システムは壊滅的な忘れずに、定常でないデータストリームやバッチから学習する。 この問題は教師付き画像分類と強化学習でよく研究されているが、抽象的推論のために設計されたニューラルネットワークにおける連続学習はまだ研究されていない。 本稿では,類推の連続学習について考察する。 Raven's Progressive Matrices (RPM) のような解析的推論テストは、ヒトの非言語的抽象的推論を測るために一般的に用いられ、最近ではRPM問題に対するオフラインニューラルネットワークが提案されている。 本稿では,RPMの連続学習者を評価するための実験的なベースライン,プロトコル,フォワードおよびバックワード転送メトリックを確立する。 悲惨な忘れを緩和するために経験のリプレイを採用します。 画像分類タスクにリプレイを用いた以前の研究では、リプレイするサンプルを選択的に選択することは、ランダム選択よりも利益が少ないことが判明した。 対照的に、選択的リプレイはRPMタスクのランダム選択を大幅に上回る可能性がある。

In continual learning, a system learns from non-stationary data streams or batches without catastrophic forgetting. While this problem has been heavily studied in supervised image classification and reinforcement learning, continual learning in neural networks designed for abstract reasoning has not yet been studied. Here, we study continual learning of analogical reasoning. Analogical reasoning tests such as Raven's Progressive Matrices (RPMs) are commonly used to measure non-verbal abstract reasoning in humans, and recently offline neural networks for the RPM problem have been proposed. In this paper, we establish experimental baselines, protocols, and forward and backward transfer metrics to evaluate continual learners on RPMs. We employ experience replay to mitigate catastrophic forgetting. Prior work using replay for image classification tasks has found that selectively choosing the samples to replay offers little, if any, benefit over random selection. In contrast, we find that selective replay can significantly outperform random selection for the RPM task.
翻訳日:2021-03-09 16:05:41 公開日:2021-03-06
# Fibrosis-Net: 胸部CT画像からの肺線維化進展予測のための深層畳み込みニューラルネットワーク設計

Fibrosis-Net: A Tailored Deep Convolutional Neural Network Design for Prediction of Pulmonary Fibrosis Progression from Chest CT Images ( http://arxiv.org/abs/2103.04008v1 )

ライセンス: Link先を確認
Alexander Wong, Jack Lu, Adam Dorfman, Paul McInnis, Mahmoud Famouri, Daniel Manary, James Ren Hou Lee, and Michael Lynch(参考訳) 肺線維症は、回復不能な肺組織スカーリングおよび損傷を引き起こす壊滅的な慢性肺疾患であり、肺容量の進行的な損失をもたらし、既知の治療法がない。 肺線維症の治療と管理における重要なステップは、肺機能低下の評価であり、CT(Computerd Tomography)イメージングは肺線維症によって引き起こされる肺損傷の程度を決定するための特に効果的な方法である。 そこで本研究では,胸部ct画像から肺線維化の予測に適した深層畳み込みニューラルネットワークであるfibersis-netを提案する。 より具体的には、ct肺分析のための強力なアーキテクチャ設計を決定するために機械駆動設計探索が活用され、患者のctスキャン、初期スピロメトリー測定、臨床メタデータに基づいて強制活力(fvc)を予測するためにカスタマイズされたネットワーク設計を構築した。 最後に,説明可能性に基づく性能検証戦略を用いて線維化-ネットの意思決定行動を調査し,ct画像中の関連する視覚指標に基づいて予測を検証した。 osic pulmonary fibrosis progression challenge benchmark datasetを用いた実験により,提案するfifasis-netは,チャレンジ・リーダーボードの勝利解よりも有意に高い修正ラプラス・ログ・ラックススコアを達成できた。 さらに, 肺線維化の進行を予測する際に, CT画像に臨床的に関連性のある視覚的指標を応用し, 適切な意思決定行動を示すことを実証した。 Fibrosis-Netはまだ製造可能な臨床評価ソリューションではないが、このモデルをオープンソースでリリースすることで、研究者、臨床医、市民データサイエンティストがそれを活用して構築することを願っている。

Pulmonary fibrosis is a devastating chronic lung disease that causes irreparable lung tissue scarring and damage, resulting in progressive loss in lung capacity and has no known cure. A critical step in the treatment and management of pulmonary fibrosis is the assessment of lung function decline, with computed tomography (CT) imaging being a particularly effective method for determining the extent of lung damage caused by pulmonary fibrosis. Motivated by this, we introduce Fibrosis-Net, a deep convolutional neural network design tailored for the prediction of pulmonary fibrosis progression from chest CT images. More specifically, machine-driven design exploration was leveraged to determine a strong architectural design for CT lung analysis, upon which we build a customized network design tailored for predicting forced vital capacity (FVC) based on a patient's CT scan, initial spirometry measurement, and clinical metadata. Finally, we leverage an explainability-drive n performance validation strategy to study the decision-making behaviour of Fibrosis-Net as to verify that predictions are based on relevant visual indicators in CT images. Experiments using the OSIC Pulmonary Fibrosis Progression Challenge benchmark dataset showed that the proposed Fibrosis-Net is able to achieve a significantly higher modified Laplace Log Likelihood score than the winning solutions on the challenge leaderboard. Furthermore, explainability-drive n performance validation demonstrated that the proposed Fibrosis-Net exhibits correct decision-making behaviour by leveraging clinically-relevant visual indicators in CT images when making predictions on pulmonary fibrosis progress. While Fibrosis-Net is not yet a production-ready clinical assessment solution, we hope that releasing the model in open source manner will encourage researchers, clinicians, and citizen data scientists alike to leverage and build upon it.
翻訳日:2021-03-09 16:05:22 公開日:2021-03-06
# 単純複素表現学習

Simplicial Complex Representation Learning ( http://arxiv.org/abs/2103.04046v1 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Xuanting Cai(参考訳) 単純複素体は、コンピュータ支援設計、コンピュータグラフィックス、シミュレーションなどの多くのアプリケーション分野で頻繁に使用される位相空間の重要なクラスを形成します。 グラフ上の表現学習は、たった1-dの単純な複合体であり、ここ数年で大きな注目と成功を目撃しています。 複雑さが増すため、より高次元の簡素なホールドがあるため、表現学習をこれらのオブジェクトに拡張するには十分な労力がなかった。 本研究では, 複素-複素近接性を保存する方法として, 単純複体を普遍的な埋め込み空間に埋め込む簡易複体表現学習法を提案する。 本手法は,事前学習した簡易オートエンコーダによって誘導される単純xレベル埋め込みを用いて,単純化された複合表現全体を学習する。 我々の知る限りでは、この研究は単純な複素レベル表現を学習する最初の方法である。

Simplicial complexes form an important class of topological spaces that are frequently used to in many applications areas such as computer-aided design, computer graphics, and simulation. The representation learning on graphs, which are just 1-d simplicial complexes, has witnessed a great attention and success in the past few years. Due to the additional complexity higher dimensional simplicial hold, there has not been enough effort to extend representation learning to these objects especially when it comes to learn entire-simplicial complex representation. In this work, we propose a method for simplicial complex-level representation learning that embeds a simplicial complex to a universal embedding space in a way that complex-to-complex proximity is preserved. Our method utilizes a simplex-level embedding induced by a pre-trained simplicial autoencoder to learn an entire simplicial complex representation. To the best of our knowledge, this work presents the first method for learning simplicial complex-level representation.
翻訳日:2021-03-09 16:04:15 公開日:2021-03-06
# 物語の視点を変える--deictic から anaphoric の視点へ

Changing the Narrative Perspective: From Deictic to Anaphoric Point of View ( http://arxiv.org/abs/2103.04176v1 )

ライセンス: Link先を確認
Mike Chen and Razvan Bunescu(参考訳) そこで,筆者が当初使用していたものと異なる視点を文字に割り当てて,物語の視点を変える作業を紹介する。 その結果、物語の視点の転換は読書体験を変化させ、フィクションの執筆や教育から自己啓発、自己診断まで幅広い種類のテキストを生成するツールとして使用できる。 本論文では,デミック(第1者,第2者)からアナフォリック(第3者)への視点変化を注釈付けした,幅広い種類の物語を含むベンチマークデータセットを紹介し,言及選択のためにニューラルネットワークに依存する生のテキストを処理するパイプラインを記述する。 新しいベンチマークデータセットの評価によると、提案されたアーキテクチャは、曖昧でより自然な言及を生成することによって、ベースラインを大幅に上回っている。

We introduce the task of changing the narrative point of view, where characters are assigned a narrative perspective that is different from the one originally used by the writer. The resulting shift in the narrative point of view alters the reading experience and can be used as a tool in fiction writing or to generate types of text ranging from educational to self-help and self-diagnosis. We introduce a benchmark dataset containing a wide range of types of narratives annotated with changes in point of view from deictic (first or second person) to anaphoric (third person) and describe a pipeline for processing raw text that relies on a neural architecture for mention selection. Evaluations on the new benchmark dataset show that the proposed architecture substantially outperforms the baselines by generating mentions that are less ambiguous and more natural.
翻訳日:2021-03-09 16:03:50 公開日:2021-03-06
# エゴ中心型ウェアラブルカメラによる屋内人物位置推定

Indoor Future Person Localization from an Egocentric Wearable Camera ( http://arxiv.org/abs/2103.04019v1 )

ライセンス: Link先を確認
Jianing Qiu, Frank P.-W. Lo, Xiao Gu, Yingnan Sun, Shuo Jiang, and Benny Lo(参考訳) エゴセントリックなウェアラブルカメラによる将来の人物の位置と移動軌跡の正確な予測は、視覚障害者のナビゲーション支援や障害者のための移動支援の開発など、幅広い応用に役立てることができる。 本研究では,ウェアラブルカメラを用いて,対象者の8,250本のショートクリップを室内環境のカメラ装着者に対して,1,2,3方向に移動させたり,4)現場にとどまったり,13,817人のバウンディングボックスを手作業でラベル付けする,新たなエゴセントリックデータセットを構築した。 バウンディングボックスとは別に、データセットには、目標人物の推定ポーズだけでなく、各時点におけるウェアラブルカメラのIMU信号も含まれています。 LSTMベースのエンコーダデコーダフレームワークは、このエゴセントリックな設定で目標人物の将来の位置と移動軌道を予測するように設計されています。 提案手法は,3つのベースラインと比較して,ウェアラブルカメラが捉えたエゴセントリックなビデオにおいて,将来の人物の位置と軌跡を確実かつ確実に予測できることを示した。

Accurate prediction of future person location and movement trajectory from an egocentric wearable camera can benefit a wide range of applications, such as assisting visually impaired people in navigation, and the development of mobility assistance for people with disability. In this work, a new egocentric dataset was constructed using a wearable camera, with 8,250 short clips of a targeted person either walking 1) toward, 2) away, or 3) across the camera wearer in indoor environments, or 4) staying still in the scene, and 13,817 person bounding boxes were manually labelled. Apart from the bounding boxes, the dataset also contains the estimated pose of the targeted person as well as the IMU signal of the wearable camera at each time point. An LSTM-based encoder-decoder framework was designed to predict the future location and movement trajectory of the targeted person in this egocentric setting. Extensive experiments have been conducted on the new dataset, and have shown that the proposed method is able to reliably and better predict future person location and trajectory in egocentric videos captured by the wearable camera compared to three baselines.
翻訳日:2021-03-09 16:03:33 公開日:2021-03-06
# 3次元放射能表現のための不均衡認識自己監督学習

Imbalance-Aware Self-Supervised Learning for 3D Radiomic Representations ( http://arxiv.org/abs/2103.04167v1 )

ライセンス: Link先を確認
Hongwei Li, Fei-Fei Xue, Krishna Chaitanya, Shengda Liu, Ivan Ezhov, Benedikt Wiestler, Jianguo Zhang, Bjoern Menze(参考訳) 放射線表現は、医療画像データに対する関心領域の特性を定量化することができる。 古典的には、形状、テクスチャ、その他の低レベル画像の特徴を事前に定義した統計データである。 あるいは、深層学習に基づく表現は教師付き学習に由来するが、専門家からの高価なアノテーションが必要であり、しばしば過度な適合とデータ不均衡の問題に悩まされる。 本稿では,データ不均衡下における効果的な定量化のための3次元医用画像の学習表現の課題について述べる。 本研究では,既存の放射能特徴を補完する3次元ボリュームの高レベル特徴を学習するための表現学習フレームワークであるemph{self-supervised}を提案する。 具体的には,3D Siameseネットワークを用いて,自己監督による画像表現の学習方法を示す。 さらに重要なのは、a)サンプルの再重み付け、b)トレーニングバッチの構成のバランスのとれた2つの監視されていない戦略を利用して、データの不均衡に対処することです。 学習した自己監督機能と従来の放射線放射能を併用すると,MRIおよびCT画像撮影を対象とする脳腫瘍分類と肺癌のステージングタスクが大幅に改善した。

Radiomic representations can quantify properties of regions of interest in medical image data. Classically, they account for pre-defined statistics of shape, texture, and other low-level image features. Alternatively, deep learning-based representations are derived from supervised learning but require expensive annotations from experts and often suffer from overfitting and data imbalance issues. In this work, we address the challenge of learning representations of 3D medical images for an effective quantification under data imbalance. We propose a \emph{self-supervised} representation learning framework to learn high-level features of 3D volumes as a complement to existing radiomics features. Specifically, we demonstrate how to learn image representations in a self-supervised fashion using a 3D Siamese network. More importantly, we deal with data imbalance by exploiting two unsupervised strategies: a) sample re-weighting, and b) balancing the composition of training batches. When combining our learned self-supervised feature with traditional radiomics, we show significant improvement in brain tumor classification and lung cancer staging tasks covering MRI and CT imaging modalities.
翻訳日:2021-03-09 16:03:15 公開日:2021-03-06
# 強化学習, Bit by Bit

Reinforcement Learning, Bit by Bit ( http://arxiv.org/abs/2103.04047v1 )

ライセンス: Link先を確認
Xiuyuan Lu, Benjamin Van Roy, Vikranth Dwaracherla, Morteza Ibrahimi, Ian Osband, Zheng Wen(参考訳) 強化学習エージェントはシミュレーション環境において顕著な成果を示した。 データ効率は、この成功を実環境に持ち込む上で障害となる。 データ効率のエージェントの設計は、情報取得と表現のより深い理解を求めている。 私達は概念を開発し、一緒に原則的な指導を提供する後悔の境界を確立します。 境界は、探すべき情報、その情報を探す方法、そして保持すべき情報についての質問に光を当てます。 概念を説明するために,その上に構築する単純なエージェントをデザインし,データ効率の向上を示す計算結果を提示する。

Reinforcement learning agents have demonstrated remarkable achievements in simulated environments. Data efficiency poses an impediment to carrying this success over to real environments. The design of data-efficient agents calls for a deeper understanding of information acquisition and representation. We develop concepts and establish a regret bound that together offer principled guidance. The bound sheds light on questions of what information to seek, how to seek that information, and it what information to retain. To illustrate concepts, we design simple agents that build on them and present computational results that demonstrate improvements in data efficiency.
翻訳日:2021-03-09 16:00:54 公開日:2021-03-06
# 低ランクisomapアルゴリズム

Low-Rank Isomap Algorithm ( http://arxiv.org/abs/2103.04060v1 )

ライセンス: Link先を確認
Eysan Mehrbani, Mohammad Hossein Kahaei(参考訳) イソマップは、計算複雑性に悩まされるよく知られた非線形次元減少法である。 その計算の複雑さは、主に2つの段階から生じ、a) 空間内のデータに完全なグラフを埋め込む、b) 完全な固有値分解である。 グラフ化段階の計算の複雑さの減少は研究されているが、固有値分解段階は問題のボトルネックのままである。 本稿では,埋め込みグラフ上の射影演算子を環境空間から低ランク潜在空間に導入し,部分固有値分解の適用を容易にすることで,低ランクisomapアルゴリズムを提案する。 このアプローチは、次元還元プロセス中に構造情報を保存しながら、アイソマップの複雑さを線形順序に減少させる。 いくつかの最先端のアルゴリズムと比較してローランクアイソマップアルゴリズムの優位性は、速度と精度の観点から顔画像クラスタリングで実験的に検証されています。

The Isomap is a well-known nonlinear dimensionality reduction method that highly suffers from computational complexity. Its computational complexity mainly arises from two stages; a) embedding a full graph on the data in the ambient space, and b) a complete eigenvalue decomposition. Although the reduction of the computational complexity of the graphing stage has been investigated, yet the eigenvalue decomposition stage remains a bottleneck in the problem. In this paper, we propose the Low-Rank Isomap algorithm by introducing a projection operator on the embedded graph from the ambient space to a low-rank latent space to facilitate applying the partial eigenvalue decomposition. This approach leads to reducing the complexity of Isomap to a linear order while preserving the structural information during the dimensionality reduction process. The superiority of the Low-Rank Isomap algorithm compared to some state-of-art algorithms is experimentally verified on facial image clustering in terms of speed and accuracy.
翻訳日:2021-03-09 15:58:21 公開日:2021-03-06
# 非一様分散データ部分空間クラスタリングのためのテンソルラプラチアン正規化低ランク表現

Tensor Laplacian Regularized Low-Rank Representation for Non-uniformly Distributed Data Subspace Clustering ( http://arxiv.org/abs/2103.04064v1 )

ライセンス: Link先を確認
Eysan Mehrbani, Mohammad Hossein Kahaei, Seyed Aliasghar Beheshti(参考訳) 低ランク表現(LRR)は、データ構造の非線形性や周囲空間上の観測の非一様分布を含まないため、サブスペースクラスタリングにおけるデータポイントの局所性情報を捨てることに非常に苦しむ。 したがって、観測密度の情報は、隣接する近傍の数を一定に考慮して、最先端のlrrモデルによって失われる。 その結果、このような状況ではサブスペースのクラスタリング精度が低下する。 そこで本論文では,データの局所性情報を取り入れて,隣接ノードの可変数を容易にするハイパーグラフモデルを提案する。 部分空間の数のスパーシティも考慮される。 そのため、最適化問題は正規化項の集合に基づいて定義され、テンソルラプラシアンベースのアルゴリズムを開発することで解決される。 人工および実データセットに関する広範囲な実験は、最先端の手法と比較して、サブスペースクラスタリングにおける提案手法の精度と精度を示している。 非線形性, 幾何重重なり, 外れ値などのデータ固有の構造が存在する場合, この手法の性能はより明らかである。

Low-Rank Representation (LRR) highly suffers from discarding the locality information of data points in subspace clustering, as it may not incorporate the data structure nonlinearity and the non-uniform distribution of observations over the ambient space. Thus, the information of the observational density is lost by the state-of-art LRR models, as they take a constant number of adjacent neighbors into account. This, as a result, degrades the subspace clustering accuracy in such situations. To cope with deficiency, in this paper, we propose to consider a hypergraph model to facilitate having a variable number of adjacent nodes and incorporating the locality information of the data. The sparsity of the number of subspaces is also taken into account. To do so, an optimization problem is defined based on a set of regularization terms and is solved by developing a tensor Laplacian-based algorithm. Extensive experiments on artificial and real datasets demonstrate the higher accuracy and precision of the proposed method in subspace clustering compared to the state-of-the-art methods. The outperformance of this method is more revealed in presence of inherent structure of the data such as nonlinearity, geometrical overlapping, and outliers.
翻訳日:2021-03-09 15:58:08 公開日:2021-03-06
# 表現型深層学習型TSシステムの制御性の解析と評価

Analysis and Assessment of Controllability of an Expressive Deep Learning-based TTS system ( http://arxiv.org/abs/2103.04097v1 )

ライセンス: Link先を確認
No\'e Tits, Kevin El Haddad and Thierry Dutoit(参考訳) 本稿では,連続制御のためのデータセット上で学習したExpressive TTSシステムの制御性について検討する。 データセットはblizzard 2013データセットで、女性スピーカーが読み取るオーディオブックに基づいており、スタイルや表現力に大きな変動がある。 制御性は主観的実験と主観的実験の両方で評価される。 客観評価は, 音響特徴量と表現性を表す潜在空間の次元との相関を指標として行う。 主観評価は、ユーザが制御可能表現型TSのインタフェースを提示し、参照発話に対応する主観的な表現性を持つ合成発話を検索する知覚実験に基づいている。

In this paper, we study the controllability of an Expressive TTS system trained on a dataset for a continuous control. The dataset is the Blizzard 2013 dataset based on audiobooks read by a female speaker containing a great variability in styles and expressiveness. Controllability is evaluated with both an objective and a subjective experiment. The objective assessment is based on a measure of correlation between acoustic features and the dimensions of the latent space representing expressiveness. The subjective assessment is based on a perceptual experiment in which users are shown an interface for Controllable Expressive TTS and asked to retrieve a synthetic utterance whose expressiveness subjectively corresponds to that a reference utterance.
翻訳日:2021-03-09 15:53:42 公開日:2021-03-06
# 意味セグメンテーションモデルに対する隠れバックドア攻撃

Hidden Backdoor Attack against Semantic Segmentation Models ( http://arxiv.org/abs/2103.04038v1 )

ライセンス: Link先を確認
Yiming Li, Yanjie Li, Yalei Lv, Baoyuan Wu, Yong Jiang, Shu-Tao Xia(参考訳) ディープニューラルネットワーク(DNN)は、トレーニングデータに毒を加えることで、DNNに隠れたバックドアを埋め込もうとする \emph{backdoor attack} に対して脆弱である。 攻撃されたモデルは正常に良質なサンプル上で振る舞うが、隠れたバックドアがアクティベートされた場合、その予測は特定のターゲットラベルに変更される。 これまでのバックドア研究は、主に分類タスクに向けられている。 本稿では、この脅威はセマンティックセグメンテーションでも起こり得ることを明らかにし、多くのミッションクリティカルなアプリケーション(例えば、自動運転)をさらに危険にさらす可能性がある。 イメージレベルからセグメンテーションモデルを悪意的に操作する既存の攻撃パラダイムを拡張することを除いて、より洗練された操作を達成するためにターゲットラベル($i.e.$、アノテーション)をイメージレベルから扱う新しい攻撃パラダイムである \emph{fine-grained attack} を提案する。 細粒度攻撃によって生成された有毒なサンプルのアノテーションでは、特定のオブジェクトのピクセルだけが攻撃者が特定したターゲットクラスにラベル付けされる。 実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。 提案手法は,新たな攻撃設計の新たな視点を提供するだけでなく,セマンティックセグメンテーション手法の堅牢性向上のための強力なベースラインとしても機能する。

Deep neural networks (DNNs) are vulnerable to the \emph{backdoor attack}, which intends to embed hidden backdoors in DNNs by poisoning training data. The attacked model behaves normally on benign samples, whereas its prediction will be changed to a particular target label if hidden backdoors are activated. So far, backdoor research has mostly been conducted towards classification tasks. In this paper, we reveal that this threat could also happen in semantic segmentation, which may further endanger many mission-critical applications ($e.g.$, autonomous driving). Except for extending the existing attack paradigm to maliciously manipulate the segmentation models from the image-level, we propose a novel attack paradigm, the \emph{fine-grained attack}, where we treat the target label ($i.e.$, annotation) from the object-level instead of the image-level to achieve more sophisticated manipulation. In the annotation of poisoned samples generated by the fine-grained attack, only pixels of specific objects will be labeled with the attacker-specified target class while others are still with their ground-truth ones. Experiments show that the proposed methods can successfully attack semantic segmentation models by poisoning only a small proportion of training data. Our method not only provides a new perspective for designing novel attacks but also serves as a strong baseline for improving the robustness of semantic segmentation methods.
翻訳日:2021-03-09 15:53:32 公開日:2021-03-06
# 効率的なディエンス表現によるゼロショットエンティティ検索の改善

Improving Zero-Shot Entity Retrieval through Effective Dense Representations ( http://arxiv.org/abs/2103.04156v1 )

ライセンス: Link先を確認
Eleni Partalidou, Despina Christou and Grigorios Tsoumakas(参考訳) エンティティリンク(el)は、テキスト中のエンティティの言及を知識ベース内のエントリに関連付けることを目的としており、通常は候補生成と候補ランキングの2つのフェーズで構成される。 ほとんどの手法は後者に重点を置いているが、ELシステム全体の時間と精度の両方に上限を設定するのは候補生成フェーズである。 この作業の貢献は、最低候補セット(top-K)に金実体を含む候補を生成することにより、ELのパフォーマンスのしきい値を高める候補生成の大幅な改善である。 BERTベースのバイエンコーダにより、言及エンティティペアを密な空間に効率的に埋め込むシンプルなアプローチを提案します。 具体的には、新たなプーリング関数を導入し、エンティティタイプサイド情報を取り込むことで(wu等、2020年)拡張する。 我々は、Zeshelデータセットの上位50候補に対して、最新の84.28%の精度を、トップ64(Wu et al., 2020)の以前の82.06%と比較して達成した。 提案したモデルを用いた広範囲な実験結果について報告する。 その結果,本手法は既存のELアプローチの補完として有用であることが示唆された。

Entity Linking (EL) seeks to align entity mentions in text to entries in a knowledge-base and is usually comprised of two phases: candidate generation and candidate ranking. While most methods focus on the latter, it is the candidate generation phase that sets an upper bound to both time and accuracy performance of the overall EL system. This work's contribution is a significant improvement in candidate generation which thus raises the performance threshold for EL, by generating candidates that include the gold entity in the least candidate set (top-K). We propose a simple approach that efficiently embeds mention-entity pairs in dense space through a BERT-based bi-encoder. Specifically, we extend (Wu et al., 2020) by introducing a new pooling function and incorporating entity type side-information. We achieve a new state-of-the-art 84.28% accuracy on top-50 candidates on the Zeshel dataset, compared to the previous 82.06% on the top-64 of (Wu et al., 2020). We report the results from extensive experimentation using our proposed model on both seen and unseen entity datasets. Our results suggest that our method could be a useful complement to existing EL approaches.
翻訳日:2021-03-09 15:53:07 公開日:2021-03-06
# 因果的強化学習:インストゥルメンタル変数のアプローチ

Causal Reinforcement Learning: An Instrumental Variable Approach ( http://arxiv.org/abs/2103.04021v1 )

ライセンス: Link先を確認
Jin Li and Ye Luo and Xiaowei Zhang(参考訳) 標準データ分析フレームワークでは、まずデータを(すべてについて)収集し、次にデータ分析を実行する。 デジタル技術の進歩により、意思決定者は過去のデータを常に分析し、意思決定を通じて新しいデータを生成する。 本稿では,これをマルコフ決定過程としてモデル化し,データ生成とデータ解析の動的な相互作用が,標準データ解析における内在性の問題を悪化させる新たなタイプのバイアス -- 強化バイアス -- をもたらすことを示す。 本稿では,そのバイアスを補正し,その漸近特性を2段階の確率近似フレームワークに組み込むことにより,機器変数(IV)に基づく強化学習(RL)アルゴリズムを提案する。 この論文の重要な貢献は、ノイズが時間依存を特徴とする一般的な設定におけるアルゴリズムの分析を可能にする新しい手法の開発である。 有限時間軌道安定性境界におけるよりシャープな結果の導出にこの手法を用いる: 多項式率では、アルゴリズムからのイテレートの将来の軌道は、真のパラメータ中心の球の中に落ち、(微分)多項式レートで縮退する。 また、この手法を用いて、RLアルゴリズムではめったに行われない推論式を提供する。 これらの公式は、IVの強さとノイズの時間依存性の程度が推測にどのように影響するかを強調する。

In the standard data analysis framework, data is first collected (once for all), and then data analysis is carried out. With the advancement of digital technology, decisionmakers constantly analyze past data and generate new data through the decisions they make. In this paper, we model this as a Markov decision process and show that the dynamic interaction between data generation and data analysis leads to a new type of bias -- reinforcement bias -- that exacerbates the endogeneity problem in standard data analysis. We propose a class of instrument variable (IV)-based reinforcement learning (RL) algorithms to correct for the bias and establish their asymptotic properties by incorporating them into a two-timescale stochastic approximation framework. A key contribution of the paper is the development of new techniques that allow for the analysis of the algorithms in general settings where noises feature time-dependency. We use the techniques to derive sharper results on finite-time trajectory stability bounds: with a polynomial rate, the entire future trajectory of the iterates from the algorithm fall within a ball that is centered at the true parameter and is shrinking at a (different) polynomial rate. We also use the technique to provide formulas for inferences that are rarely done for RL algorithms. These formulas highlight how the strength of the IV and the degree of the noise's time dependency affect the inference.
翻訳日:2021-03-09 15:51:19 公開日:2021-03-06
# 投影の蓄積--カーネルリッジ回帰におけるランダムスケッチの統一的枠組み

Accumulations of Projections--A Unified Framework for Random Sketches in Kernel Ridge Regression ( http://arxiv.org/abs/2103.04031v1 )

ライセンス: Link先を確認
Yifan Chen, Yun Yang(参考訳) n-by-n 経験的カーネル行列のスケッチを構築することは、多くのカーネルメソッドの計算を加速するための一般的なアプローチである。 本稿では, スケッチ行列 s を独立列を持つ m 再スケールされた部分サンプリング行列の蓄積と見なすkernel ridge regression (krr) において, スケッチ法を構築するための統一的な枠組みを提案する。 本手法は, m=1 と m=infinity の特殊ケースとして, サブサンプリングスケッチ (nystr\"om 法) とサブガウススケッチ (sub-gaussian sketches) の2つの手法を組み込んでいる。 新たな枠組みでは,スケッチ近似の統一誤差解析を行い,特定の非一貫性特性が高い場合のサブサンプリングスケッチの精度を低下させ,より正確だが計算量の多いサブガウススケッチを高速化することを示す。 累積数 m を最適に選択することにより,計算効率と統計精度の最良のトレードオフが達成できることを示す。 実際、スケッチはサブサンプリングのスケッチと同等に効率的に実装できるが、追加のマトリックスの追加は必要である。 実験により,提案手法はガウス以下のスケッチに近い精度を達成できるが,サブサンプリングに基づくスケッチと同じくらい効率がよいことを示す。

Building a sketch of an n-by-n empirical kernel matrix is a common approach to accelerate the computation of many kernel methods. In this paper, we propose a unified framework of constructing sketching methods in kernel ridge regression (KRR), which views the sketching matrix S as an accumulation of m rescaled sub-sampling matrices with independent columns. Our framework incorporates two commonly used sketching methods, sub-sampling sketches (known as the Nystr\"om method) and sub-Gaussian sketches, as special cases with m=1 and m=infinity respectively. Under the new framework, we provide a unified error analysis of sketching approximation and show that our accumulation scheme improves the low accuracy of sub-sampling sketches when certain incoherence characteristic is high, and accelerates the more accurate but computationally heavier sub-Gaussian sketches. By optimally choosing the number m of accumulations, we show that a best trade-off between computational efficiency and statistical accuracy can be achieved. In practice, the sketching method can be as efficiently implemented as the sub-sampling sketches, as only minor extra matrix additions are needed. Our empirical evaluations also demonstrate that the proposed method may attain the accuracy close to sub-Gaussian sketches, while is as efficient as sub-sampling-based sketches.
翻訳日:2021-03-09 15:50:56 公開日:2021-03-06
# パームタヘドロンの信号処理:ランク付きデータ分析のためのタイトスペクトルフレーム

Signal Processing on the Permutahedron: Tight Spectral Frames for Ranked Data Analysis ( http://arxiv.org/abs/2103.04150v1 )

ライセンス: Link先を確認
Ellen Chen, Jennifer DeJong, Tom Halverson, David I Shuman(参考訳) m のジャッジ/投票者が n のオブジェクト/候補の優先ランキングを指定するランキングデータセットは、政治選挙、コンピュータビジョン、レコメンダーシステム、バイオインフォマティクスなどの文脈でますます普及しています。 各ランキングの投票数をnとして見ることができます! パームタヘドロン上に横たわるデータベクトルは、2つの置換が隣接する転位によって異なる場合の頂点と辺でラベル付けされた対称群のケイリーグラフである。 本稿では,グラフ上での組合せ表現理論と近年の信号処理の進歩を活かし,階層構造を解釈し活用するための新しいスケーラブルな変換法について検討する。 我々は、データに関する滑らかさ情報(典型的にはグラフ信号処理におけるスペクトルグラフ分解手法の焦点)とデータに関する構造情報(典型的には表現理論からの対称性分解手法の焦点)の両方をキャプチャする原子の過剰完全辞書を用いて、パーマヘドロン上のデータを表現する。 これらの原子は、permutahedron上の信号の既知の基礎よりも自然に解釈可能な構造を持ち、Parsevalフレームを形成し、エネルギー保存などの有益な数値特性を保証します。 提案手法のスケーラビリティを向上させるために, パームタヘドロンの対称性と構造を活かした特殊アルゴリズムとオープンソフトウェアを開発し, アプリケーション内の高次元ランキングデータに適用しやすくした。

Ranked data sets, where m judges/voters specify a preference ranking of n objects/candidates, are increasingly prevalent in contexts such as political elections, computer vision, recommender systems, and bioinformatics. The vote counts for each ranking can be viewed as an n! data vector lying on the permutahedron, which is a Cayley graph of the symmetric group with vertices labeled by permutations and an edge when two permutations differ by an adjacent transposition. Leveraging combinatorial representation theory and recent progress in signal processing on graphs, we investigate a novel, scalable transform method to interpret and exploit structure in ranked data. We represent data on the permutahedron using an overcomplete dictionary of atoms, each of which captures both smoothness information about the data (typically the focus of spectral graph decomposition methods in graph signal processing) and structural information about the data (typically the focus of symmetry decomposition methods from representation theory). These atoms have a more naturally interpretable structure than any known basis for signals on the permutahedron, and they form a Parseval frame, ensuring beneficial numerical properties such as energy preservation. We develop specialized algorithms and open software that take advantage of the symmetry and structure of the permutahedron to improve the scalability of the proposed method, making it more applicable to the high-dimensional ranked data found in applications.
翻訳日:2021-03-09 15:50:32 公開日:2021-03-06
# 形態的残差ブロック:医用画像のセマンティックセグメンテーションのための畳み込みニューラルネットワークにおける3次元形態的特徴表現の強化

Morphological Operation Residual Blocks: Enhancing 3D Morphological Feature Representation in Convolutional Neural Networks for Semantic Segmentation of Medical Images ( http://arxiv.org/abs/2103.04026v1 )

ライセンス: Link先を確認
Chentian Li, Chi Ma, William W. Lu(参考訳) 臓器および組織の形状および形態は、医療画像認識およびセグメンテーションにおいて重要な事前知識である。 形態学的操作は、形態学的特徴抽出のよく知られた方法である。 また,手作り画像分割技術では形態的操作が良好に行われているため,畳み込みネットワークにおける近似形態的操作へのアプローチを設計することも期待できる。 しかし、従来の畳み込みニューラルネットワークをブラックボックスとして使用する場合、形態的操作動作を特定するのは難しい。 本稿では,意味セグメンテーションのためのエンド・ツー・エンドディープラーニングモデルにおける形態的特徴を抽出するために,3次元形態的操作残差ブロックを導入した。 本研究では,畳み込みニューラルネットワークにおける形態素演算を無限に強い先行として組み込んだ新しいネットワークブロックアーキテクチャを提案する。 提案する形態的操作ブロックを用いた3次元ディープラーニングモデルを構築し, 異なる医用画像分割タスクで比較した。 実験の結果,提案ネットワークは従来の手法と比較して,セグメント化タスクにおいて比較的高い性能を示した。 結論として,新しいネットワークブロックは従来のネットワークに容易に組み込まれ,医用画像セグメンテーションのための深層学習モデルを効率的に強化することができる。

The shapes and morphology of the organs and tissues are important prior knowledge in medical imaging recognition and segmentation. The morphological operation is a well-known method for morphological feature extraction. As the morphological operation is performed well in hand-crafted image segmentation techniques, it is also promising to design an approach to approximate morphological operation in the convolutional networks. However, using the traditional convolutional neural network as a black-box is usually hard to specify the morphological operation action. Here, we introduced a 3D morphological operation residual block to extract morphological features in end-to-end deep learning models for semantic segmentation. This study proposed a novel network block architecture that embedded the morphological operation as an infinitely strong prior in the convolutional neural network. Several 3D deep learning models with the proposed morphological operation block were built and compared in different medical imaging segmentation tasks. Experimental results showed the proposed network achieved a relatively higher performance in the segmentation tasks comparing with the conventional approach. In conclusion, the novel network block could be easily embedded in traditional networks and efficiently reinforce the deep learning models for medical imaging segmentation.
翻訳日:2021-03-09 15:49:14 公開日:2021-03-06
# 非監視キネマティック・ビジュアルデータアライメントによるドメイン適応型ロボットジェスチャ認識

Domain Adaptive Robotic Gesture Recognition with Unsupervised Kinematic-Visual Data Alignment ( http://arxiv.org/abs/2103.04075v1 )

ライセンス: Link先を確認
Xueying Shi, Yueming Jin, Qi Dou, Jing Qin, and Pheng-Ann Heng(参考訳) ロボットによる最小侵襲手術では,自動ジェスチャー認識が重要である。 しかし,既存の手法では,シミュレータや実ロボットのような領域ギャップが存在する場合,トレーニングデータとテストデータが同一の領域から来ていると仮定している。 本論文では,マルチモダリティの知識,すなわちキネマティックデータと視覚データの両方をシミュレータから実ロボットに同時に転送する,新しい非監視領域適応フレームワークを提案する。 ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。 具体的には, 時間的連続性を利用して位置値よりも少ないギャップで動き方向を移動し, 適応負担を軽減するmdo-kを提案する。 さらに,キネマティクスと視覚の共起信号を伝達するKV-Relation-ATTを提案する。 このような相関類似性は、モデルのドメイン不変性を高めるためにより有益である。 2つの機能アライメント戦略は、エンドツーエンドの学習プロセス中に相互に利益をもたらす。 ペグ転送処理を用いたDESKデータセットを用いたジェスチャー認識の手法を幅広く評価する。 その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。

Automated surgical gesture recognition is of great importance in robot-assisted minimally invasive surgery. However, existing methods assume that training and testing data are from the same domain, which suffers from severe performance degradation when a domain gap exists, such as the simulator and real robot. In this paper, we propose a novel unsupervised domain adaptation framework which can simultaneously transfer multi-modality knowledge, i.e., both kinematic and visual data, from simulator to real robot. It remedies the domain gap with enhanced transferable features by using temporal cues in videos, and inherent correlations in multi-modal towards recognizing gesture. Specifically, we first propose an MDO-K to align kinematics, which exploits temporal continuity to transfer motion directions with smaller gap rather than position values, relieving the adaptation burden. Moreover, we propose a KV-Relation-ATT to transfer the co-occurrence signals of kinematics and vision. Such features attended by correlation similarity are more informative for enhancing domain-invariance of the model. Two feature alignment strategies benefit the model mutually during the end-to-end learning process. We extensively evaluate our method for gesture recognition using DESK dataset with peg transfer procedure. Results show that our approach recovers the performance with great improvement gains, up to 12.91% in ACC and 20.16% in F1score without using any annotations in real robot.
翻訳日:2021-03-09 15:48:55 公開日:2021-03-06
# panoptic lintention network : 視覚障害者の効率的なナビゲーション知覚に向けて

Panoptic Lintention Network: Towards Efficient Navigational Perception for the Visually Impaired ( http://arxiv.org/abs/2103.04128v1 )

ライセンス: Link先を確認
Wei Mao, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen(参考訳) 古典的なコンピュータビジョンアルゴリズム、インスタンスセグメンテーション、セマンティックセグメンテーションは視覚障害者の周囲を総合的に理解することができない。 本論文では,視覚障がい者のナビゲーションを支援するために,視覚障がい者の近辺でモノとモノの両方の認識を提供することにより,パンオプティカルセグメンテーションを活用する。 この目的のために,線形空間を用いて長距離相互作用を線形時間でモデル化できる効率的なアテンションモジュール-Lintentionを提案する。 次に、Lintentionに基づいて、Panoptic Lintention Netと呼ばれる新しいPanoptic segmentationモデルを作成する。 COCOデータセットの実験によると、Panoptic Lintention NetはPanoptic Quality (PQ)を39.39から41.42に引き上げ、パフォーマンスは4.6\%、GFLOPは10.%、セマンティックブランチではパラメータは25.%である。 さらに,我々の設計した小型ウェアラブルpanopticセグメンテーションシステムを用いた実世界のテストにより,panoptic lintention netに基づくシステムは,実世界のシーンにおいて比較的安定かつ極めて顕著なpanopticセグメンテーションを実現することが示された。

Classic computer vision algorithms, instance segmentation, and semantic segmentation can not provide a holistic understanding of the surroundings for the visually impaired. In this paper, we utilize panoptic segmentation to assist the navigation of visually impaired people by offering both things and stuff awareness in the proximity of the visually impaired efficiently. To this end, we propose an efficient Attention module -- Lintention which can model long-range interactions in linear time using linear space. Based on Lintention, we then devise a novel panoptic segmentation model which we term Panoptic Lintention Net. Experiments on the COCO dataset indicate that the Panoptic Lintention Net raises the Panoptic Quality (PQ) from 39.39 to 41.42 with 4.6\% performance gain while only requiring 10\% fewer GFLOPs and 25\% fewer parameters in the semantic branch. Furthermore, a real-world test via our designed compact wearable panoptic segmentation system, indicates that our system based on the Panoptic Lintention Net accomplishes a relatively stable and exceptionally remarkable panoptic segmentation in real-world scenes.
翻訳日:2021-03-09 15:48:32 公開日:2021-03-06
# 後部サンプリングCGANによる高精細画像の高精細化

High Perceptual Quality Image Denoising with a Posterior Sampling CGAN ( http://arxiv.org/abs/2103.04192v1 )

ライセンス: Link先を確認
Guy Ohayon, Theo Adrai, Gregory Vaksman, Michael Elad, Peyman Milanfar(参考訳) 深層学習(DL)における膨大な研究は、画像解読研究の飛躍をもたらしました。 このタスクのためのほとんどのDLソリューションは、歪み性能を最大化しながら、デノイザーのアーキテクチャに力を注いでいます。 しかし、歪み駆動ソリューションは、特に不適応なノイズレベルで、サブ最適な知覚品質でぼやけ結果につながります。 本稿では,清潔な情報源に忠実な鮮明で視覚的に満足な画像を作成することを目的とした,異なる視点を提案する。 正式には、当社の目標は、許容できる歪みで高い知覚品質を達成することです。 これは、条件付き生成逆数ネットワーク(CGAN)の枠組みで生成者として訓練された後部分布からサンプルを採取する確率的デノイザによって達成される。 CGANsは、知覚品質と矛盾する歪みベースの正規化用語とは対照的に、個々のサンプルに歪み要件を強制するものではなく、その平均に基づいて理論的に確立されたペナルティ用語を紹介します。 提案手法は, 改質消音目標を達成し, 不動騒音レベルで鮮やかで多様な結果を生み出す, 斬新な消音アーキテクチャで紹介する。

The vast work in Deep Learning (DL) has led to a leap in image denoising research. Most DL solutions for this task have chosen to put their efforts on the denoiser's architecture while maximizing distortion performance. However, distortion driven solutions lead to blurry results with sub-optimal perceptual quality, especially in immoderate noise levels. In this paper we propose a different perspective, aiming to produce sharp and visually pleasing denoised images that are still faithful to their clean sources. Formally, our goal is to achieve high perceptual quality with acceptable distortion. This is attained by a stochastic denoiser that samples from the posterior distribution, trained as a generator in the framework of conditional generative adversarial networks (CGANs). Contrary to distortion-based regularization terms that conflict with perceptual quality, we introduce to the CGANs objective a theoretically founded penalty term that does not force a distortion requirement on individual samples, but rather on their mean. We showcase our proposed method with a novel denoiser architecture that achieves the reformed denoising goal and produces vivid and diverse outcomes in immoderate noise levels.
翻訳日:2021-03-09 15:47:49 公開日:2021-03-06
# 通信保証付きネットワーク上の線形回帰

Linear Regression over Networks with Communication Guarantees ( http://arxiv.org/abs/2103.04140v1 )

ライセンス: Link先を確認
Konstantinos Gatsis(参考訳) スマートシティ、スマートトランスポーテーションシステム、産業用インターネットなど、新しい接続された自律システムの主要な機能は、異なる物理的場所で収集されたデータから処理および学習する能力である。 これは分散学習と連合学習という観点から、ますます注目を集めている。 しかし、コネクテッド・オートマチック・システムでは、リソースが限られている通信ネットワーク上でデータ転送が行われる。 本稿では,線形回帰タスクのためのコミュニケーション効率の高い学習のためのアルゴリズムについて検討する。 開発したアルゴリズムは、理論的性能保証と効率的な実践的実装によるコミュニケーションと学習のトレードオフを可能にする。

A key functionality of emerging connected autonomous systems such as smart cities, smart transportation systems, and the industrial Internet-of-Things, is the ability to process and learn from data collected at different physical locations. This is increasingly attracting attention under the terms of distributed learning and federated learning. However, in connected autonomous systems, data transfer takes place over communication networks with often limited resources. This paper examines algorithms for communication-effici ent learning for linear regression tasks by exploiting the informativeness of the data. The developed algorithms enable a tradeoff between communication and learning with theoretical performance guarantees and efficient practical implementations.
翻訳日:2021-03-09 15:46:47 公開日:2021-03-06
# PISE:非結合GANによる人物画像の合成と編集

PISE: Person Image Synthesis and Editing with Decoupled GAN ( http://arxiv.org/abs/2103.04023v1 )

ライセンス: Link先を確認
Jinsong Zhang, Kun Li, Yu-Kun Lai, Jingyu Yang(参考訳) ポーズ転送などの人物画像合成は、大きな変化と閉塞による困難な問題である。 既存の方法は、合理的な可視領域の予測が困難であり、衣服の形状とスタイルを分離することができず、人の画像編集への適用が制限されます。 本論文では,目的のポーズ,テクスチャ,あるいはセマンティックレイアウトでリアルな人物画像を生成することができる,人物画像合成と編集のための新しい二段階生成モデルであるPISEを提案する。 ヒトのポーズ伝達のために,まず対象のポーズに合わせた人間のパーシングマップを合成し,パーシングジェネレータで衣服の形状を表現し,画像生成装置で最終画像を生成する。 衣服の形状と様式を分離するために,地域別および地域別エンコーディングと正規化を共同で提案し,不可視領域における服の合理的なスタイルを予測する。 また,画像中の空間的文脈関係を維持するために空間認識正規化を提案する。 定性的,定量的な実験の結果,人間のポーズ伝達におけるモデルの有用性が示された。 また, テクスチャ転送と領域編集の結果から, 本モデルは人物画像編集に適用可能であることが示された。

Person image synthesis, e.g., pose transfer, is a challenging problem due to large variation and occlusion. Existing methods have difficulties predicting reasonable invisible regions and fail to decouple the shape and style of clothing, which limits their applications on person image editing. In this paper, we propose PISE, a novel two-stage generative model for Person Image Synthesis and Editing, which is able to generate realistic person images with desired poses, textures, or semantic layouts. For human pose transfer, we first synthesize a human parsing map aligned with the target pose to represent the shape of clothing by a parsing generator, and then generate the final image by an image generator. To decouple the shape and style of clothing, we propose joint global and local per-region encoding and normalization to predict the reasonable style of clothing for invisible regions. We also propose spatial-aware normalization to retain the spatial context relationship in the source image. The results of qualitative and quantitative experiments demonstrate the superiority of our model on human pose transfer. Besides, the results of texture transfer and region editing show that our model can be applied to person image editing.
翻訳日:2021-03-09 15:42:51 公開日:2021-03-06
# ClassSR: 超リゾリューションネットワークをデータ特性で高速化する汎用フレームワーク

ClassSR: A General Framework to Accelerate Super-Resolution Networks by Data Characteristic ( http://arxiv.org/abs/2103.04039v1 )

ライセンス: Link先を確認
Xiangtao Kong, Hengyuan Zhao, Yu Qiao, Chao Dong(参考訳) 大型画像(2K-8K)上での超解像(SR)ネットワークの高速化を目指す。 大きな画像は通常、実用上は小さなサブ画像に分解される。 この処理に基づいて,画像領域が異なる復元難易度を有し,キャパシティの異なるネットワークで処理できることを見出した。 直感的には、滑らかな領域は複雑なテクスチャよりも超解けやすい。 この特性を利用するために,分解後のサブイメージの処理に適切なsrネットワークを適用できる。 そこで、分類とSRを統一したフレームワークで組み合わせた新しいソリューションパイプラインであるClassSRを提案します。 特に、修復困難に応じてサブイメージを異なるクラスに分類するためにClass-Moduleを使用し、異なるクラスに対してSRを実行するためにSR-Moduleを適用する。 Class-Moduleは従来の分類ネットワークであり、SR-Moduleはto-be-accelerated SRネットワークとその簡略化されたバージョンからなるネットワークコンテナである。 さらに,分類結果を生成するために,クラス損失と平均損失という2つの損失を持つ新しい分類法を提案する。 共同トレーニングの後、サブイメージの大部分は小さなネットワークを通過するため、計算コストを大幅に削減できます。 実験の結果、我々のClassSRは既存のほとんどのメソッド(FSRCNN、CARN、SRResNet、RCAN)をDIV8Kデータセット上で最大50%のFLOPを節約できることがわかった。 この一般的なフレームワークは、他の低レベルビジョンタスクにも適用できます。

We aim at accelerating super-resolution (SR) networks on large images (2K-8K). The large images are usually decomposed into small sub-images in practical usages. Based on this processing, we found that different image regions have different restoration difficulties and can be processed by networks with different capacities. Intuitively, smooth areas are easier to super-solve than complex textures. To utilize this property, we can adopt appropriate SR networks to process different sub-images after the decomposition. On this basis, we propose a new solution pipeline -- ClassSR that combines classification and SR in a unified framework. In particular, it first uses a Class-Module to classify the sub-images into different classes according to restoration difficulties, then applies an SR-Module to perform SR for different classes. The Class-Module is a conventional classification network, while the SR-Module is a network container that consists of the to-be-accelerated SR network and its simplified versions. We further introduce a new classification method with two losses -- Class-Loss and Average-Loss to produce the classification results. After joint training, a majority of sub-images will pass through smaller networks, thus the computational cost can be significantly reduced. Experiments show that our ClassSR can help most existing methods (e.g., FSRCNN, CARN, SRResNet, RCAN) save up to 50% FLOPs on DIV8K datasets. This general framework can also be applied in other low-level vision tasks.
翻訳日:2021-03-09 15:42:31 公開日:2021-03-06
# クラスインクリメンタル学習のための意味認識型知識蒸留

Semantic-aware Knowledge Distillation for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2103.04059v1 )

ライセンス: Link先を確認
Ali Cheraghian, Shafin Rahman, Pengfei Fang, Soumava Kumar Roy, Lars Petersson, Mehrtash Harandi(参考訳) FSCIL (Few-shot class incremental learning) は、新しい概念を徐々に学習する問題を表現しており、学習者には1つの概念の例がわずかに限られている。 トレーニングの例が限られているため、標準的なインクリメンタル学習のために開発された技術は、fscilには適用できない。 本研究では,FSCILの問題点に対処する蒸留アルゴリズムを導入し,トレーニング中に意味情報を活用することを提案する。 そのためには、単語埋め込みを意味情報として利用し、安価に取得でき、蒸留プロセスを容易にします。 さらに,視覚データの複数並列埋め込みに対する注意メカニズムに基づく手法を提案し,視覚的および意味的ベクトルを整列させ,壊滅的忘れに関する問題を低減する。 MiniImageNet, CUB200, CIFAR100データセットを用いた実験により, 既存の手法よりも優れた結果が得られた。

Few-shot class incremental learning (FSCIL) portrays the problem of learning new concepts gradually, where only a few examples per concept are available to the learner. Due to the limited number of examples for training, the techniques developed for standard incremental learning cannot be applied verbatim to FSCIL. In this work, we introduce a distillation algorithm to address the problem of FSCIL and propose to make use of semantic information during training. To this end, we make use of word embeddings as semantic information which is cheap to obtain and which facilitate the distillation process. Furthermore, we propose a method based on an attention mechanism on multiple parallel embeddings of visual data to align visual and semantic vectors, which reduces issues related to catastrophic forgetting. Via experiments on MiniImageNet, CUB200, and CIFAR100 dataset, we establish new state-of-the-art results by outperforming existing approaches.
翻訳日:2021-03-09 15:42:09 公開日:2021-03-06
# jellyfish bloomsを通知する自動ソナービデオ解析の改善

Improving Automated Sonar Video Analysis to Notify About Jellyfish Blooms ( http://arxiv.org/abs/2103.04068v1 )

ライセンス: Link先を確認
Artjoms Gorpincenko, Geoffrey French, Peter Knight, Mike Challiss, Michal Mackiewicz(参考訳) 人間企業は、しばしばクラゲの花によって引き起こされる直接的な悪影響に苦しむ。 以前のjellyfishモニタリングシステムの調査は、クロス検証設定で確実に実行できないことを示した。 新しい水中環境です 本稿では,オブジェクトの分類に責任を負うシステムの一部に,いくつかの改良が提案されている。 まず、トレーニングセットは合成データを追加することで拡張され、ディープラーニング分類器はよりよく一般化することができる。 そして、第1ネットワークの出力を分析して最終的な予測を行う新しい第2段階モデルを採用することで、フレームワークを強化します。 最後に、trueとfalse positiveのバランスを取るために、重み付き損失と信頼しきい値が追加される。 すべてのアップグレードが行われると、システムは、すべての検出されたクラゲの30.16%(初期11.52%)を正しく分類し、0.91%(初期2.26%)の偽陽性率を維持し、自律的な組込みプラットフォームの計算制約内でリアルタイムに運用することができる。

Human enterprise often suffers from direct negative effects caused by jellyfish blooms. The investigation of a prior jellyfish monitoring system showed that it was unable to reliably perform in a cross validation setting, i.e. in new underwater environments. In this paper, a number of enhancements are proposed to the part of the system that is responsible for object classification. First, the training set is augmented by adding synthetic data, making the deep learning classifier able to generalise better. Then, the framework is enhanced by employing a new second stage model, which analyzes the outputs of the first network to make the final prediction. Finally, weighted loss and confidence threshold are added to balance out true and false positives. With all the upgrades in place, the system can correctly classify 30.16% (comparing to the initial 11.52%) of all spotted jellyfish, keep the amount of false positives as low as 0.91% (comparing to the initial 2.26%) and operate in real-time within the computational constraints of an autonomous embedded platform.
翻訳日:2021-03-09 15:41:55 公開日:2021-03-06
# 意味セグメンテーションのための統計的テクスチャの学習

Learning Statistical Texture for Semantic Segmentation ( http://arxiv.org/abs/2103.04133v1 )

ライセンス: Link先を確認
Lanyun Zhu, Deyi Ji, Shiping Zhu, Weihao Gan, Wei Wu, Junjie Yan(参考訳) 既存のセマンティクスセグメンテーションは、主にcnnでハイレベルセマンティクス機能でコンテキスト情報を学ぶことに焦点を当てている。 正確な境界を維持するために、低レベルのテクスチャ機能は、深い層に直接スキップ接続される。 それにもかかわらず、テクスチャの特徴は、ローカル構造だけでなく、入力画像のグローバルな統計的知識も含んでいます。 本稿では,低レベルのテクスチャ機能を最大限に活用し,セマンティックセグメンテーションのための統計的テクスチャ学習ネットワーク(STLNet)を提案する。 STLNetは、初めて低レベルの情報の分布を分析し、それらをタスクに効率的に活用する。 具体的には、QCO(Quantization and Counting Operator)が統計的にテクスチャ情報を記述するように設計されている。 1)テクスチャ関連情報を捕捉し,テクスチャの詳細を強化するためのテクスチャエンハンスモジュール(TEM),(2)ピラミッドテクスチャ特徴抽出モジュール(PTFEM)の2つのモジュールを導入し,複数のスケールから統計的テクスチャ特徴を効果的に抽出する。 STLNetは3つのセマンティックセグメンテーションベンチマーク(Cityscapes, PASCAL Context, ADE20K)で最先端のパフォーマンスを実現する。

Existing semantic segmentation works mainly focus on learning the contextual information in high-level semantic features with CNNs. In order to maintain a precise boundary, low-level texture features are directly skip-connected into the deeper layers. Nevertheless, texture features are not only about local structure, but also include global statistical knowledge of the input image. In this paper, we fully take advantages of the low-level texture features and propose a novel Statistical Texture Learning Network (STLNet) for semantic segmentation. For the first time, STLNet analyzes the distribution of low level information and efficiently utilizes them for the task. Specifically, a novel Quantization and Counting Operator (QCO) is designed to describe the texture information in a statistical manner. Based on QCO, two modules are introduced: (1) Texture Enhance Module (TEM), to capture texture-related information and enhance the texture details; (2) Pyramid Texture Feature Extraction Module (PTFEM), to effectively extract the statistical texture features from multiple scales. Through extensive experiments, we show that the proposed STLNet achieves state-of-the-art performance on three semantic segmentation benchmarks: Cityscapes, PASCAL Context and ADE20K.
翻訳日:2021-03-09 15:41:38 公開日:2021-03-06
# 閉塞処理による簡易オンライン・リアルタイムトラッキング

Simple online and real-time tracking with occlusion handling ( http://arxiv.org/abs/2103.04147v1 )

ライセンス: Link先を確認
Mohammad Hossein Nasseri, Hadi Moradi, Reshad Hosseini, Mohammadreza Babaee(参考訳) マルチオブジェクトトラッキングは、動き予測、閉塞処理、オブジェクト再同定の扱いが困難であるため、コンピュータビジョンにおいて困難な問題です。 最近の多くのアルゴリズムは、これらの課題を克服するために動きと外観の手がかりを使用する。 しかし、外観キューを使用すると、計算コストが著しく増加するため、アルゴリズムの速度が大幅に低下するため、オンラインアプリケーションには不適切です。 対照的に、特にオンラインアプリケーションでは、スピードを上げるためにモーションキューのみを使用するアルゴリズムがある。 しかし、これらのアルゴリズムは閉塞を処理し、失われたオブジェクトを再同定することはできない。 本論文では, 物体の幾何学的キューのみを用いて, 閉塞と再同定の課題を同時に解決するオンライン複数物体追跡アルゴリズムを提案する。 その結果、アイデンティティスイッチとフラグメンテーションメトリクスが減少します。 実験の結果,提案アルゴリズムは,美術オンライン追跡アルゴリズムの状況と比較して,アイデンティティスイッチを40%削減し,フラグメンテーションを28%削減できることがわかった。 コードも公開されている。

Multiple object tracking is a challenging problem in computer vision due to difficulty in dealing with motion prediction, occlusion handling, and object re-identification. Many recent algorithms use motion and appearance cues to overcome these challenges. But using appearance cues increases the computation cost notably and therefore the speed of the algorithm decreases significantly which makes them inappropriate for online applications. In contrast, there are algorithms that only use motion cues to increase speed, especially for online applications. But these algorithms cannot handle occlusions and re-identify lost objects. In this paper, a novel online multiple object tracking algorithm is presented that only uses geometric cues of objects to tackle the occlusion and reidentification challenges simultaneously. As a result, it decreases the identity switch and fragmentation metrics. Experimental results show that the proposed algorithm could decrease identity switch by 40% and fragmentation by 28% compared to the state of the art online tracking algorithms. The code is also publicly available.
翻訳日:2021-03-09 15:41:13 公開日:2021-03-06
# 大規模映像予測のためのGreedy Hierarchical Variational Autoencoders

Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction ( http://arxiv.org/abs/2103.04174v1 )

ライセンス: Link先を確認
Bohan Wu, Suraj Nair, Roberto Martin-Martin, Li Fei-Fei, Chelsea Finn(参考訳) 多様なシーンに一般化する映像予測モデルにより、ロボットなどのインテリジェントエージェントがモデルで計画して様々なタスクを実行できるようになります。 しかしながら、既存のビデオ予測モデルは、小さなデータセットで有望な結果を生み出しているが、大規模で多様なデータセットでトレーニングされた場合、深刻な不適合に苦しんでいる。 この困難な課題に対処するために、私たちは最初に、より大きなビデオ予測モデルを訓練する能力は、GPUやTPUのメモリ制約によってボトルネックになることを観察しました。 並行して、深い階層的潜在変数モデルでは、将来の観測の多レベル確率性を捉えることで、より高い品質の予測ができるが、そのようなモデルのエンドツーエンド最適化は特に困難である。 私たちの重要な洞察力は、階層的オートエンコーダの勾配的およびモジュラー最適化が、大規模ビデオ予測のメモリ制約と最適化の課題の両方を同時に解決できることです。 本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs) を紹介する。 最先端モデルと比較して、GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールの追加だけでパフォーマンスを単調に改善することができる。

A video prediction model that generalizes to diverse scenes would enable intelligent agents such as robots to perform a variety of tasks via planning with the model. However, while existing video prediction models have produced promising results on small datasets, they suffer from severe underfitting when trained on large and diverse datasets. To address this underfitting challenge, we first observe that the ability to train larger video prediction models is often bottlenecked by the memory constraints of GPUs or TPUs. In parallel, deep hierarchical latent variable models can produce higher quality predictions by capturing the multi-level stochasticity of future observations, but end-to-end optimization of such models is notably difficult. Our key insight is that greedy and modular optimization of hierarchical autoencoders can simultaneously address both the memory constraints and the optimization challenges of large-scale video prediction. We introduce Greedy Hierarchical Variational Autoencoders (GHVAEs), a method that learns high-fidelity video predictions by greedily training each level of a hierarchical autoencoder. In comparison to state-of-the-art models, GHVAEs provide 17-55% gains in prediction performance on four video datasets, a 35-40% higher success rate on real robot tasks, and can improve performance monotonically by simply adding more modules.
翻訳日:2021-03-09 15:40:58 公開日:2021-03-06
# Actor-Critic-based Deep Reinforcement Learningにおける注意機構を用いた視覚説明

Visual Explanation using Attention Mechanism in Actor-Critic-based Deep Reinforcement Learning ( http://arxiv.org/abs/2103.04067v1 )

ライセンス: Link先を確認
Hidenori Itaya, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi, Komei Sugiura(参考訳) 深層強化学習(DRL)は,ゲームやロボット制御といった複雑な環境において,最適な行動を得る大きな可能性を持っている。 しかし,エージェントの意思決定,すなわち学習によって獲得された行動を選択する理由を分析することは困難である。 本研究では,アクタ批判に基づくDRL手法であるAsynchronous Advantage Actor-Critic(A3C)に注意機構を導入し,DRLにおけるエージェントの意思決定を解析できるMask-Attention A3C(Mask A3C)を提案する。 A3Cは、画像から特徴を抽出する特徴抽出器と、ポリシーを出力するポリシーブランチと、状態値を出力する値ブランチとから構成される。 本手法では,政策と価値の分岐に焦点をあて,それらに注意機構を導入する。 注意メカニズムは、ヒートマップでポリシーと状態値の判断理由を表現するマスクアテンションを使用して、各ブランチの特徴マップにマスク処理を適用します。 Atari 2600のゲームにおけるマスクアテンションマップを可視化し、エージェントの意思決定の背後にある理由を様々なゲームタスクで簡単に分析できることを発見しました。 さらに, 実験結果から, 注意メカニズムの導入により, より高い性能を発揮できることが示された。

Deep reinforcement learning (DRL) has great potential for acquiring the optimal action in complex environments such as games and robot control. However, it is difficult to analyze the decision-making of the agent, i.e., the reasons it selects the action acquired by learning. In this work, we propose Mask-Attention A3C (Mask A3C), which introduces an attention mechanism into Asynchronous Advantage Actor-Critic (A3C), which is an actor-critic-based DRL method, and can analyze the decision-making of an agent in DRL. A3C consists of a feature extractor that extracts features from an image, a policy branch that outputs the policy, and a value branch that outputs the state value. In this method, we focus on the policy and value branches and introduce an attention mechanism into them. The attention mechanism applies a mask processing to the feature maps of each branch using mask-attention that expresses the judgment reason for the policy and state value with a heat map. We visualized mask-attention maps for games on the Atari 2600 and found we could easily analyze the reasons behind an agent's decision-making in various game tasks. Furthermore, experimental results showed that the agent could achieve a higher performance by introducing the attention mechanism.
翻訳日:2021-03-09 15:29:27 公開日:2021-03-06
# 人間とロボットのコラボレーションのための到達可能なワークスペースにおけるキャパシティキャリブレーション

Show Me What You Can Do: Capability Calibration on Reachable Workspace for Human-Robot Collaboration ( http://arxiv.org/abs/2103.04077v1 )

ライセンス: Link先を確認
Xiaofeng Gao, Luyao Yuan, Tianmin Shu, Hongjing Lu, Song-Chun Zhu(参考訳) ロボットが真の能力でできることを人間の評価に合わせることは、共同作業で共同作業を行うとき、人間とロボットのパートナーの間で共通の基盤を確立するために不可欠です。 本研究では,ロボットの到達可能な作業空間に対する人間の推定を,コラボレーション前に少数のデモンストレーションを通じて校正する手法を提案する。 ロボットの運動能力を明らかにするために、ロボット動作の物理的コストと表現力を共同最適化する新しい運動計画手法であるREMP(Reachability-Ex pressive Motion Planning)を開発しています。 実験では,rempを用いた短時間のキャリブレーションが,非熟練者がロボットが到達できると考えるものと地対面との間のギャップを効果的に橋渡しできることを実証した。 この校正手順は,ユーザ認識の向上だけでなく,その後の共同作業において,より効率的な人間とロボットのコラボレーションを促進することも示している。

Aligning humans' assessment of what a robot can do with its true capability is crucial for establishing a common ground between human and robot partners when they collaborate on a joint task. In this work, we propose an approach to calibrate humans' estimate of a robot's reachable workspace through a small number of demonstrations before collaboration. We develop a novel motion planning method, REMP (Reachability-Expres sive Motion Planning), which jointly optimizes the physical cost and the expressiveness of robot motion to reveal the robot's motion capability to a human observer. Our experiments with human participants demonstrate that a short calibration using REMP can effectively bridge the gap between what a non-expert user thinks a robot can reach and the ground-truth. We show that this calibration procedure not only results in better user perception, but also promotes more efficient human-robot collaborations in a subsequent joint task.
翻訳日:2021-03-09 15:26:13 公開日:2021-03-06
# 高次元MRI再構成のためのメモリ効率学習

Memory-efficient Learning for High-Dimensional MRI Reconstruction ( http://arxiv.org/abs/2103.04003v1 )

ライセンス: Link先を確認
Ke Wang, Michael Kellman, Christopher M. Sandino, Kevin Zhang, Shreyas S. Vasanawala, Jonathan I. Tamir, Stella X. Yu, Michael Lustig(参考訳) 深層学習(DL)をベースとした画像再構成は,MRI(Under-sampled magnetic resonance imaging)の最先端性能を示している。 圧縮センシングと同様に、DLは高次元データ(例えば)を利用することができる。 さらに性能を改善する3D、2D+time、3D+time)。 しかし、現在のネットワークサイズと深さは、バックプロパゲーションに必要なGPUメモリによって制限されている。 ここでは、メモリ効率の学習(MEL)フレームワークを使用し、ストレージとトレーニング中の計算量の管理可能な増加とを良好に交換する。 多次元データを用いたMELを用いて、生体内3次元MRIと2次元+時間心血管MRIにおける画像再構成性能の向上を実証した。 MELはGPUメモリをはるかに少なくし、トレーニング時間を大幅に短縮し、高次元MRIへのDLの新しいアプリケーションを可能にします。

Deep learning (DL) based unrolled reconstructions have shown state-of-the-art performance for under-sampled magnetic resonance imaging (MRI). Similar to compressed sensing, DL can leverage high-dimensional data (e.g. 3D, 2D+time, 3D+time) to further improve performance. However, network size and depth are currently limited by the GPU memory required for backpropagation. Here we use a memory-efficient learning (MEL) framework which favorably trades off storage with a manageable increase in computation during training. Using MEL with multi-dimensional data, we demonstrate improved image reconstruction performance for in-vivo 3D MRI and 2D+time cardiac cine MRI. MEL uses far less GPU memory while marginally increasing the training time, which enables new applications of DL to high-dimensional MRI.
翻訳日:2021-03-09 15:21:45 公開日:2021-03-06
# モデルベース計画による車両軌道予測の学習

Learning to Predict Vehicle Trajectories with Model-based Planning ( http://arxiv.org/abs/2103.04027v1 )

ライセンス: Link先を確認
Haoran Song, Di Luan, Wenchao Ding, Michael Yu Wang, and Qifeng Chen(参考訳) 路上車両の将来の軌跡を予測することは、自動運転にとって不可欠である。 本稿では,モデルベース計画による予測の略であるPRIMEという新しい予測フレームワークについて紹介する。 ニューラルネットワークを用いてシーンコンテキストをモデル化し、制約のない軌跡を生成する最近の予測とは違って、PRIMEは、モデルベースのジェネレータを使用して将来の軌跡を明示的な制約の下で生成し、学習ベースの評価器を使用して将来の軌跡を選択することによって正確なマルチモーダル予測を可能にすることにより、正確なかつ実現可能な将来の軌跡予測を生成するように設計されている。 大規模Argoverse Motion Forecasting Benchmarkの実験を行います。 我々のPRIMEは、不完全追跡下での予測精度、実現可能性、堅牢性において最先端の手法より優れています。 さらに、私たちはArgoervese Leaderboardで1位を獲得しました。

Predicting the future trajectories of on-road vehicles is critical for autonomous driving. In this paper, we introduce a novel prediction framework called PRIME, which stands for Prediction with Model-based Planning. Unlike recent prediction works that utilize neural networks to model scene context and produce unconstrained trajectories, PRIME is designed to generate accurate and feasibility-guarante ed future trajectory predictions, which guarantees the trajectory feasibility by exploiting a model-based generator to produce future trajectories under explicit constraints and enables accurate multimodal prediction by using a learning-based evaluator to select future trajectories. We conduct experiments on the large-scale Argoverse Motion Forecasting Benchmark. Our PRIME outperforms state-of-the-art methods in prediction accuracy, feasibility, and robustness under imperfect tracking. Furthermore, we achieve the 1st place on the Argoervese Leaderboard.
翻訳日:2021-03-09 15:21:33 公開日:2021-03-06
# 機械学習普遍ポテンシャル関数を用いた分子モデリング

Molecular modeling with machine-learned universal potential functions ( http://arxiv.org/abs/2103.04162v1 )

ライセンス: Link先を確認
Ke Liu, Zekun Ni, Zhenyu Zhou, Suocheng Tan, Xun Zou, Haoming Xing, Xiangyan Sun, Qi Han, Junqiu Wu and Jie Fan(参考訳) 分子モデリングは創薬において重要なトピックである。 研究の数十年は、高品質でスケーラブルな分子力場の開発につながった。 本稿では,ニューラルネットワークを用いてエネルギーポテンシャル関数の普遍近似子を訓練できることを示した。 完全に自動化されたトレーニングプロセスを組み込むことで、大規模結晶構造に滑らかで差別化可能で予測可能な電位関数を訓練することができました。 機械駆動モデルの優越性と汎用性を示すために、様々な試験も行われている。

Molecular modeling is an important topic in drug discovery. Decades of research have led to the development of high quality scalable molecular force fields. In this paper, we show that neural networks can be used to train an universal approximator for energy potential functions. By incorporating a fully automated training process we have been able to train smooth, differentiable, and predictive potential functions on large scale crystal structures. A variety of tests have also performed to show the superiority and versatility of the machine-learned model.
翻訳日:2021-03-09 15:15:40 公開日:2021-03-06
# AQCM(Automatic Quasi-Clique Merger)アルゴリズム

The Automatic Quasi-clique Merger algorithm (AQCM) ( http://arxiv.org/abs/2103.04186v1 )

ライセンス: Link先を確認
Scott Payne, Edgar Fuller, George Spirou, Cun-Quan Zhang(参考訳) Automatic Quasi-clique Merger アルゴリズムは、QCM (quasi-clique merger) (Ou2006, Ou2007, Zhao2011, Qi2014) という名前で初期の研究から適応された新しいアルゴリズムである。 AQCMアルゴリズムは、任意のデータiとデータjの類似度を定量化する関連する類似度尺度があるデータセットの階層的クラスタリングを実行する。 1 つの重要な性能特性を示す: 1) パラメータではなく、データ固有の性質によらず、大きなクラスタまたは小さなクラスタを自動で返却する能力、2 つのデータセットで適切に定義されているときに、非常に多数の比較的小さなクラスタを自動的に返却する能力。 本稿では,準斜晶凝集アプローチの一般的な考え方を提示し,aqcmアルゴリズムの数学的ステップの詳細な説明を行い,新しい手法の背後にある動機について述べる。 新しい手法の主な成果は、凝集過程が与えられたデータセット固有の構造に従って適応的に展開され、これは前回のQCMアルゴリズムを駆動する時間費用パラメータ調整なしで起こることである。 このため、新しいアルゴリズムを「emph{automatic}」と呼ぶ。 我々は,22,900ノードのソーシャルメディアネットワークにおいて,コミュニティ検出作業におけるアルゴリズムの性能の実証を行う。

The Automatic Quasi-clique Merger algorithm is a new algorithm adapted from early work published under the name QCM (quasi-clique merger) [Ou2006, Ou2007, Zhao2011, Qi2014]. The AQCM algorithm performs hierarchical clustering in any data set for which there is an associated similarity measure quantifying the similarity of any data i and data j. Importantly, the method exhibits two valuable performance properties: 1) the ability to automatically return either a larger or smaller number of clusters depending on the inherent properties of the data rather than on a parameter 2) the ability to return a very large number of relatively small clusters automatically when such clusters are reasonably well defined in a data set. In this work we present the general idea of a quasi-clique agglomerative approach, provide the full details of the mathematical steps of the AQCM algorithm, and explain some of the motivation behind the new methodology. The main achievement of the new methodology is that the agglomerative process now unfolds adaptively according to the inherent structure unique to a given data set, and this happens without the time-costly parameter adjustment that drove the previous QCM algorithm. For this reason we call the new algorithm \emph{automatic}. We provide a demonstration of the algorithm's performance at the task of community detection in a social media network of 22,900 nodes.
翻訳日:2021-03-09 15:15:32 公開日:2021-03-06
# フローアグリゲーションを用いた異常点攻撃の分類

Utilising Flow Aggregation to Classify Benign Imitating Attacks ( http://arxiv.org/abs/2103.04208v1 )

ライセンス: Link先を確認
Hanan Hindy, Robert Atkinson, Christos Tachtatzis, Ethan Bayne, Miroslav Bures, Xavier Bellekens(参考訳) サイバー攻撃はボリュームと高度化の両面で成長を続けている。 これは、利用可能な計算能力の増加、攻撃面の拡大、そして攻撃を検出不能にする方法に対する人間の理解の進歩によって支援される。 当然ながら、機械学習はこれらの攻撃から守るために利用される。 多くのアプリケーションにおいて、機能の選択はモデルの選択よりも重要である。 さまざまな研究が成功の度合いで、良識あるトラフィックとよく知られたサイバー攻撃の区別を試みた。 これらの研究で使用された特徴は広く類似しており、サイバー攻撃が良性行動を模倣しない状況でその効果を実証している。 この障壁を克服するため,本論文では,ネットワークトラフィックの高レベルな抽象化に基づく新機能を紹介する。 具体的には,類似性のあるフローをグループ化し,フローアグリゲーションを行う。 この追加レベルの機能抽象化は、累積情報から利益を得、良性トラフィックを模倣したサイバー攻撃を分類するモデルを修飾する。 ベンチマークCICIDS2017データセットを使用して、新機能のパフォーマンスを評価し、その妥当性と有効性を示す。 この新しい提案は,サイバー攻撃の検出精度の向上と,複雑な攻撃に対する特徴抽出の新たな方向性に向けたものだ。

Cyber-attacks continue to grow, both in terms of volume and sophistication. This is aided by an increase in available computational power, expanding attack surfaces, and advancements in the human understanding of how to make attacks undetectable. Unsurprisingly, machine learning is utilised to defend against these attacks. In many applications, the choice of features is more important than the choice of model. A range of studies have, with varying degrees of success, attempted to discriminate between benign traffic and well-known cyber-attacks. The features used in these studies are broadly similar and have demonstrated their effectiveness in situations where cyber-attacks do not imitate benign behaviour. To overcome this barrier, in this manuscript, we introduce new features based on a higher level of abstraction of network traffic. Specifically, we perform flow aggregation by grouping flows with similarities. This additional level of feature abstraction benefits from cumulative information, thus qualifying the models to classify cyber-attacks that mimic benign traffic. The performance of the new features is evaluated using the benchmark CICIDS2017 dataset, and the results demonstrate their validity and effectiveness. This novel proposal will improve the detection accuracy of cyber-attacks and also build towards a new direction of feature extraction for complex ones.
翻訳日:2021-03-09 15:15:11 公開日:2021-03-06
# 視覚障害者用ウェアラブルシステムにおけるリアルタイムセマンティックセグメンテーションとシーン認識による知覚フレームワーク

Perception Framework through Real-Time Semantic Segmentation and Scene Recognition on a Wearable System for the Visually Impaired ( http://arxiv.org/abs/2103.04136v1 )

ライセンス: Link先を確認
Yingzhi Zhang, Haoye Chen, Kailun Yang, Jiaming Zhang, Rainer Stiefelhagen(参考訳) 本研究は,視覚障害者にとって,対象性やシーンタイプなどのシーン情報が重要であるため,シーン解析・認識作業のためのマルチタスク効率的な認識システムを提案する。 コンパクトなResNetバックボーンをベースに、設計したネットワークアーキテクチャには、共有パラメータを持つ2つのパスがあります。 構造では、セマンティックセグメンテーションパスは、効率的な方法で長距離のコンテキスト情報の収穫を目的として、迅速な注意を統合します。 同時に、シーン認識パスは、セマンティック機能をセマンティック駆動の注意ネットワークに渡し、セマンティック抽出表現とゲートされた注意モジュールを介してRGB抽出表現を組み合わせることにより、シーンタイプの推論を達成する。 実験では,公開データセットと実世界のシーンの両方において,システムの精度と効率を検証した。 このシステムは、Intel RealSense LiDARカメラとNvidia Jetson AGX Xavierプロセッサを備えたウェアラブルベルトで動作し、視覚障害者を伴い、ナビゲーションタスクで補助的なシーン情報を提供する。

As the scene information, including objectness and scene type, are important for people with visual impairment, in this work we present a multi-task efficient perception system for the scene parsing and recognition tasks. Building on the compact ResNet backbone, our designed network architecture has two paths with shared parameters. In the structure, the semantic segmentation path integrates fast attention, with the aim of harvesting long-range contextual information in an efficient manner. Simultaneously, the scene recognition path attains the scene type inference by passing the semantic features into semantic-driven attention networks and combining the semantic extracted representations with the RGB extracted representations through a gated attention module. In the experiments, we have verified the systems' accuracy and efficiency on both public datasets and real-world scenes. This system runs on a wearable belt with an Intel RealSense LiDAR camera and an Nvidia Jetson AGX Xavier processor, which can accompany visually impaired people and provide assistive scene information in their navigation tasks.
翻訳日:2021-03-09 15:10:03 公開日:2021-03-06
# ドローン配送システムにおけるQoS提供のための動的資源管理

Dynamic Resource Management for Providing QoS in Drone Delivery Systems ( http://arxiv.org/abs/2103.04015v1 )

ライセンス: Link先を確認
Behzad Khamidehi, Majid Raeis, Elvino S. Sousa(参考訳) ドローンは配送コストと時間を削減するための代替のパッケージ配送手段だと考えられてきた。 バッテリーの制限のため、ドローンは最終マイルの配送、すなわちパッケージ配布センター(PDC)から顧客への配送に最も適している。 典型的な配送システムは複数のPDCで構成されており、それぞれがランダムでタイムバリーな要求を持つため、ダイナミックなドローンからPDCへの割り当ては、効率的な方法で需要を満たす上で非常に重要です。 本稿では,QoS(Quality of Service)の保証を実現することを目的とした,ドローン配送システムにおける動的UAV割り当て問題について検討する。 私たちは、問題の顧客-サービスの性質をモデル化するキュー理論アプローチを採用しています。 さらに,UAVの再配置のための動的方針を得るために,深層強化学習アプローチを採用する。 このポリシーは、サービスプロバイダーと顧客の視点の両方から有益である各PDCで待っているパッケージのキュー長の確率的な上限を保証します。 本稿では,Bernolli,Time-Varyi ng Bernoulli,Markov-Mod ulated Bernoulliの3つの広範到着クラスを考慮し,提案アルゴリズムの性能を評価する。 提案手法は,特に実世界の需要パターンを表わすタイムバリアリングやマルコフ変調ベルヌーイ到着のシナリオにおいて,ベースラインよりも優れていることを示す。 さらに,本アルゴリズムは,使用中のUAVの平均数を最小化しながら,研究シナリオのすべてにおいてQoS制約を満たす。

Drones have been considered as an alternative means of package delivery to reduce the delivery cost and time. Due to the battery limitations, the drones are best suited for last-mile delivery, i.e., the delivery from the package distribution centers (PDCs) to the customers. Since a typical delivery system consists of multiple PDCs, each having random and time-varying demands, the dynamic drone-to-PDC allocation would be of great importance in meeting the demand in an efficient manner. In this paper, we study the dynamic UAV assignment problem for a drone delivery system with the goal of providing measurable Quality of Service (QoS) guarantees. We adopt a queueing theoretic approach to model the customer-service nature of the problem. Furthermore, we take a deep reinforcement learning approach to obtain a dynamic policy for the re-allocation of the UAVs. This policy guarantees a probabilistic upper-bound on the queue length of the packages waiting in each PDC, which is beneficial from both the service provider's and the customers' viewpoints. We evaluate the performance of our proposed algorithm by considering three broad arrival classes, including Bernoulli, Time-Varying Bernoulli, and Markov-Modulated Bernoulli arrivals. Our results show that the proposed method outperforms the baselines, particularly in scenarios with Time-Varying and Markov-Modulated Bernoulli arrivals, which are more representative of real-world demand patterns. Moreover, our algorithm satisfies the QoS constraints in all the studied scenarios while minimizing the average number of UAVs in use.
翻訳日:2021-03-09 15:09:17 公開日:2021-03-06
# マルチスピーカマルチスタイルテキストから音声へのプリトレーニングと学習可能な話者表現の組み入れに関する研究

Investigating on Incorporating Pretrained and Learnable Speaker Representations for Multi-Speaker Multi-Style Text-to-Speech ( http://arxiv.org/abs/2103.04088v1 )

ライセンス: Link先を確認
Chung-Ming Chien, Jheng-Hao Lin, Chien-yu Huang, Po-chun Hsu, Hung-yi Lee(参考訳) 数発のマルチスピーカーマルチスタイルの音声クローニングタスクは、いくつかの参照サンプルを与えられたリファレンススピーカーに似た音声とスピーキングスタイルで発話を合成することです。 本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。 様々な種類の組込みのうち、音声変換によって事前学習された組込みは最高の性能を達成する。 事前訓練された話者表現と学習可能な話者表現を組み合わせたFastSpeech 2モデルは、少数ショット話者に大きな一般化能力を示し、ICASSP 2021 M2VoCチャレンジの1ショットトラックで2位を獲得した。

The few-shot multi-speaker multi-style voice cloning task is to synthesize utterances with voice and speaking style similar to a reference speaker given only a few reference samples. In this work, we investigate different speaker representations and proposed to integrate pretrained and learnable speaker representations. Among different types of embeddings, the embedding pretrained by voice conversion achieves the best performance. The FastSpeech 2 model combined with both pretrained and learnable speaker representations shows great generalization ability on few-shot speakers and achieved 2nd place in the one-shot track of the ICASSP 2021 M2VoC challenge.
翻訳日:2021-03-09 15:08:50 公開日:2021-03-06
# 状態依存 Riccati 方程式を用いた最適フィードバック法則のグラディエント強化学習

Gradient-augmented Supervised Learning of Optimal Feedback Laws Using State-dependent Riccati Equations ( http://arxiv.org/abs/2103.04091v1 )

ライセンス: Link先を確認
Giacomo Albi, Sara Bicego, Dante Kalise(参考訳) 大規模非線形安定化問題に対する教師付き学習手法を提案する。 状態依存型Riccati方程式から生成されたデータセットから安定化フィードバック法則を訓練する。 トレーニングフェーズは、ハイパーパラメータの使用によって重み付けされる損失関数における使用勾配情報によって強化される。 高次元非線形安定化試験は、リアルタイムの連続的大規模アルヘブラニックリカティ方程式解を適切に訓練されたフィードフォワードニューラルネットワークで置き換えることができることを実証する。

A supervised learning approach for the solution of large-scale nonlinear stabilization problems is presented. A stabilizing feedback law is trained from a dataset generated from State-dependent Riccati Equation solves. The training phase is enriched by the use gradient information in the loss function, which is weighted through the use of hyperparameters. High-dimensional nonlinear stabilization tests demonstrate that real-time sequential large-scale Algebraic Riccati Equation solves can be substituted by a suitably trained feedforward neural network.
翻訳日:2021-03-09 15:08:37 公開日:2021-03-06
# 機械学習を自己適応システムに適用する: 体系的文献レビュー

Applying Machine Learning in Self-Adaptive Systems: A Systematic Literature Review ( http://arxiv.org/abs/2103.04112v1 )

ライセンス: Link先を確認
Omid Gheibi, Danny Weyns, and Federico Quin(参考訳) 近年,自己適応型システムにおける機械学習の利用が急速に増加している。 機械学習は、操作中のシステムの環境のモデルを学習することから、分析する前に可能な構成の大きなセットをフィルタリングすることまで、さまざまな理由で使用されている。 自己適応システムにおける機械学習の利用に関する一連の研究は存在するが、現在この分野の体系的な概観はない。 このような概要は、研究者が芸術の現状と直接的な将来の研究の取り組みを理解するために重要です。 本稿では,このような概要を提供するための体系的な文献レビューの結果を報告する。 我々は,従来のモニタ・アナライズ・プラン・実行フィードバックループ(mape)に基づく自己適応型システムに注目した。 研究の質問は、自己適応システムにおける機械学習の使用を動機づける問題、自己適応における学習の重要なエンジニアリング側面、オープンな課題に焦点を当てている。 その結果6709件の論文が収集され、109件が収集された。 収集されたデータを分析すると、機械学習は主に適応ルールとポリシーをアップデートしてシステム品質を改善し、品質とリソースのバランスをとるためにリソースを管理するために使われることが分かる。 これらの問題は、主に分類、回帰、強化学習を主体とした教師あり対話的な学習を用いて解決される。 驚くことに、自然に自動化に適合する教師なし学習は、少数の研究でしか適用されない。 この領域における主要なオープン課題は、学習のパフォーマンス、学習の効果の管理、より複雑なタイプの目標への対処である。 この体系的な文献レビューから得られた知見から,MAPEフィードバックループに基づく自己適応型システムに機械学習を適用するための初期設計プロセスについて概説する。

Recently, we witness a rapid increase in the use of machine learning in self-adaptive systems. Machine learning has been used for a variety of reasons, ranging from learning a model of the environment of a system during operation to filtering large sets of possible configurations before analysing them. While a body of work on the use of machine learning in self-adaptive systems exists, there is currently no systematic overview of this area. Such overview is important for researchers to understand the state of the art and direct future research efforts. This paper reports the results of a systematic literature review that aims at providing such an overview. We focus on self-adaptive systems that are based on a traditional Monitor-Analyze-Plan -Execute feedback loop (MAPE). The research questions are centred on the problems that motivate the use of machine learning in self-adaptive systems, the key engineering aspects of learning in self-adaptation, and open challenges. The search resulted in 6709 papers, of which 109 were retained for data collection. Analysis of the collected data shows that machine learning is mostly used for updating adaptation rules and policies to improve system qualities, and managing resources to better balance qualities and resources. These problems are primarily solved using supervised and interactive learning with classification, regression and reinforcement learning as the dominant methods. Surprisingly, unsupervised learning that naturally fits automation is only applied in a small number of studies. Key open challenges in this area include the performance of learning, managing the effects of learning, and dealing with more complex types of goals. From the insights derived from this systematic literature review we outline an initial design process for applying machine learning in self-adaptive systems that are based on MAPE feedback loops.
翻訳日:2021-03-09 15:08:30 公開日:2021-03-06
# 深層Q-ラーニングに基づくマイクログリッドエネルギー管理

Correlated Deep Q-learning based Microgrid Energy Management ( http://arxiv.org/abs/2103.04152v1 )

ライセンス: Link先を確認
Hao Zhou, and Melike Erol-Kantarci(参考訳) マイクログリッド(MG)エネルギー管理はMG操作の重要な部分である。 エネルギー貯蔵システム(ESS)、再生可能エネルギー資源(RER)、利用者の負荷など、様々なエンティティがMGのエネルギー管理に関与しており、これらのエンティティを調整することが不可欠である。 機械学習技術の有意な可能性を考慮して,mgエネルギー管理のための相関型深層q-learning (cdqn) 手法を提案する。 各電気エンティティは、自身のQ値を予測するニューラルネットワークを有するエージェントとしてモデル化され、その後、相関したQ平衡を使用してエージェント間の動作を調整します。 本稿では,Long Short Term Memory Network (LSTM) に基づく深層Q-learningアルゴリズムを導入し,エージェントの協調のための相関平衡を提案する。 シミュレーションの結果、ESSエージェントと太陽光発電(PV)エージェントの利益は、それぞれ40.9%と9.62%である。

Microgrid (MG) energy management is an important part of MG operation. Various entities are generally involved in the energy management of an MG, e.g., energy storage system (ESS), renewable energy resources (RER) and the load of users, and it is crucial to coordinate these entities. Considering the significant potential of machine learning techniques, this paper proposes a correlated deep Q-learning (CDQN) based technique for the MG energy management. Each electrical entity is modeled as an agent which has a neural network to predict its own Q-values, after which the correlated Q-equilibrium is used to coordinate the operation among agents. In this paper, the Long Short Term Memory networks (LSTM) based deep Q-learning algorithm is introduced and the correlated equilibrium is proposed to coordinate agents. The simulation result shows 40.9% and 9.62% higher profit for ESS agent and photovoltaic (PV) agent, respectively.
翻訳日:2021-03-09 15:08:05 公開日:2021-03-06
# 過空統計的推定

Over-the-Air Statistical Estimation ( http://arxiv.org/abs/2103.04014v1 )

ライセンス: Link先を確認
Chuan-Zheng Lee, Leighton Pate Barnes and Ayfer Ozgur(参考訳) 統計的推定と無線通信を組み合わせた枠組みで,2乗誤差損失下におけるガウス多重アクセスチャネル(MAC)上の分散ミニマックス統計推定のためのスキームと下限について検討する。 まず,ガウスmacの重ね合わせ特性を利用した"アナログ"共同推定通信スキームを開発し,それらのリスクをパラメータ空間のノード数と次元の観点で特徴付ける。 そこで,提案手法によって得られるリスクは,これらの下限の対数係数内にあることを示すために,チャネルの所定の数でサンプルを通信するために制限された推定スキームの最小値リスクに関する情報理論的下限を導出する。 そこでは、MACのシャノン容量でエラーのないビットをノードが送信し、物理層を利用する推定スキームは、物理層抽象化に依存するデジタルスキーム上の推定誤差を大幅に削減することを示しています。

We study schemes and lower bounds for distributed minimax statistical estimation over a Gaussian multiple-access channel (MAC) under squared error loss, in a framework combining statistical estimation and wireless communication. First, we develop "analog" joint estimation-communica tion schemes that exploit the superposition property of the Gaussian MAC and we characterize their risk in terms of the number of nodes and dimension of the parameter space. Then, we derive information-theoreti c lower bounds on the minimax risk of any estimation scheme restricted to communicate the samples over a given number of uses of the channel and show that the risk achieved by our proposed schemes is within a logarithmic factor of these lower bounds. We compare both achievability and lower bound results to previous "digital" lower bounds, where nodes transmit errorless bits at the Shannon capacity of the MAC, showing that estimation schemes that leverage the physical layer offer a drastic reduction in estimation error over digital schemes relying on a physical-layer abstraction.
翻訳日:2021-03-09 15:06:23 公開日:2021-03-06