このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200219となっている論文です。

PDF登録状況(公開日: 20200219)

TitleAuthorsAbstract論文公表日・翻訳日
# Ada-LISTA: 変数モデルに適応した学習者

Ada-LISTA: Learned Solvers Adaptive to Varying Models ( http://arxiv.org/abs/2001.08456v2 )

ライセンス: Link先を確認
Aviad Aberdam, Alona Golts, Michael Elad(参考訳) LISTA (learned iterative soft threshold algorithm) のような反復解法の展開に基づくニューラルネットワークは、その高速化性能のために広く利用されている。 しかしながら、学習しない解法とは対照的に、これらのネットワークは特定の辞書で訓練されているため、様々なモデルシナリオには適用できない。 この研究は、Ada-LISTAと呼ばれる適応型学習解法を導入し、ペアの信号とそれに対応する辞書を入力として受け取り、それらすべてを提供する普遍的なアーキテクチャを学ぶ。 このスキームは、辞書の摂動や置換を含む様々なモデルの線形レートでスパース符号化を解くことが保証されている。 また,その実用的適応能力を示す広範な数値的研究を行った。 最後に,Ada-LISTAを自然な画像塗布に展開し,パッチマスクの空間的変化を考慮に入れた。

Neural networks that are based on unfolding of an iterative solver, such as LISTA (learned iterative soft threshold algorithm), are widely used due to their accelerated performance. Nevertheless, as opposed to non-learned solvers, these networks are trained on a certain dictionary, and therefore they are inapplicable for varying model scenarios. This work introduces an adaptive learned solver, termed Ada-LISTA, which receives pairs of signals and their corresponding dictionaries as inputs, and learns a universal architecture to serve them all. We prove that this scheme is guaranteed to solve sparse coding in linear rate for varying models, including dictionary perturbations and permutations. We also provide an extensive numerical study demonstrating its practical adaptation capabilities. Finally, we deploy Ada-LISTA to natural image inpainting, where the patch-masks vary spatially, thus requiring such an adaptation.
翻訳日:2023-01-07 10:03:23 公開日:2020-02-19
# 畳み込みニューラルネットワークを用いた軌道上アセンブリの相対的推定

Assistive Relative Pose Estimation for On-orbit Assembly using Convolutional Neural Networks ( http://arxiv.org/abs/2001.10673v2 )

ライセンス: Link先を確認
Shubham Sonawani (1), Ryan Alimo (2), Renaud Detry (2), Daniel Jeong (2), Andrew Hess (2), Heni Ben Amor (1) ((1) Interactive Robotics Laboratory, Arizona State University, Tempe, AZ, 85281, USA, (2) Jet Propulsion Laboratory, California Institute of Technology, Pasadena, CA, 91109, USA)(参考訳) 宇宙空間における宇宙船や物体の正確なリアルタイムポーズ推定は、軌道上の宇宙船のサービスや組み立て作業に必要な重要な能力である。 宇宙空間における物体のポーズ推定は、パワーや質量の制約に加えて、様々な照明条件、高コントラスト、解像度の悪い宇宙画像を含むため、地球上の物体よりも難しい。 本稿では、畳み込みニューラルネットワークを利用して、カメラに対して関心のある物体の翻訳と回転を一意に決定する。 cnnモデルを使う主なアイデアは、機能ベースのメソッドのみが常に不十分なスペースアセンブリタスクで使用されるオブジェクトトラッカを支援することである。 組立タスク用に設計されたシミュレーションフレームワークを用いて、修正されたCNNモデルをトレーニングするためのデータセットを生成し、異なるモデルの結果を、モデルがどれだけ正確にポーズを予測するかの指標と比較する。 宇宙船や宇宙の物体に対する現在の多くのアプローチとは異なり、このモデルは手作りの物体特有の特徴に頼らず、他の種類の宇宙船にもより堅牢で容易に適用できる。 モデルが現在の特徴選択法に匹敵する性能を示し、従ってそれらと組み合わせてより信頼性の高い推定を行うことができる。

Accurate real-time pose estimation of spacecraft or object in space is a key capability necessary for on-orbit spacecraft servicing and assembly tasks. Pose estimation of objects in space is more challenging than for objects on Earth due to space images containing widely varying illumination conditions, high contrast, and poor resolution in addition to power and mass constraints. In this paper, a convolutional neural network is leveraged to uniquely determine the translation and rotation of an object of interest relative to the camera. The main idea of using CNN model is to assist object tracker used in on space assembly tasks where only feature based method is always not sufficient. The simulation framework designed for assembly task is used to generate dataset for training the modified CNN models and, then results of different models are compared with measure of how accurately models are predicting the pose. Unlike many current approaches for spacecraft or object in space pose estimation, the model does not rely on hand-crafted object-specific features which makes this model more robust and easier to apply to other types of spacecraft. It is shown that the model performs comparable to the current feature-selection methods and can therefore be used in conjunction with them to provide more reliable estimates.
翻訳日:2023-01-05 21:29:36 公開日:2020-02-19
# 粒子物理学のためのFPGAにおけるブースト決定木の高速推定

Fast inference of Boosted Decision Trees in FPGAs for particle physics ( http://arxiv.org/abs/2002.02534v2 )

ライセンス: Link先を確認
Sioni Summers, Giuseppe Di Guglielmo, Javier Duarte, Philip Harris, Duc Hoang, Sergo Jindariani, Edward Kreinar, Vladimir Loncar, Jennifer Ngadiuba, Maurizio Pierini, Dylan Rankin, Nhan Tran, Zhenbin Wu(参考訳) 本稿では、 hls4mlライブラリにおけるブースト決定木の実装について述べる。これにより、自動変換プロセスにより、トレーニングされたモデルをFPGAファームウェアに変換することができる。 完全なオンチップ実装のおかげで、hls4mlは極めて低レイテンシでBoosted Decision Treeモデルの推論を実行する。 典型的なレイテンシが100 ns未満であるこのソリューションは、コライダー実験のLevel-1 TriggerシステムのようなFPGAベースのリアルタイム処理に適している。 これらの発展は、物理学者がBDTをFPGAに展開し、ジェットの起源を特定し、ミューオンのエネルギーを再構築し、レア信号プロセスのより良い選択を可能にする可能性を開く。

We describe the implementation of Boosted Decision Trees in the hls4ml library, which allows the translation of a trained model into FPGA firmware through an automated conversion process. Thanks to its fully on-chip implementation, hls4ml performs inference of Boosted Decision Tree models with extremely low latency. With a typical latency less than 100 ns, this solution is suitable for FPGA-based real-time processing, such as in the Level-1 Trigger system of a collider experiment. These developments open up prospects for physicists to deploy BDTs in FPGAs for identifying the origin of jets, better reconstructing the energies of muons, and enabling better selection of rare signal processes.
翻訳日:2023-01-03 22:04:41 公開日:2020-02-19
# Logistic Regression Regret: キャッチは何?

Logistic Regression Regret: What's the Catch? ( http://arxiv.org/abs/2002.02950v2 )

ライセンス: Link先を確認
Gil I. Shamir(参考訳) オンラインロジスティック回帰による達成可能な後悔率の問題に対処する。 パラメータ値に対する$L_1$,$L_2$,$L_\infty$制約の下で、対数的後悔を伴う下界を導出する。 境界は $d/2 \log t$ で支配され、ここで $t$ は地平線、$d$ はパラメータ空間の次元である。 これらすべてのケースにおいて、ベイズ法で$d=o(t^{1/3})$の達成可能性を示し、最大$d/2 \log d$項を達成する。 興味深い異なる行動は、より大きな次元性を示す。 具体的には、負の面において、$d = \Omega(\sqrt{T})$ならば、任意のアルゴリズムは、パラメータ(および例の特徴)に対する制約で$\Omega(\sqrt{T})$よりも大きい)$\Omega(\sqrt{T})$の後悔が保証される。 正の面では、パラメータの$L_1$制約の下で、漸近的に大きい$d$に対して$d$のサブ線形である後悔を達成できるアルゴリズムが存在する。 L_2$制約の場合、十分大きな$d$の場合、後悔は$d$で線形であるが、$T$で対数化されなくなる。 情報理論から冗長性・キャパシティの定理を適応させることで,パラメータの格子に基づく原理的手法を導出する。 格子は上界を導出するためにも用いられる。 この問題に対する上限について,Kakade and Ng (2005) と Foster et al. (2018) による結果を強化し,新しい下位境界を導入し,他の関連する問題に対してそのような境界を求める手法を適用した。 また、パラメータ空間の次元が$t$で成長することを許されたとき、漸近的挙動の新たな特徴付けを与える。 さらに彼らは情報理論文献とのつながりを確立し、ロジスティック回帰に対する実際の後悔はパラメータクラスの豊かさに依存することを示した。

We address the problem of the achievable regret rates with online logistic regression. We derive lower bounds with logarithmic regret under $L_1$, $L_2$, and $L_\infty$ constraints on the parameter values. The bounds are dominated by $d/2 \log T$, where $T$ is the horizon and $d$ is the dimensionality of the parameter space. We show their achievability for $d=o(T^{1/3})$ in all these cases with Bayesian methods, that achieve them up to a $d/2 \log d$ term. Interesting different behaviors are shown for larger dimensionality. Specifically, on the negative side, if $d = \Omega(\sqrt{T})$, any algorithm is guaranteed regret of $\Omega(d \log T)$ (greater than $\Omega(\sqrt{T})$) under $L_\infty$ constraints on the parameters (and the example features). On the positive side, under $L_1$ constraints on the parameters, there exist algorithms that can achieve regret that is sub-linear in $d$ for the asymptotically larger values of $d$. For $L_2$ constraints, it is shown that for large enough $d$, the regret remains linear in $d$ but no longer logarithmic in $T$. Adapting the redundancy-capacity theorem from information theory, we demonstrate a principled methodology based on grids of parameters to derive lower bounds. Grids are also utilized to derive some upper bounds. Our results strengthen results by Kakade and Ng (2005) and Foster et al. (2018) for upper bounds for this problem, introduce novel lower bounds, and adapt a methodology that can be used to obtain such bounds for other related problems. They also give a novel characterization of the asymptotic behavior when the dimension of the parameter space is allowed to grow with $T$. They additionally establish connections to the information theory literature, demonstrating that the actual regret for logistic regression depends on the richness of the parameter class, where even within this problem, richer classes lead to greater regret.
翻訳日:2023-01-03 03:59:28 公開日:2020-02-19
# MS-Net:異種MRIデータによる前立腺分割改善のためのマルチサイトネットワーク

MS-Net: Multi-Site Network for Improving Prostate Segmentation with Heterogeneous MRI Data ( http://arxiv.org/abs/2002.03366v2 )

ライセンス: Link先を確認
Quande Liu, Qi Dou, Lequan Yu, Pheng Ann Heng(参考訳) MRIにおける前立腺自動分節はコンピュータによる診断に非常に要求される。 近年,多種多様なディープラーニング手法がこの課題において顕著な進歩を遂げており,通常は大量のトレーニングデータに依存している。 医療画像の不足の性質から,ロバストなモデルトレーニングのために複数のサイトからのデータを効果的に集約し,単一サイトサンプルの不足を軽減することが重要である。 しかし, 異なる部位の前立腺mriでは, スキャナと画像プロトコルの違いによる異種性がみられ, ネットワークトレーニングのための多地点データ集約の効果的な方法の課題が浮き彫りにされる。 本稿では,複数のデータソースを利用するロバスト表現を学習し,前立腺のセグメンテーションを改善するための新しいマルチサイトネットワーク(MS-Net)を提案する。 異なるMRIデータセットのサイト間不均一性を補うため,ネットワークバックボーン内にドメイン特化バッチ正規化層を構築し,ネットワークが統計を推定し,各サイトの特徴正規化を別々に行えるようにした。 複数のデータセットから共有知識を取得することの難しさを考慮すると、新しい学習パラダイムであるマルチサイト誘導知識伝達(Multi-site-guided Knowledge Transfer)が提案され、カーネルがマルチサイトデータからより汎用的な表現を抽出する。 3つの異種前立腺MRIデータセットに対する大規模な実験により、MS-Netはすべてのデータセットのパフォーマンスを一貫して改善し、マルチサイト学習における最先端の手法よりも優れています。

Automated prostate segmentation in MRI is highly demanded for computer-assisted diagnosis. Recently, a variety of deep learning methods have achieved remarkable progress in this task, usually relying on large amounts of training data. Due to the nature of scarcity for medical images, it is important to effectively aggregate data from multiple sites for robust model training, to alleviate the insufficiency of single-site samples. However, the prostate MRIs from different sites present heterogeneity due to the differences in scanners and imaging protocols, raising challenges for effective ways of aggregating multi-site data for network training. In this paper, we propose a novel multi-site network (MS-Net) for improving prostate segmentation by learning robust representations, leveraging multiple sources of data. To compensate for the inter-site heterogeneity of different MRI datasets, we develop Domain-Specific Batch Normalization layers in the network backbone, enabling the network to estimate statistics and perform feature normalization for each site separately. Considering the difficulty of capturing the shared knowledge from multiple datasets, a novel learning paradigm, i.e., Multi-site-guided Knowledge Transfer, is proposed to enhance the kernels to extract more generic representations from multi-site data. Extensive experiments on three heterogeneous prostate MRI datasets demonstrate that our MS-Net improves the performance across all datasets consistently, and outperforms state-of-the-art methods for multi-site learning.
翻訳日:2023-01-02 14:53:33 公開日:2020-02-19
# パーソナライズされたPOIレコメンデーションのための関係埋め込み

Relation Embedding for Personalised POI Recommendation ( http://arxiv.org/abs/2002.03461v2 )

ライセンス: Link先を確認
Xianjing Wang, Flora D. Salim, Yongli Ren, Piotr Koniusz(参考訳) Point-of-Interest(POI)推奨は、人々が興味深い場所やサービスを見つけるのに役立つ、位置情報ベースの最も重要なサービスの1つである。 しかし、極端にユーザ-POI行列のばらつきと時空間の変動はPOIシステムに課題をもたらし、POIレコメンデーションの品質に影響を及ぼす。 そこで本研究では,POIレコメンデーションのための翻訳に基づく関係埋め込みを提案する。 本手法は,知識グラフ埋め込み手法を用いて,時間的および地理的情報だけでなく,低次元関係空間における意味的内容もエンコードする。 ユーザ-POIマトリクスの疎結合の問題を緩和するため,ユーザ-POIグラフ上に複合行列因数分解フレームワークを構築し,その側面情報を利用して動的個人利害の推論を強化する。 2つの実世界のデータセットに関する実験により,提案モデルの有効性が示された。

Point-of-Interest (POI) recommendation is one of the most important location-based services helping people discover interesting venues or services. However, the extreme user-POI matrix sparsity and the varying spatio-temporal context pose challenges for POI systems, which affects the quality of POI recommendations. To this end, we propose a translation-based relation embedding for POI recommendation. Our approach encodes the temporal and geographic information, as well as semantic contents effectively in a low-dimensional relation space by using Knowledge Graph Embedding techniques. To further alleviate the issue of user-POI matrix sparsity, a combined matrix factorization framework is built on a user-POI graph to enhance the inference of dynamic personal interests by exploiting the side-information. Experiments on two real-world datasets demonstrate the effectiveness of our proposed model.
翻訳日:2023-01-02 14:35:18 公開日:2020-02-19
# 自然言語命令に従う深層合成型ロボットプランナー

Deep compositional robotic planners that follow natural language commands ( http://arxiv.org/abs/2002.05201v2 )

ライセンス: Link先を確認
Yen-Ling Kuo, Boris Katz, Andrei Barbu(参考訳) 連続的な構成空間における自然言語コマンドのシーケンスを理解してオブジェクトを移動・操作するために、サンプリングベースのロボットプランナをどのように拡張できるかを実証する。 提案手法では,オブジェクト,動詞,空間関係,属性を含む複雑なコマンドのパースに基づいて構築されたディープネットワークと,サンプリングベースプランナであるRTを組み合わせる。 繰り返し行われる階層的なディープネットワークは、プランナーがどのように環境を探索するかを制御し、計画されたパスがいつ目標を達成するかを決定し、ネットワークとプランナーの間のエクスプロイトと探索をトレードオフするそれぞれの動きの信頼性を推定する。 プランナーは、タスクに関する情報が欠けているときに、ほぼ最適に振る舞うように設計されており、一方、ネットワークは環境から入手可能な観測を生かし、これら2つを自然に補完する。 この2つを組み合わせることで、トレーニングセットにはない新しいマップ、新しい種類の障害、より複雑な文への一般化が可能になる。 単語の意味を学習する際に環境から特徴を抽出するcnnを共同で取得しているにも関わらず、モデルをトレーニングするデータはほとんど必要ありません。 このモデルは、エンド・ツー・エンドのモデルであるにもかかわらず、ユーザーが推論ステップを見ることができるように注意マップを使用することで、解釈可能性のレベルを提供する。 このエンドツーエンドモデルにより、ロボットは、継続的な環境に挑戦して自然言語コマンドに従うことを学べる。

We demonstrate how a sampling-based robotic planner can be augmented to learn to understand a sequence of natural language commands in a continuous configuration space to move and manipulate objects. Our approach combines a deep network structured according to the parse of a complex command that includes objects, verbs, spatial relations, and attributes, with a sampling-based planner, RRT. A recurrent hierarchical deep network controls how the planner explores the environment, determines when a planned path is likely to achieve a goal, and estimates the confidence of each move to trade off exploitation and exploration between the network and the planner. Planners are designed to have near-optimal behavior when information about the task is missing, while networks learn to exploit observations which are available from the environment, making the two naturally complementary. Combining the two enables generalization to new maps, new kinds of obstacles, and more complex sentences that do not occur in the training set. Little data is required to train the model despite it jointly acquiring a CNN that extracts features from the environment as it learns the meanings of words. The model provides a level of interpretability through the use of attention maps allowing users to see its reasoning steps despite being an end-to-end model. This end-to-end model allows robots to learn to follow natural language commands in challenging continuous environments.
翻訳日:2023-01-01 20:23:23 公開日:2020-02-19
# 重み付き経験的リスク最小化:重要度サンプリングに基づくサンプル選択バイアス補正

Weighted Empirical Risk Minimization: Sample Selection Bias Correction based on Importance Sampling ( http://arxiv.org/abs/2002.05145v2 )

ライセンス: Link先を確認
Robin Vogel, Mastane Achab, St\'ephan Cl\'emen\c{c}on, Charles Tillier(参考訳) 統計的学習問題を考えると、トレーニング観測の分布の$P'$が$Z'_1,\; \ldots,\; Z'_n$は、最小化しようとする(テスト分布として参照)リスクの分布の$P$とは異なるが、それでも$P$と同じ測定可能な空間で定義され、それを支配している。 確率比$\Phi(z)=dP/dP'(z)$が知られている非現実的な場合、重み付きトレーニングデータ$Z'_i$から計算された経験的リスク関数の重み付きバージョンを最小化することで、Importance Smplingの背景にあるものと同じアイデアを用いて、この特定の移行学習設定に対して経験的リスク最小化(ERM)アプローチを直接拡張することができる。 重要度関数 $\phi(z)$ は一般には知られていないが、様々な状況において実際に頻繁に遭遇するが、単純な形式であり、統計値 $z'_i$ と統計値 $p$ の補助情報から直接推定できる。 線形化手法により、上記のアプローチの一般化能力は、重み付けされた経験的リスクに$\Phi(Z'_i)$'sの計算結果を埋め込む際に保存されることを示す。 これらの理論的な保証を超えて、数値的な結果は本論文で推進されたアプローチの関連性の強い実証的証拠を提供する。

We consider statistical learning problems, when the distribution $P'$ of the training observations $Z'_1,\; \ldots,\; Z'_n$ differs from the distribution $P$ involved in the risk one seeks to minimize (referred to as the test distribution) but is still defined on the same measurable space as $P$ and dominates it. In the unrealistic case where the likelihood ratio $\Phi(z)=dP/dP'(z)$ is known, one may straightforwardly extends the Empirical Risk Minimization (ERM) approach to this specific transfer learning setup using the same idea as that behind Importance Sampling, by minimizing a weighted version of the empirical risk functional computed from the 'biased' training data $Z'_i$ with weights $\Phi(Z'_i)$. Although the importance function $\Phi(z)$ is generally unknown in practice, we show that, in various situations frequently encountered in practice, it takes a simple form and can be directly estimated from the $Z'_i$'s and some auxiliary information on the statistical population $P$. By means of linearization techniques, we then prove that the generalization capacity of the approach aforementioned is preserved when plugging the resulting estimates of the $\Phi(Z'_i)$'s into the weighted empirical risk. Beyond these theoretical guarantees, numerical results provide strong empirical evidence of the relevance of the approach promoted in this article.
翻訳日:2023-01-01 19:20:27 公開日:2020-02-19
# AIの次の10年:ロバスト人工知能への4つのステップ

The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence ( http://arxiv.org/abs/2002.06177v3 )

ライセンス: Link先を確認
Gary Marcus(参考訳) 人工知能と機械学習の最近の研究は、汎用的な学習と、より大規模なトレーニングセットと、ますます多くのコンピューティングを強調している。 それとは対照的に、私は認知モデルを中心としたハイブリッドで知識駆動、推論に基づくアプローチを提案します。

Recent research in artificial intelligence and machine learning has largely emphasized general-purpose learning and ever-larger training sets and more and more compute. In contrast, I propose a hybrid, knowledge-driven, reasoning-based approach, centered around cognitive models, that could provide the substrate for a richer, more robust AI than is currently possible.
翻訳日:2023-01-01 03:54:48 公開日:2020-02-19
# ロングテールエンティティのためのオープン知識強化

Open Knowledge Enrichment for Long-tail Entities ( http://arxiv.org/abs/2002.06397v2 )

ライセンス: Link先を確認
Ermei Cao and Difeng Wang and Jiacheng Huang and Wei Hu(参考訳) 知識ベース(KB)は多くのAIアプリケーションにとって、徐々に価値ある資産になりつつある。 現在のKBの多くは非常に大きいが、不完全であると広く認められており、特に有名でない人物のような長い尾の実体の事実が欠如している。 既存のアプローチはKBを豊かにし、主に欠落したリンクの補完や欠落した値を埋める。 しかし、それらは濃縮問題の一部にのみ取り組み、ロングテールエンティティに関する具体的な考慮を欠いている。 本稿では,知識エンリッチメントへの本質的なアプローチを提案する。知識エンリッチメントは,属性の欠如を予測し,オープンwebからロングテールエンティティの真相を推測する。 一般的なエンティティからの以前の知識は、すべてのエンリッチメントステップを改善するために利用されます。 総合的および実世界のデータセットに関する実験と関連する研究との比較は,このアプローチの実現可能性と優越性を示している。

Knowledge bases (KBs) have gradually become a valuable asset for many AI applications. While many current KBs are quite large, they are widely acknowledged as incomplete, especially lacking facts of long-tail entities, e.g., less famous persons. Existing approaches enrich KBs mainly on completing missing links or filling missing values. However, they only tackle a part of the enrichment problem and lack specific considerations regarding long-tail entities. In this paper, we propose a full-fledged approach to knowledge enrichment, which predicts missing properties and infers true facts of long-tail entities from the open Web. Prior knowledge from popular entities is leveraged to improve every enrichment step. Our experiments on the synthetic and real-world datasets and comparison with related work demonstrate the feasibility and superiority of the approach.
翻訳日:2022-12-31 22:42:32 公開日:2020-02-19
# STANNIS:計算ストレージを用いたディープニューラルネットワークトレーニングの低消費電力高速化

STANNIS: Low-Power Acceleration of Deep Neural Network Training Using Computational Storage ( http://arxiv.org/abs/2002.07215v2 )

ライセンス: Link先を確認
Ali HeydariGorji, Mahdi Torabzadehkashi, Siavash Rezaei, Hossein Bobarshad, Vladimir Alves, Pai H. Chou(参考訳) 本稿では,計算記憶装置のクラスタ上でのニューラルネットワークの分散インストレージトレーニングのためのフレームワークを提案する。 このようなデバイスはハードウェアアクセラレーターを含むだけでなく、ホストとストレージの間のデータ移動も排除し、パフォーマンスと省電力が向上する。 さらに重要なことに、このストレージ内処理スタイルのトレーニングは、パブリックデータの共有を完全に制御しながらも、プライベートデータがストレージを離れないことを保証する。 実験結果は2.7倍のスピードアップと69%のエネルギー消費の削減であり、精度は著しく低下しない。

This paper proposes a framework for distributed, in-storage training of neural networks on clusters of computational storage devices. Such devices not only contain hardware accelerators but also eliminate data movement between the host and storage, resulting in both improved performance and power savings. More importantly, this in-storage processing style of training ensures that private data never leaves the storage while fully controlling the sharing of public data. Experimental results show up to 2.7x speedup and 69% reduction in energy consumption and no significant loss in accuracy.
翻訳日:2022-12-31 13:10:48 公開日:2020-02-19
# 動的解集合プログラミングの実装

Implementing Dynamic Answer Set Programming ( http://arxiv.org/abs/2002.06916v2 )

ライセンス: Link先を確認
Pedro Cabalar (University of Corunna, Spain), Mart\'in Di\'eguez (University of Pau, France), Torsten Schaub (1), Fran\c{c}ois Laferri\`ere (1) ((1) University of Potsdam, Germany)(参考訳) 本稿では、動的アプリケーションモデリングのための表現力のある計算フレームワークを提供する動的(および時間的)論理からの言語構成を組み込んだAnswer Set Programming(ASP)の拡張の実装を紹介する。 有限線形トレース上の動的および時間的平衡論理により提供される論理基礎から、動的論理式を時相論理プログラムに翻訳する。 これにより、異なる論理式の強い同値性を確立する正規形式結果が得られる。 我々の翻訳は、多項式空間の複雑さを保証し、同じ言語で不可能な埋め込みを提供するために補助原子の導入に依存している。 最後に、動的公式を時間論理プログラムに還元することで、両方のアプローチでASPを均一に拡張し、テリンゴのような時間ASPソルバを介して両方の拡張を実装することができる。

We introduce an implementation of an extension of Answer Set Programming (ASP) with language constructs from dynamic (and temporal) logic that provides an expressive computational framework for modeling dynamic applications. Starting from logical foundations, provided by dynamic and temporal equilibrium logics over finite linear traces, we develop a translation of dynamic formulas into temporal logic programs. This provides us with a normal form result establishing the strong equivalence of formulas in different logics. Our translation relies on the introduction of auxiliary atoms to guarantee polynomial space complexity and to provide an embedding that is doomed to be impossible over the same language. Finally, the reduction of dynamic formulas to temporal logic programs allows us to extend ASP with both approaches in a uniform way and to implement both extensions via temporal ASP solvers such as telingo
翻訳日:2022-12-31 13:02:12 公開日:2020-02-19
# spotthefake: 偽造商品検出のための新しいcnnエンハンスドプラットフォームの最初のレポート

SpotTheFake: An Initial Report on a New CNN-Enhanced Platform for Counterfeit Goods Detection ( http://arxiv.org/abs/2002.06735v2 )

ライセンス: Link先を確認
Alexandru \c{S}erban, George Ila\c{s}, George-Cosmin Poru\c{s}niuc(参考訳) 偽造品の取引は、今日では世界の貿易全体の3.3%以上を占めており、それゆえ、これまで以上に多くの注意を払わなければならない問題であり、現代社会に対する否定的な影響を減少させる信頼できる解決法である。 本稿では,従来のVGG16畳み込みモデルにおいて,「トランスファーラーニング」のプロセスを通じて訓練された学習能力を生かした,新たな偽物検出プラットフォームの設計と初期開発について述べる。

The counterfeit goods trade represents nowadays more than 3.3% of the whole world trade and thus it's a problem that needs now more than ever a lot of attention and a reliable solution that would reduce the negative impact it has over the modern society. This paper presents the design and early stage development of a novel counterfeit goods detection platform that makes use of the outstsanding learning capabilities of the classical VGG16 convolutional model trained through the process of "transfer learning" and a multi-stage fake detection procedure that proved to be not only reliable but also very robust in the experiments we have conducted so far using an image dataset of various goods which we gathered ourselves.
翻訳日:2022-12-31 12:28:27 公開日:2020-02-19
# 運動学習のための機械学習:適応リハビリテーションロボットにおける認知エンゲージメントの脳波による連続的評価

Machine Learning for Motor Learning: EEG-based Continuous Assessment of Cognitive Engagement for Adaptive Rehabilitation Robots ( http://arxiv.org/abs/2002.07541v2 )

ライセンス: Link先を確認
Neelesh Kumar and Konstantinos P. Michmizos(参考訳) 認知エンゲージメント(CE)は運動学習において重要であるが、現在、その評価は間欠的に行われた主観的・全体的測定に依存しているため、リハビリテーションロボットでは未使用のままである。 本稿では,脳波信号を用いてCEをリアルタイムに評価するエンドツーエンドの計算フレームワークを提案する。 フレームワークは、 一 深層畳み込みニューラルネットワーク(CNN)で、タスク識別時空間脳波を抽出し、2つのクラスのCEのレベルを予測すること。 二 リアルタイムにCEの連続的なレベルを予測する新しいスライディングウインドウ手法。 ゲームプレイパラメータを適応させて認知疲労を誘発する社内Go/No-Go実験を8名を対象に評価した。 提案するcnnの平均離職精度は88.13\%であった。 CE予測は5分毎の自己申告に基づく行動指標(\rho$=0.93)とよく相関している。 本研究はCEをリアルタイムに対象とし,各患者のニーズやスキルに合わせてロボット療法を調整するためのリハビリテーションパラメータとしてCEを使用するための道を開く。

Although cognitive engagement (CE) is crucial for motor learning, it remains underutilized in rehabilitation robots, partly because its assessment currently relies on subjective and gross measurements taken intermittently. Here, we propose an end-to-end computational framework that assesses CE in real-time, using electroencephalography (EEG) signals as objective measurements. The framework consists of i) a deep convolutional neural network (CNN) that extracts task-discriminative spatiotemporal EEG to predict the level of CE for two classes -- cognitively engaged vs. disengaged; and ii) a novel sliding window method that predicts continuous levels of CE in real-time. We evaluated our framework on 8 subjects using an in-house Go/No-Go experiment that adapted its gameplay parameters to induce cognitive fatigue. The proposed CNN had an average leave-one-out accuracy of 88.13\%. The CE prediction correlated well with a commonly used behavioral metric based on self-reports taken every 5 minutes ($\rho$=0.93). Our results objectify CE in real-time and pave the way for using CE as a rehabilitation parameter for tailoring robotic therapy to each patient's needs and skills.
翻訳日:2022-12-30 20:09:35 公開日:2020-02-19
# RTMobile:音声認識のためのリアルタイムモバイルアクセラレーションを超えて

RTMobile: Beyond Real-Time Mobile Acceleration of RNNs for Speech Recognition ( http://arxiv.org/abs/2002.11474v1 )

ライセンス: Link先を確認
Peiyan Dong, Siyue Wang, Wei Niu, Chengming Zhang, Sheng Lin, Zhengang Li, Yifan Gong, Bin Ren, Xue Lin, Yanzhi Wang, and Dingwen Tao(参考訳) リカレントニューラルネットワーク(RNN)に基づく自動音声認識は、近年、スマートフォンなどのモバイルデバイスで普及している。 しかし、従来のRNN圧縮技術は、不規則性によるハードウェア性能のオーバーヘッドや、ハードウェアフレンドリ性の保存された規則性による大幅な精度低下に悩まされていた。 本稿では,新しいブロックベースプルーニング手法と,モバイルデバイス上でのrnn推論を高速化するコンパイラ最適化を併用したrtmobileを提案する。 提案するRTMobileは,モバイルプラットフォーム上でリアルタイムRNN推論を実現する最初の試みである。 実験の結果,RTMobile は既存の RNN ハードウェアアクセラレーション手法よりも推定精度と時間で大幅に優れていた。 GRU上でAdreno 640組み込みGPUを使用するRTMobileは、FPGAの以前の作業と比較すると、同じ推論時間を維持しながら、40$\times$のエネルギー効率を向上させることができる。

Recurrent neural networks (RNNs) based automatic speech recognition has nowadays become prevalent on mobile devices such as smart phones. However, previous RNN compression techniques either suffer from hardware performance overhead due to irregularity or significant accuracy loss due to the preserved regularity for hardware friendliness. In this work, we propose RTMobile that leverages both a novel block-based pruning approach and compiler optimizations to accelerate RNN inference on mobile devices. Our proposed RTMobile is the first work that can achieve real-time RNN inference on mobile platforms. Experimental results demonstrate that RTMobile can significantly outperform existing RNN hardware acceleration methods in terms of inference accuracy and time. Compared with prior work on FPGA, RTMobile using Adreno 640 embedded GPU on GRU can improve the energy-efficiency by about 40$\times$ while maintaining the same inference time.
翻訳日:2022-12-30 14:41:53 公開日:2020-02-19
# 障害診断のためのニューラルアーキテクチャ探索

Neural Architecture Search For Fault Diagnosis ( http://arxiv.org/abs/2002.07997v1 )

ライセンス: Link先を確認
Xudong Li, Yang Hu, Jianhua Zheng, Mingtao Li(参考訳) データ駆動手法は、特に深層学習法において、断層診断に大きな進歩をもたらした。 ディープラーニングはビッグデータ処理に適しており、エンドツーエンドの故障診断システムを実現する強力な特徴抽出機能を備えている。 しかし、ニューラルネットワークアーキテクチャを設計するには、豊富な専門知識とデバッグエクスペリエンスが必要であり、モデルやハイパーパラメータの表示には多くの実験が必要であり、ディープラーニングモデルの開発が困難になる。 幸いにも、neural architecture search(nas)は急速に発展しており、ディープラーニングの次の方向の1つになっている。 本稿では,補強学習を用いたNAS法による断層診断手法を提案する。 繰り返しニューラルネットワークは、ネットワークアーキテクチャを生成するエージェントとして使用される。 検証データセット上で生成されたネットワークの精度を報酬としてエージェントに返送し、戦略勾配アルゴリズムを介してエージェントのパラメータを更新する。 phm 2009 data challenge gearboxデータセットを用いて,提案手法の有効性を検証し,他の人工ネットワーク構造と比較して最先端の結果を得る。 著者の知る限りでは、NASが障害診断に応用されたのは今回が初めてです。

Data-driven methods have made great progress in fault diagnosis, especially deep learning method. Deep learning is suitable for processing big data, and has a strong feature extraction ability to realize end-to-end fault diagnosis systems. However, designing neural network architecture requires rich professional knowledge and debugging experience, and a lot of experiments are needed to screen models and hyperparameters, increasing the difficulty of developing deep learning models. Frortunately, neural architecture search (NAS) is developing rapidly, and is becoming one of the next directions for deep learning. In this paper, we proposed a NAS method for fault diagnosis using reinforcement learning. A recurrent neural network is used as an agent to generate network architecture. The accuracy of the generated network on the validation dataset is fed back to the agent as a reward, and the parameters of the agent are updated through the strategy gradient algorithm. We use PHM 2009 Data Challenge gearbox dataset to prove the effectiveness of proposed method, and obtain state-of-the-art results compared with other artificial designed network structures. To author's best knowledge, it's the first time that NAS has been applied in fault diagnosis.
翻訳日:2022-12-30 14:41:07 公開日:2020-02-19
# イオン液体のアンモニア捕獲のための機械学習モデルの比較分析

Comparative analysis of machine learning models for Ammonia Capture of Ionic Liquids ( http://arxiv.org/abs/2003.06224v1 )

ライセンス: Link先を確認
Shahaboddin Shamshirband, Narjes Nabipour, Masoud Hadipoor, Alireza Baghban, Amir Mosavi(参考訳) 産業は冷蔵と換気のプロセスに様々な溶媒を使用する。 その中でも、比較的新しい溶媒としてのイオン液体(ils)は、その環境にやさしい特性で知られている。 本研究では, 総括的な文献レビューを行い, ILのアンモニア溶解度を推定するための予測モデルについて考察した。 さらに, 多層型パーセプトロン(mlp)と粒子群最適化(pso)と適応型ニューロファジー推論システム(anfis)モデルを組み合わせて, 各種イオン液体中のアンモニアの溶解度を推定した。 影響因子は分子量,臨界温度,ILの圧力であった。 さらに、状態の2等式を用いて塩分率を予測できる。 結論として、実験結果とモデリング結果のいくつかの比較はめったに行われない。 この研究は、状態方程式がアンモニアの溶解度を正確に推定できないことを示しており、対照的に人工知能の手法は有望な結果を生み出している。

Industry uses various solvents in the processes of refrigeration and ventilation. Among them, the Ionic liquids (ILs) as the relatively new solvents, are known for their proven eco-friendly characteristics. In this research, a comprehensive literature review was carried out to deliver an insight into the ILs and the prediction models used for estimating the ammonia solubility in ILs. Furthermore, a number of advanced machine learning methods, i.e. multilayer perceptron (MLP) and a combination of particle swarm optimization (PSO) and adaptive neuro-fuzzy inference system (ANFIS) models are used to estimate the solubility of ammonia in various ionic liquids. Affecting parameters were molecular weight, critical temperature and pressure of ILs. Furthermore, the salability is also predicted using the two-equation of states. Down the line, some comparisons were drawn between experimental and modeling results which is rarely done. The study shows that the equations of states are not able estimate the solubility of ammonia accurately, by contrast, artificial intelligence methods have produced promising results.
翻訳日:2022-12-30 14:40:23 公開日:2020-02-19
# ARM NEON拡張を用いた形態フィルタの高速化

Fast Implementation of Morphological Filtering Using ARM NEON Extension ( http://arxiv.org/abs/2002.09474v1 )

ライセンス: Link先を確認
Elena Limonova and Arseny Terekhin and Dmitry Nikolaev and Vladimir Arlazarov(参考訳) 本稿では,ARMプロセッサにおける形態素画像フィルタリングの高速化の可能性を検討する。 形態素演算は画像解析や認識に広く使われており、その高速化は認識全体の実行時間を大幅に削減することができる。 具体的には,ARM SIMD拡張NEONを用いた浸食とダイレーションの高速実装を提案する。 矩形構造要素を持つこれらの操作は分離可能である。 シーケンシャルな水平と垂直のパスとして分離性の利点を用いて実装された。 各パスはvan herk/gil-wermanアルゴリズムで大窓と小窓の低定数線形複雑性アルゴリズムで実装された。 最終的な実装はsimdで改善され、これらの手法の組み合わせを使用した。 また,ARM NEON を用いた 8x8 および 16x16 行列の高速変換実装も検討した。 実験では, SIMDのないvan Herk/Gil-Wermanアルゴリズムと比較して, 浸食およびダイレーションの最終実施時の効率は3倍, 8x8行列では5.7倍, 16x16行列では12倍に向上した。

In this paper we consider speedup potential of morphological image filtering on ARM processors. Morphological operations are widely used in image analysis and recognition and their speedup in some cases can significantly reduce overall execution time of recognition. More specifically, we propose fast implementation of erosion and dilation using ARM SIMD extension NEON. These operations with the rectangular structuring element are separable. They were implemented using the advantages of separability as sequential horizontal and vertical passes. Each pass was implemented using van Herk/Gil-Werman algorithm for large windows and low-constant linear complexity algorithm for small windows. Final implementation was improved with SIMD and used a combination of these methods. We also considered fast transpose implementation of 8x8 and 16x16 matrices using ARM NEON to get additional computational gain for morphological operations. Experiments showed 3 times efficiency increase for final implementation of erosion and dilation compared to van Herk/Gil-Werman algorithm without SIMD, 5.7 times speedup for 8x8 matrix transpose and 12 times speedup for 16x16 matrix transpose compared to transpose without SIMD.
翻訳日:2022-12-30 14:40:05 公開日:2020-02-19
# 進行成長ganを用いた21cmトモグラフィ試料生成とパラメータ推定の統一フレームワーク

A unified framework for 21cm tomography sample generation and parameter inference with Progressively Growing GANs ( http://arxiv.org/abs/2002.07940v1 )

ライセンス: Link先を確認
Florian List and Geraint F. Lewis(参考訳) イオン化のEpoch of Reionisation (EoR) から21cmの明るさの温度信号のデータベースを作成することは、関連する天体物理過程の範囲と、調査される可能性のある高次元パラメータ空間を考えると、複雑な計算コストのかかる作業である。 我々は、特定のタイプのニューラルネットワーク、PGGAN(Progressively Growing Generative Adversarial Network)を利用して、EoR中の21cmの明るさ温度の現実的なトモグラフィー画像を生成し、X線放射率、ライマンバンド放射率、硬X線と軟X線との比をモデル化した連続した3次元パラメータ空間をカバーする。 GPUトレーニングされたネットワークは、1秒で$\sim 3'$の解像度で新しいサンプルを生成し(ラップトップCPU上で)、その結果得られたグローバルな21cm信号、パワースペクトル、ピクセル分布関数は、21SSDカタログ \citep{Semelin2017}から取得したトレーニングデータとよく一致する。 最後に,21cmトモグラフィ標本からのパラメータを近似ベイズ計算により推定する逆タスクにおいて,トレーニングされたPGGANをどのように活用できるかを示す。

Creating a database of 21cm brightness temperature signals from the Epoch of Reionisation (EoR) for an array of reionisation histories is a complex and computationally expensive task, given the range of astrophysical processes involved and the possibly high-dimensional parameter space that is to be probed. We utilise a specific type of neural network, a Progressively Growing Generative Adversarial Network (PGGAN), to produce realistic tomography images of the 21cm brightness temperature during the EoR, covering a continuous three-dimensional parameter space that models varying X-ray emissivity, Lyman band emissivity, and ratio between hard and soft X-rays. The GPU-trained network generates new samples at a resolution of $\sim 3'$ in a second (on a laptop CPU), and the resulting global 21cm signal, power spectrum, and pixel distribution function agree well with those of the training data, taken from the 21SSD catalogue \citep{Semelin2017}. Finally, we showcase how a trained PGGAN can be leveraged for the converse task of inferring parameters from 21cm tomography samples via Approximate Bayesian Computation.
翻訳日:2022-12-30 14:39:46 公開日:2020-02-19
# 非線形拡散率とビオット方程式を解く物理インフォームニューラルネットワーク

Physics-informed Neural Networks for Solving Nonlinear Diffusivity and Biot's equations ( http://arxiv.org/abs/2002.08235v1 )

ライセンス: Link先を確認
Teeratorn Kadeethum, Thomas M Jorgensen, Hamidreza M Nick(参考訳) 本稿では, 生体工学, 地震予知, 地下エネルギー収穫など多くの分野において重要な非線形多物理問題の解法として, 物理インフォームドニューラルネットワークの適用の可能性について述べる。 具体的には, 非線形微分率とビオット方程式に関して, 前方および逆問題の両方を解くために, 物理インフォームドニューラルネットワークの方法論を拡張する方法について検討する。 我々は,ハイパーパラメータのトレーニングサンプルサイズと選択の異なる物理形ニューラルネットワークの精度について検討する。 また,各種トレーニング実現における確率的変動の影響についても検討した。 また,逆の場合,ノイズ測定の効果についても検討した。 さらに、逆モデルのハイパーパラメータを選択するという課題に対処し、この課題が前方モデルのハイパーパラメータ選択とどのように結びついているかを説明する。

This paper presents the potential of applying physics-informed neural networks for solving nonlinear multiphysics problems, which are essential to many fields such as biomedical engineering, earthquake prediction, and underground energy harvesting. Specifically, we investigate how to extend the methodology of physics-informed neural networks to solve both the forward and inverse problems in relation to the nonlinear diffusivity and Biot's equations. We explore the accuracy of the physics-informed neural networks with different training example sizes and choices of hyperparameters. The impacts of the stochastic variations between various training realizations are also investigated. In the inverse case, we also study the effects of noisy measurements. Furthermore, we address the challenge of selecting the hyperparameters of the inverse model and illustrate how this challenge is linked to the hyperparameters selection performed for the forward one.
翻訳日:2022-12-30 14:38:18 公開日:2020-02-19
# Feulgen-Stained Imageにおける核の完全分割パイプラインに向けて

Towards a Complete Pipeline for Segmenting Nuclei in Feulgen-Stained Images ( http://arxiv.org/abs/2002.08331v1 )

ライセンス: Link先を確認
Luiz Antonio Buschetto Macarini, Aldo von Wangenheim, Felipe Perozzo Dalto\'e, Alexandre Sherlley Casimiro Onofre, Fabiana Botelho de Miranda Onofre, Marcelo Ricardo Stemmer(参考訳) 子宮頸がんは世界で2番目に多いがんである。 一部の国では、非存在または不適切なスクリーニングのため、後期にしばしば検出され、標準的な治療オプションが欠如または耐え難い状態になる。 早期発見アプローチの恩恵を受けうる致命的な疾患である。 通常は細胞学的検査によって行われ、形態変化を探索する核を視覚的に検査する。 人間によって行われるため、自然にいくつかの主観性が導入される。 計算手法は、プロセスの最初の段階が核のセグメンテーションとなるような、この削減に使うことができる。 そこで本研究では,畳み込みニューラルネットワークを用いたフルーゲンステンド画像中の核のセグメンテーションのための完全なパイプラインを提案する。 ここでは、サンプルの収集、前処理、ネットワークのトレーニング、後処理、結果評価など、セグメンテーションの全過程を示す。 全体iouは 0.78 であり, フェルゲンステンド画像に対する核セグメンテーションのアプローチが可能であった。 コードは、https://github.com/luizbuschetto/feulgen_nuclei_segmentationで入手できる。

Cervical cancer is the second most common cancer type in women around the world. In some countries, due to non-existent or inadequate screening, it is often detected at late stages, making standard treatment options often absent or unaffordable. It is a deadly disease that could benefit from early detection approaches. It is usually done by cytological exams which consist of visually inspecting the nuclei searching for morphological alteration. Since it is done by humans, naturally, some subjectivity is introduced. Computational methods could be used to reduce this, where the first stage of the process would be the nuclei segmentation. In this context, we present a complete pipeline for the segmentation of nuclei in Feulgen-stained images using Convolutional Neural Networks. Here we show the entire process of segmentation, since the collection of the samples, passing through pre-processing, training the network, post-processing and results evaluation. We achieved an overall IoU of 0.78, showing the affordability of the approach of nuclei segmentation on Feulgen-stained images. The code is available in: https://github.com/luizbuschetto/feulgen_nuclei_segmentation.
翻訳日:2022-12-30 14:31:29 公開日:2020-02-19
# 作業グリッドからのセマンティック室内マップの抽出

Extracting Semantic Indoor Maps from Occupancy Grids ( http://arxiv.org/abs/2002.08348v1 )

ライセンス: Link先を確認
Ziyuan Liu, Georg von Wichert(参考訳) 現実的で制約のないシナリオで運用する自律システムにとっての最大の課題は、現実世界の複雑さと不確実性を管理することである。 人間や他の高等動物がどのようにこれらの問題をマスターしているかは明らかではないが、抽象化が重要な役割を果たすことは明らかである。 抽象概念を使うことで、より高いレベルでシステムの振る舞いを定義することができる。 本稿では,屋内環境のセマンティックマッピングに着目した。 ベイジアン推論を用いて,典型的なグリッドマップから抽象フロアプランを抽出する手法を提案する。 この手順の結果は抽象概念上定義された環境の確率的生成モデルである。 高度な推論とコミュニケーションの目的に適している。 実世界のデータを用いたアプローチの有効性を示す。

The primary challenge for any autonomous system operating in realistic, rather unconstrained scenarios is to manage the complexity and uncertainty of the real world. While it is unclear how exactly humans and other higher animals master these problems, it seems evident, that abstraction plays an important role. The use of abstract concepts allows to define the system behavior on higher levels. In this paper we focus on the semantic mapping of indoor environments. We propose a method to extract an abstracted floor plan from typical grid maps using Bayesian reasoning. The result of this procedure is a probabilistic generative model of the environment defined over abstract concepts. It is well suited for higher-level reasoning and communication purposes. We demonstrate the effectiveness of the approach using real-world data.
翻訳日:2022-12-30 14:31:12 公開日:2020-02-19
# 変形可能な畳み込みのためのアルゴリズムハードウェア共設計

Algorithm-hardware Co-design for Deformable Convolution ( http://arxiv.org/abs/2002.08357v1 )

ライセンス: Link先を確認
Qijing Huang, Dequan Wang, Yizhao Gao, Yaohui Cai, Zhen Dong, Bichen Wu, Kurt Keutzer, John Wawrzynek(参考訳) FPGAは、コンピュータビジョンのための高速に変化するアルゴリズムを加速するための柔軟で効率的なプラットフォームを提供する。 既存の研究の大部分は画像分類の高速化に重点を置いているが、オブジェクト検出やインスタンスのセグメンテーションを含む他の基本的な視覚問題は十分に解決されていない。 画像分類と比較すると、検出問題は物体の空間的ばらつきに敏感であり、そのため空間情報を集約するために特別な畳み込みが必要となる。 これに対処するために、近年の研究では、通常の畳み込みを補強するために動的変形可能な畳み込みを提案する。 通常の畳み込みは画像内のすべての空間的位置をまたいだ固定されたピクセルのグリッドを処理するが、動的に変形可能な畳み込みは画像内の任意のピクセルにアクセスでき、アクセスパターンは入力に依存し、空間的位置ごとに変化する。 これらの特性は、既存のハードウェアによる入力の非効率なメモリアクセスにつながる。 本研究ではまず, FPGA SoCの変形可能な畳み込みのオーバーヘッドについて検討し, そして, 完全かつ深度的に, 固定形状, 限定範囲を含むアルゴリズム修正の精度・レイテンシのトレードオフを示す。 これらの修正は、一般に計算複雑性を減らすため、組み込み機器のエネルギー効率を向上する。 次に,変形可能な畳み込みを改良した効率的な物体検出ネットワークを構築し,最先端の量子化手法を用いてネットワークを定量化する。 我々はFPGA上に統一ハードウェアエンジンを実装し、ネットワーク内のすべての操作をサポートする。 予備実験により,変形可能な畳み込みの共設計最適化により,精度が低下し,高速化が達成できることを示した。

FPGAs provide a flexible and efficient platform to accelerate rapidly-changing algorithms for computer vision. The majority of existing work focuses on accelerating image classification, while other fundamental vision problems, including object detection and instance segmentation, have not been adequately addressed. Compared with image classification, detection problems are more sensitive to the spatial variance of objects, and therefore, require specialized convolutions to aggregate spatial information. To address this, recent work proposes dynamic deformable convolution to augment regular convolutions. Regular convolutions process a fixed grid of pixels across all the spatial locations in an image, while dynamic deformable convolutions may access arbitrary pixels in the image and the access pattern is input-dependent and varies per spatial location. These properties lead to inefficient memory accesses of inputs with existing hardware. In this work, we first investigate the overhead of the deformable convolution on embedded FPGA SoCs, and then show the accuracy-latency tradeoffs for a set of algorithm modifications including full versus depthwise, fixed-shape, and limited-range. These modifications benefit the energy efficiency for embedded devices in general as they reduce the compute complexity. We then build an efficient object detection network with modified deformable convolutions and quantize the network using state-of-the-art quantization methods. We implement a unified hardware engine on FPGA to support all the operations in the network. Preliminary experiments show that little accuracy is compromised and speedup can be achieved with our co-design optimization for the deformable convolution.
翻訳日:2022-12-30 14:31:02 公開日:2020-02-19
# マルコフ論理ネットワークとデータ駆動MCMCに基づくセマンティック屋内マッピングのための一般化可能な知識フレームワーク

A Generalizable Knowledge Framework for Semantic Indoor Mapping Based on Markov Logic Networks and Data Driven MCMC ( http://arxiv.org/abs/2002.08402v1 )

ライセンス: Link先を確認
Ziyuan Liu, Georg von Wichert(参考訳) 本稿では、データ抽象化のための一般化された知識フレームワーク、すなわち、予め定義された抽象用語を用いた入力データのためのコンパクトな抽象モデルを見つけることを提案する。 これらの抽象的な用語に基づいて、ロボットのようなインテリジェントな自律システムは、特定の知識ベースに従って推論することができ、現実世界の複雑さと不確実性をよりうまく扱うことができる。 我々は,マルコフ論理ネットワーク(MLN)とデータ駆動MCMCサンプリングを組み合わせることで,このフレームワークを実現することを提案する。 さらに,このフレームワークを特定のタスク,特にセマンティックロボットマッピングに適用する方法を詳細に示す。 MLNに基づいて,タスク固有のコンテキスト知識を記述型ソフトルールとして定式化する。 実世界データとシミュレーションデータを用いた実験により,このフレームワークの有用性を確認した。

In this paper, we propose a generalizable knowledge framework for data abstraction, i.e. finding compact abstract model for input data using predefined abstract terms. Based on these abstract terms, intelligent autonomous systems, such as a robot, should be able to make inference according to specific knowledge base, so that they can better handle the complexity and uncertainty of the real world. We propose to realize this framework by combining Markov logic networks (MLNs) and data driven MCMC sampling, because the former are a powerful tool for modelling uncertain knowledge and the latter provides an efficient way to draw samples from unknown complex distributions. Furthermore, we show in detail how to adapt this framework to a certain task, in particular, semantic robot mapping. Based on MLNs, we formulate task-specific context knowledge as descriptive soft rules. Experiments on real world data and simulated data confirm the usefulness of our framework.
翻訳日:2022-12-30 14:30:05 公開日:2020-02-19
# 知識スーパービジョンMCMCを用いたテーブルトップシーン解析

Table-Top Scene Analysis Using Knowledge-Supervised MCMC ( http://arxiv.org/abs/2002.08417v1 )

ライセンス: Link先を確認
Ziyuan Liu, Dong Chen, Kai M. Wurm, Georg von Wichert(参考訳) 本稿では,6次元オブジェクトのポーズ推定からテーブルトップシーンの抽象的なシーングラフを生成する確率的手法を提案する。 我々は,この知識をマルコフ論理ネットワークの記述規則としてエンコードすることにより,タスク仕様の文脈知識を明示的に活用する。 オブジェクトポーズの不確実性は、データ駆動mcmcプロセスに埋め込まれた確率的センサモデルによって対処されます。 隠れたオブジェクトを推論するためにマルコフ論理推論を適用し、オブジェクトのポーズの誤推定を検出する。 本手法の有効性を実世界の実験で実証し評価した。

In this paper, we propose a probabilistic method to generate abstract scene graphs for table-top scenes from 6D object pose estimates. We explicitly make use of task-specfic context knowledge by encoding this knowledge as descriptive rules in Markov logic networks. Our approach to generate scene graphs is probabilistic: Uncertainty in the object poses is addressed by a probabilistic sensor model that is embedded in a data driven MCMC process. We apply Markov logic inference to reason about hidden objects and to detect false estimates of object poses. The effectiveness of our approach is demonstrated and evaluated in real world experiments.
翻訳日:2022-12-30 14:29:29 公開日:2020-02-19
# webスケールグラフ上でのリアルタイムインデックスフリーなシングルソースシムランク処理

Realtime Index-Free Single Source SimRank Processing on Web-Scale Graphs ( http://arxiv.org/abs/2002.08082v1 )

ライセンス: Link先を確認
Jieming Shi, Tianyuan Jin, Renchi Yang, Xiaokui Xiao, Yin Yang(参考訳) グラフ G と G のノード u が与えられた場合、単一のソース SimRank クエリは、G のノード v と u との類似性を評価する。 したがって、私たちの知る限りでは、これらのどれもシナリオに理想的ではありません。 (i)クエリ処理はリアルタイムに行う必要があり、 (ii) グラフ G は巨大であり、頻繁に更新される。 そこで我々は,SimPushを提案する。SimPushは,事前計算なしで単一ソースのSimRankクエリに応答する新しいアルゴリズムであり,同時に,最も高速なインデックスベースソリューションよりもはるかに高いクエリ処理速度を実現する。 さらに、SimPushは厳密な結果の品質保証を提供し、そのハイパフォーマンスは基礎となるグラフの強い仮定に依存しない。 具体的には、既存の方法と比較して、SimPushはアルゴリズム設計に重点を置いている。 (i)クエリに関連する少数のノードを識別した後 (II)計算統計とこれらのノードからの残余プッシュのみを実行すること。 我々はSimPushの正確性を証明し、その時間的複雑さを分析し、その漸近的性能を既存の手法と比較する。 一方,SimPushの実践的性能は,8つの実データセットに対する広範な実験により評価する。 結果は、SimPushが既存のソリューション全てを一貫して上回り、しばしば桁違いに上回っていることを示している。 特にコモディティマシンでは、simpushは1億3300万のノードと540億のエッジを含むwebグラフ上の1つのソースのsimrankクエリに62ミリ秒未満で回答する。

Given a graph G and a node u in G, a single source SimRank query evaluates the similarity between u and every node v in G. Existing approaches to single source SimRank computation incur either long query response time, or expensive pre-computation, which needs to be performed again whenever the graph G changes. Consequently, to our knowledge none of them is ideal for scenarios in which (i) query processing must be done in realtime, and (ii) the underlying graph G is massive, with frequent updates. Motivated by this, we propose SimPush, a novel algorithm that answers single source SimRank queries without any pre-computation, and at the same time achieves significantly higher query processing speed than even the fastest known index-based solutions. Further, SimPush provides rigorous result quality guarantees, and its high performance does not rely on any strong assumption of the underlying graph. Specifically, compared to existing methods, SimPush employs a radically different algorithmic design that focuses on (i) identifying a small number of nodes relevant to the query, and subsequently (ii) computing statistics and performing residue push from these nodes only. We prove the correctness of SimPush, analyze its time complexity, and compare its asymptotic performance with that of existing methods. Meanwhile, we evaluate the practical performance of SimPush through extensive experiments on 8 real datasets. The results demonstrate that SimPush consistently outperforms all existing solutions, often by over an order of magnitude. In particular, on a commodity machine, SimPush answers a single source SimRank query on a web graph containing over 133 million nodes and 5.4 billion edges in under 62 milliseconds, with 0.00035 empirical error, while the fastest index-based competitor needs 1.18 seconds.
翻訳日:2022-12-30 14:29:20 公開日:2020-02-19
# 信頼に値する自律/認知システムへの構造化アプローチ

A Structured Approach to Trustworthy Autonomous/Cognitive Systems ( http://arxiv.org/abs/2002.08210v1 )

ライセンス: Link先を確認
Henrik J. Putzer and Ernest Wozniak(参考訳) 認知機能を備えた自律システムは、市場に投入される。 複雑な環境では、安全に関するコンテキストにおいても、複雑な目標指向の振る舞いを実装することを約束します。 この行動は、一定のレベルの状況認識(知覚)と高度な意思決定(熟考)に基づいている。 これらのシステムの多くは人工知能(ニューラルネットワークなど)によって駆動される。 このような複雑なシステムとAI技術の使用の問題は、信頼性を確保するための一般的なアプローチがないことである。 本稿では,このギャップを正確に埋める枠組みを提案する。 現行の安全基準に基づく構造的アプローチとして参照ライフサイクルを提案し,自律/コグニチブシステムと信頼性の要件を満たすように拡張した。

Autonomous systems with cognitive features are on their way into the market. Within complex environments, they promise to implement complex and goal oriented behavior even in a safety related context. This behavior is based on a certain level of situational awareness (perception) and advanced de-cision making (deliberation). These systems in many cases are driven by artificial intelligence (e.g. neural networks). The problem with such complex systems and with using AI technology is that there is no generally accepted approach to ensure trustworthiness. This paper presents a framework to exactly fill this gap. It proposes a reference lifecycle as a structured approach that is based on current safety standards and enhanced to meet the requirements of autonomous/cog-nitive systems and trustworthiness.
翻訳日:2022-12-30 14:28:48 公開日:2020-02-19
# madan: ドメイン適応のための多元逆ドメインアグリゲーションネットワーク

MADAN: Multi-source Adversarial Domain Aggregation Network for Domain Adaptation ( http://arxiv.org/abs/2003.00820v1 )

ライセンス: Link先を確認
Sicheng Zhao, Bo Li, Xiangyu Yue, Pengfei Xu, Kurt Keutzer(参考訳) ドメイン適応は、あるラベル付きソースドメインと別のラベル付きまたはラベルなしのターゲットドメインの間のドメインシフトを橋渡しするために、転送可能なモデルを学ぶことを目的としている。 ラベル付きデータは複数のソースから収集できるため、マルチソースドメイン適応(MDA)が注目されている。 最近のMDA法では、ソースとターゲット間の画素レベルのアライメントや、異なるソース間のミスアライメントは考慮されていない。 本稿では,これらの課題に対処する新しいMDAフレームワークを提案する。 具体的には、エンドツーエンドのマルチソース・アグリゲーション・ネットワーク(MADAN)を設計する。 まず、各ソースに対して動的セマンティック一貫性を持つ適応されたドメインを生成し、画素レベルのサイクル一貫性でターゲットに向かって整列する。 第2に、サブドメイン集約判別器とクロスドメインサイクル判別器を提案し、異なる適応ドメインをより緊密に集約する。 最後に、タスクネットワークをトレーニングしながら、集約されたドメインとターゲットドメインの間で機能レベルのアライメントを行う。 セグメンテーション適応では、カテゴリレベルのアライメントをさらに強化し、MADAN+を構成するコンテキスト認識生成を組み込む。 デジタル認識,オブジェクト分類,シミュレーションから現実へのセマンティクスセグメンテーションに関する広範なmda実験を行った。 その結果、提案したMADANモデルとMANDA+モデルは、最先端のアプローチよりも大きなマージンで優れていることが示された。

Domain adaptation aims to learn a transferable model to bridge the domain shift between one labeled source domain and another sparsely labeled or unlabeled target domain. Since the labeled data may be collected from multiple sources, multi-source domain adaptation (MDA) has attracted increasing attention. Recent MDA methods do not consider the pixel-level alignment between sources and target or the misalignment across different sources. In this paper, we propose a novel MDA framework to address these challenges. Specifically, we design an end-to-end Multi-source Adversarial Domain Aggregation Network (MADAN). First, an adapted domain is generated for each source with dynamic semantic consistency while aligning towards the target at the pixel-level cycle-consistently. Second, sub-domain aggregation discriminator and cross-domain cycle discriminator are proposed to make different adapted domains more closely aggregated. Finally, feature-level alignment is performed between the aggregated domain and the target domain while training the task network. For the segmentation adaptation, we further enforce category-level alignment and incorporate context-aware generation, which constitutes MADAN+. We conduct extensive MDA experiments on digit recognition, object classification, and simulation-to-real semantic segmentation. The results demonstrate that the proposed MADAN and MANDA+ models outperform state-of-the-art approaches by a large margin.
翻訳日:2022-12-30 14:22:11 公開日:2020-02-19
# RiskOracle: 都市全体の交通事故予測フレームワーク

RiskOracle: A Minute-level Citywide Traffic Accident Forecasting Framework ( http://arxiv.org/abs/2003.00819v1 )

ライセンス: Link先を確認
Zhengyang Zhou, Yang Wang, Xike Xie, Lianliang Chen, Hengchang Liu(参考訳) リアルタイム交通事故予測は、公共の安全と都市管理(例えば、リアルタイム安全なルート計画と緊急対応展開)にとってますます重要になっている。 事故予知に関するこれまでの研究はしばしば時間レベルで行われ、静的な地域関係を考慮したニューラルネットワークを活用している。 しかし, 予測ステップの粒度が, 道路網の高度にダイナミックな性質と, 事故記録の固有な希少性として向上し, 偏りのある結果や, 膨らませる問題に繋がる場合には, 依然として困難である。 本研究では,予測粒度を微小レベルまで改善する新しいフレームワークであるR RiskOracleを提案する。 具体的には、まずラベルのゼロリスク値をトレーニングネットワークに適合させる。 次に,トラヒック状態と動的サブリージョン間相関の即時変化を捉えるための差分時間変動グラフニューラルネットワーク(dtgn)を提案する。 さらに,都市全体の最も類似した事故地域を強調するマルチタスクと地域選択方式を採用し,偏りのあるリスク値と散発的な事故分布のギャップを橋渡しした。 2つの実世界のデータセットに関する広範囲な実験は、私たちの riskoracleフレームワークの有効性と拡張性を示しています。

Real-time traffic accident forecasting is increasingly important for public safety and urban management (e.g., real-time safe route planning and emergency response deployment). Previous works on accident forecasting are often performed on hour levels, utilizing existed neural networks with static region-wise correlations taken into account. However, it is still challenging when the granularity of forecasting step improves as the highly dynamic nature of road network and inherent rareness of accident records in one training sample, which leads to biased results and zero-inflated issue. In this work, we propose a novel framework RiskOracle, to improve the prediction granularity to minute levels. Specifically, we first transform the zero-risk values in labels to fit the training network. Then, we propose the Differential Time-varying Graph neural network (DTGN) to capture the immediate changes of traffic status and dynamic inter-subregion correlations. Furthermore, we adopt multi-task and region selection schemes to highlight citywide most-likely accident subregions, bridging the gap between biased risk values and sporadic accident distribution. Extensive experiments on two real-world datasets demonstrate the effectiveness and scalability of our RiskOracle framework.
翻訳日:2022-12-30 14:20:33 公開日:2020-02-19
# 高次逆モード自動微分のための微分形式プルバック言語

A Differential-form Pullback Programming Language for Higher-order Reverse-mode Automatic Differentiation ( http://arxiv.org/abs/2002.08241v1 )

ライセンス: Link先を確認
Carol Mak, Luke Ong(参考訳) バックプロパゲーションの一般化であるリバースモード自動微分(AD)が自然に微分 1-形式の引き戻しとして表現できるという観察に基づいて、第一級微分演算子を持つ単純な高階プログラミング言語を設計し、逆モードADを正確にシミュレートする還元戦略を示す。 我々は、Hahn-Banach分離定理を満たす任意の差分$\lambda$-カテゴリで言語を解釈することで、還元戦略を正当化し、還元戦略が真に高階設定で逆モードADを正確にキャプチャすることを示す。

Building on the observation that reverse-mode automatic differentiation (AD) -- a generalisation of backpropagation -- can naturally be expressed as pullbacks of differential 1-forms, we design a simple higher-order programming language with a first-class differential operator, and present a reduction strategy which exactly simulates reverse-mode AD. We justify our reduction strategy by interpreting our language in any differential $\lambda$-category that satisfies the Hahn-Banach Separation Theorem, and show that the reduction strategy precisely captures reverse-mode AD in a truly higher-order setting.
翻訳日:2022-12-30 14:20:10 公開日:2020-02-19
# ジョイント対称性面フィッティングによるグローバル最適点集合登録

Globally optimal point set registration by joint symmetry plane fitting ( http://arxiv.org/abs/2002.07988v1 )

ライセンス: Link先を確認
Lan Hu, Haomin Shi, and Laurent Kneip(参考訳) 本研究は,同じオブジェクトの2つの部分点集合を非常に限定的なオーバーラップで登録するという課題に対する解決法を提案する。 人工環境にあるほとんどの物体が対称性の平面を含むという事実を活用する。 対称面に関して各集合の点を反映することにより、集合間の重なり合いを大きく増加させ、したがって登録プロセスを強化することができる。 しかしながら、対称性の面に関する事前の知識は一般には使用できないか、あるいは少なくとも発見が困難であり、特に部分的視点が限られており、この平面の発見は部分的点集合の事前アライメントから強く恩恵を受ける可能性がある。 相対ポーズと対称性面のパラメータを共同で最適化することで,このニワトリ・アンド・エッグ問題を解決し,特に分枝結合(bnb)パラダイムを用いて大域的最適性の下でこれを実現している。 以上の結果から,共通オブジェクトのグローバル最適点集合登録において,現状よりも大きな改善が得られた。 さらに,繰り返しオブジェクトを用いたシーンの高密度3次元再構成に本手法の興味深い応用例を示す。

The present work proposes a solution to the challenging problem of registering two partial point sets of the same object with very limited overlap. We leverage the fact that most objects found in man-made environments contain a plane of symmetry. By reflecting the points of each set with respect to the plane of symmetry, we can largely increase the overlap between the sets and therefore boost the registration process. However, prior knowledge about the plane of symmetry is generally unavailable or at least very hard to find, especially with limited partial views, and finding this plane could strongly benefit from a prior alignment of the partial point sets. We solve this chicken-and-egg problem by jointly optimizing the relative pose and symmetry plane parameters, and notably do so under global optimality by employing the branch-and-bound (BnB) paradigm. Our results demonstrate a great improvement over the current state-of-the-art in globally optimal point set registration for common objects. We furthermore show an interesting application of our method to dense 3D reconstruction of scenes with repetitive objects.
翻訳日:2022-12-30 14:19:56 公開日:2020-02-19
# スポーツビデオにおけるイベント検出のための教師なし時間的特徴集約

Unsupervised Temporal Feature Aggregation for Event Detection in Unstructured Sports Videos ( http://arxiv.org/abs/2002.08097v1 )

ライセンス: Link先を確認
Subhajit Chaudhury, Daiki Kimura, Phongtharin Vinayavekhin, Asim Munawar, Ryuki Tachibana, Koji Ito, Yuki Inaba, Minoru Matsumoto, Shuji Kidokoro and Hiroki Ozaki(参考訳) 画像ベースのスポーツ分析は、ゲーム内の重要なイベントの自動検索を可能にし、人間の専門家の分析プロセスを高速化する。 しかし、既存の方法のほとんどは、撮影ポーズの変動が最小限の直列および固定カメラを備えた構造化テレビ放送ビデオデータセットに焦点を当てている。 本稿では,任意のカメラアングルを有する非構造環境におけるスポーツ映像におけるイベント検出の事例について検討する。 構造化ビデオ分析から非構造化ビデオ分析への移行は,本稿で取り上げる課題をいくつも生み出している。 具体的には、非構造化設定におけるプレイヤーの教師なし識別と、任意の撮影角度によるバリエーションを示すために訓練されたモデルの一般化の2つの主要な問題を特定し、解決する。 最初の問題として,人物再識別機能を用いた時間的特徴集約アルゴリズムを提案する。 さらに,マルチモーダル画像翻訳モデルに基づくデータ拡張手法を提案し,トレーニングサンプルの出現時のバイアスを低減する。 実験結果から,提案手法は斜め角度ビデオのプレイヤー検索精度を 0.78 から 0.86 に向上させることがわかった。 また,テーブルテニスビデオにおけるラリー検出のためのf1スコアを,グローバルフレームレベルでは0.79から,プレイヤレベルでは0.89に改善した。 追加のビデオはhttps://ibm.biz/BdzeZA.comでご覧ください。

Image-based sports analytics enable automatic retrieval of key events in a game to speed up the analytics process for human experts. However, most existing methods focus on structured television broadcast video datasets with a straight and fixed camera having minimum variability in the capturing pose. In this paper, we study the case of event detection in sports videos for unstructured environments with arbitrary camera angles. The transition from structured to unstructured video analysis produces multiple challenges that we address in our paper. Specifically, we identify and solve two major problems: unsupervised identification of players in an unstructured setting and generalization of the trained models to pose variations due to arbitrary shooting angles. For the first problem, we propose a temporal feature aggregation algorithm using person re-identification features to obtain high player retrieval precision by boosting a weak heuristic scoring method. Additionally, we propose a data augmentation technique, based on multi-modal image translation model, to reduce bias in the appearance of training samples. Experimental evaluations show that our proposed method improves precision for player retrieval from 0.78 to 0.86 for obliquely angled videos. Additionally, we obtain an improvement in F1 score for rally detection in table tennis videos from 0.79 in case of global frame-level features to 0.89 using our proposed player-level features. Please see the supplementary video submission at https://ibm.biz/BdzeZA.
翻訳日:2022-12-30 14:13:29 公開日:2020-02-19
# 反復親和性学習による弱教師付きセマンティックセグメンテーション

Weakly-Supervised Semantic Segmentation by Iterative Affinity Learning ( http://arxiv.org/abs/2002.08098v1 )

ライセンス: Link先を確認
Xiang Wang, Sifei Liu, Huimin Ma, Ming-Hsuan Yang(参考訳) 弱教師付きセマンティックセグメンテーションは、トレーニングのためにピクセル単位のラベル情報が提供されないため、難しい課題である。 近年の手法では、強い応答を持つ領域を選択してオブジェクトをローカライズするための分類網を活用している。 しかし、そのような応答マップはスパース情報を提供するが、自然画像の画素間には強い対関係があり、スパースマップをより密に伝播するのに利用できる。 本稿では,各画素のラベル確率を学習する一意セグメンテーションネットワークと,アフィニティ行列を学習し,その一意ネットワークから生成された確率マップを改良する一意アフィニティネットワークとからなる,そのような二項関係を反復的に学習するアルゴリズムを提案する。 次に、ペアワイズネットワークによる洗練された結果を一元ネットワークのトレーニングの監督として使用し、手順を反復的に実行して、より優れたセグメンテーションを段階的に得る。 正確なアノテーションを使わずに信頼性の高い画素親和性を学習するために,信頼性のある領域のマイニングも提案する。 この枠組みを反復的に訓練することは、局所最小値に収束するエネルギー関数を最適化することと同値であることを示す。 PASCAL VOC 2012とCOCOデータセットの実験結果は,提案アルゴリズムが最先端の手法に対して良好に動作することを示す。

Weakly-supervised semantic segmentation is a challenging task as no pixel-wise label information is provided for training. Recent methods have exploited classification networks to localize objects by selecting regions with strong response. While such response map provides sparse information, however, there exist strong pairwise relations between pixels in natural images, which can be utilized to propagate the sparse map to a much denser one. In this paper, we propose an iterative algorithm to learn such pairwise relations, which consists of two branches, a unary segmentation network which learns the label probabilities for each pixel, and a pairwise affinity network which learns affinity matrix and refines the probability map generated from the unary network. The refined results by the pairwise network are then used as supervision to train the unary network, and the procedures are conducted iteratively to obtain better segmentation progressively. To learn reliable pixel affinity without accurate annotation, we also propose to mine confident regions. We show that iteratively training this framework is equivalent to optimizing an energy function with convergence to a local minimum. Experimental results on the PASCAL VOC 2012 and COCO datasets demonstrate that the proposed algorithm performs favorably against the state-of-the-art methods.
翻訳日:2022-12-30 14:13:09 公開日:2020-02-19
# パッチレベルアテンションを用いたDeFraudNet:End2Endフィンガープリントスポット検出

DeFraudNet:End2End Fingerprint Spoof Detection using Patch Level Attention ( http://arxiv.org/abs/2002.08214v1 )

ライセンス: Link先を確認
B.V.S Anusha, Sayan Banerjee, Subhasis Chaudhuri(参考訳) 近年,指紋認証システムは生体認証の分野において,個人的,国家的,世界的セキュリティにおいて重要な役割を担っているため,顕著な進歩を遂げている。 こうした顕著な進歩にもかかわらず、指紋認識技術はいまだにユーザーのセキュリティを著しく損なうスプーフ攻撃の影響を受けやすい。 クロスセンサーとクロスマテリアルのspoof検出は、センサーの相互運用性と堅牢性を損なうことなく、毎日無数のspoof材料が登場し、依然として課題となっている。 本稿では,グローバルおよびローカルの指紋特徴記述子を用いた新しい指紋スプーフ検出法を提案する。 これらの記述子は、クロスセンサー、クロスマテリアル、クロスデータセットのパフォーマンスを大幅に改善するDenseNetを使用して抽出される。 新たなパッチアテンションネットワークは、最も識別可能なパッチの発見や、ネットワーク融合にも使用される。 LivDet 2011, 2013, 2017の4つの公開データセットに対して, 提案手法の評価を行った。 これらのデータセットに対するクロスセンサ,クロスマテリアル,クロスデータセットのパフォーマンスを評価するために,一連の総合的な実験を行った。 提案手法は、LivDet 2017, 2015, 2011における平均精度99.52%、99.16%、99.72%をそれぞれ、現在の最先端の結果を3%、LivDet 2015, 2011で4%上回っている。

In recent years, fingerprint recognition systems have made remarkable advancements in the field of biometric security as it plays an important role in personal, national and global security. In spite of all these notable advancements, the fingerprint recognition technology is still susceptible to spoof attacks which can significantly jeopardize the user security. The cross sensor and cross material spoof detection still pose a challenge with a myriad of spoof materials emerging every day, compromising sensor interoperability and robustness. This paper proposes a novel method for fingerprint spoof detection using both global and local fingerprint feature descriptors. These descriptors are extracted using DenseNet which significantly improves cross-sensor, cross-material and cross-dataset performance. A novel patch attention network is used for finding the most discriminative patches and also for network fusion. We evaluate our method on four publicly available datasets:LivDet 2011, 2013, 2015 and 2017. A set of comprehensive experiments are carried out to evaluate cross-sensor, cross-material and cross-dataset performance over these datasets. The proposed approach achieves an average accuracy of 99.52%, 99.16% and 99.72% on LivDet 2017,2015 and 2011 respectively outperforming the current state-of-the-art results by 3% and 4% for LivDet 2015 and 2011 respectively.
翻訳日:2022-12-30 14:12:24 公開日:2020-02-19
# ファーストパーソンインタラクション認識のための3ストリーム融合ネットワーク

Three-Stream Fusion Network for First-Person Interaction Recognition ( http://arxiv.org/abs/2002.08219v1 )

ライセンス: Link先を確認
Ye-Ji Kim, Dong-Gyu Lee, Seong-Whan Lee(参考訳) 一人称インタラクション認識は,カメラ装着者の動作に起因する不安定な映像条件のため,難しい課題である。 本稿では,人間同士のインタラクション認識のために,3ストリームアーキテクチャと3ストリーム相関融合という2つの主要な部分を持つ3ストリーム融合ネットワークを提案する。 3ストリームアーキテクチャは、ターゲットの外観、ターゲットの動き、カメラのエゴモーションの特徴をキャプチャする。 一方、3ストリーム相関融合は、3ストリームのそれぞれの特徴マップを組み合わせて、ターゲットの外観、ターゲットの動き、カメラの自走の相関を考察する。 融合特徴ベクトルは、カメラ運動に対して頑丈であり、カメラ自走のノイズを補償する。 短時間の間隔は融合特徴ベクトルを用いてモデル化され、長い短期記憶(LSTM)モデルはビデオの時間的ダイナミクスを考慮する。 提案手法を2つのベンチマークデータセットで評価し,提案手法の有効性を検証した。 実験の結果,提案手法は識別的特徴ベクトルの生成に成功し,カメラエゴモーションが相当な場合の1対1のビデオでは,ネットワークが競合行動認識手法を上回っていた。

First-person interaction recognition is a challenging task because of unstable video conditions resulting from the camera wearer's movement. For human interaction recognition from a first-person viewpoint, this paper proposes a three-stream fusion network with two main parts: three-stream architecture and three-stream correlation fusion. Thre three-stream architecture captures the characteristics of the target appearance, target motion, and camera ego-motion. Meanwhile the three-stream correlation fusion combines the feature map of each of the three streams to consider the correlations among the target appearance, target motion and camera ego-motion. The fused feature vector is robust to the camera movement and compensates for the noise of the camera ego-motion. Short-term intervals are modeled using the fused feature vector, and a long short-term memory(LSTM) model considers the temporal dynamics of the video. We evaluated the proposed method on two-public benchmark datasets to validate the effectiveness of our approach. The experimental results show that the proposed fusion method successfully generated a discriminative feature vector, and our network outperformed all competing activity recognition methods in first-person videos where considerable camera ego-motion occurs.
翻訳日:2022-12-30 14:11:50 公開日:2020-02-19
# siaNMS:マルチカメラ3Dオブジェクト検出のためのシームズネットワークによる非最大抑圧

siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera 3D Object Detection ( http://arxiv.org/abs/2002.08239v1 )

ライセンス: Link先を確認
Irene Cortes, Jorge Beltran, Arturo de la Escalera and Fernando Garcia(参考訳) 自動運転車における組み込みハードウェアの急速な開発は、計算能力を拡大し、より複雑な運転シナリオを処理可能な、より完全なセンサーの設置を可能にした。 結果として、同じオブジェクトを複数検出するといった新しい課題に対処する必要がある。 本研究では,シマメネットワークをよく知られた3Dオブジェクト検出器アプローチのパイプラインに統合し,異なるカメラからの重複提案を再同定することで抑制する。 さらに、アソシエーションを利用して、対応するLiDARフラストラムを集約することにより、オブジェクトの3Dボックスのレグレッションを高める。 nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法より優れていることを示している。

The rapid development of embedded hardware in autonomous vehicles broadens their computational capabilities, thus bringing the possibility to mount more complete sensor setups able to handle driving scenarios of higher complexity. As a result, new challenges such as multiple detections of the same object have to be addressed. In this work, a siamese network is integrated into the pipeline of a well-known 3D object detector approach to suppress duplicate proposals coming from different cameras via re-identification. Additionally, associations are exploited to enhance the 3D box regression of the object by aggregating their corresponding LiDAR frustums. The experimental evaluation on the nuScenes dataset shows that the proposed method outperforms traditional NMS approaches.
翻訳日:2022-12-30 14:11:30 公開日:2020-02-19
# ディープネットワークにおける特徴共有による協調型LIDAR物体検出

Cooperative LIDAR Object Detection via Feature Sharing in Deep Networks ( http://arxiv.org/abs/2002.08440v1 )

ライセンス: Link先を確認
Ehsan Emad Marvasti, Arash Raftari, Amir Emad Marvasti, Yaser P. Fallah, Rui Guo, HongSheng Lu(参考訳) 近年の通信と計算システムの進歩は、コネクテッドおよび自律走行車における状況認識の大幅な改善につながっている。 計算効率のよいニューラルネットワークと高速無線車両ネットワークは、この改善の主な貢献者の一つである。 しかし,センサや通信システム固有の制限によって生じるスケーラビリティや信頼性の問題も問題となっている。 本稿では,協調物体検出(FS-COD)のための特徴共有の概念を導入することにより,これらの制約の効果を軽減することを目的とする。 提案手法では,計算と通信負荷のバランスを保ちながら,協調車両間で部分的な処理データを共有することで,環境の理解を深める。 このアプローチは、現在のマップ共有方法や、スケーラブルでない生データの共有方法とは異なる。 提案手法の性能はvolonyデータセットの実験によって検証される。 提案手法は,従来の単一車体物体検出手法よりも優れた性能を有することが示された。

The recent advancements in communication and computational systems has led to significant improvement of situational awareness in connected and autonomous vehicles. Computationally efficient neural networks and high speed wireless vehicular networks have been some of the main contributors to this improvement. However, scalability and reliability issues caused by inherent limitations of sensory and communication systems are still challenging problems. In this paper, we aim to mitigate the effects of these limitations by introducing the concept of feature sharing for cooperative object detection (FS-COD). In our proposed approach, a better understanding of the environment is achieved by sharing partially processed data between cooperative vehicles while maintaining a balance between computation and communication load. This approach is different from current methods of map sharing, or sharing of raw data which are not scalable. The performance of the proposed approach is verified through experiments on Volony dataset. It is shown that the proposed approach has significant performance superiority over the conventional single-vehicle object detection approaches.
翻訳日:2022-12-30 14:11:01 公開日:2020-02-19
# swarm-basedアルゴリズムを用いた電力系統ネットワークにおける最適dg配置とサイズ

Optimal DG allocation and sizing in power system networks using swarm-based algorithms ( http://arxiv.org/abs/2002.08089v1 )

ライセンス: Link先を確認
Kayode Adetunji, Ivan Hofsajer, Ling Cheng(参考訳) 分散型発電(DG)ユニットは、現在の電力系統網のアーキテクチャにおいて非常に重要な発電プラントである。 これらのDGユニットを追加する利点は、ネットワークへの電力供給を増やすことである。 しかし、これらのDGユニットの設置は、適切に割り当てられていない場合やサイズが大きければ悪影響を及ぼす可能性がある。 したがって、電圧不安定や高価な投資コストといったケースを避けるために、最適なアロケートとサイズが必要となる。 本稿では,2つのSwarm-based meta-heuristic algorithm, Particle Swarm Optimization (PSO) と whale Optimization algorithm (WOA) を開発し,送信ネットワーク計画におけるDGユニットの配置とサイズを最適化した。 補助的手法として損失感度因子 (LSF) を用いて, DGユニットの最適位置を推定した。 2つのIEEEバステストシステム(14バスと30バス)でアルゴリズムの有効性を確認した。 比較の結果、両アルゴリズムは良い解を生成し、異なるメトリクスで互いに優れていた。 IEEE 14-bus と 30-bus のテストシステムにおけるテクノ・エコノミックな要素を考慮した WOA の実損失削減は PSO の 6.47 MW と 11.73 MW に対して 6.14 MW と 10.77 MW である。 PSOは、WOAsの152.21 MWと82.44 MWと比較して、両バスとも総DGサイズが133.45 MWと82.44 MWである。 本稿では,伝送ネットワークにおけるDG単位の最適サイズの適用におけるPSOとWOAの長所と短所を明らかにする。

Distributed generation (DG) units are power generating plants that are very important to the architecture of present power system networks. The benefit of the addition of these DG units is to increase the power supply to a network. However, the installation of these DG units can cause an adverse effect if not properly allocated and/or sized. Therefore, there is a need to optimally allocate and size them to avoid cases such as voltage instability and expensive investment costs. In this paper, two swarm-based meta-heuristic algorithms, particle swarm optimization (PSO) and whale optimization algorithm (WOA) were developed to solve optimal placement and sizing of DG units in the quest for transmission network planning. A supportive technique, loss sensitivity factors (LSF) was used to identify potential buses for optimal location of DG units. The feasibility of the algorithms was confirmed on two IEEE bus test systems (14- and 30-bus). Comparison results showed that both algorithms produce good solutions and they outperform each other in different metrics. The WOA real power loss reduction considering techno-economic factors in the IEEE 14-bus and 30-bus test system are 6.14 MW and 10.77 MW, compared to the PSOs' 6.47 MW and 11.73 MW respectively. The PSO has a more reduced total DG unit size in both bus systems with 133.45 MW and 82.44 MW compared to WOAs' 152.21 MW and 82.44 MW respectively. The paper unveils the strengths and weaknesses of the PSO and the WOA in the application of optimal sizing of DG units in transmission networks.
翻訳日:2022-12-30 14:03:07 公開日:2020-02-19
# オンライン非重複カメラキャリブレーションネット

On-line non-overlapping camera calibration net ( http://arxiv.org/abs/2002.08005v1 )

ライセンス: Link先を確認
Zhao Fangda, Toru Tamaki, Takio Kurita, Bisser Raytchev, Kazufumi Kaneda(参考訳) 本稿では,カメラキャリブレーション法を提案する。 まず、ポズネットベースのネットワークに連続した画像を送り、フレーム間のカメラのエゴモーションを得る。 次に、カメラ間のポーズを推定する。 本稿では,バッチ方式ではなく,カメラ間ポーズ推定のオンライン手法を提案する。 さらに,計算グラフ上に手続き全体を実装した。 シミュレーションとKITTIデータセットを用いた実験は,シミュレーションに有効であることを示す。

We propose an easy-to-use non-overlapping camera calibration method. First, successive images are fed to a PoseNet-based network to obtain ego-motion of cameras between frames. Next, the pose between cameras are estimated. Instead of using a batch method, we propose an on-line method of the inter-camera pose estimation. Furthermore, we implement the entire procedure on a computation graph. Experiments with simulations and the KITTI dataset show the proposed method to be effective in simulation.
翻訳日:2022-12-30 14:02:20 公開日:2020-02-19
# リソース制約付きプラットフォームにおけるビデオベースサブメートル定位の実現可能性

Feasibility of Video-based Sub-meter Localization on Resource-constrained Platforms ( http://arxiv.org/abs/2002.08039v1 )

ライセンス: Link先を確認
Abm Musa and Jakob Eriksson(参考訳) 衛星ベースのGPS(Global Positioning System)は、いくつかの屋外アプリケーションには適しているが、他の多くのアプリケーションは、そのマルチメーター位置決め誤差と屋内カバーの低さに支えられている。 本稿では,リソース制約のあるプラットフォーム上でのリアルタイムビデオによるローカライズの実現可能性について検討する。 ローカライズタスクを開始する前に、ビデオベースのローカライズシステムは、街路や屋内ショッピングモールなどの制限されたターゲット環境のオフラインモデルをダウンロードする。 システムは、入力としてビデオのみを使用して、モデル内でユーザーをローカライズすることができる。 このようなシステムが、リソース制約のある組み込みシステムやスマートフォン上で動作できるようにするため、我々は、 (a) フレーム選択と効率的な特徴マッチングにより, 調査経路の3次元モデルを効率的に構築する手法を提案する。 b) 局所化精度を犠牲にすることなく、複数の圧縮技術によりモデルサイズを大幅に削減する。 (c) オンライン・ローカライゼーションを実現するための特徴抽出とマッチングのための効率的かつ同時手法を提案する。 (d) オンラインローカライズにおける特徴抽出とマッチング時間を削減するために, インターリーブ特徴マッチングとオプティカルフローベーストラッキングを用いた手法を提案する。 屋内と屋外の両方のビデオの広範なセットを手動でアノテートすることで、ビデオ条件の難しさにもかかわらず、スマートフォンタイプのプラットフォームでは、サブメーターの精度がリアルタイムで達成可能であることを示す。

While the satellite-based Global Positioning System (GPS) is adequate for some outdoor applications, many other applications are held back by its multi-meter positioning errors and poor indoor coverage. In this paper, we study the feasibility of real-time video-based localization on resource-constrained platforms. Before commencing a localization task, a video-based localization system downloads an offline model of a restricted target environment, such as a set of city streets, or an indoor shopping mall. The system is then able to localize the user within the model, using only video as input. To enable such a system to run on resource-constrained embedded systems or smartphones, we (a) propose techniques for efficiently building a 3D model of a surveyed path, through frame selection and efficient feature matching, (b) substantially reduce model size by multiple compression techniques, without sacrificing localization accuracy, (c) propose efficient and concurrent techniques for feature extraction and matching to enable online localization, (d) propose a method with interleaved feature matching and optical flow based tracking to reduce the feature extraction and matching time in online localization. Based on an extensive set of both indoor and outdoor videos, manually annotated with location ground truth, we demonstrate that sub-meter accuracy, at real-time rates, is achievable on smart-phone type platforms, despite challenging video conditions.
翻訳日:2022-12-30 14:02:15 公開日:2020-02-19
# 超解像医用画像のためのメタセグメンテーションネットワーク

Meta Segmentation Network for Ultra-Resolution Medical Images ( http://arxiv.org/abs/2002.08043v1 )

ライセンス: Link先を確認
Tong Wu, Yuan Xie, Yanyun Qu, Bicheng Dai, Shuxin Chen(参考訳) セマンティックセグメンテーションの最近の進歩にもかかわらず、医療用超解像セグメンテーションには大きな課題がある。 マルチブランチ構造に基づく手法は,計算負荷とセグメンテーション精度のバランスが良好である。 しかし、これらの方法の融合構造は望ましい結果を達成するために精巧に設計する必要があるため、モデル冗長性に繋がる。 本稿では,この課題を解決するためにメタセグメンテーションネットワーク(MSN)を提案する。 メタ学習の助けを借りて、MSNの融合モジュールは非常に単純だが効果的である。 msnは単純なメタリーナーを通じて融合層の重みを高速に生成でき、わずかなトレーニングサンプルとエポックだけを収束させる必要がある。 さらに,全ての枝をスクラッチから学習するのを避けるため,より高速な知識適応を実現し,複数の枝間で重みを共有するための,特定の重み共有機構を導入し,性能改善と重要なパラメータ低減を実現した。 超高分解能な医療データセットBACHとISICの2つの実験結果から,MSNは最先端の手法と比較して最高の性能を示した。

Despite recent progress on semantic segmentation, there still exist huge challenges in medical ultra-resolution image segmentation. The methods based on multi-branch structure can make a good balance between computational burdens and segmentation accuracy. However, the fusion structure in these methods require to be designed elaborately to achieve desirable result, which leads to model redundancy. In this paper, we propose Meta Segmentation Network (MSN) to solve this challenging problem. With the help of meta-learning, the fusion module of MSN is quite simple but effective. MSN can fast generate the weights of fusion layers through a simple meta-learner, requiring only a few training samples and epochs to converge. In addition, to avoid learning all branches from scratch, we further introduce a particular weight sharing mechanism to realize a fast knowledge adaptation and share the weights among multiple branches, resulting in the performance improvement and significant parameters reduction. The experimental results on two challenging ultra-resolution medical datasets BACH and ISIC show that MSN achieves the best performance compared with the state-of-the-art methods.
翻訳日:2022-12-30 14:01:51 公開日:2020-02-19
# MonoLayout: 単一イメージからのアモーダルなシーンレイアウト

MonoLayout: Amodal scene layout from a single image ( http://arxiv.org/abs/2002.08394v1 )

ライセンス: Link先を確認
Kaustubh Mani, Swapnil Daga, Shubhika Garg, N. Sai Shankar, Krishna Murthy Jatavallabhula, K. Madhava Krishna(参考訳) 本稿では,複雑な都市運転シナリオの配置を推定する新しい,非常に困難な課題について述べる。 運転プラットフォームから撮影した1枚のカラー画像から,道路および他の交通機関の鳥眼ビューレイアウトを予測することを目的としている。 推定されたレイアウトは、画像から見えるものを超えて、投影による3D情報の損失を補うべきである。 我々は,画像に隠された世界の偶数箇所のシーンレイアウトを「幻覚化」することを含む,amodal scene layout estimation という問題を浮き彫りにする。 そこで本研究では,単一の画像から実時間アモーダルシーンレイアウト推定を行うディープニューラルネットワークであるmonolayoutを提案する。 我々は,シーンレイアウトを多チャンネルセマンティック占有グリッドとして表現し,敵対的特徴学習を活用して,隠蔽画像部品の具体的完成を幻覚させる。 公平なベースライン手法の欠如により,鳥眼図における道路レイアウト推定と車両占有率推定のための最先端手法を,厳密な評価のためのアモーダル設定に拡張した。 テンポラリセンサ融合を利用してトレーニングラベルを生成することで、多くのデータセットで現在のアートを著しく上回っています。 KITTIとArgoverseのデータセットでは、すべてのベースラインを大きなマージンで上回ります。 アノテーションやコードもすべて公開しています。 この論文のビデオ要約はhttps://www.youtube.com/watch? v=HcroGyo6yRQ。

In this paper, we address the novel, highly challenging problem of estimating the layout of a complex urban driving scenario. Given a single color image captured from a driving platform, we aim to predict the bird's-eye view layout of the road and other traffic participants. The estimated layout should reason beyond what is visible in the image, and compensate for the loss of 3D information due to projection. We dub this problem amodal scene layout estimation, which involves "hallucinating" scene layout for even parts of the world that are occluded in the image. To this end, we present MonoLayout, a deep neural network for real-time amodal scene layout estimation from a single image. We represent scene layout as a multi-channel semantic occupancy grid, and leverage adversarial feature learning to hallucinate plausible completions for occluded image parts. Due to the lack of fair baseline methods, we extend several state-of-the-art approaches for road-layout estimation and vehicle occupancy estimation in bird's-eye view to the amodal setup for rigorous evaluation. By leveraging temporal sensor fusion to generate training labels, we significantly outperform current art over a number of datasets. On the KITTI and Argoverse datasets, we outperform all baselines by a significant margin. We also make all our annotations, and code publicly available. A video abstract of this paper is available https://www.youtube.com/watch?v=HcroGyo6yRQ .
翻訳日:2022-12-30 13:55:27 公開日:2020-02-19
# 超音波画像分割のための微調整u-net:どの層?

Fine tuning U-Net for ultrasound image segmentation: which layers? ( http://arxiv.org/abs/2002.08438v1 )

ライセンス: Link先を確認
Mina Amiri, Rupert Brooks, Hassan Rivaz(参考訳) 大規模データセットでトレーニングされたネットワークの微調整は、医療アプリケーションにおける不足と費用のかかるデータの問題を克服するために、フルトレーニングに代わるものだ。 ネットワークの浅い層は通常変更されないが、より深い層は新しいデータセットに従って変更される。 このアプローチは超音波画像の外観が著しく異なるため役に立たないかもしれない。 本研究では,乳房超音波画像分割における自然画像のセグメンテーションを訓練したu-netの異なる層を微調整する効果について検討した。 収縮部をチューニングし、膨張部を固定すると、収縮部を固定し、膨張部をチューニングするよりもかなり良い結果が得られる。 さらに, 浅い層からu-netを微調整し, 層を徐々に増やしていくと, 浅い層に戻る深層からネットワークを微調整するよりも優れた性能が得られることを示した。 超音波と異なる特異な特徴を有するx線画像のセグメンテーションについて,同じ結果が得られなかったので,深層よりも浅層を微調整するのが適切であると考えられた。 浅層は、このモードにおける自動セグメンテーションにおいて重要な低レベル特徴(スペックルパターン、おそらくはノイズとアーティファクト特性を含む)を学習する。

Fine-tuning a network which has been trained on a large dataset is an alternative to full training in order to overcome the problem of scarce and expensive data in medical applications. While the shallow layers of the network are usually kept unchanged, deeper layers are modified according to the new dataset. This approach may not work for ultrasound images due to their drastically different appearance. In this study, we investigated the effect of fine-tuning different layers of a U-Net which was trained on segmentation of natural images in breast ultrasound image segmentation. Tuning the contracting part and fixing the expanding part resulted in substantially better results compared to fixing the contracting part and tuning the expanding part. Furthermore, we showed that starting to fine-tune the U-Net from the shallow layers and gradually including more layers will lead to a better performance compared to fine-tuning the network from the deep layers moving back to shallow layers. We did not observe the same results on segmentation of X-ray images, which have different salient features compared to ultrasound, it may therefore be more appropriate to fine-tune the shallow layers rather than deep layers. Shallow layers learn lower level features (including speckle pattern, and probably the noise and artifact properties) which are critical in automatic segmentation in this modality.
翻訳日:2022-12-30 13:55:05 公開日:2020-02-19
# AdvMS: 敵攻撃に対するマルチソースマルチコスト防衛

AdvMS: A Multi-source Multi-cost Defense Against Adversarial Attacks ( http://arxiv.org/abs/2002.08439v1 )

ライセンス: Link先を確認
Xiao Wang, Siyue Wang, Pin-Yu Chen, Xue Lin, Peter Chin(参考訳) マルウェア検出や自動運転車など、多くのセキュリティクリティカルな領域でディープニューラルネットワークが急速に普及しているため、敵対的攻撃に対する効果的な防御設計は重要なトピックである。 従来の防衛手法は、有望であるにもかかわらず、その単一ソースの単一コストの性質によって大きく制限されている: 堅牢性促進は、防衛が強化され、コストが増幅する傾向にあるときに、より強固になる傾向にある。 本稿では,複数の防御コンポーネントから防御性能を向上させるマルチソースおよびマルチコストスキームの設計原理について検討する。 この動機を活かし,マルチソースおよびマルチコストの防御スキームであるadvm(adversarially training model switching)を提案する。 我々は,advmsのマルチソース性は性能の高原化を緩和し,マルチコスト性は,特定の制約やニーズに適合可能な,さまざまな要因に対する柔軟性と調整可能なコストの組み合わせによる堅牢性の向上を可能にすることを示した。

Designing effective defense against adversarial attacks is a crucial topic as deep neural networks have been proliferated rapidly in many security-critical domains such as malware detection and self-driving cars. Conventional defense methods, although shown to be promising, are largely limited by their single-source single-cost nature: The robustness promotion tends to plateau when the defenses are made increasingly stronger while the cost tends to amplify. In this paper, we study principles of designing multi-source and multi-cost schemes where defense performance is boosted from multiple defending components. Based on this motivation, we propose a multi-source and multi-cost defense scheme, Adversarially Trained Model Switching (AdvMS), that inherits advantages from two leading schemes: adversarial training and random model switching. We show that the multi-source nature of AdvMS mitigates the performance plateauing issue and the multi-cost nature enables improving robustness at a flexible and adjustable combination of costs over different factors which can better suit specific restrictions and needs in practice.
翻訳日:2022-12-30 13:54:42 公開日:2020-02-19
# SD-GAN:GANの構造とデノイングが顔の部分の閉塞を明らかに

SD-GAN: Structural and Denoising GAN reveals facial parts under occlusion ( http://arxiv.org/abs/2002.08448v1 )

ライセンス: Link先を確認
Samik Banerjee, Sukhendu Das(参考訳) ある顔の部分の外観は健全(一様)であり、対象の全体的認識に大きく寄与する。 これらのサリエント部分のオクルージョンは、顔認識アルゴリズムの性能を低下させる。 本稿では,咬合状態にある顔の欠損部を再構成するための生成モデルを提案する。 提案した生成モデル (SD-GAN) は, 顔の照明変化と同一性を保持する顔の再構成を行う。 2モーダルな相互排他的GAN(Generative Adversarial Network)モデルに対して,より高速なコンバージェンスのために,新たな逆数学習アルゴリズムが設計された。 また,SSIM とパッチワイズ MSE の2つの成分からなる,新たな対向的「構造的損失関数」も提案されている。 実・合成隠蔽顔データセットのアブレーション研究により,提案手法は,顔認識の性能向上においても,競合する手法よりもかなり優れていたことが明らかとなった。

Certain facial parts are salient (unique) in appearance, which substantially contribute to the holistic recognition of a subject. Occlusion of these salient parts deteriorates the performance of face recognition algorithms. In this paper, we propose a generative model to reconstruct the missing parts of the face which are under occlusion. The proposed generative model (SD-GAN) reconstructs a face preserving the illumination variation and identity of the face. A novel adversarial training algorithm has been designed for a bimodal mutually exclusive Generative Adversarial Network (GAN) model, for faster convergence. A novel adversarial "structural" loss function is also proposed, comprising of two components: a holistic and a local loss, characterized by SSIM and patch-wise MSE. Ablation studies on real and synthetically occluded face datasets reveal that our proposed technique outperforms the competing methods by a considerable margin, even for boosting the performance of Face Recognition.
翻訳日:2022-12-30 13:54:17 公開日:2020-02-19
# BB_Evac: 高速位置感性行動に基づくビル避難

BB_Evac: Fast Location-Sensitive Behavior-Based Building Evacuation ( http://arxiv.org/abs/2002.08114v1 )

ライセンス: Link先を確認
Subhra Mazumdar, Arindam Pal, Francesco Parisi, V.S. Subrahmanian(参考訳) 避難計画に関する過去の研究は、避難民が指示に従うと仮定している。 指示に従う人もいれば、自身の欲求に従う人もいる。 本稿では,避難計画において,人間の行動モデルを考慮した行動ベース避難問題(BBEP)の形式的定義を提案する。 このような振る舞いを表現するために,特定の形態の制約が利用できることを示す。 BBEPはBB_IPと呼ばれる整数プログラムで正確に解くことができ、BB_Evacと呼ばれるより高速なアルゴリズムで不正確に解けることを示す。 建物に適用されるアルゴリズム(原則としてどのグラフにも適用できる)の詳細な実験的評価を行い、後者がBB_IPよりも桁違いに高速であることを示すとともに、実世界の建物グラフと複数の合成グラフでほぼ同等な結果が得られることを示した。

Past work on evacuation planning assumes that evacuees will follow instructions -- however, there is ample evidence that this is not the case. While some people will follow instructions, others will follow their own desires. In this paper, we present a formal definition of a behavior-based evacuation problem (BBEP) in which a human behavior model is taken into account when planning an evacuation. We show that a specific form of constraints can be used to express such behaviors. We show that BBEPs can be solved exactly via an integer program called BB_IP, and inexactly by a much faster algorithm that we call BB_Evac. We conducted a detailed experimental evaluation of both algorithms applied to buildings (though in principle the algorithms can be applied to any graphs) and show that the latter is an order of magnitude faster than BB_IP while producing results that are almost as good on one real-world building graph and as well as on several synthetically generated graphs.
翻訳日:2022-12-30 13:53:59 公開日:2020-02-19
# Propose, Test, Release: 確率の高い差分プライベートな見積もり

Propose, Test, Release: Differentially private estimation with high probability ( http://arxiv.org/abs/2002.08774v1 )

ライセンス: Link先を確認
Victor-Emmanuel Brunel and Marco Avella-Medina(参考訳) Dwork と Lei (2009) が導入した "Propose, Test, Release" (PTR) メカニズムに基づいて, 差分プライベート中央値と平均推定値の濃度不等式を導出した。 我々はPTR機構の新たな一般バージョンを導入し、微分プライベートな推定器に対して高い確率誤差境界を導出する。 我々のアルゴリズムは、データに有界性を仮定することなく、対象の集団パラメータが既知の有界区間にあると仮定せずに、中央値と平均値の差分プライベートな推定を行うための最初の統計的保証を提供する。 我々の手順はデータの切り離しに頼らず、偏微分プライベートな中央値と平均推定値に対する最初の準ガウス高確率境界を重み付き確率変数に対して提供する。

We derive concentration inequalities for differentially private median and mean estimators building on the "Propose, Test, Release" (PTR) mechanism introduced by Dwork and Lei (2009). We introduce a new general version of the PTR mechanism that allows us to derive high probability error bounds for differentially private estimators. Our algorithms provide the first statistical guarantees for differentially private estimation of the median and mean without any boundedness assumptions on the data, and without assuming that the target population parameter lies in some known bounded interval. Our procedures do not rely on any truncation of the data and provide the first sub-Gaussian high probability bounds for differentially private median and mean estimation, for possibly heavy tailed random variables.
翻訳日:2022-12-30 13:53:26 公開日:2020-02-19
# 分子注目トランスフォーマ

Molecule Attention Transformer ( http://arxiv.org/abs/2002.08264v1 )

ライセンス: Link先を確認
{\L}ukasz Maziarka, Tomasz Danel, S{\l}awomir Mucha, Krzysztof Rataj, Jacek Tabor, Stanis{\l}aw Jastrz\k{e}bski(参考訳) 分子特性予測タスクで競争力のある単一のニューラルネットワークアーキテクチャを設計することは、大半がオープンな課題であり、そのソリューションは、薬物発見業界におけるディープラーニングの広範な使用を解き放つ可能性がある。 この目標に向けて,分子注意変換器(MAT)を提案する。 我々の重要な革新は、原子間距離と分子グラフ構造を用いてトランスフォーマーの注意機構を強化することである。 実験により、MATは様々な分子予測タスクで競争力を発揮することが示された。 最も重要なことは、単純な自己教師付き事前トレーニングによって、MATはダウンストリームタスクにおける最先端のパフォーマンスを達成するために、少数のハイパーパラメータ値をチューニングする必要があることである。 最後に, 化学的な観点から, MATで学習した注意重みが解釈可能であることを示す。

Designing a single neural network architecture that performs competitively across a range of molecule property prediction tasks remains largely an open challenge, and its solution may unlock a widespread use of deep learning in the drug discovery industry. To move towards this goal, we propose Molecule Attention Transformer (MAT). Our key innovation is to augment the attention mechanism in Transformer using inter-atomic distances and the molecular graph structure. Experiments show that MAT performs competitively on a diverse set of molecular prediction tasks. Most importantly, with a simple self-supervised pretraining, MAT requires tuning of only a few hyperparameter values to achieve state-of-the-art performance on downstream tasks. Finally, we show that attention weights learned by MAT are interpretable from the chemical point of view.
翻訳日:2022-12-30 13:46:19 公開日:2020-02-19
# MLModelScope: 大規模モデル評価とベンチマークのための分散プラットフォーム

MLModelScope: A Distributed Platform for Model Evaluation and Benchmarking at Scale ( http://arxiv.org/abs/2002.08295v1 )

ライセンス: Link先を確認
Abdul Dakkak, Cheng Li, Jinjun Xiong, Wen-mei Hwu(参考訳) 機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。 ml/dlの評価の標準的かつ効率的な方法の欠如とともに、イノベーションを評価するための複雑な手順は、コミュニティにとって大きな"ペインポイント"である。 本稿では,mlmodelscopeを提案する。mlmodelscopeは,フレームワーク/ハードウェア非依存で拡張可能でカスタマイズ可能な設計で,反復可能,公平,スケーラブルなモデル評価とベンチマークを可能にする。 分散設計を主要なフレームワークやハードウェアすべてをサポートして実装し、Web、コマンドライン、ライブラリインターフェースと同等にしています。 MLModelScopeの能力を示すため、並列評価を行い、モデル評価パイプラインの微妙な変更が精度やHW/SWスタックの選択がパフォーマンスに与える影響を示す。

Machine Learning (ML) and Deep Learning (DL) innovations are being introduced at such a rapid pace that researchers are hard-pressed to analyze and study them. The complicated procedures for evaluating innovations, along with the lack of standard and efficient ways of specifying and provisioning ML/DL evaluation, is a major "pain point" for the community. This paper proposes MLModelScope, an open-source, framework/hardware agnostic, extensible and customizable design that enables repeatable, fair, and scalable model evaluation and benchmarking. We implement the distributed design with support for all major frameworks and hardware, and equip it with web, command-line, and library interfaces. To demonstrate MLModelScope's capabilities we perform parallel evaluation and show how subtle changes to model evaluation pipeline affects the accuracy and HW/SW stack choices affect performance.
翻訳日:2022-12-30 13:46:05 公開日:2020-02-19
# 画像デノイジングのためのマルチウェーブレット残密畳み込みニューラルネットワーク

Multi-wavelet residual dense convolutional neural network for image denoising ( http://arxiv.org/abs/2002.08301v1 )

ライセンス: Link先を確認
Shuo-Fei Wang, Wen-Kai Yu, and Ya-Xin Li(参考訳) 大規模受容野(rf)ネットワークは近年,高度な適合性を示している。 本研究では,画像復調作業におけるネットワークの性能とロバスト性を改善するために,短期的残差学習手法を用いる。 ここでは、大きなRFを持つ最先端ネットワークの1つであるマルチウェーブレット畳み込みニューラルネットワーク(MWCNN)をバックボーンとし、各層に残留密度ブロック(RDB)を挿入する。 このスキームをMWRDCNN(Multi-wavelet residual dense convolutional Neural Network)と呼ぶ。 他のRDBベースのネットワークと比較して、隣接する層からオブジェクトのより多くの特徴を抽出し、大きなRFを保存し、計算効率を高めることができる。 一方、このアプローチは、競合のない単一ネットワークで複数のアーキテクチャの利点を吸収する可能性も提供する。 提案手法の性能は,既存手法との比較により,広範な実験で実証されている。

Networks with large receptive field (RF) have shown advanced fitting ability in recent years. In this work, we utilize the short-term residual learning method to improve the performance and robustness of networks for image denoising tasks. Here, we choose a multi-wavelet convolutional neural network (MWCNN), one of the state-of-art networks with large RF, as the backbone, and insert residual dense blocks (RDBs) in its each layer. We call this scheme multi-wavelet residual dense convolutional neural network (MWRDCNN). Compared with other RDB-based networks, it can extract more features of the object from adjacent layers, preserve the large RF, and boost the computing efficiency. Meanwhile, this approach also provides a possibility of absorbing advantages of multiple architectures in a single network without conflicts. The performance of the proposed method has been demonstrated in extensive experiments with a comparison with existing techniques.
翻訳日:2022-12-30 13:45:47 公開日:2020-02-19
# Poincar\'e Recurrence から Convergence へ:正規化による平衡探索

From Poincar\'e Recurrence to Convergence in Imperfect Information Games: Finding Equilibrium via Regularization ( http://arxiv.org/abs/2002.08456v1 )

ライセンス: Link先を確認
Julien Perolat, Remi Munos, Jean-Baptiste Lespiau, Shayegan Omidshafiei, Mark Rowland, Pedro Ortega, Neil Burch, Thomas Anthony, David Balduzzi, Bart De Vylder, Georgios Piliouras, Marc Lanctot, Karl Tuyls(参考訳) 本稿では,逐次不完全情報ゲーム(IIG)における正規化リーダのダイナミクスの追跡について検討する。 通常のゲームからゼロサム2人の不完全な情報ゲームや他のシーケンシャルなゲーム設定へポインカーンの再帰の結果を一般化する。 次に,ゲームの報酬(正規化項を追加することにより)がモノトーンゲームにおいて強い収束保証を与えるかを検討する。 我々は、この報酬適応手法をいかにしてナッシュ均衡に正確に収束するアルゴリズムを構築することができるかを示す。 最後に,ゼロサム・ツープレイヤー情報ゲーム(iig)のための最先端のモデルフリーなアルゴリズム構築に,これらの洞察が直接利用できることを示す。

In this paper we investigate the Follow the Regularized Leader dynamics in sequential imperfect information games (IIG). We generalize existing results of Poincar\'e recurrence from normal-form games to zero-sum two-player imperfect information games and other sequential game settings. We then investigate how adapting the reward (by adding a regularization term) of the game can give strong convergence guarantees in monotone games. We continue by showing how this reward adaptation technique can be leveraged to build algorithms that converge exactly to the Nash equilibrium. Finally, we show how these insights can be directly used to build state-of-the-art model-free algorithms for zero-sum two-player Imperfect Information Games (IIG).
翻訳日:2022-12-30 13:44:15 公開日:2020-02-19
# ユーロリーグバスケットボール競技の記述的・予測的分析とバスケットボール観衆の知恵

Descriptive and Predictive Analysis of Euroleague Basketball Games and the Wisdom of Basketball Crowds ( http://arxiv.org/abs/2002.08465v1 )

ライセンス: Link先を確認
Georgios Giasemidis(参考訳) 本研究では、機械学習モデルを用いたユーロリーグ競技におけるバスケットボール競技の予測に焦点をあてる。 この予測は二項分類問題であり、試合が1(ホーム・ウィン)か2(アウェー・ウィン)に終わるかを予測する。 データは2016-2017年、2017-2018年、2018-2019年、すなわち新しいフォーマット時代のユーロリーグの公式ウェブサイトから収集される。 matchのデータから特徴を抽出し、教師付き機械学習技術を適用する。 モデルを校正し、検証します。 単純な機械学習モデルでは、テストセットの精度が67%を超えず、いくつかの洗練されたベンチマークモデルよりも悪いことが分かりました。 さらに、この研究の重要性は「バスケットボールファンの知恵」にあり、バスケットボール愛好家集団の予測力が、この研究で議論された機械学習モデルよりも優れていることを示す。 我々は,このグループの「専門家」の精度レベルが,機械学習を用いた(ヨーロッパ)バスケットボールの試合予測における将来の研究の基準として設定されるべき理由を論じる。

In this study we focus on the prediction of basketball games in the Euroleague competition using machine learning modelling. The prediction is a binary classification problem, predicting whether a match finishes 1 (home win) or 2 (away win). Data is collected from the Euroleague's official website for the seasons 2016-2017, 2017-2018 and 2018-2019, i.e. in the new format era. Features are extracted from matches' data and off-the-shelf supervised machine learning techniques are applied. We calibrate and validate our models. We find that simple machine learning models give accuracy not greater than 67% on the test set, worse than some sophisticated benchmark models. Additionally, the importance of this study lies in the "wisdom of the basketball crowd" and we demonstrate how the predicting power of a collective group of basketball enthusiasts can outperform machine learning models discussed in this study. We argue why the accuracy level of this group of "experts" should be set as the benchmark for future studies in the prediction of (European) basketball games using machine learning.
翻訳日:2022-12-30 13:44:04 公開日:2020-02-19
# 外国為替レートの予測--伝統的な計量的、現代的機械学習とディープラーニング技術との多変量比較分析

Forecasting Foreign Exchange Rate: A Multivariate Comparative Analysis between Traditional Econometric, Contemporary Machine Learning & Deep Learning Techniques ( http://arxiv.org/abs/2002.10247v1 )

ライセンス: Link先を確認
Manav Kaushik and A K Giri(参考訳) 今日の世界経済において、外貨為替レートや少なくともその傾向を正確に推定するといったマクロ経済パラメータの予測の正確さは、将来の投資にとって重要な意味を持つ。 近年,マクロ経済変数の予測に計算知能を用いた手法が広く用いられている。 本稿では,3つの多変量予測モデリング手法(ベクトルオートレグレッション(従来の計量的手法),サポートベクターマシン(現代の機械学習技術),リカレントニューラルネットワーク(現代のディープラーニング技術)の性能を並列に比較しながら,交換レート(usd/inr)を予測するための多変量時系列手法を考案する。 米国とインドでは、1994年4月から2018年12月まで、いくつかのマクロ経済変数の月間履歴データを使用して、usd-inr外国為替レートを予測してきた。 その結果, SVM と RNN (Long Short-Term Memory) の現代的手法は, 広く使われている Auto Regression の手法よりも優れていることが明らかになった。 LSTM(Long Short-Term Memory)を備えたRNNモデルは、SVMモデル(97.17%)とVARモデル(96.31%)の最大精度(97.83%)を提供する。 最後に,予測に用いた変数の相関関係と相互依存性について簡単な解析を行った。

In todays global economy, accuracy in predicting macro-economic parameters such as the foreign the exchange rate or at least estimating the trend correctly is of key importance for any future investment. In recent times, the use of computational intelligence-based techniques for forecasting macroeconomic variables has been proven highly successful. This paper tries to come up with a multivariate time series approach to forecast the exchange rate (USD/INR) while parallelly comparing the performance of three multivariate prediction modelling techniques: Vector Auto Regression (a Traditional Econometric Technique), Support Vector Machine (a Contemporary Machine Learning Technique), and Recurrent Neural Networks (a Contemporary Deep Learning Technique). We have used monthly historical data for several macroeconomic variables from April 1994 to December 2018 for USA and India to predict USD-INR Foreign Exchange Rate. The results clearly depict that contemporary techniques of SVM and RNN (Long Short-Term Memory) outperform the widely used traditional method of Auto Regression. The RNN model with Long Short-Term Memory (LSTM) provides the maximum accuracy (97.83%) followed by SVM Model (97.17%) and VAR Model (96.31%). At last, we present a brief analysis of the correlation and interdependencies of the variables used for forecasting.
翻訳日:2022-12-30 13:43:46 公開日:2020-02-19
# 集中型ゲームにおける確率回帰最小化

Stochastic Regret Minimization in Extensive-Form Games ( http://arxiv.org/abs/2002.08493v1 )

ライセンス: Link先を確認
Gabriele Farina, Christian Kroer, and Tuomas Sandholm(参考訳) Monte-Carlo counterfactual regret minimization (MCCFR) は、木を横断するには大きすぎるシーケンシャルゲームを解くための最先端のアルゴリズムである。 サンプリングによって計算可能な勾配推定を使用することで動作する。 しかし、シーケンシャルゲームに対する確率的手法はMCCFRを超えては広く研究されていない。 本稿では,確率的後悔最小化手法を開発するための新しい枠組みを開発する。 このフレームワークは、あらゆる遅延最小化アルゴリズムを、任意の勾配推定器と組み合わせることができる。 MCCFRアルゴリズムは我々のフレームワークの特別なケースとして分析でき、この分析は、単純な証明を同時に生成しながら収束に関する理論を著しく強めている。 我々のフレームワークは、シーケンシャルゲームを解くためのいくつかの新しい確率的手法をインスタンス化する。 3つのゲームで広範な実験を行い,mccfrに勝る手法を示した。

Monte-Carlo counterfactual regret minimization (MCCFR) is the state-of-the-art algorithm for solving sequential games that are too large for full tree traversals. It works by using gradient estimates that can be computed via sampling. However, stochastic methods for sequential games have not been investigated extensively beyond MCCFR. In this paper we develop a new framework for developing stochastic regret minimization methods. This framework allows us to use any regret-minimization algorithm, coupled with any gradient estimator. The MCCFR algorithm can be analyzed as a special case of our framework, and this analysis leads to significantly-stronger theoretical on convergence, while simultaneously yielding a simplified proof. Our framework allows us to instantiate several new stochastic methods for solving sequential games. We show extensive experiments on three games, where some variants of our methods outperform MCCFR.
翻訳日:2022-12-30 13:37:16 公開日:2020-02-19
# ダイナミクスランダム化のない強化学習のためのSim2Real Transfer

Sim2Real Transfer for Reinforcement Learning without Dynamics Randomization ( http://arxiv.org/abs/2002.11635v1 )

ライセンス: Link先を確認
Manuel Kaspar, Juan David Munoz Osorio, J\"urgen Bock(参考訳) 本研究は,カーデシアン空間における強化学習のために,共同およびカルデシアン制約下での運用空間制御フレームワーク(OSC)の使用方法を示す。 そこで本手法では,KUKA LBR iiwa peg in-hole タスクにおいて,動的ランダム化を伴わずにポリシーを転送できる一方で,高速かつ自由度で学習することができる。 シミュレーションを開始する前に、シミュレーション環境を実際のロボットのダイナミクスと可能な限り一致させるシステム識別を行う。 OSCコントローラに制約を加えることで、実際のロボット上で安全な方法で学習したり、シミュレーションから実際のロボットに簡単に移行できるフレキシブルな目標条件付きポリシーを学ぶことができます。

In this work we show how to use the Operational Space Control framework (OSC) under joint and cartesian constraints for reinforcement learning in cartesian space. Our method is therefore able to learn fast and with adjustable degrees of freedom, while we are able to transfer policies without additional dynamics randomizations on a KUKA LBR iiwa peg in-hole task. Before learning in simulation starts, we perform a system identification for aligning the simulation environment as far as possible with the dynamics of a real robot. Adding constraints to the OSC controller allows us to learn in a safe way on the real robot or to learn a flexible, goal conditioned policy that can be easily transferred from simulation to the real robot.
翻訳日:2022-12-30 13:37:04 公開日:2020-02-19
# グラフ畳み込みネットワークにおける毒素の隣人による間接逆攻撃

Indirect Adversarial Attacks via Poisoning Neighbors for Graph Convolutional Networks ( http://arxiv.org/abs/2002.08012v1 )

ライセンス: Link先を確認
Tsubasa Takahashi(参考訳) グラフ畳み込みニューラルネットワークは、隣接ノード上の集約を学習し、ノード分類タスクにおいて大きなパフォーマンスを実現している。 しかし、近年の研究では、そのようなグラフ畳み込みノード分類器は、グラフ上の逆摂動によって欺くことができると報告されている。 グラフの畳み込みを乱すと、ノードの分類結果は隣接ノードを毒殺することで影響を受ける。 属性グラフとノード分類器が与えられた場合、このような間接的敵攻撃に対するロバスト性をどうやって評価できるのか? 1ホップ隣人だけでなく、目標から遠く離れた場所に有効である強い対向摂動を生成できるだろうか? 本稿では,1つのノードのみを2ホップ以上ターゲットから毒殺することにより,ノード分類器を高い信頼度で欺くことができることを示す。 この攻撃を実現するために,ターゲットから離れた1つのノードでより小さな摂動を探索する手法を提案する。 提案手法は,2つのデータセットにおいて,ターゲットから2ホップ以内の攻撃成功率99%を示す。 また、m層グラフ畳み込みニューラルネットワークは、mホップ近傍の間接攻撃によって騙される可能性が示されている。 提案された攻撃は、グラフ畳み込みニューラルネットワークを開発するための将来の防御の試みのベンチマークとして使用できる。

Graph convolutional neural networks, which learn aggregations over neighbor nodes, have achieved great performance in node classification tasks. However, recent studies reported that such graph convolutional node classifier can be deceived by adversarial perturbations on graphs. Abusing graph convolutions, a node's classification result can be influenced by poisoning its neighbors. Given an attributed graph and a node classifier, how can we evaluate robustness against such indirect adversarial attacks? Can we generate strong adversarial perturbations which are effective on not only one-hop neighbors, but more far from the target? In this paper, we demonstrate that the node classifier can be deceived with high-confidence by poisoning just a single node even two-hops or more far from the target. Towards achieving the attack, we propose a new approach which searches smaller perturbations on just a single node far from the target. In our experiments, our proposed method shows 99% attack success rate within two-hops from the target in two datasets. We also demonstrate that m-layer graph convolutional neural networks have chance to be deceived by our indirect attack within m-hop neighbors. The proposed attack can be used as a benchmark in future defense attempts to develop graph convolutional neural networks with having adversary robustness.
翻訳日:2022-12-30 13:36:02 公開日:2020-02-19
# 畳み込み音声認識モデルの包括的イントロスペクションのための勾配調整ニューロン活性化プロファイル

Gradient-Adjusted Neuron Activation Profiles for Comprehensive Introspection of Convolutional Speech Recognition Models ( http://arxiv.org/abs/2002.08125v1 )

ライセンス: Link先を確認
Andreas Krug, Sebastian Stober(参考訳) ディープラーニングに基づく自動音声認識(ASR)モデルは非常に成功しているが、解釈は困難である。 ニューラルネットワーク(ann)が課題をどのように達成するかをよりよく理解するために、イントロスペクション手法が提案されている。 音声データは画像データよりも複雑で解釈が難しいため、コンピュータビジョンから音声認識への適応は直線的ではない。 本研究では,Deep Neural Networksにおける特徴や表現を解釈する手段として,GradNAP(Gradient-Adjusted Neuron Activation Profiles)を導入する。 GradNAPは特定の入力のグループに対するANNの特徴的な応答であり、予測のためのニューロンの関連性を含んでいる。 ANNでデータがどのように処理されるかを知るためにGradNAPを利用する方法を示す。 これには、特定のネットワークの任意の層における異なる入力群の埋め込みを比較するために、機能可視化とgradnapのクラスタリングの異なる方法が含まれている。 完全畳み込みASRモデルを用いて提案手法を実証する。

Deep Learning based Automatic Speech Recognition (ASR) models are very successful, but hard to interpret. To gain better understanding of how Artificial Neural Networks (ANNs) accomplish their tasks, introspection methods have been proposed. Adapting such techniques from computer vision to speech recognition is not straight-forward, because speech data is more complex and less interpretable than image data. In this work, we introduce Gradient-adjusted Neuron Activation Profiles (GradNAPs) as means to interpret features and representations in Deep Neural Networks. GradNAPs are characteristic responses of ANNs to particular groups of inputs, which incorporate the relevance of neurons for prediction. We show how to utilize GradNAPs to gain insight about how data is processed in ANNs. This includes different ways of visualizing features and clustering of GradNAPs to compare embeddings of different groups of inputs in any layer of a given network. We demonstrate our proposed techniques using a fully-convolutional ASR model.
翻訳日:2022-12-30 13:35:02 公開日:2020-02-19
# バンディットアルゴリズムの残留ブートストラップ探索

Residual Bootstrap Exploration for Bandit Algorithms ( http://arxiv.org/abs/2002.08436v1 )

ライセンス: Link先を確認
Chi-Hua Wang, Yang Yu, Botao Hao, Guang Cheng(参考訳) 本稿では,残余ブートストラップ探索(\texttt{ReBoot})と呼ばれる,有界あるいは非有界な報酬を持つ帯域幅アルゴリズムにおける新しい摂動探索法を提案する。 この \texttt{reboot} は、残差ベースの摂動機構を通じてデータ駆動ランダム性を注入することで探索を強制する。 この新しいメカニズムは適合誤差の根底にある分布特性を捉え、より重要なことは、分散レベルを \textit{unconventional} 方法で膨らませることで(小さなサンプルサイズの場合)最適解から逃れる探索を促進する。 理論上、適切な分散インフレーションレベルでは、 \texttt{ReBoot} はガウスの多武装バンディットにおけるインスタンス依存の対数的後悔を確実に保証する。 異なる合成多腕バンディット問題における \texttt{reboot} の評価を行い、この \texttt{reboot} は、トンプソンサンプリング法と同等の計算効率を持つ \texttt{giro} \cite{kveton2018garbage} および \texttt{phe} \cite{kveton2019perturbed} よりも、無制限の報酬に対してより頑健な性能を示す。

In this paper, we propose a novel perturbation-based exploration method in bandit algorithms with bounded or unbounded rewards, called residual bootstrap exploration (\texttt{ReBoot}). The \texttt{ReBoot} enforces exploration by injecting data-driven randomness through a residual-based perturbation mechanism. This novel mechanism captures the underlying distributional properties of fitting errors, and more importantly boosts exploration to escape from suboptimal solutions (for small sample sizes) by inflating variance level in an \textit{unconventional} way. In theory, with appropriate variance inflation level, \texttt{ReBoot} provably secures instance-dependent logarithmic regret in Gaussian multi-armed bandits. We evaluate the \texttt{ReBoot} in different synthetic multi-armed bandits problems and observe that the \texttt{ReBoot} performs better for unbounded rewards and more robustly than \texttt{Giro} \cite{kveton2018garbage} and \texttt{PHE} \cite{kveton2019perturbed}, with comparable computational efficiency to the Thompson sampling method.
翻訳日:2022-12-30 13:28:01 公開日:2020-02-19
# 大規模データの同時推論:分散ブートストラップ

Simultaneous Inference for Massive Data: Distributed Bootstrap ( http://arxiv.org/abs/2002.08443v1 )

ライセンス: Link先を確認
Yang Yu, Shih-Kang Chao, Guang Cheng(参考訳) 本稿では,多数のマシンで分散処理される大規模データに対して,ブートストラップ法を提案する。 この新しい手法は、既存の方法である \cite{kleiner2014scalable,sengupta2016subsampled} で要求されるオーバーサンプリングなしでマスタマシンをブートストラップし、最小限の通信で最適な統計効率を実現できるという点で計算効率が良い。 本手法では,繰り返しモデルの再適合を必要としないが,作業機械から受信した勾配に対して,マスタマシンに乗算器ブートストラップのみを適用する。 シミュレーションは我々の理論を検証する。

In this paper, we propose a bootstrap method applied to massive data processed distributedly in a large number of machines. This new method is computationally efficient in that we bootstrap on the master machine without over-resampling, typically required by existing methods \cite{kleiner2014scalable,sengupta2016subsampled}, while provably achieving optimal statistical efficiency with minimal communication. Our method does not require repeatedly re-fitting the model but only applies multiplier bootstrap in the master machine on the gradients received from the worker machines. Simulations validate our theory.
翻訳日:2022-12-30 13:27:35 公開日:2020-02-19
# 弱みからの強み:弱い監督による高速な学習

Strength from Weakness: Fast Learning Using Weak Supervision ( http://arxiv.org/abs/2002.08483v1 )

ライセンス: Link先を確認
Joshua Robinson, Stefanie Jegelka, Suvrit Sra(参考訳) 弱教師付き学習の一般化特性について検討する。 つまり、いくつかの"強力な"ラベル(私たちの予測の実際のターゲット)しか存在しないが、多くの"弱い"ラベルが利用可能である。 特に、弱いラベルにアクセスできると、強いタスクの学習速度が$\mathcal{O}(\nicefrac1n)$となり、$n$は強いラベル付きデータポイントの数を表す。 この加速は、強いラベル付けされたデータがより遅い$\mathcal{o}(\nicefrac{1}{\sqrt{n}})$レートしか認めていない場合でも起こり得る。 実際の加速は、利用可能な弱いラベルの数と、2つのタスク間の関係に継続的に依存する。 我々の理論的結果は、様々なタスクに経験的に反映され、弱いラベルが強いタスクでの学習をいかに加速するかを示す。

We study generalization properties of weakly supervised learning. That is, learning where only a few "strong" labels (the actual target of our prediction) are present but many more "weak" labels are available. In particular, we show that having access to weak labels can significantly accelerate the learning rate for the strong task to the fast rate of $\mathcal{O}(\nicefrac1n)$, where $n$ denotes the number of strongly labeled data points. This acceleration can happen even if by itself the strongly labeled data admits only the slower $\mathcal{O}(\nicefrac{1}{\sqrt{n}})$ rate. The actual acceleration depends continuously on the number of weak labels available, and on the relation between the two tasks. Our theoretical results are reflected empirically across a range of tasks and illustrate how weak labels speed up learning on the strong task.
翻訳日:2022-12-30 13:27:22 公開日:2020-02-19
# 対話型自然言語に基づく人物探索

Interactive Natural Language-based Person Search ( http://arxiv.org/abs/2002.08434v1 )

ライセンス: Link先を確認
Vikram Shree, Wei-Lun Chao and Mark Campbell(参考訳) 本研究では,制約のない環境において,自然言語で人を探すことの問題点を考察する。 具体的には,人間の記述を効果的に獲得するアルゴリズムを体系的に設計する方法を検討する。 視覚的および言語的理解に使用されるモデルを用いて、興味ある人物(POI)を原則的に探索し、別の複雑なモデルを再設計することなく、有望な結果を達成するアルゴリズムを提案する。 次に、ロボットがユーザからPOIの外観に関する追加情報を要求できる反復的質問応答(QA)戦略について検討する。 そこで本研究では,その重要性の観点から質問をランク付けする欲求アルゴリズムを導入し,モデルの不確実性に応じて人間とロボットの相互作用の長さを動的に調整するアルゴリズムを提案する。 私たちのアプローチは、ベンチマークデータセットだけでなく、動的で混み合った環境で動くモバイルロボット上でも検証されます。

In this work, we consider the problem of searching people in an unconstrained environment, with natural language descriptions. Specifically, we study how to systematically design an algorithm to effectively acquire descriptions from humans. An algorithm is proposed by adapting models, used for visual and language understanding, to search a person of interest (POI) in a principled way, achieving promising results without the need to re-design another complicated model. We then investigate an iterative question-answering (QA) strategy that enable robots to request additional information about the POI's appearance from the user. To this end, we introduce a greedy algorithm to rank questions in terms of their significance, and equip the algorithm with the capability to dynamically adjust the length of human-robot interaction according to model's uncertainty. Our approach is validated not only on benchmark datasets but on a mobile robot, moving in a dynamic and crowded environment.
翻訳日:2022-12-30 13:26:34 公開日:2020-02-19
# symog: 改良固定点量子化のためのガウスモードの学習対称混合

SYMOG: learning symmetric mixture of Gaussian modes for improved fixed-point quantization ( http://arxiv.org/abs/2002.08204v1 )

ライセンス: Link先を確認
Lukas Enderich and Fabian Timm and Wolfram Burgard(参考訳) ディープニューラルネットワーク(DNN)は、いくつかの機械学習ベンチマークで古典的な手法より優れていることが証明されている。 しかし、計算複雑性が高く、強力な処理ユニットを必要とする。 特に組み込みシステムにデプロイする場合、モデルのサイズと推測時間を大幅に削減する必要がある。 低ビット固定点量子化によるDNNの複雑さを著しく低減するSYMOG(ガウスモードの対称混合)を提案する。 SYMOGは、学習課題と量子化を同時に解決する新しいソフト量子化法である。 トレーニング中、重量分布は単調なガウス分布からガウスの対称混合へと変化し、それぞれの平均値は特定の固定点モードに属する。 我々は,共通ベンチマークデータセット (mnist, cifar-10, cifar-100) 上の異なるアーキテクチャ (lenet5, vgg7, vgg11, densenet) を用いたアプローチを評価し,最先端の量子化手法と比較した。 我々は,CIFAR-10では5.71%,CIFAR-100では27.65%の誤差率で,優れた結果と2ビット最先端性能を達成した。

Deep neural networks (DNNs) have been proven to outperform classical methods on several machine learning benchmarks. However, they have high computational complexity and require powerful processing units. Especially when deployed on embedded systems, model size and inference time must be significantly reduced. We propose SYMOG (symmetric mixture of Gaussian modes), which significantly decreases the complexity of DNNs through low-bit fixed-point quantization. SYMOG is a novel soft quantization method such that the learning task and the quantization are solved simultaneously. During training the weight distribution changes from an unimodal Gaussian distribution to a symmetric mixture of Gaussians, where each mean value belongs to a particular fixed-point mode. We evaluate our approach with different architectures (LeNet5, VGG7, VGG11, DenseNet) on common benchmark data sets (MNIST, CIFAR-10, CIFAR-100) and we compare with state-of-the-art quantization approaches. We achieve excellent results and outperform 2-bit state-of-the-art performance with an error rate of only 5.71% on CIFAR-10 and 27.65% on CIFAR-100.
翻訳日:2022-12-30 13:26:18 公開日:2020-02-19
# エンドツーエンドマンダリン英語コード切替音声認識のための言語バイアス付きrnnトランスデューサ

Rnn-transducer with language bias for end-to-end Mandarin-English code-switching speech recognition ( http://arxiv.org/abs/2002.08126v1 )

ライセンス: Link先を確認
Shuai Zhang, Jiangyan Yi, Zhengkun Tian, Jianhua Tao, Ye Bai(参考訳) 近年,言語識別情報は,エンドツーエンドのコードスイッチング(CS)音声認識の性能向上に活用されている。 しかし、以前の研究では補助モジュールとして追加の言語識別(LID)モデルを使用しており、システム複合体の原因となっている。 本稿では,この問題を解決するために,言語バイアスを伴うrecurrent neural network transducer(rnn-t)モデルを提案する。 言語アイデンティティを使ってモデルをバイアスし,CS点を予測する。 これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。 マンダリン・イングリッシュCSコーパスSEAMEのアプローチを評価する。 RNN-Tベースラインと比較して,提案手法は2つのテストセットに対してそれぞれ16.2%,12.9%の相対誤差低減を実現することができる。

Recently, language identity information has been utilized to improve the performance of end-to-end code-switching (CS) speech recognition. However, previous works use an additional language identification (LID) model as an auxiliary module, which causes the system complex. In this work, we propose an improved recurrent neural network transducer (RNN-T) model with language bias to alleviate the problem. We use the language identities to bias the model to predict the CS points. This promotes the model to learn the language identity information directly from transcription, and no additional LID model is needed. We evaluate the approach on a Mandarin-English CS corpus SEAME. Compared to our RNN-T baseline, the proposed method can achieve 16.2% and 12.9% relative error reduction on two test sets, respectively.
翻訳日:2022-12-30 13:25:52 公開日:2020-02-19
# NeuroFabric: プリミティブスパースネットワークのトレーニングのための理想的トポロジの同定

NeuroFabric: Identifying Ideal Topologies for Training A Priori Sparse Networks ( http://arxiv.org/abs/2002.08339v1 )

ライセンス: Link先を確認
Mihailo Isakov and Michel A. Kinsy(参考訳) 深層ニューラルネットワークの長いトレーニング時間は、機械学習研究のボトルネックである。 高速トレーニングの主な障害は、情報帯域幅に関して、高密度層と畳み込み層のメモリと計算要求の2次成長である。 近年,メモリと計算量を低く保ちながら高い情報帯域幅を維持する手法として,'a priori'スパースネットワークのトレーニングが提案されている。 しかし、これらのネットワークでどの疎いトポロジを使うべきかは定かではない。 本研究では,層内トポロジーの選択に関する理論的基礎を提供する。 まず、非常に深いスパースネットワークの空間を探索できる新しいスパースニューラルネットワークの初期化スキームを導出する。 次に,いくつかのトポロジを評価し,類似したトポロジが達成可能な精度において大きな差をしばしば有することを示す。 これらの違いを説明するために,ネットワークがトレーニングするデータセットとは独立にトポロジを評価するデータフリーヒューリスティックを開発した。 次に、よいトポロジを作るための一連の要件を導き出し、それらすべてを満たす単一のトポロジに到達します。

Long training times of deep neural networks are a bottleneck in machine learning research. The major impediment to fast training is the quadratic growth of both memory and compute requirements of dense and convolutional layers with respect to their information bandwidth. Recently, training `a priori' sparse networks has been proposed as a method for allowing layers to retain high information bandwidth, while keeping memory and compute low. However, the choice of which sparse topology should be used in these networks is unclear. In this work, we provide a theoretical foundation for the choice of intra-layer topology. First, we derive a new sparse neural network initialization scheme that allows us to explore the space of very deep sparse networks. Next, we evaluate several topologies and show that seemingly similar topologies can often have a large difference in attainable accuracy. To explain these differences, we develop a data-free heuristic that can evaluate a topology independently from the dataset the network will be trained on. We then derive a set of requirements that make a good topology, and arrive at a single topology that satisfies all of them.
翻訳日:2022-12-30 13:18:08 公開日:2020-02-19
# 記号勾配降下の幾何学

The Geometry of Sign Gradient Descent ( http://arxiv.org/abs/2002.08056v1 )

ライセンス: Link先を確認
Lukas Balles and Fabian Pedregosa and Nicolas Le Roux(参考訳) 信号ベースの最適化手法は、分散最適化における通信コストと、ニューラルネットワークトレーニングにおける驚くほど優れたパフォーマンスのために、機械学習で人気を博している。 さらに、それらはアダムのようないわゆる適応勾配法と密接に関連している。 記号SGDに関する最近の研究は、非標準の「分離滑らか性」仮定を用いているのに対し、古い研究では、$\ell_\infty$-norm に関して勾配降下を最も急降下として示している。 本研究では,分離可能な滑らかさと$\ell_\infty$-smoothnessの密接な関係を示し,後者がより弱く自然な仮定であると主張する。 次に、$\ell_\infty$-norm に関して滑らか性定数を研究し、符号に基づく手法の性能に影響を与える目的関数の幾何学的性質を分離する。 要するに、勾配降下よりも符号に基づく方法の方が好ましい。 (i)ヘッセン語はある程度対角線に集中しており、 (ii)その最大固有値は平均固有値よりもはるかに大きい。 どちらの特性もディープネットワークでは一般的である。

Sign-based optimization methods have become popular in machine learning due to their favorable communication cost in distributed optimization and their surprisingly good performance in neural network training. Furthermore, they are closely connected to so-called adaptive gradient methods like Adam. Recent works on signSGD have used a non-standard "separable smoothness" assumption, whereas some older works study sign gradient descent as steepest descent with respect to the $\ell_\infty$-norm. In this work, we unify these existing results by showing a close connection between separable smoothness and $\ell_\infty$-smoothness and argue that the latter is the weaker and more natural assumption. We then proceed to study the smoothness constant with respect to the $\ell_\infty$-norm and thereby isolate geometric properties of the objective function which affect the performance of sign-based methods. In short, we find sign-based methods to be preferable over gradient descent if (i) the Hessian is to some degree concentrated on its diagonal, and (ii) its maximal eigenvalue is much larger than the average eigenvalue. Both properties are common in deep networks.
翻訳日:2022-12-30 13:10:10 公開日:2020-02-19
# SummaryNet: 自動ビデオ要約のための多段階ディープラーニングモデル

SummaryNet: A Multi-Stage Deep Learning Model for Automatic Video Summarisation ( http://arxiv.org/abs/2002.09424v1 )

ライセンス: Link先を確認
Ziyad Jappie and David Torpey and Turgay Celik(参考訳) ビデオ要約は、ビデオで何が起こったかの情報を要約するためにビデオの重要な部分を抽出するタスクとして提示することができる。 本稿では,自動要約のための教師あり学習フレームワークとしてSessionNetを紹介する。 SummaryNetは2ストリームの畳み込みネットワークを使って空間(外観)と時間(動き)の表現を学習する。 エンコーダ・デコーダモデルを用いて、学習したビデオ表現から最も有能な特徴を抽出する。 最後に、双方向長短期メモリセルを備えたシグモイド回帰ネットワークを用いて、フレームが要約フレームである確率を予測する。 ベンチマークデータセットにおける実験結果は,提案手法が最先端ビデオ要約法と同等か,あるいは著しく良好な結果が得られることを示した。

Video summarisation can be posed as the task of extracting important parts of a video in order to create an informative summary of what occurred in the video. In this paper we introduce SummaryNet as a supervised learning framework for automated video summarisation. SummaryNet employs a two-stream convolutional network to learn spatial (appearance) and temporal (motion) representations. It utilizes an encoder-decoder model to extract the most salient features from the learned video representations. Lastly, it uses a sigmoid regression network with bidirectional long short-term memory cells to predict the probability of a frame being a summary frame. Experimental results on benchmark datasets show that the proposed method achieves comparable or significantly better results than the state-of-the-art video summarisation methods.
翻訳日:2022-12-30 13:00:49 公開日:2020-02-19
# 微調整のためのハイパーパラメータ再考

Rethinking the Hyperparameters for Fine-tuning ( http://arxiv.org/abs/2002.11770v1 )

ライセンス: Link先を確認
Hao Li, Pratik Chaudhari, Hao Yang, Michael Lam, Avinash Ravichandran, Rahul Bhotika, Stefano Soatto(参考訳) 事前訓練されたImageNetモデルからの微調整は、様々なコンピュータビジョンタスクのデファクトスタンダードとなっている。 ファインチューニングの現在のプラクティスは、通常、ハイパーパラメータのアドホックな選択を選択し、それらをスクラッチからトレーニングに通常使用される値に固定することです。 本稿では,微調整のためのハイパーパラメータ設定の一般的な方法を再検討する。 本研究は, 各種移動学習ベンチマークの微調整における広範な実験的評価に基づく。 1) 先行研究は学習率とバッチサイズを徹底的に研究してきたが, 微調整の運動量は未探索のパラメータである。 運動量の値は微調整性能にも影響し, 過去の理論的知見と結びついている。 2)微調整のための最適ハイパーパラメータ,特に効果的な学習速度は,データセットに依存するだけでなく,ソースドメインとターゲットドメインの類似性にも敏感である。 これは、スクラッチからトレーニングするためのハイパーパラメータとは対照的である。 3)初期モデルに近いモデルを保持する参照ベースの正規化は、必ずしも「異なる」データセットに適用されない。 本研究は、微調整の一般的な実践に挑戦し、深層学習実践者が微調整のハイパーパラメータを再考することを奨励するものである。

Fine-tuning from pre-trained ImageNet models has become the de-facto standard for various computer vision tasks. Current practices for fine-tuning typically involve selecting an ad-hoc choice of hyperparameters and keeping them fixed to values normally used for training from scratch. This paper re-examines several common practices of setting hyperparameters for fine-tuning. Our findings are based on extensive empirical evaluation for fine-tuning on various transfer learning benchmarks. (1) While prior works have thoroughly investigated learning rate and batch size, momentum for fine-tuning is a relatively unexplored parameter. We find that the value of momentum also affects fine-tuning performance and connect it with previous theoretical findings. (2) Optimal hyperparameters for fine-tuning, in particular, the effective learning rate, are not only dataset dependent but also sensitive to the similarity between the source domain and target domain. This is in contrast to hyperparameters for training from scratch. (3) Reference-based regularization that keeps models close to the initial model does not necessarily apply for "dissimilar" datasets. Our findings challenge common practices of fine-tuning and encourages deep learning practitioners to rethink the hyperparameters for fine-tuning.
翻訳日:2022-12-30 13:00:30 公開日:2020-02-19
# 階層的蓄積を伴う木構造的注意

Tree-structured Attention with Hierarchical Accumulation ( http://arxiv.org/abs/2002.08046v1 )

ライセンス: Link先を確認
Xuan-Phi Nguyen, Shafiq Joty, Steven C.H. Hoi, Richard Socher(参考訳) 選挙区木のような階層構造を組み込むことは、様々な自然言語処理(NLP)タスクに有効であることが示されている。 しかし、Transformerのような最先端(SOTA)シーケンスベースのモデルは、そのような構造を本質的にエンコードするのに苦労していることは明らかである。 一方、Tree-LSTMのような専用モデルは、階層構造を明示的にモデル化する一方で、Transformerほど効率的に動作しない。 本稿では,このギャップを階層的蓄積(hierarchical Accumulation)で埋めて,解析木構造を一定時間複雑度で自己注意に符号化する。 提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。 また、3つのテキスト分類タスクでTransformerとTree-LSTMよりも改善されている。 さらに,階層的優先順位を用いることでデータ不足を補償できることを示すとともに,トークンレベルの注意よりもフレーズレベルの注意を優先することを示す。

Incorporating hierarchical structures like constituency trees has been shown to be effective for various natural language processing (NLP) tasks. However, it is evident that state-of-the-art (SOTA) sequence-based models like the Transformer struggle to encode such structures inherently. On the other hand, dedicated models like the Tree-LSTM, while explicitly modeling hierarchical structures, do not perform as efficiently as the Transformer. In this paper, we attempt to bridge this gap with "Hierarchical Accumulation" to encode parse tree structures into self-attention at constant time complexity. Our approach outperforms SOTA methods in four IWSLT translation tasks and the WMT'14 English-German translation task. It also yields improvements over Transformer and Tree-LSTM on three text classification tasks. We further demonstrate that using hierarchical priors can compensate for data shortage, and that our model prefers phrase-level attentions over token-level attentions.
翻訳日:2022-12-30 12:59:41 公開日:2020-02-19
# 時間グラフを用いた帰納的表現学習

Inductive Representation Learning on Temporal Graphs ( http://arxiv.org/abs/2002.07962v1 )

ライセンス: Link先を確認
Da Xu, Chuanwei Ruan, Evren Korpeoglu, Sushant Kumar, Kannan Achan(参考訳) 時間グラフ上の帰納的表現学習は、現実の動的ネットワーク上での有償機械学習への重要なステップである。 時間的動的グラフの進化する性質は、新しいノードの処理と時間的パターンのキャプチャを必要とする。 今や時間の関数であるノード埋め込みは、静的ノードの特徴と進化するトポロジ構造の両方を表現するべきである。 さらに、ノードとトポロジの特徴も時間的であり、ノードの埋め込みのパターンもキャプチャされるべきである。 本稿では,時間的位相的近傍特徴を効率的に集約し,時間的特徴の相互作用を学習するための時間的グラフアテンション(tgat)層を提案する。 tgatの場合、自己拘束機構を構築ブロックとして使用し、調和解析による古典ボヒナーの定理に基づく新しい関数時間符号化手法を開発する。 tgat層を積み重ねることで、ネットワークはノード埋め込みを時間関数として認識し、グラフが進化するにつれて、新しいノードと観測ノードの両方の埋め込みを誘導的に推論することができる。 提案手法はノード分類とリンク予測タスクの両方を扱い,時間的エッジ機能を含むように自然に拡張することができる。 本手法は,2つのベンチマークと1つの産業データセットを用いて,時間的条件下でトランスダクティブおよびインダクティブタスクを用いて評価する。 tgatモデルは,従来の時間グラフ埋め込み手法と同様に,最先端のベースラインと好適に比較できる。

Inductive representation learning on temporal graphs is an important step toward salable machine learning on real-world dynamic networks. The evolving nature of temporal dynamic graphs requires handling new nodes as well as capturing temporal patterns. The node embeddings, which are now functions of time, should represent both the static node features and the evolving topological structures. Moreover, node and topological features can be temporal as well, whose patterns the node embeddings should also capture. We propose the temporal graph attention (TGAT) layer to efficiently aggregate temporal-topological neighborhood features as well as to learn the time-feature interactions. For TGAT, we use the self-attention mechanism as building block and develop a novel functional time encoding technique based on the classical Bochner's theorem from harmonic analysis. By stacking TGAT layers, the network recognizes the node embeddings as functions of time and is able to inductively infer embeddings for both new and observed nodes as the graph evolves. The proposed approach handles both node classification and link prediction task, and can be naturally extended to include the temporal edge features. We evaluate our method with transductive and inductive tasks under temporal settings with two benchmark and one industrial dataset. Our TGAT model compares favorably to state-of-the-art baselines as well as the previous temporal graph embedding approaches.
翻訳日:2022-12-30 12:58:43 公開日:2020-02-19
# 放射線レポート生成が知識グラフを満たしたとき

When Radiology Report Generation Meets Knowledge Graph ( http://arxiv.org/abs/2002.08277v1 )

ライセンス: Link先を確認
Yixiao Zhang, Xiaosong Wang, Ziyue Xu, Qihang Yu, Alan Yuille, Daguang Xu(参考訳) 近年, 医師の作業負荷軽減のため, 自動放射線診断レポート作成がコンピュータ支援診断の課題となっている。 自然画像キャプションのための深層学習技術は, 放射線学レポート作成に有効である。 しかし、放射線画像報告は自然画像キャプション課題とは2つの側面で異なる。 1) 自然画像キャプションにおける各単語の等価重要度と比較し,放射線画像報告において,正の疾患キーワード言及の正確さが重要である。 2)報告品質の評価は,n-gramの発生を考慮せず,疾患キーワードとその関連属性の一致に重点を置くべきである。 これらの懸念に基づき, グラフ畳み込みニューラルネットワークでモデル化したグラフ埋め込みモジュールを複数の疾患の発見に活用し, 本研究における報告の生成を支援することを提案する。 ナレッジグラフの導入により、疾患発見ごとに専用の特徴学習と、それら間の関係モデリングが可能になる。 また,同じ構成グラフを用いて放射線画像の報告を行うための新しい評価指標を提案した。 実験により, 胸部X線画像の公開アクセスデータセット (IU-RR) にグラフ埋め込みモジュールを組み込んだ手法が, 従来の画像キャプションによく用いられる評価基準と提案手法の両方を用いて, 従来の手法と比較して優れた性能を示した。

Automatic radiology report generation has been an attracting research problem towards computer-aided diagnosis to alleviate the workload of doctors in recent years. Deep learning techniques for natural image captioning are successfully adapted to generating radiology reports. However, radiology image reporting is different from the natural image captioning task in two aspects: 1) the accuracy of positive disease keyword mentions is critical in radiology image reporting in comparison to the equivalent importance of every single word in a natural image caption; 2) the evaluation of reporting quality should focus more on matching the disease keywords and their associated attributes instead of counting the occurrence of N-gram. Based on these concerns, we propose to utilize a pre-constructed graph embedding module (modeled with a graph convolutional neural network) on multiple disease findings to assist the generation of reports in this work. The incorporation of knowledge graph allows for dedicated feature learning for each disease finding and the relationship modeling between them. In addition, we proposed a new evaluation metric for radiology image reporting with the assistance of the same composed graph. Experimental results demonstrate the superior performance of the methods integrated with the proposed graph embedding module on a publicly accessible dataset (IU-RR) of chest radiographs compared with previous approaches using both the conventional evaluation metrics commonly adopted for image captioning and our proposed ones.
翻訳日:2022-12-30 12:51:09 公開日:2020-02-19
# 教師なしドメイン適応における外部クラスの追加による差別力の拡大

Enlarging Discriminative Power by Adding an Extra Class in Unsupervised Domain Adaptation ( http://arxiv.org/abs/2002.08041v1 )

ライセンス: Link先を確認
Hai H. Tran, Sumyeong Ahn, Taeyoung Lee, Yung Yi(参考訳) 本稿では,対象ドメインからのラベル付きデータと対象ドメインからのラベルなしデータを用いて,対象ドメインの予測モデルを取得することを目的とした教師なしドメイン適応の問題について検討する。 両方の領域に対して不変であるだけでなく、対象領域に対して高い識別力を与える特徴を抽出するという考え方に基づく最近の研究が多数存在する。 本稿では,新しい人工クラスを追加し,gan生成した新しいクラスのサンプルとともに,データ上でモデルをトレーニングするという,識別性を高めるアイデアを提案する。 新しいクラスサンプルに基づく学習モデルは、対象領域に現在のクラスのデータを再配置することで、より差別的な特徴を抽出し、意思決定境界をより効果的に描画することができる。 私たちのアイデアは、DANN、VADA、DIRT-Tといった既存のメソッドと互換性がある、非常に一般的なものです。 我々は、教師なし領域適応の評価によく用いられる標準データに対して様々な実験を行い、そのアルゴリズムが多くのシナリオにおいてSOTA性能を達成することを示す。

In this paper, we study the problem of unsupervised domain adaptation that aims at obtaining a prediction model for the target domain using labeled data from the source domain and unlabeled data from the target domain. There exists an array of recent research based on the idea of extracting features that are not only invariant for both domains but also provide high discriminative power for the target domain. In this paper, we propose an idea of empowering the discriminativeness: Adding a new, artificial class and training the model on the data together with the GAN-generated samples of the new class. The trained model based on the new class samples is capable of extracting the features that are more discriminative by repositioning data of current classes in the target domain and therefore drawing the decision boundaries more effectively. Our idea is highly generic so that it is compatible with many existing methods such as DANN, VADA, and DIRT-T. We conduct various experiments for the standard data commonly used for the evaluation of unsupervised domain adaptations and demonstrate that our algorithm achieves the SOTA performance for many scenarios.
翻訳日:2022-12-30 12:50:48 公開日:2020-02-19
# 局所2ストリーム畳み込みニューラルネットワーク特徴とサポートベクターマシンを用いたヒューマンアクション認識

Human Action Recognition using Local Two-Stream Convolution Neural Network Features and Support Vector Machines ( http://arxiv.org/abs/2002.09423v1 )

ライセンス: Link先を確認
David Torpey and Turgay Celik(参考訳) 本稿では,ビデオにおける人間の行動認識の簡易かつ効果的な方法を提案する。 提案手法は,映像のサンプルスニペットから最先端の3次元畳み込みニューラルネットワークを用いて,局所的出現と運動の特徴を分離して抽出する。 これらの局所的特徴は連結されてグローバル表現を形成し、ビデオの完全なコンテキストを用いてアクション分類を実行するために線形SVMをトレーニングするために使用される。 ビデオでは、光学フロースケーリングと作物の充填という、2つの単純な前処理技術が提案されている。 我々は、SVMの利点と2つの前処理ステップを実証的に示すために、3つの一般的なベンチマークデータセットに対して広範な評価を行う。

This paper proposes a simple yet effective method for human action recognition in video. The proposed method separately extracts local appearance and motion features using state-of-the-art three-dimensional convolutional neural networks from sampled snippets of a video. These local features are then concatenated to form global representations which are then used to train a linear SVM to perform the action classification using full context of the video, as partial context as used in previous works. The videos undergo two simple proposed preprocessing techniques, optical flow scaling and crop filling. We perform an extensive evaluation on three common benchmark dataset to empirically show the benefit of the SVM, and the two preprocessing steps.
翻訳日:2022-12-30 12:49:31 公開日:2020-02-19
# SAFE:類似性を考慮したマルチモーダルフェイクニュース検出

SAFE: Similarity-Aware Multi-Modal Fake News Detection ( http://arxiv.org/abs/2003.04981v1 )

ライセンス: Link先を確認
Xinyi Zhou, Jindi Wu, Reza Zafarani(参考訳) 偽ニュースの効果的な検出が最近注目されている。 近年の研究では、ニュース記事のテキスト情報と視覚情報の関係性(類似性)を生かして偽ニュースを予測することに多大な貢献をしている。 このような類似性の重要性は、例えば、無関係な画像を使って読者の注目を集めようとする偽ニュースの特定に役立つ。 本稿では,ニュース記事のマルチモーダル(テキストおよびビジュアル)情報を調べるために,$\mathsf{S}$imilarity-$\mathsf{A}$ware $\mathsf{F}$ak$\mathsf{E}$ news detection method$\mathsf{SAFE}$)を提案する。 まず、ニューラルネットワークを用いて、ニュース表現のためのテキストと視覚の特徴を別々に抽出する。 さらに,抽出した特徴とモダリティの関係について検討する。 このようなニューステキストと視覚情報の表現とその関係を共同で学習し、偽ニュースを予測する。 提案手法は,そのテキストや画像,あるいはその「ミスマッチ」に基づいて,ニュース記事の虚偽性を認識しやすくする。 提案手法の有効性を実証した大規模実世界のデータについて広範な実験を行った。

Effective detection of fake news has recently attracted significant attention. Current studies have made significant contributions to predicting fake news with less focus on exploiting the relationship (similarity) between the textual and visual information in news articles. Attaching importance to such similarity helps identify fake news stories that, for example, attempt to use irrelevant images to attract readers' attention. In this work, we propose a $\mathsf{S}$imilarity-$\mathsf{A}$ware $\mathsf{F}$ak$\mathsf{E}$ news detection method ($\mathsf{SAFE}$) which investigates multi-modal (textual and visual) information of news articles. First, neural networks are adopted to separately extract textual and visual features for news representation. We further investigate the relationship between the extracted features across modalities. Such representations of news textual and visual information along with their relationship are jointly learned and used to predict fake news. The proposed method facilitates recognizing the falsity of news articles based on their text, images, or their "mismatches." We conduct extensive experiments on large-scale real-world data, which demonstrate the effectiveness of the proposed method.
翻訳日:2022-12-30 12:42:42 公開日:2020-02-19
# 固定ポイントビュー:モデルベースのクラスタリングフレームワーク

A Fixed point view: A Model-Based Clustering Framework ( http://arxiv.org/abs/2002.08032v1 )

ライセンス: Link先を確認
Jianhao Ding, Lansheng Han(参考訳) データのインフレーションにより、教師なし学習の分野としてのクラスタリング分析は、数学的法則の統一された理解と応用を欠いている。 本稿では,固定点の観点からモデルベースのクラスタリングを再現し,統一クラスタリングフレームワークを提案する。 固定点をクラスタ中心として見つけるために、このフレームワークは反復的に縮約写像を構築し、アルゴリズム間の収束機構と相互接続を強く示す。 収縮マップを指定することで、Gaussian Mixed Model(GMM)をフレームワークにアプリケーションとしてマッピングすることができる。 固定ポイントフレームワークが将来のクラスタリングアルゴリズムの設計に役立つことを期待しています。

With the inflation of the data, clustering analysis, as a branch of unsupervised learning, lacks unified understanding and application of its mathematical law. Based on the view of fixed point, this paper restates the model-based clustering and proposes a unified clustering framework. In order to find fixed points as cluster centers, the framework iteratively constructs the contraction map, which strongly reveals the convergence mechanism and interconnections among algorithms. By specifying a contraction map, Gaussian mixture model (GMM) can be mapped to the framework as an application. We hope the fixed point framework will help the design of future clustering algorithms.
翻訳日:2022-12-30 12:42:15 公開日:2020-02-19
# 非自己回帰的ダイアログ状態追跡

Non-Autoregressive Dialog State Tracking ( http://arxiv.org/abs/2002.08024v1 )

ライセンス: Link先を確認
Hung Le, Richard Socher, Steven C.H. Hoi(参考訳) タスク指向対話における対話状態追跡(DST)の最近の取り組みは,対話履歴自体からスロット値候補を生成可能なオープンボキャブラリや生成ベースアプローチへと進展している。 これらの手法は、特に動的スロット値を持つ複雑な対話領域において、優れた性能を示す。 しかし、それらは2つの側面に不足している: 1) モデルでは、(ドメイン、スロット)ペア間の潜在的な依存関係を検出するために、ドメインとスロット間のシグナルを明示的に学習することができない;2) 既存のモデルは、複数のドメインと複数のターンで対話が進化する際に高い時間コストを発生させる自己回帰的アプローチに従う。 本稿では,非自己回帰的対話状態追跡(nadst)の新たな枠組みを提案する。これはドメイン間の潜在的な依存関係を要因として,分離されたスロットではなく完全なセットとして対話状態の予測を改善するためにモデルを最適化することができる。 特に,本手法の非自己回帰特性は,リアルタイム対話応答生成におけるDSTの遅延を著しく低減すると同時に,スロットやドメインレベルに加えてトークンレベルでのスロット間の依存性を検出する。 実験の結果,MultiWOZ 2.1コーパス上のすべてのドメインにおいて,我々のモデルは最先端の関節精度を達成でき,対話履歴が時間とともに長くなるにつれて,我々のモデルのレイテンシは従来よりも桁違いに低いことがわかった。

Recent efforts in Dialogue State Tracking (DST) for task-oriented dialogues have progressed toward open-vocabulary or generation-based approaches where the models can generate slot value candidates from the dialogue history itself. These approaches have shown good performance gain, especially in complicated dialogue domains with dynamic slot values. However, they fall short in two aspects: (1) they do not allow models to explicitly learn signals across domains and slots to detect potential dependencies among (domain, slot) pairs; and (2) existing models follow auto-regressive approaches which incur high time cost when the dialogue evolves over multiple domains and multiple turns. In this paper, we propose a novel framework of Non-Autoregressive Dialog State Tracking (NADST) which can factor in potential dependencies among domains and slots to optimize the models towards better prediction of dialogue states as a complete set rather than separate slots. In particular, the non-autoregressive nature of our method not only enables decoding in parallel to significantly reduce the latency of DST for real-time dialogue response generation, but also detect dependencies among slots at token level in addition to slot and domain level. Our empirical results show that our model achieves the state-of-the-art joint accuracy across all domains on the MultiWOZ 2.1 corpus, and the latency of our model is an order of magnitude lower than the previous state of the art as the dialogue history extends over time.
翻訳日:2022-12-30 12:41:33 公開日:2020-02-19
# グルエで食べられるのを避ける方法:テキスト・アドベンチャー・エージェントの探索戦略

How To Avoid Being Eaten By a Grue: Exploration Strategies for Text-Adventure Agents ( http://arxiv.org/abs/2002.08795v1 )

ライセンス: Link先を確認
Prithviraj Ammanabrolu, Ethan Tien, Zhaochen Luo, Mark O. Riedl(参考訳) エージェントがテキスト自然言語を通じて世界と対話するテキストベースのゲームは、コンビネータサイズのアクションスペースの問題を示してくれます。 現在の強化学習アルゴリズムのほとんどは、1ターンあたりに可能な多くのアクションを効果的に処理できない。 その結果、サンプル効率の低下はボトルネック状態をパスできないエージェントとなり、十分に強化されるようなボトルネックをパスする適切なアクションシーケンスが見られないため、進行できない。 強化学習における知識グラフを用いた事前作業に基づいて,新たなゲーム状態探索戦略を2つ紹介する。 従来のテキストアドベンチャーゲームzork1では,エージェントが食されるボトルネックを克服できなかったため,探索戦略と強力なベースラインを比較した。

Text-based games -- in which an agent interacts with the world through textual natural language -- present us with the problem of combinatorially-sized action-spaces. Most current reinforcement learning algorithms are not capable of effectively handling such a large number of possible actions per turn. Poor sample efficiency, consequently, results in agents that are unable to pass bottleneck states, where they are unable to proceed because they do not see the right action sequence to pass the bottleneck enough times to be sufficiently reinforced. Building on prior work using knowledge graphs in reinforcement learning, we introduce two new game state exploration strategies. We compare our exploration strategies against strong baselines on the classic text-adventure game, Zork1, where prior agent have been unable to get past a bottleneck where the agent is eaten by a Grue.
翻訳日:2022-12-30 12:41:05 公開日:2020-02-19
# グラデーションに基づくメタ強化学習のカリキュラム

Curriculum in Gradient-Based Meta-Reinforcement Learning ( http://arxiv.org/abs/2002.07956v1 )

ライセンス: Link先を確認
Bhairav Mehta, Tristan Deleu, Sharath Chandra Raparthy, Chris J. Pal, Liam Paull(参考訳) Model-Agnostic Meta-Learning (MAML) のようなグラディエントベースのメタラーナーは、教師付きおよび強化学習設定において強力な数ショット性能を示した。 しかし,特にメタ強化学習(meta-RL)では,勾配に基づくメタラーナーがタスク分布に敏感であることを示すことができる。 間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を受けます。 本稿では,勾配に基づくメタrlの興味深い失敗事例に注目し,タスク分布がアルゴリズムのアウトプット,安定性,性能に大きく影響することを示す。 この問題に対処するために,ドメインランダム化に関する最近の文献の知見を活用し,ADRがsim2real転送を行うのと同じように,勾配ベースメタRLのタスクのカリキュラムを学習するメタアクティブドメインランダム化(Meta-ADR)を提案する。 このアプローチは,様々なロコモーションおよびナビゲーションタスクにおいて,より安定したポリシを誘導することを示す。 我々は,非構造化タスク空間においても,学習タスク分布がMAMLの適応性能を大幅に向上することを確認した。 最後に、シングルタスク適応性能よりも \textit{generalization}を優先するmeta-rlのベンチマーク改善の必要性を動機付けます。

Gradient-based meta-learners such as Model-Agnostic Meta-Learning (MAML) have shown strong few-shot performance in supervised and reinforcement learning settings. However, specifically in the case of meta-reinforcement learning (meta-RL), we can show that gradient-based meta-learners are sensitive to task distributions. With the wrong curriculum, agents suffer the effects of meta-overfitting, shallow adaptation, and adaptation instability. In this work, we begin by highlighting intriguing failure cases of gradient-based meta-RL and show that task distributions can wildly affect algorithmic outputs, stability, and performance. To address this problem, we leverage insights from recent literature on domain randomization and propose meta Active Domain Randomization (meta-ADR), which learns a curriculum of tasks for gradient-based meta-RL in a similar as ADR does for sim2real transfer. We show that this approach induces more stable policies on a variety of simulated locomotion and navigation tasks. We assess in- and out-of-distribution generalization and find that the learned task distributions, even in an unstructured task space, greatly improve the adaptation performance of MAML. Finally, we motivate the need for better benchmarking in meta-RL that prioritizes \textit{generalization} over single-task adaption performance.
翻訳日:2022-12-30 12:40:51 公開日:2020-02-19
# サブセット選択を考慮したランダムユーティリティモデルにおけるベストプラクティス学習

Best-item Learning in Random Utility Models with Subset Choices ( http://arxiv.org/abs/2002.07994v1 )

ライセンス: Link先を確認
Aadirupa Saha and Aditya Gopalan(参考訳) PAC学習の課題は,サブセットを再生する際,RUM(Random Utility Model)によってサンプリングされた相対的なフィードバックを受け取り,遅延したアイテムユーティリティにノイズを分散させることによって,$k$アイテムのサブセットの逐次的かつ適応的に選択されたプレイを用いて,$n$アイテムのプールから最も価値の高いアイテムを学習することにある。 このようなRUMの新たな特性を最小限の利点と呼び、相対的な勝利/損失経験数に基づいてアイテムのペアを分離することの複雑さを特徴づけ、ノイズ分布のみの関数として有界化することができる。 一般的なrumsの学習アルゴリズムは、アイテムのペアワイズ相対数と階層的除去に基づいており、新しいpacサンプル複雑性保証である$o(\frac{n}{c^2\epsilon^2} \log \frac{k}{\delta})$ roundsを用いて、rumにおける最悪のペアワイズアドバンテージがアイテムのパラメータギャップに対して少なくとも$c$である場合に、$\epsilon$-optimalアイテムを特定する。 PACサンプルの複雑さの基本的な下限は、これは$n,k$および$c$への依存に関してほぼ最適であることを示している。

We consider the problem of PAC learning the most valuable item from a pool of $n$ items using sequential, adaptively chosen plays of subsets of $k$ items, when, upon playing a subset, the learner receives relative feedback sampled according to a general Random Utility Model (RUM) with independent noise perturbations to the latent item utilities. We identify a new property of such a RUM, termed the minimum advantage, that helps in characterizing the complexity of separating pairs of items based on their relative win/loss empirical counts, and can be bounded as a function of the noise distribution alone. We give a learning algorithm for general RUMs, based on pairwise relative counts of items and hierarchical elimination, along with a new PAC sample complexity guarantee of $O(\frac{n}{c^2\epsilon^2} \log \frac{k}{\delta})$ rounds to identify an $\epsilon$-optimal item with confidence $1-\delta$, when the worst case pairwise advantage in the RUM has sensitivity at least $c$ to the parameter gaps of items. Fundamental lower bounds on PAC sample complexity show that this is near-optimal in terms of its dependence on $n,k$ and $c$.
翻訳日:2022-12-30 12:40:29 公開日:2020-02-19