このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201112となっている論文です。

PDF登録状況(公開日: 20201112)

TitleAuthorsAbstract論文公表日・翻訳日
# Affective Computingのための継続的学習

Continual Learning for Affective Computing ( http://arxiv.org/abs/2006.06113v2 )

ライセンス: Link先を確認
Nikhil Churamani(参考訳) 実世界の応用には、個々の表現の違いに敏感な知覚モデルが必要である。 各ユーザが異なる表現を持つため、それぞれのモデルが個々人に対してパーソナライズし、その表現を適切に捉えて、その感情状態をモデル化する必要がある。 ベンチマークのパフォーマンスは高いが、現在のアプローチはそのような適応に不足している。 本研究では,パーソナライズされた感情認識を開発するパラダイムとして,情緒的コンピューティングにおける継続学習(CL)の利用を提案する。

Real-world application requires affect perception models to be sensitive to individual differences in expression. As each user is different and expresses differently, these models need to personalise towards each individual to adequately capture their expressions and thus, model their affective state. Despite high performance on benchmarks, current approaches fall short in such adaptation. In this work, we propose the use of Continual Learning (CL) for affective computing as a paradigm for developing personalised affect perception.
翻訳日:2022-11-23 04:57:15 公開日:2020-11-12
# 低ランクマトリクスのリカバリでは、サンプル数に価値がありますか?

How Many Samples is a Good Initial Point Worth in Low-rank Matrix Recovery? ( http://arxiv.org/abs/2006.06915v2 )

ライセンス: Link先を確認
Gavin Zhang, Richard Y. Zhang(参考訳) 十分な量のラベル付きデータが与えられた場合、非凸低ランク行列回復問題はスプリアス局所極小を含まないため、局所最適化アルゴリズムは任意の初期推定からグローバル最小値に収束することが保証される。 しかし、この理論的な保証によって必要とされる実際のデータ量は非常に悲観的である。 対照的に、良い初期推定に基づく事前の作業は、ソリューションの近傍の外に急激な局所的なミニマの存在を可能にするため、より現実的なデータ要求を持つ。 本稿では,初期推定値の品質とそれに対応するデータ要求量の減少との関係を定量化する。 制限アイソメトリ定数をサンプリング複雑性の代理として用いて,最適化ランドスケープ上の各特定の点が急激な局所最小値になるのを防ぐために必要なサンプルのしきい値を算出する。 ランドスケープの領域に対するしきい値の最適化は、基底真理の周りの初期点に対して、初期推測の品質の線形な改善は、サンプル複雑性の一定の因子改善をもたらすことを見出します。

Given a sufficiently large amount of labeled data, the non-convex low-rank matrix recovery problem contains no spurious local minima, so a local optimization algorithm is guaranteed to converge to a global minimum starting from any initial guess. However, the actual amount of data needed by this theoretical guarantee is very pessimistic, as it must prevent spurious local minima from existing anywhere, including at adversarial locations. In contrast, prior work based on good initial guesses have more realistic data requirements, because they allow spurious local minima to exist outside of a neighborhood of the solution. In this paper, we quantify the relationship between the quality of the initial guess and the corresponding reduction in data requirements. Using the restricted isometry constant as a surrogate for sample complexity, we compute a sharp threshold number of samples needed to prevent each specific point on the optimization landscape from becoming a spurious local minimum. Optimizing the threshold over regions of the landscape, we see that for initial points around the ground truth, a linear improvement in the quality of the initial guess amounts to a constant factor improvement in the sample complexity.
翻訳日:2022-11-22 02:31:28 公開日:2020-11-12
# 忘れないGANメモリ

GAN Memory with No Forgetting ( http://arxiv.org/abs/2006.07543v2 )

ライセンス: Link先を確認
Yulai Cong, Miaoyun Zhao, Jianqiao Li, Sijia Wang, Lawrence Carin(参考訳) 生涯学習における根本的な問題として、壊滅的な忘れは、アクセス不能な歴史的データによって直接引き起こされるため、データ(情報)が完全に記憶されている場合、忘れてはならない。 そこで本研究では,集合のストリームを生成プロセスを通じて記憶し,<emph{no} を忘れることなく記憶する,生涯学習用ganメモリを提案する。 我々のGANメモリは、GANモデルの"スタイル"を調整して、知覚的に異なるターゲット生成を生成できることを認識します。 そこで本研究では,ベースganモデル上で逐次的変調を行い,転送ベース知識の恩恵を受けつつ,逐次的ターゲット生成モデルを形成することを提案する。 したがって、生涯学習に動機づけられたGAN記憶は、以前のタスクからの情報の転送と変調を通じて、生涯学習の形式で表される。 提案手法が既存手法よりも優れていること,また,終生の分類問題に対する破滅的忘れることの軽減効果を示す実験を行った。 コードはhttps://github.com/miaoyunzhao/ganmemory_lifelonglearningで入手できる。

As a fundamental issue in lifelong learning, catastrophic forgetting is directly caused by inaccessible historical data; accordingly, if the data (information) were memorized perfectly, no forgetting should be expected. Motivated by that, we propose a GAN memory for lifelong learning, which is capable of remembering a stream of datasets via generative processes, with \emph{no} forgetting. Our GAN memory is based on recognizing that one can modulate the "style" of a GAN model to form perceptually-distant targeted generation. Accordingly, we propose to do sequential style modulations atop a well-behaved base GAN model, to form sequential targeted generative models, while simultaneously benefiting from the transferred base knowledge. The GAN memory -- that is motivated by lifelong learning -- is therefore itself manifested by a form of lifelong learning, via forward transfer and modulation of information from prior tasks. Experiments demonstrate the superiority of our method over existing approaches and its effectiveness in alleviating catastrophic forgetting for lifelong classification problems. Code is available at https://github.com/MiaoyunZhao/GANmemory_LifelongLearning.
翻訳日:2022-11-21 20:51:12 公開日:2020-11-12
# Global Attentionがグラフネットワークの一般化を改善

Global Attention Improves Graph Networks Generalization ( http://arxiv.org/abs/2006.07846v2 )

ライセンス: Link先を確認
Omri Puny, Heli Ben-Hamu, Yaron Lipman(参考訳) 本稿では,ドット製品アテンション(vaswani et al., 2017)の計算とメモリ効率の優れた変種である低ランクグローバルアテンション(lrga)モジュールをグラフニューラルネットワーク(gnns)に組み込んで一般化能力を向上させることを提唱する。 LRGAモジュールをGNNに追加することで得られる一般化特性を理論的に定量化するために、表現的GNNの特定のファミリーに着目し、LRGAで拡張することで2-Folklore Weisfeiler-Lehman (2-FWL)アルゴリズムという強力なグラフ同型テストへのアルゴリズム的アライメントが得られることを示す。 詳細は以下の通り。 (i)最近のランダムグラフニューラルネットワーク(RGNN)フレームワーク(Sato et al., 2020)を考察し、確率において普遍的であることを示す。 (ii) LRGAを付加したRGNNと多項式カーネルによる2-FWL更新ステップとの整合性を示す。 (iii)ランダムに初期化した2層MLPで学習したカーネルの特徴マップのサンプル複雑性を束縛する。 現実的な観点からは、既存のGNNレイヤをLRGAで拡張することで、現在のGNNベンチマークにおける技術結果の状態を生成できる。 最後に,LRGAによる各種GNNアーキテクチャの拡張が,異なるモデル間の性能ギャップを埋めることがよく見られる。

This paper advocates incorporating a Low-Rank Global Attention (LRGA) module, a computation and memory efficient variant of the dot-product attention (Vaswani et al., 2017), to Graph Neural Networks (GNNs) for improving their generalization power. To theoretically quantify the generalization properties granted by adding the LRGA module to GNNs, we focus on a specific family of expressive GNNs and show that augmenting it with LRGA provides algorithmic alignment to a powerful graph isomorphism test, namely the 2-Folklore Weisfeiler-Lehman (2-FWL) algorithm. In more detail we: (i) consider the recent Random Graph Neural Network (RGNN) (Sato et al., 2020) framework and prove that it is universal in probability; (ii) show that RGNN augmented with LRGA aligns with 2-FWL update step via polynomial kernels; and (iii) bound the sample complexity of the kernel's feature map when learned with a randomly initialized two-layer MLP. From a practical point of view, augmenting existing GNN layers with LRGA produces state of the art results in current GNN benchmarks. Lastly, we observe that augmenting various GNN architectures with LRGA often closes the performance gap between different models.
翻訳日:2022-11-21 12:39:47 公開日:2020-11-12
# 歪みを考慮した特徴補正によるビデオセマンティックセマンティックセグメンテーション

Video Semantic Segmentation with Distortion-Aware Feature Correction ( http://arxiv.org/abs/2006.10380v2 )

ライセンス: Link先を確認
Jiafan Zhuang, Zilei Wang, Bingke Wang(参考訳) 近年の映像意味セマンティクスセグメンテーションは、画像セマンティクスセグメンテーションの大きな進歩から恩恵を受けている。 このようなタスクに対して、フレームごとのイメージセグメンテーションは一般的には高い計算コストのために受け入れられない。 この問題に取り組むために、多くの作品はフローベースの機能伝達を使って、前のフレームの特徴を再利用している。 しかし、光流量推定は必然的に不正確であり、伝播する特徴を歪ませる。 本稿では,歪み特性を補正することで映像セグメンテーション性能を向上させるために,歪み認識特徴の修正を提案する。 具体的には,まず特徴点からの歪みパターンを画像空間に転送し,効果的な歪みマップ予測を行うことを提案する。 歪みマップのガイダンスから得られた特徴補正モジュール (FCM) を用いて, 歪み領域の伝搬特性を補正する手法を提案する。 提案手法は,ビデオセマンティクスセグメンテーションの精度を低コストで大幅に向上させることができる。 cityscapes と camvid の広範な実験結果から,最近の最先端手法よりも優れた手法が得られた。

Video semantic segmentation is active in recent years benefited from the great progress of image semantic segmentation. For such a task, the per-frame image segmentation is generally unacceptable in practice due to high computation cost. To tackle this issue, many works use the flow-based feature propagation to reuse the features of previous frames. However, the optical flow estimation inevitably suffers inaccuracy and then causes the propagated features distorted. In this paper, we propose distortion-aware feature correction to alleviate the issue, which improves video segmentation performance by correcting distorted propagated features. To be specific, we firstly propose to transfer distortion patterns from feature into image space and conduct effective distortion map prediction. Benefited from the guidance of distortion maps, we proposed Feature Correction Module (FCM) to rectify propagated features in the distorted areas. Our proposed method can significantly boost the accuracy of video semantic segmentation at a low price. The extensive experimental results on Cityscapes and CamVid show that our method outperforms the recent state-of-the-art methods.
翻訳日:2022-11-19 13:49:26 公開日:2020-11-12
# 凝縮物における状態の電子密度の学習

Learning the electronic density of states in condensed matter ( http://arxiv.org/abs/2006.11803v2 )

ライセンス: Link先を確認
Chiheb Ben Mahmoud and Andrea Anelli and G\'abor Cs\'anyi and Michele Ceriotti(参考訳) 状態(DOS)の電子密度は、準粒子図中の電子によって占有されるエネルギーレベルの分布を定量化し、現代の電子構造理論の中心である。 また、光学吸収や電気伝導率などの実験的に観測可能な材料特性の計算と解釈を支えている。 本稿では、密度汎関数理論から準粒子エネルギーレベルをトレーニングデータとして利用し、各原子の近傍の幾何学的構成に依存する局所的な寄与の組合せとしてDOSを予測する機械学習(ML)フレームワークの構築に固有の課題について論じる。 本研究は, バルク構造からクラスター, 半導体から金属の挙動に至るまで, 幅広い熱力学条件にまたがるシリコンの構成を含む, 挑戦的なケーススタディである。 dosを表現するための異なるアプローチと、フェルミレベル、フェルミレベルのdos、またはバンドエネルギーなどの量を予測する精度を比較し、dosの評価の副産物として直接的または副産物として比較する。 モデルの性能はDOSのスムース化に大きく依存しており、特定の構造に対するMLモデルにおけるスムース化に伴う系統的エラーとエラーとの間にはトレードオフがある。 提案手法は, 直接電子構造計算によりDOSの計算に不当なコストがかかる大きな非晶質シリコン試料の状態の密度を計算し, 本モデルにより得られたDOSの原子中心分解を, 構造的特徴と電子的特徴の関連性に関する物理的知見の抽出に利用することができることを示すものである。

The electronic density of states (DOS) quantifies the distribution of the energy levels that can be occupied by electrons in a quasiparticle picture, and is central to modern electronic structure theory. It also underpins the computation and interpretation of experimentally observable material properties such as optical absorption and electrical conductivity. We discuss the challenges inherent in the construction of a machine-learning (ML) framework aimed at predicting the DOS as a combination of local contributions that depend in turn on the geometric configuration of neighbours around each atom, using quasiparticle energy levels from density functional theory as training data. We present a challenging case study that includes configurations of silicon spanning a broad set of thermodynamic conditions, ranging from bulk structures to clusters, and from semiconducting to metallic behavior. We compare different approaches to represent the DOS, and the accuracy of predicting quantities such as the Fermi level, the DOS at the Fermi level, or the band energy, either directly or as a side-product of the evaluation of the DOS. The performance of the model depends crucially on the smoothening of the DOS, and there is a tradeoff to be made between the systematic error associated with the smoothening and the error in the ML model for a specific structure. We demonstrate the usefulness of this approach by computing the density of states of a large amorphous silicon sample, for which it would be prohibitively expensive to compute the DOS by direct electronic structure calculations, and show how the atom-centred decomposition of the DOS that is obtained through our model can be used to extract physical insights into the connections between structural and electronic features.
翻訳日:2022-11-18 12:33:13 公開日:2020-11-12
# SS-CAM:シャープな視覚特徴定位のための平滑なスコアCAM

SS-CAM: Smoothed Score-CAM for Sharper Visual Feature Localization ( http://arxiv.org/abs/2006.14255v3 )

ライセンス: Link先を確認
Haofan Wang, Rakshit Naidu, Joy Michael and Soumya Snigdha Kundu(参考訳) 深層畳み込みニューラルネットワークの基盤となるメカニズムの解釈は、高リスク環境における深層学習の分野における研究の重要な側面となっている。 これらのブラックボックスアーキテクチャを説明するために、内部決定を解析し理解するために多くの方法が適用されてきた。 本稿では,スコアカムの上部にss-camと呼ばれる視覚的なシャープネスの観点で視覚的な説明を付加し,スムースな操作により画像内の物体特徴の集中的局所化を実現する。 本手法をilsvrc 2012検証データセットで評価し, 信頼性と局所性の両方においてスコアカムを上回った。

Interpretation of the underlying mechanisms of Deep Convolutional Neural Networks has become an important aspect of research in the field of deep learning due to their applications in high-risk environments. To explain these black-box architectures there have been many methods applied so the internal decisions can be analyzed and understood. In this paper, built on the top of Score-CAM, we introduce an enhanced visual explanation in terms of visual sharpness called SS-CAM, which produces centralized localization of object features within an image through a smooth operation. We evaluate our method on the ILSVRC 2012 Validation dataset, which outperforms Score-CAM on both faithfulness and localization tasks.
翻訳日:2022-11-17 04:05:48 公開日:2020-11-12
# La-MAML: 継続的な学習のためのルックアヘッドメタラーニング

La-MAML: Look-ahead Meta Learning for Continual Learning ( http://arxiv.org/abs/2007.13904v2 )

ライセンス: Link先を確認
Gunshi Gupta, Karmesh Yadav and Liam Paull(参考訳) 連続学習問題は、未知数の逐次到着タスクのセットでうまく実行するために、限られた能力でトレーニングモデルを伴います。 メタラーニングは、古いタスクと新しいタスクの間の干渉を減らす大きな可能性を示しているが、現在のトレーニング手順は遅くもオフラインでもあり、多くのハイパーパラメータに敏感である。 本研究では,オンライン連続学習のための高速最適化に基づくメタ学習アルゴリズムであるLook-ahead MAML(La-MAML)を提案する。 メタラーニングアップデートで提案したパラメータごとの学習率の変調により、ハイパーグラディエントやメタディフレッシュに関する以前の作業と接続することが可能になる。 これにより、従来のプリエントベースの方法に比べて、破滅的な忘れを緩和するより柔軟で効率的な方法が提供されます。 La-MAMLは他のリプレイベース、事前ベース、メタラーニングベースアプローチよりも優れたパフォーマンスを実現し、実世界の視覚分類ベンチマークで連続学習を行う。 ソースコードはこちら。 https://github.com/montrealrobotics/la-maml

The continual learning problem involves training models with limited capacity to perform well on a set of an unknown number of sequentially arriving tasks. While meta-learning shows great potential for reducing interference between old and new tasks, the current training procedures tend to be either slow or offline, and sensitive to many hyper-parameters. In this work, we propose Look-ahead MAML (La-MAML), a fast optimisation-based meta-learning algorithm for online-continual learning, aided by a small episodic memory. Our proposed modulation of per-parameter learning rates in our meta-learning update allows us to draw connections to prior work on hypergradients and meta-descent. This provides a more flexible and efficient way to mitigate catastrophic forgetting compared to conventional prior-based methods. La-MAML achieves performance superior to other replay-based, prior-based and meta-learning based approaches for continual learning on real-world visual classification benchmarks. Source code can be found here: https://github.com/montrealrobotics/La-MAML
翻訳日:2022-11-06 07:52:23 公開日:2020-11-12
# 位置情報の喪失による自然景観の視覚的不快感の予測

Predicting the Blur Visual Discomfort for Natural Scenes by the Loss of Positional Information ( http://arxiv.org/abs/2008.01429v2 )

ライセンス: Link先を確認
Elio D. Di Claudio, Paolo Giannitrapani, Giovanni Jacovitti(参考訳) 空間周波数領域における画像スペクトルの異常な分布と異常に起因する視覚的不快感の一般的な原因は、調節不良、光学的補正不足、あるいは不完全な画像再生によるぼやけの認識である。 本稿では,この不快感は,観測されたパターンの局所化精度の低下に起因すると考えられる。 視覚系は、開始知覚原理として、自然環境におけるパターン局在に最適に適応していると仮定される。 したがって、画像パターンの局在化の最良の精度は位置フィッシャー情報によって示されるため、この曖昧な不快感は、この情報の損失と厳密に関連していると論じられる。 この概念に従い、自然シーンの共通特徴に合わせて調整された受容的場汎関数モデルが視覚不快を予測するために採用されている。 複素数値演算子であり、空間領域と空間周波数領域の両方において配向選択的である。 gaussian blurの場合から、位置フィッシャー情報等価性基準を適用することにより、解析を汎用型のぼかしに拡張する。 フォーカス外ボケと乱視ボケが重要な例である。 提案モデルの有効性は,その予測と主観評価を比較して検証する。 このモデルは、異なるプロトコルと設定に基づいて、独立したデータベースで報告された実験と線形に適合する。

The perception of the blur due to accommodation failures, insufficient optical correction or imperfect image reproduction is a common source of visual discomfort, usually attributed to an anomalous and annoying distribution of the image spectrum in the spatial frequency domain. In the present paper, this discomfort is attributed to a loss of the localization accuracy of the observed patterns. It is assumed, as a starting perceptual principle, that the visual system is optimally adapted to pattern localization in a natural environment. Thus, since the best possible accuracy of the image patterns localization is indicated by the positional Fisher Information, it is argued that the blur discomfort is strictly related to a loss of this information. Following this concept, a receptive field functional model, tuned to common features of natural scenes, is adopted to predict the visual discomfort. It is a complex-valued operator, orientation-selective both in the space domain and in the spatial frequency domain. Starting from the case of Gaussian blur, the analysis is extended to a generic type of blur by applying a positional Fisher Information equivalence criterion. Out-of-focus blur and astigmatic blur are presented as significant examples. The validity of the proposed model is verified by comparing its predictions with subjective ratings. The model fits linearly with the experiments reported in independent databases, based on different protocols and settings.
翻訳日:2022-11-03 00:59:17 公開日:2020-11-12
# 抗体ウォッチ:文学における抗体特異性のテキストマイニング

Antibody Watch: Text Mining Antibody Specificity from the Literature ( http://arxiv.org/abs/2008.01937v2 )

ライセンス: Link先を確認
Chun-Nan Hsu, Chia-Hui Chang, Thamolwan Poopradubsil, Amanda Lo, Karen A. William, Ko-Wei Lin, Anita Bandrowski, Ibrahim Burak Ozyurt, Jeffrey S. Grethe, and Maryann E. Martone(参考訳) 抗体は、タンパク質やその他の抗原の発現をテストするために広く用いられる試薬である。 しかし、プロバイダが設計したターゲットタンパク質に特異的に結合していない場合、必ずしも確実な結果が得られず、信頼性の低い研究結果につながる可能性がある。 抗体特異性の問題に対処するために多くの提案がなされているが、研究者が利用できる何百万もの抗体をカバーすることは依然として難しい。 本研究では,文献に報告されている抗体特異性に関するステートメントを抽出することにより,問題のある抗体のユーザに対して警告を自動生成する可能性を検討する。 抽出したアラートを使用して、問題のある抗体のステートメントを含む"Antibody Watch"知識ベースを構築することができる。 ディープニューラルネットワークシステムを開発し,抗体の使用を報告した2万記事以上のコーパスを用いてその性能を検証した。 私たちはその問題を2つのタスクに分けた。 入力された記事が与えられた場合、最初のタスクは抗体特異性に関するスニペットを特定し、スニペットが抗体が非特異性を示すと報告した場合の分類である。 第2のタスクは、それぞれのスニペットをスニペットで言及されている1つ以上の抗体にリンクすることである。 実験により, 本システムでは, 重み付きFスコアが0.925, 0.923, 結合タスクが0.914, 結合タスクが0.914, それぞれ正確に動作可能であることがわかった。 抽出した特異性スニペットに関連付けられた抗体の同定にRRID(Research Resource Identifiers)を利用した。 その結果,テキストマイニングにより,問題抗体に関する信頼できる知識基盤を構築することが可能となった。

Antibodies are widely used reagents to test for expression of proteins and other antigens. However, they might not always reliably produce results when they do not specifically bind to the target proteins that their providers designed them for, leading to unreliable research results. While many proposals have been developed to deal with the problem of antibody specificity, it is still challenging to cover the millions of antibodies that are available to researchers. In this study, we investigate the feasibility of automatically generating alerts to users of problematic antibodies by extracting statements about antibody specificity reported in the literature. The extracted alerts can be used to construct an "Antibody Watch" knowledge base containing supporting statements of problematic antibodies. We developed a deep neural network system and tested its performance with a corpus of more than two thousand articles that reported uses of antibodies. We divided the problem into two tasks. Given an input article, the first task is to identify snippets about antibody specificity and classify if the snippets report that any antibody exhibits non-specificity, and thus is problematic. The second task is to link each of these snippets to one or more antibodies mentioned in the snippet. The experimental evaluation shows that our system can accurately perform both classification and linking tasks with weighted F-scores over 0.925 and 0.923, respectively, and 0.914 overall when combined to complete the joint task. We leveraged Research Resource Identifiers (RRID) to precisely identify antibodies linked to the extracted specificity snippets. The result shows that it is feasible to construct a reliable knowledge base about problematic antibodies by text mining.
翻訳日:2022-11-02 18:30:35 公開日:2020-11-12
# 階層次元インフォームド・プログラム合成によるロボット行動選択学習

Robot Action Selection Learning via Layered Dimension Informed Program Synthesis ( http://arxiv.org/abs/2008.04133v2 )

ライセンス: Link先を確認
Jarrett Holtz, Arjun Guha, Joydeep Biswas(参考訳) 低レベルのロボットスキルを複雑な高レベルのタスクに構成するために使用されるアクション選択ポリシー(ASPs)は、技術の現状においてニューラルネットワーク(NNs)として一般的に表現される。 このようなパラダイムは非常に効果的だが、いくつかの重要な問題に悩まされている。 1) NNはユーザにとって不透明であるため、検証には適さない。 2) かなりの量の訓練データが必要であり、 3) ドメインが変更されると修復が困難になる。 我々はロボット工学のaspに関する2つの重要な洞察を提示する。 まず、ASPは世界の状態から引き出された物理的に意味のある量について考える必要があり、次に、これらのポリシーを構成するための階層構造が存在する。 これらの知見を生かして、状態変数の物理的次元と演算子の次元制約を推論することにより、LDIPSは、プログラムの修正が可能な、人間の解釈可能なドメイン固有言語でASPを直接合成する。 LDIPSの実証実験結果を示す。 1)ロボットサッカーと自律運転ドメインのための効果的なaspを合成できる。 2) 同等のNN表現よりも2桁少ないトレーニング例を必要とする。 3) シミュレーションから実際のロボットへ転送する際, 少数の補正で合成されたaspを修復することができる。

Action selection policies (ASPs), used to compose low-level robot skills into complex high-level tasks are commonly represented as neural networks (NNs) in the state of the art. Such a paradigm, while very effective, suffers from a few key problems: 1) NNs are opaque to the user and hence not amenable to verification, 2) they require significant amounts of training data, and 3) they are hard to repair when the domain changes. We present two key insights about ASPs for robotics. First, ASPs need to reason about physically meaningful quantities derived from the state of the world, and second, there exists a layered structure for composing these policies. Leveraging these insights, we introduce layered dimension-informed program synthesis (LDIPS) - by reasoning about the physical dimensions of state variables, and dimensional constraints on operators, LDIPS directly synthesizes ASPs in a human-interpretable domain-specific language that is amenable to program repair. We present empirical results to demonstrate that LDIPS 1) can synthesize effective ASPs for robot soccer and autonomous driving domains, 2) requires two orders of magnitude fewer training examples than a comparable NN representation, and 3) can repair the synthesized ASPs with only a small number of corrections when transferring from simulation to real robots.
翻訳日:2022-10-31 23:32:36 公開日:2020-11-12
# 文書構造アノテーションを用いたソフトウェアドキュメンテーションの並列評価データセット

A Parallel Evaluation Data Set of Software Documentation with Document Structure Annotation ( http://arxiv.org/abs/2008.04550v2 )

ライセンス: Link先を確認
Bianka Buschbeck and Miriam Exel(参考訳) 本稿では,SAPヘルプポータルを起源とする並列評価データセットである機械翻訳用ソフトウェア文書データセットを,研究目的で機械翻訳コミュニティにリリースした。 企業ソフトウェアドキュメンテーションの領域において、機械翻訳システムをチューニングし、評価する可能性を提供し、幅広い評価シナリオの可用性に貢献する。 データセットは英語とヒンディー語、インドネシア語、マレー語、タイ語のペアで構成されており、多くの低リソース言語ペアのテストカバレッジも向上している。 平易なパラレルテキストからなるほとんどの評価データセットとは異なり、このデータセットのセグメントには、ドキュメントコンテキストの構造情報を記述するメタデータが追加されている。 我々は、データの起源と生成、データセットの特異性と特性、および機械翻訳結果に関する洞察を提供する。

This paper accompanies the software documentation data set for machine translation, a parallel evaluation data set of data originating from the SAP Help Portal, that we released to the machine translation community for research purposes. It offers the possibility to tune and evaluate machine translation systems in the domain of corporate software documentation and contributes to the availability of a wider range of evaluation scenarios. The data set comprises of the language pairs English to Hindi, Indonesian, Malay and Thai, and thus also increases the test coverage for the many low-resource language pairs. Unlike most evaluation data sets that consist of plain parallel text, the segments in this data set come with additional metadata that describes structural information of the document context. We provide insights into the origin and creation, the particularities and characteristics of the data set as well as machine translation results.
翻訳日:2022-10-31 11:28:33 公開日:2020-11-12
# PLACE:3次元環境における構音・接触の近接学習

PLACE: Proximity Learning of Articulation and Contact in 3D Environments ( http://arxiv.org/abs/2008.05570v4 )

ライセンス: Link先を確認
Siwei Zhang, Yan Zhang, Qianli Ma, Michael J. Black, Siyu Tang(参考訳) 近年,高忠実度デジタル3d環境が提案されているが,現実の人体に自動装備することは極めて困難である。 既存の研究では、シーンを表現するのに画像、深度、セマンティックマップ、そして3dオブジェクトを表すためにパラメトリックな人間モデルを使用している。 単純である一方、生成する人間とシーンの相互作用は自然性や身体的妥当性に欠けることが多い。 我々の重要な観察は、人間が身体と接触することで世界と対話することである。 現実的な人間とシーンの相互作用を合成するには、身体と世界の物理的接触と近接を効果的に表現することが不可欠である。 そこで本研究では,人体と周囲の3Dシーンとの近接性を明示的にモデル化した,PLACE(Proximity Learning of Articulation and Contact in 3D Environments)という対話生成手法を提案する。 具体的には,シーンメッシュ上の基底点の集合を与えられた場合,条件付き変分オートエンコーダを用いて,基底点から人体表面までの最小距離を合成する。 生成された近位関係は、シーンのどの領域が人物と接触しているかを示す。 また、このような合成近接性に基づき、自然に3dシーンと相互作用する表現力のある3d人体を効果的に得ることができる。 我々の知覚学的研究は、PLACEが実際の人間とシーンの相互作用のリアリズムにアプローチし、最先端の手法を著しく改善することを示している。 3dシーンにおける現実の3d人体の完全自動合成に向けて,本手法が重要な一歩を踏み出すと信じている。 コードとモデルはhttps://sanweiliti.github.io/PLACE/PLACE.htmlで研究することができる。

High fidelity digital 3D environments have been proposed in recent years, however, it remains extremely challenging to automatically equip such environment with realistic human bodies. Existing work utilizes images, depth or semantic maps to represent the scene, and parametric human models to represent 3D bodies. While being straightforward, their generated human-scene interactions are often lack of naturalness and physical plausibility. Our key observation is that humans interact with the world through body-scene contact. To synthesize realistic human-scene interactions, it is essential to effectively represent the physical contact and proximity between the body and the world. To that end, we propose a novel interaction generation method, named PLACE (Proximity Learning of Articulation and Contact in 3D Environments), which explicitly models the proximity between the human body and the 3D scene around it. Specifically, given a set of basis points on a scene mesh, we leverage a conditional variational autoencoder to synthesize the minimum distances from the basis points to the human body surface. The generated proximal relationship exhibits which region of the scene is in contact with the person. Furthermore, based on such synthesized proximity, we are able to effectively obtain expressive 3D human bodies that interact with the 3D scene naturally. Our perceptual study shows that PLACE significantly improves the state-of-the-art method, approaching the realism of real human-scene interaction. We believe our method makes an important step towards the fully automatic synthesis of realistic 3D human bodies in 3D scenes. The code and model are available for research at https://sanweiliti.github.io/PLACE/PLACE.html.
翻訳日:2022-10-31 05:40:28 公開日:2020-11-12
# ラベルのないデータペアからLie Algebraを学ぶ

Learning a Lie Algebra from Unlabeled Data Pairs ( http://arxiv.org/abs/2009.09321v3 )

ライセンス: Link先を確認
Christopher Ick and Vincent Lostanlen(参考訳) 深層畳み込みネットワーク (convnets) は、非絡み合った表現を学習する顕著な能力を示している。 近年、$\mathbb{R}^n$ の剛運動を超えたリー群への深層学習の一般化により、球面上のパターンのような非自明な対称性を持つデータセット上の畳み込みが可能である。 しかし、このアプローチの1つの制限は、convnetを訓練する前に所望の不変性の基礎となるリー群を明示的に定義する必要があることである。 球面上の回転はよく知られた対称性群 ("\mathrm{SO}(3)$") を持つが、多くの実世界の変数因子について同じことは言えない。 例えば、ピッチ、インテンシティ・ダイナミクス、演奏技法の絡み合いは、音楽情報検索において依然として困難な課題である。 本稿では,n$次元ベクトルの集合 $(\boldsymbol{x}_i)_i$ を対象ベクトルの集合 $(\boldsymbol{y}_i)_i$ に写像する空間 $\mathbb{R}^n$ の非線形変換を発見する機械学習手法を提案する。 鍵となるアイデアは、すべてのターゲット $\boldsymbol{y}_i$ を $\boldsymbol{\widetilde{y}}_i = \boldsymbol{\phi}(t_i) \boldsymbol{x}_i$ という形の行列ベクトル積で近似することであり、ここで行列 $\boldsymbol{\phi}(t_i)$ は $\mathrm{GL}_n (\mathbb{R})$ の1パラメータ部分群に属する。 重要なことに、パラメータ $t_i \in \mathbb{R}$ の値は、データペア $(\boldsymbol{x}_i, \boldsymbol{y}_i)$ の間で変化し、事前に知る必要はない。

Deep convolutional networks (convnets) show a remarkable ability to learn disentangled representations. In recent years, the generalization of deep learning to Lie groups beyond rigid motion in $\mathbb{R}^n$ has allowed to build convnets over datasets with non-trivial symmetries, such as patterns over the surface of a sphere. However, one limitation of this approach is the need to explicitly define the Lie group underlying the desired invariance property before training the convnet. Whereas rotations on the sphere have a well-known symmetry group ($\mathrm{SO}(3)$), the same cannot be said of many real-world factors of variability. For example, the disentanglement of pitch, intensity dynamics, and playing technique remains a challenging task in music information retrieval. This article proposes a machine learning method to discover a nonlinear transformation of the space $\mathbb{R}^n$ which maps a collection of $n$-dimensional vectors $(\boldsymbol{x}_i)_i$ onto a collection of target vectors $(\boldsymbol{y}_i)_i$. The key idea is to approximate every target $\boldsymbol{y}_i$ by a matrix--vector product of the form $\boldsymbol{\widetilde{y}}_i = \boldsymbol{\phi}(t_i) \boldsymbol{x}_i$, where the matrix $\boldsymbol{\phi}(t_i)$ belongs to a one-parameter subgroup of $\mathrm{GL}_n (\mathbb{R})$. Crucially, the value of the parameter $t_i \in \mathbb{R}$ may change between data pairs $(\boldsymbol{x}_i, \boldsymbol{y}_i)$ and does not need to be known in advance.
翻訳日:2022-10-16 20:44:56 公開日:2020-11-12
# 資源限定勧告のための関心行動多元ネットワーク

Interest-Behaviour Multiplicative Network for Resource-limited Recommendation ( http://arxiv.org/abs/2009.13249v4 )

ライセンス: Link先を確認
Qianliang Wu and Tong Zhang and Zhen Cui and Jian Yang(参考訳) 資源の制約(商品在庫の制限や財政的な強さなど)は、一部のレコメンデーションタスクにおいて消費者の選択や嗜好に影響を与えるが、通常以前のレコメンデーションメソッドでは無視される。 本稿では,リソース制限リコメンデーションタスクにおけるユーザ嗜好の手がかりを抽出し,リソース制限特性を有する大規模中古車取引データセットを具体的に構築することを目的とする。 そこで本研究では,ユーザとアイテム間の動的接続に基づいて,ユーザの将来的なインタラクションを予測するネットワークを提案する。 ユーザ間接続を動的に記述するために、相互再帰的リカレントニューラルネットワーク(mrrnn)を導入し、対話的長期依存関係をキャプチャし、ユーザとアイテムの効果的な表現を得る。 リソース制限を考慮に入れ、リソース制限ブランチを構築し、リソース変動がユーザの好みに与える影響を具体的に調査する。 最後に、ユーザアクションと融合機能との類似度を測定し、将来的なインタラクションを予測するために相互情報を導入し、融合した機能はmrrnnとリソース制限されたブランチの両方からもたらされる。 我々は,組込み中古車間取引データセットとtmallデータセットの性能をテストし,このフレームワークの有効性を実験的に検証した。

Resource constraints, e.g. limited product inventory or financial strength, may affect consumers' choices or preferences in some recommendation tasks but are usually ignored in previous recommendation methods. In this paper, we aim to mine the cue of user preferences in resource-limited recommendation tasks, for which purpose we specifically build a large used car transaction dataset possessing resource-limitation characteristics. Accordingly, we propose an interest-behavior multiplicative network to predict the user's future interaction based on dynamic connections between users and items. To describe the user-item connection dynamically, mutually-recursive recurrent neural networks (MRRNNs) are introduced to capture interactive long-term dependencies, and meantime effective representations of users and items are obtained. To further take the resource limitation into consideration, a resource-limited branch is built to specifically explore the influence of resource variation on user preferences. Finally, mutual information is introduced to measure the similarity between the user action and fused features to predict future interaction, where the fused features come from both MRRNNs and resource-limited branches. We test the performance on the built used car transaction dataset as well as the Tmall dataset, and the experimental results verify the effectiveness of our framework.
翻訳日:2022-10-15 04:30:15 公開日:2020-11-12
# 潜在意味細胞によるゼロショット臨床頭字語拡大

Zero-Shot Clinical Acronym Expansion via Latent Meaning Cells ( http://arxiv.org/abs/2010.02010v2 )

ライセンス: Link先を確認
Griffin Adams, Mert Ketenci, Shreyas Bhave, Adler Perotte, No\'emie Elhadad(参考訳) 本稿では,単語の文脈的表現を局所的文脈とメタデータを組み合わせて学習する潜時変数モデルであるLatent Meaning Cellsを紹介する。 メタデータはセクションタイプのような粒度の細かいコンテキストや、ユニークなドキュメントIDのようなよりグローバルなコンテキストを参照することができる。 文脈的表現学習のためのメタデータの信頼性は、テキストが半構造化されトピックの高度変動を表現する臨床領域におけるアプロポである。 3つのデータセットにまたがるゼロショット臨床頭字語拡張作業におけるLCCモデルの評価を行った。 lmcは、プレトレーニングコストのごく一部で、さまざまなベースラインセットを著しく上回り、臨床的にコヒーレントな表現を学ぶ。 我々は、メタデータ自体がタスクに非常に役立つだけでなく、LCC推論アルゴリズムがさらなる大きな利点をもたらすことを実証した。

We introduce Latent Meaning Cells, a deep latent variable model which learns contextualized representations of words by combining local lexical context and metadata. Metadata can refer to granular context, such as section type, or to more global context, such as unique document ids. Reliance on metadata for contextualized representation learning is apropos in the clinical domain where text is semi-structured and expresses high variation in topics. We evaluate the LMC model on the task of zero-shot clinical acronym expansion across three datasets. The LMC significantly outperforms a diverse set of baselines at a fraction of the pre-training cost and learns clinically coherent representations. We demonstrate that not only is metadata itself very helpful for the task, but that the LMC inference algorithm provides an additional large benefit.
翻訳日:2022-10-13 05:16:33 公開日:2020-11-12
# LiRaNet:時空間レーダ融合による終端軌道予測

LiRaNet: End-to-End Trajectory Prediction using Spatio-Temporal Radar Fusion ( http://arxiv.org/abs/2010.00731v3 )

ライセンス: Link先を確認
Meet Shah, Zhiling Huang, Ankit Laddha, Matthew Langford, Blake Barber, Sidney Zhang, Carlos Vallespi-Gonzalez, Raquel Urtasun(参考訳) 本稿では,レーダセンサ情報と広範に使用されているライダーと高定義(HD)マップを併用した,新しい終端軌道予測手法LiRaNetを提案する。 自動車レーダーはリッチで補完的な情報を提供し、より長い距離の車両検出と即時ラジアル速度測定を可能にする。 しかし、lidarとレーダー情報の融合を困難にする要因として、レーダー測定の角度分解能が比較的低いこと、そのスパーシティ、lidarとの正確な時間同期の欠如がある。 これらの課題を克服するために,複数の大規模データセット上での最先端性能を実現する効率的な時空間レーダ特徴抽出手法を提案するが,レーダ情報を組み込むことで,高い加速度を持つオブジェクトの予測誤差が52%減少し,より長い範囲でオブジェクトの予測誤差が16%減少することを示す。

In this paper, we present LiRaNet, a novel end-to-end trajectory prediction method which utilizes radar sensor information along with widely used lidar and high definition (HD) maps. Automotive radar provides rich, complementary information, allowing for longer range vehicle detection as well as instantaneous radial velocity measurements. However, there are factors that make the fusion of lidar and radar information challenging, such as the relatively low angular resolution of radar measurements, their sparsity and the lack of exact time synchronization with lidar. To overcome these challenges, we propose an efficient spatio-temporal radar feature extraction scheme which achieves state-of-the-art performance on multiple large-scale datasets.Further, by incorporating radar information, we show a 52% reduction in prediction error for objects with high acceleration and a 16% reduction in prediction error for objects at longer range.
翻訳日:2022-10-12 02:19:34 公開日:2020-11-12
# 最大独立集合の最適低次硬さ

Optimal Low-Degree Hardness of Maximum Independent Set ( http://arxiv.org/abs/2010.06563v2 )

ライセンス: Link先を確認
Alexander S. Wein(参考訳) sparse erd\h{o}s-r\'{e}nyi ランダムグラフにおいて,n$ 頂点と平均次数 $d$ を持つ大きな独立集合を探索するアルゴリズム的タスクについて検討した。 最大独立集合は、2倍の極限で$(2 \log d / d)n$、次で$d \to \infty$を持つことが知られているが、最もよく知られている多項式時間アルゴリズムは、半最適サイズ$(\log d / d)n$の独立集合を見つけることができる。 低次多項式アルゴリズムのクラスは、半最適サイズの独立した集合を見つけることができるが、ガマルニク、ジャガンナス、および著者によって改善されることが示される。 これによりrahmanとvir\'agによる初期の研究が一般化され、局所アルゴリズムの弱いクラスに対する類似の結果が証明された。

We study the algorithmic task of finding a large independent set in a sparse Erd\H{o}s-R\'{e}nyi random graph with $n$ vertices and average degree $d$. The maximum independent set is known to have size $(2 \log d / d)n$ in the double limit $n \to \infty$ followed by $d \to \infty$, but the best known polynomial-time algorithms can only find an independent set of half-optimal size $(\log d / d)n$. We show that the class of low-degree polynomial algorithms can find independent sets of half-optimal size but no larger, improving upon a result of Gamarnik, Jagannath, and the author. This generalizes earlier work by Rahman and Vir\'ag, which proved the analogous result for the weaker class of local algorithms.
翻訳日:2022-10-08 00:40:33 公開日:2020-11-12
# 確率変換器

Probabilistic Transformers ( http://arxiv.org/abs/2010.15583v3 )

ライセンス: Link先を確認
Javier R. Movellan, Prasad Gabbur(参考訳) 変換器はガウスモデルの混合に対する最大後確率推定器であることを示す。 これはTransformerに確率的視点をもたらし、他の確率的ケースの拡張を提案する。

We show that Transformers are Maximum Posterior Probability estimators for Mixtures of Gaussian Models. This brings a probabilistic point of view to Transformers and suggests extensions to other probabilistic cases.
翻訳日:2022-10-07 03:25:12 公開日:2020-11-12
# 言語学的インフォームド変換(LIT):コントラスト集合の自動生成法

Linguistically-Informed Transformations (LIT): A Method for Automatically Generating Contrast Sets ( http://arxiv.org/abs/2010.08580v3 )

ライセンス: Link先を確認
Chuanrong Li, Lin Shengshuo, Leo Z. Liu, Xinyi Wu, Xuhui Zhou, Shane Steinert-Threlkeld(参考訳) BERTやRoBERTaのような大規模事前訓練された言語モデルは、非分配テストセットで超人的性能を達成したが、その性能は非分配テストセット(例えばコントラストセット)で損なわれる。 コントラストセットの構築は、しばしば、高価で大規模な作成が困難であるヒューマンエキスパートアノテーションを再要求する。 本研究では,言語的不定形変換 (lit) によるコントラスト集合の自動生成法を提案する。 SNLI と MNLI を用いた実験により,既存の事前学習言語モデルには十分な言語知識が含まれているが,自動生成されたコントラストセットに苦慮していることが示された。 さらに,本データの性能に影響を与えることなく,学習データの強化に応用することで,コントラストセットにおけるモデルの性能を向上させる。

Although large-scale pretrained language models, such as BERT and RoBERTa, have achieved superhuman performance on in-distribution test sets, their performance suffers on out-of-distribution test sets (e.g., on contrast sets). Building contrast sets often re-quires human-expert annotation, which is expensive and hard to create on a large scale. In this work, we propose a Linguistically-Informed Transformation (LIT) method to automatically generate contrast sets, which enables practitioners to explore linguistic phenomena of interests as well as compose different phenomena. Experimenting with our method on SNLI and MNLI shows that current pretrained language models, although being claimed to contain sufficient linguistic knowledge, struggle on our automatically generated contrast sets. Furthermore, we improve models' performance on the contrast sets by apply-ing LIT to augment the training data, without affecting performance on the original data.
翻訳日:2022-10-06 21:04:45 公開日:2020-11-12
# マルチビュークラスタリングのためのテンソルベース固有部分空間表現学習

Tensor-based Intrinsic Subspace Representation Learning for Multi-view Clustering ( http://arxiv.org/abs/2010.09193v6 )

ライセンス: Link先を確認
Qinghai Zheng, Jihua Zhu, Zhongyu Li, Haoyu Tang, Shuangxun Ma(参考訳) 熱い研究トピックとして、過去数年間に多くのマルチビュークラスタリングアプローチが提案されている。 しかし,既存のアルゴリズムの多くは,クラスタリングを考慮したコンセンサス情報のみを考慮に入れている。 実際のアプリケーションでは、様々なビューが様々な統計特性を含むため、マルチビュークラスタリングのパフォーマンスを阻害する可能性がある。 本稿では,マルチビュークラスタリングのためのテンソル型固有部分空間表現学習(TISRL)を提案する。 具体的には、まず、異なる視点に含まれる多様な統計情報を効果的に扱うために、階数保存分解を提案する。 また,本手法では,固有部分空間表現を実現するために,テンソル-特異値分解に基づく低ランクテンソル制約を用いる。 異なるビューに含まれる特定の情報はランク保存分解によって完全に調べられ、マルチビューデータの高次相関も低ランクテンソル制約によって掘り起こされる。 目的関数は、拡張ラグランジアン乗算器に基づく交互方向最小化アルゴリズムによって最適化できる。 9つの一般的な実世界のマルチビューデータセットの実験結果は、TISRLの優位性を示している。

As a hot research topic, many multi-view clustering approaches are proposed over the past few years. Nevertheless, most existing algorithms merely take the consensus information among different views into consideration for clustering. Actually, it may hinder the multi-view clustering performance in real-life applications, since different views usually contain diverse statistic properties. To address this problem, we propose a novel Tensor-based Intrinsic Subspace Representation Learning (TISRL) for multi-view clustering in this paper. Concretely, the rank preserving decomposition is proposed firstly to effectively deal with the diverse statistic information contained in different views. Then, to achieve the intrinsic subspace representation, the tensor-singular value decomposition based low-rank tensor constraint is also utilized in our method. It can be seen that specific information contained in different views is fully investigated by the rank preserving decomposition, and the high-order correlations of multi-view data are also mined by the low-rank tensor constraint. The objective function can be optimized by an augmented Lagrangian multiplier based alternating direction minimization algorithm. Experimental results on nine common used real-world multi-view datasets illustrate the superiority of TISRL.
翻訳日:2022-10-05 22:23:51 公開日:2020-11-12
# 原始表現としてのニューラルスタードメイン

Neural Star Domain as Primitive Representation ( http://arxiv.org/abs/2010.11248v2 )

ライセンス: Link先を確認
Yuki Kawana, Yusuke Mukuta, Tatsuya Harada(参考訳) 3dオブジェクトを2dイメージから再構築することは、コンピュータビジョンの基本的なタスクである。 パーシモニアスおよびセマンティックプリミティブ表現による正確な構造化再構成は、その応用をさらに拡大する。 複数のプリミティブを持つ対象形状を再構築する場合、集合体積や表面といった形状の基本特性の結合に即座にアクセスすることができ、プリミティブを単一の形状のように扱うことが望ましい。 これは、暗黙的および明示的な表現を統一した原始表現によって可能となる。 しかし、現在のアプローチにおける原始表現は、上記の全ての要求を同時に満たさない。 この問題を解決するために,ニューラルスター領域(NSD)と呼ばれる新しい原始的表現を提案し,恒星領域の原始的形状を学習する。 NSDは、恒星領域の普遍近似であり、擬似的かつ意味的なだけでなく、暗黙的かつ明示的な形状表現でもあることを示す。 提案手法は,高分解能メッシュサンプリングにおける画像再構成タスク,セマンティック機能,速度と品質において,既存の手法よりも優れていることを示す。

Reconstructing 3D objects from 2D images is a fundamental task in computer vision. Accurate structured reconstruction by parsimonious and semantic primitive representation further broadens its application. When reconstructing a target shape with multiple primitives, it is preferable that one can instantly access the union of basic properties of the shape such as collective volume and surface, treating the primitives as if they are one single shape. This becomes possible by primitive representation with unified implicit and explicit representations. However, primitive representations in current approaches do not satisfy all of the above requirements at the same time. To solve this problem, we propose a novel primitive representation named neural star domain (NSD) that learns primitive shapes in the star domain. We show that NSD is a universal approximator of the star domain and is not only parsimonious and semantic but also an implicit and explicit shape representation. We demonstrate that our approach outperforms existing methods in image reconstruction tasks, semantic capabilities, and speed and quality of sampling high-resolution meshes.
翻訳日:2022-10-05 00:25:32 公開日:2020-11-12
# monocomb: モノクロシーンフローのための疎結合アプローチ

MonoComb: A Sparse-to-Dense Combination Approach for Monocular Scene Flow ( http://arxiv.org/abs/2010.10842v2 )

ライセンス: Link先を確認
Ren\'e Schuster, Christian Unger, Didier Stricker(参考訳) より多種多様なセンサーの使用に向けた自動車応用のトレンドとは対照的に、この研究は単眼カメラで複雑なシーンフローの問題を解決することを目的としている。 この目的に向けて, 単一画像深度推定, 光流, スパース・ツー・ディエンス補間における最新の成果を活用し, 濃密なシーンフローを計算するためのモノクロ結合法(MonoComb)を提案する。 MonoCombは光学フローを使用して、時間とともに再構成された3D位置を関連付け、閉鎖された領域を補間する。 このように、既存の単分子法は動的前景領域では性能が優れており、KITTI 2015のシーンフローベンチマークにおいて競合相手の間で2番目に良い結果となっている。

Contrary to the ongoing trend in automotive applications towards usage of more diverse and more sensors, this work tries to solve the complex scene flow problem under a monocular camera setup, i.e. using a single sensor. Towards this end, we exploit the latest achievements in single image depth estimation, optical flow, and sparse-to-dense interpolation and propose a monocular combination approach (MonoComb) to compute dense scene flow. MonoComb uses optical flow to relate reconstructed 3D positions over time and interpolates occluded areas. This way, existing monocular methods are outperformed in dynamic foreground regions which leads to the second best result among the competitors on the challenging KITTI 2015 scene flow benchmark.
翻訳日:2022-10-05 00:16:21 公開日:2020-11-12
# 遠隔操作型肺超音波検査装置によるcovid-19患者のトリアージ

Tele-operative Robotic Lung Ultrasound Scanning Platform for Triage of COVID-19 Patients ( http://arxiv.org/abs/2010.12335v3 )

ライセンス: Link先を確認
Ryosuke Tsumura, John W. Hardin, Keshav Bimbraw, Olushola S. Odusanya, Yihao Zheng, Jeffrey C. Hill, Beatrice Hoffmann, Winston Soboyejo, Haichong K. Zhang(参考訳) 重症急性呼吸器症候群2型(SARS-CoV-2)がパンデミックとなり、世界的な医療システム構築への世界的な対応が最も重要である。 資源に制限のある環境での費用効果に加えて、肺超音波(lus)は、新型コロナウイルス感染の診断のための迅速な非侵襲的イメージングツールとして登場した。 LUSを取り巻く懸念は、感染した患者や医療提供者の格差、比較的少数の医師やソノグラフィーがLSSを実行できること、そして最も重要なことは、患者とオペレーターの間の実質的な物理的接触の必要性が伝達のリスクを高めることである。 ウイルスの拡散の緩和は最重要事項である。 2次元(2次元)遠隔操作型ロボットプラットフォームは、新型コロナウイルス感染症患者のためにLUSを実行することができる。 著者らは、新型コロナウイルス19人感染患者に対するLUSの使用に関する上記の問題に対処する。 さらに, 3名の健常者を対象に, 2次元画像の最適化と総合的精度の比較を行い, 初回適用, 実現可能性, 安全性を検証した。 予備的な結果は、提案プラットフォームがヒトにおけるLUSの獲得と適用を成功させることを示す。

Novel severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) has become a pandemic of epic proportions and a global response to prepare health systems worldwide is of utmost importance. In addition to its cost-effectiveness in a resources-limited setting, lung ultrasound (LUS) has emerged as a rapid noninvasive imaging tool for the diagnosis of COVID-19 infected patients. Concerns surrounding LUS include the disparity of infected patients and healthcare providers, relatively small number of physicians and sonographers capable of performing LUS, and most importantly, the requirement for substantial physical contact between the patient and operator, increasing the risk of transmission. Mitigation of the spread of the virus is of paramount importance. A 2-dimensional (2D) tele-operative robotic platform capable of performing LUS in for COVID-19 infected patients may be of significant benefit. The authors address the aforementioned issues surrounding the use of LUS in the application of COVID- 19 infected patients. In addition, first time application, feasibility and safety were validated in three healthy subjects, along with 2D image optimization and comparison for overall accuracy. Preliminary results demonstrate that the proposed platform allows for successful acquisition and application of LUS in humans.
翻訳日:2022-10-04 00:22:20 公開日:2020-11-12
# 計算複雑性のレンズによるモデル解釈可能性

Model Interpretability through the Lens of Computational Complexity ( http://arxiv.org/abs/2010.12265v2 )

ライセンス: Link先を確認
Pablo Barcel\'o, Mika\"el Monet, Jorge P\'erez, Bernardo Subercaseaux(参考訳) いくつかのモデルが他のモデルよりも解釈可能であるという主張(例えば、"線形モデルはディープニューラルネットワークよりも解釈可能である")にもかかわらず、我々は、異なるモデルのクラス間で形式的に比較するための解釈可能性の原則的な概念を欠いている。 我々は, 民俗学的解釈可能性クレームが計算複雑性理論の観点で相関関係を持つかどうかを検討することにより, このような概念への一歩を踏み出した。 個々の入力が特定の方法で特定の方法で分類されている理由を直感的に答えようとする,ローカルなポストホックな説明可能性クエリに注目した。 一言で言えば、モデルの$\mathcal{c}_1$のクラスは、$\mathcal{c}_2$のモデルに対するポストホックなクエリに答える計算の複雑さが$\mathcal{c}_2$のクラスよりも高い場合、別のクラス$\mathcal{c}_2$よりも解釈可能であると言う。 我々は、この概念がモデルの解釈可能性に関する現在の信念と良い理論的に一致することを証明し、特に、我々の定義の下では、線形モデルとツリーベースモデルの両方がニューラルネットワークよりも厳密に解釈可能であることを示す。 しかし, 複雑度解析では, 特定のポストホックな説明によって異なる結果が得られるため, 線形モデルとツリーモデルの違いは明らかではない。 最後に、パラメータ化複雑性に基づくより微細な複雑性解析を適用することで、浅いニューラルネットワークが深いものよりも解釈可能であることを示す理論的結果が証明できる。

In spite of several claims stating that some models are more interpretable than others -- e.g., "linear models are more interpretable than deep neural networks" -- we still lack a principled notion of interpretability to formally compare among different classes of models. We make a step towards such a notion by studying whether folklore interpretability claims have a correlate in terms of computational complexity theory. We focus on local post-hoc explainability queries that, intuitively, attempt to answer why individual inputs are classified in a certain way by a given model. In a nutshell, we say that a class $\mathcal{C}_1$ of models is more interpretable than another class $\mathcal{C}_2$, if the computational complexity of answering post-hoc queries for models in $\mathcal{C}_2$ is higher than for those in $\mathcal{C}_1$. We prove that this notion provides a good theoretical counterpart to current beliefs on the interpretability of models; in particular, we show that under our definition and assuming standard complexity-theoretical assumptions (such as P$\neq$NP), both linear and tree-based models are strictly more interpretable than neural networks. Our complexity analysis, however, does not provide a clear-cut difference between linear and tree-based models, as we obtain different results depending on the particular post-hoc explanations considered. Finally, by applying a finer complexity analysis based on parameterized complexity, we are able to prove a theoretical result suggesting that shallow neural networks are more interpretable than deeper ones.
翻訳日:2022-10-03 22:07:38 公開日:2020-11-12
# 確率木における因果推論アルゴリズム

Algorithms for Causal Reasoning in Probability Trees ( http://arxiv.org/abs/2010.12237v2 )

ライセンス: Link先を確認
Tim Genewein, Tom McGrath, Gr\'egoire D\'eletang, Vladimir Mikulik, Miljan Martic, Shane Legg, Pedro A. Ortega(参考訳) 確率木は因果生成プロセスの最も単純なモデルの一つである。 明確な意味論を持ち、因果ベイズネットワークとは異なり、因果帰納に必要な文脈固有の因果依存を表現することができる。 しかし、彼らはAIとMLコミュニティからほとんど注目を集めていない。 ここでは,因果階層全体(連想,介入,反事実)をカバーする離散確率木における因果推論の具体的アルゴリズムを示し,任意の命題と因果イベントを扱う。 我々の研究は因果推論の領域を、離散確率過程の非常に一般的なクラスへと拡張する。

Probability trees are one of the simplest models of causal generative processes. They possess clean semantics and -- unlike causal Bayesian networks -- they can represent context-specific causal dependencies, which are necessary for e.g. causal induction. Yet, they have received little attention from the AI and ML community. Here we present concrete algorithms for causal reasoning in discrete probability trees that cover the entire causal hierarchy (association, intervention, and counterfactuals), and operate on arbitrary propositional and causal events. Our work expands the domain of causal reasoning to a very general class of discrete stochastic processes.
翻訳日:2022-10-03 21:40:09 公開日:2020-11-12
# 双方向長期記憶ニューラルネットワークによる悪意のある要求検出

Malicious Requests Detection with Improved Bidirectional Long Short-term Memory Neural Networks ( http://arxiv.org/abs/2010.13285v4 )

ライセンス: Link先を確認
Wenhao Li, Bincheng Zhang, Jiajie Zhang(参考訳) 悪意のあるリクエストの検出と傍受は、ネットワークセキュリティにおける攻撃に対して最も広く使われている方法の1つである。 ブラックリスト文字と機械学習アルゴリズムのマッチングを含む、既存のほとんどの検出アプローチは、いずれも高度な攻撃に対して脆弱であることが示されている。 この問題に対処するためには,より汎用的で厳密な検出方法が必要である。 本稿では,悪質な要求を検出する問題を時間系列分類問題として定式化し,畳み込みニューラルネットワーク-双方向長期記憶畳み込みニューラルネットワーク(cnn-bilstm-cnn)と呼ばれる新しいディープラーニングモデルを提案する。 畳み込み層の影と深い特徴マップを接続することにより、より詳細な機能で悪意のある特徴抽出能力が改善される。 http データセット csic 2010 の実験結果は,最新技術との比較において提案手法の有効性を実証した。

Detecting and intercepting malicious requests are one of the most widely used ways against attacks in the network security. Most existing detecting approaches, including matching blacklist characters and machine learning algorithms have all shown to be vulnerable to sophisticated attacks. To address the above issues, a more general and rigorous detection method is required. In this paper, we formulate the problem of detecting malicious requests as a temporal sequence classification problem, and propose a novel deep learning model namely Convolutional Neural Network-Bidirectional Long Short-term Memory-Convolutional Neural Network (CNN-BiLSTM-CNN). By connecting the shadow and deep feature maps of the convolutional layers, the malicious feature extracting ability is improved on more detailed functionality. Experimental results on HTTP dataset CSIC 2010 have demonstrated the effectiveness of the proposed method when compared with the state-of-the-arts.
翻訳日:2022-10-02 20:08:45 公開日:2020-11-12
# 視覚ナビゲーションのための教師なしドメイン適応

Unsupervised Domain Adaptation for Visual Navigation ( http://arxiv.org/abs/2010.14543v2 )

ライセンス: Link先を確認
Shangda Li, Devendra Singh Chaplot, Yao-Hung Hubert Tsai, Yue Wu, Louis-Philippe Morency, Ruslan Salakhutdinov(参考訳) ビジュアルナビゲーション手法の進歩により、インボディードナビゲーションエージェントは生のRGB画像から意味のある表現を学習し、構造的および意味論的推論を含む幅広いタスクを実行することができるようになった。 しかし、ほとんどの学習に基づくナビゲーションポリシーは、シミュレーション環境で訓練され、テストされる。 これらの方針が実際に有用になるためには、現実の世界に移される必要がある。 本稿では,視覚ナビゲーションのための教師なし領域適応手法を提案する。 本手法は,ナビゲーションポリシーによって学習された表現と一致するように,対象領域内の画像をソース領域に翻訳する。 提案手法は2つの異なるナビゲーションタスクにまたがる複数のベースラインをシミュレーションで上回っている。 さらに本手法は,シミュレーションで学んだナビゲーションポリシーを実世界へ転送するためにも有効であることを示す。

Advances in visual navigation methods have led to intelligent embodied navigation agents capable of learning meaningful representations from raw RGB images and perform a wide variety of tasks involving structural and semantic reasoning. However, most learning-based navigation policies are trained and tested in simulation environments. In order for these policies to be practically useful, they need to be transferred to the real-world. In this paper, we propose an unsupervised domain adaptation method for visual navigation. Our method translates the images in the target domain to the source domain such that the translation is consistent with the representations learned by the navigation policy. The proposed method outperforms several baselines across two different navigation tasks in simulation. We further show that our method can be used to transfer the navigation policies learned in simulation to the real world.
翻訳日:2022-10-02 11:48:54 公開日:2020-11-12
# gloflow:ビデオから病理診断のための全スライド画像作成のためのグローバル画像アライメント

GloFlow: Global Image Alignment for Creation of Whole Slide Images for Pathology from Video ( http://arxiv.org/abs/2010.15269v2 )

ライセンス: Link先を確認
Viswesh Krishna, Anirudh Joshi, Philip L. Bulterys, Eric Yang, Andrew Y. Ng, Pranav Rajpurkar(参考訳) 病理学への深層学習の適用は、病理学スライドのデジタル全スライド画像の存在を前提としている。 しかし,スライドのデジタル化は,スライドスライスに使用する位置情報に必要なスライススキャナにおいて,高精度なモータステージのコストによってボトルネックとなる。 そこで本研究では,グローバルアライメントを用いた光学フローベース画像登録を用いた2段階のスライド画像作成法であるgloflowを提案する。 第1段階では、連続するビデオフレーム間のペアワイズ変換を予測し、縫合を近似する光フロー予測器を訓練する。 第2段階では、この近似縫合を用いて近傍グラフを作成し、修正縫合を生成する。 wsisのビデオスキャンをシミュレートしたデータセットでは,本手法がスライドストッチングの既知のアプローチよりも優れており,スライディングスキャナによって生成されたものと類似したwsisを縫い合わせることができる。

The application of deep learning to pathology assumes the existence of digital whole slide images of pathology slides. However, slide digitization is bottlenecked by the high cost of precise motor stages in slide scanners that are needed for position information used for slide stitching. We propose GloFlow, a two-stage method for creating a whole slide image using optical flow-based image registration with global alignment using a computationally tractable graph-pruning approach. In the first stage, we train an optical flow predictor to predict pairwise translations between successive video frames to approximate a stitch. In the second stage, this approximate stitch is used to create a neighborhood graph to produce a corrected stitch. On a simulated dataset of video scans of WSIs, we find that our method outperforms known approaches to slide-stitching, and stitches WSIs resembling those produced by slide scanners.
翻訳日:2022-10-02 05:11:53 公開日:2020-11-12
# DisenE: 知識グラフの埋め込みを遠ざける

DisenE: Disentangling Knowledge Graph Embeddings ( http://arxiv.org/abs/2010.14730v2 )

ライセンス: Link先を確認
Xiaoyu Kou, Yankai Lin, Yuntao Li, Jiahao Xu, Peng Li, Jie Zhou, Yan Zhang(参考訳) 低次元ベクトルに実体と関係を埋め込むことを目的とした知識グラフ埋め込み(KGE)が近年注目を集めている。 しかし、既存の研究は主にブラックボックスニューラルモデルに基づいているため、学習された表現を解釈することが困難である。 本稿では,エンド・ツー・エンドの知識グラフ埋め込み学習フレームワークであるdiseneを紹介する。 特に、モデルが与えられた関係に従ってエンティティ埋め込みの関連コンポーネントに明示的に焦点を合わせられるように注意に基づくメカニズムを導入する。 さらに、2つの新しい正規化器を導入し、エンティティ表現の各コンポーネントが独立した意味的側面を独立に反映するように促す。 実験の結果,提案したDisenEは,KGEの解釈可能性に対処する視点を考察し,リンク予測タスクの性能向上に有効な方法であることが確認された。

Knowledge graph embedding (KGE), aiming to embed entities and relations into low-dimensional vectors, has attracted wide attention recently. However, the existing research is mainly based on the black-box neural models, which makes it difficult to interpret the learned representation. In this paper, we introduce DisenE, an end-to-end framework to learn disentangled knowledge graph embeddings. Specially, we introduce an attention-based mechanism that enables the model to explicitly focus on relevant components of entity embeddings according to a given relation. Furthermore, we introduce two novel regularizers to encourage each component of the entity representation to independently reflect an isolated semantic aspect. Experimental results demonstrate that our proposed DisenE investigates a perspective to address the interpretability of KGE and is proved to be an effective way to improve the performance of link prediction tasks.
翻訳日:2022-10-02 04:36:54 公開日:2020-11-12
# 人工知能とニューロモルフィックコンピューティングのためのフォトニクス

Photonics for artificial intelligence and neuromorphic computing ( http://arxiv.org/abs/2011.00111v2 )

ライセンス: Link先を確認
Bhavin J. Shastri, Alexander N. Tait, Thomas Ferreira de Lima, Wolfram H. P. Pernice, Harish Bhaskaran, C. David Wright, Paul R. Prucnal(参考訳) フォトニックコンピューティングの研究は、フォトニック統合プラットフォーム上での光電子部品の増殖によって盛んになった。 フォトニック集積回路は超高速ニューラルネットワークを可能にし、新しい種類の情報処理マシンのフレームワークを提供する。 このようなハードウェア上で動作するアルゴリズムは、医療診断、電気通信、高性能で科学的なコンピューティングといった分野において、機械学習と人工知能の需要の増加に対応する可能性がある。 並行して、ニューロモルフィックエレクトロニクスの開発は、特にプロセッサ遅延に関連する領域における課題を強調している。 ニューロモルフィックフォトニクスはナノ秒以下のレイテンシを提供し、人工知能の領域を拡張する補完的な機会を提供する。 本稿では, 統合型ニューロモルフィックシステムにおける最近の進歩を概観し, 現状と今後の課題を議論し, それらの課題を満たすために必要な科学技術の進歩を概説する。

Research in photonic computing has flourished due to the proliferation of optoelectronic components on photonic integration platforms. Photonic integrated circuits have enabled ultrafast artificial neural networks, providing a framework for a new class of information processing machines. Algorithms running on such hardware have the potential to address the growing demand for machine learning and artificial intelligence, in areas such as medical diagnosis, telecommunications, and high-performance and scientific computing. In parallel, the development of neuromorphic electronics has highlighted challenges in that domain, in particular, related to processor latency. Neuromorphic photonics offers sub-nanosecond latencies, providing a complementary opportunity to extend the domain of artificial intelligence. Here, we review recent advances in integrated photonic neuromorphic systems, discuss current and future challenges, and outline the advances in science and technology needed to meet those challenges.
翻訳日:2022-10-01 16:54:01 公開日:2020-11-12
# コントラスト学習と相互情報最大化を用いたクロスドメイン感情分類

Cross-Domain Sentiment Classification with Contrastive Learning and Mutual Information Maximization ( http://arxiv.org/abs/2010.16088v2 )

ライセンス: Link先を確認
Tian Li, Xiang Chen, Shanghang Zhang, Zhen Dong, Kurt Keutzer(参考訳) コントラスト学習(CL)は強力な表現学習手法として成功している。 本稿では,クロスドメイン感情分類におけるclの可能性を探るために,相互情報最大化によるコントラスト学習を提案する。 私たちの知る限りでは、CLIMはドメイン間の自然言語処理(NLP)タスクに対して、初めて対照的な学習を採用する。 対象領域にラベルが不足しているため、最終予測を最も支援する特徴を活用するために、CLとは別に相互情報最大化(MIM)を導入する。 さらに、mimはモデルの予測の相対的にバランスのとれた分布を維持し、対象ドメインのクラス間のマージンを拡大することができる。 より大きなマージンはモデルの堅牢性を高め、同じ分類器をドメイン間で最適なものにします。 その結果、Amazon-Reviewデータセットと航空会社のデータセットで最新の結果が得られ、提案手法であるCLIMの有効性が示された。

Contrastive learning (CL) has been successful as a powerful representation learning method. In this work we propose CLIM: Contrastive Learning with mutual Information Maximization, to explore the potential of CL on cross-domain sentiment classification. To the best of our knowledge, CLIM is the first to adopt contrastive learning for natural language processing (NLP) tasks across domains. Due to scarcity of labels on the target domain, we introduce mutual information maximization (MIM) apart from CL to exploit the features that best support the final prediction. Furthermore, MIM is able to maintain a relatively balanced distribution of the model's prediction, and enlarges the margin between classes on the target domain. The larger margin increases our model's robustness and enables the same classifier to be optimal across domains. Consequently, we achieve new state-of-the-art results on the Amazon-review dataset as well as the airlines dataset, showing the efficacy of our proposed method CLIM.
翻訳日:2022-10-01 15:59:46 公開日:2020-11-12
# 推論ステップの総合評価のためのマルチホップQAデータセットの構築

Constructing A Multi-hop QA Dataset for Comprehensive Evaluation of Reasoning Steps ( http://arxiv.org/abs/2011.01060v2 )

ライセンス: Link先を確認
Xanh Ho, Anh-Khoa Duong Nguyen, Saku Sugawara and Akiko Aizawa(参考訳) マルチホップ質問応答(Multi-hop question answering, QA)データセットは、モデルが与えられた疑問に答えるために複数の段落を読むことを要求することにより、推論と推論のスキルをテストすることを目的としている。 しかし、現在のデータセットは、質問から回答まで、推論プロセスの完全な説明を提供していない。 さらに、既存のマルチホップデータセットの多くの例は、質問に答えるためにマルチホップ推論を必要としないことが明らかとなった。 本研究では,構造化および非構造化データを用いた2WikiMultiHopQAと呼ばれるマルチホップQAデータセットを提案する。 本データセットでは,マルチホップ質問に対する推論経路を含む証拠情報を紹介する。 証拠情報には2つの利点があります (i)予測の包括的説明を提供する (ii)モデルの推論能力を評価すること。 マルチホップステップと質問の品質を保証する質問応答ペアを生成する際に,パイプラインとテンプレートセットを慎重に設計する。 また、Wikidataの構造化フォーマットを利用して、論理ルールを使って、自然だがマルチホップ推論を必要とする質問を生成する。 実験を通じて,マルチホップモデルではデータセットが困難であること,マルチホップ推論が必要であることを実証する。

A multi-hop question answering (QA) dataset aims to test reasoning and inference skills by requiring a model to read multiple paragraphs to answer a given question. However, current datasets do not provide a complete explanation for the reasoning process from the question to the answer. Further, previous studies revealed that many examples in existing multi-hop datasets do not require multi-hop reasoning to answer a question. In this study, we present a new multi-hop QA dataset, called 2WikiMultiHopQA, which uses structured and unstructured data. In our dataset, we introduce the evidence information containing a reasoning path for multi-hop questions. The evidence information has two benefits: (i) providing a comprehensive explanation for predictions and (ii) evaluating the reasoning skills of a model. We carefully design a pipeline and a set of templates when generating a question-answer pair that guarantees the multi-hop steps and the quality of the questions. We also exploit the structured format in Wikidata and use logical rules to create questions that are natural but still require multi-hop reasoning. Through experiments, we demonstrate that our dataset is challenging for multi-hop models and it ensures that multi-hop reasoning is required.
翻訳日:2022-09-30 11:55:47 公開日:2020-11-12
# 深層学習による森林火災の樹木種への影響のモニタリング

Monitoring the Impact of Wildfires on Tree Species with Deep Learning ( http://arxiv.org/abs/2011.02514v2 )

ライセンス: Link先を確認
Wang Zhou, Levente Klein(参考訳) 気候変動の影響の1つは、伝統的に特定の樹木の種に覆われていた地域での森林火災の後、樹木の再生長が困難である。 ここでは、森林火災前後の4バンド空中画像から土地被覆を分類し、森林火災の長期的影響を調べるためにディープラーニングモデルをカスタマイズする。 木種ラベルは、コニファー、ハードウッド、低木、レフォレステッドツリー、バレンランドの5つの土地被覆クラスで手動で区切られた地図から生成される。 テスト分割の精度は$92\%で、モデルは2009年から2018年までのデータで3つのワイルドファイアに適用される。 このモデルは、森林火災で損傷した地域、樹木種の変化、および焼けた地域の回復を正確に記述している。 その結果、森林火災が地域生態系に影響を及ぼす証拠が明らかとなり、概略したアプローチは森林構成の変化を観察し、樹木種に対する山火事の影響を追跡するのに役立ちます。

One of the impacts of climate change is the difficulty of tree regrowth after wildfires over areas that traditionally were covered by certain tree species. Here a deep learning model is customized to classify land covers from four-band aerial imagery before and after wildfires to study the prolonged consequences of wildfires on tree species. The tree species labels are generated from manually delineated maps for five land cover classes: Conifer, Hardwood, Shrub, ReforestedTree and Barren land. With an accuracy of $92\%$ on the test split, the model is applied to three wildfires on data from 2009 to 2018. The model accurately delineates areas damaged by wildfires, changes in tree species and rebound of burned areas. The result shows clear evidence of wildfires impacting the local ecosystem and the outlined approach can help monitor reforested areas, observe changes in forest composition and track wildfire impact on tree species.
翻訳日:2022-09-29 22:32:19 公開日:2020-11-12
# オープンドメインポッドキャストエピソードの自動要約

Automatic Summarization of Open-Domain Podcast Episodes ( http://arxiv.org/abs/2011.04132v2 )

ライセンス: Link先を確認
Kaiqiang Song and Chen Li and Xiaoyang Wang and Dong Yu and Fei Liu(参考訳) 本稿では,TREC 2020 の Podcast Summarization タスクにおいて,競争結果を達成する抽象要約器の実装について述べる。 重要な情報をキャプチャする簡潔なテキスト要約は、ユーザがポッドキャストを聴くかどうかを判断することが重要である。 先行研究は主に文脈化された表現の学習に焦点を当てている。 代わりに、神経抽象的要約のいくつかの未研究の側面について検討する。 (i)要約者への入力として機能する写本から重要セグメントを選択することの重要性 二 訓練インスタンスの量と品質のバランスをとること。 (iii)適切な要約長と開始/終了ポイント。 システムの背後にある設計上の考慮点を強調し、ニューラル抽象システムの強みと弱みに関する重要な洞察を提供する。 以上の結果から,テキストから要約文への入力として使用する重要なセグメントを識別することは,長い文書の要約に有利であることが示唆された。 本システムでは,NIST評価者による1.559の品質評価を達成し,クリエーター記述に対する0.268(+21%)の絶対的な増加を実現した。

We present implementation details of our abstractive summarizers that achieve competitive results on the Podcast Summarization task of TREC 2020. A concise textual summary that captures important information is crucial for users to decide whether to listen to the podcast. Prior work focuses primarily on learning contextualized representations. Instead, we investigate several less-studied aspects of neural abstractive summarization, including (i) the importance of selecting important segments from transcripts to serve as input to the summarizer; (ii) striking a balance between the amount and quality of training instances; (iii) the appropriate summary length and start/end points. We highlight the design considerations behind our system and offer key insights into the strengths and weaknesses of neural abstractive systems. Our results suggest that identifying important segments from transcripts to use as input to an abstractive summarizer is advantageous for summarizing long documents. Our best system achieves a quality rating of 1.559 judged by NIST evaluators---an absolute increase of 0.268 (+21%) over the creator descriptions.
翻訳日:2022-09-28 01:01:10 公開日:2020-11-12
# インテリジェント反射面による連合学習

Federated Learning via Intelligent Reflecting Surface ( http://arxiv.org/abs/2011.05051v2 )

ライセンス: Link先を確認
Zhibin Wang, Jiahang Qiu, Yong Zhou, Yuanming Shi, Liqun Fu, Wei Chen, Khaled B. Lataief(参考訳) オーバー・ザ・エアコンに基づくフェデレーション学習(FL)は,複数のアクセスチャネルの波形重畳特性を利用して高速なモデル集約を実現することができる。 しかし、モデル集約性能は不利な無線伝搬チャネルによって著しく制限される。 本稿では,AirCompをベースとしたFLの高速かつ信頼性の高いモデルアグリゲーションを実現するために,インテリジェント反射面(IRS)を活用することを提案する。 学習性能を最適化するために,端末選択とベースステーション(bs)のアグリゲーションビームフォーマ,irsでの位相シフトを共同で最適化し,特定の平均二乗誤差(mse)条件下で各通信ラウンドのモデルアグリゲーションに参加するデバイス数を最大化する最適化問題を定式化する。 高難解問題に対処するために,2段階最適化フレームワークを提案する。 具体的には,第1段階においてデバイス選択のスパーシティを誘導し,続いてmseの最小化問題を解き,第2段階において最大実現可能なデバイスセットを求める。 次に、低ランク最適化のための差分凸関数プログラミングアルゴリズムによって支持される交互最適化フレームワークを提案し、BSにおけるアグリゲーションビームフォーマとIRSにおける位相シフトを効率的に設計する。 シミュレーションの結果,提案手法とirsの展開により,ベースラインアルゴリズムよりも低いトレーニング損失と高いfl予測精度が得られることが示された。

Over-the-air computation (AirComp) based federated learning (FL) is capable of achieving fast model aggregation by exploiting the waveform superposition property of multiple access channels. However, the model aggregation performance is severely limited by the unfavorable wireless propagation channels. In this paper, we propose to leverage intelligent reflecting surface (IRS) to achieve fast yet reliable model aggregation for AirComp-based FL. To optimize the learning performance, we formulate an optimization problem that jointly optimizes the device selection, the aggregation beamformer at the base station (BS), and the phase shifts at the IRS to maximize the number of devices participating in the model aggregation of each communication round under certain mean-squared-error (MSE) requirements. To tackle the formulated highly-intractable problem, we propose a two-step optimization framework. Specifically, we induce the sparsity of device selection in the first step, followed by solving a series of MSE minimization problems to find the maximum feasible device set in the second step. We then propose an alternating optimization framework, supported by the difference-of-convex-functions programming algorithm for low-rank optimization, to efficiently design the aggregation beamformers at the BS and phase shifts at the IRS. Simulation results will demonstrate that our proposed algorithm and the deployment of an IRS can achieve a lower training loss and higher FL prediction accuracy than the baseline algorithms.
翻訳日:2022-09-27 08:41:41 公開日:2020-11-12
# ガウス圧縮流:原理と予備結果

Gaussian Compression Stream: Principle and Preliminary Results ( http://arxiv.org/abs/2011.05390v2 )

ライセンス: Link先を確認
Farouk Yahaya, Matthieu Puigt, Gilles Delmaire and Gilles Roussel(参考訳) ランダムプロジェクションはビッグデータを処理する一般的なツールになった。 特に,非負行列分解 (nmf) に適用すると, 構造的ランダム射影はガウス圧縮に基づく古典的戦略よりもはるかに効率的であることが示されている。 しかし、コストはいまだに高く、最近の高速ランダム投影技術を完全には享受できないかもしれない。 本稿では,構造化されたran-om射影-名前gaussian compression streamの代替法について検討する。 (i)ガウス圧縮のみに基づく。 (ii)上記の高速技術の恩恵を受けることができる。 (iii)はNMFに適していることが示されている。

Random projections became popular tools to process big data. In particular, when applied to Nonnegative Matrix Factorization (NMF), it was shown that structured random projections were far more efficient than classical strategies based on Gaussian compression. However, they remain costly and might not fully benefit from recent fast random projection techniques. In this paper, we thus investigate an alternative to structured ran-om projections-named Gaussian compression stream-which (i) is based on Gaussian compressions only, (ii) can benefit from the above fast techniques, and (iii) is shown to be well-suited to NMF.
翻訳日:2022-09-27 08:41:04 公開日:2020-11-12
# MotePy: 低オーバーヘッド機械学習とデータ処理のためのドメイン固有言語

MotePy: A domain specific language for low-overhead machine learning and data processing ( http://arxiv.org/abs/2011.05194v2 )

ライセンス: Link先を確認
Jayaraj Poroor(参考訳) MotePyという名前のドメイン固有言語(DSL)が提示されます。 DSLは、時間制約やメモリ制約のあるシステムにおけるML/データ処理のオーバーヘッドを低くした高レベルの構文を提供します。 DSL-to-Cコンパイラは、オブジェクトの寿命を追跡し、静的メモリを再利用する新しい静的メモリアロケータを備えています。

A domain specific language (DSL), named MotePy is presented. The DSL offers a high level syntax with low overheads for ML/data processing in time constrained or memory constrained systems. The DSL-to-C compiler has a novel static memory allocator that tracks object lifetimes and reuses the static memory, which we call the compiler-managed heap.
翻訳日:2022-09-27 08:25:42 公開日:2020-11-12
# 信頼ハードウェアを用いたフェデレーション学習における漏洩の軽減

Mitigating Leakage in Federated Learning with Trusted Hardware ( http://arxiv.org/abs/2011.04948v3 )

ライセンス: Link先を確認
Javad Ghareh Chamani (1), Dimitrios Papadopoulos (1) ((1) Hong Kong University of Science and Technology)(参考訳) フェデレーション学習では、複数のパーティが協力して、それぞれのデータセット上でグローバルモデルをトレーニングする。 暗号プリミティブ(例えば、ホモモルフィック暗号化)は、この設定でデータのプライバシーを達成するのに役立ちますが、もしそれが不公平に行われるなら、一部の部分情報はパーティ間でリークされるかもしれません。 本研究では,secureboost [cheng et al., fl@ijcai'19]のフェデレート学習フレームワークを具体例として検討し,その漏洩プロファイルに基づく漏洩回避攻撃を実証し,本攻撃の有効性を実験的に評価した。 次に,信頼された実行環境に依存する2つのセキュアバージョンを提案する。 我々は、SecureBoostよりも1.2-5.4倍高速で、5-49倍少ない通信を必要とすることを示すために、プロトコルを実装し、ベンチマークする。

In federated learning, multiple parties collaborate in order to train a global model over their respective datasets. Even though cryptographic primitives (e.g., homomorphic encryption) can help achieve data privacy in this setting, some partial information may still be leaked across parties if this is done non-judiciously. In this work, we study the federated learning framework of SecureBoost [Cheng et al., FL@IJCAI'19] as a specific such example, demonstrate a leakage-abuse attack based on its leakage profile, and experimentally evaluate the effectiveness of our attack. We then propose two secure versions relying on trusted execution environments. We implement and benchmark our protocols to demonstrate that they are 1.2-5.4X faster in computation and need 5-49X less communication than SecureBoost.
翻訳日:2022-09-27 08:16:14 公開日:2020-11-12
# 歴史的混雑図に基づく交通渋滞と旅行時間予測と合意日の同定

Traffic congestion and travel time prediction based on historical congestion maps and identification of consensual days ( http://arxiv.org/abs/2011.05073v2 )

ライセンス: Link先を確認
Nicolas Chiabaut, R\'emi Faitout(参考訳) 本稿では,高速道路における交通状況と走行時間をリアルタイムに推定する新しいプラクティスレディ手法を提案する。 まず、主成分分析の後、過去のデータセットの観測日をクラスタ化する。 ガウス混合モデルとk平均アルゴリズムの2つの異なる手法を比較した。 クラスタリングの結果、同じグループの日々の混雑マップは交通条件と動的にかなり類似していることが判明した。 このような地図は高速道路の混雑伝播のバイナリな可視化であり、交通力学をより重要視している。 第2に、混雑マップによれば、各クラスタでコンセンサスデーがコミュニティの最も代表的な日として特定される。 第三に、この履歴データから得られた情報を用いて交通渋滞の伝播と走行時間を予測する。 したがって、この新日がどの合意日が最も近いかを決定するために、新しい日の最初の測定が用いられる。 その日の過去の観測は、将来の交通状況や旅行時間を予測するために使われる。 この方法は、フランス高速道路で収集された10ヶ月のデータを用いてテストされ、非常に励みやすい結果を示す。

In this paper, a new practice-ready method for the real-time estimation of traffic conditions and travel times on highways is introduced. First, after a principal component analysis, observation days of a historical dataset are clustered. Two different methods are compared: a Gaussian Mixture Model and a k-means algorithm. The clustering results reveal that congestion maps of days of the same group have substantial similarity in their traffic conditions and dynamic. Such a map is a binary visualization of the congestion propagation on the freeway, giving more importance to the traffic dynamics. Second, a consensus day is identified in each cluster as the most representative day of the community according to the congestion maps. Third, this information obtained from the historical data is used to predict traffic congestion propagation and travel times. Thus, the first measurements of a new day are used to determine which consensual day is the closest to this new day. The past observations recorded for that consensual day are then used to predict future traffic conditions and travel times. This method is tested using ten months of data collected on a French freeway and shows very encouraging results.
翻訳日:2022-09-27 08:14:57 公開日:2020-11-12
# 混合監督による物体間相互作用の検出

Detecting Human-Object Interaction with Mixed Supervision ( http://arxiv.org/abs/2011.04971v2 )

ライセンス: Link先を確認
Suresh Kirthi Kumaraswamy (1), Miaojing Shi (2) and Ewa Kijak (3) ((1) Univ Le Mans, CNRS, IRISA, (2) Kings College London, (3) Univ Rennes, Inria, CNRS, IRISA)(参考訳) 人間の物体相互作用(HOI)検出は画像理解と推論において重要な課題である。 これは hoi triplet <human; verb; object> の形式で、人間とオブジェクトのバウンディングボックスを必要とし、タスク完了のためにそれらの間のアクションである。 言い換えれば、このタスクは、取得が難しいトレーニングに対して、強い監督を必要とする。 これを克服するための自然な解決策は、弱い教師付き学習を追求することであり、画像中の特定のHOI三つ子の存在しか分かっていないが、正確な位置は不明である。 ほとんどの弱い教師付き学習手法は、利用可能なときにデータを強力な監視力で活用するためのプロビジョニングを行なわず、実際、HOI検出におけるこの2つのパラダイムの「自然な組み合わせ」は、互いに貢献することができない。 本稿では,これら2種類の教師をシームレスに学習する運動量非依存学習の設計のおかげで,混在型HOI検出パイプラインを提案する。 さらに, 混在監視におけるアノテーションの欠如を考慮し, HOI要素スワッピング技術を導入し, 画像間の多種多様・硬質な負を合成し, モデルの堅牢性を向上させる。 本手法はHICO-DETデータセットを用いて評価する。 強いアノテーションと弱いアノテーションを混在させることで、多くの完全に監督された手法に近づき、さらに同じ監督の下では、芸術の代表的状態を弱く、完全に監督された手法よりも優れている。

Human object interaction (HOI) detection is an important task in image understanding and reasoning. It is in a form of HOI triplet <human; verb; object>, requiring bounding boxes for human and object, and action between them for the task completion. In other words, this task requires strong supervision for training that is however hard to procure. A natural solution to overcome this is to pursue weakly-supervised learning, where we only know the presence of certain HOI triplets in images but their exact location is unknown. Most weakly-supervised learning methods do not make provision for leveraging data with strong supervision, when they are available; and indeed a na\"ive combination of this two paradigms in HOI detection fails to make contributions to each other. In this regard we propose a mixed-supervised HOI detection pipeline: thanks to a specific design of momentum-independent learning that learns seamlessly across these two types of supervision. Moreover, in light of the annotation insufficiency in mixed supervision, we introduce an HOI element swapping technique to synthesize diverse and hard negatives across images and improve the robustness of the model. Our method is evaluated on the challenging HICO-DET dataset. It performs close to or even better than many fully-supervised methods by using a mixed amount of strong and weak annotations; furthermore, it outperforms representative state of the art weakly and fully-supervised methods under the same supervision.
翻訳日:2022-09-27 07:41:08 公開日:2020-11-12
# 監視ビデオにおける効率的な異常検出のためのデカップリング外観と運動学習

Decoupled Appearance and Motion Learning for Efficient Anomaly Detection in Surveillance Video ( http://arxiv.org/abs/2011.05054v2 )

ライセンス: Link先を確認
Bo Li, Sam Leroux, Pieter Simoens(参考訳) 都市環境や工業現場が多数のカメラで監視されている場合、監視映像の分析を自動化することは非常に興味深い。 異常はしばしば文脈固有であるため、興味のある事象を事前に定義し、ラベル付きトレーニングデータを収集することは困難である。 自動異常検出のための純粋に教師なしのアプローチの方がずっと適している。 すべてのカメラに対して、別のアルゴリズムが展開され、カメラビューポート内のオブジェクトの外観と動きに関連する特徴のベースラインモデルを学ぶことができる。 このベースラインから逸脱するものは、下流でさらなる分析を行うための異常としてフラグ付けされる。 我々は、純粋に教師なしの方法で正常な振る舞いを学習する新しいニューラルネットワークアーキテクチャを提案する。 以前の研究とは対照的に、私たちは異常なメトリックとして遅延コード予測を使用します。 この手法は,照明や気象条件の変化に対する精度と堅牢性の両方の観点から,異なるベンチマークデータセット上での再構成ベースおよびフレーム予測に基づく手法よりも優れていることを示す。 外観と動作モデルを分離することにより、我々のモデルは、カメラ自体や他のエッジデバイスにデプロイするのに適するように、関連するアプローチの16倍から45倍のフレームを毎秒処理することができる。

Automating the analysis of surveillance video footage is of great interest when urban environments or industrial sites are monitored by a large number of cameras. As anomalies are often context-specific, it is hard to predefine events of interest and collect labelled training data. A purely unsupervised approach for automated anomaly detection is much more suitable. For every camera, a separate algorithm could then be deployed that learns over time a baseline model of appearance and motion related features of the objects within the camera viewport. Anything that deviates from this baseline is flagged as an anomaly for further analysis downstream. We propose a new neural network architecture that learns the normal behavior in a purely unsupervised fashion. In contrast to previous work, we use latent code predictions as our anomaly metric. We show that this outperforms reconstruction-based and frame prediction-based methods on different benchmark datasets both in terms of accuracy and robustness against changing lighting and weather conditions. By decoupling an appearance and a motion model, our model can also process 16 to 45 times more frames per second than related approaches which makes our model suitable for deploying on the camera itself or on other edge devices.
翻訳日:2022-09-27 06:55:51 公開日:2020-11-12
# 疾患遺伝子優先順位付けのための生体情報抽出

Biomedical Information Extraction for Disease Gene Prioritization ( http://arxiv.org/abs/2011.05188v2 )

ライセンス: Link先を確認
Jupinder Parmar, William Koehler, Martin Bringmann, Katharina Sophia Volz, Berk Kapicioglu(参考訳) 生物医学情報抽出(IE)パイプラインを導入し、テキストから生物関係を抽出し、そのコンポーネントである名前付きエンティティ認識(NER)と関係抽出(RE)がBioNLPの最先端であることを示す。 タンパク質とタンパク質の相互作用(PPI)を抽出し,その抽出をSTRINGから抽出されたPPIを含むバイオメディカル知識グラフに適用した。 既に確立された構造化されたソースからppisを含んでいるにもかかわらず、グラフへのieベースの抽出を増強することで、hit@30の20%の相対的な増加による新しい疾患-遺伝子関連を予測することができる。

We introduce a biomedical information extraction (IE) pipeline that extracts biological relationships from text and demonstrate that its components, such as named entity recognition (NER) and relation extraction (RE), outperform state-of-the-art in BioNLP. We apply it to tens of millions of PubMed abstracts to extract protein-protein interactions (PPIs) and augment these extractions to a biomedical knowledge graph that already contains PPIs extracted from STRING, the leading structured PPI database. We show that, despite already containing PPIs from an established structured source, augmenting our own IE-based extractions to the graph allows us to predict novel disease-gene associations with a 20% relative increase in hit@30, an important step towards developing drug targets for uncured diseases.
翻訳日:2022-09-27 06:39:19 公開日:2020-11-12
# ブートストラップによる自己教師付きグラフ表現学習

Self-supervised Graph Representation Learning via Bootstrapping ( http://arxiv.org/abs/2011.05126v2 )

ライセンス: Link先を確認
Feihu Che, Guohua Yang, Dawei Zhang, Jianhua Tao, Pengpeng Shao, Tong Liu(参考訳) グラフニューラルネットワーク~(GNN)は、グラフ構造化データにディープラーニング技術を適用し、グラフ表現学習において有望な性能を達成した。 しかし、既存のGNNは十分なラベルやよく設計された負のサンプルに大きく依存している。 これらの問題に対処するために,新しい自己教師付きグラフ表現法であるdeep graph bootstrapping~(dgb)を提案する。 DGBは、オンラインとターゲットの2つのニューラルネットワークで構成されており、その入力は初期グラフの異なる拡張ビューである。 オンラインネットワークはターゲットネットワークを予測するように訓練され、ターゲットネットワークは遅い平均値で更新されるため、オンラインネットワークとターゲットネットワークは相互に学習することができる。 その結果,提案するdgbは否定的な例を伴わずに教師なしでグラフ表現を学習できる。 さらに,グラフ構造化データに対する3種類の拡張手法を要約し,dgbに適用する。 ベンチマークデータセットの実験では、DGBは現在の最先端メソッドよりもパフォーマンスが良く、拡張メソッドがパフォーマンスに与える影響が示されている。

Graph neural networks~(GNNs) apply deep learning techniques to graph-structured data and have achieved promising performance in graph representation learning. However, existing GNNs rely heavily on enough labels or well-designed negative samples. To address these issues, we propose a new self-supervised graph representation method: deep graph bootstrapping~(DGB). DGB consists of two neural networks: online and target networks, and the input of them are different augmented views of the initial graph. The online network is trained to predict the target network while the target network is updated with a slow-moving average of the online network, which means the online and target networks can learn from each other. As a result, the proposed DGB can learn graph representation without negative examples in an unsupervised manner. In addition, we summarize three kinds of augmentation methods for graph-structured data and apply them to the DGB. Experiments on the benchmark datasets show the DGB performs better than the current state-of-the-art methods and how the augmentation methods affect the performances.
翻訳日:2022-09-27 06:37:24 公開日:2020-11-12
# feedforwardニューラルネットワークを用いた高速半定義プログラミング

Fast semidefinite programming with feedforward neural networks ( http://arxiv.org/abs/2011.05785v2 )

ライセンス: Link先を確認
Tam\'as Kriv\'achy, Yu Cai, Joseph Bowles, Daniel Cavalcanti and Nicolas Brunner(参考訳) 半定義プログラミングは重要な最適化タスクであり、しばしば時間に敏感なアプリケーションで使用される。 これらは多項式時間で解けるが、実際にはオンライン、すなわちリアルタイムアプリケーションで使うには遅すぎる可能性がある。 本稿では,ニューラルネットワークを用いた実現可能性半定プログラムを提案する。 入力として最適化制約が与えられると、ニューラルネットワークは、タスクのプリミティブと2つの定式化の両方において、制約が満たされる最適化パラメータの値を出力する。 半定値プログラムを1回でも正確に解くことなくネットワークをトレーニングし、従来の解法で多くのトレーニングサンプルを生成するという、潜在的に時間がかかる作業を回避する。 ニューラルネットワークの手法は、原始モデルと双対モデルの両方が実現不可能なソリューションを提供できなかった場合にのみ決定できない。 そうでなければ、常に証明書を取得し、偽陽性を除外することを保証します。 量子情報課題の階層構造であるnavascu\'es-pironio-ac\'in階層における手法の性能をベルシナリオに適用した。 学習したニューラルネットワークは,従来の解法に比べて1桁の速度向上を示す一方で,精度も良好であることを示す。

Semidefinite programming is an important optimization task, often used in time-sensitive applications. Though they are solvable in polynomial time, in practice they can be too slow to be used in online, i.e. real-time applications. Here we propose to solve feasibility semidefinite programs using artificial neural networks. Given the optimization constraints as an input, a neural network outputs values for the optimization parameters such that the constraints are satisfied, both for the primal and the dual formulations of the task. We train the network without having to exactly solve the semidefinite program even once, thus avoiding the possibly time-consuming task of having to generate many training samples with conventional solvers. The neural network method is only inconclusive if both the primal and dual models fail to provide feasible solutions. Otherwise we always obtain a certificate, which guarantees false positives to be excluded. We examine the performance of the method on a hierarchy of quantum information tasks, the Navascu\'es-Pironio-Ac\'in hierarchy applied to the Bell scenario. We demonstrate that the trained neural network gives decent accuracy, while showing orders of magnitude increase in speed compared to a traditional solver.
翻訳日:2022-09-27 01:00:06 公開日:2020-11-12
# 誤報対策における集団の役割 : COVID-19情報デミックを事例として

The Role of the Crowd in Countering Misinformation: A Case Study of the COVID-19 Infodemic ( http://arxiv.org/abs/2011.05773v2 )

ライセンス: Link先を確認
Nicholas Micallef, Bing He, Srijan Kumar, Mustaque Ahamad and Nasir Memon(参考訳) 事実チェックは重要であり、影響も大きいが、事実チェックは視認性に限界があり、偏極化したコミュニティに深く埋め込まれているような、意図した聴衆には届かない可能性がある。 誤情報が現れるプラットフォームの利用者である関心のある市民(すなわち、群衆)は、事実確認情報の拡散や誤情報の拡散に対抗する上で重要な役割を果たすことができる。 新型コロナウイルス(covid-19)のパンデミックに関連するツイート、誤情報の拡散、専門家の事実確認、そしてcovid-19に関する誤解を招く一般的な主張に対する群衆の反応を分析します。 この作業では、疑似クレームとそれらの挑戦や反論を求めるステートメントのデータセットをキュレートします。 我々は分類器を訓練し、155,468件のCOVID-19関連ツイートのデータセットを作成し、33,237件の虚偽の主張と33,413件の反論を含む。 対照的に、誤情報のツイートの急増は、迅速な応答と、その誤情報を否定するツイートの増加をもたらすことを観察する。 さらに重要なことは、群衆がツイートを反論する方法の違いや、一部のツイートが意見であるように見えること、その他には、非難された情報源へのリンクなど、具体的な証拠が含まれていることだ。 我々の研究は、一部のユーザーによるソーシャルプラットフォームにおける誤情報がどのように組織的に対処されているか、そして彼らがプロフェッショナルな事実チェックを増幅する役割について洞察を提供する。 コードとデータはhttp://claws.cc.gatech.edu/covid_counter_misinformation.htmlにある。

Fact checking by professionals is viewed as a vital defense in the fight against misinformation.While fact checking is important and its impact has been significant, fact checks could have limited visibility and may not reach the intended audience, such as those deeply embedded in polarized communities. Concerned citizens (i.e., the crowd), who are users of the platforms where misinformation appears, can play a crucial role in disseminating fact-checking information and in countering the spread of misinformation. To explore if this is the case, we conduct a data-driven study of misinformation on the Twitter platform, focusing on tweets related to the COVID-19 pandemic, analyzing the spread of misinformation, professional fact checks, and the crowd response to popular misleading claims about COVID-19. In this work, we curate a dataset of false claims and statements that seek to challenge or refute them. We train a classifier to create a novel dataset of 155,468 COVID-19-related tweets, containing 33,237 false claims and 33,413 refuting arguments.Our findings show that professional fact-checking tweets have limited volume and reach. In contrast, we observe that the surge in misinformation tweets results in a quick response and a corresponding increase in tweets that refute such misinformation. More importantly, we find contrasting differences in the way the crowd refutes tweets, some tweets appear to be opinions, while others contain concrete evidence, such as a link to a reputed source. Our work provides insights into how misinformation is organically countered in social platforms by some of their users and the role they play in amplifying professional fact checks.These insights could lead to development of tools and mechanisms that can empower concerned citizens in combating misinformation. The code and data can be found in http://claws.cc.gatech.edu/covid_counter_misinformation.html.
翻訳日:2022-09-27 00:42:23 公開日:2020-11-12
# ランダムウォークによるScribble-Supervised Semantic Segmentation on Neural Representation and Self-Supervision on Neural Eigenspace

Scribble-Supervised Semantic Segmentation by Random Walk on Neural Representation and Self-Supervision on Neural Eigenspace ( http://arxiv.org/abs/2011.05621v2 )

ライセンス: Link先を確認
Zhiyi Pan, Peng Jiang, Changhe Tu(参考訳) scribbleの教師付きセマンティックセグメンテーションは、最近、高品質なアノテーションのない有望なパフォーマンスで注目を集めている。 多くのアプローチが提案されている。 通常は、この問題に対処して、別の関連するタスクからラベル付きデータセットを導入し、グラフィカルモデルで反復的な洗練と後処理に切り替えるか、あるいはスクリブルラベルを操作する。 本研究の目的は,補助情報や中間操作を使わずに,ラベルを直接スクリブルすることで意味的セグメンテーションを実現することである。 具体的には、ランダムウォークによる神経表現への拡散と、自己スーパービジョンによる神経固有空間への一貫性を課し、ニューラルネットワークはデータセット全体にわたって密で一貫した予測を生成する。 ネットワークに埋め込まれたランダムウォークは確率的遷移行列を計算し、神経表現は均一に拡散する。 さらに、確率的遷移行列を考えると、その固有空間上の自己スーパービジョンを画像の主成分の一貫性に適用する。 一般的なスクリブルデータセットの比較に加えて、画像オブジェクトにスクリブルをランダムに縮小、さらにはドロップする修正データセットの実験も行います。 その結果,提案手法の優位性を示し,フルラベル制御手法に匹敵する性能を示した。 コードとデータセットはhttps://github.com/panzhiyi/rw-ssで入手できる。

Scribble-supervised semantic segmentation has gained much attention recently for its promising performance without high-quality annotations. Many approaches have been proposed. Typically, they handle this problem to either introduce a well-labeled dataset from another related task, turn to iterative refinement and post-processing with the graphical model, or manipulate the scribble label. This work aims to achieve semantic segmentation supervised by scribble label directly without auxiliary information and other intermediate manipulation. Specifically, we impose diffusion on neural representation by random walk and consistency on neural eigenspace by self-supervision, which forces the neural network to produce dense and consistent predictions over the whole dataset. The random walk embedded in the network will compute a probabilistic transition matrix, with which the neural representation diffused to be uniform. Moreover, given the probabilistic transition matrix, we apply the self-supervision on its eigenspace for consistency in the image's main parts. In addition to comparing the common scribble dataset, we also conduct experiments on the modified datasets that randomly shrink and even drop the scribbles on image objects. The results demonstrate the superiority of the proposed method and are even comparable to some full-label supervised ones. The code and datasets are available at https://github.com/panzhiyi/RW-SS.
翻訳日:2022-09-27 00:17:09 公開日:2020-11-12
# 探索的グラッピング:多面体をグラッピングする漸近的最適アルゴリズム

Exploratory Grasping: Asymptotically Optimal Algorithms for Grasping Challenging Polyhedral Objects ( http://arxiv.org/abs/2011.05632v2 )

ライセンス: Link先を確認
Michael Danielczuk, Ashwin Balakrishna, Daniel S. Brown, Shivin Devgon, Ken Goldberg(参考訳) 汎用的把握ポリシーを学習するためのデータ駆動アルゴリズムに関する最近の研究が盛んである。 しかし、これらのポリシーは、トレーニングデータ内のオブジェクトの分布から著しく外れた、あるいは高品質な把握が極めて少ない挑戦的なオブジェクトを、一貫して把握できない可能性がある。 このようなオブジェクトをモチベーションとして,未知の多面体オブジェクトのシーケンシャルな把握,解放,切り抜きによる信頼性の高い把握を効率的に検出する,新しい問題設定であるExploratory Graspingを提案する。 我々はマルコフ決定過程として探索グラフ作成を定式化し、強化学習の文脈で探索グラフ作成の理論的複雑さを考察し、各オブジェクトの安定なポーズに対する高いパフォーマンスの把握を効率的に発見するために、問題の構造を活用する効率的なバンドレートスタイルのアルゴリズムBORGESを提案する。 BORGESは任意の汎用的な把握アルゴリズムを任意の把握モード(パラレルジャウ、吸引、マルチフィンガードなど)で補完し、永続的な障害を示すオブジェクトのポリシーを学ぶために使用することができる。 シミュレーション実験によれば、borgesは汎用の把持パイプラインと他の2つのオンライン学習アルゴリズムを大きく上回ることができ、dex-net adversarial と egad! object datasets の46の挑戦的オブジェクトに対して、1000時間以内に最適なポリシーの5%以内にパフォーマンスを達成できる。 最初の物理実験では、実世界での把握の試みが200回に過ぎず、dex-netベースラインよりも45%向上できることが示唆された。 補足資料とビデオはhttps://tinyurl.com/exp-graspingを参照。

There has been significant recent work on data-driven algorithms for learning general-purpose grasping policies. However, these policies can consistently fail to grasp challenging objects which are significantly out of the distribution of objects in the training data or which have very few high quality grasps. Motivated by such objects, we propose a novel problem setting, Exploratory Grasping, for efficiently discovering reliable grasps on an unknown polyhedral object via sequential grasping, releasing, and toppling. We formalize Exploratory Grasping as a Markov Decision Process, study the theoretical complexity of Exploratory Grasping in the context of reinforcement learning and present an efficient bandit-style algorithm, Bandits for Online Rapid Grasp Exploration Strategy (BORGES), which leverages the structure of the problem to efficiently discover high performing grasps for each object stable pose. BORGES can be used to complement any general-purpose grasping algorithm with any grasp modality (parallel-jaw, suction, multi-fingered, etc) to learn policies for objects in which they exhibit persistent failures. Simulation experiments suggest that BORGES can significantly outperform both general-purpose grasping pipelines and two other online learning algorithms and achieves performance within 5% of the optimal policy within 1000 and 8000 timesteps on average across 46 challenging objects from the Dex-Net adversarial and EGAD! object datasets, respectively. Initial physical experiments suggest that BORGES can improve grasp success rate by 45% over a Dex-Net baseline with just 200 grasp attempts in the real world. See https://tinyurl.com/exp-grasping for supplementary material and videos.
翻訳日:2022-09-26 23:42:01 公開日:2020-11-12
# 2次元および3次元畳み込みニューラルネットワークによるMIMOチャネル推定に関する研究

A Study on MIMO Channel Estimation by 2D and 3D Convolutional Neural Networks ( http://arxiv.org/abs/2011.08970v1 )

ライセンス: Link先を確認
Ben Marinberg, Ariel Cohen, Eilam Ben-Dror and Haim Permuter(参考訳) 本稿では,Multiple-Output Orthogonal Frequency Division Multiplexing (MIMO-OFDM) Channel Estimation (CE) のタスクにおける畳み込みニューラルネットワーク (CNN) 推定器について検討する。 具体的には、cnn推定器は、全ofdmリソース要素(re)行列のチャネルを推定するための参照信号のチャネル値を補間する。 U-netに基づく2次元CNNアーキテクチャと空間相関を扱う3次元CNNアーキテクチャを設計した。 5g nr標準に準拠した多種多様なデータセットに対する様々なcnnアーキテクチャの性能について検討し,特に空間相関,ドップラー,参照信号資源割り当ての影響について検討した。 CE CNN推定器はMIMO検出アルゴリズムと統合され、システムレベルBit Error Rate(BER)のパフォーマンスへの影響をテストする。

In this paper, we study the usage of Convolutional Neural Network (CNN) estimators for the task of Multiple-Input-Multiple-Output Orthogonal Frequency Division Multiplexing (MIMO-OFDM) Channel Estimation (CE). Specifically, the CNN estimators interpolate the channel values of reference signals for estimating the channel of the full OFDM resource element (RE) matrix. We have designed a 2D CNN architecture based on U-net, and a 3D CNN architecture for handling spatial correlation. We investigate the performance of various CNN architectures fora diverse data set generated according to the 5G NR standard and in particular, we investigate the influence of spatial correlation, Doppler, and reference signal resource allocation. The CE CNN estimators are then integrated with MIMO detection algorithms for testing their influence on the system level Bit Error Rate(BER) performance.
翻訳日:2022-09-26 08:07:04 公開日:2020-11-12
# ハンブルクラッティング曲線予測のための深層学習法

A Deep Learning Approach to Predict Hamburg Rutting Curve ( http://arxiv.org/abs/2011.09853v1 )

ライセンス: Link先を確認
Hamed Majidifard, Behnam Jahangiri, Punyaslok Rath, Amir H. Alavi, William G. Buttlar(参考訳) ラッティングは世界中のアスファルト舗装の主要な苦難の1つであり続けている。 このタイプの苦痛は、重荷の繰り返しによるアスファルト混合物の永久的な変形とせん断破壊によって引き起こされる。 ハンブルクの車輪追跡試験(HWTT)は、実験室のラッティング現象を加速し、シミュレーションするために広く用いられている試験方法である。 HWTTの出力の1つであるラト深さは、設計と試験条件の混合に関連する多くのパラメータに依存する。 本研究では,深層学習手法である畳み込みニューラルネットワーク(cnn)を用いてアスファルト混合物のラッティング深さを予測する新しいモデルを提案する。 総合的なHWTT結果の収集を含むデータベースを用いて,CNNに基づく機械学習予測モデルを開発した。 データベースには、さまざまなアスファルト混合物で測定された1万のラッティング深度データポイントが含まれている。 このモデルは, アスファルトバインダーの高温性能評価, 混合型, 骨材径, 骨材粒度, アスファルト含有量, 総アスファルトバインダーリサイクル量, 試験温度, ホイールパス数などの試験パラメータなど, 既知の混合変数を用いて定式化されている。 厳密な検証法を用いて, モデルの精度を評価し, 総ラト深さとHWTTラッティング曲線を推定した。 また,cnnモデルによるラッピング深さ予測に対する変数の影響を評価する感度解析を行った。 このモデルは、アスファルト混合物のラト深さを実験室試験が実現できない場合や、コスト削減のための事前設計試験で推定するためのツールとして使用できる。

Rutting continues to be one of the principal distresses in asphalt pavements worldwide. This type of distress is caused by permanent deformation and shear failure of the asphalt mix under the repetition of heavy loads. The Hamburg wheel tracking test (HWTT) is a widely used testing procedure designed to accelerate, and to simulate the rutting phenomena in the laboratory. Rut depth, as one of the outputs of the HWTT, is dependent on a number of parameters related to mix design and testing conditions. This study introduces a new model for predicting the rutting depth of asphalt mixtures using a deep learning technique - the convolution neural network (CNN). A database containing a comprehensive collection of HWTT results was used to develop a CNN-based machine learning prediction model. The database includes 10,000 rutting depth data points measured across a large variety of asphalt mixtures. The model has been formulated in terms of known influencing mixture variables such as asphalt binder high temperature performance grade, mixture type, aggregate size, aggregate gradation, asphalt content, total asphalt binder recycling content, and testing parameters, including testing temperature and number of wheel passes. A rigorous validation process was used to assess the accuracy of the model to predict total rut depth and the HWTT rutting curve. A sensitivity analysis is presented, which evaluates the effect of the investigated variables on rutting depth predictions by the CNN model. The model can be used as a tool to estimate the rut depth in asphalt mixtures when laboratory testing is not feasible, or for cost saving, pre-design trials.
翻訳日:2022-09-26 08:06:49 公開日:2020-11-12
# ボトルネック問題:情報と推定理論

Bottleneck Problems: Information and Estimation-Theoretic View ( http://arxiv.org/abs/2011.06208v1 )

ライセンス: Link先を確認
Shahab Asoodeh and Flavio Calmon(参考訳) 情報ボトルネック(IB)とプライバシファンネル(PF)は、機械学習、プライバシアルゴリズムの設計、キャパシティ問題(例えば、Mrs. Gerber's Lemma)、強力なデータ処理の不平等など、密接に関連する2つの最適化問題である。 そこで本研究では,IBとPFの機能的特性を統一的な理論的枠組みを用いて検討する。 次に、これらを3つの情報理論的な符号化問題、すなわち独立性に対する仮説検証、ノイズの多いソースコーディング、および依存希釈に結びつける。 これらの接続を利用すると、ICB の補助変数に対する新しい濃度境界が証明され、離散確率変数に対する計算がより困難になる。 第2部では、ib と pf の相互情報と、$f$-information と arimoto の相互情報という他の相互情報の概念とを置き換えることで、最適化問題の一般的な族である \textit{bottleneck problems} を導入する。 IBやPFとは異なり、これらの問題は精度とプライバシーに関する統計的制約のある様々な推論タスクにおいて容易に解釈可能な保証をもたらす。 基礎となる最適化問題は凸ではないが、特定の関数の下側凸や上側凹部を等価に表現することにより、閉形式のボトルネック問題を評価できる手法を開発した。 この手法をバイナリケースに適用することにより、いくつかのボトルネック問題に対してクローズドフォーム式を導出する。

Information bottleneck (IB) and privacy funnel (PF) are two closely related optimization problems which have found applications in machine learning, design of privacy algorithms, capacity problems (e.g., Mrs. Gerber's Lemma), strong data processing inequalities, among others. In this work, we first investigate the functional properties of IB and PF through a unified theoretical framework. We then connect them to three information-theoretic coding problems, namely hypothesis testing against independence, noisy source coding and dependence dilution. Leveraging these connections, we prove a new cardinality bound for the auxiliary variable in IB, making its computation more tractable for discrete random variables. In the second part, we introduce a general family of optimization problems, termed as \textit{bottleneck problems}, by replacing mutual information in IB and PF with other notions of mutual information, namely $f$-information and Arimoto's mutual information. We then argue that, unlike IB and PF, these problems lead to easily interpretable guarantee in a variety of inference tasks with statistical constraints on accuracy and privacy. Although the underlying optimization problems are non-convex, we develop a technique to evaluate bottleneck problems in closed form by equivalently expressing them in terms of lower convex or upper concave envelope of certain functions. By applying this technique to binary case, we derive closed form expressions for several bottleneck problems.
翻訳日:2022-09-26 08:06:21 公開日:2020-11-12
# 非インタラクティブな負荷監視におけるプライバシ保護 - 異なるプライバシの観点から

Privacy Preserving in Non-Intrusive Load Monitoring: A Differential Privacy Perspective ( http://arxiv.org/abs/2011.06205v1 )

ライセンス: Link先を確認
Haoxiang Wang and Jiasheng Zhang and Chenbei Lu and Chenye Wu(参考訳) スマートメータデバイスは、プライベートな情報漏洩の潜在的なリスクにおける需要の理解を深める。 このようなリスクを軽減する有望な解決策の1つは、一定のレベルの差分プライバシーを達成するためにメーターデータにノイズを注入することである。 本稿では,圧縮センシングフレームワークに一発非侵入負荷モニタリング(NILM)を投入し,NILM推論の理論的精度と差分プライバシのパラメータとのギャップを埋める。 次に、有効な理論的境界を導出し、差分プライバシーパラメータがNILMの性能に与える影響について考察する。 さらに,マルチショットNILM問題を解くために階層的枠組みを提案することで,結論を一般化する。 数値実験により解析結果が検証され,様々な実用シナリオにおける微分プライバシーの物理的洞察が得られた。 また,一般のプライバシー保護機構設計における作業の重要性も示している。

Smart meter devices enable a better understanding of the demand at the potential risk of private information leakage. One promising solution to mitigating such risk is to inject noises into the meter data to achieve a certain level of differential privacy. In this paper, we cast one-shot non-intrusive load monitoring (NILM) in the compressive sensing framework, and bridge the gap between theoretical accuracy of NILM inference and differential privacy's parameters. We then derive the valid theoretical bounds to offer insights on how the differential privacy parameters affect the NILM performance. Moreover, we generalize our conclusions by proposing the hierarchical framework to solve the multi-shot NILM problem. Numerical experiments verify our analytical results and offer better physical insights of differential privacy in various practical scenarios. This also demonstrates the significance of our work for the general privacy preserving mechanism design.
翻訳日:2022-09-26 08:02:13 公開日:2020-11-12
# ゴール駆動型アナリスト向けコマンドレコメンデーション

Goal-driven Command Recommendations for Analysts ( http://arxiv.org/abs/2011.06237v1 )

ライセンス: Link先を確認
Samarth Aggarwal, Rohin Garg, Abhilasha Sancheti, Bhanu Prakash Reddy Guda, Iftikhar Ahamath Burhanuddin(参考訳) 近年、データ分析ソフトウェアアプリケーションは、アナリストの意思決定プロセスにおいて不可欠な部分となっている。 これらのソフトウェアアプリケーションのユーザは、大量の非構造化ログデータを生成する。 これらのログにはユーザの目標の手がかりが含まれており、従来のレコメンデータシステムはログデータから暗黙的にモデル化することが難しい可能性がある。 この仮定では、コマンドレコメンデーションを通じて、ユーザの分析プロセスを支援したいと思っています。 私たちはコマンドをソフトウェアとデータカテゴリに分類し、その目的に基づいて手元のタスクを遂行します。 データコマンドに繋がるコマンドのシーケンスが後者のよい予測子であるという前提のもと、我々は様々なシーケンスモデリング技術を設計し、開発し、検証する。 本稿では,非構造化ログを活用することで,ユーザに対して目標駆動型データコマンドレコメンデーションを提供するフレームワークを提案する。 我々は、Webベースの分析ソフトウェアのログデータを使用して、ニューラルネットワークモデルをトレーニングし、関連する、競合するベースラインと比較してパフォーマンスを定量化します。 提案する目標情報に基づいて,推奨データコマンドをカスタマイズするカスタムロス関数を提案する。 また,提案手法の目標方向の度合いを推定する評価指標を提案する。 提案した指標を用いてモデルの評価を行い, ユーザアクティビティが選択した目標と一致していない場合, オフライン評価によって, モデルの堅牢性を示すことによって, アプローチの可能性を実証する。

Recent times have seen data analytics software applications become an integral part of the decision-making process of analysts. The users of these software applications generate a vast amount of unstructured log data. These logs contain clues to the user's goals, which traditional recommender systems may find difficult to model implicitly from the log data. With this assumption, we would like to assist the analytics process of a user through command recommendations. We categorize the commands into software and data categories based on their purpose to fulfill the task at hand. On the premise that the sequence of commands leading up to a data command is a good predictor of the latter, we design, develop, and validate various sequence modeling techniques. In this paper, we propose a framework to provide goal-driven data command recommendations to the user by leveraging unstructured logs. We use the log data of a web-based analytics software to train our neural network models and quantify their performance, in comparison to relevant and competitive baselines. We propose a custom loss function to tailor the recommended data commands according to the goal information provided exogenously. We also propose an evaluation metric that captures the degree of goal orientation of the recommendations. We demonstrate the promise of our approach by evaluating the models with the proposed metric and showcasing the robustness of our models in the case of adversarial examples, where the user activity is misaligned with selected goal, through offline evaluation.
翻訳日:2022-09-26 08:01:59 公開日:2020-11-12
# 畳み込みオートエンコーダを用いたOFDMシステムの低PAPR波形設計

Low PAPR waveform design for OFDM SYSTEM based on Convolutional Auto-Encoder ( http://arxiv.org/abs/2011.06349v1 )

ライセンス: Link先を確認
Yara Huleihel and Eilam Ben-Dror and Haim H. Permuter(参考訳) 本稿では、直交周波数分割多重化(OFDM)システムにおいて、ピーク対平均電力比(PAPR)低減と波形設計のための畳み込みオートエンコーダ(CAE)のアーキテクチャを提案する。 提案アーキテクチャは,PAPR削減ブロックと非線形高出力増幅器(HPA)モデルを統合する。 段階的損失学習を多目的最適化に適用する。 本稿では,ビット誤り率 (BER) , PAPR, スペクトル応答を解析し, 一般的なPAPR削減アルゴリズムと比較する。

This paper introduces the architecture of a convolutional autoencoder (CAE) for the task of peak-to-average power ratio (PAPR) reduction and waveform design, for orthogonal frequency division multiplexing (OFDM) systems. The proposed architecture integrates a PAPR reduction block and a non-linear high power amplifier (HPA) model. We apply gradual loss learning for multi-objective optimization. We analyze the models performance by examining the bit error rate (BER), the PAPR and the spectral response, and comparing them with common PAPR reduction algorithms.
翻訳日:2022-09-26 08:01:16 公開日:2020-11-12
# 多数投票による分散スパースSGD

Distributed Sparse SGD with Majority Voting ( http://arxiv.org/abs/2011.06495v1 )

ライセンス: Link先を確認
Kerem Ozfatura and Emre Ozfatura and Deniz Gunduz(参考訳) 分散学習、特に分散確率勾配降下(dsgd)の変種は、複数の労働者の計算資源を活用してトレーニングをスピードアップするために広く使われている。 しかし,実践では,作業者とパラメータサーバの間で大量の情報交換を行う必要があるため,通信遅延がボトルネックとなる。 通信ボトルネックを軽減する最も効率的な戦略の1つは、トップKスペーシングである。 しかし、トップkスパーシフィケーションはスパーシリティパターンを表現するために追加の通信負荷を必要とし、労働者のスパーシティパターン間のミスマッチは効率的な通信プロトコルの利用を妨げている。 これらの問題に対処するために、労働者はまずスパース表現の構造に関する合意を求める新しい多数決ベースのスパースコミュニケーション戦略を導入する。 この戦略は通信負荷を大幅に削減し、両方の通信方向において同じスパーシティレベルを使用できる。 CIFAR-10データセットの広範なシミュレーションにより、テスト精度を損なうことなく、最大でx4000圧縮を実現することができることを示す。

Distributed learning, particularly variants of distributed stochastic gradient descent (DSGD), are widely employed to speed up training by leveraging computational resources of several workers. However, in practise, communication delay becomes a bottleneck due to the significant amount of information that needs to be exchanged between the workers and the parameter server. One of the most efficient strategies to mitigate the communication bottleneck is top-K sparsification. However, top-K sparsification requires additional communication load to represent the sparsity pattern, and the mismatch between the sparsity patterns of the workers prevents exploitation of efficient communication protocols. To address these issues, we introduce a novel majority voting based sparse communication strategy, in which the workers first seek a consensus on the structure of the sparse representation. This strategy provides a significant reduction in the communication load and allows using the same sparsity level in both communication directions. Through extensive simulations on the CIFAR-10 dataset, we show that it is possible to achieve up to x4000 compression without any loss in the test accuracy.
翻訳日:2022-09-26 08:00:41 公開日:2020-11-12
# スパースPCA:アルゴリズム、逆摂動、証明書

Sparse PCA: Algorithms, Adversarial Perturbations and Certificates ( http://arxiv.org/abs/2011.06585v1 )

ライセンス: Link先を確認
Tommaso d'Orsi, Pravesh K. Kothari, Gleb Novikov, David Steurer(参考訳) 標準統計モデル(spiked covariance in its wishart form)におけるスパースpcaの効率的なアルゴリズムについて検討した。 我々の目標は、小さな摂動に耐えつつ、最適な回復保証を達成することである。 摂動レジリエンスの明示的な研究を含む先行研究の長い歴史にもかかわらず、スパースPCAのアルゴリズム的保証は脆弱であり、小さな対向摂動の下で破壊される。 乱行列のスパース固有値上の上限値の証明に基づく摂動レジリエンスと \emph{certification algorithm} の基本的な関係を観測する。 他の手法とは対照的に、ブルート力最大確率推定器を含む証明アルゴリズムは、小さな逆摂動に対して自動的に頑健である。 この接続を用いて,乱数行列のスパース固有値上の上界に対する新しい効率的な証明を得ることにより,加法的摂動に対して弾力性のある問題に対する最初の多項式時間アルゴリズムを得る。 我々のアルゴリズムは、基本半定値プログラミングか、パラメータ規則によって強化される低次2乗和に基づいている。 それらの保証は、未知ベクトルのスパース性、サンプル数、および周囲の次元の観点から、最もよく知られた \emph{fragile} アルゴリズムの保証と一致または接近する。 アルゴリズム計算の結果を補完するため,低次多項式に基づく自然計算モデルにおいて,弱多項式時間アルゴリズムとロバスト多項式時間アルゴリズムのギャップを満たした厳密な下限を証明し,関連する統計的推定問題の最もよく知られた保証を捉えた。 これらの結果の組み合わせは、堅牢性を達成するために支払う固有の価格の正式な証拠を提供する。

We study efficient algorithms for Sparse PCA in standard statistical models (spiked covariance in its Wishart form). Our goal is to achieve optimal recovery guarantees while being resilient to small perturbations. Despite a long history of prior works, including explicit studies of perturbation resilience, the best known algorithmic guarantees for Sparse PCA are fragile and break down under small adversarial perturbations. We observe a basic connection between perturbation resilience and \emph{certifying algorithms} that are based on certificates of upper bounds on sparse eigenvalues of random matrices. In contrast to other techniques, such certifying algorithms, including the brute-force maximum likelihood estimator, are automatically robust against small adversarial perturbation. We use this connection to obtain the first polynomial-time algorithms for this problem that are resilient against additive adversarial perturbations by obtaining new efficient certificates for upper bounds on sparse eigenvalues of random matrices. Our algorithms are based either on basic semidefinite programming or on its low-degree sum-of-squares strengthening depending on the parameter regimes. Their guarantees either match or approach the best known guarantees of \emph{fragile} algorithms in terms of sparsity of the unknown vector, number of samples and the ambient dimension. To complement our algorithmic results, we prove rigorous lower bounds matching the gap between fragile and robust polynomial-time algorithms in a natural computational model based on low-degree polynomials (closely related to the pseudo-calibration technique for sum-of-squares lower bounds) that is known to capture the best known guarantees for related statistical estimation problems. The combination of these results provides formal evidence of an inherent price to pay to achieve robustness.
翻訳日:2022-09-26 07:55:36 公開日:2020-11-12
# 並列癌ディープラーニングCANDLEベンチマークの性能とパワーモデリングのためのアンサンブル学習の利用と改善

Utilizing Ensemble Learning for Performance and Power Modeling and Improvement of Parallel Cancer Deep Learning CANDLE Benchmarks ( http://arxiv.org/abs/2011.06654v1 )

ライセンス: Link先を確認
Xingfu Wu and Valerie Taylor(参考訳) 機械学習(ML)は、ほぼすべてのドメインにおいて重要性を増し続けており、データから学ぶためのモデリングの自然なツールである。 しばしば、バイアスと分散を最小化するモデルの能力の間にトレードオフが存在する。 本稿では,アンサンブル学習を用いて線形,非線形,木/ルールに基づくML手法を組み合わせてバイアス分散トレードオフに対処し,より正確なモデルを得る。 ハードウェア性能カウンタ値は、基礎となるシステムの性能とパワーに影響を与えるアプリケーションの特性と相関する。 並列がんディープラーニングCANDLEベンチマークであるNT3(弱スケーリング)とP1B2(強スケーリング)で収集されたデータセットを使用して、単一オブジェクトと複数オブジェクトのアンサンブル学習を使用してハードウェアパフォーマンスカウンタに基づくパフォーマンスとパワーモデルを構築し、改善のための最も重要なカウンタを特定する。 これらのモデルから得られた知見に基づき、Argonne National LaboratoryのCray XC40 Thetaにおいて、TensorFlow、Keras、Horovod、Pythonといったディープラーニング環境を8MBの巨大なページサイズで最適化することにより、P1B2とNT3のパフォーマンスとエネルギーを改善する。 実験の結果、アンサンブル学習はより正確なモデルを生成するだけでなく、より堅牢なパフォーマンスカウンタランキングを提供することが示された。 我々は、p1b2の最大61.15%、最大62.58%の省エネ、55.81%の性能改善、最大24,576コアのnt3の52.60%の省エネを実現しました。

Machine learning (ML) continues to grow in importance across nearly all domains and is a natural tool in modeling to learn from data. Often a tradeoff exists between a model's ability to minimize bias and variance. In this paper, we utilize ensemble learning to combine linear, nonlinear, and tree-/rule-based ML methods to cope with the bias-variance tradeoff and result in more accurate models. Hardware performance counter values are correlated with properties of applications that impact performance and power on the underlying system. We use the datasets collected for two parallel cancer deep learning CANDLE benchmarks, NT3 (weak scaling) and P1B2 (strong scaling), to build performance and power models based on hardware performance counters using single-object and multiple-objects ensemble learning to identify the most important counters for improvement. Based on the insights from these models, we improve the performance and energy of P1B2 and NT3 by optimizing the deep learning environments TensorFlow, Keras, Horovod, and Python under the huge page size of 8 MB on the Cray XC40 Theta at Argonne National Laboratory. Experimental results show that ensemble learning not only produces more accurate models but also provides more robust performance counter ranking. We achieve up to 61.15% performance improvement and up to 62.58% energy saving for P1B2 and up to 55.81% performance improvement and up to 52.60% energy saving for NT3 on up to 24,576 cores.
翻訳日:2022-09-26 07:54:35 公開日:2020-11-12
# MuMMIと10の機械学習手法による性能と電力モデリングと予測

Performance and Power Modeling and Prediction Using MuMMI and Ten Machine Learning Methods ( http://arxiv.org/abs/2011.06655v1 )

ライセンス: Link先を確認
Xingfu Wu, Valerie Taylor, and Zhiling Lan(参考訳) 本稿では,モデリング・予測ツール MuMMI (Multiple Metrics Modeling Infrastructure) と10種類の機械学習手法を用いて,性能・パワーをモデル化・予測し,予測誤差率を比較する。 我々は、耐故障線形代数符号と耐故障熱分布符号を用いて、アルゴンヌ国立研究所のCray XC40 ThetaとIBM BG/Q Miraとサンディア国立研究所のIntel HaswellクラスタShepardのモデリングおよび予測研究を行う。 実験の結果,MMMIを用いた性能・パワーの予測誤差は,ほとんどの場合10%未満であることがわかった。 ランタイム、ノードパワー、cpuパワー、メモリパワーのモデルに基づいて、アプリケーション特性やターゲットアーキテクチャに関連する潜在的な最適化作業において最も重要なパフォーマンスカウンタを特定し、潜在的な最適化の理論的結果を予測する。 MuMMIを用いた予測精度と10種類の機械学習手法を用いた予測精度を比較すると、MuMMIは性能とパワーの両方においてより正確な予測をもたらすだけでなく、パフォーマンスカウンターが性能とパワーモデルに与える影響を示す。 これは、エネルギー効率のためにアプリケーションやシステムを微調整する方法に関する洞察を提供する。

In this paper, we use modeling and prediction tool MuMMI (Multiple Metrics Modeling Infrastructure) and ten machine learning methods to model and predict performance and power and compare their prediction error rates. We use a fault-tolerant linear algebra code and a fault-tolerant heat distribution code to conduct our modeling and prediction study on the Cray XC40 Theta and IBM BG/Q Mira at Argonne National Laboratory and the Intel Haswell cluster Shepard at Sandia National Laboratories. Our experiment results show that the prediction error rates in performance and power using MuMMI are less than 10% for most cases. Based on the models for runtime, node power, CPU power, and memory power, we identify the most significant performance counters for potential optimization efforts associated with the application characteristics and the target architectures, and we predict theoretical outcomes of the potential optimizations. When we compare the prediction accuracy using MuMMI with that using 10 machine learning methods, we observe that MuMMI not only results in more accurate prediction in both performance and power but also presents how performance counters impact the performance and power models. This provides some insights about how to fine-tune the applications and/or systems for energy efficiency.
翻訳日:2022-09-26 07:54:07 公開日:2020-11-12
# ビッグデータのためのOccams Razor? 大規模非構造データセットの品質検出について

Occams Razor for Big Data? On Detecting Quality in Large Unstructured Datasets ( http://arxiv.org/abs/2011.08663v1 )

ライセンス: Link先を確認
Birgitta Dresp-Langley, Ole Kristian Ekseth, Jan Fesl, Seiichi Gohshi, Marc Kurz, Hans-Werner Sehring(参考訳) 大規模な非構造化データセットの品質を検出するには、人間の知覚と通信性の限界をはるかに超える能力が必要であり、その結果、この問題に対処するためにデータサイエンスにおける複雑な分析ソリューションがますます増えている。 分析複雑性に対するこの新しい傾向は、科学におけるparsimonyやoccams razorの原理に対する厳しい挑戦を表している。 本稿では、物理、計算科学、データ工学、認知科学など、さまざまな分野の知見を組み合わせて、ビッグデータの特定の特性をレビューする。 パーシモニーの原理を損なうことなくデータ品質を検出する問題は、具体的な例に基づいて強調される。 データクラスタリングのための計算的ビルディングブロックアプローチは、構造化されていない大規模なデータセットを最小限の計算時間で処理するのに役立つ。 ビッグデータを賢く活用する専門知識が不足している理由として,特定のタスクに関する関連情報を抽出したり,パターンを認識したり,新たな情報を生成したり,あるいは大量のセンサデータを格納したり,さらに処理したりする場合があります。 このレビューは、東アジアと西部の文化的な違いがビッグデータ分析の過程にどのように影響するか、そして近い将来、ビッグデータの崩壊に対処するための自律的な人工知能の開発について結論付けている。

Detecting quality in large unstructured datasets requires capacities far beyond the limits of human perception and communicability and, as a result, there is an emerging trend towards increasingly complex analytic solutions in data science to cope with this problem. This new trend towards analytic complexity represents a severe challenge for the principle of parsimony or Occams Razor in science. This review article combines insight from various domains such as physics, computational science, data engineering, and cognitive science to review the specific properties of big data. Problems for detecting data quality without losing the principle of parsimony are then highlighted on the basis of specific examples. Computational building block approaches for data clustering can help to deal with large unstructured datasets in minimized computation time, and meaning can be extracted rapidly from large sets of unstructured image or video data parsimoniously through relatively simple unsupervised machine learning algorithms. Why we still massively lack in expertise for exploiting big data wisely to extract relevant information for specific tasks, recognize patterns, generate new information, or store and further process large amounts of sensor data is then reviewed; examples illustrating why we need subjective views and pragmatic methods to analyze big data contents are brought forward. The review concludes on how cultural differences between East and West are likely to affect the course of big data analytics, and the development of increasingly autonomous artificial intelligence aimed at coping with the big data deluge in the near future.
翻訳日:2022-09-26 07:53:24 公開日:2020-11-12
# 心拍数と血圧によるCOVID-19の検出:ARDS患者から学んだ教訓

Detection of COVID-19 Using Heart Rate and Blood Pressure: Lessons Learned from Patients with ARDS ( http://arxiv.org/abs/2011.10470v1 )

ライセンス: Link先を確認
Milad Asgari Mehrabadi, Seyed Amir Hossein Aqajari, Iman Azimi, Charles A Downs, Nikil Dutt and Amir M Rahmani(参考訳) 世界は新型コロナウイルスの影響を受けている。 本研究の時点で、米国における感染者数は世界でも最も多い(790万人)。 感染集団内では、急性呼吸窮迫症候群(ards)と診断された患者は、より生命を脅かす状況にあり、深刻な呼吸系障害を引き起こす。 さまざまな研究が、検査項目や症状を監視して、covid-19やardsへの感染を調査している。 残念ながら、これらの方法は単に臨床設定に限定されており、症状に基づく方法は効果がないことが示されている。 対照的に、バイタルサイン(例えば心拍数)は、ユビキタス健康モニタリングにおいて早期に検出される様々な呼吸器疾患に利用されてきた。 このようなバイオマーカーは、COVID-19に感染したARDS患者を識別する上で有益なものであると仮定する。 本研究では,簡単なバイタルサインを用いて,ARDS患者に対するCOVID-19の挙動を検討した。 カリフォルニア大学ヘルスセンターに入院した70人のARDS患者(各バイタルサインのサンプル42506例を含む)の血圧と心拍数の長期記録を分析し、新型コロナウイルス陽性および陰性検査結果の鑑別を行った。 統計的解析に加えて,長手データから特徴を抽出するディープニューラルネットワークモデルを開発した。 データの最初の8日間で、私たちのディープラーニングモデルは78.79%の精度で、新型コロナウイルスに感染したARDS患者と診断された他のARDS患者の重要な兆候を分類することができます。

The world has been affected by COVID-19 coronavirus. At the time of this study, the number of infected people in the United States is the highest globally (7.9 million infections). Within the infected population, patients diagnosed with acute respiratory distress syndrome (ARDS) are in more life-threatening circumstances, resulting in severe respiratory system failure. Various studies have investigated the infections to COVID-19 and ARDS by monitoring laboratory metrics and symptoms. Unfortunately, these methods are merely limited to clinical settings, and symptom-based methods are shown to be ineffective. In contrast, vital signs (e.g., heart rate) have been utilized to early-detect different respiratory diseases in ubiquitous health monitoring. We posit that such biomarkers are informative in identifying ARDS patients infected with COVID-19. In this study, we investigate the behavior of COVID-19 on ARDS patients by utilizing simple vital signs. We analyze the long-term daily logs of blood pressure and heart rate associated with 70 ARDS patients admitted to five University of California academic health centers (containing 42506 samples for each vital sign) to distinguish subjects with COVID-19 positive and negative test results. In addition to the statistical analysis, we develop a deep neural network model to extract features from the longitudinal data. Using only the first eight days of the data, our deep learning model is able to achieve 78.79% accuracy to classify the vital signs of ARDS patients infected with COVID-19 versus other ARDS diagnosed patients.
翻訳日:2022-09-26 07:52:59 公開日:2020-11-12
# ワーン・オン・フォアキャストシステムにおける大気象災害のストームスケール確率的誘導の機械学習による校正

Using Machine Learning to Calibrate Storm-Scale Probabilistic Guidance of Severe Weather Hazards in the Warn-on-Forecast System ( http://arxiv.org/abs/2012.00679v1 )

ライセンス: Link先を確認
Montgomery Flora, Corey K. Potvin, Patrick S. Skinner, Shawn Handler, Amy McGovern(参考訳) 海洋大気庁(NOAA)のWarn-on-Forecast(WoF)計画の主な目標は、短期(例えば0-3h)の厳しい天気予報のために、ヒトの予測者に対して急速に更新された確率的ガイダンスを提供することである。 対流許容モデル予測のアンサンブルによる確率的厳しい気象誘導の有用性の最大化にはキャリブレーションが必要である。 本研究では,WoFSの厳しい天気予報を校正するための一連の機械学習(ML)アルゴリズムと,アップドラフトヘリシティを用いた簡単な手法のスキルを比較した。 MLモデルは、複数の変数を活用し、複雑なデータセットで有用なパターンを発見するため、厳しい天気予報の調整にしばしば使用される。 私たちのデータセットには、2017-2019 NOAA Hazardous Weather Testbed Spring Forecasting Experiments (81日)から5分毎のWoF System(WoFS)アンサンブル予測が、リードタイムから150分毎の時間で利用可能です。 そこで本研究では,wofs予測から,風内状態変数,ニアストーム環境変数,および風向ストームトラックの形態的属性の3種類の予測器を抽出した。 次に,ランダム林,傾斜ブースト木,ロジスティック回帰アルゴリズムを訓練し,どのwofs30分アンサンブル・ストーム・トラックが竜巻・激しい鳴き声・激しい風速に対応するかを予測する。 簡単な方法として,各アンサンブル・ストームトラックから,高度約2-5kmの高高度ヘリシティ (UH) のアンサンブル確率をしきい値(重度気象危険度毎に調整)以上で抽出した。 3つのMLアルゴリズムは3つのハザードに対してよく識別され、UHベースの予測よりも信頼性の高い確率が得られた。 総じて,mlに基づく動的アンサンブル出力の校正は,短期的な嵐スケールの深刻な気象予報を改善できることが示唆された。

A primary goal of the National Oceanic and Atmospheric Administration (NOAA) Warn-on-Forecast (WoF) project is to provide rapidly updating probabilistic guidance to human forecasters for short-term (e.g., 0-3 h) severe weather forecasts. Maximizing the usefulness of probabilistic severe weather guidance from an ensemble of convection-allowing model forecasts requires calibration. In this study, we compare the skill of a simple method using updraft helicity against a series of machine learning (ML) algorithms for calibrating WoFS severe weather guidance. ML models are often used to calibrate severe weather guidance since they leverage multiple variables and discover useful patterns in complex datasets. \indent Our dataset includes WoF System (WoFS) ensemble forecasts available every 5 minutes out to 150 min of lead time from the 2017-2019 NOAA Hazardous Weather Testbed Spring Forecasting Experiments (81 dates). Using a novel ensemble storm track identification method, we extracted three sets of predictors from the WoFS forecasts: intra-storm state variables, near-storm environment variables, and morphological attributes of the ensemble storm tracks. We then trained random forests, gradient-boosted trees, and logistic regression algorithms to predict which WoFS 30-min ensemble storm tracks will correspond to a tornado, severe hail, and/or severe wind report. For the simple method, we extracted the ensemble probability of 2-5 km updraft helicity (UH) exceeding a threshold (tuned per severe weather hazard) from each ensemble storm track. The three ML algorithms discriminated well for all three hazards and produced more reliable probabilities than the UH-based predictions. Overall, the results suggest that ML-based calibrations of dynamical ensemble output can improve short term, storm-scale severe weather probabilistic guidance
翻訳日:2022-09-26 07:52:36 公開日:2020-11-12
# 深層学習におけるコンテンツに基づく画像検索とセマンティックギャップ

Content-based Image Retrieval and the Semantic Gap in the Deep Learning Era ( http://arxiv.org/abs/2011.06490v1 )

ライセンス: Link先を確認
Bj\"orn Barz, Joachim Denzler(参考訳) コンテンツに基づく画像検索は過去10年間で驚くべき進歩を遂げてきた。 このシナリオはインスタンスまたはオブジェクト検索と呼ばれ、画像間のきめ細かい視覚パターンをマッチングする必要がある。 しかし、セマンティックスは重要な役割を果たさない。 インスタンス検索の最近の進歩は、より一般的な画像検索のシナリオに移行していますか? この質問に答えるために、まずインスタンス検索の最も関連するマイルストーンの概要を説明します。 次に、意味的画像検索タスクに適用し、画像理解を必要とする設定において、より洗練されていない、より汎用的なメソッドよりも性能が劣ることを示す。 これに続いて,前世界の知識を統合することによって,いわゆる意味的ギャップを解消する既存のアプローチについて検討する。 セマンティック画像検索のさらなる進歩の鍵となる問題は、標準化されたタスク定義と適切なベンチマークデータセットの欠如にあると結論付けている。

Content-based image retrieval has seen astonishing progress over the past decade, especially for the task of retrieving images of the same object that is depicted in the query image. This scenario is called instance or object retrieval and requires matching fine-grained visual patterns between images. Semantics, however, do not play a crucial role. This brings rise to the question: Do the recent advances in instance retrieval transfer to more generic image retrieval scenarios? To answer this question, we first provide a brief overview of the most relevant milestones of instance retrieval. We then apply them to a semantic image retrieval task and find that they perform inferior to much less sophisticated and more generic methods in a setting that requires image understanding. Following this, we review existing approaches to closing this so-called semantic gap by integrating prior world knowledge. We conclude that the key problem for the further advancement of semantic image retrieval lies in the lack of a standardized task definition and an appropriate benchmark dataset.
翻訳日:2022-09-26 07:52:00 公開日:2020-11-12
# 3Dプリントキャリブレーションファントムを用いた分解性フィールドワークCTスキャナ

Disassemblable Fieldwork CT Scanner Using a 3D-printed Calibration Phantom ( http://arxiv.org/abs/2011.06671v1 )

ライセンス: Link先を確認
Florian Schiffers, Thomas Bochynek, Andre Aichert, Tobias W\"urfl, Michael Rubenstein, Oliver Cossairt(参考訳) ct(ct)イメージングの利用は、医学画像や産業検査の分野以外の学術分野、例えば生物学や文化遺産研究への関心が高まっている。 しかし、これらの分野のペキュラリティは、例えばフィールドワークや博物館のコレクションなど、現場でオブジェクトを撮影する必要がある場合もあります。 このような状況下では、しばしば商用デバイスの使用は不可能であり、カスタムソリューションが唯一の選択肢である。 悪条件下で高画質を実現するために、信頼性キャリブレーションと軌道再生は、通常、任意のカスタムCTスキャンシステムにおいて重要な要件である。 本稿では,プロジェクト条件の制約により軌道再生が不可能な場合でもキャリブレーションが可能な安価な分解性CTスキャナの構築について紹介する。 3dプリントインイメージキャリブレーションファントムを用いて,各x線投影から投影行列を直接計算する。 提案手法を詳述し,いくつかの標本のトモグラフィー再構成に成功したことを概念実証として示す。

The use of computed tomography (CT) imaging has become of increasing interest to academic areas outside of the field of medical imaging and industrial inspection, e.g., to biology and cultural heritage research. The pecularities of these fields, however, sometimes require that objects need to be imaged on-site, e.g., in field-work conditions or in museum collections. Under these circumstances, it is often not possible to use a commercial device and a custom solution is the only viable option. In order to achieve high image quality under adverse conditions, reliable calibration and trajectory reproduction are usually key requirements for any custom CT scanning system. Here, we introduce the construction of a low-cost disassemblable CT scanner that allows calibration even when trajectory reproduction is not possible due to the limitations imposed by the project conditions. Using 3D-printed in-image calibration phantoms, we compute a projection matrix directly from each captured X-ray projection. We describe our method in detail and show successful tomographic reconstructions of several specimen as proof of concept.
翻訳日:2022-09-26 07:51:47 公開日:2020-11-12
# セネガルにおける新型コロナウイルスの進化 : 医療能力の影響

Analysis of COVID-19 evolution in Senegal: impact of health care capacity ( http://arxiv.org/abs/2011.06278v1 )

ライセンス: Link先を確認
Mouhamed M. Fall, Babacar M. Ndiaye, Ousmane Seydi, Diaraf Seck(参考訳) 我々は,ロジスティック成長を伴う時間依存型医療能力を取り入れた区画モデルを考える。 これにより、セネガル当局の対応を考慮に入れ、感染者の増加を予測できます。 我々は,患者の治療や医療従事者の幸福感に大きく影響を及ぼすような過大な事態を避けるための予測とタイミングの重要性を強調した。 医療能力や新規入院者の流入状況に応じて、圧倒的な可能性を避けるための条件が設けられている。 また,2020年3月02日から12月1日までの累積症例数を予測するために,機械学習アプローチも使用しています。

We consider a compartmental model from which we incorporate a time-dependent health care capacity having a logistic growth. This allows us to take into account the Senegalese authorities response in anticipating the growing number of infected cases. We highlight the importance of anticipation and timing to avoid overwhelming that could impact considerably the treatment of patients and the well-being of health care workers. A condition, depending on the health care capacity and the flux of new hospitalized individuals, to avoid possible overwhelming is provided. We also use machine learning approach to project forward the cumulative number of cases from March 02, 2020, until 1st December, 2020.
翻訳日:2022-09-26 07:44:59 公開日:2020-11-12
# 変分近似に基づく経験的確率abc法について

On a Variational Approximation based Empirical Likelihood ABC Method ( http://arxiv.org/abs/2011.07721v1 )

ライセンス: Link先を確認
Sanjay Chaudhuri and Subhroshekhar Ghosh and David J. Nott and Kim Cuc Pham(参考訳) 自然科学、工学、環境科学における科学的によく動機づけられた統計モデルは、生成過程を通じて特定される。 しかし、場合によっては、分析的にこれらのモデルの可能性を書き留めることはできないかもしれない。 近似ベイズ計算(abc)法はそのような状況でベイズ推論を可能にする。 しかしながら、手順は一般に計算集約的である。 近年,計算学的に魅力的な経験的確率に基づくabc法が文献に提案されている。 これらの手法はすべて、解析的に扱いやすいいくつかの推定式が利用可能であることに依拠しており、これはしばしば問題となる。 本稿では,abc法による簡易な経験的可能性を提案する。 まず, 変分近似引数をモチベーションとして使用することにより, 対象のログポストリエータを, 期待されたジョイントログの類似度とデータ生成密度の微分エントロピーの和として近似できることを示す。 予測されたログの類似度は、必要な入力がサマリ統計、観測値、モデル下の任意のパラメータ値に対する選択されたサマリ統計をシミュレートする能力のみである経験的確率によって推定される。 微分エントロピーは従来の方法を用いてシミュレーションされた要約から推定される。 提案手法では後方整合性が確立され,本手法で要求されるサマリー数の境界を詳細に検討する。 提案手法の性能を様々な例で検討した。

Many scientifically well-motivated statistical models in natural, engineering, and environmental sciences are specified through a generative process. However, in some cases, it may not be possible to write down the likelihood for these models analytically. Approximate Bayesian computation (ABC) methods allow Bayesian inference in such situations. The procedures are nonetheless typically computationally intensive. Recently, computationally attractive empirical likelihood-based ABC methods have been suggested in the literature. All of these methods rely on the availability of several suitable analytically tractable estimating equations, and this is sometimes problematic. We propose an easy-to-use empirical likelihood ABC method in this article. First, by using a variational approximation argument as a motivation, we show that the target log-posterior can be approximated as a sum of an expected joint log-likelihood and the differential entropy of the data generating density. The expected log-likelihood is then estimated by an empirical likelihood where the only inputs required are a choice of summary statistic, it's observed value, and the ability to simulate the chosen summary statistics for any parameter value under the model. The differential entropy is estimated from the simulated summaries using traditional methods. Posterior consistency is established for the method, and we discuss the bounds for the required number of simulated summaries in detail. The performance of the proposed method is explored in various examples.
翻訳日:2022-09-26 07:44:48 公開日:2020-11-12
# CNN-BiLSTMによる心房細動の検出と心電図分類

Atrial Fibrillation Detection and ECG Classification based on CNN-BiLSTM ( http://arxiv.org/abs/2011.06187v1 )

ライセンス: Link先を確認
Jiacheng Wang and Weiheng Li(参考訳) 心電図(ECG)信号から心疾患を視覚的に検出することは困難である。 自動心電図信号検出システムの実装は、診断の正確性を改善するために不整脈の診断に役立つ。 本稿では,正常洞信号,心房細動,その他の雑音信号の分類に,畳み込みニューラルネットワーク(CNN)と長期記憶(LSTM)を組み合わせた2つの異なるフレームワークを用いた自動システムの提案,実装,比較を行った。 私たちが使ったデータセットはMIT-BIT Arrhythmia Physionetです。 提案手法は,2つの深層学習ネットワークのカスケードが結合よりも高い性能を示し,重み付きf1スコアが0.82であることを示した。 実験結果から,CNNとLSTMのカスケードがECG信号の識別において良好な性能を発揮することを確認した。

It is challenging to visually detect heart disease from the electrocardiographic (ECG) signals. Implementing an automated ECG signal detection system can help diagnosis arrhythmia in order to improve the accuracy of diagnosis. In this paper, we proposed, implemented, and compared an automated system using two different frameworks of the combination of convolutional neural network (CNN) and long-short term memory (LSTM) for classifying normal sinus signals, atrial fibrillation, and other noisy signals. The dataset we used is from the MIT-BIT Arrhythmia Physionet. Our approach demonstrated that the cascade of two deep learning network has higher performance than the concatenation of them, achieving a weighted f1 score of 0.82. The experimental results have successfully validated that the cascade of CNN and LSTM can achieve satisfactory performance on discriminating ECG signals.
翻訳日:2022-09-26 07:44:28 公開日:2020-11-12
# 歩行者の将来の動きの確率的予測による群集の予測航法

Anticipatory Navigation in Crowds by Probabilistic Prediction of Pedestrian Future Movements ( http://arxiv.org/abs/2011.06235v1 )

ライセンス: Link先を確認
Weiming Zhi, Tin Lai, Lionel Ott, Fabio Ramos(参考訳) 動的環境における人間とロボットの共存には、エージェントがお互いの動きを理解し、その動きを予測できる能力が重要である。 本稿では,歩行者の行動パターンを予測・説明しながら,非ホロノミックロボットが人混みの環境での移動を可能にするフレームワークである確率的プロセス予測ナビゲーション(SPAN)を提案する。 そこで我々は,歩行者の将来の動きをモデル化するために,連続時間確率過程を予測する予測モデルを学ぶ。 予測された歩行者位置は、衝突チェックの機会制限を行うために使用され、時間対衝突制御問題に組み込まれる。 占有マップも統合されており、静的障害物による確率的衝突チェックを可能にする。 密集したシミュレーション環境でのSPANの能力を実世界の歩行者データセットで示す。

Critical for the coexistence of humans and robots in dynamic environments is the capability for agents to understand each other's actions, and anticipate their movements. This paper presents Stochastic Process Anticipatory Navigation (SPAN), a framework that enables nonholonomic robots to navigate in environments with crowds, while anticipating and accounting for the motion patterns of pedestrians. To this end, we learn a predictive model to predict continuous-time stochastic processes to model future movement of pedestrians. Anticipated pedestrian positions are used to conduct chance constrained collision-checking, and are incorporated into a time-to-collision control problem. An occupancy map is also integrated to allow for probabilistic collision-checking with static obstacles. We demonstrate the capability of SPAN in crowded simulation environments, as well as with a real-world pedestrian dataset.
翻訳日:2022-09-26 07:43:59 公開日:2020-11-12
# フェデレーション学習における不均衡データ分類のためのFed-Focal Loss

Fed-Focal Loss for imbalanced data classification in Federated Learning ( http://arxiv.org/abs/2011.06283v1 )

ライセンス: Link先を確認
Dipankar Sarkar, Ankur Narang, Sumit Rai(参考訳) フェデレーション学習設定は、デバイスネットワーク上のモデルのトレーニングを調整する中央サーバを有する。 課題の1つは、データセットがクラス不均衡である場合の可変トレーニングパフォーマンスである。 本稿では,Fed-Focal Lossと呼ばれる新たな損失関数を導入することでこの問題に対処する。 焦点損失の線に沿って、適切に分類された例に割り当てられた損失を下げるように、クロスエントロピー損失を変形させることにより、クラス不均衡に対処することを提案する。 さらに,チューニング可能なサンプリングフレームワークを活用することで,中央サーバへの選択されたクライアントモデルの貢献を考慮して,トレーニング中に検出者をさらに集中させ,堅牢性を向上させる。 VIRTUAL(Variational Federated Multi-Task Learning)アプローチによる詳細な実験解析を用いて、MNIST、FEMNIST、VSN、HARベンチマークのバランスのとれたシナリオおよびアンバランスなシナリオにおいて、一貫して優れた性能を示す。 非バランスなMNISTベンチマークでは、9%以上(絶対パーセンテージ)の改善が得られた。 さらに,複数のフェデレーション学習アルゴリズムにまたがって,その手法を適用できることを示した。

The Federated Learning setting has a central server coordinating the training of a model on a network of devices. One of the challenges is variable training performance when the dataset has a class imbalance. In this paper, we address this by introducing a new loss function called Fed-Focal Loss. We propose to address the class imbalance by reshaping cross-entropy loss such that it down-weights the loss assigned to well-classified examples along the lines of focal loss. Additionally, by leveraging a tunable sampling framework, we take into account selective client model contributions on the central server to further focus the detector during training and hence improve its robustness. Using a detailed experimental analysis with the VIRTUAL (Variational Federated Multi-Task Learning) approach, we demonstrate consistently superior performance in both the balanced and unbalanced scenarios for MNIST, FEMNIST, VSN and HAR benchmarks. We obtain a more than 9% (absolute percentage) improvement in the unbalanced MNIST benchmark. We further show that our technique can be adopted across multiple Federated Learning algorithms to get improvements.
翻訳日:2022-09-26 07:43:46 公開日:2020-11-12
# マルチモーダル電子健康記録からのモーダル間対応と表現型学習

Learning Inter-Modal Correspondence and Phenotypes from Multi-Modal Electronic Health Records ( http://arxiv.org/abs/2011.06301v1 )

ライセンス: Link先を確認
Kejing Yin, William K. Cheung, Benjamin C. M. Fung, Jonathan Poon(参考訳) 非負のテンソル因子分解は、最小限の人間の監督で電子健康記録(ehr)から表現型を自動的に発見する実用的な方法であることが示されている。 このような方法は一般的に、モーダル間相互作用を事前に記述する入力テンソルを必要とするが、実際には異なるモーダル(例えば、薬物と診断の対応)間の対応が欠落することが多い。 ヒューリスティックな手法はそれらを推定するために応用できるが、必然的にエラーを導入し、準最適表現型の品質をもたらす。 これは、複数の診断と薬物が同時に記録されているため、複雑な健康状態(例えば、重篤なケア)の患者にとって特に重要である。 この問題を緩和し、未観測のモーダル対応を持つHRから表現型を発見するために、複数のモーダル間の対応を表現型発見と共同で推測する集合的隠れ相互作用テンソル因子化(cHITF)を提案する。 各モダリティに対する観測行列は観測された行列の確率を最大化することによって再構成される観測されていないモード間対応の限界化であると仮定する。 実世界のMIMIC-IIIデータセットで実施された大規模な実験により、cHITFは臨床的に意味のあるモーダル間対応を効果的に推論し、臨床的に関連性があり多様な表現型を発見し、最先端の計算表現型モデルと比較して予測性能が向上することが示された。

Non-negative tensor factorization has been shown a practical solution to automatically discover phenotypes from the electronic health records (EHR) with minimal human supervision. Such methods generally require an input tensor describing the inter-modal interactions to be pre-established; however, the correspondence between different modalities (e.g., correspondence between medications and diagnoses) can often be missing in practice. Although heuristic methods can be applied to estimate them, they inevitably introduce errors, and leads to sub-optimal phenotype quality. This is particularly important for patients with complex health conditions (e.g., in critical care) as multiple diagnoses and medications are simultaneously present in the records. To alleviate this problem and discover phenotypes from EHR with unobserved inter-modal correspondence, we propose the collective hidden interaction tensor factorization (cHITF) to infer the correspondence between multiple modalities jointly with the phenotype discovery. We assume that the observed matrix for each modality is marginalization of the unobserved inter-modal correspondence, which are reconstructed by maximizing the likelihood of the observed matrices. Extensive experiments conducted on the real-world MIMIC-III dataset demonstrate that cHITF effectively infers clinically meaningful inter-modal correspondence, discovers phenotypes that are more clinically relevant and diverse, and achieves better predictive performance compared with a number of state-of-the-art computational phenotyping models.
翻訳日:2022-09-26 07:43:26 公開日:2020-11-12
# タイルベース360度無線ビデオストリーミングにおけるクロス層最適化と分散強化学習手法

Cross Layer Optimization and Distributed Reinforcement Learning Approach for Tile-Based 360 Degree Wireless Video Streaming ( http://arxiv.org/abs/2011.06356v1 )

ライセンス: Link先を確認
Mounssif Krouka, Anis Elgabli, Mohammed S. Elbamby, Cristina Perfecto, Mehdi Bennis, Vaneet Aggarwal(参考訳) ワイヤレスで高品質の360度ビデオをストリーミングすることは、まだ難しい課題だ。 異なる360度ビデオを見たり、コンピューティングや通信リソースに競合するユーザがたくさんいる場合、ストリーミングアルゴリズムは、各ユーザに対して最小限のレートを保証しながら、平均品質(QoE)を最大化すべきである。 本稿では,各ユーザに対して利用可能なレートを最大化し,ユーザのQoEを最大化するために効率的に利用する,emph{cross layer}最適化手法を提案する。 特にタイルベースの360度ビデオストリーミングを検討し、各ユーザのQoEの最大化とユーザ間の公正性の確保とのトレードオフをバランスさせるQoEメトリックを最適化する。 問題は二つの相互関連部分問題に分解できることを示す。 (i)各ユーザのダウンロード率を求めることを目的とする物理層サブプロブレム 二 利用者のQoEが最大になるように、そのレートを用いてタイルごとの品質判定を行うことを目的とするアプリケーション層サブプロブレム。 本稿では,物理層サブプロブレムを低複雑性で最適に解くことを証明し,複数の独立エージェントの並列トレーニングを活用し,アプリケーション層サブプロブレムを解くために,アクター-クリティック深層強化学習(drl)を提案する。 大規模な実験により,提案手法の頑健さが明らかになり,いくつかのベースラインアルゴリズムと比較して顕著な性能向上が示された。

Wirelessly streaming high quality 360 degree videos is still a challenging problem. When there are many users watching different 360 degree videos and competing for the computing and communication resources, the streaming algorithm at hand should maximize the average quality of experience (QoE) while guaranteeing a minimum rate for each user. In this paper, we propose a \emph{cross layer} optimization approach that maximizes the available rate to each user and efficiently uses it to maximize users' QoE. Particularly, we consider a tile based 360 degree video streaming, and we optimize a QoE metric that balances the tradeoff between maximizing each user's QoE and ensuring fairness among users. We show that the problem can be decoupled into two interrelated subproblems: (i) a physical layer subproblem whose objective is to find the download rate for each user, and (ii) an application layer subproblem whose objective is to use that rate to find a quality decision per tile such that the user's QoE is maximized. We prove that the physical layer subproblem can be solved optimally with low complexity and an actor-critic deep reinforcement learning (DRL) is proposed to leverage the parallel training of multiple independent agents and solve the application layer subproblem. Extensive experiments reveal the robustness of our scheme and demonstrate its significant performance improvement compared to several baseline algorithms.
翻訳日:2022-09-26 07:42:58 公開日:2020-11-12
# 品質4.0 --産業4.0時代の透明製品品質管理

Quality4.0 -- Transparent product quality supervision in the age of Industry 4.0 ( http://arxiv.org/abs/2011.06502v1 )

ライセンス: Link先を確認
Jens Brandenburger, Christoph Schirm, Josef Melcher, Edgar Hancke, Marco Vannucci, Valentina Colla, Silvia Cateni, Rami Sellami, S\'ebastien Dupont, Annick Majchrowski, Asier Arteaga(参考訳) プログレッシブデジタル化は多くの産業分野のゲームを変えつつある。 製品の品質にフォーカスする このいわゆる業界 4.0の主な収益性要因は、サプライチェーン全体にわたる情報の水平的な統合です。 そのため、欧州のRFCSプロジェクト「Quality4.0」は、製品の品質に関する決定を公表し、顧客と個別に交換できる信頼性の高い情報を調整したアダプティブプラットフォームの開発を目指している。 このコンテキストでは、機械学習を使用して、品質データの異常値を検出する。 本稿では,この品質情報の水平統合に向けた中間プロジェクトの結果と概念について論じる。

Progressive digitalization is changing the game of many industrial sectors. Focus-ing on product quality the main profitability driver of this so-called Industry 4.0 will be the horizontal integration of information over the complete supply chain. Therefore, the European RFCS project 'Quality4.0' aims in developing an adap-tive platform, which releases decisions on product quality and provides tailored information of high reliability that can be individually exchanged with customers. In this context Machine Learning will be used to detect outliers in the quality data. This paper discusses the intermediate project results and the concepts developed so far for this horizontal integration of quality information.
翻訳日:2022-09-26 07:36:17 公開日:2020-11-12
# iCubヒューマノイドロボットを用いた話者定位のための自己教師付き強化学習

Self-supervised reinforcement learning for speaker localisation with the iCub humanoid robot ( http://arxiv.org/abs/2011.06544v1 )

ライセンス: Link先を確認
Jonas Gonzalez-Billandon, Lukas Grasse, Matthew Tata, Alessandra Sciutti, Francesco Rea(参考訳) 将来的にロボットはますます人間と対話し、自然に効率的にコミュニケーションしなければならない。 自動音声認識システム(asr)は、自然なインタラクションの作成とロボットのコンパニオン向上において重要な役割を果たす。 人間は雑音の多い環境で音声認識に優れ、ノイズを除去できる。 人の顔を見ることは、このような騒がしい環境で音声をフィルタリングする上で、人間が依存するメカニズムの1つです。 スピーカーに目を向けることができるロボットを持つことは、挑戦的な環境でasrのパフォーマンスに役立つだろう。 そこで本研究では,人間の早期発達に触発された自己教師型強化学習ベースのフレームワークを提案し,ロボットが後にディープラーニングネットワークで話者をローカライズするために使用されるデータセットを自律的に作成できるようにする。

In the future robots will interact more and more with humans and will have to communicate naturally and efficiently. Automatic speech recognition systems (ASR) will play an important role in creating natural interactions and making robots better companions. Humans excel in speech recognition in noisy environments and are able to filter out noise. Looking at a person's face is one of the mechanisms that humans rely on when it comes to filtering speech in such noisy environments. Having a robot that can look toward a speaker could benefit ASR performance in challenging environments. To this aims, we propose a self-supervised reinforcement learning-based framework inspired by the early development of humans to allow the robot to autonomously create a dataset that is later used to learn to localize speakers with a deep learning network.
翻訳日:2022-09-26 07:36:07 公開日:2020-11-12
# 自動ニューラル歌詞及びメロディ構成

Automatic Neural Lyrics and Melody Composition ( http://arxiv.org/abs/2011.06380v1 )

ライセンス: Link先を確認
Gurunath Reddy Madhumani, Yi Yu, Florian Harsco\"et, Simon Canales, Suhua Tang(参考訳) 本稿では,人間のコミュニティがオリジナルの歌詞や、生成された歌詞に適した旋律を発見できるアルゴリズムによる楽曲の書き起こしプロセスの最も困難な側面に対処する手法を提案する。 提案する歌唱システムであるAutomatic Neural Lyrics and Melody Composition (AutoNLMC) は,人工ニューラルネットワークを用いて曲の書き起こし全体を自動化しようとする試みである。 歌詞からベクター(歌詞2vec)モデルでは, 音節, 単語, 文レベルが大まかな埋め込みモデルであり, ポピュラーな英語歌のためのリカレントニューラルネットワークなどのデータ駆動モデルを訓練することができる。 AutoNLMCは、リリックジェネレータ、リリックエンコーダ、メロディデコーダ訓練されたエンドツーエンドからなるエンコーダ-デコーダシーケンシャルリカレントニューラルネットワークモデルである。 AutoNLMCは、アマチュアや音楽の知識のない人のために、歌詞と対応するメロディの両方を自動生成するように設計されている。 また、プロの歌詞作家の歌詞を使って、一致する旋律を生成することもできる。 定性的かつ定量的な評価手法により,提案手法はオリジナル歌詞とそれに対応するメロディを生成できることがわかった。

In this paper, we propose a technique to address the most challenging aspect of algorithmic songwriting process, which enables the human community to discover original lyrics, and melodies suitable for the generated lyrics. The proposed songwriting system, Automatic Neural Lyrics and Melody Composition (AutoNLMC) is an attempt to make the whole process of songwriting automatic using artificial neural networks. Our lyric to vector (lyric2vec) model trained on a large set of lyric-melody pairs dataset parsed at syllable, word and sentence levels are large scale embedding models enable us to train data driven model such as recurrent neural networks for popular English songs. AutoNLMC is a encoder-decoder sequential recurrent neural network model consisting of a lyric generator, a lyric encoder and melody decoder trained end-to-end. AutoNLMC is designed to generate both lyrics and corresponding melody automatically for an amateur or a person without music knowledge. It can also take lyrics from professional lyric writer to generate matching melodies. The qualitative and quantitative evaluation measures revealed that the proposed method is indeed capable of generating original lyrics and corresponding melody for composing new songs.
翻訳日:2022-09-26 07:35:34 公開日:2020-11-12
# 適応的勾配誘導による教師なしマルチモーダル画像登録

Unsupervised Multimodal Image Registration with Adaptative Gradient Guidance ( http://arxiv.org/abs/2011.06216v1 )

ライセンス: Link先を確認
Zhe Xu, Jiangpeng Yan, Jie Luo, Xiu Li, Jayender Jagadeesan(参考訳) マルチモーダル画像登録(MIR)は多くの画像誘導療法の基本的な手順である。 近年,教師なし学習に基づく手法が,変形可能な画像登録における精度と効率よりも有望な性能を示している。 しかし,既存手法の予測変形場は,登録済み画像対に完全に依存している。 ネットワークが不一致の境界を認識することは困難であり、結果として臓器境界のアライメントが不十分になる。 本稿では,その両方から推定される変形場を利用する,新しいマルチモーダル登録フレームワークを提案する。 (i)元来の登録済み画像対 (II) 対応する勾配強度写像が提案されたゲート融合モジュールと適応的に融合する。 補助勾配空間指導の助けを借りて、ネットワークは臓器境界の空間的関係に集中することができる。 臨床的に得られた2つのCT-MRIデータセットの実験結果から,提案手法の有効性が示された。

Multimodal image registration (MIR) is a fundamental procedure in many image-guided therapies. Recently, unsupervised learning-based methods have demonstrated promising performance over accuracy and efficiency in deformable image registration. However, the estimated deformation fields of the existing methods fully rely on the to-be-registered image pair. It is difficult for the networks to be aware of the mismatched boundaries, resulting in unsatisfactory organ boundary alignment. In this paper, we propose a novel multimodal registration framework, which leverages the deformation fields estimated from both: (i) the original to-be-registered image pair, (ii) their corresponding gradient intensity maps, and adaptively fuses them with the proposed gated fusion module. With the help of auxiliary gradient-space guidance, the network can concentrate more on the spatial relationship of the organ boundary. Experimental results on two clinically acquired CT-MRI datasets demonstrate the effectiveness of our proposed approach.
翻訳日:2022-09-26 07:35:11 公開日:2020-11-12
# コンテンツベース画像検索のための医用画像の正規化と異常化

Decomposing Normal and Abnormal Features of Medical Images for Content-based Image Retrieval ( http://arxiv.org/abs/2011.06224v1 )

ライセンス: Link先を確認
Kazuma Kobayashi, Ryuichiro Hataya, Yusuke Kurose, Tatsuya Harada, Ryuji Hamamoto(参考訳) 医療画像は、構成性と見なされる正常な特徴と異常な特徴に分解することができる。 そこで本研究では,医療画像を正常な解剖コードと異常な解剖コードという2つの離散的な潜伏コードに分解するエンコーダデコーダネットワークを提案する。 これらの潜在コードを用いて,医療画像の正常な特徴や異常な特徴に着目し,類似度検索を行う。

Medical images can be decomposed into normal and abnormal features, which is considered as the compositionality. Based on this idea, we propose an encoder-decoder network to decompose a medical image into two discrete latent codes: a normal anatomy code and an abnormal anatomy code. Using these latent codes, we demonstrate a similarity retrieval by focusing on either normal or abnormal features of medical images.
翻訳日:2022-09-26 07:35:00 公開日:2020-11-12
# I-POST: 販売・取引システムのインテリジェントポイント

I-POST: Intelligent Point of Sale and Transaction System ( http://arxiv.org/abs/2011.06144v1 )

ライセンス: Link先を確認
Farid Khan(参考訳) 我々はレジ問題に対する新しい解決策を提案する。 現在のレジシステム/POS端末は、ユーザにとって非効率で、面倒で、時間がかかります。 現代の技術とユビキタスコンピューティングリソースに依存したソリューションが必要である。 i-post(intelligent point of sale and transaction)を,スマートデバイス,携帯電話,最先端の機械学習アルゴリズムを用いてユーザトランザクションを自動的かつリアルタイムに処理するソフトウェアシステムとして提示する。 I-POSTは自動チェックアウトシステムで、ユーザーは店を歩き、アイテムを集め、店を出ることができる。 立ってキューで待つ必要はありません。 このシステムは、オブジェクト検出と顔認識アルゴリズムを使用して、クライアントの認証とオブジェクトの状態を処理する。 出口の時点で、分類器は支払いを実行するバックエンドサーバにデータを送信します。 このシステムは画像認識と処理に畳み込みニューラルネットワーク(CNN)を使用する。 CNNは教師付き学習モデルであり、パターン認識問題に大きく応用されている。 現在の実装では、ユーザを認証し、アイテムを追跡するために、本質的に動作する2つの分類器を使用している。 物体認識のモデル精度は97%であり、損失は9.3%である。 このようなシステムは市場に効率性をもたらし、広範かつ多様な応用の可能性を期待する。

We propose a novel solution for the cashier problem. Current cashier system/Point of Sale (POS) terminals can be inefficient, cumbersome and time-consuming for the users. There is a need for a solution dependent on modern technology and ubiquitous computing resources. We present I-POST (Intelligent Point of Sale and Transaction) as a software system that uses smart devices, mobile phone and state of the art machine learning algorithms to process the user transactions in automated and real time manner. I-POST is an automated checkout system that allows the user to walk in a store, collect his items and exit the store. There is no need to stand and wait in a queue. The system uses object detection and facial recognition algorithm to process the authentication of the client and the state of the object. At point of exit, the classifier sends the data to the backend server which execute the payments. The system uses Convolution Neural Network (CNN) for the image recognition and processing. CNN is a supervised learning model that has found major application in pattern recognition problem. The current implementation uses two classifiers that work intrinsically to authenticate the user and track the items. The model accuracy for object recognition is 97%, the loss is 9.3%. We expect that such systems can bring efficiency to the market and has the potential for broad and diverse applications.
翻訳日:2022-09-26 07:27:35 公開日:2020-11-12
# 頑丈で安定なブラックボックスの説明

Robust and Stable Black Box Explanations ( http://arxiv.org/abs/2011.06169v1 )

ライセンス: Link先を確認
Himabindu Lakkaraju, Nino Arsov, Osbert Bastani(参考訳) 機械学習のブラックボックスが現実世界のアプリケーションにますます導入されるにつれて、これらのブラックボックスの振る舞いを要約したポストホックな説明の開発への関心が高まっている。 しかし、そのような説明を生成する既存のアルゴリズムは、分散シフトに対する安定性と堅牢性が欠如していることが示されている。 本稿では,ブラックボックスモデルの安定的かつ堅牢な説明を生成するための新しいフレームワークを提案する。 本フレームワークは,一組の対向摂動に対して最悪の場合に対して,最も忠実度の高い説明を構築することを目的としたミニマックス目標を最適化する。 最適化手順を考案し,線形モデルと決定集合の形で,このアルゴリズムを説明のためにインスタンス化する。 我々の知識を最大限に活用するために、本研究は、現実的な関心を持つ一般の対向的摂動に頑健なポストホックな説明を生成するための最初の試みである。 実世界および合成データセットを用いた実験評価により,本手法は,原データ分布の忠実性を犠牲にすることなく,説明の頑健性を大幅に向上できることを示した。

As machine learning black boxes are increasingly being deployed in real-world applications, there has been a growing interest in developing post hoc explanations that summarize the behaviors of these black boxes. However, existing algorithms for generating such explanations have been shown to lack stability and robustness to distribution shifts. We propose a novel framework for generating robust and stable explanations of black box models based on adversarial training. Our framework optimizes a minimax objective that aims to construct the highest fidelity explanation with respect to the worst-case over a set of adversarial perturbations. We instantiate this algorithm for explanations in the form of linear models and decision sets by devising the required optimization procedures. To the best of our knowledge, this work makes the first attempt at generating post hoc explanations that are robust to a general class of adversarial perturbations that are of practical interest. Experimental evaluation with real-world and synthetic datasets demonstrates that our approach substantially improves robustness of explanations without sacrificing their fidelity on the original data distribution.
翻訳日:2022-09-26 07:26:54 公開日:2020-11-12
# 深部部分多視点学習

Deep Partial Multi-View Learning ( http://arxiv.org/abs/2011.06170v1 )

ライセンス: Link先を確認
Changqing Zhang, Yajie Cui, Zongbo Han, Joey Tianyi Zhou, Huazhu Fu and Qinghua Hu(参考訳) マルチビュー学習は、過去数十年で顕著な進歩を遂げてきたが、特にビュー不足の状況下では、異なるビュー間の複雑な相関をモデル化することの難しさから、いまだに困難である。 そこで本研究では,マルチビューネットワーク (cpm-nets, cross partial multi-view network) と呼ばれる新しいフレームワークを提案する。 我々はまず、多視点表現に対する完全性と汎用性の形式的定義を提供し、その後理論的に学習された潜在表現の汎用性を証明する。 完全性のために、潜在多視点表現を学習するタスクは、データ伝送を模倣して劣化過程に特異的に変換され、異なるビュー間での一貫性と相補性の最適なトレードオフが暗黙的に達成される。 敵対的戦略を組み込んだこのモデルは、欠落したビューを安定的に含み、各サンプルのすべてのビューからの情報を潜在表現にエンコードし、完全性をさらに高める。 さらに、非パラメトリックな分類損失を導入し、構造化された表現を生成し、過剰フィッティングを防止する。 大規模な実験結果から, 分類, 表現学習, データ計算のための既存手法に対するアルゴリズムの有効性が検証された。

Although multi-view learning has made signifificant progress over the past few decades, it is still challenging due to the diffificulty in modeling complex correlations among different views, especially under the context of view missing. To address the challenge, we propose a novel framework termed Cross Partial Multi-View Networks (CPM-Nets), which aims to fully and flflexibly take advantage of multiple partial views. We fifirst provide a formal defifinition of completeness and versatility for multi-view representation and then theoretically prove the versatility of the learned latent representations. For completeness, the task of learning latent multi-view representation is specififically translated to a degradation process by mimicking data transmission, such that the optimal tradeoff between consistency and complementarity across different views can be implicitly achieved. Equipped with adversarial strategy, our model stably imputes missing views, encoding information from all views for each sample to be encoded into latent representation to further enhance the completeness. Furthermore, a nonparametric classifification loss is introduced to produce structured representations and prevent overfifitting, which endows the algorithm with promising generalization under view-missing cases. Extensive experimental results validate the effectiveness of our algorithm over existing state of the arts for classifification, representation learning and data imputation.
翻訳日:2022-09-26 07:26:37 公開日:2020-11-12
# ディジタルツインシステムと弱教師付き学習を用いた実世界の異常検出

Real-World Anomaly Detection by using Digital Twin Systems and Weakly-Supervised Learning ( http://arxiv.org/abs/2011.06296v1 )

ライセンス: Link先を確認
Andrea Castellani, Sebastian Schmitt, Stefano Squartini(参考訳) 業界 4.0 のコンテキストにおける監視データの継続的な増加は、強力で信頼性の高い異常検出技術を必要とする。 デジタルツイン技術の進歩により、複雑な機械の現実的なシミュレーションが可能となり、実際の測定データと比較して異常検出アプローチで使用する合成データセットを生成するのが理想的である。 本稿では, 産業環境における異常検出に対する弱い制御手法を提案する。 これらのアプローチでは、Digital Twinを使用して、機械の正常な動作をシミュレートするトレーニングデータセットと、実際の機械からのラベル付き異常測定の小さなセットを生成する。 特に、クラスタリングベースのアプローチであるCluster Centers(CC)と、ラベル付きデータサンプルがほとんどない弱教師付き設定に適した、Siamese Autoencoders(SAE)に基づくニューラルネットワークを導入する。 提案手法の性能は,施設監視システムによる実世界のデータセットに対するアプリケーション上の様々な最先端の異常検出アルゴリズムと比較し,多数の性能測定値を用いて比較した。 また,特徴抽出とネットワークアーキテクチャに関連するハイパーパラメータの影響について検討した。 提案手法は,全ての性能指標において,様々なパラメータ設定に対して,最先端の異常検出手法よりも極めて堅牢であることがわかった。

The continuously growing amount of monitored data in the Industry 4.0 context requires strong and reliable anomaly detection techniques. The advancement of Digital Twin technologies allows for realistic simulations of complex machinery, therefore, it is ideally suited to generate synthetic datasets for the use in anomaly detection approaches when compared to actual measurement data. In this paper, we present novel weakly-supervised approaches to anomaly detection for industrial settings. The approaches make use of a Digital Twin to generate a training dataset which simulates the normal operation of the machinery, along with a small set of labeled anomalous measurement from the real machinery. In particular, we introduce a clustering-based approach, called Cluster Centers (CC), and a neural architecture based on the Siamese Autoencoders (SAE), which are tailored for weakly-supervised settings with very few labeled data samples. The performance of the proposed methods is compared against various state-of-the-art anomaly detection algorithms on an application to a real-world dataset from a facility monitoring system, by using a multitude of performance measures. Also, the influence of hyper-parameters related to feature extraction and network architecture is investigated. We find that the proposed SAE based solutions outperform state-of-the-art anomaly detection approaches very robustly for many different hyper-parameter settings on all performance measures.
翻訳日:2022-09-26 07:25:46 公開日:2020-11-12
# 目標非依存学習のための識別的・生成的・自己監督的アプローチ

Discriminative, Generative and Self-Supervised Approaches for Target-Agnostic Learning ( http://arxiv.org/abs/2011.06428v1 )

ライセンス: Link先を確認
Yuan Jin, Wray Buntine, Francois Petitjean, Geoffrey I. Webb(参考訳) 教師付き学習は、識別学習と生成学習の両方が特徴であり、事前定義された予測属性のセットに基づいて、単一の(あるいは、時には複数の)対象属性の値を予測する。 利用可能な情報や予測がインスタンスごとに異なる可能性のあるアプリケーションでは、to-be-predictedインスタンスの各予測子とターゲットに対して任意の属性セットを使用できる、ターゲット非依存学習のタスクを提案する。 そこで本研究では,不足値の処理,自己教師付きトレーニング,擬似類似トレーニング,タスクに適したアルゴリズム群への適応など,幅広い手法を調査した。 分類的,連続的,離散化されたデータセットの集合に対して,この一連のアルゴリズムを広範囲に実験し,その性能を分類と回帰誤差の両方の観点から報告した。 また、大規模データセットを扱う際のアルゴリズムのトレーニングと予測時間についても報告する。 生成学習モデルと自己教師型学習モデルの両方がタスクにおいて良好に機能することが示されているが、異なるタイプのデータに対する特性は全く異なる。 それにもかかわらず、擬似類似性理論の導出定理はまた、擬似類似性理論に基づく共同分布モデルの推定に関係があることも示している。

Supervised learning, characterized by both discriminative and generative learning, seeks to predict the values of single (or sometimes multiple) predefined target attributes based on a predefined set of predictor attributes. For applications where the information available and predictions to be made may vary from instance to instance, we propose the task of target-agnostic learning where arbitrary disjoint sets of attributes can be used for each of predictors and targets for each to-be-predicted instance. For this task, we survey a wide range of techniques available for handling missing values, self-supervised training and pseudo-likelihood training, and adapt them to a suite of algorithms that are suitable for the task. We conduct extensive experiments on this suite of algorithms on a large collection of categorical, continuous and discretized datasets, and report their performance in terms of both classification and regression errors. We also report the training and prediction time of these algorithms when handling large-scale datasets. Both generative and self-supervised learning models are shown to perform well at the task, although their characteristics towards the different types of data are quite different. Nevertheless, our derived theorem for the pseudo-likelihood theory also shows that they are related for inferring a joint distribution model based on the pseudo-likelihood training.
翻訳日:2022-09-26 07:25:28 公開日:2020-11-12
# Ridge Rider: Hessian の固有ベクトルに追従して様々な解を求める

Ridge Rider: Finding Diverse Solutions by Following Eigenvectors of the Hessian ( http://arxiv.org/abs/2011.06505v1 )

ライセンス: Link先を確認
Jack Parker-Holder, Luke Metz, Cinjon Resnick, Hengyuan Hu, Adam Lerer, Alistair Letcher, Alex Peysakhovich, Aldo Pacchiano, Jakob Foerster(参考訳) 過去10年間で、1つのアルゴリズムが私たちの生活の多くの側面(確率的勾配降下(sgd))を変えた。 損失関数の絶え間なく減少する時代において、SGDとその子孫は機械学習におけるゴート最適化ツールとなり、ディープニューラルネットワーク(DNN)の成功の重要な要素となっている。 SGD は(ゆるやかな仮定の下で)局所最適に収束することが保証されているが、ある場合においてどの局所最適が見つかるかは問題であり、しばしば文脈に依存している。 例えば、shape-versus-texture-featuresからアンサンブルメソッド、ゼロショットコーディネーションまでである。 これらの設定では、SGD が '標準' 損失関数では見つからないが、代わりに 'easy' 解に収束する。 本稿では,異なるアプローチを提案する。 局所的なグリーディ方向に対応する勾配に従う代わりに、我々は「リッジズ」と呼ばれるヘッシアンの固有ベクトルに従う。 尾根間を反復的に追従し分岐することで、損失面に効果的にまたがり、質的に異なる解を見つける。 理論的および実験的に、我々の手法であるリッジライダー(RR)が様々な課題に対して有望な方向を提供することを示す。

Over the last decade, a single algorithm has changed many facets of our lives - Stochastic Gradient Descent (SGD). In the era of ever decreasing loss functions, SGD and its various offspring have become the go-to optimization tool in machine learning and are a key component of the success of deep neural networks (DNNs). While SGD is guaranteed to converge to a local optimum (under loose assumptions), in some cases it may matter which local optimum is found, and this is often context-dependent. Examples frequently arise in machine learning, from shape-versus-texture-features to ensemble methods and zero-shot coordination. In these settings, there are desired solutions which SGD on 'standard' loss functions will not find, since it instead converges to the 'easy' solutions. In this paper, we present a different approach. Rather than following the gradient, which corresponds to a locally greedy direction, we instead follow the eigenvectors of the Hessian, which we call "ridges". By iteratively following and branching amongst the ridges, we effectively span the loss surface to find qualitatively different solutions. We show both theoretically and experimentally that our method, called Ridge Rider (RR), offers a promising direction for a variety of challenging problems.
翻訳日:2022-09-26 07:25:08 公開日:2020-11-12
# マルチモーダル交通知識グラフを作成しながら、輸送データをEU標準に適合させる

Turning Transport Data to Comply with EU Standards while Enabling a Multimodal Transport Knowledge Graph ( http://arxiv.org/abs/2011.06423v1 )

ライセンス: Link先を確認
Mario Scrocca, Marco Comerio, Alessio Carenini and Irene Celino(参考訳) 欧州連合のマルチモーダル交通サービス規制に従えば、欧州委員会が示した基準(ネテックスやSIRIなど)の1つで、国家アクセスポイントのデータを共有する必要がある。 これらの標準は複雑で、実用化は限られている。 つまり、データセットは他のフォーマットでネイティブに表現され、完全なコンプライアンスのためにデータ変換プロセスが必要です。 本稿では,イタリアとスペインからの3つのトランスポート利害関係者の権威的データを,セマンティックWeb技術を用いてEU標準に準拠したフォーマットに変換するソリューションについて述べる。 この課題に対処し、インテリジェントなクエリと探索を可能にするインターリンクおよび相互運用可能な情報と、付加価値サービスの設計を容易にするマルチモーダルトランスポート知識グラフの構築にも貢献する。

Complying with the EU Regulation on multimodal transportation services requires sharing data on the National Access Points in one of the standards (e.g., NeTEx and SIRI) indicated by the European Commission. These standards are complex and of limited practical adoption. This means that datasets are natively expressed in other formats and require a data translation process for full compliance. This paper describes the solution to turn the authoritative data of three different transport stakeholders from Italy and Spain into a format compliant with EU standards by means of Semantic Web technologies. Our solution addresses the challenge and also contributes to build a multi-modal transport Knowledge Graph of interlinked and interoperable information that enables intelligent querying and exploration, as well as facilitates the design of added-value services.
翻訳日:2022-09-26 07:24:24 公開日:2020-11-12
# ドメインレベルの説明可能性 - 超人的AI戦略における信頼の創出への挑戦

Domain-Level Explainability -- A Challenge for Creating Trust in Superhuman AI Strategies ( http://arxiv.org/abs/2011.06665v1 )

ライセンス: Link先を確認
Jonas Andrulis, Ole Meyer, Gr\'egory Schott, Samuel Weinbach and Volker Gruhn(参考訳) 戦略的問題に対して、Deep Reinforcement Learning (DRL)に基づくインテリジェントシステムは、特に複雑なシナリオを扱う場合に、人間の能力をはるかに越える高度なソリューションを学ぶという印象的な能力を示した。 これは画期的な機能を持つ知的支援システムを開発する新しい機会を生み出すが、この技術を現実世界の問題に適用することは重大なリスクを伴い、透明性と信頼性を信頼する必要がある。 超人的戦略は非直観的で複雑なものであり、実世界のシナリオでは信頼性の高い性能評価が禁止されているため、これらのシステムに対する信頼の鍵となるコンポーネントは達成が困難である。 説明可能なAI(XAI)は、さまざまな手段を通じて、現代のAIシステムに対する透明性を高めることに成功したが、XAI研究はまだ、戦略的状況において専門家ユーザに対してドメインレベルの洞察を可能にするアプローチを提供していない。 本稿では,超人的DRL戦略の存在,その特性,現実環境への転換に必要な要件と課題,そして重要な技術としての説明可能性による信頼の意義について論じる。

For strategic problems, intelligent systems based on Deep Reinforcement Learning (DRL) have demonstrated an impressive ability to learn advanced solutions that can go far beyond human capabilities, especially when dealing with complex scenarios. While this creates new opportunities for the development of intelligent assistance systems with groundbreaking functionalities, applying this technology to real-world problems carries significant risks and therefore requires trust in their transparency and reliability. With superhuman strategies being non-intuitive and complex by definition and real-world scenarios prohibiting a reliable performance evaluation, the key components for trust in these systems are difficult to achieve. Explainable AI (XAI) has successfully increased transparency for modern AI systems through a variety of measures, however, XAI research has not yet provided approaches enabling domain level insights for expert users in strategic situations. In this paper, we discuss the existence of superhuman DRL-based strategies, their properties, the requirements and challenges for transforming them into real-world environments, and the implications for trust through explainability as a key technology.
翻訳日:2022-09-26 07:18:36 公開日:2020-11-12
# ディジタルメム計算によるブール満足度問題の効率的な解法

Efficient Solution of Boolean Satisfiability Problems with Digital MemComputing ( http://arxiv.org/abs/2011.06551v1 )

ライセンス: Link先を確認
S.R.B. Bearden, Y.R. Pei, M. Di Ventra(参考訳) ブール充足可能性(boolean satisfiability)は、物理学、数学、計算機科学など多分野に興味を持つ命題論理問題である。 研究分野の他に、SAT問題のインスタンスは、知られているように、様々なアプリケーションにおいて効率的な解法を必要とする。 ブール式が満足な代入を持つかどうかを決定する決定問題であり、最悪の場合においてアルゴリズムが解くのに指数関数的に増加する時間を必要とすると考えられている。 しかし、ブール公式の多くのクラスの効率的な解法は、最も成功したアルゴリズムでさえも、最悪のケースのシナリオだけでなく、典型的なケースのインスタンスに対しても引き出す。 本稿では,非線型常微分方程式を数値的に積分したメモリ支援物理システム(デジタルメモリ計算機)を提案する。これは,完全かつ不完全アルゴリズムの典型的な場合において,指数時間を要するSATの「ハード」植込み解のインスタンスを解きながら多項式境界拡張性を示すものである。 さらに,この物理系がカオスや指数的に増大するエネルギーを導入することなく,SAT問題を連続的に効率的に解くことを解析的に実証した。 シミュレーションの効率は、数値積分において持続する元の物理系の集合力学特性と関係し、数値誤差が存在する場合でも解探索をロバストに導く。 我々は、理論から応用まで、シミュレーションからハードウェア実装まで、物理学に触発されたコンピューティングパラダイムの研究の方向性を広げるために、結果を期待する。

Boolean satisfiability is a propositional logic problem of interest in multiple fields, e.g., physics, mathematics, and computer science. Beyond a field of research, instances of the SAT problem, as it is known, require efficient solution methods in a variety of applications. It is the decision problem of determining whether a Boolean formula has a satisfying assignment, believed to require exponentially growing time for an algorithm to solve for the worst-case instances. Yet, the efficient solution of many classes of Boolean formulae eludes even the most successful algorithms, not only for the worst-case scenarios, but also for typical-case instances. Here, we introduce a memory-assisted physical system (a digital memcomputing machine) that, when its non-linear ordinary differential equations are integrated numerically, shows evidence for polynomially-bounded scalability while solving "hard" planted-solution instances of SAT, known to require exponential time to solve in the typical case for both complete and incomplete algorithms. Furthermore, we analytically demonstrate that the physical system can efficiently solve the SAT problem in continuous time, without the need to introduce chaos or an exponentially growing energy. The efficiency of the simulations is related to the collective dynamical properties of the original physical system that persist in the numerical integration to robustly guide the solution search even in the presence of numerical errors. We anticipate our results to broaden research directions in physics-inspired computing paradigms ranging from theory to application, from simulation to hardware implementation.
翻訳日:2022-09-26 07:18:17 公開日:2020-11-12
# バイオシグナル分類におけるドメインの一般化

Domain Generalization in Biosignal Classification ( http://arxiv.org/abs/2011.06207v1 )

ライセンス: Link先を確認
Theekshana Dissanayake, Tharindu Fernando, Simon Denman, Houman Ghaemmaghami, Sridha Sridharan, Clinton Fookes(参考訳) 目的: 機械学習モデルをトレーニングする場合、トレーニングデータと評価データが同じ分布からサンプリングされていると仮定することが多い。 しかし、この仮定は、たとえデータベースが同じクラスを含むとしても、モデルが他の見えないが類似したデータベースで評価されるときに違反する。 この問題はドメインシフトによって引き起こされ、ドメイン適応とドメイン一般化という2つのアプローチで解決できる。 単純に、ドメイン適応メソッドはトレーニング中に見当たらないドメインからデータにアクセスすることができるが、ドメイン一般化では、見当たらないデータはトレーニング中に利用できない。 したがって、ドメインの一般化は、アクセス不能なドメインシフトデータでうまく機能するモデルに関するものである。 方法:提案手法は未知のドメインを既知の基底ドメインの集合を用いて表現し,その後分類器融合を用いて未知のドメインを分類する。 本システムを実証するために,正常および異常な音(クラス)を含む心臓音データベースのコレクションを用いる。 結果: 提案手法は4つの完全未認識領域に対して最大16%の精度向上を実現する。 結論: 本研究で提案する二段階法では, 生体信号データの固有時間的性質によって生じる複雑さを認識し, 未発見領域と適用基底領域において良好な結果を示しつつ, ドメイン一般化の過程全体を効果的に単純化することができる。 意義:最善の知識は,生体信号データのドメイン一般化を研究する最初の研究である。 提案する学習戦略は,データのクラス差を認識しつつ,ドメイン関連機能を効果的に学習するために使用できる。

Objective: When training machine learning models, we often assume that the training data and evaluation data are sampled from the same distribution. However, this assumption is violated when the model is evaluated on another unseen but similar database, even if that database contains the same classes. This problem is caused by domain-shift and can be solved using two approaches: domain adaptation and domain generalization. Simply, domain adaptation methods can access data from unseen domains during training; whereas in domain generalization, the unseen data is not available during training. Hence, domain generalization concerns models that perform well on inaccessible, domain-shifted data. Method: Our proposed domain generalization method represents an unseen domain using a set of known basis domains, afterwhich we classify the unseen domain using classifier fusion. To demonstrate our system, we employ a collection of heart sound databases that contain normal and abnormal sounds (classes). Results: Our proposed classifier fusion method achieves accuracy gains of up to 16% for four completely unseen domains. Conclusion: Recognizing the complexity induced by the inherent temporal nature of biosignal data, the two-stage method proposed in this study is able to effectively simplify the whole process of domain generalization while demonstrating good results on unseen domains and the adopted basis domains. Significance: To our best knowledge, this is the first study that investigates domain generalization for biosignal data. Our proposed learning strategy can be used to effectively learn domain-relevant features while being aware of the class differences in the data.
翻訳日:2022-09-26 07:17:52 公開日:2020-11-12
# マルチモーダル画像登録ネットワークの訓練のための一様周期正規化

Unimodal Cyclic Regularization for Training Multimodal Image Registration Networks ( http://arxiv.org/abs/2011.06214v1 )

ライセンス: Link先を確認
Zhe Xu, Jiangpeng Yan, Jie Luo, William Wells, Xiu Li, Jayender Jagadeesan(参考訳) 教師なしマルチモーダル画像登録フレームワークの損失関数は、類似度測度と正規化の計量という2つの項を持つ。 深層学習の時代、研究者は類似度を自動学習する多くの手法を提案し、それが登録性能の向上に有効であることが示されている。 しかし、正規化の用語では、既存のマルチモーダル登録アプローチのほとんどは、推定された変形場に人工的性質を課すために手作りの式を使い続けている。 本研究では,マルチモーダル登録の変形場を制約するために,単純なユニモーダル登録からタスク固有の事前知識を学習するユニモーダル巡回正規化訓練パイプラインを提案する。 腹部CT-MRレジストレーション実験では,従来の正規化法よりも優れた結果が得られる。

The loss function of an unsupervised multimodal image registration framework has two terms, i.e., a metric for similarity measure and regularization. In the deep learning era, researchers proposed many approaches to automatically learn the similarity metric, which has been shown effective in improving registration performance. However, for the regularization term, most existing multimodal registration approaches still use a hand-crafted formula to impose artificial properties on the estimated deformation field. In this work, we propose a unimodal cyclic regularization training pipeline, which learns task-specific prior knowledge from simpler unimodal registration, to constrain the deformation field of multimodal registration. In the experiment of abdominal CT-MR registration, the proposed method yields better results over conventional regularization methods, especially for severely deformed local regions.
翻訳日:2022-09-26 07:17:26 公開日:2020-11-12
# インテント認識のための教師なしアルゴリズムへの知識の追加

Adding Knowledge to Unsupervised Algorithms for the Recognition of Intent ( http://arxiv.org/abs/2011.06219v1 )

ライセンス: Link先を確認
Stuart Synakowski, Qianli Feng, Aleix Martinez(参考訳) コンピュータビジョンアルゴリズムの性能は、物体認識(特に細粒度のカテゴリ)、セグメンテーション、および2Dビューからの3Dオブジェクト再構成を含む視覚的問題において、人間に近づいたか優れている。 しかし、人間は高いレベルの画像分析ができる。 心の理論を含む明確な例は、知覚された行動や行動が故意に行われたかどうかを判断する能力である。 本稿では,シーン内のエージェントの動作が,自走運動,ニュートン運動,およびそれらの関係の知識を用いて,その3次元運動学に基づいて意図的・意図的か否かを推定できるアルゴリズムを導出する。 この基本的な知識の追加が、単純で教師なしのアルゴリズムにどのようにつながるかを示す。 このアルゴリズムをテストするために,抽象幾何学アニメーションから意図的および非意図的動作を行うエージェントのリアルビデオまで,3つの専用データセットを構築した。 これらのデータセットの実験により、我々のアルゴリズムは、トレーニングデータなしでも、アクションが意図的かどうかを認識できることを示した。 パフォーマンスは様々な教師付きベースラインと定量的に比較でき、合理的な意図性セグメント化を定性的に行う。

Computer vision algorithms performance are near or superior to humans in the visual problems including object recognition (especially those of fine-grained categories), segmentation, and 3D object reconstruction from 2D views. Humans are, however, capable of higher-level image analyses. A clear example, involving theory of mind, is our ability to determine whether a perceived behavior or action was performed intentionally or not. In this paper, we derive an algorithm that can infer whether the behavior of an agent in a scene is intentional or unintentional based on its 3D kinematics, using the knowledge of self-propelled motion, Newtonian motion and their relationship. We show how the addition of this basic knowledge leads to a simple, unsupervised algorithm. To test the derived algorithm, we constructed three dedicated datasets from abstract geometric animation to realistic videos of agents performing intentional and non-intentional actions. Experiments on these datasets show that our algorithm can recognize whether an action is intentional or not, even without training data. The performance is comparable to various supervised baselines quantitatively, with sensible intentionality segmentation qualitatively.
翻訳日:2022-09-26 07:17:12 公開日:2020-11-12
# PoseTrackReID: データセットの説明

PoseTrackReID: Dataset Description ( http://arxiv.org/abs/2011.06243v1 )

ライセンス: Link先を確認
Andreas Doering and Di Chen and Shanshan Zhang and Bernt Schiele and Juergen Gall(参考訳) ビデオベースの人物再識別のための現在のデータセット(re-ID)には、関心のある人に対する人間のポーズアノテーションの形での構造的な知識が含まれていない。 それでも、ポーズ情報は、背景や閉塞音から有用な特徴情報を切り離すのに非常に役立つ。 特に、監視のような現実世界のシナリオには、人混みや障害物による多くの閉塞が含まれている。 一方、ビデオベースの人物のリIDは、ロバストな特徴マッチングの観点から、マルチパーソンポーズトラッキングのような他のタスクの恩恵を受けることができる。 このため、多人数のポーズトラッキングとビデオベースの人物再IDのための大規模データセットであるPoseTrackReIDを提案する。 PoseTrackReIDでは、人物のリIDと複数人のポーズトラッキングのギャップを埋めたい。 さらに、このデータセットは、マルチフレームの人物再IDに関する現在の最先端メソッドの優れたベンチマークを提供する。

Current datasets for video-based person re-identification (re-ID) do not include structural knowledge in form of human pose annotations for the persons of interest. Nonetheless, pose information is very helpful to disentangle useful feature information from background or occlusion noise. Especially real-world scenarios, such as surveillance, contain a lot of occlusions in human crowds or by obstacles. On the other hand, video-based person re-ID can benefit other tasks such as multi-person pose tracking in terms of robust feature matching. For that reason, we present PoseTrackReID, a large-scale dataset for multi-person pose tracking and video-based person re-ID. With PoseTrackReID, we want to bridge the gap between person re-ID and multi-person pose tracking. Additionally, this dataset provides a good benchmark for current state-of-the-art methods on multi-frame person re-ID.
翻訳日:2022-09-26 07:16:24 公開日:2020-11-12
# VCE:ワンショット一般化のための変分変換器エンコーダ

VCE: Variational Convertor-Encoder for One-Shot Generalization ( http://arxiv.org/abs/2011.06246v1 )

ライセンス: Link先を確認
Chengshuai Li, Shuai Han, Jianping Xing(参考訳) 変分変換器・エンコーダ(VCE)は,画像を様々なスタイルに変換する。このアーキテクチャは,ワンショットの一般化問題と,追加のトレーニングなしでは見つからない新しいタスクへの変換を実現する。 また,我々の提案する新しいアルゴリズム,すなわち大きなマージンVAE (LMVAE) を用いて,それらのぼやけた点をフィルタする可変オートエンコーダ (VAE) の性能も向上する。 同じ特性を持つ2つのサンプルがエンコーダに入力され、エンコーダのノイズ出力から1つを処理する変換器が必要である。 本稿では,条件変動オートエンコーダ(cvae)とイントロスペクティブvaeを組み合わせたアルゴリズムを提案する。 トレーニングにはシーケンシャルな推論アルゴリズムは必要ない。 最近のOmniglotデータセットと比較すると、我々のモデルはよりリアルで多様な画像を生成する。

Variational Convertor-Encoder (VCE) converts an image to various styles; we present this novel architecture for the problem of one-shot generalization and its transfer to new tasks not seen before without additional training. We also improve the performance of variational auto-encoder (VAE) to filter those blurred points using a novel algorithm proposed by us, namely large margin VAE (LMVAE). Two samples with the same property are input to the encoder, and then a convertor is required to processes one of them from the noisy outputs of the encoder; finally, the noise represents a variety of transformation rules and is used to convert new images. The algorithm that combines and improves the condition variational auto-encoder (CVAE) and introspective VAE, we propose this new framework aim to transform graphics instead of generating them; it is used for the one-shot generative process. No sequential inference algorithmic is needed in training. Compared to recent Omniglot datasets, the results show that our model produces more realistic and diverse images.
翻訳日:2022-09-26 07:16:11 公開日:2020-11-12
# SLAM出力を用いた動的オブジェクトのセグメンテーションの学習

Learning to Segment Dynamic Objects using SLAM Outliers ( http://arxiv.org/abs/2011.06259v1 )

ライセンス: Link先を確認
Adrian Bojko, Romain Dupont, Mohamed Tamaazousti and Herv\'e Le Borgne(参考訳) 本稿では,SLAMアウトレイラを用いて動的オブジェクトのセグメントを自動的に学習する手法を提案する。 トレーニングには動的オブジェクト毎の単一のシーケンスのみが必要で、slamoutlierを使用して動的オブジェクトをローカライズし、マスクを作成し、これらのマスクを使用してセマンティックセグメンテーションネットワークをトレーニングする。 トレーニングネットワークをORB-SLAM 2とLDSOに統合する。 実行時に動的オブジェクトの機能を削除し、SLAMが影響を受けないようにします。 また,新しいステレオデータセットとslamのロバスト性を評価するための新しいメトリクスを提案する。 私たちのデータセットにはコンセンサスインバージョン、すなわちSLAMが静的な背景にある動的オブジェクトにより多くの機能を使用する状況が含まれています。 SLAMの大きな障害を引き起こす可能性があるため、ConsensusインバージョンはSLAMでは難しい。 提案手法は,TUM RGB-Dデータセットのモノクラーモードと,モノクラーモードとステレオモードの両方で,より優れている。

We present a method to automatically learn to segment dynamic objects using SLAM outliers. It requires only one monocular sequence per dynamic object for training and consists in localizing dynamic objects using SLAM outliers, creating their masks, and using these masks to train a semantic segmentation network. We integrate the trained network in ORB-SLAM 2 and LDSO. At runtime we remove features on dynamic objects, making the SLAM unaffected by them. We also propose a new stereo dataset and new metrics to evaluate SLAM robustness. Our dataset includes consensus inversions, i.e., situations where the SLAM uses more features on dynamic objects that on the static background. Consensus inversions are challenging for SLAM as they may cause major SLAM failures. Our approach performs better than the State-of-the-Art on the TUM RGB-D dataset in monocular mode and on our dataset in both monocular and stereo modes.
翻訳日:2022-09-26 07:15:52 公開日:2020-11-12
# 長期臨床テキストのための解釈可能なエンドツーエンドの微調整手法

An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text ( http://arxiv.org/abs/2011.06504v1 )

ライセンス: Link先を確認
Kexin Huang, Sankeerth Garapati, Alexander S. Rich(参考訳) EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。 最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。 しかし,長いテキスト列に拡張できないため,臨床ノートに適用することは困難である。 本研究では,SnipBERTと呼ばれる新しい微調整手法を提案する。 ノート全体を使用する代わりに、SnipBERTは重要なスニペットを識別し、階層的な方法でTruncated BERTベースのモデルにフィードする。 経験的に、SnipBERTは3つのタスクにまたがる大きな予測性能を持つだけでなく、その予測に繋がる重要なテキストを識別できるため、解釈可能性も向上している。

Unstructured clinical text in EHRs contains crucial information for applications including decision support, trial matching, and retrospective research. Recent work has applied BERT-based models to clinical information extraction and text classification, given these models' state-of-the-art performance in other NLP domains. However, BERT is difficult to apply to clinical notes because it doesn't scale well to long sequences of text. In this work, we propose a novel fine-tuning approach called SnipBERT. Instead of using entire notes, SnipBERT identifies crucial snippets and then feeds them into a truncated BERT-based model in a hierarchical manner. Empirically, SnipBERT not only has significant predictive performance gain across three tasks but also provides improved interpretability, as the model can identify key pieces of text that led to its prediction.
翻訳日:2022-09-26 07:15:35 公開日:2020-11-12
# 低資源歴史言語のためのクロスディレクタルゴールド構文の発明--前近代スラヴ語のジェネリックパーサーを目指して

Exploiting Cross-Dialectal Gold Syntax for Low-Resource Historical Languages: Towards a Generic Parser for Pre-Modern Slavic ( http://arxiv.org/abs/2011.06467v1 )

ライセンス: Link先を確認
Nilo Pedrazzini (University of Oxford)(参考訳) 本稿では,異なる関連品種のデータを学習することで,先進スラヴ語の特殊パーサの性能向上の可能性を検討する。 言語的多様性のため、前近代スラヴの変種は低資源の歴史的言語として扱われ、クロスダイアレクティブなツリーバンクデータはデータの不足を克服し、多種多様なパーサーの訓練を試みるために利用される。 初期のスラヴ依存構文解析に関する以前の実験は、特に、異なる正書法、地域的、様式的特徴に取り組む能力について論じられた。 jptdp(nguyen & verspoor 2018)は、ジョイント・オブ・スパイチ(pos)のタグ付けと依存性解析のためのニューラルネットワークモデルで、古い教会スラヴニック(英語版)(ocs)を含む多くの共通依存性(ud)ツリーバンクで有望な結果を示した。 これらの実験により、OCS(83.79\%未ラベルアタッチメントスコア(UAS)と78.43\%ラベル付きアタッチメントスコア(LAS))とオールド・イースト・スラヴ(OES)(85.7\%UASおよび80.16\%LAS)の両者に対して、新たな技術状態が得られる。

This paper explores the possibility of improving the performance of specialized parsers for pre-modern Slavic by training them on data from different related varieties. Because of their linguistic heterogeneity, pre-modern Slavic varieties are treated as low-resource historical languages, whereby cross-dialectal treebank data may be exploited to overcome data scarcity and attempt the training of a variety-agnostic parser. Previous experiments on early Slavic dependency parsing are discussed, particularly with regard to their ability to tackle different orthographic, regional and stylistic features. A generic pre-modern Slavic parser and two specialized parsers -- one for East Slavic and one for South Slavic -- are trained using jPTDP (Nguyen & Verspoor 2018), a neural network model for joint part-of-speech (POS) tagging and dependency parsing which had shown promising results on a number of Universal Dependency (UD) treebanks, including Old Church Slavonic (OCS). With these experiments, a new state of the art is obtained for both OCS (83.79\% unlabelled attachment score (UAS) and 78.43\% labelled attachement score (LAS)) and Old East Slavic (OES) (85.7\% UAS and 80.16\% LAS).
翻訳日:2022-09-26 07:09:05 公開日:2020-11-12
# 第9回ダイアログシステム技術チャレンジ:dstc9の概要

Overview of the Ninth Dialog System Technology Challenge: DSTC9 ( http://arxiv.org/abs/2011.06486v1 )

ライセンス: Link先を確認
Chulaka Gunasekara, Seokhwan Kim, Luis Fernando D'Haro, Abhinav Rastogi, Yun-Nung Chen, Mihail Eric, Behnam Hedayatnia, Karthik Gopalakrishnan, Yang Liu, Chao-Wei Huang, Dilek Hakkani-T\"ur, Jinchao Li, Qi Zhu, Lingxiao Luo, Lars Liden, Kaili Huang, Shahin Shayandeh, Runze Liang, Baolin Peng, Zheng Zhang, Swadheen Shukla, Minlie Huang, Jianfeng Gao, Shikib Mehri, Yulan Feng, Carla Gordon, Seyed Hossein Alavi, David Traum, Maxine Eskenazi, Ahmad Beirami, Eunjoon (EJ) Cho, Paul A. Crook, Ankita De, Alborz Geramifard, Satwik Kottur, Seungwhan Moon, Shivani Poddar, Rajen Subba(参考訳) 本稿では,第9回対話システム技術チャレンジ(DSTC-9)を紹介する。 DSTCのこのエディションは、ダイアログシステムにおける4つの異なるタスク、すなわち、エンドツーエンドのダイアログ技術の適用に焦点を当てている。 1 非構造化知識アクセスを伴うタスク指向ダイアログモデリング 2.マルチドメインタスク指向ダイアログ 3.対話の対話的評価,および 4.対話型マルチモーダルダイアログ 本稿では,各トラックのタスク定義,データセット,ベースライン,評価設定について述べる。 また,タスクの最先端技術の動向を明らかにするために,提案システムの結果を要約した。

This paper introduces the Ninth Dialog System Technology Challenge (DSTC-9). This edition of the DSTC focuses on applying end-to-end dialog technologies for four distinct tasks in dialog systems, namely, 1. Task-oriented dialog Modeling with unstructured knowledge access, 2. Multi-domain task-oriented dialog, 3. Interactive evaluation of dialog, and 4. Situated interactive multi-modal dialog. This paper describes the task definition, provided datasets, baselines and evaluation set-up for each track. We also summarize the results of the submitted systems to highlight the overall trends of the state-of-the-art technologies for the tasks.
翻訳日:2022-09-26 07:08:31 公開日:2020-11-12
# 深層学習を用いた電子健康記録の認知的問題検出のための自然言語処理

Natural Language Processing to Detect Cognitive Concerns in Electronic Health Records Using Deep Learning ( http://arxiv.org/abs/2011.06489v1 )

ライセンス: Link先を確認
Zhuoqiao Hong, Colin G. Magdamo, Yi-han Sheu, Prathamesh Mohite, Ayush Noori, Elissa M. Ye, Wendong Ge, Haoqi Sun, Laura Brenner, Gregory Robbins, Shibani Mukerji, Sahar Zafar, Nicole Benson, Lidia Moura, John Hsu, Bradley T. Hyman, Michael B. Westover, Deborah Blacker, Sudeshna Das(参考訳) 認知症はコミュニティでは認識が低く、医療専門家では診断が低く、クレームデータではコード化されていない。 しかし、認知機能障害に関する情報は、医療記録の未構造化の診療ノートにしばしば見られるが、専門家による手作業によるレビューは時間がかかり、しばしばエラーを起こす。 これらのノートの自動マイニングは、評価や専門的ケアの恩恵を受けることができる認知的関心を持つ患者をラベル付けする潜在的機会を示す。 電子カルテにおける認知的関心を持つ患者を特定するため,自然言語処理(NLP)アルゴリズムを適用し,構造化診断符号と医薬データのみを用いたベースラインモデルと比較した。 注意に基づくディープラーニングモデルは、ベースラインモデルや他の単純なモデルよりも優れています。

Dementia is under-recognized in the community, under-diagnosed by healthcare professionals, and under-coded in claims data. Information on cognitive dysfunction, however, is often found in unstructured clinician notes within medical records but manual review by experts is time consuming and often prone to errors. Automated mining of these notes presents a potential opportunity to label patients with cognitive concerns who could benefit from an evaluation or be referred to specialist care. In order to identify patients with cognitive concerns in electronic medical records, we applied natural language processing (NLP) algorithms and compared model performance to a baseline model that used structured diagnosis codes and medication data only. An attention-based deep learning model outperformed the baseline model and other simpler models.
翻訳日:2022-09-26 07:08:24 公開日:2020-11-12
# 推論専用サブ文字分解による未知文字の翻訳の改善

Inference-only sub-character decomposition improves translation of unseen logographic characters ( http://arxiv.org/abs/2011.06523v1 )

ライセンス: Link先を確認
Danielle Saunders, Weston Feely, Bill Byrne(参考訳) logographic source languageのneural machine translation(nmt)は、トレーニングデータには現れない‘unseen’文字の翻訳に苦労している。 この問題に対する1つの可能なアプローチは、訓練とテスト文のサブキャラクタ分解である。 しかし,本手法は完全再学習を伴い,非書誌言語への未確認文字翻訳の有効性は十分に検討されていない。 我々は,中国語と日本語のNMTにおける既存のイデオログラフに基づくサブ文字分解手法について検討した。 各言語ペアとドメインに対して、すべてのソース文が少なくとも1つの見えないログラフ文字を含むテストセットを構築します。 完全部分文字分解は文字翻訳を損なうことが多く、一般に矛盾する結果をもたらす。 未知文字のみを推論する前に、分解に基づく単純な代替手段を提供する。 当社のアプローチでは、フレキシブルなアプリケーション、翻訳精度の向上、追加のモデルやトレーニングの必要がなくなります。

Neural Machine Translation (NMT) on logographic source languages struggles when translating `unseen' characters, which never appear in the training data. One possible approach to this problem uses sub-character decomposition for training and test sentences. However, this approach involves complete retraining, and its effectiveness for unseen character translation to non-logographic languages has not been fully explored. We investigate existing ideograph-based sub-character decomposition approaches for Chinese-to-English and Japanese-to-English NMT, for both high-resource and low-resource domains. For each language pair and domain we construct a test set where all source sentences contain at least one unseen logographic character. We find that complete sub-character decomposition often harms unseen character translation, and gives inconsistent results generally. We offer a simple alternative based on decomposition before inference for unseen characters only. Our approach allows flexible application, achieving translation adequacy improvements and requiring no additional models or training.
翻訳日:2022-09-26 07:08:09 公開日:2020-11-12
# 文脈認識型スタンドアロンニューラルスペル補正

Context-aware Stand-alone Neural Spelling Correction ( http://arxiv.org/abs/2011.06642v1 )

ライセンス: Link先を確認
Xiangci Li, Hairong Liu, Liang Huang(参考訳) 既存の自然言語処理システムは、ミススペルによるノイズの多い入力に対して脆弱である。 反対に、人間はミススペルや周囲の文脈から、対応する正しい単語を容易に推測することができる。 そこで本稿では,トークンの挿入や削除を必要とせず,各トークンの綴りを訂正し,綴り情報と大域的文脈表現を併用する,単独の綴り補正問題に着想を得た。 本稿では,事前学習した言語モデルを微調整することにより,ミススペルをシーケンスラベリングタスクとして検出・修正する,単純かつ強力な解を提案する。 我々の解は、これまでの最先端の結果を12.8%の絶対F0.5スコアで上回る。

Existing natural language processing systems are vulnerable to noisy inputs resulting from misspellings. On the contrary, humans can easily infer the corresponding correct words from their misspellings and surrounding context. Inspired by this, we address the stand-alone spelling correction problem, which only corrects the spelling of each token without additional token insertion or deletion, by utilizing both spelling information and global context representations. We present a simple yet powerful solution that jointly detects and corrects misspellings as a sequence labeling task by fine-turning a pre-trained language model. Our solution outperforms the previous state-of-the-art result by 12.8% absolute F0.5 score.
翻訳日:2022-09-26 07:07:40 公開日:2020-11-12
# 人工知能の新しい数学的問題としての一般化制約 : 概観と展望

Generalized Constraints as A New Mathematical Problem in Artificial Intelligence: A Review and Perspective ( http://arxiv.org/abs/2011.06156v1 )

ライセンス: Link先を確認
Bao-Gang Hu and Han-Bing Qu(参考訳) この総合的なレビューでは、人工知能(AI)における新しい数学的問題について、Rudolf E. Kalmanが述べた「物理が正しいなら、残りは数学だ」という哲学に従えば、数学的モデリングの観点から記述する。 新しい問題は"Generalized Constraints (GCs)"と呼ばれ、モデリングにおけるあらゆる種類の事前情報を記述する一般的な用語としてGCを採用する。 一般的な問題であるGCについてよりよく理解するために、従来の制約(CC)と比較し、CCに対するさらなる課題をリストアップする。 AIマシンの構築では、明確に定義された形式を持つCCではなく、基本的にモデリング用のGCに遭遇します。 さらに、機械に関する理解レベルの観点から、AIの最終的な目標について議論し、透明性、解釈可能、説明可能なAIを再定義する。 我々はGC問題に関する研究をレビューするが、そのほとんどがGCの概念を取り入れていない。 知識駆動型サブモデルとデータ駆動型サブモデルの両方との結合によってAIマシンが単純化された場合、GCは知識駆動型サブモデルと2つのサブモデル間の結合形式において重要な役割を果たす。 例えば、一般化された制約問題の観点からの研究は、aiや一般化制約学習(gcl)のような数学において、新しい主題を知覚し、探求するのに役立ちます。

In this comprehensive review, we describe a new mathematical problem in artificial intelligence (AI) from a mathematical modeling perspective, following the philosophy stated by Rudolf E. Kalman that "Once you get the physics right, the rest is mathematics". The new problem is called "Generalized Constraints (GCs)", and we adopt GCs as a general term to describe any type of prior information in modelings. To understand better about GCs to be a general problem, we compare them with the conventional constraints (CCs) and list their extra challenges over CCs. In the construction of AI machines, we basically encounter more often GCs for modeling, rather than CCs with well-defined forms. Furthermore, we discuss the ultimate goals of AI and redefine transparent, interpretable, and explainable AI in terms of comprehension levels about machines. We review the studies in relation to the GC problems although most of them do not take the notion of GCs. We demonstrate that if AI machines are simplified by a coupling with both knowledge-driven submodel and data-driven submodel, GCs will play a critical role in a knowledge-driven submodel as well as in the coupling form between the two submodels. Examples are given to show that the studies in view of a generalized constraint problem will help us perceive and explore novel subjects in AI, or even in mathematics, such as generalized constraint learning (GCL).
翻訳日:2022-09-26 07:07:13 公開日:2020-11-12
# 自動ログの時空間タギングのためのユニバーサル埋め込み

Universal Embeddings for Spatio-Temporal Tagging of Self-Driving Logs ( http://arxiv.org/abs/2011.06165v1 )

ライセンス: Link先を確認
Sean Segal, Eric Kee, Wenjie Luo, Abbas Sadat, Ersin Yumer, Raquel Urtasun(参考訳) 本稿では,センサデータから自動運転車シーンの時空間的タグ付けの問題に取り組む。 提案手法では,全てのタグに対する普遍的な埋め込みを学習し,多くの属性を効率的にタグ付けし,限られたデータで新しい属性を高速に学習する。 重要なことに、埋め込みは時空間的に認識され、モデルが自然に時空間タグ値を出力することができる。 例えば、SDVの前で歩行者密度を計算したり、車が他の車を4方向の交差点でブロックしているかどうかを判断するために、任意の領域に値が格納される。 本研究では,車と歩行者の密度,各アクタの行動,各アクタの速度,アクタ間の相互作用,道路地図のトポロジーに関する15の属性を含む,新たな大規模自動運転データセットsdscenesにおける提案手法の有効性を実証する。

In this paper, we tackle the problem of spatio-temporal tagging of self-driving scenes from raw sensor data. Our approach learns a universal embedding for all tags, enabling efficient tagging of many attributes and faster learning of new attributes with limited data. Importantly, the embedding is spatio-temporally aware, allowing the model to naturally output spatio-temporal tag values. Values can then be pooled over arbitrary regions, in order to, for example, compute the pedestrian density in front of the SDV, or determine if a car is blocking another car at a 4-way intersection. We demonstrate the effectiveness of our approach on a new large scale self-driving dataset, SDVScenes, containing 15 attributes relating to vehicle and pedestrian density, the actions of each actor, the speed of each actor, interactions between actors, and the topology of the road map.
翻訳日:2022-09-26 07:01:08 公開日:2020-11-12
# 局所翻訳機構を非自己回帰翻訳に組み込む

Incorporating a Local Translation Mechanism into Non-autoregressive Translation ( http://arxiv.org/abs/2011.06132v1 )

ライセンス: Link先を確認
Xiang Kong, Zhisong Zhang, Eduard Hovy(参考訳) 本稿では,非自己回帰翻訳(nat)モデルにlat(local autoregressive translation)機構を導入し,tar-get出力間の局所的依存関係を捉える。 具体的には、各目標復号位置に対して、1つのトークンではなく、短いトークン列を自己回帰的に予測する。 さらに、出力部品を1つの最終的な出力シーケンスに整列してマージする効率的なマージアルゴリズムを設計する。 LATを条件付きマスキング言語モデル(CMLM; Ghazvininejad et al.,2019)に統合し、同様に反復デコーディングを採用する。 5つの翻訳タスクにおける実験結果から,CMLMと比較して,復号化の繰り返しを減らして同等あるいはより良い性能を実現し,2.5倍高速化を実現した。 さらに分析した結果,提案手法は繰り返し翻訳を減らし,より長い文でより良く処理できることが示唆された。

In this work, we introduce a novel local autoregressive translation (LAT) mechanism into non-autoregressive translation (NAT) models so as to capture local dependencies among tar-get outputs. Specifically, for each target decoding position, instead of only one token, we predict a short sequence of tokens in an autoregressive way. We further design an efficient merging algorithm to align and merge the out-put pieces into one final output sequence. We integrate LAT into the conditional masked language model (CMLM; Ghazvininejad et al.,2019) and similarly adopt iterative decoding. Empirical results on five translation tasks show that compared with CMLM, our method achieves comparable or better performance with fewer decoding iterations, bringing a 2.5xspeedup. Further analysis indicates that our method reduces repeated translations and performs better at longer sentences.
翻訳日:2022-09-26 06:59:29 公開日:2020-11-12
# ツイートから抑うつ症状を識別する:フィギュラティブ言語によるマルチタスク学習フレームワーク

Identifying Depressive Symptoms from Tweets: Figurative Language Enabled Multitask Learning Framework ( http://arxiv.org/abs/2011.06149v1 )

ライセンス: Link先を確認
Shweta Yadav, Jainish Chauhan, Joy Prakash Sain, Krishnaprasad Thirunarayan, Amit Sheth, Jeremiah Schumm(参考訳) ソーシャルメディアを用いたユーザのメンタルヘルス状態の導出に関する既存の研究は、うつ病検出タスクに焦点を当てている。 しかし、ケースマネジメントと精神科医への紹介のためには、医療従事者は実用的でスケーラブルなうつ病スクリーニングとトリアージシステムを必要とする。 本研究は, 患者健康アンケート-9 (PHQ-9) のエミュレーションを通じて, 利用者のつぶやきに表される微粒なうつ症状を捉え, うつ症状レベルを確実に判定する意思決定支援システム(DSS)を設計し, 評価することを目的とする。 ツイートからの抑うつ症状の信頼できる検出は、ツイートに対する280文字制限が発話における創造的アーティファクトの使用にインセンティブを与え、フィギュラティブな使用が効果的な表現に寄与するため、難しい。 本稿では,新しいBERTベースのマルチタスク学習フレームワークを提案し,画像的使用検出の補助的タスクを用いて抑うつ症状を正確に識別する。 具体的には,提案するタスク共有機構により,パラメータのソフトシェアリングにより,BERT層とタスク間で最適な情報を自動的に選択することができる。 この結果から,表現的使用法をモデル化することで,抑うつ症状を識別するためのモデルの堅牢性と信頼性が向上することが示唆された。

Existing studies on using social media for deriving mental health status of users focus on the depression detection task. However, for case management and referral to psychiatrists, healthcare workers require practical and scalable depressive disorder screening and triage system. This study aims to design and evaluate a decision support system (DSS) to reliably determine the depressive triage level by capturing fine-grained depressive symptoms expressed in user tweets through the emulation of Patient Health Questionnaire-9 (PHQ-9) that is routinely used in clinical practice. The reliable detection of depressive symptoms from tweets is challenging because the 280-character limit on tweets incentivizes the use of creative artifacts in the utterances and figurative usage contributes to effective expression. We propose a novel BERT based robust multi-task learning framework to accurately identify the depressive symptoms using the auxiliary task of figurative usage detection. Specifically, our proposed novel task sharing mechanism, co-task aware attention, enables automatic selection of optimal information across the BERT layers and tasks by soft-sharing of parameters. Our results show that modeling figurative usage can demonstrably improve the model's robustness and reliability for distinguishing the depression symptoms.
翻訳日:2022-09-26 06:59:12 公開日:2020-11-12
# 先住民コミュニティにおける対話型転写の実現

Enabling Interactive Transcription in an Indigenous Community ( http://arxiv.org/abs/2011.06198v1 )

ライセンス: Link先を確認
\'Eric Le Ferrand, Steven Bird, Laurent Besacier(参考訳) 本稿では,音声語検出とHuman-in-the-loopを組み合わせた新しい転写ワークフローとパイロット実験を提案する。 この研究は、2つの絶滅危惧言語を含むいくつかの用語しか特定されていないほぼゼロリソースのシナリオに基づいている。 本研究は, 音声認識の初期段階において, 頑健なASRシステムを訓練するのに利用可能なデータが不足している場合には, 音声収集の転写をブートストラップするために, 少数の孤立した単語の転写を利用することができることを示す。

We propose a novel transcription workflow which combines spoken term detection and human-in-the-loop, together with a pilot experiment. This work is grounded in an almost zero-resource scenario where only a few terms have so far been identified, involving two endangered languages. We show that in the early stages of transcription, when the available data is insufficient to train a robust ASR system, it is possible to take advantage of the transcription of a small number of isolated words in order to bootstrap the transcription of a speech collection.
翻訳日:2022-09-26 06:58:37 公開日:2020-11-12
# 低資源インド語における言語間・多言語音声語検出

Cross-lingual and Multilingual Spoken Term Detection for Low-Resource Indian Languages ( http://arxiv.org/abs/2011.06226v1 )

ライセンス: Link先を確認
Sanket Shah, Satarupa Guha, Simran Khanuja, Sunayana Sitaram(参考訳) 音声単語検出(英: spoken term detection、std)は、音声中の単語やフレーズを検索するタスクである。 本研究は,10の低資源インド言語における語彙空間検出のために,最先端のヒンディー語,タミル語,テルグ語 ASR システムを用いた。 これらの言語で話し言葉検出のための公開データセットは存在しないので、公開利用可能なttsデータセットを使用して新しいデータセットを作成する。 対象言語と音声的に類似する言語で構築された ASR システムは,STD の標準指標である平均項重み付け値 (MTWV) を報告し,精度が高いことを示すが,緩和された電話マッチングアルゴリズムを用いて,異種言語に対して高い MTWV スコアを得ることもできる。 本稿では,利用可能なリソースを用いて,すべての言語間のgrapheme-to-phoneme(g2p)マッピングをブートストラップする手法を提案する。 複数のasrシステムの出力を結合し、言語固有の言語モデルを使用すると得られる。 言語固有の音声データを必要とせずに、ゼロショット方式でSTDを相互に実行可能であることを示す。 STDデータセットを言語横断STDに関心のある他の研究者にも提供する予定だ。

Spoken Term Detection (STD) is the task of searching for words or phrases within audio, given either text or spoken input as a query. In this work, we use state-of-the-art Hindi, Tamil and Telugu ASR systems cross-lingually for lexical Spoken Term Detection in ten low-resource Indian languages. Since no publicly available dataset exists for Spoken Term Detection in these languages, we create a new dataset using a publicly available TTS dataset. We report a standard metric for STD, Mean Term Weighted Value (MTWV) and show that ASR systems built in languages that are phonetically similar to the target languages have higher accuracy, however, it is also possible to get high MTWV scores for dissimilar languages by using a relaxed phone matching algorithm. We propose a technique to bootstrap the Grapheme-to-Phoneme (g2p) mapping between all the languages under consideration using publicly available resources. Gains are obtained when we combine the output of multiple ASR systems and when we use language-specific Language Models. We show that it is possible to perform STD cross-lingually in a zero-shot manner without the need for any language-specific speech data. We plan to make the STD dataset available for other researchers interested in cross-lingual STD.
翻訳日:2022-09-26 06:58:27 公開日:2020-11-12
# 世界貿易センターの担当者自身の言葉で語る:インタビューのAIに基づく言語分析によるPTSD症状の予測

World Trade Center responders in their own words: Predicting PTSD symptom trajectories with AI-based language analyses of interviews ( http://arxiv.org/abs/2011.06457v1 )

ライセンス: Link先を確認
Youngseo Son, Sean A. P. Clouston, Roman Kotov, Johannes C. Eichstaedt, Evelyn J. Bromet, Benjamin J. Luft, and H Andrew Schwartz(参考訳) 背景:世界貿易センター(wtc)への9/11の応答者による攻撃は、苦痛と回復力に関する豊富な物語を提供する。 人工知能(AI)モデルは、自然言語で心理病理を検出することを約束するが、主にソーシャルメディアを用いた非クリニカルな設定で評価されてきた。 本研究は, 応答者間のPTSD症状を予測するためのAIに基づく言語アセスメントの能力を検証することを目的とした。 方法:参加者はStony Brook WTC Health and Wellness Programで健康をモニターした124人の回答者で,最初のWTC経験について口頭でインタビューを行った。 PTSD symptom severity をPTSD Checklist (PCL) を用いて7年間経時的に測定した。 AIに基づく指標は、抑うつ、不安、神経症、外転、および辞書に基づく言語的および対人的スタイルの計測のために計算された。 線形回帰モデルとマルチレベルモデルでは、AIインジケータとPTSD症状の同時およびその後の重症度(偽発見率で調整された重要度)の関連を推定する。 結果: 横断的に, 抑うつ性言語(β=0.32; p=0.043), 初対人単独使用(beta=0.31; p=0.044)は, 症状の重症度を増加させた。 一方,PCLスコア(beta=0.31; p=0.031)では,1人称複数用法(beta=-0.37; p=0.007),長文使用法(beta=-0.36; p=0.007)では改善が予測された。 結論: 脆弱な集団におけるPTSD理解におけるAIの価値を示す最初の研究である。 将来の研究では、この応用を他のトラウマの曝露や他の人口動態、特に少数民族に広げるべきである。

Background: Oral histories from 9/11 responders to the World Trade Center (WTC) attacks provide rich narratives about distress and resilience. Artificial Intelligence (AI) models promise to detect psychopathology in natural language, but they have been evaluated primarily in non-clinical settings using social media. This study sought to test the ability of AI-based language assessments to predict PTSD symptom trajectories among responders. Methods: Participants were 124 responders whose health was monitored at the Stony Brook WTC Health and Wellness Program who completed oral history interviews about their initial WTC experiences. PTSD symptom severity was measured longitudinally using the PTSD Checklist (PCL) for up to 7 years post-interview. AI-based indicators were computed for depression, anxiety, neuroticism, and extraversion along with dictionary-based measures of linguistic and interpersonal style. Linear regression and multilevel models estimated associations of AI indicators with concurrent and subsequent PTSD symptom severity (significance adjusted by false discovery rate). Results: Cross-sectionally, greater depressive language (beta=0.32; p=0.043) and first-person singular usage (beta=0.31; p=0.044) were associated with increased symptom severity. Longitudinally, anxious language predicted future worsening in PCL scores (beta=0.31; p=0.031), whereas first-person plural usage (beta=-0.37; p=0.007) and longer words usage (beta=-0.36; p=0.007) predicted improvement. Conclusions: This is the first study to demonstrate the value of AI in understanding PTSD in a vulnerable population. Future studies should extend this application to other trauma exposures and to other demographic groups, especially under-represented minorities.
翻訳日:2022-09-26 06:58:03 公開日:2020-11-12
# UNOC:仮想現実における身体的存在の排除を理解する

UNOC: Understanding Occlusion for Embodied Presence in Virtual Reality ( http://arxiv.org/abs/2012.03680v1 )

ライセンス: Link先を確認
Mathias Parger, Chengcheng Tang, Yuanlu Xu, Christopher Twigg, Lingling Tao, Yijing Li, Robert Wang, and Markus Steinberger(参考訳) 3D空間における身体と手の動きの追跡は、拡張現実と仮想環境における社会的および自己存在にとって不可欠である。 一般的な3Dポーズ推定設定とは異なり、この問題は埋め込み認識(例えば、エゴセントリックカメラ、ハンドヘルドセンサー)に基づいて内部追跡として定式化されることが多い。 本稿では,最適化に基づく手法(例えば逆キネマティックスソルバ)において,オクルージョンを包含する課題を対象とする,体内追跡のための新しいデータ駆動フレームワークを提案する。 まず,光学マーカーと慣性センサを用いて,身体と指の両動作を用いた大規模モーションキャプチャデータセットを収集した。 このデータセットは、社会的シナリオに焦点をあて、自己排他的・身体的相互作用の下での真実のポーズを捉えます。 次に, 頭部搭載カメラの咬合パターンをレイキャスティングアルゴリズムを用いてシミュレートし, 深層ニューラルネットワークを学習し, 被写体部位を推定する。 実験により,本手法は実時間内外体追跡,指の動き合成,3点逆運動学のタスクに提案手法を適用し,高忠実な体格ポーズを生成することができることを示した。

Tracking body and hand motions in the 3D space is essential for social and self-presence in augmented and virtual environments. Unlike the popular 3D pose estimation setting, the problem is often formulated as inside-out tracking based on embodied perception (e.g., egocentric cameras, handheld sensors). In this paper, we propose a new data-driven framework for inside-out body tracking, targeting challenges of omnipresent occlusions in optimization-based methods (e.g., inverse kinematics solvers). We first collect a large-scale motion capture dataset with both body and finger motions using optical markers and inertial sensors. This dataset focuses on social scenarios and captures ground truth poses under self-occlusions and body-hand interactions. We then simulate the occlusion patterns in head-mounted camera views on the captured ground truth using a ray casting algorithm and learn a deep neural network to infer the occluded body parts. In the experiments, we show that our method is able to generate high-fidelity embodied poses by applying the proposed method on the task of real-time inside-out body tracking, finger motion synthesis, and 3-point inverse kinematics.
翻訳日:2022-09-26 06:51:46 公開日:2020-11-12
# 多視点動的異種情報ネットワーク埋め込み

Multi-View Dynamic Heterogeneous Information Network Embedding ( http://arxiv.org/abs/2011.06346v1 )

ライセンス: Link先を確認
Zhenghao Zhang, Jianbin Huang and Qinglin Tan(参考訳) 既存のヘテロジニアス・インフォメーション・ネットワーク(hin)の埋め込み手法のほとんどは静的環境に焦点を合わせつつ、現実世界のネットワークの進化特性を無視している。 いくつかの動的埋め込み手法が提案されているが、それらは単に均質なネットワーク用に設計されており、異質な環境で直接適用することはできない。 本稿では,複数視点動的hin埋め込み(multi-view dynamic hin embedded,mdhne)と呼ばれる,時間とともにノード表現を更新する際に,異なる視点からの暗黙的関係の進化パターンを効率的に保存する手法を提案する。 まず、HINを異なるビューに対応する一連の同質ネットワークに変換する。 そこで提案したMDHNEは,複雑なネットワーク構造とノード間の意味的関係の進化パターンを潜在埋め込み空間に組み込むために,Recurrent Neural Network (RNN) を適用した。 さらに,異なるマイニングタスクに特有な目的関数を最小化することにより,異なるビューに対応する潜在表現の重みを自動推論する,注意に基づく融合機構を考案した。 我々のMDHNEモデルは、異なるネットワークマイニングタスクのための3つの実世界の動的データセットに対して、最先端のベースラインよりも優れていることを示す。

Most existing Heterogeneous Information Network (HIN) embedding methods focus on static environments while neglecting the evolving characteristic of realworld networks. Although several dynamic embedding methods have been proposed, they are merely designed for homogeneous networks and cannot be directly applied in heterogeneous environment. To tackle above challenges, we propose a novel framework for incorporating temporal information into HIN embedding, denoted as Multi-View Dynamic HIN Embedding (MDHNE), which can efficiently preserve evolution patterns of implicit relationships from different views in updating node representations over time. We first transform HIN to a series of homogeneous networks corresponding to different views. Then our proposed MDHNE applies Recurrent Neural Network (RNN) to incorporate evolving pattern of complex network structure and semantic relationships between nodes into latent embedding spaces, and thus the node representations from multiple views can be learned and updated when HIN evolves over time. Moreover, we come up with an attention based fusion mechanism, which can automatically infer weights of latent representations corresponding to different views by minimizing the objective function specific for different mining tasks. Extensive experiments clearly demonstrate that our MDHNE model outperforms state-of-the-art baselines on three real-world dynamic datasets for different network mining tasks.
翻訳日:2022-09-26 06:51:02 公開日:2020-11-12
# スペクトル和に対する量子アルゴリズム

Quantum algorithms for spectral sums ( http://arxiv.org/abs/2011.06475v1 )

ライセンス: Link先を確認
Alessandro Luongo, Changpeng Shao(参考訳) 対称正定値行列(SPD)の最も一般的なスペクトル和を推定するための新しい量子アルゴリズムを提案し,解析する。 関数 $f$ と行列 $A \in \mathbb{R}^{n\times n}$ に対して、スペクトル和は $S_f(A) :=\text{Tr}[f(A)] = \sum_j f(\lambda_j)$ と定義される。 スペクトル和の例としては、フォン・ノイマンのエントロピー、逆のトレース、対数行列式、Schatten-$p$ノルムがある。 これらの量を推定する最も速い古典的ランダム化アルゴリズムは、行列の非零成分の数に少なくとも線形に依存するランタイムを持つ。 行列に対する量子アクセスを仮定すると、我々のアルゴリズムは行列サイズにおいてサブ線形であり、条件数や近似誤差などの他の量に大きく依存しているため、近年の文献で提案されているランダム化および分散された古典的アルゴリズムのほとんどと競合することができる。 これらのアルゴリズムは、スペクトル和の推定がしばしば計算ボトルネックを表す多くの実用的な問題を解決するためのサブルーチンとして使うことができる。

We propose and analyze new quantum algorithms for estimating the most common spectral sums of symmetric positive definite (SPD) matrices. For a function $f$ and a matrix $A \in \mathbb{R}^{n\times n}$, the spectral sum is defined as $S_f(A) :=\text{Tr}[f(A)] = \sum_j f(\lambda_j)$, where $\lambda_j$ are the eigenvalues. Examples of spectral sums are the von Neumann entropy, the trace of inverse, the log-determinant, and the Schatten-$p$ norm, where the latter does not require the matrix to be SPD. The fastest classical randomized algorithms estimate these quantities have a runtime that depends at least linearly on the number of nonzero components of the matrix. Assuming quantum access to the matrix, our algorithms are sub-linear in the matrix size, and depend at most quadratically on other quantities, like the condition number and the approximation error, and thus can compete with most of the randomized and distributed classical algorithms proposed in recent literature. These algorithms can be used as subroutines for solving many practical problems, for which the estimation of a spectral sum often represents a computational bottleneck.
翻訳日:2022-09-26 06:50:42 公開日:2020-11-12
# マルチエージェントインタラクションに影響を与える潜在表現の学習

Learning Latent Representations to Influence Multi-Agent Interaction ( http://arxiv.org/abs/2011.06619v1 )

ライセンス: Link先を確認
Annie Xie, Dylan P. Losey, Ryan Tolsma, Chelsea Finn, Dorsa Sadigh(参考訳) 人間やロボットとシームレスに対話することは、これらのエージェントが静止していないため難しい。 彼らはエゴエージェントの行動に反応してポリシーを更新し、エゴエージェントはこれらの変更を共適応に予測しなければならない。 人間にインスパイアされたロボットは、他のエージェントが行うすべての低レベルアクションを明示的にモデル化する必要がなく、代わりに、ハイレベル表現を通じて他のエージェントの潜在戦略を捉えることができる。 本稿では,エージェントの方針の潜在表現を学習するための強化学習に基づくフレームワークを提案する。 次に、egoエージェントはこれらの潜在ダイナミクスを利用して、他のエージェントに影響を与え、意図的にそれらを共適応に適したポリシーへと導く。 いくつかの模擬ドメインと実世界のエアホッケーゲームを通して、我々のアプローチは代替案より優れ、他のエージェントに影響を与えることを学ぶ。

Seamlessly interacting with humans or robots is hard because these agents are non-stationary. They update their policy in response to the ego agent's behavior, and the ego agent must anticipate these changes to co-adapt. Inspired by humans, we recognize that robots do not need to explicitly model every low-level action another agent will make; instead, we can capture the latent strategy of other agents through high-level representations. We propose a reinforcement learning-based framework for learning latent representations of an agent's policy, where the ego agent identifies the relationship between its behavior and the other agent's future strategy. The ego agent then leverages these latent dynamics to influence the other agent, purposely guiding them towards policies suitable for co-adaptation. Across several simulated domains and a real-world air hockey game, our approach outperforms the alternatives and learns to influence the other agent.
翻訳日:2022-09-26 06:50:18 公開日:2020-11-12
# 分割に基づく分類分布の類似性

A partition-based similarity for classification distributions ( http://arxiv.org/abs/2011.06557v1 )

ライセンス: Link先を確認
Hayden S. Helm, Ronak D. Mehta, Brandon Duderstadt, Weiwei Yang, Christoper M. White, Ali Geisa, Joshua T. Vogelstein, Carey E. Priebe(参考訳) 本稿では,統計的パターン認識の観点から原理化された分類分布の類似性の尺度を定義し,機械学習実践者の視点から有用である。 特に,課題類似性と呼ばれる分類分布に関する新しい類似性を提案し,対象分布に関する推論に適用した場合に,ソース分布に対する最適変換された最適表現がどのように動作するかを定量化する。 タスク類似性の定義は、逆分布と直交分布の自然な定義を可能にする。 我々は、(普遍的に)一貫した決定規則によって引き起こされる表現の制限特性を強調し、タスク類似性の経験的推定が推論のためにデプロイされた決定規則の関数であることを示す。 対象分布の伝達効率と対象源分布の意味的類似性は経験的タスク類似性と相関することを示す。

Herein we define a measure of similarity between classification distributions that is both principled from the perspective of statistical pattern recognition and useful from the perspective of machine learning practitioners. In particular, we propose a novel similarity on classification distributions, dubbed task similarity, that quantifies how an optimally-transformed optimal representation for a source distribution performs when applied to inference related to a target distribution. The definition of task similarity allows for natural definitions of adversarial and orthogonal distributions. We highlight limiting properties of representations induced by (universally) consistent decision rules and demonstrate in simulation that an empirical estimate of task similarity is a function of the decision rule deployed for inference. We demonstrate that for a given target distribution, both transfer efficiency and semantic similarity of candidate source distributions correlate with empirical task similarity.
翻訳日:2022-09-26 06:49:18 公開日:2020-11-12
# chexphotogenic: 胸部x線写真に対する胸部x線解釈のためのディープラーニングモデルの一般化

CheXphotogenic: Generalization of Deep Learning Models for Chest X-ray Interpretation to Photos of Chest X-rays ( http://arxiv.org/abs/2011.06129v1 )

ライセンス: Link先を確認
Pranav Rajpurkar, Anirudh Joshi, Anuj Pareek, Jeremy Irvin, Andrew Y. Ng, Matthew Lungren(参考訳) 胸部X線写真撮影におけるスマートフォンの利用は,胸部X線解釈のための深部学習モデルの大規模展開のための魅力的なソリューションである。 しかし,胸部x線写真における胸部x線アルゴリズムの性能は十分に検討されていない。 本研究では,胸部X線写真に適用した8種類の胸部X線モデルの診断性能を測定した。 すべてのモデルは異なるグループによって開発され、chexpert challengeに提出され、chexphotoデータセット内のx線のスマートフォン写真に再適用された。 胸部X線写真に適用すると,いくつかのモデルの性能低下が認められたが,この値が下がったとしても,放射線学者には相容れないモデルが存在する。 さらなる研究は、異なるモデルトレーニング手順が胸部x線写真に対するモデル一般化にどのように影響するかを理解するために行われる。

The use of smartphones to take photographs of chest x-rays represents an appealing solution for scaled deployment of deep learning models for chest x-ray interpretation. However, the performance of chest x-ray algorithms on photos of chest x-rays has not been thoroughly investigated. In this study, we measured the diagnostic performance for 8 different chest x-ray models when applied to photos of chest x-rays. All models were developed by different groups and submitted to the CheXpert challenge, and re-applied to smartphone photos of x-rays in the CheXphoto dataset without further tuning. We found that several models had a drop in performance when applied to photos of chest x-rays, but even with this drop, some models still performed comparably to radiologists. Further investigation could be directed towards understanding how different model training procedures may affect model generalization to photos of chest x-rays.
翻訳日:2022-09-26 06:49:06 公開日:2020-11-12
# ロバストなドメイン適応のための因果表現の学習

Learning causal representations for robust domain adaptation ( http://arxiv.org/abs/2011.06317v1 )

ライセンス: Link先を確認
Shuai Yang, Kui Yu, Fuyuan Cao, Lin Liu, Hao Wang, Jiuyong Li(参考訳) ドメイン適応は、関連するソースドメインの知識を利用して、ターゲットドメインの学習問題を解決する。 顕著な進歩はあったが、既存のドメイン適応手法のほとんど全ては、ターゲットドメインに対する優れた一般化性を達成するために、ドメイン不変表現を学習するために、大量のラベル付けされていないターゲットドメインデータを必要とする。 実際、多くの現実世界のアプリケーションでは、ターゲットのドメインデータが常に利用できるとは限らない。 本稿では、学習段階において、対象ドメインデータが利用できなくなり、十分にラベル付けされたドメインデータのみが利用できる場合について、ロバストドメイン適応と呼ぶ。 この問題に対処するために,機能とクラス変数の因果関係がドメイン間で堅牢であるという仮定の下で,深部オートエンコーダと因果構造学習を統合した新しい因果オートエンコーダ(CAE)を提案し,単一のソースドメインのデータのみを用いて因果表現を学習する。 具体的には、低次元表現を学習するためにディープオートエンコーダモデルを採用し、低次元表現を因果表現とタスク非関連表現の2つのグループに分離する因果構造学習モデルを設計する。 3つの実世界のデータセットを使用して、11の最先端手法と比較してCAEの有効性を検証した。

Domain adaptation solves the learning problem in a target domain by leveraging the knowledge in a relevant source domain. While remarkable advances have been made, almost all existing domain adaptation methods heavily require large amounts of unlabeled target domain data for learning domain invariant representations to achieve good generalizability on the target domain. In fact, in many real-world applications, target domain data may not always be available. In this paper, we study the cases where at the training phase the target domain data is unavailable and only well-labeled source domain data is available, called robust domain adaptation. To tackle this problem, under the assumption that causal relationships between features and the class variable are robust across domains, we propose a novel Causal AutoEncoder (CAE), which integrates deep autoencoder and causal structure learning into a unified model to learn causal representations only using data from a single source domain. Specifically, a deep autoencoder model is adopted to learn low-dimensional representations, and a causal structure learning model is designed to separate the low-dimensional representations into two groups: causal representations and task-irrelevant representations. Using three real-world datasets the extensive experiments have validated the effectiveness of CAE compared to eleven state-of-the-art methods.
翻訳日:2022-09-26 06:43:19 公開日:2020-11-12
# 次数補正確率ブロックモデルによるコミュニティ検出のためのスペクトルクラスタリングの改良

An improved spectral clustering method for community detection under the degree-corrected stochastic blockmodel ( http://arxiv.org/abs/2011.06374v1 )

ライセンス: Link先を確認
Huan Qing and Jingli Wang(参考訳) コミュニティ検出問題では、スペクトルクラスタリングはネットワーク内のクラスタを検出する手段として広く使われている。 本稿では,次数補正確率ブロックモデル(dcsbm)に基づくスペクトルクラスタリング(isc)手法の改良を提案する。 ISCは、重みが対応する固有値である正規化ラプラシア行列の重み付きリードK + 1固有ベクトル上のk平均クラスタリングアルゴリズムに基づいて設計されている。 iscの理論的解析は、穏やかな条件下でiscは安定したコミュニティ検出をもたらすことを示している。 シミュレーションと8つの経験的ネットワーク上でのコミュニティ検出において,ISCは従来のスペクトルクラスタリング法よりも優れていた。 特に、ICCは2つの弱い信号ネットワークSimmonsとCaltechに対して、それぞれ121/1137と96/590のエラー率で大幅に改善している。

For community detection problem, spectral clustering is a widely used method for detecting clusters in networks. In this paper, we propose an improved spectral clustering (ISC) approach under the degree corrected stochastic block model (DCSBM). ISC is designed based on the k-means clustering algorithm on the weighted leading K + 1 eigenvectors of a regularized Laplacian matrix where the weights are their corresponding eigenvalues. Theoretical analysis of ISC shows that under mild conditions the ISC yields stable consistent community detection. Numerical results show that ISC outperforms classical spectral clustering methods for community detection on both simulated and eight empirical networks. Especially, ISC provides a significant improvement on two weak signal networks Simmons and Caltech, with error rates of 121/1137 and 96/590, respectively.
翻訳日:2022-09-26 06:42:57 公開日:2020-11-12
# カーネルk-平均:アルゴリズムと強い一貫性

Kernel k-Means, By All Means: Algorithms and Strong Consistency ( http://arxiv.org/abs/2011.06461v1 )

ライセンス: Link先を確認
Debolina Paul, Saptarshi Chakraborty, Swagatam Das and Jason Xu(参考訳) Kernel $k$-meansクラスタリングは、非線形分離可能なデータの教師なし学習のための強力なツールである。 初期の試み以来、研究者はそのようなアルゴリズムが対象関数の非凸性から生じる局所的なミニマムに捕捉されることがしばしばあると指摘した。 本稿では,カーネルとマルチカーネル設定に対する最適でない局所解を解決できる汎用的な手法を駆使した最近の結果を一般化する。 Kernel Power $k$-Meansと呼ばれるこのアルゴリズムは、この非凸問題をよりよく解くために、メジャー化最小化(MM)を利用している。 本手法は,効率良くクローズドフォームな更新を保ちつつ,カーネル機能空間で暗黙的にアニーリングを行い,その収束特性を計算と統計の両方の観点から厳格に特徴付ける。 特に,強い一貫性を保証することにより,提案手法の大規模サンプル挙動を特徴付ける。 そのメリットは、非線形およびマルチビュー分離を備えた、一連のシミュレーションデータセットと実データベンチマークで完全に検証される。

Kernel $k$-means clustering is a powerful tool for unsupervised learning of non-linearly separable data. Since the earliest attempts, researchers have noted that such algorithms often become trapped by local minima arising from non-convexity of the underlying objective function. In this paper, we generalize recent results leveraging a general family of means to combat sub-optimal local solutions to the kernel and multi-kernel settings. Called Kernel Power $k$-Means, our algorithm makes use of majorization-minimization (MM) to better solve this non-convex problem. We show the method implicitly performs annealing in kernel feature space while retaining efficient, closed-form updates, and we rigorously characterize its convergence properties both from computational and statistical points of view. In particular, we characterize the large sample behavior of the proposed method by establishing strong consistency guarantees. Its merits are thoroughly validated on a suite of simulated datasets and real data benchmarks that feature non-linear and multi-view separation.
翻訳日:2022-09-26 06:42:28 公開日:2020-11-12
# 事前学習表現のバイチューニング

Bi-tuning of Pre-trained Representations ( http://arxiv.org/abs/2011.06182v1 )

ライセンス: Link先を確認
Jincheng Zhong, Ximei Wang, Zhi Kou, Jianmin Wang, Mingsheng Long(参考訳) ディープラーニングコミュニティでは、まず大規模なデータセットからディープニューラルネットワークを事前トレーニングした後、トレーニング済みモデルを特定の下流タスクに微調整することが一般的である。 近年,学習表現に対する教師付きおよび教師なし事前学習のアプローチは,ラベルの識別的知識と本質的なデータ構造をそれぞれ活用し,目覚ましい進歩を遂げている。 下流課題の判別的知識と本質的構造は微調整に有用であるが,既存の微調整手法は主に前者を活用し,後者を捨てるものである。 微調整を促進するために、データの本質的な構造を完全に探求するにはどうすればよいのか? 本稿では,教師付き表現と教師なし表現の両方を下流タスクに微調整する汎用学習フレームワークであるbi-tuningを提案する。 bi-tuningは、事前学習された表現のバックボーンに2つのヘッドを統合することで、バニラの微調整を一般化する: コントラスト的クロスエントロピー損失を改善した分類器ヘッド インスタンスコントラスト方法でラベル情報を活用するために、新しく設計されたカテゴリー的コントラスト学習損失を持つプロジェクタヘッド データをカテゴリ一貫性のある方法で完全に活用する。 総合的な実験により、Bi-tuningは教師付きモデルと教師なしモデルの両方の微調整タスクを大きなマージンで達成する(例えば、低データシステムにおけるCUBの精度の絶対的な上昇)。

It is common within the deep learning community to first pre-train a deep neural network from a large-scale dataset and then fine-tune the pre-trained model to a specific downstream task. Recently, both supervised and unsupervised pre-training approaches to learning representations have achieved remarkable advances, which exploit the discriminative knowledge of labels and the intrinsic structure of data, respectively. It follows natural intuition that both discriminative knowledge and intrinsic structure of the downstream task can be useful for fine-tuning, however, existing fine-tuning methods mainly leverage the former and discard the latter. A question arises: How to fully explore the intrinsic structure of data for boosting fine-tuning? In this paper, we propose Bi-tuning, a general learning framework to fine-tuning both supervised and unsupervised pre-trained representations to downstream tasks. Bi-tuning generalizes the vanilla fine-tuning by integrating two heads upon the backbone of pre-trained representations: a classifier head with an improved contrastive cross-entropy loss to better leverage the label information in an instance-contrast way, and a projector head with a newly-designed categorical contrastive learning loss to fully exploit the intrinsic structure of data in a category-consistent way. Comprehensive experiments confirm that Bi-tuning achieves state-of-the-art results for fine-tuning tasks of both supervised and unsupervised pre-trained models by large margins (e.g. 10.7\% absolute rise in accuracy on CUB in low-data regime).
翻訳日:2022-09-26 06:41:17 公開日:2020-11-12
# ガウスRAM:確率的網膜誘発グランプと強化学習による軽量画像分類

Gaussian RAM: Lightweight Image Classification via Stochastic Retina-Inspired Glimpse and Reinforcement Learning ( http://arxiv.org/abs/2011.06190v1 )

ライセンス: Link先を確認
Dongseok Shim and H. Jin Kim(参考訳) 画像分類に関するこれまでの研究は、リアルタイム操作やモデル圧縮ではなく、ネットワークの性能に重点を置いてきた。 本稿では,画像全体を入力として使用する従来のcnn (convolutional neural network) に匹敵する大規模画像分類のための,強化学習に基づく軽量深層ニューラルネットワークであるgaussian deep recurrent visual attention model (gdram)を提案する。 生体視覚認識プロセスに強い影響を受け,本モデルはガウス分布を伴う網膜の確率的位置を模倣する。 我々は,MNIST,Large CIFAR-10,Large CIFAR-100データセットを,幅・高さともに128に再検討した。

Previous studies on image classification have mainly focused on the performance of the networks, not on real-time operation or model compression. We propose a Gaussian Deep Recurrent visual Attention Model (GDRAM)- a reinforcement learning based lightweight deep neural network for large scale image classification that outperforms the conventional CNN (Convolutional Neural Network) which uses the entire image as input. Highly inspired by the biological visual recognition process, our model mimics the stochastic location of the retina with Gaussian distribution. We evaluate the model on Large cluttered MNIST, Large CIFAR-10 and Large CIFAR-100 datasets which are resized to 128 in both width and height.
翻訳日:2022-09-26 06:40:46 公開日:2020-11-12
# 最終バッチ正規化層の追加による不均衡画像分類タスクのモデル精度向上に関する実証的研究

Improving Model Accuracy for Imbalanced Image Classification Tasks by Adding a Final Batch Normalization Layer: An Empirical Study ( http://arxiv.org/abs/2011.06319v1 )

ライセンス: Link先を確認
Veysel Kocaman, Ofer M. Shir, Thomas B\"ack(参考訳) 農業や医療などの現実の領域では、記録が稀な出来事を構成する早期の病気の徴候が存在しているが、その段階での正確な検出は極めて重要である。 複雑な特徴を包含する高不均衡な分類問題では,検出能力の強い深層学習(DL)が不可欠である。 同時に、DLは少数層よりも多数派を優先し、その結果、ターゲットとした早期の表示の不正確な検出に悩まされる。 このようなシナリオをシミュレートするために,トランスファー・ラーニングによる視覚手がかり不足の分類の基盤として,植物群落データセットから特定の植物タイプに対して,人工的にスキューネス(99%対1%)を生成する。 特定の植物タイプから健康で不健康なサンプルをランダムに抽出してトレーニングセットを形成することにより、ベース実験を微調整されたresnet34とvgg19アーキテクチャと考え、健康で不健康な画像のバランスのとれたデータセット上でモデルパフォーマンスをテストします。 VGG19の出力層直前に最終バッチ正規化(BN)層を追加すると、初期F1テストスコアがマイノリティクラスでは0.29から0.95に上昇する。 最新のCNNアーキテクチャでは,出力層の前にBN層を追加することで,少数クラスに対するトレーニング時間とテスト誤差の最小化にかなりの影響があることを実証する。 さらに、最後のBNを用いる場合、損失関数を最小化することは、そのような問題におけるマイノリティクラスに対する高いF1テストスコアを保証する最善の方法ではないかもしれない。 つまり、予測をしている間に十分な信頼性が得られなくても、ネットワークの性能が向上する可能性がある。

Some real-world domains, such as Agriculture and Healthcare, comprise early-stage disease indications whose recording constitutes a rare event, and yet, whose precise detection at that stage is critical. In this type of highly imbalanced classification problems, which encompass complex features, deep learning (DL) is much needed because of its strong detection capabilities. At the same time, DL is observed in practice to favor majority over minority classes and consequently suffer from inaccurate detection of the targeted early-stage indications. To simulate such scenarios, we artificially generate skewness (99% vs. 1%) for certain plant types out of the PlantVillage dataset as a basis for classification of scarce visual cues through transfer learning. By randomly and unevenly picking healthy and unhealthy samples from certain plant types to form a training set, we consider a base experiment as fine-tuning ResNet34 and VGG19 architectures and then testing the model performance on a balanced dataset of healthy and unhealthy images. We empirically observe that the initial F1 test score jumps from 0.29 to 0.95 for the minority class upon adding a final Batch Normalization (BN) layer just before the output layer in VGG19. We demonstrate that utilizing an additional BN layer before the output layer in modern CNN architectures has a considerable impact in terms of minimizing the training time and testing error for minority classes in highly imbalanced data sets. Moreover, when the final BN is employed, minimizing the loss function may not be the best way to assure a high F1 test score for minority classes in such problems. That is, the network might perform better even if it is not confident enough while making a prediction; leading to another discussion about why softmax output is not a good uncertainty measure for DL models.
翻訳日:2022-09-26 06:40:17 公開日:2020-11-12
# 深層Q-Learningに基づく消防環境の経路計画とナビゲーションシステム

A deep Q-Learning based Path Planning and Navigation System for Firefighting Environments ( http://arxiv.org/abs/2011.06450v1 )

ライセンス: Link先を確認
Manish Bhattarai and Manel Martinez-Ramon(参考訳) live fireはダイナミックで急速に変化する環境を作り、ディープラーニングと人工知能の方法論が消防士の状況認識の維持、重要な決定に必要な重要な機能を追跡し、リレーする上でのシーン理解を支援する。 そこで本研究では,ストレス誘発性不整合と不安に免疫を持つ深層Q学習エージェントを提案し,実火環境における観測および保存事実に基づくナビゲーションの明確な決定を可能にする。 概念実証として、エージェントと環境との相互作用を可能にするUnreal Engineと呼ばれるゲームエンジンにおける構造火災を模倣する。 エージェントは、環境に対する行動に応じて報酬と罰則のセットに基づいて、深いQ-ラーニングアルゴリズムで訓練される。 経験リプレイを利用して,学習プロセスを加速し,エージェントの学習を人間由来の体験で強化する。 この深層Q-ラーニングアプローチの下で訓練されたエージェントは、代替経路計画システムを通じて訓練されたエージェントよりも優れており、この方法論を、実火環境を安全に誘導できる経路計画ナビゲーションアシスタントを構築するための有望な基盤として実証している。

Live fire creates a dynamic, rapidly changing environment that presents a worthy challenge for deep learning and artificial intelligence methodologies to assist firefighters with scene comprehension in maintaining their situational awareness, tracking and relay of important features necessary for key decisions as they tackle these catastrophic events. We propose a deep Q-learning based agent who is immune to stress induced disorientation and anxiety and thus able to make clear decisions for navigation based on the observed and stored facts in live fire environments. As a proof of concept, we imitate structural fire in a gaming engine called Unreal Engine which enables the interaction of the agent with the environment. The agent is trained with a deep Q-learning algorithm based on a set of rewards and penalties as per its actions on the environment. We exploit experience replay to accelerate the learning process and augment the learning of the agent with human-derived experiences. The agent trained under this deep Q-learning approach outperforms agents trained through alternative path planning systems and demonstrates this methodology as a promising foundation on which to build a path planning navigation assistant capable of safely guiding fire fighters through live fire environments.
翻訳日:2022-09-26 06:33:24 公開日:2020-11-12
# 2次元画像における物体認識のための従来型ディープラーニングモデルの経験的性能解析

Empirical Performance Analysis of Conventional Deep Learning Models for Recognition of Objects in 2-D Images ( http://arxiv.org/abs/2011.06639v1 )

ライセンス: Link先を確認
Sangeeta Satish Rao, Nikunj Phutela, V R Badri Prasad(参考訳) ディープラーニングの重要な部分である人工ニューラルネットワークは、人間の脳の構造と機能から派生している。 医療分析から自動運転まで幅広い応用がある。 過去数年間で、ディープラーニングの技術は劇的に改善され、ネットワークアーキテクチャやネットワークパラメータなどを変化させることで、モデルをより広範囲にカスタマイズできるようになった。 我々は,学習率,フィルタサイズ,隠蔽層数,ストライドサイズ,アクティベーション関数などのパラメータを多用し,モデルの性能を分析し,最高性能のモデルを生成する。 モデルは画像を3つのカテゴリ、すなわち車、顔、飛行機に分類する。

Artificial Neural Networks, an essential part of Deep Learning, are derived from the structure and functionality of the human brain. It has a broad range of applications ranging from medical analysis to automated driving. Over the past few years, deep learning techniques have improved drastically - models can now be customized to a much greater extent by varying the network architecture, network parameters, among others. We have varied parameters like learning rate, filter size, the number of hidden layers, stride size and the activation function among others to analyze the performance of the model and thus produce a model with the highest performance. The model classifies images into 3 categories, namely, cars, faces and aeroplanes.
翻訳日:2022-09-26 06:33:05 公開日:2020-11-12
# 伝達学習を用いた畳み込みニューラルネットワークによるルーフフォールハザード検出

Roof fall hazard detection with convolutional neural networks using transfer learning ( http://arxiv.org/abs/2012.03681v1 )

ライセンス: Link先を確認
Ergin Isleyen, Sebnem Duzgun, McKell R. Carter(参考訳) 地質条件による屋根の落下は鉱業やトンネル業の主要な安全上の危険であり、失業、負傷、死亡の原因となっている。 アメリカ合衆国東部と中西部の大規模な石灰岩鉱山には、高い水平応力による屋根の落下問題がある。 この種の屋根の落下危険に対する典型的なハザードマネジメントアプローチは、視覚検査と専門家の知識に大きく依存している。 本研究では,高水平応力による屋根の落下危険度検出のための人工知能(AI)システムを提案する。 危険・非危険屋根条件を表現した画像を用いて,危険屋根条件の自律的検出のための畳み込みニューラルネットワークを開発した。 限られた入力データを補償するために、転送学習手法を用いる。 転送学習では、既に訓練済みのネットワークが、同様のドメインの分類の出発点として使用される。 その結果, 屋根条件を危険あるいは安全と分類し, 86%の統計的精度を得た。 しかし、正確性だけでは、信頼できるハザード管理システムを確保するには不十分である。 ネットワークが使用する機能を理解すると、システムの制約と信頼性が向上する。 そこで我々は,統合勾配と呼ばれる深層学習解釈手法を用いて,各画像の地質学的特徴を推定した。 統合勾配解析は, 屋根の落下危険度検出に関する専門家の判断を模倣していることを示している。 本稿では,人間を補完する地質学的ハザードマネジメントにおける深層学習の可能性を示し,ハザード識別が専門家の知識に大きく依存する場合において,自律トンネル作業の重要な部分となる可能性を示す。

Roof falls due to geological conditions are major safety hazards in mining and tunneling industries, causing lost work times, injuries, and fatalities. Several large-opening limestone mines in the Eastern and Midwestern United States have roof fall problems caused by high horizontal stresses. The typical hazard management approach for this type of roof fall hazard relies heavily on visual inspections and expert knowledge. In this study, we propose an artificial intelligence (AI) based system for the detection roof fall hazards caused by high horizontal stresses. We use images depicting hazardous and non-hazardous roof conditions to develop a convolutional neural network for autonomous detection of hazardous roof conditions. To compensate for limited input data, we utilize a transfer learning approach. In transfer learning, an already-trained network is used as a starting point for classification in a similar domain. Results confirm that this approach works well for classifying roof conditions as hazardous or safe, achieving a statistical accuracy of 86%. However, accuracy alone is not enough to ensure a reliable hazard management system. System constraints and reliability are improved when the features being used by the network are understood. Therefore, we used a deep learning interpretation technique called integrated gradients to identify the important geologic features in each image for prediction. The analysis of integrated gradients shows that the system mimics expert judgment on roof fall hazard detection. The system developed in this paper demonstrates the potential of deep learning in geological hazard management to complement human experts, and likely to become an essential part of autonomous tunneling operations in those cases where hazard identification heavily depends on expert knowledge.
翻訳日:2022-09-26 06:32:55 公開日:2020-11-12
# LIAF-Net: 軽量かつ効率的な時空間情報処理のための漏洩積分とアナログファイアネットワーク

LIAF-Net: Leaky Integrate and Analog Fire Network for Lightweight and Efficient Spatiotemporal Information Processing ( http://arxiv.org/abs/2011.06176v1 )

ライセンス: Link先を確認
Zhenzhi Wu, Hehui Zhang, Yihan Lin, Guoqi Li, Meng Wang, Ye Tang(参考訳) Leaky Integrate and Fire(LIF)モデルに基づくスパイキングニューラルネットワーク(SNN)は、エネルギー効率の良い時空間および時空間処理タスクに適用されている。 しかし、lif-snnは、バイオプルーサブルなニューロンのダイナミクスとシンプルさのおかげで、イベント駆動処理の利点を享受している。 これはLIF-SNNにおいて、ニューロンがスパイクを介して情報を伝達するためかもしれない。 この問題に対処するため,本研究では,リーク型積分・アナログ火炎(liaf)ニューロンモデルを提案し,ニューロン間でアナログ値を伝達し,その上にliaf-netと呼ばれる深層ネットワークを構築し,時空間処理を効率化する。 時間領域では、liafは時間的処理能力を維持するために従来のlifダイナミクスに従う。 空間領域において、liafは畳み込み積分や完全連結積分を通じて空間情報を統合することができる。 時空間層として、LIAFは従来の人工知能ニューラルネットワーク(ANN)層と併用することもできる。 Experiment results indicate that LIAF-Net achieves comparable performance to Gated Recurrent Unit (GRU) and Long short-term memory (LSTM) on bAbI Question Answering (QA) tasks, and achieves state-of-the-art performance on spatiotemporal Dynamic Vision Sensor (DVS) datasets, including MNIST-DVS, CIFAR10-DVS and DVS128 Gesture, with much less number of synaptic weights and computational overhead compared with traditional networks built by LSTM, GRU, Convolutional LSTM (ConvLSTM) or 3D convolution (Conv3D). 従来のLIF-SNNと比較して、LIAF-Netはこれらの実験で劇的に精度が向上した。 結論として、LIAF-Netは、軽量かつ効率的な時空間情報処理のためのANNとSNNの両方の利点を組み合わせたフレームワークを提供する。

Spiking neural networks (SNNs) based on Leaky Integrate and Fire (LIF) model have been applied to energy-efficient temporal and spatiotemporal processing tasks. Thanks to the bio-plausible neuronal dynamics and simplicity, LIF-SNN benefits from event-driven processing, however, usually faces the embarrassment of reduced performance. This may because in LIF-SNN the neurons transmit information via spikes. To address this issue, in this work, we propose a Leaky Integrate and Analog Fire (LIAF) neuron model, so that analog values can be transmitted among neurons, and a deep network termed as LIAF-Net is built on it for efficient spatiotemporal processing. In the temporal domain, LIAF follows the traditional LIF dynamics to maintain its temporal processing capability. In the spatial domain, LIAF is able to integrate spatial information through convolutional integration or fully-connected integration. As a spatiotemporal layer, LIAF can also be used with traditional artificial neural network (ANN) layers jointly. Experiment results indicate that LIAF-Net achieves comparable performance to Gated Recurrent Unit (GRU) and Long short-term memory (LSTM) on bAbI Question Answering (QA) tasks, and achieves state-of-the-art performance on spatiotemporal Dynamic Vision Sensor (DVS) datasets, including MNIST-DVS, CIFAR10-DVS and DVS128 Gesture, with much less number of synaptic weights and computational overhead compared with traditional networks built by LSTM, GRU, Convolutional LSTM (ConvLSTM) or 3D convolution (Conv3D). Compared with traditional LIF-SNN, LIAF-Net also shows dramatic accuracy gain on all these experiments. In conclusion, LIAF-Net provides a framework combining the advantages of both ANNs and SNNs for lightweight and efficient spatiotemporal information processing.
翻訳日:2022-09-26 06:32:19 公開日:2020-11-12
# 効率的な探索・伝達のための階層的強化学習

Hierarchical reinforcement learning for efficient exploration and transfer ( http://arxiv.org/abs/2011.06335v1 )

ライセンス: Link先を確認
Lorenzo Steccanella, Simone Totaro, Damien Allonsius, Anders Jonsson(参考訳) スパースワードドメインは、初めて報酬に遭遇する前にかなりの探索が必要であるため、強化学習アルゴリズムにとって困難である。 階層的な強化学習は、報酬を得る前に必要な決定数を減らし、探索を容易にする。 本稿では,多様なタスクに共通する不変状態空間の圧縮に基づく,新しい階層型強化学習フレームワークを提案する。 このアルゴリズムは圧縮によって誘導される状態分割の間を移動するサブタスクを導入する。 その結果, 複雑なスパース・リワード領域を解き, 知識を伝達することで, 未確認タスクをより迅速に解けることがわかった。

Sparse-reward domains are challenging for reinforcement learning algorithms since significant exploration is needed before encountering reward for the first time. Hierarchical reinforcement learning can facilitate exploration by reducing the number of decisions necessary before obtaining a reward. In this paper, we present a novel hierarchical reinforcement learning framework based on the compression of an invariant state space that is common to a range of tasks. The algorithm introduces subtasks which consist of moving between the state partitions induced by the compression. Results indicate that the algorithm can successfully solve complex sparse-reward domains, and transfer knowledge to solve new, previously unseen tasks more quickly.
翻訳日:2022-09-26 06:31:52 公開日:2020-11-12
# 不均一データアウェアフェデレーション学習

Heterogeneous Data-Aware Federated Learning ( http://arxiv.org/abs/2011.06393v1 )

ライセンス: Link先を確認
Lixuan Yang, Cedric Beliard, Dario Rossi(参考訳) フェデレートラーニング(FL)は、データをプライベートに保ちながら、ニューラルネットワーク(NN)の分散トレーニングを実行するための魅力的な概念である。 FLフレームワークの工業化により、非i.dデータの存在、不整合クラス、データセット間のマルチモーダリティのシグナルなど、その展開を妨げているいくつかの問題を特定する。 本研究では,(1)サーバ上のジェネリックモデルパラメータ(例えば,従来のFLなど)を集約するだけでなく,(2)各クライアント固有のパラメータ(例えば,タスク固有のNN層)を格納する新しい手法を提案する。 従来の公開ベンチマーク(フェムニストなど)や、独自の収集したデータセット(トラフィック分類など)でこの方法を検証する。 その結果,極端に有利な症例で,本手法の利点が示された。

Federated learning (FL) is an appealing concept to perform distributed training of Neural Networks (NN) while keeping data private. With the industrialization of the FL framework, we identify several problems hampering its successful deployment, such as presence of non i.i.d data, disjoint classes, signal multi-modality across datasets. In this work, we address these problems by proposing a novel method that not only (1) aggregates generic model parameters (e.g. a common set of task generic NN layers) on server (e.g. in traditional FL), but also (2) keeps a set of parameters (e.g, a set of task specific NN layer) specific to each client. We validate our method on the traditionally used public benchmarks (e.g., Femnist) as well as on our proprietary collected dataset (i.e., traffic classification). Results show the benefit of our method, with significant advantage on extreme cases.
翻訳日:2022-09-26 06:31:41 公開日:2020-11-12
# 一般化逆計画:一般化可能なタスク表現のための自由度非マルコフ的ユーティリティの学習

Generalized Inverse Planning: Learning Lifted non-Markovian Utility for Generalizable Task Representation ( http://arxiv.org/abs/2011.09854v1 )

ライセンス: Link先を確認
Sirui Xie and Feng Gao and Song-Chun Zhu(参考訳) 時間的拡張されたタスクの一般化可能な表現を探索する際には、2つの必要成分を見出す: 効用は確率シフトに不変な時間的関係を伝達する非マルコフ的でなければならない。 本研究では,人間の実演からこのような有用性を学ぶことを研究する。 逆強化学習(irl)はユーティリティ学習の一般的な枠組みとして受け入れられているが、その基本的な定式化はマルコフ決定過程の1つである。 したがって、学習した報酬関数は環境に依存しないタスクを指定しない。 それを超えて、私たちはスキーマに従う計画問題のセットにまたがる一般化のドメインを定義します。 そこで本稿では,この領域におけるユーティリティ学習のための新しい探索,一般化逆計画を提案する。 さらに計算フレームワークである最大エントロピー逆計画(MEIP)について概説し、非マルコフ的効用と関連する概念を生成的に学習する。 学習されたユーティリティと概念は、確率シフトや構造変化に関係なく一般化するタスク表現を形成する。 提案する一般化問題はまだ広く研究されていないが,2つの概念実証領域におけるMEIPの有効性と,実証から折り畳むことの学習という課題について,評価プロトコルを慎重に定義する。

In searching for a generalizable representation of temporally extended tasks, we spot two necessary constituents: the utility needs to be non-Markovian to transfer temporal relations invariant to a probability shift, the utility also needs to be lifted to abstract out specific grounding objects. In this work, we study learning such utility from human demonstrations. While inverse reinforcement learning (IRL) has been accepted as a general framework of utility learning, its fundamental formulation is one concrete Markov Decision Process. Thus the learned reward function does not specify the task independently of the environment. Going beyond that, we define a domain of generalization that spans a set of planning problems following a schema. We hence propose a new quest, Generalized Inverse Planning, for utility learning in this domain. We further outline a computational framework, Maximum Entropy Inverse Planning (MEIP), that learns non-Markovian utility and associated concepts in a generative manner. The learned utility and concepts form a task representation that generalizes regardless of probability shift or structural change. Seeing that the proposed generalization problem has not been widely studied yet, we carefully define an evaluation protocol, with which we illustrate the effectiveness of MEIP on two proof-of-concept domains and one challenging task: learning to fold from demonstrations.
翻訳日:2022-09-26 06:31:02 公開日:2020-11-12
# 神経抽象推論器

Neural Abstract Reasoner ( http://arxiv.org/abs/2011.09860v1 )

ライセンス: Link先を確認
Victor Kolev, Bogdan Georgiev, Svetlin Penkov(参考訳) 抽象的推論と論理推論はニューラルネットワークにとって難しい問題であるが、高度に構造化された領域での応用には不可欠である。 本研究では、スペクトル正則化のようなよく知られた手法が神経学習者の能力を著しく向上させることを示した。 本稿では,抽象ルールの学習と利用が可能なメモリ拡張アーキテクチャであるNeural Abstract Reasoner(NAR)を紹介する。 スペクトル正則化を訓練すると、NARは抽象・推論コーパスの精度を78.8 %で達成し、人間の手作りシンボルソルバの4倍の性能向上を図っている。 理論的一般化境界とソロモノフの帰納的推論の理論に基づく抽象的推論の領域におけるスペクトル正則化の効果の直観を与える。

Abstract reasoning and logic inference are difficult problems for neural networks, yet essential to their applicability in highly structured domains. In this work we demonstrate that a well known technique such as spectral regularization can significantly boost the capabilities of a neural learner. We introduce the Neural Abstract Reasoner (NAR), a memory augmented architecture capable of learning and using abstract rules. We show that, when trained with spectral regularization, NAR achieves $78.8\%$ accuracy on the Abstraction and Reasoning Corpus, improving performance 4 times over the best known human hand-crafted symbolic solvers. We provide some intuition for the effects of spectral regularization in the domain of abstract reasoning based on theoretical generalization bounds and Solomonoff's theory of inductive inference.
翻訳日:2022-09-26 06:30:41 公開日:2020-11-12
# 低リソース言語のための感情分析

Towards A Sentiment Analyzer for Low-Resource Languages ( http://arxiv.org/abs/2011.06382v1 )

ライセンス: Link先を確認
Dian Indriani, Arbi Haza Nasution, Winda Monika and Salhazan Nasution(参考訳) Twitterは、100万人のアクティブユーザーを抱える最も影響力のあるソーシャルメディアの1つだ。 一般的にはマイクロブログに使われ、ユーザーはメッセージ、アイデア、考えなどを共有できる。 このように、世界中の様々なトピックについて議論するtwitterユーザーの間で、ショートメッセージやツイートのような何百万もの対話が流れている。 本研究では,当時盛んに議論されてきた特定のトレンドトピックに対して,ユーザの感情を分析することを目的とする。 2019年のインドネシア大統領選挙で話題になったハッシュタグである「textit{\#kpujangancurang」を選択した。 ハッシュタグを使ってTwitterから一連のデータを取得し、ツイートからユーザーの肯定的あるいは否定的な感情を分析・調査します。 本研究では,twitterデータの生成にrapid minerツールを使用し,naive bayes,k-nearest neighbor, decision tree,多層パーセプトロン分類法を比較し,その感情を分類する。 この実験には200のラベル付きデータがある。 Naive BayesとMulti-Layer Perceptronの分類は、トレーニングテストデータの分割サイズが異なる11の実験において、他の2つの手法よりも優れていた。 この2つの分類器は、コーパスが小さい低リソース言語のための感情分析器を作成するのに使える可能性がある。

Twitter is one of the top influenced social media which has a million number of active users. It is commonly used for microblogging that allows users to share messages, ideas, thoughts and many more. Thus, millions interaction such as short messages or tweets are flowing around among the twitter users discussing various topics that has been happening world-wide. This research aims to analyse a sentiment of the users towards a particular trending topic that has been actively and massively discussed at that time. We chose a hashtag \textit{\#kpujangancurang} that was the trending topic during the Indonesia presidential election in 2019. We use the hashtag to obtain a set of data from Twitter to analyse and investigate further the positive or the negative sentiment of the users from their tweets. This research utilizes rapid miner tool to generate the twitter data and comparing Naive Bayes, K-Nearest Neighbor, Decision Tree, and Multi-Layer Perceptron classification methods to classify the sentiment of the twitter data. There are overall 200 labeled data in this experiment. Overall, Naive Bayes and Multi-Layer Perceptron classification outperformed the other two methods on 11 experiments with different size of training-testing data split. The two classifiers are potential to be used in creating sentiment analyzer for low-resource languages with small corpus.
翻訳日:2022-09-26 06:24:16 公開日:2020-11-12
# 単語埋め込みアルゴリズムの分解

Deconstructing word embedding algorithms ( http://arxiv.org/abs/2011.07013v1 )

ライセンス: Link先を確認
Kian Kenyon-Dean, Edward Newell, Jackie Chi Kit Cheung(参考訳) 単語埋め込みは、様々なNLPアプリケーションに対して高品質な結果を得るために使用される単語の特徴表現である。 非コンテキスト化ワード埋め込みは、現在多くのnlpタスク、特に高メモリ容量とgpuが利用できないリソース制限設定で使われている。 NLPにおける単語埋め込みの歴史的成功を考えると、最もよく知られた単語埋め込みアルゴリズムの振り返りを提案する。 本研究では,word2vec,glove,その他を共通の形式に分解し,高性能な単語埋め込みに必要な共通条件を明らかにした。 我々は,本論文の理論的知見が,将来のモデルの発展のよりインフォームドな基盤となると信じている。

Word embeddings are reliable feature representations of words used to obtain high quality results for various NLP applications. Uncontextualized word embeddings are used in many NLP tasks today, especially in resource-limited settings where high memory capacity and GPUs are not available. Given the historical success of word embeddings in NLP, we propose a retrospective on some of the most well-known word embedding algorithms. In this work, we deconstruct Word2vec, GloVe, and others, into a common form, unveiling some of the common conditions that seem to be required for making performant word embeddings. We believe that the theoretical findings in this paper can provide a basis for more informed development of future models.
翻訳日:2022-09-26 06:23:54 公開日:2020-11-12
# 深層学習を用いた部分微分方程式の記号解法

Symbolically Solving Partial Differential Equations using Deep Learning ( http://arxiv.org/abs/2011.06673v1 )

ライセンス: Link先を確認
Maysum Panju, Kourosh Parand, Ali Ghodsi(参考訳) 本稿では,微分方程式の完全あるいは近似解を数学的表現の形で生成するニューラルベース手法について述べる。 他のニューラルメソッドとは異なり、システムは直接解釈可能なシンボル表現を返します。 本手法は, 数学的表現の学習にニューラルネットワークを用い, カスタマイズ可能な目的を最適化し, スケーラブルでコンパクトで, 多様なタスクや構成に適応可能である。 このシステムは、自然科学に応用された様々な微分方程式の正確なあるいは近似的な記号解を効果的に見つけることが示されている。 本稿では,複数の変数に対する偏微分方程式と,より複雑な境界条件と初期値条件について述べる。

We describe a neural-based method for generating exact or approximate solutions to differential equations in the form of mathematical expressions. Unlike other neural methods, our system returns symbolic expressions that can be interpreted directly. Our method uses a neural architecture for learning mathematical expressions to optimize a customizable objective, and is scalable, compact, and easily adaptable for a variety of tasks and configurations. The system has been shown to effectively find exact or approximate symbolic solutions to various differential equations with applications in natural sciences. In this work, we highlight how our method applies to partial differential equations over multiple variables and more complex boundary and initial value conditions.
翻訳日:2022-09-26 06:23:46 公開日:2020-11-12
# 確率的ニューラルネットワークの実現とその応用

Realization of Stochastic Neural Networks and Its Potential Applications ( http://arxiv.org/abs/2011.06427v1 )

ライセンス: Link先を確認
S. Rahimi Kari(参考訳) 継承型キャンセルデコーダは従来のSCデコーダの実装から長い道のりを経てきたが、まだ改善の余地はある。 長年にわたる主な苦労は、それらを実装するための最適なアルゴリズムを見つけることだった。 提案されたアルゴリズムの多くは現実に実装できるほど実用的ではない。 本研究では,確率的ニューラルネットワークの効率をscデコーダとして導入し,その性能と実用性を改善する方法を見出す。 本稿では、確率ニューロンとSNNの簡単な紹介の後、決定的および確率的両方のプラットフォーム上で確率的NNを実現する方法を提案する。

Successive Cancellation Decoders have come a long way since the implementation of traditional SC decoders, but there still is a potential for improvement. The main struggle over the years was to find an optimal algorithm to implement them. Most of the proposed algorithms are not practical enough to be implemented in real-life. In this research, we aim to introduce the Efficiency of stochastic neural networks as an SC decoder and Find the possible ways of improving its performance and practicality. In this paper, after a brief introduction to stochastic neurons and SNNs, we introduce methods to realize Stochastic NNs on both deterministic and stochastic platforms.
翻訳日:2022-09-26 06:23:34 公開日:2020-11-12
# 著者の感想予測

Author's Sentiment Prediction ( http://arxiv.org/abs/2011.06128v1 )

ライセンス: Link先を確認
Mohaddeseh Bastan, Mahnaz Koupaee, Youngseo Son, Richard Sicoli, and Niranjan Balasubramanian(参考訳) 著者らがニュース記事のメインエンティティに対して表現した感情のクラウドソースアノテーションのデータセットであるpersentを紹介する。 データセットには段落レベルの感情アノテーションが含まれており、タスクのよりきめ細かい監視を提供する。 複数のベースラインのベンチマークは、これは難しい分類課題であることを示している。 また、bertによる文書レベルの表現の微調整は、このタスクには不十分であることが示唆された。 文書全体に対する段落レベルの決定や集約も有効ではない。 このデータセットによって引き起こされる特定の課題を説明する実証的・定性的な分析を行う。 我々はこのデータセットを5.3k文書と38k段落で公開し、エンティティ感情分析の課題として3.2kユニークなエンティティをカバーした。

We introduce PerSenT, a dataset of crowd-sourced annotations of the sentiment expressed by the authors towards the main entities in news articles. The dataset also includes paragraph-level sentiment annotations to provide more fine-grained supervision for the task. Our benchmarks of multiple strong baselines show that this is a difficult classification task. The results also suggest that simply fine-tuning document-level representations from BERT isn't adequate for this task. Making paragraph-level decisions and aggregating them over the entire document is also ineffective. We present empirical and qualitative analyses that illustrate the specific challenges posed by this dataset. We release this dataset with 5.3k documents and 38k paragraphs covering 3.2k unique entities as a challenge in entity sentiment analysis.
翻訳日:2022-09-26 06:23:24 公開日:2020-11-12
# 言語学的特徴に乏しいBERTの拡張

Augmenting BERT Carefully with Underrepresented Linguistic Features ( http://arxiv.org/abs/2011.06153v1 )

ライセンス: Link先を確認
Aparna Balagopalan, Jekaterina Novikova(参考訳) 変換器(BERT)をベースとした配列分類モデルを用いた微調整双方向エンコーダ表現は,ヒト音声の転写からアルツハイマー病(AD)を検出するのに有効であることが証明されている。 しかし、従来の研究では、追加情報でモデルを増強することで、様々なタスクにおけるBERTの性能を改善することが可能であった。 本研究では,探索課題をイントロスペクション手法として用いて,BERTの様々な層で表現されていない言語情報を識別するが,AD検出タスクでは重要である。 これらの言語的特徴は,手作りの特徴が不十分であることが判明し,これらの特徴と組み合わせることで,細調整されたBERTのみよりも最大5倍のAD分類性能が向上することを示す。

Fine-tuned Bidirectional Encoder Representations from Transformers (BERT)-based sequence classification models have proven to be effective for detecting Alzheimer's Disease (AD) from transcripts of human speech. However, previous research shows it is possible to improve BERT's performance on various tasks by augmenting the model with additional information. In this work, we use probing tasks as introspection techniques to identify linguistic information not well-represented in various layers of BERT, but important for the AD detection task. We supplement these linguistic features in which representations from BERT are found to be insufficient with hand-crafted features externally, and show that jointly fine-tuning BERT in combination with these features improves the performance of AD classification by upto 5\% over fine-tuned BERT alone.
翻訳日:2022-09-26 06:23:14 公開日:2020-11-12
# SigmaLaw-ABSA: 法的意見文におけるアスペクトに基づく感性分析のためのデータセット

SigmaLaw-ABSA: Dataset for Aspect-Based Sentiment Analysis in Legal Opinion Texts ( http://arxiv.org/abs/2011.06326v1 )

ライセンス: Link先を確認
Chanika Ruchini Mudalige, Dilini Karunarathna, Isanka Rajapaksha, Nisansa de Silva, Gathika Ratnayaka, Amal Shehan Perera, Ramesh Pathirana(参考訳) Aspect-Based Sentiment Analysis (ABSA) は、多くの異なる領域で研究が続けられているが、法的領域では広く議論されていない。 広範囲のドメインで利用可能なデータセットは、通常absaの分野で研究を行う研究者のニーズを満たす。 我々の知る限りでは、法的意見書に対するアスペクト(Party)に基づく感性分析のためのデータセットは公開されていない。 したがって、法的領域のためのABSA研究のための公開データセットを作成することは、重要な課題とみなすことができる。 本研究では,法的領域におけるABSAタスクの研究者支援を目的とした,手動で注釈付き法的意見テキストデータセット(SigmaLaw-ABSA)を紹介する。 SigmaLaw-ABSAは、人間の裁判官によって注釈付けされた英語の法的意見書からなる。 本研究は、法的領域に関連するABSAのサブタスクと、それらの実行にデータセットを使用する方法について論じる。 本稿では,データセットの統計をベースラインとして,シグマロウ・アブサデータセットを用いた既存のディープラーニングシステムの性能について述べる。

Aspect-Based Sentiment Analysis (ABSA) has been prominent and ongoing research over many different domains, but it is not widely discussed in the legal domain. A number of publicly available datasets for a wide range of domains usually fulfill the needs of researchers to perform their studies in the field of ABSA. To the best of our knowledge, there is no publicly available dataset for the Aspect (Party) Based Sentiment Analysis for legal opinion texts. Therefore, creating a publicly available dataset for the research of ABSA for the legal domain can be considered as a task with significant importance. In this study, we introduce a manually annotated legal opinion text dataset (SigmaLaw-ABSA) intended towards facilitating researchers for ABSA tasks in the legal domain. SigmaLaw-ABSA consists of legal opinion texts in the English language which have been annotated by human judges. This study discusses the sub-tasks of ABSA relevant to the legal domain and how to use the dataset to perform them. This paper also describes the statistics of the dataset and as a baseline, we present some results on the performance of some existing deep learning based systems on the SigmaLaw-ABSA dataset.
翻訳日:2022-09-26 06:22:59 公開日:2020-11-12
# 連成プルーニングと量子化による自動モデル圧縮

Automated Model Compression by Jointly Applied Pruning and Quantization ( http://arxiv.org/abs/2011.06231v1 )

ライセンス: Link先を確認
Wenting Tang, Xingxing Wei, Bo Li(参考訳) 従来のディープ圧縮フレームワークでは、反復的にネットワークプルーニングと量子化を実行することで、デプロイ要求を満たすためのモデルサイズと計算コストを削減できる。 しかし、プルーニングと量子化の段階的な応用は、最適以下の解と不要な時間消費につながる可能性がある。 本稿では,ネットワークプルーニングと量子化を統合的な統合圧縮問題として統合し,automlを用いて自動解くことでこの問題に取り組む。 プルーニング過程は、0ビットのチャネルワイド量子化とみなすことができる。 したがって、分離された2段階のプルーニングと量子化は、混合精度の1段階の量子化として単純化することができる。 この統一は圧縮パイプラインを単純化するだけでなく、圧縮の分岐を避ける。 この考え方を実現するために,共同適用プルーニングと量子化(AJPQ)による自動モデル圧縮を提案する。 AJPQは階層アーキテクチャで設計されており、層制御器は層間隔を制御し、チャネル制御器は各カーネルのビット幅を決定する。 同じ重要性基準に従って、レイヤコントローラとチャネルコントローラが協調して圧縮戦略を決定する。 強化学習により、ワンステップ圧縮が自動的に達成される。 本手法は,最先端の自動圧縮法と比較して,ストレージを大幅に削減し,精度を向上する。 固定精度量子化では、ajpqは5倍以上のモデルサイズと2倍の計算を削減でき、スカイネットのリモートセンシング対象検出の性能はわずかに向上する。 混合精度が許されると、AJPQは分類タスクにおけるMobileNetの5倍のモデルサイズを1.06%の精度で削減できる。

In the traditional deep compression framework, iteratively performing network pruning and quantization can reduce the model size and computation cost to meet the deployment requirements. However, such a step-wise application of pruning and quantization may lead to suboptimal solutions and unnecessary time consumption. In this paper, we tackle this issue by integrating network pruning and quantization as a unified joint compression problem and then use AutoML to automatically solve it. We find the pruning process can be regarded as the channel-wise quantization with 0 bit. Thus, the separate two-step pruning and quantization can be simplified as the one-step quantization with mixed precision. This unification not only simplifies the compression pipeline but also avoids the compression divergence. To implement this idea, we propose the automated model compression by jointly applied pruning and quantization (AJPQ). AJPQ is designed with a hierarchical architecture: the layer controller controls the layer sparsity, and the channel controller decides the bit-width for each kernel. Following the same importance criterion, the layer controller and the channel controller collaboratively decide the compression strategy. With the help of reinforcement learning, our one-step compression is automatically achieved. Compared with the state-of-the-art automated compression methods, our method obtains a better accuracy while reducing the storage considerably. For fixed precision quantization, AJPQ can reduce more than five times model size and two times computation with a slight performance increase for Skynet in remote sensing object detection. When mixed-precision is allowed, AJPQ can reduce five times model size with only 1.06% top-5 accuracy decline for MobileNet in the classification task.
翻訳日:2022-09-26 06:22:23 公開日:2020-11-12
# 深部ピラミッド表現の集約による画像異常検出

Image Anomaly Detection by Aggregating Deep Pyramidal Representations ( http://arxiv.org/abs/2011.06288v1 )

ライセンス: Link先を確認
Pankaj Mishra, Claudio Piciarelli, Gian Luca Foresti(参考訳) 異常検出は、データセット内で、通常クラスを表すデータの大部分と著しく異なるサンプルを識別することで構成される。 工業システムにおける欠陥製品検出から医用イメージングまで、多くの実用的応用がある。 本稿では,複数のピラミッドレベルを持つ深層ニューラルネットワークを用いた画像異常検出に着目し,画像特徴を異なるスケールで解析する。 本稿では,標準畳み込みオートエンコーダを用いた符号化復号方式に基づくネットワークを提案する。 ネットワークが入力を再構築できないことで異常を検出することができる。 MNIST,FMNISTおよび最近のMVTec異常検出データセットの精度が良好であることを示す実験結果

Anomaly detection consists in identifying, within a dataset, those samples that significantly differ from the majority of the data, representing the normal class. It has many practical applications, e.g. ranging from defective product detection in industrial systems to medical imaging. This paper focuses on image anomaly detection using a deep neural network with multiple pyramid levels to analyze the image features at different scales. We propose a network based on encoding-decoding scheme, using a standard convolutional autoencoders, trained on normal data only in order to build a model of normality. Anomalies can be detected by the inability of the network to reconstruct its input. Experimental results show a good accuracy on MNIST, FMNIST and the recent MVTec Anomaly Detection dataset
翻訳日:2022-09-26 06:21:58 公開日:2020-11-12
# 神経談話コヒーレンスモデルの解析

Analyzing Neural Discourse Coherence Models ( http://arxiv.org/abs/2011.06306v1 )

ライセンス: Link先を確認
Youmna Farag, Josef Valvoda, Helen Yannakoudakis and Ted Briscoe(参考訳) 本研究では,現在のコヒーレンスモデルが,談話組織におけるテキストの側面をどの程度捉えることができるかを体系的に検討する。 文法や意味論の変化に対するコヒーレンスとテストモデルの感度を損なう言語変化の2つのデータセットを考案する。 さらに、談話埋め込み空間を調査し、コヒーレンスの表現にエンコードされる知識を調べる。 本研究は,タスクの編成とコヒーレンスアセスメントのモデルの改善について,さらなる知見を提供していくことを願っている。 最後に、研究者が談話コヒーレンスモデルをテストするためのリソースとしてデータセットを公開します。

In this work, we systematically investigate how well current models of coherence can capture aspects of text implicated in discourse organisation. We devise two datasets of various linguistic alterations that undermine coherence and test model sensitivity to changes in syntax and semantics. We furthermore probe discourse embedding space and examine the knowledge that is encoded in representations of coherence. We hope this study shall provide further insight into how to frame the task and improve models of coherence assessment further. Finally, we make our datasets publicly available as a resource for researchers to use to test discourse coherence models.
翻訳日:2022-09-26 06:15:41 公開日:2020-11-12
# 大規模生物医学的実体認識

Biomedical Named Entity Recognition at Scale ( http://arxiv.org/abs/2011.06315v1 )

ライセンス: Link先を確認
Veysel Kocaman and David Talby(参考訳) 名前付きエンティティ認識(NER)は、質問応答、トピックモデリング、情報検索など、広く適用可能な自然言語処理タスクおよびビルディングブロックである。 医学領域では、nerは臨床ノートやレポートから有意義なチャンクを抽出し、アサーションステータス検出、エンティティ解決、関係抽出、非識別といった下流タスクに供給することで重要な役割を果たす。 Apache Spark上にBi-LSTM-CNN-Charディープラーニングアーキテクチャを再実装し、BERTのような重いコンテキスト埋め込みを使わずに、7つの公開バイオメディカルベンチマークで新しい最先端の結果を得られる単一のトレーニング可能なNERモデルを提案する。 BC4CHEMDは93.72%(4.1%増)、種別800から80.91%(4.6%増)、JNLPBAは81.29%増(5.2%増)である。 さらに、このモデルはオープンソースのSpark NLPライブラリの一部として、プロダクショングレードのコードベース内で自由に利用可能であり、任意のSparkクラスタでのトレーニングと推論のためにスケールアップ可能であり、Python、R、Scala、Javaなどの一般的なプログラミング言語向けのGPUサポートとライブラリを備えており、コードの変更なしに他のヒューマン言語をサポートするように拡張することができる。

Named entity recognition (NER) is a widely applicable natural language processing task and building block of question answering, topic modeling, information retrieval, etc. In the medical domain, NER plays a crucial role by extracting meaningful chunks from clinical notes and reports, which are then fed to downstream tasks like assertion status detection, entity resolution, relation extraction, and de-identification. Reimplementing a Bi-LSTM-CNN-Char deep learning architecture on top of Apache Spark, we present a single trainable NER model that obtains new state-of-the-art results on seven public biomedical benchmarks without using heavy contextual embeddings like BERT. This includes improving BC4CHEMD to 93.72% (4.1% gain), Species800 to 80.91% (4.6% gain), and JNLPBA to 81.29% (5.2% gain). In addition, this model is freely available within a production-grade code base as part of the open-source Spark NLP library; can scale up for training and inference in any Spark cluster; has GPU support and libraries for popular programming languages such as Python, R, Scala and Java; and can be extended to support other human languages with no code changes.
翻訳日:2022-09-26 06:15:31 公開日:2020-11-12
# 正規性モデルを用いた異常検出のためのトランスファー学習フレームワーク

A Transfer Learning Framework for Anomaly Detection Using Model of Normality ( http://arxiv.org/abs/2011.06210v1 )

ライセンス: Link先を確認
Sulaiman Aburakhia, Tareq Tayeh, Ryan Myers, Abdallah Shami(参考訳) 畳み込みニューラルネットワーク(CNN)技術は、画像ベースの異常検出アプリケーションにおいて非常に有用であることが証明されている。 cnnは、これらの機能に他の異常検出技術を適用する深層特徴抽出器として使用できる。 このシナリオでは、事前学習されたモデルが異常検出タスクに有用な深い特徴表現を提供するため、転送学習の使用が一般的である。 その結果、抽出された特徴と定義された正規性のモデルとの間に同様の測定値を適用することで異常を検出することができる。 このようなアプローチの鍵となる要因は、異常検出に使用される決定しきい値である。 提案手法の多くはアプローチ自体に焦点を当てているが,決定しきい値の設定には若干の注意が払われている。 本稿では,この問題に対処し,検出精度を向上させる作業点決定しきい値を設定する方法を提案する。 モデル・オブ・ノーマルティティー(MoN)と類似度尺度に基づく異常検出のための伝達学習フレームワークを導入し,提案したしきい値設定により,大幅な性能向上が達成できることを示す。 さらに、フレームワークの複雑さは低く、計算要件も緩和されている。

Convolutional Neural Network (CNN) techniques have proven to be very useful in image-based anomaly detection applications. CNN can be used as deep features extractor where other anomaly detection techniques are applied on these features. For this scenario, using transfer learning is common since pretrained models provide deep feature representations that are useful for anomaly detection tasks. Consequentially, anomaly can be detected by applying similarly measure between extracted features and a defined model of normality. A key factor in such approaches is the decision threshold used for detecting anomaly. While most of the proposed methods focus on the approach itself, slight attention has been paid to address decision threshold settings. In this paper, we tackle this problem and propose a welldefined method to set the working-point decision threshold that improves detection accuracy. We introduce a transfer learning framework for anomaly detection based on similarity measure with a Model of Normality (MoN) and show that with the proposed threshold settings, a significant performance improvement can be achieved. Moreover, the framework has low complexity with relaxed computational requirements.
翻訳日:2022-09-26 06:15:07 公開日:2020-11-12
# 3D-OES:ビューポイント不変オブジェクト指向環境シミュレータ

3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators ( http://arxiv.org/abs/2011.06464v1 )

ライセンス: Link先を確認
Hsiao-Yu Fish Tung, Zhou Xian, Mihir Prabhudesai, Shamit Lal, Katerina Fragkiadaki(参考訳) rgb-dビデオから推定した視点不変な3次元ニューラルネットワークシーン表現空間において,物体とエージェントの相互作用によるシーン変化を予測するアクションコンディショルドダイナミクスモデルを提案する。 この3D特徴空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。 これにより、累積物体の動き予測に基づいて3次元オブジェクトの特徴を「移動」するだけで、将来的なシーンを予測できる。 物体の動き予測は、3dニューラルネットワークのシーン表現から抽出された物体の特徴を演算するグラフニューラルネットワークによって計算される。 モデルのシミュレーションは、任意の視点から2d画像ビューにニューラルレンダラーで復号できるため、潜在3dシミュレーション空間の解釈性が向上する。 本モデルでは,対話対象の出現数や出現数,カメラ視点,既存の2次元・3次元ダイナミックスモデルよりも優れていることを示す。 さらに、実際のロボット装置において、物体を所望の場所に移動させるモデルベース制御に、シミュレーションのみで訓練されたモデルを適用することにより、学習ダイナミクスのシミュレートを実演する。

We propose an action-conditioned dynamics model that predicts scene changes caused by object and agent interactions in a viewpoint-invariant 3D neural scene representation space, inferred from RGB-D videos. In this 3D feature space, objects do not interfere with one another and their appearance persists over time and across viewpoints. This permits our model to predict future scenes long in the future by simply "moving" 3D object features based on cumulative object motion predictions. Object motion predictions are computed by a graph neural network that operates over the object features extracted from the 3D neural scene representation. Our model's simulations can be decoded by a neural renderer into2D image views from any desired viewpoint, which aids the interpretability of our latent 3D simulation space. We show our model generalizes well its predictions across varying number and appearances of interacting objects as well as across camera viewpoints, outperforming existing 2D and 3D dynamics models. We further demonstrate sim-to-real transfer of the learnt dynamics by applying our model trained solely in simulation to model-based control for pushing objects to desired locations under clutter on a real robotic setup
翻訳日:2022-09-26 06:14:28 公開日:2020-11-12
# Fit2Form:ロボットグリッパー形状設計のための3次元生成モデル

Fit2Form: 3D Generative Model for Robot Gripper Form Design ( http://arxiv.org/abs/2011.06498v1 )

ライセンス: Link先を確認
Huy Ha, Shubham Agrawal, Shuran Song(参考訳) ロボットのエンドエフェクターの3次元形状は、その機能と全体的な性能を決定する上で重要な役割を果たす。 多くの産業アプリケーションは、システムの堅牢性と正確性を保証するためにタスク固有のグリッパー設計に依存している。 しかし、手動のハードウェア設計のプロセスはコストも時間もかかり、結果として得られる設計の質はエンジニアの経験やドメインの専門知識に依存するため、時代遅れや不正確なことが容易にできる。 この研究の目標は、機械学習アルゴリズムを使用してタスク固有のグリッパー指の設計を自動化することである。 対象物に対する設計目的(成功,安定性,堅牢性)を最大化するために,指形状のペアを生成する3次元生成設計フレームワークFit2Formを提案する。 本研究では, 適応ネットワークを訓練し, グリッパー指のペアと対応する把持対象の値を予測することにより, 設計目標をモデル化する。 このFitnessネットワークは、3D生成ネットワークを監督し、ターゲットの把握対象に対して一対の3Dフィンガージオメトリを生成する。 提案手法は,他の汎用およびタスク固有のグリップパー設計アルゴリズムと比較して,より安定かつ頑健なグリップを達成できる並列顎グリップパー形状を生成する。 ビデオはhttps://youtu.be/utKHP3qb1bgで見ることができる。

The 3D shape of a robot's end-effector plays a critical role in determining it's functionality and overall performance. Many industrial applications rely on task-specific gripper designs to ensure the system's robustness and accuracy. However, the process of manual hardware design is both costly and time-consuming, and the quality of the resulting design is dependent on the engineer's experience and domain expertise, which can easily be out-dated or inaccurate. The goal of this work is to use machine learning algorithms to automate the design of task-specific gripper fingers. We propose Fit2Form, a 3D generative design framework that generates pairs of finger shapes to maximize design objectives (i.e., grasp success, stability, and robustness) for target grasp objects. We model the design objectives by training a Fitness network to predict their values for pairs of gripper fingers and their corresponding grasp objects. This Fitness network then provides supervision to a 3D Generative network that produces a pair of 3D finger geometries for the target grasp object. Our experiments demonstrate that the proposed 3D generative design framework generates parallel jaw gripper finger shapes that achieve more stable and robust grasps compared to other general-purpose and task-specific gripper design algorithms. Video can be found at https://youtu.be/utKHP3qb1bg.
翻訳日:2022-09-26 06:14:07 公開日:2020-11-12
# outlier-rejecting bootstrap aggregateを用いた教師なしmrモーションアーチファクトディープラーニング

Unsupervised MR Motion Artifact Deep Learning using Outlier-Rejecting Bootstrap Aggregation ( http://arxiv.org/abs/2011.06337v1 )

ライセンス: Link先を確認
Gyutaek Oh, Jeong Eun Lee, and Jong Chul Ye(参考訳) 近年,mrモーションアーティファクト補正のための深層学習手法が広く研究されている。 これらのアプローチは、従来の手法に比べて高い性能と計算の複雑さを示してきたが、その多くは、多くの重要な臨床応用での使用を禁止する、ペアのアーティファクトフリーとアーティファクトラップ画像を用いた教師付きトレーニングを必要とする。 例えば、Gd-EOB-DTPA強化MRの急性過渡性呼吸障害による過渡性重度運動(TSM)は、ペアデータ生成の制御とモデル化が困難である。 この問題に対処するために,アウトリアリジェクトブートストラップのサブサンプリングとアグリゲーションによる非教師なしディープラーニング手法を提案する。 これは、通常、動きが位相符号化方向のスパースk空間外れ値を引き起こすという観察に触発され、位相符号化方向に沿ってk空間のサブサンプリングがいくつかの外れ値を取り除くことができ、集約ステップは再構成ネットワークから結果をさらに改善することができる。 トレーニングステップはアーティファクトフリーなイメージのみを必要とするため,この方法はペアデータを必要としない。 さらに、潜在的なバイアスからアーティファクトフリーの画像への滑らか化に対処するため、最適な輸送駆動サイクルGANを用いて教師なしの方法でネットワークを訓練する。 本手法は,シミュレーション動作による人工物補正や,tsmによる実動作に有効であることを検証し,既存のディープラーニング手法を上回っている。

Recently, deep learning approaches for MR motion artifact correction have been extensively studied. Although these approaches have shown high performance and reduced computational complexity compared to classical methods, most of them require supervised training using paired artifact-free and artifact-corrupted images, which may prohibit its use in many important clinical applications. For example, transient severe motion (TSM) due to acute transient dyspnea in Gd-EOB-DTPA-enhanced MR is difficult to control and model for paired data generation. To address this issue, here we propose a novel unsupervised deep learning scheme through outlier-rejecting bootstrap subsampling and aggregation. This is inspired by the observation that motions usually cause sparse k-space outliers in the phase encoding direction, so k-space subsampling along the phase encoding direction can remove some outliers and the aggregation step can further improve the results from the reconstruction network. Our method does not require any paired data because the training step only requires artifact-free images. Furthermore, to address the smoothing from potential bias to the artifact-free images, the network is trained in an unsupervised manner using optimal transport driven cycleGAN. We verify that our method can be applied for artifact correction from simulated motion as well as real motion from TSM successfully, outperforming existing state-of-the-art deep learning methods.
翻訳日:2022-09-26 06:13:29 公開日:2020-11-12
# ニューラルコンビネータ最適化におけるカリキュラム学習戦略の評価

Evaluating Curriculum Learning Strategies in Neural Combinatorial Optimization ( http://arxiv.org/abs/2011.06188v1 )

ライセンス: Link先を確認
Michal Lisicki, Arash Afkanpour, Graham W. Taylor(参考訳) neural combinatorial optimization(nco)は、問題に依存しない効率的なニューラルネットワークに基づくコンビネーション問題を解決する戦略を設計することを目的としている。 この分野は最近、元々機械翻訳用に設計されたアーキテクチャをうまく適応させることで成長を経験した。 結果は有望だが、精度と効率の両面で、NCOモデルと古典的決定論的解法の間には大きなギャップが残っている。 現在のアプローチの欠点の1つは、複数の問題サイズのトレーニングの非効率性である。 カリキュラム学習戦略は、マルチタスク環境でのパフォーマンス向上に役立つことが示されている。 本研究では,既存のアーキテクチャが幅広い問題サイズで同時に競争性能を達成するのに役立つカリキュラム学習に基づく学習手順の設計に着目する。 本稿では,いくつかのトレーニング手順を体系的に調査し,古典的なカリキュラム手法を改善するための心理的なアプローチの適用を動機づけるために得られた知見を利用する。

Neural combinatorial optimization (NCO) aims at designing problem-independent and efficient neural network-based strategies for solving combinatorial problems. The field recently experienced growth by successfully adapting architectures originally designed for machine translation. Even though the results are promising, a large gap still exists between NCO models and classic deterministic solvers, both in terms of accuracy and efficiency. One of the drawbacks of current approaches is the inefficiency of training on multiple problem sizes. Curriculum learning strategies have been shown helpful in increasing performance in the multi-task setting. In this work, we focus on designing a curriculum learning-based training procedure that can help existing architectures achieve competitive performance on a large range of problem sizes simultaneously. We provide a systematic investigation of several training procedures and use the insights gained to motivate application of a psychologically-inspired approach to improve upon the classic curriculum method.
翻訳日:2022-09-26 06:13:01 公開日:2020-11-12