このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210121となっている論文です。

PDF登録状況(公開日: 20210121)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 経過時間サンプリングによる変換速度予測における遅延フィードバックの捕捉 [全文訳有]

Capturing Delayed Feedback in Conversion Rate Prediction via Elapsed-Time Sampling ( http://arxiv.org/abs/2012.03245v2 )

ライセンス: CC BY 4.0
Jia-Qi Yang, Xiang Li, Shuguang Han, Tao Zhuang, De-Chuan Zhan, Xiaoyi Zeng, Bin Tong(参考訳) コンバージョンレート(CVR)予測は、デジタルディスプレイ広告において最も重要なタスクの1つである。 商用システムは、進化するデータ配布に追いつくために、しばしばオンライン学習方法でモデルを更新する必要がある。 しかし、通常はユーザーがクリックした直後に変換は行われない。 これは遅延フィードバック問題と呼ばれる不正確なラベリングをもたらす可能性がある。 従来の研究では、遅延フィードバック問題は、長い期間正のラベルを待ち、または到着時に負のサンプルを消費し、後で変換が発生したときに正の重複を挿入することによって処理される。 実際、より正確なラベルを待つことと、既存の作品では考慮されていないフレッシュデータを利用するというトレードオフがある。 このトレードオフにおいてバランスをとるために,観測された変換分布と真の変換分布の関係をモデル化したElapsed-Time Smpling Delayed Feedback Model (ES-DFM)を提案する。 そして、経過時間サンプリング分布下で重要サンプリングによる真の変換分布の期待値を最適化する。 さらに,cvr予測において損失関数の重みとして使用される各インスタンスの重み付け量を推定する。 ES-DFMの有効性を実証するため,公開データとプライベート産業データセットについて広範な実験を行った。 実験結果から,本手法が先行する最新結果を一貫して上回っていることが確認された。

Conversion rate (CVR) prediction is one of the most critical tasks for digital display advertising. Commercial systems often require to update models in an online learning manner to catch up with the evolving data distribution. However, conversions usually do not happen immediately after a user click. This may result in inaccurate labeling, which is called delayed feedback problem. In previous studies, delayed feedback problem is handled either by waiting positive label for a long period of time, or by consuming the negative sample on its arrival and then insert a positive duplicate when a conversion happens later. Indeed, there is a trade-off between waiting for more accurate labels and utilizing fresh data, which is not considered in existing works. To strike a balance in this trade-off, we propose Elapsed-Time Sampling Delayed Feedback Model (ES-DFM), which models the relationship between the observed conversion distribution and the true conversion distribution. Then we optimize the expectation of true conversion distribution via importance sampling under the elapsed-time sampling distribution. We further estimate the importance weight for each instance, which is used as the weight of loss function in CVR prediction. To demonstrate the effectiveness of ES-DFM, we conduct extensive experiments on a public data and a private industrial dataset. Experimental results confirm that our method consistently outperforms the previous state-of-the-art results.
翻訳日:2021-05-22 06:23:43 公開日:2021-01-21
# Euclidean-Norm-induc ed Schatten-p Quasi-Norm regularization による低ランクテンソル回復

Low-Rank Tensor Recovery with Euclidean-Norm-Induc ed Schatten-p Quasi-Norm Regularization ( http://arxiv.org/abs/2012.03436v2 )

ライセンス: Link先を確認
Jicong Fan, Lijun Ding, Chengrun Yang, Madeleine Udell(参考訳) 行列の核ノルムとSchatten-$p$準ノルムは、低ランク行列回復において一般的な階数プロキシである。 残念なことに、テンソルの核ノルムやSchatten-$p$準ノルムの計算はNPハードであり、ローランクテンソル完備化(LRTC)とテンソルロバストな主成分分析(TRPCA)の哀れみである。 本論文では、テンソルのCP成分ベクトルのユークリッドノルムに基づく新しい階数正規化器のクラスを提案し、これらの正規化器がテンソルシャッテン-$p$準ノルムの単調変換であることを示す。 この接続により、LRTC と TRPCA における Schatten-$p$ quasi-norm を暗黙的に最小化できる。 この方法は特異値分解を使わず、従って大きなテンソルにスケールする。 さらに、これらの手法は初期ランクの選択に敏感ではなく、核ノルムと比較して低ランクテンソルリカバリのための任意にシャープなランクプロキシを提供する。 LRTC と TRPCA の回復誤差について理論的に保証し、Schatten-$p$ 準ノルムの相対的に小さい値が誤差境界を狭くすることを示す。 合成データと自然画像に対するLRTCとTRPCAを用いた実験により,本手法の有効性と優位性が確認された。

The nuclear norm and Schatten-$p$ quasi-norm of a matrix are popular rank proxies in low-rank matrix recovery. Unfortunately, computing the nuclear norm or Schatten-$p$ quasi-norm of a tensor is NP-hard, which is a pity for low-rank tensor completion (LRTC) and tensor robust principal component analysis (TRPCA). In this paper, we propose a new class of rank regularizers based on the Euclidean norms of the CP component vectors of a tensor and show that these regularizers are monotonic transformations of tensor Schatten-$p$ quasi-norm. This connection enables us to minimize the Schatten-$p$ quasi-norm in LRTC and TRPCA implicitly. The methods do not use the singular value decomposition and hence scale to big tensors. Moreover, the methods are not sensitive to the choice of initial rank and provide an arbitrarily sharper rank proxy for low-rank tensor recovery compared to nuclear norm. We provide theoretical guarantees in terms of recovery error for LRTC and TRPCA, which show relatively smaller $p$ of Schatten-$p$ quasi-norm leads to tighter error bounds. Experiments using LRTC and TRPCA on synthetic data and natural images verify the effectiveness and superiority of our methods compared to baseline methods.
翻訳日:2021-05-16 21:50:04 公開日:2021-01-21
# インタラクティブインテリジェンスを省略する

Imitating Interactive Intelligence ( http://arxiv.org/abs/2012.05672v2 )

ライセンス: Link先を確認
Josh Abramson, Arun Ahuja, Iain Barr, Arthur Brussee, Federico Carnevale, Mary Cassin, Rachita Chhaparia, Stephen Clark, Bogdan Damoc, Andrew Dudzik, Petko Georgiev, Aurelia Guy, Tim Harley, Felix Hill, Alden Hung, Zachary Kenton, Jessica Landon, Timothy Lillicrap, Kory Mathewson, So\v{n}a Mokr\'a, Alistair Muldal, Adam Santoro, Nikolay Savinov, Vikrant Varma, Greg Wayne, Duncan Williams, Nathaniel Wong, Chen Yan, Rui Zhu(参考訳) SFからの一般的なビジョンは、ロボットはいつか私たちの物理的空間に住み、世界は私たちのように感じ、肉体労働を補助し、自然言語を通して私たちとコミュニケーションする、ということだ。 本稿では,仮想環境の単純化により人間と自然に対話できる人工エージェントを設計する方法を検討する。 それでもこの設定は、複雑な視覚知覚と目標指向の物理的制御、接地言語理解と生産、マルチエージェントの社会的相互作用など、人工知能(ai)研究の多くの中心的課題を統合している。 人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。 しかし、これは現実的ではない。 そこで我々は,人間の役割を他の学習エージェントと近似し,逆強化学習のアイデアを用いて,人間とエージェントの対話行動の相違を低減する。 エージェントを厳格に評価することは大きな課題であり、エージェントのビデオを見たり直接対話したりする人間による評価など、さまざまな行動テストを開発します。 これらの評価は、対話的トレーニングと補助的損失が、行動の教師付き学習によって達成されることを超えて、エージェントの行動を改善することを示す。 さらに、エージェント機能がデータセットのリテラル体験を超えて一般化することを実証する。 最後に,エージェントの格付けが人間の判断に合致する評価モデルを訓練し,新たなエージェントモデルの評価を追加の努力なしに行えるようにした。 この仮想環境における我々の結果は、大規模人間の行動模倣が知的で対話的なエージェントを作るための有望なツールであり、そのようなエージェントを確実に評価することの課題が克服可能であることを示す。

A common vision from science fiction is that robots will one day inhabit our physical spaces, sense the world as we do, assist our physical labours, and communicate with us through natural language. Here we study how to design artificial agents that can interact naturally with humans using the simplification of a virtual environment. This setting nevertheless integrates a number of the central challenges of artificial intelligence (AI) research: complex visual perception and goal-directed physical control, grounded language comprehension and production, and multi-agent social interaction. To build agents that can robustly interact with humans, we would ideally train them while they interact with humans. However, this is presently impractical. Therefore, we approximate the role of the human with another learned agent, and use ideas from inverse reinforcement learning to reduce the disparities between human-human and agent-agent interactive behaviour. Rigorously evaluating our agents poses a great challenge, so we develop a variety of behavioural tests, including evaluation by humans who watch videos of agents or interact directly with them. These evaluations convincingly demonstrate that interactive training and auxiliary losses improve agent behaviour beyond what is achieved by supervised learning of actions alone. Further, we demonstrate that agent capabilities generalise beyond literal experiences in the dataset. Finally, we train evaluation models whose ratings of agents agree well with human judgement, thus permitting the evaluation of new agent models without additional effort. Taken together, our results in this virtual environment provide evidence that large-scale human behavioural imitation is a promising tool to create intelligent, interactive agents, and the challenge of reliably evaluating such agents is possible to surmount.
翻訳日:2021-05-15 06:32:46 公開日:2021-01-21
# すべてのプライバシー制度に有効な(\epsilon, \delta)$-微分的プライベートガウス機構に縛られる閉じた形式スケール

A closed form scale bound for the $(\epsilon, \delta)$-differentia lly private Gaussian Mechanism valid for all privacy regimes ( http://arxiv.org/abs/2012.10523v2 )

ライセンス: Link先を確認
Staal A. Vinterbo(参考訳) 分散$\sigma^2$ is $\sigma > \delta\sqrt {2}(\epsilon^{-1}) \sqrt {\log \left(5/4\delta^{-1} \right)}$\epsilon \in (0,1)$である。 同様の閉形式は、$\sigma \geq \Delta (\epsilon\sqrt{2})^{-1} \left(\sqrt{az+\epsilon} + s\sqrt{az}\right)$ for $z=-\log(4\delta(1-\del ta))$ and $(a,s)=(1,1)$ if $\delta \leq 1/2$ and $(a,s)=(\pi/4,-1)$である。 我々の境界はすべての$\epsilon > 0$に対して有効であり、常に低い(より低い)。 また,偶数と対数対数対数密度に比例して分布するノイズを付加する場合,$(\epsilon, \delta)$-differentia l プライバシの十分条件を示す。

The standard closed form lower bound on $\sigma$ for providing $(\epsilon, \delta)$-differentia l privacy by adding zero mean Gaussian noise with variance $\sigma^2$ is $\sigma > \Delta\sqrt {2}(\epsilon^{-1}) \sqrt {\log \left( 5/4\delta^{-1} \right)}$ for $\epsilon \in (0,1)$. We present a similar closed form bound $\sigma \geq \Delta (\epsilon\sqrt{2})^{-1} \left(\sqrt{az+\epsilon} + s\sqrt{az}\right)$ for $z=-\log(4\delta(1-\del ta))$ and $(a,s)=(1,1)$ if $\delta \leq 1/2$ and $(a,s)=(\pi/4,-1)$ otherwise. Our bound is valid for all $\epsilon > 0$ and is always lower (better). We also present a sufficient condition for $(\epsilon, \delta)$-differentia l privacy when adding noise distributed according to even and log-concave densities supported everywhere.
翻訳日:2021-05-01 18:04:46 公開日:2021-01-21
# (参考訳) トランスフォーマベースのcovid-19偽ニュース検出システム [全文訳有]

Transformer based Automatic COVID-19 Fake News Detection System ( http://arxiv.org/abs/2101.00180v3 )

ライセンス: CC BY 4.0
Sunil Gundapu, Radhika Mamidi(参考訳) Twitterなどのオンラインソーシャルネットワークの急速な技術進歩は、偽情報やフェイクニュースの普及に大きく貢献している。 新型コロナウイルス(COVID-19)のパンデミックでは、誤報が特に多く発生し、個人は偽情報や有害な主張や記事を受け入れている。 フェイクニュースの迅速な検出は、パニックや混乱の拡散を減少させる可能性がある。 本稿では,新型コロナウイルスのパンデミックに関連するソーシャルメディア上で共有される情報の信頼性を解析するための方法論について報告する。 我々の最良のアプローチは、偽ニュースを検出するための3つのトランスフォーマーモデル(BERT、ALBERT、XLNET)のアンサンブルに基づいている。 このモデルは、constraintai 2021 shared task covid19 fake news detection in englishの文脈で訓練され、評価された。 テストセットでは0.9855 f1スコアを獲得し,160チーム中5位にランクインした。

Recent rapid technological advancements in online social networks such as Twitter have led to a great incline in spreading false information and fake news. Misinformation is especially prevalent in the ongoing coronavirus disease (COVID-19) pandemic, leading to individuals accepting bogus and potentially deleterious claims and articles. Quick detection of fake news can reduce the spread of panic and confusion among the public. For our analysis in this paper, we report a methodology to analyze the reliability of information shared on social media pertaining to the COVID-19 pandemic. Our best approach is based on an ensemble of three transformer models (BERT, ALBERT, and XLNET) to detecting fake news. This model was trained and evaluated in the context of the ConstraintAI 2021 shared task COVID19 Fake News Detection in English. Our system obtained 0.9855 f1-score on testset and ranked 5th among 160 teams.
翻訳日:2021-04-17 12:40:17 公開日:2021-01-21
# (参考訳) Ignoreを学ぶ: 公平でタスクに依存しない表現 [全文訳有]

Learning to Ignore: Fair and Task Independent Representations ( http://arxiv.org/abs/2101.04047v2 )

ライセンス: CC BY 4.0
Linda H. Boedi and Helmut Grabner(参考訳) ドメインシフトの問題の解釈可能性と解決を目的とした、公正な機械学習モデルのトレーニングは、ここ数年で大きな関心を集めている。 これらのトピックには多くの作業があり、その大部分は分離にあります。 本研究では,不変表現を学習するための共通フレームワークとして捉えることができることを示す。 表現は、データセットをサブグループに分割するセンシティブな属性に不変であると同時に、ターゲットを予測することを可能にします。 提案手法は,任意の学習アルゴリズムが同じ特徴表現を持つ場合,サンプルを識別することは不可能である,という単純な観察に基づいている。 これはサブグループ間で共通の特徴表現を強制する追加の損失(レギュラライザー)として定式化されている。 公平なモデルを学び、センシティブな属性の影響を解釈するために適用する。 さらに、ごく少数の例からドメイン適応、知識の伝達、学習に効果的に使用できる。 すべてのアプリケーションにおいて、ターゲットを予測することを学ぶだけでなく、何を無視するかを学ぶことが不可欠です。

Training fair machine learning models, aiming for their interpretability and solving the problem of domain shift has gained a lot of interest in the last years. There is a vast amount of work addressing these topics, mostly in separation. In this work we show that they can be seen as a common framework of learning invariant representations. The representations should allow to predict the target while at the same time being invariant to sensitive attributes which split the dataset into subgroups. Our approach is based on the simple observation that it is impossible for any learning algorithm to differentiate samples if they have the same feature representation. This is formulated as an additional loss (regularizer) enforcing a common feature representation across subgroups. We apply it to learn fair models and interpret the influence of the sensitive attribute. Furthermore it can be used for domain adaptation, transferring knowledge and learning effectively from very few examples. In all applications it is essential not only to learn to predict the target, but also to learn what to ignore.
翻訳日:2021-04-04 17:06:30 公開日:2021-01-21
# 単変量アルゴリズムによる糖尿病患者における血糖値予測

Forecasting blood sugar levels in Diabetes with univariate algorithms ( http://arxiv.org/abs/2101.04770v2 )

ライセンス: Link先を確認
Ignacio Rodriguez(参考訳) ウェアラブルガジェットと結合したAIプロシージャは、正確な一過性の血糖レベル予測モデルを伝達することができる。 また、これらのモデルでは、生理状態のいくつかの部分と人の毎日の動きを観察して収集されたセンサー情報に依存する、カスタマイズされたグルコースインスリン要素を学習することができる。 この時点まで、情報駆動予測モデルを作成する主要な手法は、医師や患者が治療を理想的に変えるのに役立つ「期待できる限りの情報」を収集することであった。 この研究の目的は、正確な個別駆動型最小項期待モデルを達成するのに必要な基本情報のソート、ボリューム、速度を調べることである。 我々は、ウェアラブルプロセッサ内での実行に適したAIタイムアレンジメントガイダンス戦略を利用して、これらのモデルの進歩を構築した。 我々は,強い情報収集を行うために,真の状態に集中した広範囲の患者検査を完了した。 検査対象は1型糖尿病患者の一部で, 血糖値検査フレームワークを装着した。 我々は、生成した情報駆動予測モデルの提示とAI手法の比較に関する相対的な定量的評価を指示した。 以上の結果から, 短時間で間質性グルコース情報を確認し, 低検査再発率を生かして, 正確な瞬間予測が可能であった。 生成したモデルは、6時間以内に収集された24の記憶可能な品質だけを利用して15分のスカイライン内のグルコース濃度を15.43mg/dL以下に予測でき、検査を繰り返して72の品質を組み込むことにより、通常のブラダーは10.15mg/dLに制限される。 当社の予測モデルは、ウェアラブルガジェット内での実行に適しており、高い期待精度を同時に達成しつつ、基本機器を必要とする。

AI procedures joined with wearable gadgets can convey exact transient blood glucose level forecast models. Also, such models can learn customized glucose-insulin elements dependent on the sensor information gathered by observing a few parts of the physiological condition and every day movement of a person. Up to this point, the predominant methodology for creating information driven forecast models was to gather "however much information as could be expected" to help doctors and patients ideally change treatment. The goal of this work was to examine the base information assortment, volume, and speed needed to accomplish exact individual driven diminutive term expectation models. We built up a progression of these models utilizing distinctive AI time arrangement guaging strategies that are appropriate for execution inside a wearable processor. We completed a broad aloof patient checking concentrate in genuine conditions to fabricate a strong informational collection. The examination included a subset of type-1 diabetic subjects wearing a glimmer glucose checking framework. We directed a relative quantitative assessment of the presentation of the created information driven expectation models and comparing AI methods. Our outcomes show that precise momentary forecast can be accomplished by just checking interstitial glucose information over a brief timeframe and utilizing a low examining recurrence. The models created can anticipate glucose levels inside a 15-minute skyline with a normal mistake as low as 15.43 mg/dL utilizing just 24 memorable qualities gathered inside a time of 6 hours, and by expanding the inspecting recurrence to incorporate 72 qualities, the normal blunder is limited to 10.15 mg/dL. Our forecast models are reasonable for execution inside a wearable gadget, requiring the base equipment necessities while simultaneously accomplishing high expectation precision.
翻訳日:2021-04-04 01:40:17 公開日:2021-01-21
# 医用イメージングのための大規模トランスファー学習

Supervised Transfer Learning at Scale for Medical Imaging ( http://arxiv.org/abs/2101.05913v3 )

ライセンス: Link先を確認
Basil Mustafa, Aaron Loh, Jan Freyberg, Patricia MacWilliams, Megan Wilson, Scott Mayer McKinney, Marcin Sieniek, Jim Winkens, Yuan Liu, Peggy Bui, Shruthi Prabhakara, Umesh Telang, Alan Karthikesalingam, Neil Houlsby and Vivek Natarajan(参考訳) 転送学習は、限られたデータでタスクのパフォーマンスを改善するための標準技術である。 しかし, 医用画像では, 転校学習の価値はさほど明らかではない。 これは、通常の自然像事前学習(例)の間の大きなドメインミスマッチによる可能性がある。 画像ネット)と医療画像。 しかし、最近の転校学習の進歩は、規模から大きく改善されている。 医用画像における伝達学習の長所を現代的手法で変えられるかを検討する。 本研究では,kolesnikovらによる大規模事前学習ネットワークのクラスについて検討した。 胸部x線撮影, マンモグラフィ, 皮膚科の3つの画像診断課題について 医療領域における展開における転送性能と臨界特性の両方について検討し, 分散一般化, データ効率, サブグループ公平性, 不確実性推定などについて検討した。 興味深いことに、これらの性質のいくつかは、自然画像から医療画像への転送には極めて有効であるが、十分な規模で実行される場合に限られる。

Transfer learning is a standard technique to improve performance on tasks with limited data. However, for medical imaging, the value of transfer learning is less clear. This is likely due to the large domain mismatch between the usual natural-image pre-training (e.g. ImageNet) and medical images. However, recent advances in transfer learning have shown substantial improvements from scale. We investigate whether modern methods can change the fortune of transfer learning for medical imaging. For this, we study the class of large-scale pre-trained networks presented by Kolesnikov et al. on three diverse imaging tasks: chest radiography, mammography, and dermatology. We study both transfer performance and critical properties for the deployment in the medical domain, including: out-of-distribution generalization, data-efficiency, sub-group fairness, and uncertainty estimation. Interestingly, we find that for some of these properties transfer from natural to medical images is indeed extremely effective, but only when performed at sufficient scale.
翻訳日:2021-03-29 00:49:33 公開日:2021-01-21
# 二分決定木の別の表現法--数学的デモンストレーション

Yet Another Representation of Binary Decision Trees: A Mathematical Demonstration ( http://arxiv.org/abs/2101.07077v3 )

ライセンス: Link先を確認
Jinxiong Zhang(参考訳) 決定木はサイクルのない単純な計算グラフのように見え、葉ノードだけが出力値を指定し、非終端ノードがテストや分割条件を指定する。 数値的な観点からは、計算グラフの言語で決定木を表現する。 非終端ノードのビットベクトルに基づいて、決定木のテストフェーズ、トラバーサルフェーズ、予測フェーズを明示的にパラメータ化する。 後述するように、決定木は何らかの意味で浅いバイナリネットワークである。 特に,論理'and'演算を演算演算に変換することを核とする数値的手法でツリートラバーサルを実装するためにbitvector行列を導入する。 そして、この数値表現を多種多様な決定木を概念的に拡張し統一するために応用する。

A decision tree looks like a simple computational graph without cycles, where only the leaf nodes specify the output values and the non-terminals specify their tests or split conditions. From the numerical perspective, we express decision trees in the language of computational graph. We explicitly parameterize the test phase, traversal phase and prediction phase of decision trees based on the bitvectors of non-terminal nodes. As shown later, the decision tree is a shallow binary network in some sense. Especially, we introduce the bitvector matrix to implement the tree traversal in numerical approach, where the core is to convert the logical `AND' operation to arithmetic operations. And we apply this numerical representation to extend and unify diverse decision trees in concept.
翻訳日:2021-03-27 05:54:26 公開日:2021-01-21
# (参考訳) 代数トポロジーを用いたニューラルネットワークの構造特性決定 [全文訳有]

Determining Structural Properties of Artificial Neural Networks Using Algebraic Topology ( http://arxiv.org/abs/2101.07752v2 )

ライセンス: CC BY 4.0
David P\'erez Fern\'andez and Asier Guti\'errez-Fandi\~no and Jordi Armengol-Estap\' ;e and Marta Villegas(参考訳) 人工ニューラルネットワーク(ANN)は複雑な関数の近似に広く用いられている。 通常、特定の関数が与えられたANNの最も適切なアーキテクチャを定義するために従うプロセスは、主に経験的である。 このアーキテクチャが定義されると、通常はエラー関数に従って重みが最適化される。 一方、ANNはグラフとして表現でき、そのトポロジ的「フィンガープリント」は Persistent Homology (PH) を用いて得られる。 本稿では,より原則的なアーキテクチャ探索手順の設計に焦点を当てた提案について述べる。 これを実現するために、異種データセットに関連する問題を解くための異なるアーキテクチャが分析されている。 ANN密度(層とニューロン)またはサンプル摂食順序が唯一の差である場合、PHトポロジカル不変量は、異なるサブプロブレム(すなわち、異なるサブプロブレム)の反対方向に現れる。 異なるラベル) phは異なる。 トポロジカル分析に基づくこのアプローチは、より原則化されたアーキテクチャ検索手順を設計し、annをより理解することの目標に役立ちます。

Artificial Neural Networks (ANNs) are widely used for approximating complex functions. The process that is usually followed to define the most appropriate architecture for an ANN given a specific function is mostly empirical. Once this architecture has been defined, weights are usually optimized according to the error function. On the other hand, we observe that ANNs can be represented as graphs and their topological 'fingerprints' can be obtained using Persistent Homology (PH). In this paper, we describe a proposal focused on designing more principled architecture search procedures. To do this, different architectures for solving problems related to a heterogeneous set of datasets have been analyzed. The results of the evaluation corroborate that PH effectively characterizes the ANN invariants: when ANN density (layers and neurons) or sample feeding order is the only difference, PH topological invariants appear; in the opposite direction in different sub-problems (i.e. different labels), PH varies. This approach based on topological analysis helps towards the goal of designing more principled architecture search procedures and having a better understanding of ANNs.
翻訳日:2021-03-22 13:30:09 公開日:2021-01-21
# (参考訳) 深部特徴と手作り特徴の組み合わせによる新型コロナウイルスx線画像の分類 [全文訳有]

Classification of COVID-19 X-ray Images Using a Combination of Deep and Handcrafted Features ( http://arxiv.org/abs/2101.07866v2 )

ライセンス: CC0 1.0
Weihan Zhang, Bryan Pogorelsky, Mark Loveland, Trevor Wolf(参考訳) コロナウイルス病2019(COVID-19)は、早発性ウイルス病の正確な迅速診断方法の必要性を示した。 新型コロナウイルス(covid-19)の出現から間もなく、医療従事者は患者の肺のx線画像とct画像を使用してcovid-19を検出した。 機械学習の手法は、x線やct画像におけるcovid-19の識別精度を高め、ほぼリアルタイムで結果を提供すると同時に、医療従事者の負担を軽減することができる。 本研究では,x線胸部スキャンから抽出した深部畳み込み特徴と手作り特徴を組み合わせて訓練したサポートベクターマシン(svm)分類器の有効性を示す。 この機能を組み合わせることで、健康な肺炎、一般的な肺炎、およびcovid-19患者を区別することができる。 複合機能アプローチのパフォーマンスは、標準的な畳み込みニューラルネットワーク(CNN)と手作り機能で訓練されたSVMと比較される。 新たなフレームワークの機能を組み合わせることで,畳み込みと手工芸の独立的な応用と比較して,分類作業のパフォーマンスが向上することがわかった。 具体的には,SVM と CNN のハンドクラフト特徴に対して 0.963 と 0.983 との組み合わせによる分類作業において 0.988 の精度を実現する。

Coronavirus Disease 2019 (COVID-19) demonstrated the need for accurate and fast diagnosis methods for emergent viral diseases. Soon after the emergence of COVID-19, medical practitioners used X-ray and computed tomography (CT) images of patients' lungs to detect COVID-19. Machine learning methods are capable of improving the identification accuracy of COVID-19 in X-ray and CT images, delivering near real-time results, while alleviating the burden on medical practitioners. In this work, we demonstrate the efficacy of a support vector machine (SVM) classifier, trained with a combination of deep convolutional and handcrafted features extracted from X-ray chest scans. We use this combination of features to discriminate between healthy, common pneumonia, and COVID-19 patients. The performance of the combined feature approach is compared with a standard convolutional neural network (CNN) and the SVM trained with handcrafted features. We find that combining the features in our novel framework improves the performance of the classification task compared to the independent application of convolutional and handcrafted features. Specifically, we achieve an accuracy of 0.988 in the classification task with our combined approach compared to 0.963 and 0.983 accuracy for the handcrafted features with SVM and CNN respectively.
翻訳日:2021-03-22 12:40:46 公開日:2021-01-21
# (参考訳) 教師なし言語間検索のための多言語テキストエンコーダの評価 [全文訳有]

Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual Retrieval ( http://arxiv.org/abs/2101.08370v1 )

ライセンス: CC BY-SA 4.0
Robert Litschko and Ivan Vuli\'c and Simone Paolo Ponzetto and Goran Glava\v{s}(参考訳) マルチリンガルBERT(mBERT)やXLMのようなニューラルトランスフォーマーアーキテクチャに基づく事前訓練された多言語テキストエンコーダは、多言語理解タスクにおいて高いパフォーマンスを達成している。 その結果、多言語および多言語間表現学習と伝達のためのゴートパラダイムとして採用され、言語間単語埋め込み(CLWE)は事実上廃れた。 しかし、この発見は(1)教師なしの設定に一般化し、(2)アドホックなクロスリンガルIR(CLIR)タスクに対して疑問が残る。 そこで本研究では,多数の言語対を横断する言語間文書および文検索タスクのための最先端の多言語エンコーダの適合性に着目した体系的実証研究を行う。 教師付き言語理解とは対照的に,教師なしの文書レベルclir(ir固有の微調整の関連性判定を含まない設定)では,clwesに基づくモデルを大幅に上回ってはいない。 文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。 しかし、ピーク性能は汎用多言語テキストエンコーダ「off-the-shelf」ではなく、文理解タスクにさらに特化された派生型に依存する。

Pretrained multilingual text encoders based on neural Transformer architectures, such as multilingual BERT (mBERT) and XLM, have achieved strong performance on a myriad of language understanding tasks. Consequently, they have been adopted as a go-to paradigm for multilingual and cross-lingual representation learning and transfer, rendering cross-lingual word embeddings (CLWEs) effectively obsolete. However, questions remain to which extent this finding generalizes 1) to unsupervised settings and 2) for ad-hoc cross-lingual IR (CLIR) tasks. Therefore, in this work we present a systematic empirical study focused on the suitability of the state-of-the-art multilingual encoders for cross-lingual document and sentence retrieval tasks across a large number of language pairs. In contrast to supervised language understanding, our results indicate that for unsupervised document-level CLIR -- a setup with no relevance judgments for IR-specific fine-tuning -- pretrained encoders fail to significantly outperform models based on CLWEs. For sentence-level CLIR, we demonstrate that state-of-the-art performance can be achieved. However, the peak performance is not met using the general-purpose multilingual text encoders `off-the-shelf', but rather relying on their variants that have been further specialized for sentence understanding tasks.
翻訳日:2021-03-21 23:38:00 公開日:2021-01-21
# (参考訳) CNNに基づくペアワイズサブシーケンスアライメントスコア予測を用いたモチーフ同定 [全文訳有]

Motif Identification using CNN-based Pairwise Subsequence Alignment Score Prediction ( http://arxiv.org/abs/2101.08385v1 )

ライセンス: CC BY 4.0
Ethan Jacob Moyer and Anup Das(参考訳) バイオインフォマティクスにおける一般的な問題は、モチーフの比較的高い頻度で特徴付けられる遺伝子制御領域や、転写やエンハンサータンパク質をコードするデオキシリボ核酸配列を特定することである。 サブシーケンスのk-mersと所定のモチーフとのアライメントスコアの予測は、これらのタンパク質の転写に対応する遺伝子の候補調節領域の同定を可能にする。 与えられたモチーフパターンと相互作用するk-merフォーマット配列に基づいて訓練された1次元(1-D)畳み込みニューラルネットワークを提案し、コンセンサスモチーフとサブシーケンスk-mer間のペアのアライメントスコアを予測する。 本モデルでは, 1次元畳み込み層, バッチ正規化層, 高密度層, 1次元最大プーリング層からなる15層からなる。 dna配列にランダムに挿入されたモチーフパターンの異なる4つの異なるデータセットについて平均二乗誤差損失を用いてモデルをトレーニングする。最初の3つのデータセットは、挿入されたモチーフに適用される0、1、および2つの変異を持ち、第4のデータセットは挿入されたモチーフを位置特異的確率行列として表現する。 モデルの性能を評価するために提案された新しい指標である$S_{\alpha}$は、Jaccard Indexに基づいています。 モデルの評価には10倍のクロスバリデーションを使用します。 そこで、$s_{\alpha}$を用いて、選択された$\alpha$領域内の実際のスコアと一致する予測スコアの15-merインデックスを識別することにより、モデルの精度を測定する。 最も優れたデータセットについては、サンプルデータから上位15のモチーフの平均99.3%が1つのベースペアのストライド(\alpha = 1$)内で正しく識別されたことを示している。 私たちの知る限りでは、これはインテリジェントな方法でフォーマットされたデータを機械学習を使って外挿する方法を示す、新しいアプローチです。

A common problem in bioinformatics is related to identifying gene regulatory regions marked by relatively high frequencies of motifs, or deoxyribonucleic acid sequences that often code for transcription and enhancer proteins. Predicting alignment scores between subsequence k-mers and a given motif enables the identification of candidate regulatory regions in a gene, which correspond to the transcription of these proteins. We propose a one-dimensional (1-D) Convolution Neural Network trained on k-mer formatted sequences interspaced with the given motif pattern to predict pairwise alignment scores between the consensus motif and subsequence k-mers. Our model consists of fifteen layers with three rounds of a one-dimensional convolution layer, a batch normalization layer, a dense layer, and a 1-D maximum pooling layer. We train the model using mean squared error loss on four different data sets each with a different motif pattern randomly inserted in DNA sequences: the first three data sets have zero, one, and two mutations applied on each inserted motif, and the fourth data set represents the inserted motif as a position-specific probability matrix. We use a novel proposed metric in order to evaluate the model's performance, $S_{\alpha}$, which is based on the Jaccard Index. We use 10-fold cross validation to evaluate out model. Using $S_{\alpha}$, we measure the accuracy of the model by identifying the 15 highest-scoring 15-mer indices of the predicted scores that agree with that of the actual scores within a selected $\alpha$ region. For the best performing data set, our results indicate on average 99.3% of the top 15 motifs were identified correctly within a one base pair stride ($\alpha = 1$) in the out of sample data. To the best of our knowledge, this is a novel approach that illustrates how data formatted in an intelligent way can be extrapolated using machine learning.
翻訳日:2021-03-21 23:14:50 公開日:2021-01-21
# (参考訳) 情報理論の観点からみたブロックと階層的不整合表現 [全文訳有]

Blocked and Hierarchical Disentangled Representation From Information Theory Perspective ( http://arxiv.org/abs/2101.08408v1 )

ライセンス: CC BY 4.0
Ziwen Liu, Mingqiang Li, Congying Han(参考訳) 本稿では,新しい理論モデルであるブロック型および階層型変分オートエンコーダ(bhivae)を提案する。 情報理論がネットワークにとって優れた説明的意味を持つことはよく知られているので,情報理論の観点からも問題を解く。 BHiVAEは主に情報ボトルネック理論と情報最大化原理に由来する。 1)ニューロンブロックは1つのニューロンノードだけでなく、十分な情報を含むことができる属性を表現できる。(2)異なるレイヤに異なる属性を持つ階層構造を作成することにより、各レイヤに情報を分割し、最終的な表現が歪むことを保証する。 さらに,各ブロック間の情報の分離に主に差が反映されるBHiVAEについて,教師付き・教師なしのBHiVAEを提案する。 BHiVAEでは、ラベル情報を標準として利用してブロックを分離する。 教師なしBHiVAEでは、余分な情報なしで、独立性を達成するためにトータル相関(TC)尺度を使用し、表現学習を導くために潜在空間の新しい事前分布を設計する。 また,実験において優れた不等角化結果を示し,表現学習において優れた分類精度を示す。

We propose a novel and theoretical model, blocked and hierarchical variational autoencoder (BHiVAE), to get better-disentangled representation. It is well known that information theory has an excellent explanatory meaning for the network, so we start to solve the disentanglement problem from the perspective of information theory. BHiVAE mainly comes from the information bottleneck theory and information maximization principle. Our main idea is that (1) Neurons block not only one neuron node is used to represent attribute, which can contain enough information; (2) Create a hierarchical structure with different attributes on different layers, so that we can segment the information within each layer to ensure that the final representation is disentangled. Furthermore, we present supervised and unsupervised BHiVAE, respectively, where the difference is mainly reflected in the separation of information between different blocks. In supervised BHiVAE, we utilize the label information as the standard to separate blocks. In unsupervised BHiVAE, without extra information, we use the Total Correlation (TC) measure to achieve independence, and we design a new prior distribution of the latent space to guide the representation learning. It also exhibits excellent disentanglement results in experiments and superior classification accuracy in representation learning.
翻訳日:2021-03-21 22:37:27 公開日:2021-01-21
# (参考訳) 未知雑音統計を用いたMIMOシステムの学習に基づく信号検出 [全文訳有]

Learning based signal detection for MIMO systems with unknown noise statistics ( http://arxiv.org/abs/2101.08435v1 )

ライセンス: CC BY 4.0
Ke He, Le He, Lisheng Fan, Yansha Deng, George K. Karagiannidis, and Arumugam Nallanathan(参考訳) 本稿では,Multiple-input multiple-output (MIMO)システムにおいて,未知の雑音統計を持つ信号を頑健に検出する一般化最大度推定器を提案する。 実際には、システムノイズに関する統計的知識はほとんど、あるいは全く存在せず、多くの場合、非ガウス的であり、衝動的であり分析不可能である。 既存の検出手法は主に特定のノイズモデルに焦点を合わせており、未知のノイズ統計量では十分に堅牢ではない。 この問題に対処するために,所望の信号を効果的に回復する新しいML検出フレームワークを提案する。 我々のフレームワークは、正規化フローを通して未知の雑音分布を効率的に近似できる完全確率的手法である。 重要なことに、このフレームワークは、ノイズサンプルのみを必要とする教師なし学習アプローチによって駆動される。 計算複雑性を低減するために,初期推定を利用して探索空間を小さくすることで,低複雑さのフレームワークを提案する。 シミュレーションの結果,本フレームワークは非解析ノイズ環境でのビット誤り率(BER)で他の既存アルゴリズムよりも優れており,解析ノイズ環境でのML性能に到達できることがわかった。 この論文のコードはhttps://github.com/s kypitcher/manfe.comで入手できる。

This paper aims to devise a generalized maximum likelihood (ML) estimator to robustly detect signals with unknown noise statistics in multiple-input multiple-output (MIMO) systems. In practice, there is little or even no statistical knowledge on the system noise, which in many cases is non-Gaussian, impulsive and not analyzable. Existing detection methods have mainly focused on specific noise models, which are not robust enough with unknown noise statistics. To tackle this issue, we propose a novel ML detection framework to effectively recover the desired signal. Our framework is a fully probabilistic one that can efficiently approximate the unknown noise distribution through a normalizing flow. Importantly, this framework is driven by an unsupervised learning approach, where only the noise samples are required. To reduce the computational complexity, we further present a low-complexity version of the framework, by utilizing an initial estimation to reduce the search space. Simulation results show that our framework outperforms other existing algorithms in terms of bit error rate (BER) in non-analytical noise environments, while it can reach the ML performance bound in analytical noise environments. The code of this paper is available at https://github.com/s kypitcher/manfe.
翻訳日:2021-03-21 22:18:27 公開日:2021-01-21
# (参考訳) 運動活動と心電図記録との関連性の解析 [全文訳有]

Analysis of Relation between Motor Activity and Imaginary EEG Records ( http://arxiv.org/abs/2101.10215v1 )

ライセンス: CC BY 4.0
Enver Kaan Alpturk, Yakup Kutlu(参考訳) 脳波(EEG)信号は脳の構造を学習し、何を考えているかを学ぶためにしばしば用いられる。 脳波信号は外部因子によって容易に影響を受ける。 そのため、分析中に様々な事前処理を適用する必要がある。 本研究では,左右の拳を開閉し,手足の動作を行い,同じ動きを想像する際に,被験者109名から受信した脳波信号を用いた。 運動活動とその運動活動の想像力の関係について検討した。 性能の高いアルゴリズムは、最も近い隣り合うアルゴリズムを用いて特徴抽出、選択、分類に使われている。

Electroencephalograp hy (EEG) signals signals are often used to learn about brain structure and to learn what thinking. EEG signals can be easily affected by external factors. For this reason, they should be applied various pre-process during their analysis. In this study, it is used the EEG signals received from 109 subjects when opening and closing their right or left fists and performing hand and foot movements and imagining the same movements. The relationship between motor activities and imaginary of that motor activities were investigated. Algorithms with high performance rates have been used for feature extraction , selection and classification using the nearest neighbour algorithm.
翻訳日:2021-03-21 21:52:49 公開日:2021-01-21
# (参考訳) UNIT: テンソル化命令コンパイルの統合 [全文訳有]

UNIT: Unifying Tensorized Instruction Compilation ( http://arxiv.org/abs/2101.08458v1 )

ライセンス: CC BY 4.0
Jian Weng, Animesh Jain, Jie Wang, Leyuan Wang, Yida Wang, and Tony Nowatzki(参考訳) DNNにおける計算の需要が高まっているため、研究者は計算とメモリの負担を軽減するため、ハードウェアとソフトウェアの両方のメカニズムを開発した。 広く採用されているアプローチは、混合精度データ型を使用することである。 しかし,データキャスティングのオーバーヘッドのため,ハードウェアサポートを伴わない混合精度の活用は困難である。 ハードウェアベンダは、Intel VNNI、Tensor Core、ARM-DOTなどの混合精度テンソル操作のためのテンソル化命令を提供する。 これらの命令は、複数の低精度要素を1つの高精度要素に還元する計算イディオムを含む。 計算集約的なカーネルにベンダが提供するライブラリを使用することは柔軟性がなく、さらなる最適化を防ぎ、ハードウェア固有の手作業による記述はエラーを起こしやすく、プログラマにとって困難である。 以前の作業では、各命令用のコンパイラを作成することでこの問題に対処していた。 これは多くのテンソル化された命令に関して過剰な労力を必要とする。 本研究では,これらの命令のコンパイルを統一するコンパイラフレームワークを開発する。統一されたセマンティックス抽象化により,新しい命令の統合が容易になり,解析と変換が再利用される。 異なるプラットフォームからのテンソル化命令はUNITを通じて適切なパフォーマンスのために適度な努力でコンパイルできる。 テンソル化命令とテンソル演算が与えられた後、UNITは自動的に適用性を検出し、操作のループ構造を変換し、ループ本体を書き換えてテンソル化命令を利用する。 評価によると、UNITは様々な主要なハードウェアプラットフォームをターゲットにすることができる。 生成されたエンドツーエンド推論モデルは、x86 CPU上のIntel oneDNNの1.3倍のスピードアップ、NvidiaGPU上のNvidia cuDNNの1.75倍のスピードアップ、ARM CPU上のARM DOT用の注意深く調整されたTVMソリューションの1.13倍のスピードアップを達成する。

Because of the increasing demand for computation in DNN, researchers develope both hardware and software mechanisms to reduce the compute and memory burden. A widely adopted approach is to use mixed precision data types. However, it is hard to leverage mixed precision without hardware support because of the overhead of data casting. Hardware vendors offer tensorized instructions for mixed-precision tensor operations, like Intel VNNI, Tensor Core, and ARM-DOT. These instructions involve a computing idiom that reduces multiple low precision elements into one high precision element. The lack of compilation techniques for this makes it hard to utilize these instructions: Using vendor-provided libraries for computationally-inte nsive kernels is inflexible and prevents further optimizations, and manually writing hardware intrinsics is error-prone and difficult for programmers. Some prior works address this problem by creating compilers for each instruction. This requires excessive effort when it comes to many tensorized instructions. In this work, we develop a compiler framework to unify the compilation for these instructions -- a unified semantics abstraction eases the integration of new instructions, and reuses the analysis and transformations. Tensorized instructions from different platforms can be compiled via UNIT with moderate effort for favorable performance. Given a tensorized instruction and a tensor operation, UNIT automatically detects the applicability, transforms the loop organization of the operation,and rewrites the loop body to leverage the tensorized instruction. According to our evaluation, UNIT can target various mainstream hardware platforms. The generated end-to-end inference model achieves 1.3x speedup over Intel oneDNN on an x86 CPU, 1.75x speedup over Nvidia cuDNN on an NvidiaGPU, and 1.13x speedup over a carefully tuned TVM solution for ARM DOT on an ARM CPU.
翻訳日:2021-03-21 20:14:13 公開日:2021-01-21
# (参考訳) Q-Rough セットによる映像からの火災検知 [全文訳有]

Fire Threat Detection From Videos with Q-Rough Sets ( http://arxiv.org/abs/2101.08459v1 )

ライセンス: CC BY 4.0
Debarati B. Chakrabortya, Vinay Detania and Shah Parshv Jigneshkumar(参考訳) 本稿では,ビデオストリームからの非監視火災領域分割と火災脅威検出のための新しい手法について述べる。 火の制御は人類文明に多くの目的をもたらすが、その拡散が制御不能になると同時に脅威となる可能性がある。 火災地域区分や火災非火災分類には多くの方法がある。 しかし、火災に関連する脅威を決定するアプローチは比較的脆弱であり、そのような監視されていない方法はまだ定式化されていない。 本稿では, 火災の脅威を定量化し, 屋内および屋外における自動監視システムにおいてアラームを発生させる未監視手法の開発に焦点をあてる。 手動介入/ラベル付きデータセットのないファイアリージョンセグメンテーションは、そのようなメソッドを定式化しながら大きな課題となる。 ここでは, 火災領域を近似し, 事前情報がないため, 知識ベースの不完全性を管理するために, 粗い近似を用いた。 q-learningの実用的最大化は、粗い近似の曖昧さを最小化するために用いられてきた。 そこで開発された新しい集合近似法はQ-rough集合と呼ばれる。 ビデオフレームからの消火領域のセグメンテーションに使用される。 入力されたビデオストリーム上の火炎に対する脅威指数は、最近のフレームの火炎セグメントの相対的な成長と同期して定義されている。 ここで定義されたすべての理論と指標は、デモや比較を通じて様々な種類のファイアビデオで実験的に検証され、芸術の状況よりも優れている。

This article defines new methods for unsupervised fire region segmentation and fire threat detection from video stream. Fire in control serves a number of purposes to human civilization, but it could simultaneously be a threat once its spread becomes uncontrolled. There exists many methods on fire region segmentation and fire non-fire classification. But the approaches to determine the threat associated with fire is relatively scare, and no such unsupervised method has been formulated yet. Here we focus on developing an unsupervised method with which the threat of fire can be quantified and accordingly generate an alarm in automated surveillance systems in indoor as well as in outdoors. Fire region segmentation without any manual intervention/ labelled data set is a major challenge while formulating such a method. Here we have used rough approximations to approximate the fire region, and to manage the incompleteness of the knowledge base, due to absence of any prior information. Utility maximization of Q-learning has been used to minimize ambiguities in the rough approximations. The new set approximation method, thus developed here, is named as Q-rough set. It is used for fire region segmentation from video frames. The threat index of fire flame over the input video stream has been defined in sync with the relative growth in the fire segments on the recent frames. All theories and indices defined here have been experimentally validated with different types of fire videos, through demonstrations and comparisons, as superior to the state of the art.
翻訳日:2021-03-21 19:30:43 公開日:2021-01-21
# (参考訳) COLLIDE-PRED:サーベイランスビデオからのオンロード衝突予測 [全文訳有]

COLLIDE-PRED: Prediction of On-Road Collision From Surveillance Videos ( http://arxiv.org/abs/2101.08463v1 )

ライセンス: CC BY 4.0
Deesha Chavan, Dev Saad and Debarati B. Chakraborty(参考訳) 交通事故や交通違反などの道路上の異常を予測することは、交通監視において難しい課題である。 このような予測を事前に行えば、多くのダメージをコントロールできる。 ここでは、コンピュータビジョンとディープネットワークを用いた交通監視ビデオにおける自動衝突予測のソリューションを定式化しようとした。 対象の検出、追跡、軌道推定、衝突予測を含む。 本研究では,ビデオ中の衝突を予測するために,移動物体の過去および将来の軌跡情報をインテリジェントに統合した衝突予測システムcollaboration-predを提案する。 物体の追跡に使用される物体検出から始まり、衝突検出によって結論付ける軌道予測を行うパイプラインである。 衝突の可能性のある場所と衝突の原因となる可能性のある物体は、どちらも衝突によって正しく識別できる。 提案手法は様々なビデオを用いて実験的に検証され,事故の特定に有効であることが証明された。

Predicting on-road abnormalities such as road accidents or traffic violations is a challenging task in traffic surveillance. If such predictions can be done in advance, many damages can be controlled. Here in our wok, we tried to formulate a solution for automated collision prediction in traffic surveillance videos with computer vision and deep networks. It involves object detection, tracking, trajectory estimation, and collision prediction. We propose an end-to-end collision prediction system, named as COLLIDE-PRED, that intelligently integrates the information of past and future trajectories of moving objects to predict collisions in videos. It is a pipeline that starts with object detection, which is used for object tracking, and then trajectory prediction is performed which concludes by collision detection. The probable place of collision, and the objects those may cause the collision, both can be identified correctly with COLLIDE-PRED. The proposed method is experimentally validated with a number of different videos and proves to be effective in identifying accident in advance.
翻訳日:2021-03-21 18:50:43 公開日:2021-01-21
# (参考訳) 簡易分子入力線入力システムによる薬剤候補の毒性検出 [全文訳有]

Toxicity Detection in Drug Candidates using Simplified Molecular-Input Line-Entry System ( http://arxiv.org/abs/2101.10831v1 )

ライセンス: CC BY 4.0
Mriganka Nath and Subhasish Goswami(参考訳) 新たな薬物候補における毒性の分析の必要性と、それを迅速に行うことの必要性は、人工知能ツールを用いて毒性レベルを調べ、将来薬物の毒性レベルを効率的に測定するために商業的に使用できる程度までモデルを開発するよう科学者に求めている。 人工知能に基づくモデルは、定量的構造活性相関法を用いて化学物質の毒性を予測するために用いられる。 畳み込みニューラルネットワークモデルは、毒性を決定するために化学物質の質的分析を予測する大きな結果を示した。 本稿では, 分子の毒性と, 実世界の応用に向けての今後の展望とともに, 実用上のニーズを満たすために, 長期記憶(LSTM)に基づくモデルを開発するためのパラメータとして, SMILES(Simplified Molecular Input Line-Entry System)について検討する。

The need for analysis of toxicity in new drug candidates and the requirement of doing it fast have asked the consideration of scientists towards the use of artificial intelligence tools to examine toxicity levels and to develop models to a degree where they can be used commercially to measure toxicity levels efficiently in upcoming drugs. Artificial Intelligence based models can be used to predict the toxic nature of a chemical using Quantitative Structure Activity Relationship techniques. Convolutional Neural Network models have demonstrated great outcomes in predicting the qualitative analysis of chemicals in order to determine the toxicity. This paper goes for the study of Simplified Molecular Input Line-Entry System (SMILES) as a parameter to develop Long short term memory (LSTM) based models in order to examine the toxicity of a molecule and the degree to which the need can be fulfilled for practical use alongside its future outlooks for the purpose of real world applications.
翻訳日:2021-03-21 18:43:59 公開日:2021-01-21
# (参考訳) マルチメディア呼吸データベース(respiratorydatabase @tr):聴診音と胸部x線 [全文訳有]

Multimedia Respiratory Database (RespiratoryDatabase @TR): Auscultation Sounds and Chest X-rays ( http://arxiv.org/abs/2101.10946v1 )

ライセンス: CC BY 4.0
Gokhan Altan, Yakup Kutlu, Yusuf Garbi, Adnan Ozhan Pekmezci, Serkan Nural(参考訳) オースカルテーション(英: Auscultation)は、心臓、肺、心肺などの特に内科疾患を、体内の音を聴くことによって診断する方法である。 臨床スキルの評価過程において、最も単純かつ最も一般的な身体検査である。 本研究は,アンタクヤ州立病院の2台のデジタル聴診器を用いて,左右胸壁と胸壁の左右から肺と心臓の音を同期的に記録するものである。 胸部x線, 肺機能検査値, スピロメトリー曲線, st. george respiratory questionnaire (sgrq-c) をマルチメディアおよび臨床機能解析変数として収集した。 心臓音の4チャンネルは、大動脈、肺、三尖部、僧帽弁領域に焦点を当てている。 肺音の12チャンネルは、上肺、中肺、下肺、胸部および前胸部の気道角度領域に焦点が当てられている。 対象者の胸部X線, PFT, 聴診音を評価した結果, 2人の肺科医が記録を検証, ラベル付けした。 データベースは健常者30名,気管支喘息,慢性閉塞性肺疾患,気管支炎などの肺疾患患者45名からなる。 胸部X線とPFTの併用能力、肺の同期評価能力、胸部X線を用いた呼吸の画像処理解析、肺疾患および心臓疾患における肺の音と心臓の音の両方の分析を改善する機会を提供する。

Auscultation is a method for diagnosis of especially internal medicine diseases such as cardiac, pulmonary and cardio-pulmonary by listening the internal sounds from the body parts. It is the simplest and the most common physical examination in the assessment processes of the clinical skills. In this study, the lung and heart sounds are recorded synchronously from left and right sides of posterior and anterior chest wall and back using two digital stethoscopes in Antakya State Hospital. The chest X-rays and the pulmonary function test variables and spirometric curves, the St. George respiratory questionnaire (SGRQ-C) are collected as multimedia and clinical functional analysis variables of the patients. The 4 channels of heart sounds are focused on aortic, pulmonary, tricuspid and mitral areas. The 12 channels of lung sounds are focused on upper lung, middle lung, lower lung and costophrenic angle areas of posterior and anterior sides of the chest. The recordings are validated and labelled by two pulmonologists evaluating the collected chest x-ray, PFT and auscultation sounds of the subjects. The database consists of 30 healthy subjects and 45 subjects with pulmonary diseases such as asthma, chronic obstructive pulmonary disease, bronchitis. The novelties of the database are the combination ability between auscultation sound results, chest X-ray and PFT; synchronously assessment capability of the lungs sounds; image processing based computerized analysis of the respiratory using chest X-ray and providing opportunity for improving analysis of both lung sounds and heart sounds on pulmonary and cardiac diseases.
翻訳日:2021-03-21 18:19:44 公開日:2021-01-21
# (参考訳) 障害者支援のためのオンラインldaベース脳コンピューターインタフェースシステム [全文訳有]

Online LDA based brain-computer interface system to aid disabled people ( http://arxiv.org/abs/2101.11435v1 )

ライセンス: CC BY 4.0
Apdullah Yayik, Yakup Kutlu(参考訳) 本研究の目的は、日常生活の障害者を支援する脳波に基づく脳-コンピューターインタフェースシステムの開発である。 このシステムは最も効果的な事象関連電位波 P300 に依存しており、これは奇異球のパラダイムによって引き起こされる。 開発されたアプリケーションには基本的なインタラクションツールがあり、障害者が関連するオブジェクトを選択する他の人にニーズを伝えることができる。 これらのオブジェクトはコンピュータ画面上のビジュアルインターフェースに擬似ランダムにフラッシュする。 ユーザーは必要なニーズを伝達するために関連するオブジェクトに焦点を合わせる必要がある。 取得した14チャネル脳波信号のP300波を検出し、15秒で線形判別分析分類器を用いて分類することで、所望の要求を正しく伝達することができる。 開発したbciシステムを検証するために,19名のボランティアで実験を行った。 その結果、オンラインのパフォーマンスにおいて精度が90.83%に達する。

This paper aims to develop brain-computer interface system based on electroencephalograp hy that can aid disabled people in daily life. The system relies on one of the most effective event-related potential wave, P300, which can be elicited by oddball paradigm. Developed application has a basic interaction tool that enables disabled people to convey their needs to other people selecting related objects. These objects pseudo-randomly flash in a visual interface on computer screen. The user must focus on related object to convey desired needs. The system can convey desired needs correctly by detecting P300 wave in acquired 14-channel EEG signal and classifying using linear discriminant analysis classifier just in 15 seconds. Experiments have been carried out on 19 volunteers to validate developed BCI system. As a result, accuracy rate of 90.83% is achieved in online performance
翻訳日:2021-03-21 18:08:27 公開日:2021-01-21
# (参考訳) 脳活動解析のためのディープラーニングのための生成オートエンコーダカーネル [全文訳有]

Generative Autoencoder Kernels on Deep Learning for Brain Activity Analysis ( http://arxiv.org/abs/2101.10263v1 )

ライセンス: CC BY 4.0
Gokhan Altan, Yakup Kutlu(参考訳) deep learning (dl) は2段階の分類モデルであり、教師なしの手法による特徴表現の生成と、ニューラルネットワークに依存した完全連結層による提案構造上の少なくとも2つの隠れレイヤを用いたモデルの最終段階における教師付き学習ステージを生成する。 教師付きモデルに対する事前定義された分類パラメータの最適化は、正確なゼロトレーニング誤差で大域的最適性に到達するのを容易にする。 オートエンコーダ(AE)モデルは、隠されたニューロンの出力重みを様々な表現で定義するために、DLの教師なし段階の高度に一般化された方法である。 従来の Extreme Learning Machines (ELM) AE の代替として、ヘッセンバーグ分解に基づくEMMオートエンコーダ (HessELM-AE) は、モデルが意図したサイズで入力データの異なる表示を生成する新しいカーネルである。 本研究の目的は、脳卒中患者に対する脳波検査(EEG)における新しいDeep AEカーネルの性能分析である。 Hilbert-Huang Transform を用いた8回の神経フィードバックセッションにおける脳卒中患者の遅い皮質電位(SCP)訓練について検討した。 異なる周波数変調の統計的特徴を生成型AEカーネルのためのディープEMMモデルに入力した。 新たなELM-AEカーネルは脳卒中患者の肯定性および否定性タスクに対する高い分類性能で脳活動を識別している。

Deep Learning (DL) is a two-step classification model that consists feature learning, generating feature representations using unsupervised ways and the supervised learning stage at the last step of model using at least two hidden layers on the proposed structures by fully connected layers depending on of the artificial neural networks. The optimization of the predefined classification parameters for the supervised models eases reaching the global optimality with exact zero training error. The autoencoder (AE) models are the highly generalized ways of the unsupervised stages for the DL to define the output weights of the hidden neurons with various representations. As alternatively to the conventional Extreme Learning Machines (ELM) AE, Hessenberg decomposition-based ELM autoencoder (HessELM-AE) is a novel kernel to generate different presentations of the input data within the intended sizes of the models. The aim of the study is analyzing the performance of the novel Deep AE kernel for clinical availability on electroencephalogram (EEG) with stroke patients. The slow cortical potentials (SCP) training in stroke patients during eight neurofeedback sessions were analyzed using Hilbert-Huang Transform. The statistical features of different frequency modulations were fed into the Deep ELM model for generative AE kernels. The novel Deep ELM-AE kernels have discriminated the brain activity with high classification performances for positivity and negativity tasks in stroke patients.
翻訳日:2021-03-21 17:56:59 公開日:2021-01-21
# (参考訳) 畳み込みニューラルネットワークに対する深層学習マシンの優位性 [全文訳有]

Superiorities of Deep Extreme Learning Machines against Convolutional Neural Networks ( http://arxiv.org/abs/2101.10265v1 )

ライセンス: CC BY 4.0
Gokhan Altan, Yakup Kutlu(参考訳) Deep Learning(DL)は、ニューラルネットワークのサイズと隠されたレイヤの数を増やすことで、入力データを詳細に分析する人工知能のための機械学習手順である。 DLはグラフィカル処理ユニット機能の一般的な改善で人気がある。 各層および隠れ層におけるニューロンサイズの増加は、分類器モデルの計算時間および訓練速度に直接関係している。 ニューロンの重み、出力の重み、バイアスを含む分類パラメータを最適化して最適なモデルを得る必要がある。 一般的なdlアルゴリズムの多くは、特徴学習の進歩とバックプロシージャを持つパラメータの最適化に長い訓練時間を必要とする。 トレーニング時間を短縮し、リアルタイムな意思決定システムを提供することが、新しいアプローチの基本的焦点である。 ディープ・エクストリーム・ラーニング・マシン(deep extreme learning machines、ディープ・エルム)分類モデルは、高速な分類問題を解決する最も速く効果的な方法の1つである。 本研究では,畳み込みニューラルネットワークに基づくdlアルゴリズムに対する分類器に適合する問題である,深層elmモデルとその優位性と弱点について論じる。

Deep Learning (DL) is a machine learning procedure for artificial intelligence that analyzes the input data in detail by increasing neuron sizes and number of the hidden layers. DL has a popularity with the common improvements on the graphical processing unit capabilities. Increasing number of the neuron sizes at each layer and hidden layers is directly related to the computation time and training speed of the classifier models. The classification parameters including neuron weights, output weights, and biases need to be optimized for obtaining an optimum model. Most of the popular DL algorithms require long training times for optimization of the parameters with feature learning progresses and back-propagated training procedures. Reducing the training time and providing a real-time decision system are the basic focus points of the novel approaches. Deep Extreme Learning machines (Deep ELM) classifier model is one of the fastest and effective way to meet fast classification problems. In this study, Deep ELM model, its superiorities and weaknesses are discussed, the problems that are more suitable for the classifiers against Convolutional neural network based DL algorithms.
翻訳日:2021-03-21 17:46:09 公開日:2021-01-21
# (参考訳) トルコの自然言語処理研究における課題 [全文訳有]

Challenges Encountered in Turkish Natural Language Processing Studies ( http://arxiv.org/abs/2101.11436v1 )

ライセンス: CC BY 4.0
Kadir Tohma, Yakup Kutlu(参考訳) 自然言語処理は、人工知能と言語学を組み合わせたコンピュータ科学の分野である。 ソフトウェアで書いたり話したりといった言語要素を分析し、それを情報に変換することを目的としている。 各言語には独自の文法規則と語彙の多様性があるので、この分野の研究の複雑さはある程度理解できる。 例えば、トルコ語は多くの点で非常に興味深い言語です。 例えば、凝集語構造、子音/母音調和、多くの生産的導出的形態素(実際には無限の語彙)、導出と構文の関係、語彙と音韻規則の複雑な強調などがある。 本研究では,トルコ語の自然言語処理における興味深い特徴について述べる。 また,トルコ語向けに開発された自然言語処理技術,システム,各種資料の要約情報も提供される。

Natural language processing is a branch of computer science that combines artificial intelligence with linguistics. It aims to analyze a language element such as writing or speaking with software and convert it into information. Considering that each language has its own grammatical rules and vocabulary diversity, the complexity of the studies in this field is somewhat understandable. For instance, Turkish is a very interesting language in many ways. Examples of this are agglutinative word structure, consonant/vowel harmony, a large number of productive derivational morphemes (practically infinite vocabulary), derivation and syntactic relations, a complex emphasis on vocabulary and phonological rules. In this study, the interesting features of Turkish in terms of natural language processing are mentioned. In addition, summary info about natural language processing techniques, systems and various sources developed for Turkish are given.
翻訳日:2021-03-21 17:40:42 公開日:2021-01-21
# (参考訳) 重み付きファジィを用いた透かし用PSNR [全文訳有]

Weighted Fuzzy-Based PSNR for Watermarking ( http://arxiv.org/abs/2101.08502v1 )

ライセンス: CC BY 4.0
Maedeh Jamali, Nader Karimi, Shadrokh Samavi(参考訳) PSNR や MSE のような従来の視覚品質評価基準の問題点の1つは、人間の視覚システム(HVS)に基づく適切な基準の欠如である。 原画像と操作画像の対応する画素の差に基づいて算出する。 したがって、それらは実際には画質の正確な理解を提供していない。 ウォーターマーキング(Watermarking)は、画像の視覚的品質が評価に不可欠な基準である画像処理アプリケーションである。 透かしには、PSNRなどの従来の指標よりも正確な値を提供するHVSに基づく基準が必要である。 本稿では,HVSに基づく画像の基本部分を見つけるために,重み付きファジィ基準を提案する。 その後、これらの部品はPSNRの最終値を計算する際により大きな重みを持つ。 実験結果と標準PSNRを比較した結果,有意な結果が得られた。

One of the problems of conventional visual quality evaluation criteria such as PSNR and MSE is the lack of appropriate standards based on the human visual system (HVS). They are calculated based on the difference of the corresponding pixels in the original and manipulated image. Hence, they practically do not provide a correct understanding of the image quality. Watermarking is an image processing application in which the image's visual quality is an essential criterion for its evaluation. Watermarking requires a criterion based on the HVS that provides more accurate values than conventional measures such as PSNR. This paper proposes a weighted fuzzy-based criterion that tries to find essential parts of an image based on the HVS. Then these parts will have larger weights in computing the final value of PSNR. We compare our results against standard PSNR, and our experiments show considerable consequences.
翻訳日:2021-03-21 17:33:34 公開日:2021-01-21
# (参考訳) 影響関数による分布の一般化解析 [全文訳有]

Out-of-Distribution Generalization Analysis via Influence Function ( http://arxiv.org/abs/2101.08521v1 )

ライセンス: CC BY 4.0
Haotian Ye, Chuanlong Xie, Yue Liu, Zhenguo Li(参考訳) トレーニングとターゲットデータのミスマッチは、現在の機械学習システムにとって大きな課題のひとつだ。 複数のドメインからトレーニングデータを収集し、対象ドメインがすべてのトレーニングドメインや他の新しいドメインを含む場合、最適なOOD精度のモデルを見つけることを目的とした、アウト・オブ・ディストリビューション(OOD)一般化問題に直面している。 OODの精度の定義の1つは、最悪の領域の精度である。 一般に、対象ドメインの集合は未知であり、観測されたドメインの数が限られている場合、対象ドメインに対する最悪の状態は見つからない可能性がある。 本稿では,観測領域における最悪の精度は,OODの精度を劇的に識別できない可能性があることを示す。 そこで本研究では,ロバスト統計学の古典的ツールであるインフルエント関数をood一般化問題に導入し,モデルの安定性を監視するためにインフルエント関数の分散を提案する。 実験領域と提案指標の精度は,OODアルゴリズムが必要かどうか,モデルが優れたOOD一般化を実現するかどうかを判別する上で有効であることを示す。

The mismatch between training and target data is one major challenge for current machine learning systems. When training data is collected from multiple domains and the target domains include all training domains and other new domains, we are facing an Out-of-Distribution (OOD) generalization problem that aims to find a model with the best OOD accuracy. One of the definitions of OOD accuracy is worst-domain accuracy. In general, the set of target domains is unknown, and the worst over target domains may be unseen when the number of observed domains is limited. In this paper, we show that the worst accuracy over the observed domains may dramatically fail to identify the OOD accuracy. To this end, we introduce Influence Function, a classical tool from robust statistics, into the OOD generalization problem and suggest the variance of influence function to monitor the stability of a model on training domains. We show that the accuracy on test domains and the proposed index together can help us discern whether OOD algorithms are needed and whether a model achieves good OOD generalization.
翻訳日:2021-03-21 17:26:15 公開日:2021-01-21
# (参考訳) 微細視分類のためのプログレッシブコアテンションネットワーク [全文訳有]

Progressive Co-Attention Network for Fine-grained Visual Classification ( http://arxiv.org/abs/2101.08527v1 )

ライセンス: CC BY 4.0
Tian Zhang, Dongliang Chang, Zhanyu Ma and Jun Guo(参考訳) きめ細かい視覚分類は、同じカテゴリ内の複数のサブカテゴリに属する画像を認識することを目的としている。 これは、高度に強調されたカテゴリの本質的に微妙なバリエーションのため、困難なタスクである。 既存の手法のほとんどは個々の画像のみを入力として取り、異なる画像からの対照的な手がかりをモデルが認識する能力を制限する可能性がある。 本稿では,この問題に対処するために,pca-net(progressive co-attention network)と呼ばれる効果的な手法を提案する。 具体的には、同一カテゴリ画像内の特徴チャネルを相互作用させてチャネルワイドの類似性を計算し、共通の識別的特徴を捉える。 補完的インフォーメーションも認識に不可欠であると考えると、チャネルインタラクションによって強化された顕著な領域を消去し、ネットワークを他の識別領域に集中させる。 提案モデルはエンドツーエンドでトレーニング可能であり,イメージレベルのラベル管理のみを必要とする。 CUB-200-2011、Stanford Cars、FGVC Aircraftの3つのきめ細かな視覚分類ベンチマークデータセットで競合する結果を得た。

Fine-grained visual classification aims to recognize images belonging to multiple sub-categories within a same category. It is a challenging task due to the inherently subtle variations among highly-confused categories. Most existing methods only take individual image as input, which may limit the ability of models to recognize contrastive clues from different images. In this paper, we propose an effective method called progressive co-attention network (PCA-Net) to tackle this problem. Specifically, we calculate the channel-wise similarity by interacting the feature channels within same-category images to capture the common discriminative features. Considering that complementary imformation is also crucial for recognition, we erase the prominent areas enhanced by the channel interaction to force the network to focus on other discriminative regions. The proposed model can be trained in an end-to-end manner, and only requires image-level label supervision. It has achieved competitive results on three fine-grained visual classification benchmark datasets: CUB-200-2011, Stanford Cars, and FGVC Aircraft.
翻訳日:2021-03-21 16:49:26 公開日:2021-01-21
# (参考訳) 人物再識別のための効果的なデータ拡張 [全文訳有]

An Effective Data Augmentation for Person Re-identification ( http://arxiv.org/abs/2101.08533v1 )

ライセンス: CC BY 4.0
Yunpeng Gong and Zhiyong Zeng(参考訳) 本稿では, グレースケール画像の構造情報を十分に活用し, 人物再同定(reid)における照明変動の悪影響を低減するために, ランダムグレースケール変換, ランダムグレースケールパッチ置換, それらの組合せを含む効果的なデータ拡張法を提案する。 構造情報はReIDモデルの性能に重要な影響を及ぼし,RGB画像ReIDの補完となることが判明した。 reidモデルのトレーニング中、rgb画像の矩形領域をランダムに選択し、その色を対応するグレースケール画像において同じ矩形領域グレースケールに置き換えることにより、グレースケール領域の異なるトレーニング画像を生成する一方、グレースケール画像に変換する。 これら2つの方法は、照明のバリエーションによってモデルが過度に適合するリスクを低減し、モデルがクロスカメラに対してより堅牢になる。 実験の結果,提案手法は最大3.3%の性能向上を実現し,複数のデータセット上での検索精度を最大化できることがわかった。

In order to make full use of structural information of grayscale images and reduce adverse impact of illumination variation for person re-identification (ReID), an effective data augmentation method is proposed in this paper, which includes Random Grayscale Transformation, Random Grayscale Patch Replacement and their combination. It is discovered that structural information has a significant effect on the ReID model performance, and it is very important complementary to RGB images ReID. During ReID model training, on the one hand, we randomly selected a rectangular area in the RGB image and replace its color with the same rectangular area grayscale in corresponding grayscale image, thus we generate a training image with different grayscale areas; On the other hand, we convert an image into a grayscale image. These two methods will reduce the risk of overfitting the model due to illumination variations and make the model more robust to cross-camera. The experimental results show that our method achieves a performance improvement of up to 3.3%, achieving the highest retrieval accuracy currently on multiple datasets.
翻訳日:2021-03-21 16:38:09 公開日:2021-01-21
# (参考訳) 再帰的統合解析と弾性重み付けに基づく非定常過程のモニタリング [全文訳有]

Monitoring nonstationary processes based on recursive cointegration analysis and elastic weight consolidation ( http://arxiv.org/abs/2101.08579v1 )

ライセンス: CC BY 4.0
Jingxin Zhang and Donghua Zhou and Maoyin Chen(参考訳) 本稿では,頻繁な動作条件下での非定常プロセスモニタリングの問題点について考察する。 伝統的なアプローチは一般的に、通常の動的偏差を断層と誤認し、高い誤報を引き起こす。 また、比較的安定した単独の運転条件を考慮し、連続した運転条件を学習する際に壊滅的な忘れる問題に苦しむ。 本稿では,新しい正規サンプルが到着するとモデルが更新され,結合関係の緩やかな変化に適応できる,通常のシステム変化と実際の欠陥を区別する再帰的統合解析(RCA)を最初に提案する。 RCAが抽出した長期均衡情報に基づいて、残りの短期動的情報を再帰主成分分析(RPCA)により監視する。 したがって、包括的な監視フレームワークが構築される。 システムが新しい動作状態に入ると、RCA-RPCAモデルが再構築され、新しい状態に対処する。 一方、RPCA固有の「破滅的忘れ」問題に対処するために、弾性重み強化(EWC)を用いており、同様のモードの急激な性能劣化を避けるために、重要なパラメータの情報が強化されている。 本手法の有効性は実用的産業システムによって示される。

This paper considers the problem of nonstationary process monitoring under frequently varying operating conditions. Traditional approaches generally misidentify the normal dynamic deviations as faults and thus lead to high false alarms. Besides, they generally consider single relatively steady operating condition and suffer from the catastrophic forgetting issue when learning successive operating conditions. In this paper, recursive cointegration analysis (RCA) is first proposed to distinguish the real faults from normal systems changes, where the model is updated once a new normal sample arrives and can adapt to slow change of cointegration relationship. Based on the long-term equilibrium information extracted by RCA, the remaining short-term dynamic information is monitored by recursive principal component analysis (RPCA). Thus a comprehensive monitoring framework is built. When the system enters a new operating condition, the RCA-RPCA model is rebuilt to deal with the new condition. Meanwhile, elastic weight consolidation (EWC) is employed to settle the `catastrophic forgetting' issue inherent in RPCA, where significant information of influential parameters is enhanced to avoid the abrupt performance degradation for similar modes. The effectiveness of the proposed method is illustrated by a practical industrial system.
翻訳日:2021-03-21 15:05:41 公開日:2021-01-21
# (参考訳) マインドレス・トラクタ : 聴覚摂動による注意喚起のための偽陽性抵抗的介入 [全文訳有]

Mindless Attractor: A False-Positive Resistant Intervention for Drawing Attention Using Auditory Perturbation ( http://arxiv.org/abs/2101.08621v1 )

ライセンス: CC BY 4.0
Riku Arakawa and Hiromu Yakura(参考訳) ユーザに明示的に警告することは、特に従うモチベーションがない場合に、必ずしも最適な介入ではない。 例えば、ビデオベースの学習では、ビデオに気を取られている学習者は、注意を払うよう促す警告に従わない。 マインドレスコンピューティングの概念に触発されて,学習者がモチベーションに頼らずに注意を喚起することを支援するために,人間の音声コミュニケーションの性質を活用する新たな介入手法であるマインドレス・アトラクタを提案する。 具体的には、ビデオの音声を混乱させ、意識を気にせずに注意を向ける。 提案手法の有効性を検証しただけでなく,機械学習に基づくセンシングモジュールと組み合わせてその利点を強調した。 すなわち、注意状態の誤検出によって介入が活性化されたとしても、ユーザをいらいらさせることはない。 我々の介入アプローチは、ヒト-ai共生における行動変化を誘発する信頼できる方法である。

Explicitly alerting users is not always an optimal intervention, especially when they are not motivated to obey. For example, in video-based learning, learners who are distracted from the video would not follow an alert asking them to pay attention. Inspired by the concept of Mindless Computing, we propose a novel intervention approach, Mindless Attractor, that leverages the nature of human speech communication to help learners refocus their attention without relying on their motivation. Specifically, it perturbs the voice in the video to direct their attention without consuming their conscious awareness. Our experiments not only confirmed the validity of the proposed approach but also emphasized its advantages in combination with a machine learning-based sensing module. Namely, it would not frustrate users even though the intervention is activated by false-positive detection of their attentive state. Our intervention approach can be a reliable way to induce behavioral change in human-AI symbiosis.
翻訳日:2021-03-21 14:05:13 公開日:2021-01-21
# (参考訳) 3次元マルチオブジェクト追跡のための2段階データアソシエーションアプローチ [全文訳有]

A two-stage data association approach for 3D Multi-object Tracking ( http://arxiv.org/abs/2101.08684v1 )

ライセンス: CC BY 4.0
Minh-Quan Dao, Vincent Fr\'emont(参考訳) マルチオブジェクトトラッキング(MOT)は、シーン内の他の移動物体が捉えた軌跡を発生させ、将来の動きを予測するため、あらゆる自律走行パイプラインの不可欠な部分である。 近年のディープラーニングによる3Dオブジェクト検出の進歩により、トラック・バイ・ディテクトは3D MOTの主要なパラダイムとなっている。 このパラダイムでは、MOTシステムは基本的にオブジェクト検出器と、トラック対検出対応を確立するデータアソシエーションアルゴリズムから構成される。 3Dオブジェクト検出は活発に研究されているが、3D MOTの関連性は線形代入確率 (LAP) として定式化され、ハンガリーのアルゴリズムによって解決された双対マッチングに収まるようである。 本稿では,3次元MOTのためのデータアソシエーションの代替として,画像ベースのトラッキングに成功した2段階のデータアソシエーション手法を3次元設定に適用する。 提案手法は,NuScenes 検証セットにおいて0.587 AMOTA を達成し,データアソシエーションのための一段二部マッチングを用いてベースラインより優れる。

Multi-object tracking (MOT) is an integral part of any autonomous driving pipelines because itproduces trajectories which has been taken by other moving objects in the scene and helps predicttheir future motion. Thanks to the recent advances in 3D object detection enabled by deep learning,track-by-de tection has become the dominant paradigm in 3D MOT. In this paradigm, a MOT systemis essentially made of an object detector and a data association algorithm which establishes track-to-detection correspondence. While 3D object detection has been actively researched, associationalgorithm s for 3D MOT seem to settle at a bipartie matching formulated as a linear assignmentproblem (LAP) and solved by the Hungarian algorithm. In this paper, we adapt a two-stage dataassociation method which was successful in image-based tracking to the 3D setting, thus providingan alternative for data association for 3D MOT. Our method outperforms the baseline using one-stagebipartie matching for data association by achieving 0.587 AMOTA in NuScenes validation set.
翻訳日:2021-03-21 13:40:37 公開日:2021-01-21
# (参考訳) 楽しみと利益のためのオーバーフィット: インスタンス適応型データ圧縮 [全文訳有]

Overfitting for Fun and Profit: Instance-Adaptive Data Compression ( http://arxiv.org/abs/2101.08687v1 )

ライセンス: CC BY 4.0
Ties van Rozendaal, Iris A.M. Huijben, Taco S. Cohen(参考訳) ニューラルデータ圧縮は、RD$パフォーマンスの点で古典的手法よりも優れており、結果はまだ急速に改善されている。 高いレベルでは、ニューラルネットワークの圧縮は、(量子化された)潜在表現から入力インスタンスを再構築しようとするオートエンコーダと、これらの潜在オブジェクトを損失なく圧縮するために使用される前処理を組み合わせる。 モデルのキャパシティの制限と不完全な最適化と一般化のため、このようなモデルは一般にテストデータをサブオプティマイズ圧縮する。 しかし、学習圧縮の大きな強みの1つは、テスト時のデータ分布が知られ、エントロピーが比較的低い場合である(例)。 静的なシーンを見ているカメラ、自動運転車のダッシュカメラなど。 モデルを簡単に調整したり、このディストリビューションに適合させたりすることで、RD$のパフォーマンスが向上します。 本稿では、この概念を極端に取り入れ、全モデルを単一のビデオに適応させ、モデルの更新(パラメータ空間を事前に定量化し圧縮する)を潜在表現と共に送信する。 これまでの作業とは異なり、エンコーダ/ラタントだけでなく、モデル全体を微調整し、微調整中にモデル量子化の効果とモデル更新の送信によって生じる追加コストの両方を考慮に入れます。 xiphデータセットのビデオからiフレーム上の画像圧縮モデル(2fpsでサンプリング)を評価し、エンコーダのみの微調整に関して、フルモデル適応により$rd$性能が~1db向上することを示す。

Neural data compression has been shown to outperform classical methods in terms of $RD$ performance, with results still improving rapidly. At a high level, neural compression is based on an autoencoder that tries to reconstruct the input instance from a (quantized) latent representation, coupled with a prior that is used to losslessly compress these latents. Due to limitations on model capacity and imperfect optimization and generalization, such models will suboptimally compress test data in general. However, one of the great strengths of learned compression is that if the test-time data distribution is known and relatively low-entropy (e.g. a camera watching a static scene, a dash cam in an autonomous car, etc.), the model can easily be finetuned or adapted to this distribution, leading to improved $RD$ performance. In this paper we take this concept to the extreme, adapting the full model to a single video, and sending model updates (quantized and compressed using a parameter-space prior) along with the latent representation. Unlike previous work, we finetune not only the encoder/latents but the entire model, and - during finetuning - take into account both the effect of model quantization and the additional costs incurred by sending the model updates. We evaluate an image compression model on I-frames (sampled at 2 fps) from videos of the Xiph dataset, and demonstrate that full-model adaptation improves $RD$ performance by ~1 dB, with respect to encoder-only finetuning.
翻訳日:2021-03-21 13:27:33 公開日:2021-01-21
# (参考訳) HELIOS++を用いた仮想レーザー走査--トポグラフィー3次元レーザー走査の光トレーシングに基づく新しいシミュレーション

Virtual laser scanning with HELIOS++: A novel take on ray tracing-based simulation of topographic 3D laser scanning ( http://arxiv.org/abs/2101.09154v1 )

ライセンス: CC BY 4.0
Lukas Winiwarter, Alberto Manuel Esmor\'is Pena, Hannah Weiser, Katharina Anders, Jorge Mart\'inez Sanchez, Mark Searle, Bernhard H\"ofle(参考訳) 地形レーザースキャンは、地球表面の詳細な3次元点雲表現を作成するためのリモートセンシング手法である。 データ取得は高価であるため、シミュレーションは3Dシーンとスキャナーのモデル、ビームシーンの相互作用のモデル、物理的に現実的なレベルで計算可能に単純化されたアプリケーション、そして、シミュレーションされたデータが使用に適合するアプリケーションなど、特定の前提によって実際のデータを補完することができる。 異なる目的のレーザー走査シミュレータが多数存在し、 helios++ を提示することで富む。 HELIOS++は、C++で実装された地上静的、移動型、UAVベース、空中レーザースキャンのためのオープンソースのシミュレーションフレームワークである。 HELIOS++の概念は、物理精度(リアリズム)と計算複雑性(ランタイム、メモリフットプリント)のトレードオフに対する柔軟なソリューションと、使いやすさと構成の容易さを提供する。 HELIOS++のユニークな特徴は、シミュレーションを制御するPythonバインディング(pyhelios)と、3Dシーン表現のためのモデルタイプの範囲である。 HELIOS++はさらに、サブサンプリング戦略を用いてビーム分散のシミュレーションを可能にし、詳細な解析の基盤としてフルウェーブフォーム出力を作成することができる。 波形の生成と解析がランタイムに大きな影響を与える可能性があるため、ユーザはサブサンプリングのディテールレベルを設定するか、オプションでフルウェーブフォーム出力を完全に無効にすることができる。 計算上の考慮事項の詳細な評価と、HELIOS++と前任のHELIOSとの比較により、ランタイムの最大83%削減が明らかになった。 同時に、メモリ要求は最大94 %削減され、さらに大きな(すなわち)処理が可能になった。 より複雑な)3Dシーンをメモリにロードし、レーザー走査シミュレーションによって事実上取得する。

Topographic laser scanning is a remote sensing method to create detailed 3D point cloud representations of the Earth's surface. Since data acquisition is expensive, simulations can complement real data given certain premises are available: i) a model of 3D scene and scanner, ii) a model of the beam-scene interaction, simplified to a computationally feasible while physically realistic level, and iii) an application for which simulated data is fit for use. A number of laser scanning simulators for different purposes exist, which we enrich by presenting HELIOS++. HELIOS++ is an open-source simulation framework for terrestrial static, mobile, UAV-based and airborne laser scanning implemented in C++. The HELIOS++ concept provides a flexible solution for the trade-off between physical accuracy (realism) and computational complexity (runtime, memory footprint), as well as ease of use and of configuration. Unique features of HELIOS++ include the availability of Python bindings (pyhelios) for controlling simulations, and a range of model types for 3D scene representation. HELIOS++ further allows the simulation of beam divergence using a subsampling strategy, and is able to create full-waveform outputs as a basis for detailed analysis. As generation and analysis of waveforms can strongly impact runtimes, the user may set the level of detail for the subsampling, or optionally disable full-waveform output altogether. A detailed assessment of computational considerations and a comparison of HELIOS++ to its predecessor, HELIOS, reveal reduced runtimes by up to 83 %. At the same time, memory requirements are reduced by up to 94 %, allowing for much larger (i.e. more complex) 3D scenes to be loaded into memory and hence to be virtually acquired by laser scanning simulation.
翻訳日:2021-03-21 12:59:03 公開日:2021-01-21
# (参考訳) Cain: 葉面センサプロセッサ上の同時畳み込みカーネルの自動コード生成 [全文訳有]

Cain: Automatic Code Generation for Simultaneous Convolutional Kernels on Focal-plane Sensor-processors ( http://arxiv.org/abs/2101.08715v1 )

ライセンス: CC BY 4.0
Edward Stow, Riku Murai, Sajad Saeedi, Paul H. J. Kelly(参考訳) FPSP(Focal-plane Sensor-processors)は、低消費電力、高フレームレートの計算を可能にするカメラ技術である。 残念ながら、これらの装置の限られた命令セットとレジスタは複雑なアルゴリズムの開発を困難にしている。 本研究では,複数の畳み込みカーネルからコードを生成する汎用fpspである scamp-5 をターゲットとするコンパイラ cain を提案する。 例えば、MNISTデジタル認識ニューラルネットワークの畳み込みカーネルを考えると、CainはSCAMP-5の他のコンパイラと比較して、半分の長さのコードを生成する。

Focal-plane Sensor-processors (FPSPs) are a camera technology that enable low power, high frame rate computation, making them suitable for edge computation. Unfortunately, these devices' limited instruction sets and registers make developing complex algorithms difficult. In this work, we present Cain - a compiler that targets SCAMP-5, a general-purpose FPSP - which generates code from multiple convolutional kernels. As an example, given the convolutional kernels for an MNIST digit recognition neural network, Cain produces code that is half as long, when compared to the other available compilers for SCAMP-5.
翻訳日:2021-03-21 12:57:29 公開日:2021-01-21
# (参考訳) 自己適応型トレーニング - 教師付き,自己監視型学習のブリッジ [全文訳有]

Self-Adaptive Training: Bridging the Supervised and Self-Supervised Learning ( http://arxiv.org/abs/2101.08732v1 )

ライセンス: CC BY 4.0
Lang Huang, Chao Zhang and Hongyang Zhang(参考訳) 深層ニューラルネットワークの教師付き学習と自己教師付き学習の両方を進めるために,計算コストを伴わずにモデル予測による学習プロセスを動的にコーディネートし,強化する統合学習アルゴリズムを提案する。 例えば、ランダムノイズや逆向きの例によって破損したトレーニングデータに基づいて、ディープネットワークのトレーニングダイナミクスを分析する。 分析の結果、モデル予測はデータ中の有用な基盤情報を最大化することが可能であり、この現象は「emph{any}」ラベル情報がない場合でも広範に発生し、モデル予測がトレーニングプロセスに有益であることを強調した: 自己適応学習は、ノイズ下でのディープネットワークの一般化を改善し、自己教師付き表現学習を強化する。 この分析は、例えば、最近発見された経験的リスク最小化における二重発散現象と、最先端の自己教師型学習アルゴリズムの崩壊問題について、深層学習の理解にも光を当てている。 CIFAR, STL, ImageNetデータセットを用いた実験により, ラベルノイズによる分類, 選択的分類, 線形評価の3つの応用において, 提案手法の有効性が検証された。 将来の研究を容易にするため、コードはhttps://github.com/L ayneH/self-adaptive- trainingで公開されている。

We propose self-adaptive training -- a unified training algorithm that dynamically calibrates and enhances training process by model predictions without incurring extra computational cost -- to advance both supervised and self-supervised learning of deep neural networks. We analyze the training dynamics of deep networks on training data that are corrupted by, e.g., random noise and adversarial examples. Our analysis shows that model predictions are able to magnify useful underlying information in data and this phenomenon occurs broadly even in the absence of \emph{any} label information, highlighting that model predictions could substantially benefit the training process: self-adaptive training improves the generalization of deep networks under noise and enhances the self-supervised representation learning. The analysis also sheds light on understanding deep learning, e.g., a potential explanation of the recently-discovered double-descent phenomenon in empirical risk minimization and the collapsing issue of the state-of-the-art self-supervised learning algorithms. Experiments on the CIFAR, STL and ImageNet datasets verify the effectiveness of our approach in three applications: classification with label noise, selective classification and linear evaluation. To facilitate future research, the code has been made public available at https://github.com/L ayneH/self-adaptive- training.
翻訳日:2021-03-21 12:13:25 公開日:2021-01-21
# (参考訳) 部分測定可能なシステムのモデルに基づくポリシー探索 [全文訳有]

Model-based Policy Search for Partially Measurable Systems ( http://arxiv.org/abs/2101.08740v1 )

ライセンス: CC BY 4.0
Fabio Amadio, Alberto Dalla Libera, Ruggero Carli, Daniel Nikovski, Diego Romeres(参考訳) 本稿では, 状態を直接測定することはできないが, 適切な状態観察者によって推定されなければならない部分計測システム (pms) のためのモデルベース強化学習 (mbrl) アルゴリズムを提案する。 提案したアルゴリズムは、MC-PILCO4PMS (Monte Carlo Probabilistic Inference for Learning Control for partially Measurable Systems) と名付けられ、システムダイナミクスをモデル化するためにガウス過程(GP)、およびポリシーパラメータを更新するためのモンテカルロアプローチに依存している。 W.r.t. これまでのGPベースのMBRLアルゴリズム、MC-PILCO4PMSモデルは、ポリシー最適化中の状態オブザーバの存在を明確に示しており、PMSを処理できる。 提案アルゴリズムの有効性はシミュレーションと2つの実システムの両方で検証されている。

In this paper, we propose a Model-Based Reinforcement Learning (MBRL) algorithm for Partially Measurable Systems (PMS), i.e., systems where the state can not be directly measured, but must be estimated through proper state observers. The proposed algorithm, named Monte Carlo Probabilistic Inference for Learning COntrol for Partially Measurable Systems (MC-PILCO4PMS), relies on Gaussian Processes (GPs) to model the system dynamics, and on a Monte Carlo approach to update the policy parameters. W.r.t. previous GP-based MBRL algorithms, MC-PILCO4PMS models explicitly the presence of state observers during policy optimization, allowing to deal PMS. The effectiveness of the proposed algorithm has been tested both in simulation and in two real systems.
翻訳日:2021-03-21 11:24:22 公開日:2021-01-21
# (参考訳) ソフト遺伝的プログラミングバイナリ分類器 [全文訳有]

Soft Genetic Programming Binary Classifiers ( http://arxiv.org/abs/2101.08742v1 )

ライセンス: CC BY 4.0
Ivan Gridin(参考訳) 分類器の設計と利用に関する研究は、最も重要な機械学習分野の1つである。 自動機械学習手法の開発により、ロバストな分類器モデルを構築するために様々なアプローチが用いられる。 実装の難しさとカスタマイズの複雑さのため、遺伝的プログラミング(GP)法は分類器の構築にはあまり使われない。 GP分類器にはいくつかの制限と欠点がある。 しかし、"ソフト"遺伝プログラミング(SGP)の概念が開発され、論理演算木はより柔軟になり、データセットに依存性を見出すことができ、ほとんどのケースで有望な結果が得られる。 本稿では,SGP手法を用いてバイナリ分類器を構築する手法について述べる。 テスト結果が示されます。 ソースコード - https://github.com/s urvexman/sgp_classif ier。

The study of the classifier's design and it's usage is one of the most important machine learning areas. With the development of automatic machine learning methods, various approaches are used to build a robust classifier model. Due to some difficult implementation and customization complexity, genetic programming (GP) methods are not often used to construct classifiers. GP classifiers have several limitations and disadvantages. However, the concept of "soft" genetic programming (SGP) has been developed, which allows the logical operator tree to be more flexible and find dependencies in datasets, which gives promising results in most cases. This article discusses a method for constructing binary classifiers using the SGP technique. The test results are presented. Source code - https://github.com/s urvexman/sgp_classif ier.
翻訳日:2021-03-21 11:06:05 公開日:2021-01-21
# (参考訳) 放物型二重投射型白内障カメラの3次元特性解析 [全文訳有]

Three-Dimensional Investigation of the Metric Properties of Parabolic Double Projection Involving Catadioptric Camera ( http://arxiv.org/abs/2101.10840v1 )

ライセンス: CC BY 4.0
Ahmed Hamdy, Ahmed Elsherif, Saiid Shebl(参考訳) 本稿では,パラボロイド二重射影の計量特性,すなわち,解析的研究について述べる。 頭頂部カメラシステムで使用される 中央および直交の投射。 このようなシステムの以前の処理では、計量特性は十分に研究されていない。 これらの性質は、射影線と射影線で区切られた領域の真の長さの決定を含む。 パラボロイド二重射影の計量要素を決定する利点は、歪み解析とカメラキャリブレーションを研究することである。 また、これは異なるカメラプロジェクションシステムの比較分析を研究する上で重要な有用性であると考えられる。

This paper presents an analytical study for the metric properties of the paraboloidal double projection, i.e. central and orthogonal projections used in the catadioptric camera system. Metric properties have not sufficiently studied in previous treatments of such system. These properties incorporate the determination of the true lengths of projected lines and areas bounded by projected lines. The advantageous main gain of determining metric elements of the paraboloidal double projection is studying distortion analysis and camera calibration, which is considered an essential tool in testing camera accuracy. Also, this may be considered as a significant utility in studying comparison analysis between different cameras projection systems.
翻訳日:2021-03-21 10:58:14 公開日:2021-01-21
# (参考訳) 私たちがしていることは、すること以上のものです [全文訳有]

What we are is more than what we do ( http://arxiv.org/abs/2102.04219v1 )

ライセンス: CC BY 4.0
Larissa Albantakis and Giulio Tononi(参考訳) 意識の主観的特性を真剣に考えると、意識は「行動」ではなく「行動」の問題となる。 行動」は「行動」から切り離すことができるため、機能的基準だけでは、システムが意識の物理的基盤となるために必要な要件を持っているかどうかを判断できない。 行動」と「行動」の解離は、人工知能において最も有能なものであり、コンピュータは意識のない状態で複雑な機能(人間の行動に類似した限界)を実行することができる。 意識的な存在によって行われない場合、複雑な行動は意味をなさない。

If we take the subjective character of consciousness seriously, consciousness becomes a matter of "being" rather than "doing". Because "doing" can be dissociated from "being", functional criteria alone are insufficient to decide whether a system possesses the necessary requirements for being a physical substrate of consciousness. The dissociation between "being" and "doing" is most salient in artificial general intelligence, which may soon replicate any human capacity: computers can perform complex functions (in the limit resembling human behavior) in the absence of consciousness. Complex behavior becomes meaningless if it is not performed by a conscious being.
翻訳日:2021-03-21 10:09:30 公開日:2021-01-21
# (参考訳) 機械学習能力を用いた離散的選択分析 [全文訳有]

Discrete Choice Analysis with Machine Learning Capabilities ( http://arxiv.org/abs/2101.10261v1 )

ライセンス: CC BY 4.0
Youssef M. Aboutaleb, Mazen Danaf, Yifei Xie, Moshe Ben-Akiva(参考訳) 本稿では、ポリシー分析のモデルに適用する上で不可欠な機能と、そのような設定への市販機械学習方法論の直接適用の限界について述べる。 政策分析のための離散的選択モデルを構築する伝統的な計量方法論は、データと主題・マッターの考察によるモデリングの仮定を組み合わせたものである。 このような考察は、ランダム効用離散選択モデルの体系的な構成要素を特定するのに最も有用であるが、典型的にはランダム成分の形式を決定するのに限定的な助けとなる。 機械学習のパラダイムを活用できる分野、すなわち、ユーティリティ方程式のランダム成分の最良の仕様を特定し、体系的に選択する分野を特定する。 本稿では, ネストされたロジットおよびロジット混合モデルのランダムなユーティリティコンポーネントの最適仕様をアルゴリズム的に選択するために, 混合整数最適化とクロスバリデーションを用いる新しい2つの応用について述べる。

This paper discusses capabilities that are essential to models applied in policy analysis settings and the limitations of direct applications of off-the-shelf machine learning methodologies to such settings. Traditional econometric methodologies for building discrete choice models for policy analysis involve combining data with modeling assumptions guided by subject-matter considerations. Such considerations are typically most useful in specifying the systematic component of random utility discrete choice models but are typically of limited aid in determining the form of the random component. We identify an area where machine learning paradigms can be leveraged, namely in specifying and systematically selecting the best specification of the random component of the utility equations. We review two recent novel applications where mixed-integer optimization and cross-validation are used to algorithmically select optimal specifications for the random utility components of nested logit and logit mixture models subject to interpretability constraints.
翻訳日:2021-03-21 10:06:23 公開日:2021-01-21
# (参考訳) ゲーム理論と機械学習によるディフェンシブ・ディセプションのアプローチ:調査 [全文訳有]

Game-Theoretic and Machine Learning-based Approaches for Defensive Deception: A Survey ( http://arxiv.org/abs/2101.10121v1 )

ライセンス: CC BY 4.0
Mu Zhu, Ahmed H. Anwar, Zelin Wan, Jin-Hee Cho, Charles Kamhoua, and Munindar P. Singh(参考訳) 防衛詐欺はサイバー防衛にとって有望なアプローチだ。 ディフェンシブ・デセプションは研究コミュニティで人気が高まっているが、キーコンポーネント、基本原理、様々な問題設定におけるトレードオフに関する体系的な調査は行われていない。 本研究は,ゲーム理論と機械学習を中心とした防御的デセプション研究に焦点を当て,防御的デセプションに広く用いられている人工知能アプローチの著名なファミリーである。 本稿では,先行作業から洞察,教訓,限界を導き出す。 現在の防衛詐欺研究の大きなギャップに対処するためのいくつかの研究の方向性の概要をまとめて締めくくっている。

Defensive deception is a promising approach for cyberdefense. Although defensive deception is increasingly popular in the research community, there has not been a systematic investigation of its key components, the underlying principles, and its tradeoffs in various problem settings. This survey paper focuses on defensive deception research centered on game theory and machine learning, since these are prominent families of artificial intelligence approaches that are widely employed in defensive deception. This paper brings forth insights, lessons, and limitations from prior work. It closes with an outline of some research directions to tackle major gaps in current defensive deception research.
翻訳日:2021-03-21 09:53:00 公開日:2021-01-21
# (参考訳) GPU-Accelerated Dask アプリケーションのための MPI ベースの効率的な通信 [全文訳有]

Efficient MPI-based Communication for GPU-Accelerated Dask Applications ( http://arxiv.org/abs/2101.08878v1 )

ライセンス: CC BY 4.0
Aamir Shafi, Jahanzeb Maqbool Hashmi, Hari Subramoni and Dhabaleswar K. Panda(参考訳) daskは人気の並列分散コンピューティングフレームワークで、apache sparkに匹敵し、ビッグデータのタスクベースのスケーラブルな処理を可能にする。 Dask Distributedライブラリは、このコンピューティングエンジンの基礎を形成し、新しい通信デバイスの追加をサポートする。 ひとつはTCP用、もうひとつはUCXのCythonラッパーであるUCX-Pyを使用した高速ネットワーク用である。 本稿では,GPUで構築した最新のHPCクラスタを対象とした,ダスクの新しい通信バックエンド MPI4Dask の設計と実装について述べる。 MPI4Daskは、Message Passing Interface (MPI)標準のGPU対応実装であるMVAPICH2-GDRよりもmpi4pyを利用している。 MPI4Daskは、Pythonのasyncioフレームワークからasync/awaitキーワードを使用して定義された非ブロッキング並行操作である、ポイントツーポイントの非同期I/O通信コルーチンを提供する。 我々のレイテンシとスループットの比較から、MPI4Daskは1バイトメッセージでUCXを6倍、大きなメッセージで4倍(MByteとそれ以上)上回っていることが示唆されている。 また,MPI4DaskとUCXの比較評価を,1) cuPy配列の総和と2) cuDFマージの2つのベンチマークアプリケーションを用いて行った。 mpi4daskは、nvidia tesla v100 gpuで構築された社内クラスタで、平均3.47xと3.11xで、2つのアプリケーションの全体的な実行時間を高速化する。 また、最大32人のDaskワーカーが32個のNVIDIA Quadro RTX 5000 GPUと256個のCPUコアを持つTACCのFronterera(GPU)システム上で、UCXに対してMPI4Daskのスケーラビリティ解析を行う。 MPI4Daskは、Frontera(GPU)システム上の1-32Daskワーカーに対して、cuPyおよびcuDFアプリケーションの実行時間を平均1.71xと2.91xで高速化する。

Dask is a popular parallel and distributed computing framework, which rivals Apache Spark to enable task-based scalable processing of big data. The Dask Distributed library forms the basis of this computing engine and provides support for adding new communication devices. It currently has two communication devices: one for TCP and the other for high-speed networks using UCX-Py -- a Cython wrapper to UCX. This paper presents the design and implementation of a new communication backend for Dask -- called MPI4Dask -- that is targeted for modern HPC clusters built with GPUs. MPI4Dask exploits mpi4py over MVAPICH2-GDR, which is a GPU-aware implementation of the Message Passing Interface (MPI) standard. MPI4Dask provides point-to-point asynchronous I/O communication coroutines, which are non-blocking concurrent operations defined using the async/await keywords from the Python's asyncio framework. Our latency and throughput comparisons suggest that MPI4Dask outperforms UCX by 6x for 1 Byte message and 4x for large messages (2 MBytes and beyond) respectively. We also conduct comparative performance evaluation of MPI4Dask with UCX using two benchmark applications: 1) sum of cuPy array with its transpose, and 2) cuDF merge. MPI4Dask speeds up the overall execution time of the two applications by an average of 3.47x and 3.11x respectively on an in-house cluster built with NVIDIA Tesla V100 GPUs for 1-6 Dask workers. We also perform scalability analysis of MPI4Dask against UCX for these applications on TACC's Frontera (GPU) system with upto 32 Dask workers on 32 NVIDIA Quadro RTX 5000 GPUs and 256 CPU cores. MPI4Dask speeds up the execution time for cuPy and cuDF applications by an average of 1.71x and 2.91x respectively for 1-32 Dask workers on the Frontera (GPU) system.
翻訳日:2021-03-21 09:01:00 公開日:2021-01-21
# (参考訳) 人間の行動認識とオンライン行動検出のギャップを埋める [全文訳有]

Bridging the gap between Human Action Recognition and Online Action Detection ( http://arxiv.org/abs/2101.08851v1 )

ライセンス: CC BY 4.0
Alban Main de Boissiere, Rita Noumeir(参考訳) 行動認識、早期予測、オンライン行動検出は、しばしば独立して研究される補完的な分野である。 ほとんどのオンラインアクション検出ネットワークは、トレーニング済みの機能抽出器を使用しているが、新しいタスクには最適ではないかもしれない。 本稿では,前述の分野間の教師・学生の枠組みと新しい学習戦略を用いて,タスク固有の特徴抽出について述べる。 我々のネットワークである Online Knowledge Distillation Action Detection Network (OKDAD) は、オンライン早期予測とオンライン時間セグメント提案サブネットを並列に埋め込む。 低学級と高学級の類似性が教員養成中に奨励される。 OKDADネットワークへの知識蒸留は、教師-学生特徴ベクトル間の層再利用とコサイン類似性によって保証される。 レイヤ再利用と類似性学習は,汎用的特徴抽出器を用いたベースラインを大幅に改善する。 我々は、NTU RGB+D(行動認識、早期予測)とPKU MMD(行動検出)の2つの一般的なデータセットから赤外線ビデオの枠組みを評価する。 これらのデータセットに対する以前の試みとは異なり、学生ネットワークは将来について何も知らないまま実行します。 この難しさが増しても、両方のデータセットで最先端の結果が得られます。 さらに、当社のネットワークはRGB-Dカメラからの赤外線を使用しており、オンラインアクション検出に最初に使用しています。

Action recognition, early prediction, and online action detection are complementary disciplines that are often studied independently. Most online action detection networks use a pre-trained feature extractor, which might not be optimal for its new task. We address the task-specific feature extraction with a teacher-student framework between the aforementioned disciplines, and a novel training strategy. Our network, Online Knowledge Distillation Action Detection network (OKDAD), embeds online early prediction and online temporal segment proposal subnetworks in parallel. Low interclass and high intraclass similarity are encouraged during teacher training. Knowledge distillation to the OKDAD network is ensured via layer reuse and cosine similarity between teacher-student feature vectors. Layer reuse and similarity learning significantly improve our baseline which uses a generic feature extractor. We evaluate our framework on infrared videos from two popular datasets, NTU RGB+D (action recognition, early prediction) and PKU MMD (action detection). Unlike previous attempts on those datasets, our student networks perform without any knowledge of the future. Even with this added difficulty, we achieve state-of-the-art results on both datasets. Moreover, our networks use infrared from RGB-D cameras, which we are the first to use for online action detection, to our knowledge.
翻訳日:2021-03-21 08:40:51 公開日:2021-01-21
# Adv-OLM:OLMによるテキスト・アドベナリーの生成

Adv-OLM: Generating Textual Adversaries via OLM ( http://arxiv.org/abs/2101.08523v1 )

ライセンス: Link先を確認
Vijit Malik and Ashwani Bhat and Ashutosh Modi(参考訳) ディープラーニングモデルは、元の入力に不可避な摂動を持つ敵の例に影響を受けやすく、その結果、これらのモデルに対する敵意攻撃を引き起こす。 nlpにおけるアートトランスフォーマーの状態に対するこれらの攻撃の解析は、そのような敵対的入力に対するこれらのモデルのロバスト性を改善するのに役立つ。 本稿では,オクルージョンと言語モデル(olm)の考え方をアートアタック手法の現況に適用するブラックボックス攻撃法adv-olmを提案する。 OLMは文の単語のランク付けに使われ、後に単語置換戦略を用いて置換される。 提案手法は,テキスト分類タスクにおいて,他の攻撃方法よりも優れていることを示す。

Deep learning models are susceptible to adversarial examples that have imperceptible perturbations in the original input, resulting in adversarial attacks against these models. Analysis of these attacks on the state of the art transformers in NLP can help improve the robustness of these models against such adversarial inputs. In this paper, we present Adv-OLM, a black-box attack method that adapts the idea of Occlusion and Language Models (OLM) to the current state of the art attack methods. OLM is used to rank words of a sentence, which are later substituted using word replacement strategies. We experimentally show that our approach outperforms other attack methods for several text classification tasks.
翻訳日:2021-03-21 08:08:25 公開日:2021-01-21
# 学習した最適逆境を用いた状態観察によるロバスト強化学習

Robust Reinforcement Learning on State Observations with Learned Optimal Adversary ( http://arxiv.org/abs/2101.08452v1 )

ライセンス: Link先を確認
Huan Zhang, Hongge Chen, Duane Boning, Cho-Jui Hsieh(参考訳) 本研究は,高次強化学習(DRL)に対する多くの敵攻撃の設定と整合し,予測不能な感知雑音下で実世界のRLエージェントをロールアウトする上でも重要である,逆摂動状態観測による強化学習(RL)の堅牢性について検討する。 固定されたエージェントポリシーでは、摂動状態の観測に最適な敵が見つかることが示され、最悪のエージェント報酬が得られることが保証される。 DRL設定の場合、これはRLエージェントに対する新しい経験的敵攻撃につながる。 エージェントのロバスト性を高めるため,我々は,最適な攻撃枠組みに従うポリシー勾配を用いて,エージェントと共にオンラインの敵を訓練する学習敵(atla)による交互訓練の枠組みを提案する。 さらに,SA-MDPの分析から,過去状態や行動(歴史)が堅牢なエージェントの学習に有用であること,LSTMに基づく政策が敵の立場でより堅牢であることが実証的に確認された。 いくつかの連続制御環境における実証的な評価は、ATLAが強い敵の下で最先端の性能を達成することを示している。 私たちのコードはhttps://github.com/h uanzhang12/atla_robu st_rlで利用可能です。

We study the robustness of reinforcement learning (RL) with adversarially perturbed state observations, which aligns with the setting of many adversarial attacks to deep reinforcement learning (DRL) and is also important for rolling out real-world RL agent under unpredictable sensing noise. With a fixed agent policy, we demonstrate that an optimal adversary to perturb state observations can be found, which is guaranteed to obtain the worst case agent reward. For DRL settings, this leads to a novel empirical adversarial attack to RL agents via a learned adversary that is much stronger than previous ones. To enhance the robustness of an agent, we propose a framework of alternating training with learned adversaries (ATLA), which trains an adversary online together with the agent using policy gradient following the optimal adversarial attack framework. Additionally, inspired by the analysis of state-adversarial Markov decision process (SA-MDP), we show that past states and actions (history) can be useful for learning a robust agent, and we empirically find a LSTM based policy can be more robust under adversaries. Empirical evaluations on a few continuous control environments show that ATLA achieves state-of-the-art performance under strong adversaries. Our code is available at https://github.com/h uanzhang12/ATLA_robu st_RL.
翻訳日:2021-03-21 08:08:15 公開日:2021-01-21
# 自己教師型半教師型学習のための指数移動平均正規化

Exponential Moving Average Normalization for Self-supervised and Semi-supervised Learning ( http://arxiv.org/abs/2101.08482v1 )

ライセンス: Link先を確認
Zhaowei Cai, Avinash Ravichandran, Subhransu Maji, Charless Fowlkes, Zhuowen Tu, Stefano Soatto(参考訳) 本稿では,既存の学生教師による自己教師型および半教師型学習手法の性能を向上させるために,指数的移動平均正規化(eman)と呼ばれるバッチ正規化(bn)のプラグイン置換を提案する。 統計が各バッチ内で計算される標準的なBNとは異なり、教師で使用されるEMANは、学生のBN統計から指数的な移動平均によって統計を更新する。 この設計は、BNの内在的なクロスサンプル依存性を減らし、教師の一般化を促進する。 emanは自己教師付き学習の強力なベースラインを4-6/1-2ポイント、半教師付き学習を約7/2ポイント改善する。 これらの改善は、メソッド、ネットワークアーキテクチャ、トレーニング期間、データセット間で一貫性があり、この技術の一般的な有効性を示している。

We present a plug-in replacement for batch normalization (BN) called exponential moving average normalization (EMAN), which improves the performance of existing student-teacher based self- and semi-supervised learning techniques. Unlike the standard BN, where the statistics are computed within each batch, EMAN, used in the teacher, updates its statistics by exponential moving average from the BN statistics of the student. This design reduces the intrinsic cross-sample dependency of BN and enhance the generalization of the teacher. EMAN improves strong baselines for self-supervised learning by 4-6/1-2 points and semi-supervised learning by about 7/2 points, when 1%/10% supervised labels are available on ImageNet. These improvements are consistent across methods, network architectures, training duration, and datasets, demonstrating the general effectiveness of this technique.
翻訳日:2021-03-21 08:07:53 公開日:2021-01-21
# NERデータアノテーションにおけるラベル一貫性の検証

Validating Label Consistency in NER Data Annotation ( http://arxiv.org/abs/2101.08698v1 )

ライセンス: Link先を確認
Qingkai Zeng, Mengxia Yu, Wenhao Yu, Tianwen Jiang, Tim Weninger and Meng Jiang(参考訳) データアノテーションは、名前付きエンティティ認識(ner)プロジェクトが学習する適切な情報で訓練されることを保証する上で重要な役割を担います。 最も正確なラベルを生成することは、アノテーションに関する複雑さのために難しい。 データアノテーションの複数のサブセット(例えば、トレーニングセットとテストセット、または複数のトレーニングサブセット)間のラベルの不整合はラベルミスの指標である。 本稿では,ラベル(イン)一貫性とnerモデル性能の関係を明らかにするための経験的手法を提案する。 複数のNERデータアノテーションセットでラベルの一貫性を検証する(あるいは一貫性をキャッチする)ために使用できる。 実験では,SCIERCとCoNLL03データセット(26.7%,ラベルミス5.4%)におけるテストデータのラベルの不一致を同定した。 両方のデータセットの修正バージョンにおける一貫性を検証する。

Data annotation plays a crucial role in ensuring your named entity recognition (NER) projects are trained with the right information to learn from. Producing the most accurate labels is a challenge due to the complexity involved with annotation. Label inconsistency between multiple subsets of data annotation (e.g., training set and test set, or multiple training subsets) is an indicator of label mistakes. In this work, we present an empirical method to explore the relationship between label (in-)consistency and NER model performance. It can be used to validate the label consistency (or catches the inconsistency) in multiple sets of NER data annotation. In experiments, our method identified the label inconsistency of test data in SCIERC and CoNLL03 datasets (with 26.7% and 5.4% label mistakes). It validated the consistency in the corrected version of both datasets.
翻訳日:2021-03-21 08:07:05 公開日:2021-01-21
# pqrnnを用いた小学生への大規模言語モデルの蒸留

Distilling Large Language Models into Tiny and Effective Students using pQRNN ( http://arxiv.org/abs/2101.08890v1 )

ライセンス: Link先を確認
Prabhu Kaliamoorthi, Aditya Siddhant, Edward Li, Melvin Johnson(参考訳) mBERTやXLM-Rのような訓練済みの大規模多言語モデルでは、言語理解タスクにおける技術結果の状態を達成している。 しかし、それらはサーバーとエッジデバイスの両方の遅延クリティカルなアプリケーションには適していない。 これらのモデルに必要なメモリと計算リソースを減らすことが重要です。 この目的のために,提案するpQRNNは,自然言語処理タスクに小型かつ効果的であるプロジェクションベースの埋め込み不要なニューラルエンコーダである。 事前トレーニングなしでは、pQRNNは、140倍小さいにもかかわらず、事前トレーニングされた埋め込みでLSTMモデルよりも大幅に優れていた。 同じパラメータ数で、それらはトランスフォーマーベースラインを上回り、パラメータ効率を示す。 さらに,pQRNNは,大規模な事前学習言語モデルの蒸留に有効な学生アーキテクチャであることを示す。 我々は、pQRNNパラメータ、データ拡張、蒸留設定の影響を慎重に研究する。 MTOPでは、pQRNNの学生がmBERT教師のパフォーマンスの95.9%を達成し、350倍小さい。 一般的なパースタスクであるmatisでは、平均してpqrnnの学生は教師の97.1\%に達するが、350倍も小さくなる。 我々の強い結果は、我々のアプローチが大きなmBERTのようなモデルを活用しながら、レイテンシに敏感なアプリケーションに最適であることを示唆している。

Large pre-trained multilingual models like mBERT, XLM-R achieve state of the art results on language understanding tasks. However, they are not well suited for latency critical applications on both servers and edge devices. It's important to reduce the memory and compute resources required by these models. To this end, we propose pQRNN, a projection-based embedding-free neural encoder that is tiny and effective for natural language processing tasks. Without pre-training, pQRNNs significantly outperform LSTM models with pre-trained embeddings despite being 140x smaller. With the same number of parameters, they outperform transformer baselines thereby showcasing their parameter efficiency. Additionally, we show that pQRNNs are effective student architectures for distilling large pre-trained language models. We perform careful ablations which study the effect of pQRNN parameters, data augmentation, and distillation settings. On MTOP, a challenging multilingual semantic parsing dataset, pQRNN students achieve 95.9\% of the performance of an mBERT teacher while being 350x smaller. On mATIS, a popular parsing task, pQRNN students on average are able to get to 97.1\% of the teacher while again being 350x smaller. Our strong results suggest that our approach is great for latency-sensitive applications while being able to leverage large mBERT-like models.
翻訳日:2021-03-21 08:06:52 公開日:2021-01-21
# 生成ゼロショットネットワーク量子化

Generative Zero-shot Network Quantization ( http://arxiv.org/abs/2101.08430v1 )

ライセンス: Link先を確認
Xiangyu He, Qinghao Hu, Peisong Wang, Jian Cheng(参考訳) 畳み込みニューラルネットワークは、低レベルの画像生成と復元において、多数のトレーニングサンプルから現実的なイメージ先行を学習することができる。 また,高レベル画像認識タスクでは,本質的バッチ正規化(bn)統計をトレーニングデータなしで活用することにより,各カテゴリの「現実的」画像をさらに再構築できることを示す。 VAE/GAN法にインスパイアされた合成画像のゼロショット最適化プロセスは、BN統計量の分布に一致する生成的モデリングであると考えている。 生成された画像は、以下のゼロショットネットワーク量子化のためのキャリブレーションセットとして機能する。 本手法は,プライバシー上の懸念から,機密情報に基づくモデルの定量化の必要性を満たす。 ベンチマークデータセットに関する広範な実験は、生成されたデータの助けを借りて、我々のアプローチが既存のデータフリー量子化手法を一貫して上回っていることを示している。

Convolutional neural networks are able to learn realistic image priors from numerous training samples in low-level image generation and restoration. We show that, for high-level image recognition tasks, we can further reconstruct "realistic" images of each category by leveraging intrinsic Batch Normalization (BN) statistics without any training data. Inspired by the popular VAE/GAN methods, we regard the zero-shot optimization process of synthetic images as generative modeling to match the distribution of BN statistics. The generated images serve as a calibration set for the following zero-shot network quantizations. Our method meets the needs for quantizing models based on sensitive information, \textit{e.g.,} due to privacy concerns, no data is available. Extensive experiments on benchmark datasets show that, with the help of generated data, our approach consistently outperforms existing data-free quantization methods.
翻訳日:2021-03-21 08:06:32 公開日:2021-01-21
# ジェネリックオブジェクト検出におけるオクルージョンハンドリング

Occlusion Handling in Generic Object Detection: A Review ( http://arxiv.org/abs/2101.08845v1 )

ライセンス: Link先を確認
Kaziwa Saleh, S\'andor Sz\'en\'asi, Zolt\'an V\'amossy(参考訳) ディープラーニングネットワークの強大な力は、オブジェクト検出に大きな発展をもたらした。 ここ数年、オブジェクト検出フレームワークは精度と効率の両方で大きな成功を収めてきた。 しかし、その能力はいくつかの要因から人間の能力とはかけ離れており、その1つである。 閉塞は様々な場所、規模、比率で起こりうるため、対処は非常に困難である。 本稿では,屋外および屋内の両方の場面における総合物体検出における隠蔽処理の課題に対処し,これらの課題を克服するための最近の研究について述べる。 最後に,今後の研究の方向性について述べる。

The significant power of deep learning networks has led to enormous development in object detection. Over the last few years, object detector frameworks have achieved tremendous success in both accuracy and efficiency. However, their ability is far from that of human beings due to several factors, occlusion being one of them. Since occlusion can happen in various locations, scale, and ratio, it is very difficult to handle. In this paper, we address the challenges in occlusion handling in generic object detection in both outdoor and indoor scenes, then we refer to the recent works that have been carried out to overcome these challenges. Finally, we discuss some possible future directions of research.
翻訳日:2021-03-21 08:06:18 公開日:2021-01-21
# イベント駆動型物体認識のためのスパイク学習システム

A Spike Learning System for Event-driven Object Recognition ( http://arxiv.org/abs/2101.08850v1 )

ライセンス: Link先を確認
Shibo Zhou, Wei Wang, Xiaohua Li, Zhanpeng Jin(参考訳) LiDARやダイナミックビジョンセンサー(DVS)のようなイベント駆動型センサーは、高分解能および高速な応用において注目を集めている。 認識精度を高めるために多くの研究がなされている。 しかし、認識遅延や時間効率に関する本質的な話題はほとんど未定である。 本稿では,スパイキングニューラルネットワーク(SNN)を用いたスパイキング学習システムを提案する。 提案方式では,各イベントの到着時刻とデータをSNNスパイク時間にマッピングし,非同期に送信されたイベントを遅延なく即時に処理する。 このスキームはSNNの非同期処理機能とうまく統合され、時間効率が向上する。 既存のシステムに対する大きな利点は、各認識タスクのイベント蓄積時間が、ユーザの事前設定ではなく、システムによって自動的に決定される点である。 システムは全ての入力イベントを待つことなく、早期に認識を終了することができる。 7つのLiDARとDVSデータセットのリストで大規模な実験が行われた。 その結果,提案システムは最先端の認識精度を有し,時間効率は優れていた。 一般的なKITTIデータセットの様々な実験環境では、認識遅延が56.3%減少して91.7%となった。

Event-driven sensors such as LiDAR and dynamic vision sensor (DVS) have found increased attention in high-resolution and high-speed applications. A lot of work has been conducted to enhance recognition accuracy. However, the essential topic of recognition delay or time efficiency is largely under-explored. In this paper, we present a spiking learning system that uses the spiking neural network (SNN) with a novel temporal coding for accurate and fast object recognition. The proposed temporal coding scheme maps each event's arrival time and data into SNN spike time so that asynchronously-arriv ed events are processed immediately without delay. The scheme is integrated nicely with the SNN's asynchronous processing capability to enhance time efficiency. A key advantage over existing systems is that the event accumulation time for each recognition task is determined automatically by the system rather than pre-set by the user. The system can finish recognition early without waiting for all the input events. Extensive experiments were conducted over a list of 7 LiDAR and DVS datasets. The results demonstrated that the proposed system had state-of-the-art recognition accuracy while achieving remarkable time efficiency. Recognition delay was shown to reduce by 56.3% to 91.7% in various experiment settings over the popular KITTI dataset.
翻訳日:2021-03-21 08:06:09 公開日:2021-01-21
# 深層学習時代におけるアンサンブル学習の考察

Discussion of Ensemble Learning under the Era of Deep Learning ( http://arxiv.org/abs/2101.08387v1 )

ライセンス: Link先を確認
Yongquan Yang, Haijun Lv(参考訳) 様々な人工知能応用におけるディープラーニング(主にディープニューラルネットワーク)の優位な位置から、近年、深層ニューラルネットワーク(センスブル深層学習)に基づくアンサンブル学習は、学習システムの一般化を改善する上で大きな成果を上げている。 しかし、現代のディープニューラルネットワークは通常、数百万から数十億のパラメータを持つため、複数のベース深層学習者とアンサンブル深層学習者によるテストのための時間と空間オーバーヘッドは、従来のアンサンブル学習よりもはるかに大きい。 いくつかのアプリケーションでアンサンブル深層学習の展開を促進するために、高速アンサンブル深層学習のアルゴリズムが提案されているが、開発時間や計算資源が制限されたり、処理すべきデータが大次元的であったり、特定の分野で多くのアプリケーションでさらなる進歩が求められる。 緊急に解決すべき問題は、深層学習をアンサンブルし、必要な時間と空間のオーバーヘッドを減らし、特定の分野の多くのアプリケーションがその恩恵を受けられるようにする方法である。 この問題を解決するためには,深層学習の時代にアンサンブル学習がどのように発達してきたのかを知る必要がある。 そこで,本稿では,出版作品のデータ分析,従来のアンサンブル学習の方法論と不適合性,および近年のアンサンブル深層学習の発展について論じる。 深層学習の時代におけるアンサンブル学習の今後の発展に直面する技術的課題を実現する上で,本稿が役立つことを願っている。

Due to the dominant position of deep learning (mostly deep neural networks) in various artificial intelligence applications, recently, ensemble learning based on deep neural networks (ensemble deep learning) has shown significant performances in improving the generalization of learning system. However, since modern deep neural networks usually have millions to billions of parameters, the time and space overheads for training multiple base deep learners and testing with the ensemble deep learner are far greater than that of traditional ensemble learning. Though several algorithms of fast ensemble deep learning have been proposed to promote the deployment of ensemble deep learning in some applications, further advances still need to be made for many applications in specific fields, where the developing time and computing resources are usually restricted or the data to be processed is of large dimensionality. An urgent problem needs to be solved is how to take the significant advantages of ensemble deep learning while reduce the required time and space overheads so that many more applications in specific fields can benefit from it. For the alleviation of this problem, it is necessary to know about how ensemble learning has developed under the era of deep learning. Thus, in this article, we present discussion focusing on data analyses of published works, the methodology and unattainability of traditional ensemble learning, and recent developments of ensemble deep learning. We hope this article will be helpful to realize the technical challenges faced by future developments of ensemble learning under the era of deep learning.
翻訳日:2021-03-21 08:05:36 公開日:2021-01-21
# ランダム林における交雑交配

Crossbreeding in Random Forest ( http://arxiv.org/abs/2101.08585v1 )

ライセンス: Link先を確認
Abolfazl Nadi, Hadi Moradi, Khalil Taheri(参考訳) アンサンブル学習法は、予測性能を改善するために複数の学習アルゴリズムの恩恵を受けるように設計されている。 この改良された性能のトレードオフは、シングルラーニングシステムと比較して、より遅い速度とより大きいアンサンブル学習システムである。 本稿では,最も強力なアンサンブル手法の一つとして,ランダムフォレスト(RF)でこの問題に対処する新しい手法を提案する。 本手法は, 木枝の交配により, 空間および速度におけるRFの性能を向上させるとともに, 分類基準における性能を維持する。 提案手法は、合成データセットと実データセットのグループでテストされ、標準RF手法と比較されている。 CRF(Crossbred RF)が森林における樹木の精度と数に与える影響を明らかにするために,いくつかの評価を行った。 その結果, RFと比較してCRFの性能は良好であった。

Ensemble learning methods are designed to benefit from multiple learning algorithms for better predictive performance. The tradeoff of this improved performance is slower speed and larger size of ensemble learning systems compared to single learning systems. In this paper, we present a novel approach to deal with this problem in Random Forest (RF) as one of the most powerful ensemble methods. The method is based on crossbreeding of the best tree branches to increase the performance of RF in space and speed while keeping the performance in the classification measures. The proposed approach has been tested on a group of synthetic and real datasets and compared to the standard RF approach. Several evaluations have been conducted to determine the effects of the Crossbred RF (CRF) on the accuracy and the number of trees in a forest. The results show better performance of CRF compared to RF.
翻訳日:2021-03-21 08:05:10 公開日:2021-01-21
# 知識生成 --知識グラフ上の変分ベイズ

Knowledge Generation -- Variational Bayes on Knowledge Graphs ( http://arxiv.org/abs/2101.08857v1 )

ライセンス: Link先を確認
Florian Wolf(参考訳) この論文は、現実世界の知識グラフ(KG)の表現学習における変分オートエンコーダ(VAE)の可能性の実証である。 分子グラフの生成に成功しているアプローチに着想を得て,rgvae(relational graph variational auto-encoder)というモデルの性能評価を行った。 グラフ畳み込み、グラフマッチング、潜在空間を事前にエンコードするモジュラーハイパーパラメータの選択の影響を比較する。 RGVAEはリンク予測に基づいて評価される。 2つのデータセットFB15K-237とWN18RRの平均相互ランク(MRR)スコアは、埋め込みベースのモデルDistMultと比較される。 遅延空間事前制約のない変分DistMultとRGVAEを制御モデルとして実装する。 その結果、異なる設定の間、緩和された潜在空間を持つRGVAEは、両方のデータセットで最高となるが、DistMultを上回りません。 さらに, 2次元実験において, 2 つの三重項の潜在表現間の線形補間を行い, それぞれの潜在次元を 95 % の信頼区間で探索する。 どちらの補間も、RGVAEは隣接行列の再構築を学ぶが、解離しないことを示している。 最後に,FB15K-237データセットに対する新しい検証手法を提案する。 生成されたトリプルの関係型コンストレインはフィルタされ、エンティティタイプにマッチする。 有意な三重項の観測率はランダムしきい値よりも著しく高い。 生成した三重項と有効三重項は見当たらない。 $\delta$-VAE法を用いて、異なる潜在空間の比較を行ったところ、デコーダの崩壊が判明した。 最後に,分子生成に対するアプローチの限界因子を解析し,デコーダの崩壊とマルチリレーショナルKGの表現学習を成功させる手法を提案する。

This thesis is a proof of concept for the potential of Variational Auto-Encoder (VAE) on representation learning of real-world Knowledge Graphs (KG). Inspired by successful approaches to the generation of molecular graphs, we evaluate the capabilities of our model, the Relational Graph Variational Auto-Encoder (RGVAE). The impact of the modular hyperparameter choices, encoding through graph convolutions, graph matching and latent space prior, is compared. The RGVAE is first evaluated on link prediction. The mean reciprocal rank (MRR) scores on the two datasets FB15K-237 and WN18RR are compared to the embedding-based model DistMult. A variational DistMult and a RGVAE without latent space prior constraint are implemented as control models. The results show that between different settings, the RGVAE with relaxed latent space, scores highest on both datasets, yet does not outperform the DistMult. Further, we investigate the latent space in a twofold experiment: first, linear interpolation between the latent representation of two triples, then the exploration of each latent dimension in a $95\%$ confidence interval. Both interpolations show that the RGVAE learns to reconstruct the adjacency matrix but fails to disentangle. For the last experiment we introduce a new validation method for the FB15K-237 data set. The relation type-constrains of generated triples are filtered and matched with entity types. The observed rate of valid generated triples is insignificantly higher than the random threshold. All generated and valid triples are unseen. A comparison between different latent space priors, using the $\delta$-VAE method, reveals a decoder collapse. Finally we analyze the limiting factors of our approach compared to molecule generation and propose solutions for the decoder collapse and successful representation learning of multi-relational KGs.
翻訳日:2021-03-21 08:04:56 公開日:2021-01-21
# 異なる病院での臨床リスク予測アプリケーションを開発するためのスケーラブルなアプローチ

A scalable approach for developing clinical risk prediction applications in different hospitals ( http://arxiv.org/abs/2101.10268v1 )

ライセンス: Link先を確認
Hong Sun, Kristof Depraetere, Laurent Meesseman, Jos De Roo, Martijn Vanbiervliet, Jos De Baerdemaeker, Herman Muys, Vera von Dossow, Nikolai Hulde, Ralph Szymanowsky(参考訳) 目的: 機械学習アルゴリズムは現在、臨床応用のための急性事象の予測に広く使われている。 このような予測アプリケーションのほとんどは、ある病院で特定の急性事象のリスクを予測するために開発されているが、開発された解決策を他の病院や病院に拡張する試みは少ない。 我々は,複数の疾患のリスク予測モデルの開発プロセスと,異なる電子健康記録(ehr)システムへの展開を拡張可能なスケーラブルなソリューションを提供する。 材料と方法: 臨床リスク予測モデル開発のための汎用プロセスを定義した。 モデル生成プロセスを自動化するためにキャリブレーションツールが作成されている。 4つの病院でモデルキャリブレーションを行い, それぞれの病院で, デリリウム, 敗血症, 急性腎障害(AKI)のリスク予測モデルを作成した。 結果: 4つの病院の検査データセット上で病院滞在の異なる段階において,受信者特性曲線 (auroc) 下のデリウムリスク予測モデルが0.82から0.95の範囲で達成された。 セシスモデルは0.88から0.95までAUROCを達成し、AKIモデルは0.85から0.92までAUROCを達成した。 考察:本稿で論じるスケーラビリティは,異なる病院に保管されているEMH間の共通データ表現(シンタクティック・インターオペラビリティ)の構築に基づいている。 セマンティック相互運用性(Semantic interoperability)は、異なるEHRがデータの同じ意味を共有するというより難しい要件である。 同じラボのコーディングシステムに アプローチは義務付けられていません 結論:本研究では,臨床リスク予測モデルをスケーラブルな方法で開発・展開する方法について述べる。 4つの病院で3つの疾患のリスク予測モデルを構築し,その可能性を示す。

Objective: Machine learning algorithms are now widely used in predicting acute events for clinical applications. While most of such prediction applications are developed to predict the risk of a particular acute event at one hospital, few efforts have been made in extending the developed solutions to other events or to different hospitals. We provide a scalable solution to extend the process of clinical risk prediction model development of multiple diseases and their deployment in different Electronic Health Records (EHR) systems. Materials and Methods: We defined a generic process for clinical risk prediction model development. A calibration tool has been created to automate the model generation process. We applied the model calibration process at four hospitals, and generated risk prediction models for delirium, sepsis and acute kidney injury (AKI) respectively at each of these hospitals. Results: The delirium risk prediction models achieved area under the receiver-operating characteristic curve (AUROC) ranging from 0.82 to 0.95 over different stages of a hospital stay on the test datasets of the four hospitals. The sepsis models achieved AUROC ranging from 0.88 to 0.95, and the AKI models achieved AUROC ranging from 0.85 to 0.92. Discussion: The scalability discussed in this paper is based on building common data representations (syntactic interoperability) between EHRs stored in different hospitals. Semantic interoperability, a more challenging requirement that different EHRs share the same meaning of data, e.g. a same lab coding system, is not mandated with our approach. Conclusions: Our study describes a method to develop and deploy clinical risk prediction models in a scalable way. We demonstrate its feasibility by developing risk prediction models for three diseases across four hospitals.
翻訳日:2021-03-21 08:04:29 公開日:2021-01-21
# 直交正則化による平均治療効果の推定

Estimating Average Treatment Effects via Orthogonal Regularization ( http://arxiv.org/abs/2101.08490v1 )

ライセンス: Link先を確認
Tobias Hatt, Stefan Feuerriegel(参考訳) 意思決定は、しばしば観測データから治療効果を正確に推定する必要がある。 代替決定の結果は観察されず、見積もる必要があるため、これは難しいことです。 従来の方法は根拠のない結果に基づいて成果を見積もるが、根拠のない結果に課されるいかなる制約も無視する。 本稿では,不整合性を利用した平均治療効果を推定するための新しい正規化フレームワークを提案する。 この目的のために, 既定性が直交性制約として定式化され, 結果が治療課題と直交することを保証する。 この直交性制約は正規化によって損失関数に含まれる。 正規化の枠組みに基づいて、治療課題に直交する結果を学習する未確立治療のための深層直交ネットワーク(DONUT)を開発した。 平均治療効果を推定するために様々なベンチマークデータセットを用いて、DONUTが最先端の精度を大幅に上回ることを示した。

Decision-making often requires accurate estimation of treatment effects from observational data. This is challenging as outcomes of alternative decisions are not observed and have to be estimated. Previous methods estimate outcomes based on unconfoundedness but neglect any constraints that unconfoundedness imposes on the outcomes. In this paper, we propose a novel regularization framework for estimating average treatment effects that exploits unconfoundedness. To this end, we formalize unconfoundedness as an orthogonality constraint, which ensures that the outcomes are orthogonal to the treatment assignment. This orthogonality constraint is then included in the loss function via a regularization. Based on our regularization framework, we develop deep orthogonal networks for unconfounded treatments (DONUT), which learn outcomes that are orthogonal to the treatment assignment. Using a variety of benchmark datasets for estimating average treatment effects, we demonstrate that DONUT outperforms the state-of-the-art substantially.
翻訳日:2021-03-21 08:04:06 公開日:2021-01-21
# 半バンドフィードバックを用いた組合せバンディットの効率的純探査

Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit Feedback ( http://arxiv.org/abs/2101.08534v1 )

ライセンス: Link先を確認
Marc Jourdan, Mojm\'ir Mutn\'y, Johannes Kirschner, Andreas Krause(参考訳) 半バンドフィードバックの組合せバンディットはマルチアームのバンディットを一般化し、エージェントはアームセットを選択し、選択されたセットに含まれる各アームに対するノイズの報奨を観察する。 アクションセットは、グラフ内のマトロイドやパスの基底を形成するような所定の構造を満たす。 我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。 最近普及したゲームフレームワークを用いて、この問題を逐次ゼロサムゲームとして解釈し、有限時間保証の漸近的最適アルゴリズムであるCombGameメタアルゴリズムを開発する。 学習者の2つの家族を比較してメタアルゴリズムをインスタンス化することに加えて、我々の研究の主な貢献は、組合せ行動を伴うベストアーム識別のための特定のオラクル効率の良い例である。 凸多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づき、漸近的に最適であり、競合的な経験的性能を持つ最初の計算効率の高いアルゴリズムである。

Combinatorial bandits with semi-bandit feedback generalize multi-armed bandits, where the agent chooses sets of arms and observes a noisy reward for each arm contained in the chosen set. The action set satisfies a given structure such as forming a base of a matroid or a path in a graph. We focus on the pure-exploration problem of identifying the best arm with fixed confidence, as well as a more general setting, where the structure of the answer set differs from the one of the action set. Using the recently popularized game framework, we interpret this problem as a sequential zero-sum game and develop a CombGame meta-algorithm whose instances are asymptotically optimal algorithms with finite time guarantees. In addition to comparing two families of learners to instantiate our meta-algorithm, the main contribution of our work is a specific oracle efficient instance for best-arm identification with combinatorial actions. Based on a projection-free online learning algorithm for convex polytopes, it is the first computationally efficient algorithm which is asymptotically optimal and has competitive empirical performance.
翻訳日:2021-03-21 08:03:52 公開日:2021-01-21
# 直交最小角形を用いた線形分類のための高速特徴選択

Orthogonal Least Squares Based Fast Feature Selection for Linear Classification ( http://arxiv.org/abs/2101.08539v1 )

ライセンス: Link先を確認
Sikai Zhang, Zi-Qiang Lang(参考訳) 直交最小二乗法(ols)に基づく特徴選択法を,二項分類と多項分類の両方に対して提案する。 新規な正方形相関係数(SOCC)は、OLSの誤差削減比(ERR)に基づいて定義され、特徴ランキング基準として使用される。 標準相関係数,フィッシャーの基準,SOCCの和の等価性を明らかにし,初めてORSにおけるERRの統計的含意を明らかにした。 また,OLSに基づく特徴選択法は,欲求探索に適用した場合の速度優位性を示した。 提案手法は、2つの合成データと7つの実世界データセットにおける相互情報に基づく特徴選択手法と包括的に比較される。 その結果,提案手法は10の候補手法のうち,常に上位5位にあることがわかった。 さらに,提案手法は離散化を伴わずに連続的な特徴に対して直接適用することが可能であり,相互情報に基づく手法よりも大きな利点がある。

An Orthogonal Least Squares (OLS) based feature selection method is proposed for both binomial and multinomial classification. The novel Squared Orthogonal Correlation Coefficient (SOCC) is defined based on Error Reduction Ratio (ERR) in OLS and used as the feature ranking criterion. The equivalence between the canonical correlation coefficient, Fisher's criterion, and the sum of the SOCCs is revealed, which unveils the statistical implication of ERR in OLS for the first time. It is also shown that the OLS based feature selection method has speed advantages when applied for greedy search. The proposed method is comprehensively compared with the mutual information based feature selection methods in 2 synthetic and 7 real world datasets. The results show that the proposed method is always in the top 5 among the 10 candidate methods. Besides, the proposed method can be directly applied to continuous features without discretisation, which is another significant advantage over mutual information based methods.
翻訳日:2021-03-21 08:03:34 公開日:2021-01-21
# ディープラーニングにおけるサブレベル集合の接続性に関する一考察

A Note on Connectivity of Sublevel Sets in Deep Learning ( http://arxiv.org/abs/2101.08576v1 )

ライセンス: Link先を確認
Quynh Nguyen(参考訳) ディープニューラルネットワークでは、トレーニング損失関数のサブレベルセットの接続性を証明するために、幅の広い1層$n+1$ (n$はトレーニングサンプルの数) が十分であることが示されている。 2層配置では、同じ性質が1つのニューロン(すなわち1つのニューロン)が少ない場合でも保持されない。 幅$N$は非連結なサブレベルセットにつながる。

It is shown that for deep neural networks, a single wide layer of width $N+1$ ($N$ being the number of training samples) suffices to prove the connectivity of sublevel sets of the training loss function. In the two-layer setting, the same property may not hold even if one has just one neuron less (i.e. width $N$ can lead to disconnected sublevel sets).
翻訳日:2021-03-21 08:03:18 公開日:2021-01-21
# MoG-QSM:定量的サセプティビリティマッピングのためのモデルベース生成逆深層学習ネットワーク

MoG-QSM: Model-based Generative Adversarial Deep Learning Network for Quantitative Susceptibility Mapping ( http://arxiv.org/abs/2101.08413v1 )

ライセンス: Link先を確認
Ruimin Feng, Jiayi Zhao, He Wang, Baofeng Yang, Jie Feng, Yuting Shi, Ming Zhang, Chunlei Liu, Yuyao Zhang, Jie Zhuang, Hongjiang Wei(参考訳) 定量的感受性マッピング (QSM) はMRI勾配エコ相信号から基底組織の磁気感受性を推定し, 様々な脳疾患における組織感受性の定量化に大きな可能性を示した。 しかし, 組織相と組織感受性分布の関連性は, 組織感受性の定量化の精度に影響を及ぼす。 その結果生じる感受性マップはノイズ増幅とストレッチアーティファクトに苦しむことが知られている。 これらの課題に対処するため,本論文では,逆問題(MoG-QSM)の解を制約する事前情報を含む正規化項をトレーニングするために,生成敵ネットワークの利点を浸透させるモデルベースフレームワークを提案する。 最小二乗(LS)GANとL1コストの混合を併用した残差ネットワークを発電機として訓練し,先行情報を感受性マップで学習した。 出力画像の品質を識別するために多層畳み込みニューラルネットワークを共同で訓練した。 MoG-QSMは単方向位相マップから高精度な感受性マップを生成する。 近年開発されたディープラーニングqsm法と定量的評価パラメータを比較し,mog-qsmの最適性能が得られた。 さらに,移動対象者のmog-qsmマップから高いクラス内相関係数(icc)を求め,多施設研究の大きなコホートなど,将来の応用の可能性を示した。 MoG-QSMは、神経変性疾患における金属イオン蓄積のより正確なモニタリングを可能にするため、感受性の経時的測定にも有用である。

Quantitative susceptibility mapping (QSM) estimates the underlying tissue magnetic susceptibility from the MRI gradient-echo phase signal and has demonstrated great potential in quantifying tissue susceptibility in various brain diseases. However, the intrinsic ill-posed inverse problem relating the tissue phase to the underlying susceptibility distribution affects the accuracy for quantifying tissue susceptibility. The resulting susceptibility map is known to suffer from noise amplification and streaking artifacts. To address these challenges, we propose a model-based framework that permeates benefits from generative adversarial networks to train a regularization term that contains prior information to constrain the solution of the inverse problem, referred to as MoG-QSM. A residual network leveraging a mixture of least-squares (LS) GAN and the L1 cost was trained as the generator to learn the prior information in susceptibility maps. A multilayer convolutional neural network was jointly trained to discriminate the quality of output images. MoG-QSM generates highly accurate susceptibility maps from single orientation phase maps. Quantitative evaluation parameters were compared with recently developed deep learning QSM methods and the results showed MoG-QSM achieves the best performance. Furthermore, a higher intraclass correlation coefficient (ICC) was obtained from MoG-QSM maps of the traveling subjects, demonstrating its potential for future applications, such as large cohorts of multi-center studies. MoG-QSM is also helpful for reliable longitudinal measurement of susceptibility time courses, enabling more precise monitoring for metal ion accumulation in neurodegenerative disorders.
翻訳日:2021-03-21 08:03:10 公開日:2021-01-21
# 自然画像のない事前学習

Pre-training without Natural Images ( http://arxiv.org/abs/2101.08515v1 )

ライセンス: Link先を確認
Hirokatsu Kataoka and Kazushige Okayasu and Asato Matsumoto and Eisuke Yamagata and Ryosuke Yamada and Nakamasa Inoue and Akio Nakamura and Yutaka Satoh(参考訳) 自然画像の理解を補助するために、自然画像なしで事前学習された畳み込みニューラルネットワークを使うことは可能か? この論文は、新しい概念、公式駆動教師あり学習を提案する。 実世界の背景知識に存在する自然法則に基づいたフラクタルを割り当てることで,画像パターンとそのカテゴリラベルを自動的に生成する。 理論的には、事前学習段階で自然画像の代わりに自動生成画像を使用することで、ラベル付き画像の無限規模のデータセットを生成することができる。 自然画像のないデータベースであるフラクタルデータベース(fractaldb)で事前トレーニングされたモデルは、すべての設定で人間の注釈付きデータセットで事前トレーニングされたモデルを上回るとは限らないが、imagenet/placesプリトレーニングモデルの精度を部分的に上回ることができる。 提案するfractaldbによる画像表現は、畳み込み層と注意の可視化においてユニークな特徴を捉えている。

Is it possible to use convolutional neural networks pre-trained without any natural images to assist natural image understanding? The paper proposes a novel concept, Formula-driven Supervised Learning. We automatically generate image patterns and their category labels by assigning fractals, which are based on a natural law existing in the background knowledge of the real world. Theoretically, the use of automatically generated images instead of natural images in the pre-training phase allows us to generate an infinite scale dataset of labeled images. Although the models pre-trained with the proposed Fractal DataBase (FractalDB), a database without natural images, does not necessarily outperform models pre-trained with human annotated datasets at all settings, we are able to partially surpass the accuracy of ImageNet/Places pre-trained models. The image representation with the proposed FractalDB captures a unique feature in the visualization of convolutional layers and attentions.
翻訳日:2021-03-21 08:02:44 公開日:2021-01-21
# MPASNET:ビデオシーンにおける非教師なしディープ・クラウド・セグメンテーションのためのモーション・プレア・アウェア・シームズ・ネットワーク

MPASNET: Motion Prior-Aware Siamese Network for Unsupervised Deep Crowd Segmentation in Video Scenes ( http://arxiv.org/abs/2101.08609v1 )

ライセンス: Link先を確認
Jinhai Yang, Hua Yang(参考訳) 群集のセグメンテーションは,混雑したシーン解析の基礎となる基本課題であり,精巧なピクセルレベルのセグメンテーションマップを得るのが望ましい。 しかし、既存のアプローチでは、深層学習モデルのトレーニングに高密度なピクセルレベルのアノテーションを必要とするか、光学系や粒子流から物理的モデルで粗いセグメンテーションマップを作成するだけでよいため、依然として難しい問題である。 本稿では,クラウドセマンティックセマンティックセグメンテーションのためのMotion Prior-Aware Siamese Network (MPASNET)を提案する。 このモデルはアノテーションの必要性をなくすだけでなく、高品質のセグメンテーションマップをもたらす。 特に,まずフレーム間のコヒーレント運動パターンを解析し,その後,集合粒子に円形領域マージ戦略を適用して擬似ラベルを生成する。 さらに, mpasnet と siamese branch を組み合わせることで, 拡張不変正規化と siamese feature aggregate を実現する。 ベンチマークデータセットによる実験から、我々のモデルはmIoUで12%以上性能が向上していることが示された。

Crowd segmentation is a fundamental task serving as the basis of crowded scene analysis, and it is highly desirable to obtain refined pixel-level segmentation maps. However, it remains a challenging problem, as existing approaches either require dense pixel-level annotations to train deep learning models or merely produce rough segmentation maps from optical or particle flows with physical models. In this paper, we propose the Motion Prior-Aware Siamese Network (MPASNET) for unsupervised crowd semantic segmentation. This model not only eliminates the need for annotation but also yields high-quality segmentation maps. Specially, we first analyze the coherent motion patterns across the frames and then apply a circular region merging strategy on the collective particles to generate pseudo-labels. Moreover, we equip MPASNET with siamese branches for augmentation-invaria nt regularization and siamese feature aggregation. Experiments over benchmark datasets indicate that our model outperforms the state-of-the-arts by more than 12% in terms of mIoU.
翻訳日:2021-03-21 08:02:30 公開日:2021-01-21
# エンドツーエンド・モジュラーシステムと人間によるアラビア語音声認識

Arabic Speech Recognition by End-to-End, Modular Systems and Human ( http://arxiv.org/abs/2101.08454v1 )

ライセンス: Link先を確認
Amir Hussein, Shinji Watanabe, Ahmed Ali(参考訳) 自動音声認識(ASR)の最近の進歩は、人間のトランスクリバーに匹敵する精度の水準に達しており、この機械が人間のパフォーマンスに到達したかどうかの議論につながっている。 以前の研究は、英語とモジュール型隠れマルコフモデルディープニューラルネットワーク(HMM-DNN)システムに焦点を当てていた。 本稿では, エンドツーエンドトランスフォーマーASR, モジュール型HMM-DNN ASR, アラビア語とその方言におけるヒューマン音声認識(HSR)の総合的なベンチマークを行う。 本研究では,本研究の一環として収集した新しいデータセットを用いて,言語学者のパフォーマンスと在来話者のパフォーマンスを評価する。 ASRにとって、エンドツーエンドの作業は12.5%、27.5%、33.8% WERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスのマイルストーンとなった。 以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。

Recent advances in automatic speech recognition (ASR) have achieved accuracy levels comparable to human transcribers, which led researchers to debate if the machine has reached human performance. Previous work focused on the English language and modular hidden Markov model-deep neural network (HMM-DNN) systems. In this paper, we perform a comprehensive benchmarking for end-to-end transformer ASR, modular HMM-DNN ASR, and human speech recognition (HSR) on the Arabic language and its dialects. For the HSR, we evaluate linguist performance and lay-native speaker performance on a new dataset collected as a part of this study. For ASR the end-to-end work led to 12.5%, 27.5%, 33.8% WER; a new performance milestone for the MGB2, MGB3, and MGB5 challenges respectively. Our results suggest that human performance in the Arabic language is still considerably better than the machine with an absolute WER gap of 3.6% on average.
翻訳日:2021-03-21 08:01:55 公開日:2021-01-21
# 雑音型中間スケール量子(NISQ)アルゴリズム

Noisy intermediate-scale quantum (NISQ) algorithms ( http://arxiv.org/abs/2101.08448v1 )

ライセンス: Link先を確認
Kishor Bharti, Alba Cervera-Lierta, Thi Ha Kyaw, Tobias Haug, Sumner Alperin-Lea, Abhinav Anand, Matthias Degroote, Hermanni Heimonen, Jakob S. Kottmann, Tim Menke, Wai-Keong Mok, Sukin Sim, Leong-Chuan Kwek, Al\'an Aspuru-Guzik(参考訳) 整数因数分解や非構造データベース探索のような効率よく解くことができる普遍的フォールトトレラント量子コンピュータは、誤り率の低い数百万の量子ビットと長いコヒーレンス時間を必要とする。 このようなデバイスの実現に向けた実験的進歩は数十年の研究を要する可能性があるが、ノイズの多い中規模量子コンピュータ(NISQ)はすでに存在する。 これらのコンピュータは数百のノイズ量子ビットで構成されている。 誤り訂正されていないキュービットは、限られたコヒーレンス時間で不完全な操作を実行する。 これらのデバイスを用いた量子アドバンテージの探索では、物理学、機械学習、量子化学、組合せ最適化など幅広い分野のアルゴリズムが提案されている。 このようなアルゴリズムの目標は、制限されたリソースを活用して古典的に困難なタスクを実行することである。 本稿では,NISQ計算のパラダイムとアルゴリズムについて概説する。 我々は,これらのアルゴリズムの鍵構造,限界,利点について論じる。 また、NISQデバイスをプログラムし、テストするのに有用な各種ベンチマークおよびソフトウェアツールの概要を概説する。

A universal fault-tolerant quantum computer that can solve efficiently problems such as integer factorization and unstructured database search requires millions of qubits with low error rates and long coherence times. While the experimental advancement towards realizing such devices will potentially take decades of research, noisy intermediate-scale quantum (NISQ) computers already exist. These computers are composed of hundreds of noisy qubits, i.e. qubits that are not error-corrected, and therefore perform imperfect operations in a limited coherence time. In the search for quantum advantage with these devices, algorithms have been proposed for applications in various disciplines spanning physics, machine learning, quantum chemistry and combinatorial optimization. The goal of such algorithms is to leverage the limited available resources to perform classically challenging tasks. In this review, we provide a thorough summary of NISQ computational paradigms and algorithms. We discuss the key structure of these algorithms, their limitations, and advantages. We additionally provide a comprehensive overview of various benchmarking and software tools useful for programming and testing NISQ devices.
翻訳日:2021-03-21 08:01:40 公開日:2021-01-21
# boost then convolve:gradient boostingがグラフニューラルネットワークと出会う

Boost then Convolve: Gradient Boosting Meets Graph Neural Networks ( http://arxiv.org/abs/2101.08543v1 )

ライセンス: Link先を確認
Sergei Ivanov, Liudmila Prokhorenkova(参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフ表現学習タスクで成功した強力なモデルである。 一方、GBDTは不均一な表データに直面する場合、他の機械学習手法よりも優れていることが多い。 しかし、グラフノード機能を持つグラフには、どのようなアプローチを使うべきか? 従来のGNNモデルは、均質なスパース特徴を持つネットワークに主に焦点を合わせており、示すように、不均一な設定では準最適である。 本稿では,GBDTモデルが不均一な特徴を扱うのに対して,GNNはグラフ構造を考慮し,GBDTとGNNを併用して両世界を最大限に活用する新しいアーキテクチャを提案する。 我々のモデルは、GNNの勾配更新に新しい木を適合させることにより、エンドツーエンドの最適化の恩恵を受ける。 主要なGBDTモデルとGNNモデルとの比較により,グラフ特徴を持つ多種多様グラフの性能が顕著に向上したことを示す。 コードはhttps://github.com/n d7141/bgnn.com/。

Graph neural networks (GNNs) are powerful models that have been successful in various graph representation learning tasks. Whereas gradient boosted decision trees (GBDT) often outperform other machine learning methods when faced with heterogeneous tabular data. But what approach should be used for graphs with tabular node features? Previous GNN models have mostly focused on networks with homogeneous sparse features and, as we show, are suboptimal in the heterogeneous setting. In this work, we propose a novel architecture that trains GBDT and GNN jointly to get the best of both worlds: the GBDT model deals with heterogeneous features, while GNN accounts for the graph structure. Our model benefits from end-to-end optimization by allowing new trees to fit the gradient updates of GNN. With an extensive experimental comparison to the leading GBDT and GNN models, we demonstrate a significant increase in performance on a variety of graphs with tabular features. The code is available: https://github.com/n d7141/bgnn.
翻訳日:2021-03-21 08:00:58 公開日:2021-01-21
# palmtree: 命令埋め込みのためのアセンブリ言語モデルを学ぶ

PalmTree: Learning an Assembly Language Model for Instruction Embedding ( http://arxiv.org/abs/2103.03809v1 )

ライセンス: Link先を確認
Xuezixiang Li, Qu Yu, Heng Yin(参考訳) ディープラーニングは、関数境界検出、バイナリコード検索、関数プロトタイプ推論、値セット分析など、多数のバイナリ分析タスクにおいて、その強みを実証している。 二元分析タスクにディープラーニングを適用する場合、ニューラルネットワークモデルにどの入力を入力すべきかを決定する必要があります。 具体的には、固定長ベクトルで命令を表現する方法に答える必要がある。 命令表現を自動的に学習するというアイデアは興味深いが、既存のスキームは分解のユニークな特徴を捉えていない。 これらのスキームは複雑なインストラクション構造を無視し、主にコンテキスト情報がノイズの多い制御フローに依存し、コンパイラの最適化の影響を受けやすい。 本稿では,大規模非ラベルバイナリコーパス上で自己教師あり学習を行うことで汎用命令埋め込みを生成するために,palmtreeと呼ばれるアセンブリ言語モデルを事前学習することを提案する。 PalmTreeは3つの事前訓練タスクを使用して、アセンブリ言語の様々な特性をキャプチャする。 これらのトレーニングタスクは既存のスキームの問題を克服し、高品質な表現を生成するのに役立つ。 内在的および外在的評価を行い、PalmTreeと他の命令埋め込み方式との比較を行う。 PalmTreeは固有のメトリクスに対して最高のパフォーマンスを持ち、下流タスクの他の命令埋め込みスキームよりも優れています。

Deep learning has demonstrated its strengths in numerous binary analysis tasks, including function boundary detection, binary code search, function prototype inference, value set analysis, etc. When applying deep learning to binary analysis tasks, we need to decide what input should be fed into the neural network model. More specifically, we need to answer how to represent an instruction in a fixed-length vector. The idea of automatically learning instruction representations is intriguing, however the existing schemes fail to capture the unique characteristics of disassembly. These schemes ignore the complex intra-instruction structures and mainly rely on control flow in which the contextual information is noisy and can be influenced by compiler optimizations. In this paper, we propose to pre-train an assembly language model called PalmTree for generating general-purpose instruction embeddings by conducting self-supervised training on large-scale unlabeled binary corpora. PalmTree utilizes three pre-training tasks to capture various characteristics of assembly language. These training tasks overcome the problems in existing schemes, thus can help to generate high-quality representations. We conduct both intrinsic and extrinsic evaluations, and compare PalmTree with other instruction embedding schemes. PalmTree has the best performance for intrinsic metrics, and outperforms the other instruction embedding schemes for all downstream tasks.
翻訳日:2021-03-21 08:00:42 公開日:2021-01-21
# 不定値非パラメトリック最大度推定におけるブースティング

Boosting in Univariate Nonparametric Maximum Likelihood Estimation ( http://arxiv.org/abs/2101.08505v1 )

ライセンス: Link先を確認
YunPeng Li, ZhaoHui Ye(参考訳) 非パラメトリック最大推定は、できるだけ少ない仮定で未知の密度分布を推定することを目的としている。 非パラメトリックデータフィッティングにおけるオーバーパラメータ化を軽減するため、スムーズな仮定は通常、推定にマージされる。 本稿では,単変量の場合の非パラメトリック推定に新しいブースティング法を提案する。 非パラメトリックログ類似性の2次近似によりブースティングアルゴリズムを推定する。 ガウスカーネルと滑らかなスプラインは、滑らかな仮定を満たすために強化の弱い学習者として選択される。 シミュレーションと実データ実験により提案手法の有効性が示された。

Nonparametric maximum likelihood estimation is intended to infer the unknown density distribution while making as few assumptions as possible. To alleviate the over parameterization in nonparametric data fitting, smoothing assumptions are usually merged into the estimation. In this paper a novel boosting-based method is introduced to the nonparametric estimation in univariate cases. We deduce the boosting algorithm by the second-order approximation of nonparametric log-likelihood. Gaussian kernel and smooth spline are chosen as weak learners in boosting to satisfy the smoothing assumptions. Simulations and real data experiments demonstrate the efficacy of the proposed approach.
翻訳日:2021-03-21 08:00:24 公開日:2021-01-21
# TDA-Net:胸部X線画像におけるウイルス検出のための持続的ホモロジーと深層学習の融合

TDA-Net: Fusion of Persistent Homology and Deep Learning Features for COVID-19 Detection in Chest X-Ray Images ( http://arxiv.org/abs/2101.08398v1 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Fawwaz Batayneh(参考訳) トポロジカルデータ分析(TDA)は、データセットの構造を抽出し比較するための堅牢なツールとして最近登場した。 TDAは接続されたコンポーネントやホールなどのデータの特徴を特定し、これらの特徴に定量的な尺度を割り当てる。 いくつかの研究では、tdaツールによって抽出されたトポロジカルな特徴は、データに関するユニークな情報を提供し、新しい洞察を発見し、どの特徴が結果とより関連があるかを決定すると報告されている。 一方、学習パターンや関係性におけるディープニューラルネットワークの圧倒的な成功は、膨大なデータアプリケーション、特に画像で証明されている。 両強力なツールの特徴を捉えるために,モデル一般化性と精度を高めるために,トポロジと深部の特徴を融合した新しいアンサンブルネットワークである「textit{TDA-Net}」を提案する。 提案する \textit{tda-net} をcxr画像からcovid-19の自動検出を行う重要なアプリケーションに適用する。 実験の結果,提案したネットワークは優れた性能を示し,本手法の適用性が示唆された。

Topological Data Analysis (TDA) has emerged recently as a robust tool to extract and compare the structure of datasets. TDA identifies features in data such as connected components and holes and assigns a quantitative measure to these features. Several studies reported that topological features extracted by TDA tools provide unique information about the data, discover new insights, and determine which feature is more related to the outcome. On the other hand, the overwhelming success of deep neural networks in learning patterns and relationships has been proven on a vast array of data applications, images in particular. To capture the characteristics of both powerful tools, we propose \textit{TDA-Net}, a novel ensemble network that fuses topological and deep features for the purpose of enhancing model generalizability and accuracy. We apply the proposed \textit{TDA-Net} to a critical application, which is the automated detection of COVID-19 from CXR images. The experimental results showed that the proposed network achieved excellent performance and suggests the applicability of our method in practice.
翻訳日:2021-03-21 08:00:16 公開日:2021-01-21
# U-Netによる情報フローの解析

Analysis of Information Flow Through U-Nets ( http://arxiv.org/abs/2101.08427v1 )

ライセンス: Link先を確認
Suemin Lee and Ivan V. Baji\'c(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、医用画像処理と分析においてユビキタスである。 U-Netは様々な画像分割タスクで非常に人気がある。 しかし、これらのネットワークを通して情報がどのように流れるのか、そして彼らが実際に提案されているタスクのために適切に設計されているかどうかについてはほとんど知られていない。 本稿では,U-Netを介する情報フローの洞察を得るために,情報理論ツールを用いる。 特に,入力/出力層と中間層の間の相互情報がどのように,U-Netの様々な部分を通過する情報の流れを理解し,そのアーキテクチャ効率を評価し,より効率的な設計を提案するのに役立つかを示す。

Deep Neural Networks (DNNs) have become ubiquitous in medical image processing and analysis. Among them, U-Nets are very popular in various image segmentation tasks. Yet, little is known about how information flows through these networks and whether they are indeed properly designed for the tasks they are being proposed for. In this paper, we employ information-theoreti c tools in order to gain insight into information flow through U-Nets. In particular, we show how mutual information between input/output and an intermediate layer can be a useful tool to understand information flow through various portions of a U-Net, assess its architectural efficiency, and even propose more efficient designs.
翻訳日:2021-03-21 07:59:56 公開日:2021-01-21
# 深部生成モデルによる正規化--解析的視点から

Regularization via deep generative models: an analysis point of view ( http://arxiv.org/abs/2101.08661v1 )

ライセンス: Link先を確認
Thomas Oberlin and Mathieu Verm(参考訳) 本稿では, イメージングにおける逆問題(例えば, デブロアリングやインペインティング)を, 深部生成ニューラルネットワークを用いて正則化する新しい手法を提案する。 エンド・ツー・エンドのモデルと比較すると、生成モデルがデータに適合するとすぐに同じネットワークが様々な問題や実験条件に使用できるため、このようなアプローチは特に興味深いように見える。 以前の研究では、潜在ベクトル上で推定を行い、その後デコーダを介して解を得る合成フレームワークを使用するように提案されている。 そこで我々は,画像自体を直接最適化し,潜伏ベクトルをペナルティ化する解析式を提案する。 インペイント,デブロアリング,超解像実験を行ない,そのような定式化の関心を述べる。 多くの場合、我々の技術はパフォーマンスの明確な改善を実現し、特に初期化に関してより堅牢であるように思われる。

This paper proposes a new way of regularizing an inverse problem in imaging (e.g., deblurring or inpainting) by means of a deep generative neural network. Compared to end-to-end models, such approaches seem particularly interesting since the same network can be used for many different problems and experimental conditions, as soon as the generative model is suited to the data. Previous works proposed to use a synthesis framework, where the estimation is performed on the latent vector, the solution being obtained afterwards via the decoder. Instead, we propose an analysis formulation where we directly optimize the image itself and penalize the latent vector. We illustrate the interest of such a formulation by running experiments of inpainting, deblurring and super-resolution. In many cases our technique achieves a clear improvement of the performance and seems to be more robust, in particular with respect to initialization.
翻訳日:2021-03-21 07:59:47 公開日:2021-01-21
# Copycat CNN: ランダムな非ラベルデータはブラックボックスモデルからのステルス知識に十分か?

Copycat CNN: Are Random Non-Labeled Data Enough to Steal Knowledge from Black-box Models? ( http://arxiv.org/abs/2101.08717v1 )

ライセンス: Link先を確認
Jacson Rodrigues Correia-Silva, Rodrigo F. Berriel, Claudine Badue, Alberto F. De Souza, Thiago Oliveira-Santos(参考訳) 畳み込みニューラルネットワークは、企業がデータ取得とアノテーションを含む高価なプロセスを必要とするニューラルネットワーク製品を開発することを可能にするために、最近成功している。 これらのコストで、企業はモデルのコピーに対するセキュリティを心配し、APIによってアクセスされるブラックボックスとして提供します。 それでも、ブラックボックスモデルでさえいくつかの脆弱性があると主張する。 予備研究として,自然ランダム画像で検索することでブラックボックスモデルをコピーする,シンプルかつパワフルな手法を提案する。 本研究は,コピーキャット法を統合し,拡張する: (i) いくつかの制約を放棄し, (ii) 問題のある広範囲な評価を行い, (iii) モデルが異なるアーキテクチャ間でコピーされ, (iv) コピーキャットの挙動を見てより深い解析を行う。 その結果、自然ランダム画像は複数の問題に対してコピーキャットを生成するのに有効であることがわかった。

Convolutional neural networks have been successful lately enabling companies to develop neural-based products, which demand an expensive process, involving data acquisition and annotation; and model generation, usually requiring experts. With all these costs, companies are concerned about the security of their models against copies and deliver them as black-boxes accessed by APIs. Nonetheless, we argue that even black-box models still have some vulnerabilities. In a preliminary work, we presented a simple, yet powerful, method to copy black-box models by querying them with natural random images. In this work, we consolidate and extend the copycat method: (i) some constraints are waived; (ii) an extensive evaluation with several problems is performed; (iii) models are copied between different architectures; and, (iv) a deeper analysis is performed by looking at the copycat behavior. Results show that natural random images are effective to generate copycats for several problems.
翻訳日:2021-03-21 07:59:33 公開日:2021-01-21
# DataLoc+: ルームレベル屋内ローカライゼーションにおける機械学習のためのデータ拡張手法

DataLoc+: A Data Augmentation Technique for Machine Learning in Room-Level Indoor Localization ( http://arxiv.org/abs/2101.10833v1 )

ライセンス: Link先を確認
Amr E Hilal, Ismail Arai, Samy El-Tawab(参考訳) 屋内のローカライゼーションは過去20年間、ホットな研究領域だった。 登場以来、新しいテクノロジーを着実に活用して精度を高めてきたが、機械学習はその中心にある。 指紋に基づく屋内位置推定では、位置情報が与えられた位置を予測するために使用される無線地図を置き換えたり、エミュレートするために機械学習がますます使われている。 機械学習モデルの予測品質は、トレーニングに使用されるデータの量と品質に依存するため、モデルがどのようにトレーニングされたかに大きく依存する。 データ拡張は、より多くのトレーニングデータを合成してトレーニングモデルの質を向上させるために使用され、異なる角度からのトレーニングデータの欠如に対処する文献でいくつかのアプローチが用いられた。 本稿では,シンプルなアルゴリズムで異なるアプローチを組み合わせた室内位置推定のためのデータ拡張手法であるDataLoc+を提案する。 本手法は,病院で実施したフィールド実験から収集したデータを用いて,典型的な直接スナップショットアプローチと比較することで評価する。 評価の結果,提案手法を用いて訓練したモデルの方が精度が高いことがわかった。 また,この手法は,高い精度を維持しつつ,限られたデータセットを用いてより大きな問題に適応することを示す。

Indoor localization has been a hot area of research over the past two decades. Since its advent, it has been steadily utilizing the emerging technologies to improve accuracy, and machine learning has been at the heart of that. Machine learning has been increasingly used in fingerprint-based indoor localization to replace or emulate the radio map that is used to predict locations given a location signature. The prediction quality of a machine learning model primarily depends on how well the model was trained, which relies on the amount and quality of data used to train it. Data augmentation has been used to improve quality of the trained models by synthetically producing more training data, and several approaches were used in the literature that tackles the problem of lack of training data from different angles. In this paper, we propose DataLoc+, a data augmentation technique for room-level indoor localization that combines different approaches in a simple algorithm. We evaluate the technique by comparing it to the typical direct snapshot approach using data collected from a field experiment conducted in a hospital. Our evaluation shows that the model trained using the proposed technique achieves higher accuracy. We also show that the technique adapts to larger problems using a limited dataset while maintaining high accuracy.
翻訳日:2021-03-21 07:58:51 公開日:2021-01-21
# hmcは、データマイニングのアルゴリズムに適用された関数解析の例である。 l^p$ における収束

HMC, an example of Functional Analysis applied to Algorithms in Data Mining. The convergence in $L^p$ ( http://arxiv.org/abs/2101.08688v1 )

ライセンス: Link先を確認
Soumyadip Ghosh, Yingdong Lu, Tomasz Nowicki(参考訳) 本稿では,ハミルトニアンモンテカルロアルゴリズムの関数解析による収束の証明を示す。 このアルゴリズムを密度関数上の作用素として表現し、この作用素の反復の収束を$L^p$, $1<p<\infty$, and strong convergence for $2\le p<\infty$とする。

We present a proof of convergence of the Hamiltonian Monte Carlo algorithm in terms of Functional Analysis. We represent the algorithm as an operator on the density functions, and prove the convergence of iterations of this operator in $L^p$, for $1<p<\infty$, and strong convergence for $2\le p<\infty$.
翻訳日:2021-03-21 07:58:33 公開日:2021-01-21
# 文書検索型チャットボットのコンテンツ選択ネットワーク

Content Selection Network for Document-grounded Retrieval-based Chatbots ( http://arxiv.org/abs/2101.08426v1 )

ライセンス: Link先を確認
Yutao Zhu, Jian-Yun Nie, Kun Zhou, Pan Du, Zhicheng Dou(参考訳) 文書に人間と機械の会話を接地することは、検索ベースのチャットボットのパフォーマンスを改善する効果的な方法である。 しかし、文書コンテンツの一部だけが、ラウンドの適切な応答を選択するのに役立つかもしれない。 したがって、現在の会話コンテキストに関連する文書コンテンツの一部を選択することが重要である。 本稿では,関連文書の明示的な選択を行い,無関係部分をフィルタリングする文書コンテンツ選択ネットワーク(csn)を提案する。 本研究では,2つの公開文書グラウンド会話データセットを用いて,CSNが関連文書の内容を会話コンテキストに効果的に選択できることを示す。 私たちのコードとデータセットはhttps://github.com/d aod/csnで利用可能です。

Grounding human-machine conversation in a document is an effective way to improve the performance of retrieval-based chatbots. However, only a part of the document content may be relevant to help select the appropriate response at a round. It is thus crucial to select the part of document content relevant to the current conversation context. In this paper, we propose a document content selection network (CSN) to perform explicit selection of relevant document contents, and filter out the irrelevant parts. We show in experiments on two public document-grounded conversation datasets that CSN can effectively help select the relevant document contents to the conversation context, and it produces better results than the state-of-the-art approaches. Our code and datasets are available at https://github.com/D aoD/CSN.
翻訳日:2021-03-21 07:58:10 公開日:2021-01-21
# 単語感覚の曖昧化過程におけるマルチセンス埋め込み

Multi-sense embeddings through a word sense disambiguation process ( http://arxiv.org/abs/2101.08700v1 )

ライセンス: Link先を確認
Terry Ruas, William Grosky, Aiko Aizawa(参考訳) 自然言語理解はここ数年で出版物が増えており、特に大量のデータから意味的関係を捉え、表現できることが証明され、強固な単語埋め込みモデルが顕著になった後である。 それにもかかわらず、伝統的なモデルはポリセミーやホモニミーのような言語学の本質的な問題において不足することが多い。 自然言語をコアとして使用するすべてのエキスパートシステムは、テキストの弱い意味表現に影響され、不正確な決定に基づく不正確な結果をもたらす。 そこで本研究では,文脈の意味的効果を考慮し,各単語を特定の意味で曖昧化・注釈化する,最も適切な意味アノテーション(mssa)と呼ばれる新しい手法を提案する。 提案手法は, 意味表現のシナリオに3つの寄与をもたらす: (i) 単語を知覚によって曖昧にし, 注釈づけする教師なし手法, (ii) 従来の単語埋め込みアルゴリズムに拡張可能なマルチセンス埋め込みモデル, (iii) モデルの再使用と表現の洗練を可能にする再帰的方法論。 我々は,単語類似性タスクのための6つの異なるベンチマークでアプローチを検証し,我々のアプローチが最先端の結果を生成し,さらに複雑な最先端システムより優れていることを示す。

Natural Language Understanding has seen an increasing number of publications in the last few years, especially after robust word embeddings models became prominent, when they proved themselves able to capture and represent semantic relationships from massive amounts of data. Nevertheless, traditional models often fall short in intrinsic issues of linguistics, such as polysemy and homonymy. Any expert system that makes use of natural language in its core, can be affected by a weak semantic representation of text, resulting in inaccurate outcomes based on poor decisions. To mitigate such issues, we propose a novel approach called Most Suitable Sense Annotation (MSSA), that disambiguates and annotates each word by its specific sense, considering the semantic effects of its context. Our approach brings three main contributions to the semantic representation scenario: (i) an unsupervised technique that disambiguates and annotates words by their senses, (ii) a multi-sense embeddings model that can be extended to any traditional word embeddings algorithm, and (iii) a recurrent methodology that allows our models to be re-used and their representations refined. We test our approach on six different benchmarks for the word similarity task, showing that our approach can produce state-of-the-art results and outperforms several more complex state-of-the-art systems.
翻訳日:2021-03-21 07:57:58 公開日:2021-01-21
# 説明可能性とモデル選択のためのセマンティックセグメンテーション評価の再考

Rethinking Semantic Segmentation Evaluation for Explainability and Model Selection ( http://arxiv.org/abs/2101.08418v1 )

ライセンス: Link先を確認
Yuxiang Zhang, Sachin Mehta, Anat Caspi(参考訳) セマンティックセグメンテーションは、画像の領域全体のコヒーレントなクラスラベルを堅牢に予測することを目的としている。 これは実世界のアプリケーション(例えば自律ナビゲーション)を動かすシーン理解タスクである。 歩行者環境の自動意味理解のための画像の使用は、道路環境におけるアクセシビリティ機能のリモートマッピングを提供する。 このアプリケーション(およびそのように)は、地理的対象の詳細な幾何学的情報を必要とする。 セマンティクスセグメンテーションは、単一のエンティティと同じクラスの連続した領域をマップするため、このタスクの前提条件である。 重要なことに、私たちのような意味的セグメンテーションの使用はピクセル単位の成果ではない。しかし、それらの定量的評価指標(例えば、結合の平均交点)のほとんどは、セグメンテーションモデルのオーバーセグメンテーション特性とアンダーセグメンテーション特性の強調に失敗している。 本稿では,地域別オーバー・アンダー・セグメンテーションを評価するための新しい指標を提案する。 分析して他のメトリクスと比較し、実世界のアプリケーションにおけるセマンティックセグメンテーションモデルのパフォーマンスをより説明しやすくなることを示す。

Semantic segmentation aims to robustly predict coherent class labels for entire regions of an image. It is a scene understanding task that powers real-world applications (e.g., autonomous navigation). One important application, the use of imagery for automated semantic understanding of pedestrian environments, provides remote mapping of accessibility features in street environments. This application (and others like it) require detailed geometric information of geographical objects. Semantic segmentation is a prerequisite for this task since it maps contiguous regions of the same class as single entities. Importantly, semantic segmentation uses like ours are not pixel-wise outcomes; however, most of their quantitative evaluation metrics (e.g., mean Intersection Over Union) are based on pixel-wise similarities to a ground-truth, which fails to emphasize over- and under-segmentation properties of a segmentation model. Here, we introduce a new metric to assess region-based over- and under-segmentation. We analyze and compare it to other metrics, demonstrating that the use of our metric lends greater explainability to semantic segmentation model performance in real-world applications.
翻訳日:2021-03-21 07:57:05 公開日:2021-01-21
# ビデオ要約:様々な技法の研究

Video Summarization: Study of various techniques ( http://arxiv.org/abs/2101.08434v1 )

ライセンス: Link先を確認
Ravi Raj, Varad Bhatnagar, Aman Kumar Singh, Sneha Mane and Nilima Walde(参考訳) 映像の要約に使用できる様々な技術の比較研究 ビデオからビデオへの変換は、それぞれのアーキテクチャ、結果、強み、欠点とともに提供される。 いずれのアプローチでも、長いビデオは短いビデオに変換され、オリジナルのビデオにあるすべての重要なイベントをキャプチャすることを目的としている。 「重要イベント」の定義は、スポーツ映像やドキュメンタリーなど、重要と分類される異なるイベントがある場合など、文脈によって異なる場合がある。

A comparative study of various techniques which can be used for summarization of Videos i.e. Video to Video conversion is presented along with respective architecture, results, strengths and shortcomings. In all approaches, a lengthy video is converted into a shorter video which aims to capture all important events that are present in the original video. The definition of 'important event' may vary according to the context, such as a sports video and a documentary may have different events which are classified as important.
翻訳日:2021-03-21 07:56:43 公開日:2021-01-21
# FWB-Net:Front White Balance Network for Color Shift Correction in Single Image Dehazing via atmosphere light Estimation

FWB-Net:Front White Balance Network for Color Shift Correction in Single Image Dehazing via Atmospheric Light Estimation ( http://arxiv.org/abs/2101.08465v1 )

ライセンス: Link先を確認
Cong Wang, Yan Huang, Yuexian Zou, Yong Xu(参考訳) 近年,大気散乱モデル(ASM)に基づく単一画像デハージングディープモデルが顕著な成果を上げている。 しかし、これらのモデルのデヘイジングアウトプットはカラーシフトに苦しむ。 ASMモデルを解析すると、大気光因子(ALF)がスカラーとして設定され、ALFが全画像に対して一定であることを示している。 しかし、実世界の画像の場合、照明は全体像に均一に分布せず、モデルミスマッチをもたらし、おそらくはASMを用いた深層モデルのカラーシフトをもたらす。 このことを念頭に置いて、まず、複雑な照明条件下で撮影されたヘイズ画像の画像モデリングを改善するために、新しい非均一大気散乱モデル(NH-ASM)を提案する。 第2に,新しいu-netベースのフロントホワイトバランスモジュール(fwb-module)は,大気光量推定による消光結果を生成する前に色シフトを補正するように特別に設計されている。 第3に,色シフトにペナルティを課すfwbモジュールのトレーニングにおいて,新たなfwbロスが革新的に開発された。 最後に、nh-asmとフロントホワイトバランス技術に基づき、fwb-netと呼ばれるエンドツーエンドのcnnベースのカラーシフト抑制デヘイジングネットワークを開発した。 提案するFWB-Netの有効性と優位性は,合成画像と実画像の両方で実証された。

In recent years, single image dehazing deep models based on Atmospheric Scattering Model (ASM) have achieved remarkable results. But the dehazing outputs of those models suffer from color shift. Analyzing the ASM model shows that the atmospheric light factor (ALF) is set as a scalar which indicates ALF is constant for whole image. However, for images taken in real-world, the illumination is not uniformly distributed over whole image which brings model mismatch and possibly results in color shift of the deep models using ASM. Bearing this in mind, in this study, first, a new non-homogeneous atmospheric scattering model (NH-ASM) is proposed for improving image modeling of hazy images taken under complex illumination conditions. Second, a new U-Net based front white balance module (FWB-Module) is dedicatedly designed to correct color shift before generating dehazing result via atmospheric light estimation. Third, a new FWB loss is innovatively developed for training FWB-Module, which imposes penalty on color shift. In the end, based on NH-ASM and front white balance technology, an end-to-end CNN-based color-shift-restrain ing dehazing network is developed, termed as FWB-Net. Experimental results demonstrate the effectiveness and superiority of our proposed FWB-Net for dehazing on both synthetic and real-world images.
翻訳日:2021-03-21 07:56:37 公開日:2021-01-21
# 2台の校正カメラ間の相対値の高速かつロバストな評価

Fast and Robust Certifiable Estimation of the Relative Pose Between Two Calibrated Cameras ( http://arxiv.org/abs/2101.08524v1 )

ライセンス: Link先を確認
Mercedes Garcia-Salguero and Javier Gonzalez-Jimenez(参考訳) カメラの相対ポーズ問題(RPp)は、2台の中央カメラと校正カメラのペアワイズ特徴対応を考慮し、相対配向と翻訳(目的)を推定することを目的としている。 RPp は二乗正規化エピポーラ誤差が正規化必須行列の集合上で最小化される最適化問題として記述される。 本研究では, rppインスタンスに対する解が大域的最適かどうかを検証できる双対性理論の結果に基づいて, 効率的かつ完全なアルゴリズムを提案する。 具体的には,検出された最適解の比率を増加させる証明器群を提案する。 この証明器のセットは、rppの初期推定が与えられたとき、3次元回転と2次元球面の積空間上で反復的に精製し、解の最適性を証明する効率的な本質行列推定パイプラインに組み込まれている。 我々は、高速な証明可能なパイプラインを、高次非凸性とロバスト関数とラインプロセスの間のブラックランガラジャン双対性を組み合わせた堅牢なフレームワークに統合する。 この組み合わせは、RANSACに基づくアプローチによって提供される外れ値に対する堅牢性を上回ることが文献で示されている。 提案手法が高速でロバストなポーズ推定を実現することを, 合成および実データに関する広範な実験により実証した。 提案手法を精度と計算コストの両面で比較し, RPpのゴールドスタンダード手法である2ビューバンドル調整の出力を改善することを示す。 コードを公開している。 \url{https://github.com/m ergarsal/FastCertRel Pose.git}。

The Relative Pose problem (RPp) for cameras aims to estimate the relative orientation and translation (pose) given a set of pair-wise feature correspondences between two central and calibrated cameras. The RPp is stated as an optimization problem where the squared, normalized epipolar error is minimized over the set of normalized essential matrices. In this work, we contribute an efficient and complete algorithm based on results from duality theory that is able to certify whether the solution to a RPp instance is the global optimum. Specifically, we present a family of certifiers that is shown to increase the ratio of detected optimal solutions. This set of certifiers is incorporated into an efficient essential matrix estimation pipeline that, given any initial guess for the RPp, refines it iteratively on the product space of 3D rotations and 2-sphere and thereupon, certifies the optimality of the solution. We integrate our fast certifiable pipeline into a robust framework that combines Graduated Non-convexity and the Black-Rangarajan duality between robust functions and line processes. This combination has been shown in the literature to outperform the robustness to outliers provided by approaches based on RANSAC. We proved through extensive experiments on synthetic and real data that the proposed framework provides a fast and robust relative pose estimation. We compare our proposal against the state-of-the-art methods on both accuracy and computational cost, and show that our estimations improve the output of the gold-standard approach for the RPp, the 2-view Bundle-Adjustment. We make the code publicly available \url{https://github.com/m ergarsal/FastCertRel Pose.git}.
翻訳日:2021-03-21 07:55:24 公開日:2021-01-21
# 弱教師環境におけるマルチラベルアクタ-アクション関係の発見

Discovering Multi-Label Actor-Action Association in a Weakly Supervised Setting ( http://arxiv.org/abs/2101.08567v1 )

ライセンス: Link先を確認
Sovan Biswas and Juergen Gall(参考訳) 時空間的行動検出のためのデータの収集と注釈は非常に高価であるため、少ない監督でアプローチを学ぶ必要がある。 弱い教師付きアプローチはバウンディングボックスアノテーションを一切必要とせず、ビデオクリップでアクションが発生するかどうかを示すラベルからのみトレーニングすることができる。 しかし、現在のアプローチでは、複数のアクションを同時に実行するビデオに複数の人がいる場合、そのケースに対処できない。 この作業では、この非常に困難なタスクに初めて対処します。 本稿では,マルチインスタンス学習とマルチラベル学習に基づくベースラインを提案する。 さらに,個々のアクションクラスをモデル化する代わりに,アクションの集合を表現として利用する新しいアプローチを提案する。 計算により、動作クラス数が増加するにつれて、全パワーセットの確率が失われるので、各検出された人物に、その割り当てがビデオクリップのアノテーションと一致するという制約の下で、アクションセットを割り当てる。 提案手法はMIMLベースラインを上回り,完全教師付きアプローチと競合する,挑戦的なAVAデータセットに対する提案手法の評価を行った。

Since collecting and annotating data for spatio-temporal action detection is very expensive, there is a need to learn approaches with less supervision. Weakly supervised approaches do not require any bounding box annotations and can be trained only from labels that indicate whether an action occurs in a video clip. Current approaches, however, cannot handle the case when there are multiple persons in a video that perform multiple actions at the same time. In this work, we address this very challenging task for the first time. We propose a baseline based on multi-instance and multi-label learning. Furthermore, we propose a novel approach that uses sets of actions as representation instead of modeling individual action classes. Since computing, the probabilities for the full power set becomes intractable as the number of action classes increases, we assign an action set to each detected person under the constraint that the assignment is consistent with the annotation of the video clip. We evaluate the proposed approach on the challenging AVA dataset where the proposed approach outperforms the MIML baseline and is competitive to fully supervised approaches.
翻訳日:2021-03-21 07:54:55 公開日:2021-01-21
# マルチアクティビティの動作検出のための階層グラフ-RNN

Hierarchical Graph-RNNs for Action Detection of Multiple Activities ( http://arxiv.org/abs/2101.08581v1 )

ライセンス: Link先を確認
Sovan Biswas, Yaser Souri and Juergen Gall(参考訳) 本稿では,複数の人物が同時に複数の活動を行うことのできる映像フレーム内のアクティビティを空間的に局所化する手法を提案する。 本手法は,検出者の行動の時間的文脈と関係を考慮に入れたものである。 時間的コンテキストは時間的リカレントニューラルネットワーク(RNN)によってモデル化されるが、アクションの関係はグラフRNNによってモデル化される。 どちらのネットワークも一緒にトレーニングされており、提案手法はAVAデータセットのアート結果の状態を達成している。

In this paper, we propose an approach that spatially localizes the activities in a video frame where each person can perform multiple activities at the same time. Our approach takes the temporal scene context as well as the relations of the actions of detected persons into account. While the temporal context is modeled by a temporal recurrent neural network (RNN), the relations of the actions are modeled by a graph RNN. Both networks are trained together and the proposed approach achieves state of the art results on the AVA dataset.
翻訳日:2021-03-21 07:54:38 公開日:2021-01-21
# 画像間翻訳:方法と応用

Image-to-Image Translation: Methods and Applications ( http://arxiv.org/abs/2101.08629v1 )

ライセンス: Link先を確認
Yingxue Pang, Jianxin Lin, Tao Qin, and Zhibo Chen(参考訳) image-to-image translation (i2i) は、コンテンツ表現を保持しながら、ソースドメインからターゲットドメインにイメージを転送することを目的としている。 I2Iは画像合成、セグメンテーション、スタイル転送、復元、ポーズ推定といった多くのコンピュータビジョンや画像処理問題に幅広く応用されているため、近年は注目され、大きな進歩を遂げている。 本稿では,近年開発されたI2Iについて概説する。 我々は,既存のi2i作業の重要な技術を分析し,コミュニティが行った主な進歩を明らかにする。 また、I2Iが研究・産業コミュニティに与える影響について詳しく述べ、関連分野の課題を指摘したい。

Image-to-image translation (I2I) aims to transfer images from a source domain to a target domain while preserving the content representations. I2I has drawn increasing attention and made tremendous progress in recent years because of its wide range of applications in many computer vision and image processing problems, such as image synthesis, segmentation, style transfer, restoration, and pose estimation. In this paper, we provide an overview of the I2I works developed in recent years. We will analyze the key techniques of the existing I2I works and clarify the main progress the community has made. Additionally, we will elaborate on the effect of I2I on the research and industry community and point out remaining challenges in related fields.
翻訳日:2021-03-21 07:54:29 公開日:2021-01-21
# DAF:アニメキャラクタ認識のためのクラウドソース、大規模、長期のデータセット

DAF:re: A Challenging, Crowd-Sourced, Large-Scale, Long-Tailed Dataset For Anime Character Recognition ( http://arxiv.org/abs/2101.08674v1 )

ライセンス: Link先を確認
Edwin Arkel Rios, Wen-Huang Cheng, Bo-Cheng Lai(参考訳) 本研究では,アニメキャラクタ認識の課題に挑戦する。 アニメ(アニメ)とは、日本国内で制作されたアニメーションをいう。 この目的のために、DAF:re(DanbooruAnime Faces:revamped)という、3000以上のクラスに約500Kの画像が散在する大規模でクラウドソースのロングテールデータセットを提示する。 さらに、CNNベースのResNetsや自己注意に基づく視覚変換器(ViT)など、さまざまな分類モデルを用いて、DAF:reと類似したデータセットの実験を行う。 以上の結果から,VTモデルのアップストリーム事前学習用データセットとは大きく異なる領域データセットに対する一般化と伝達学習特性について,バッチや画像サイズの影響など,新たな知見が得られた。 さらに、データセット、ソースコード、事前トレーニングされたチェックポイントと結果も、大規模なアニメ文字認識のための最初のエンドツーエンドフレームワークであるAnimesionとして共有しています。

In this work we tackle the challenging problem of anime character recognition. Anime, referring to animation produced within Japan and work derived or inspired from it. For this purpose we present DAF:re (DanbooruAnimeFaces: revamped), a large-scale, crowd-sourced, long-tailed dataset with almost 500 K images spread across more than 3000 classes. Additionally, we conduct experiments on DAF:re and similar datasets using a variety of classification models, including CNN based ResNets and self-attention based Vision Transformer (ViT). Our results give new insights into the generalization and transfer learning properties of ViT models on substantially different domain datasets from those used for the upstream pre-training, including the influence of batch and image size in their training. Additionally, we share our dataset, source-code, pre-trained checkpoints and results, as Animesion, the first end-to-end framework for large-scale anime character recognition: https://github.com/a rkel23/animesion
翻訳日:2021-03-21 07:54:18 公開日:2021-01-21
# SSTVOS:ビデオオブジェクトセグメンテーションのためのスパース時空間変換器

SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation ( http://arxiv.org/abs/2101.08833v1 )

ライセンス: Link先を確認
Brendan Duke and Abdalla Ahmed and Christian Wolf and Parham Aarabi and Graham W. Taylor(参考訳) 本稿では,ビデオオブジェクトセグメンテーション(VOS)に対するTransformerベースのアプローチを提案する。 従来の作業の複雑なエラーやスケーラビリティの問題に対処するために,スパース時空間変換器(SST)と呼ばれるVOSのスケーラブルでエンドツーエンドな手法を提案する。 SSTは、時空間的特徴に対するスパースアテンションを用いて、ビデオ内の各オブジェクトのピクセルごとの表現を抽出する。 VOSの注意に基づく定式化により、複数のフレームの履歴を学習し、動きのセグメンテーションを解くのに必要な対応計算を行うのに適した帰納的バイアスを提供する。 時空間領域における注意に基づく再帰的ネットワークの有効性を示す。 提案手法は,YouTube-VOS と DAVIS 2017 において,オクルージョンに対するスケーラビリティとロバスト性を改善した競合性を実現する。

In this paper we introduce a Transformer-based approach to video object segmentation (VOS). To address compounding error and scalability issues of prior work, we propose a scalable, end-to-end method for VOS called Sparse Spatiotemporal Transformers (SST). SST extracts per-pixel representations for each object in a video using sparse attention over spatiotemporal features. Our attention-based formulation for VOS allows a model to learn to attend over a history of multiple frames and provides suitable inductive bias for performing correspondence-like computations necessary for solving motion segmentation. We demonstrate the effectiveness of attention-based over recurrent networks in the spatiotemporal domain. Our method achieves competitive results on YouTube-VOS and DAVIS 2017 with improved scalability and robustness to occlusions compared with the state of the art.
翻訳日:2021-03-21 07:53:47 公開日:2021-01-21
# イクスハナ:人間の情景理解機構の理論

Ikshana: A Theory of Human Scene Understanding Mechanism ( http://arxiv.org/abs/2101.10837v1 )

ライセンス: Link先を確認
Venkata Satya Sai Ajay Daliparthi(参考訳) 近年、ディープニューラルネットワークは多くのコンピュータビジョンタスクで最先端のパフォーマンスを達成した。 これらのディープニューラルネットワークの最もよく見られる欠点は、大量のラベル付きデータと膨大な数のパラメータの要求である。 本研究では,人間の脳機能を説明するために,イクサナという理論を提案し,自然のシーンやイメージを理解する。 我々はIkshanaNetというアーキテクチャを設計し、Cityscapesのピクセルレベルのセマンティックセマンティックセグメンテーションベンチマークで評価し、我々の理論を実際にどのように実装するかを示す。 その結果、イクシャナ理論はより少ない訓練データで実行可能であることが判明した。 また、検証セットで評価したいくつかの実験により、Ikshana理論はネットワークのパラメータ数を著しく削減できることを示した。 結論として、イクスハナ理論に従って設計されたディープニューラルネットワークは、任意のコンピュータビジョンタスクに有用な、画像のベクトル表現をより良く学習する。

In recent years, deep neural networks achieved state-of-the-art performance on many computer vision tasks. The two most commonly observed drawbacks of these deep neural networks are: the requirement of a massive amount of labeled data and a vast number of parameters. In this work, we propose a theory named Ikshana, to explain the functioning of the human brain, while humans understand a natural scene/image. We have designed an architecture named IkshanaNet and evaluated on the Cityscapes pixel-level semantic segmentation benchmark, to show how to implement our theory in practice. The results showed that the Ikshana theory could perform with less training data. Also, through some experiments evaluated on the validation set, we showed that the Ikshana theory can significantly reduce the number of parameters of the network. In conclusion, a deep neural network designed by following the Ikshana theory will learn better vector representations of the image, useful for any computer vision task.
翻訳日:2021-03-21 07:53:34 公開日:2021-01-21
# Greedyよりも短い - 最適ルールブースティングによる解釈可能なモデル

Better Short than Greedy: Interpretable Models through Optimal Rule Boosting ( http://arxiv.org/abs/2101.08380v1 )

ライセンス: Link先を確認
Mario Boley and Simon Teshuva and Pierre Le Bodic and Geoffrey I Webb(参考訳) ルールアンサンブルは、予測精度とモデル解釈可能性の間の有用なトレードオフを提供するように設計されている。 しかし、現在のルールアンサンブルの筋力とランダムな検索コンポーネントは、特定の精度レベルに達するために必要以上のルールを必要とする場合や、いくつかのルールで実際にうまく記述できる分布を正確にモデル化できない場合など、この目標を克服することができる。 本稿では,与えられたアンサンブルサイズに対する最大予測パワーの規則アンサンブル(従ってモデル理解可能性)を適合させることを目的とした新しいアプローチを提案する。 特に,人気のある二階勾配ブースティングフレームワークのルール毎の目的関数を最適に解く効率的な分岐・境界アルゴリズムを提案する。 我々の主な洞察は、対象とするデータポイントの数を線形時間で厳密に拘束できるということである。 ルール冗長性に関連する新たなプルーニング技術とともに、この手法は最適なルールを推し進めるための計算可能なアプローチをもたらし、幅広い共通ベンチマーク問題で示されるように、グレディルールを推し進めるという予測性能を一貫して上回る。

Rule ensembles are designed to provide a useful trade-off between predictive accuracy and model interpretability. However, the myopic and random search components of current rule ensemble methods can compromise this goal: they often need more rules than necessary to reach a certain accuracy level or can even outright fail to accurately model a distribution that can actually be described well with a few rules. Here, we present a novel approach aiming to fit rule ensembles of maximal predictive power for a given ensemble size (and thus model comprehensibility). In particular, we present an efficient branch-and-bound algorithm that optimally solves the per-rule objective function of the popular second-order gradient boosting framework. Our main insight is that the boosting objective can be tightly bounded in linear time of the number of covered data points. Along with an additional novel pruning technique related to rule redundancy, this leads to a computationally feasible approach for boosting optimal rules that, as we demonstrate on a wide range of common benchmark problems, consistently outperforms the predictive performance of boosting greedy rules.
翻訳日:2021-03-21 07:53:18 公開日:2021-01-21
# Differential Euler: カオス三体問題を解決するニューラルネットワーク近似器の設計

Differential Euler: Designing a Neural Network approximator to solve the Chaotic Three Body Problem ( http://arxiv.org/abs/2101.08486v1 )

ライセンス: Link先を確認
Pratyush Kumar, Aishwarya Das, Debayan Gupta(参考訳) 3つの体問題は、ニュートンの運動法則と普遍重力法則に従って3つの点の質量の初期位置と速度を計算し、その運動を時間とともに予測しようとする n 体の問題の特別な場合である。 分析解は特別な場合においても発見されているが、一般的な問題は未解決のままであり、存在する解は実用的ではない。 幸いなことに、多くのアプリケーションにとって、この問題を完全に解決する必要はないかもしれない。 breenらは最近、単純なニューラルネットワークを使って3つのボディ問題をほぼ解決しようと試みた。 彼らの手法は計算のオーバーヘッドを減らすことに成功しているように見えるが、モデルは極めて制限され、特殊な2次元の場合に適用される。 著者らは、実験的な設計で取られた決定に関する説明や、モデルやアーキテクチャの詳細は提供せず、コードを公開もしていない。 さらに、モデルは見当たらないケースにうまく一般化しない。 本稿では,ニューラルネットワークを用いた3つの身体問題の解法の実現可能性について,一定の時間ステップで決定できる詳細な実験装置を提案する。 我々は,データセットサイズに関するベンチマークを定め,実用的応用における結果の有効性を測定するための精度閾値を設定できる。 そして、標準数値積分器から生成されたデータセットを用いて、NNの一覧クラスに従ってモデルを構築する。 NNが実生活シナリオにおける数値積分器を置き換えるのに十分なカオス的な3体問題の表現を学べるかどうかを判断するために、データセットの複雑さを徐々に増す。

The three body problem is a special case of the n body problem where one takes the initial positions and velocities of three point masses and attempts to predict their motion over time according to Newtonian laws of motion and universal gravitation. Though analytical solutions have been found for special cases, the general problem remains unsolved; the solutions that do exist are impractical. Fortunately, for many applications, we may not need to solve the problem completely, i.e., predicting with reasonable accuracy for some time steps, may be sufficient. Recently, Breen et al attempted to approximately solve the three body problem using a simple neural network. Although their methods appear to achieve some success in reducing the computational overhead, their model is extremely restricted, applying to a specialized 2D case. The authors do not provide explanations for critical decisions taken in their experimental design, no details on their model or architecture, and nor do they publish their code. Moreover, the model does not generalize well to unseen cases. In this paper, we propose a detailed experimental setup to determine the feasibility of using neural networks to solve the three body problem up to a certain number of time steps. We establish a benchmark on the dataset size and set an accuracy threshold to measure the viability of our results for practical applications. Then, we build our models according to the listed class of NNs using a dataset generated from standard numerical integrators. We gradually increase the complexity of our data set to determine whether NNs can learn a representation of the chaotic three body problem well enough to replace numerical integrators in real life scenarios.
翻訳日:2021-03-21 07:52:57 公開日:2021-01-21
# ファウショット学習のためのメタラーニングアプローチのストレステスト

Stress Testing of Meta-learning Approaches for Few-shot Learning ( http://arxiv.org/abs/2101.08587v1 )

ライセンス: Link先を確認
Aroof Aimen, Sahil Sidheekh, Vineet Madan, Narayanan C. Krishnan(参考訳) メタラーニング(ml)は,少人数学習などの資源制約下での有望な学習方法として登場した。 MLアプローチは通常、一般化可能なモデルを学ぶための方法論を提案する。 本稿では,最近のmlアプローチをストレステストに適用し,その限界を明らかにする。 より正確には、タスク複雑性の増加に対して、数ショット学習のためのMLアプローチの性能を測定する。 その結果,MLの初期化戦略(MAML,TAML,MetaSGD)の性能は急速に低下した。 さらに,MAML方式で学習したML(MetaLSTM++)の最適化戦略が,純粋最適化戦略よりも有効であることを示す。 また,MLの最適化手法により,単純なタスクから複雑なタスクへの転送性が向上することを示す。

Meta-learning (ML) has emerged as a promising learning method under resource constraints such as few-shot learning. ML approaches typically propose a methodology to learn generalizable models. In this work-in-progress paper, we put the recent ML approaches to a stress test to discover their limitations. Precisely, we measure the performance of ML approaches for few-shot learning against increasing task complexity. Our results show a quick degradation in the performance of initialization strategies for ML (MAML, TAML, and MetaSGD), while surprisingly, approaches that use an optimization strategy (MetaLSTM) perform significantly better. We further demonstrate the effectiveness of an optimization strategy for ML (MetaLSTM++) trained in a MAML manner over a pure optimization strategy. Our experiments also show that the optimization strategies for ML achieve higher transferability from simple to complex tasks.
翻訳日:2021-03-21 07:52:32 公開日:2021-01-21
# アクティブハイブリッド分類

Active Hybrid Classification ( http://arxiv.org/abs/2101.08854v1 )

ライセンス: Link先を確認
Evgeny Krivosheev, Fabio Casati, Alessandro Bozzon(参考訳) ハイブリッドクラウドマシン分類器は、自動分類のコスト効率と人間の判断精度を組み合わせることで、優れた性能を達成できる。 本稿では,群集と機械が分類問題に取り組む際の相互サポートについて述べる。 具体的には,活発な学習と群集分類を編成し,それらを活発なサイクルで組み合わせるアーキテクチャを提案する。 分類すべき項目のプールが有限である場合、学習対ハイブリッド分類における搾取トレードオフに直面し、プール内の項目の分類に最適化されたタスクとトレーニングデータセットを作成するために最適化された群集タスクのバランスをとる必要があることを示す。 この問題を定義し,提案するヒューリスティックスと,マシンとクラウドの分類性能の異なる3つの実世界のデータセットに対するアプローチを評価し,我々のアクティブハイブリッドアプローチがベースラインを大幅に上回ることを示す。

Hybrid crowd-machine classifiers can achieve superior performance by combining the cost-effectiveness of automatic classification with the accuracy of human judgment. This paper shows how crowd and machines can support each other in tackling classification problems. Specifically, we propose an architecture that orchestrates active learning and crowd classification and combines them in a virtuous cycle. We show that when the pool of items to classify is finite we face learning vs. exploitation trade-off in hybrid classification, as we need to balance crowd tasks optimized for creating a training dataset with tasks optimized for classifying items in the pool. We define the problem, propose a set of heuristics and evaluate the approach on three real-world datasets with different characteristics in terms of machine and crowd classification performance, showing that our active hybrid approach significantly outperforms baselines.
翻訳日:2021-03-21 07:51:54 公開日:2021-01-21
# Xavierの導出の厳密な証明とDeep ReLUネットワークの初期化

A Fully Rigorous Proof of the Derivation of Xavier and He's Initialization for Deep ReLU Networks ( http://arxiv.org/abs/2101.12017v1 )

ライセンス: Link先を確認
Quynh Nguyen(参考訳) ReLUネットに対するXavier/Heの初期化の導出の完全な厳密な証明が与えられる。

A fully rigorous proof of the derivation of Xavier/He's initialization for ReLU nets is given.
翻訳日:2021-03-21 07:51:24 公開日:2021-01-21
# 制約付き多目的ポートフォリオ問題に対する変数分割と最適化

Variable Division and Optimization for Constrained Multiobjective Portfolio Problems ( http://arxiv.org/abs/2101.08552v1 )

ライセンス: Link先を確認
Yi Chen, Aimin Zhou(参考訳) 変数分割と最適化 (D\&O) は進化的アルゴリズム(EA)においてよく利用されるアルゴリズム設計パラダイムである。 D\&O EAは変数を部分変数に分割し、それぞれ最適化する。 したがって、複雑な問題は単純なサブタスクに分割される。 例えば、ポートフォリオ問題の変数は2つの部分変数、すなわち2つの部分変数に分けられる。 資産の選択と資本配分です これにより、これら2つの部分変数をそれぞれ最適化する。 部分変数が反復的に最適化されているか、なぜそれがD\&Oの単目的問題と多目的問題の両方で機能するのか、という公式な議論はない。 本稿では,この隙間を埋める。 議論によると,多目的問題における部分変数のエリート的選択法を開発した。 次に、この手法を分解ベース多目的進化アルゴリズム(D\&O-MOEA/D)に組み込む。 数学的プログラミング最適化の助けを借りて、制約付き多目的ポートフォリオ問題で実現される。 実証研究では、d\&o-moea/dは20の事例と最近の中国株式市場で実施されている。 その結果,大規模インスタンスにおけるD&O-MOEA/Dの優位性と汎用性を示した。 前者のターゲットはパレートフロントに収束し、後者は探索過程における非支配的なソリューション間の多様性を促進する。

Variable division and optimization (D\&O) is a frequently utilized algorithm design paradigm in Evolutionary Algorithms (EAs). A D\&O EA divides a variable into partial variables and then optimize them respectively. A complicated problem is thus divided into simple subtasks. For example, a variable of portfolio problem can be divided into two partial variables, i.e. the selection of assets and the allocation of capital. Thereby, we optimize these two partial variables respectively. There is no formal discussion about how are the partial variables iteratively optimized and why can it work for both single- and multi-objective problems in D\&O. In this paper, this gap is filled. According to the discussion, an elitist selection method for partial variables in multiobjective problems is developed. Then this method is incorporated into the Decomposition-Based Multiobjective Evolutionary Algorithm (D\&O-MOEA/D). With the help of a mathematical programming optimizer, it is achieved on the constrained multiobjective portfolio problems. In the empirical study, D\&O-MOEA/D is implemented for 20 instances and recent Chinese stock markets. The results show the superiority and versatility of D\&O-MOEA/D on large-scale instances while the performance of it on small-scale problems is also not bad. The former targets convergence towards the Pareto front and the latter helps promote diversity among the non-dominated solutions during the search process.
翻訳日:2021-03-21 07:51:20 公開日:2021-01-21
# GPU加速オプティマイザ-サブモジュール外乱クラスタリングの評価

GPU-Accelerated Optimizer-Aware Evaluation of Submodular Exemplar Clustering ( http://arxiv.org/abs/2101.08763v1 )

ライセンス: Link先を確認
Philipp-Jan Honysz, Sebastian Buschj\"ager, Katharina Morik(参考訳) 部分モジュラ関数の最適化はクラスタリングを実行するための実行可能な方法を構成する。 強近似保証と実現可能な最適化 w.r.t. ストリーミングデータはこのクラスタリングアプローチが好都合です 技術的には、サブモジュラ関数はデータのサブセットを実際の値にマップする。 最適なセットは、データ空間を分割し、クラスタを推論するために使われる。 exemplarベースのクラスタリングは、可能なサブモジュラー関数の1つであるが、高い計算複雑性に苦しむ。 しかし、実用的なアプリケーションでは、特定のリアルタイムまたはウォールクロックのランタイムが決定的です。 本稿では,GPU上での特定の機能の評価方法を提案する。これは最適化器の必要を念頭に置いて,ウォールタイムの実行時間を短縮する。 我々は,データ次元やサブセット内のデータポイント数など,異なる実行時臨界問題特性の影響と,必要な浮動小数点精度の影響について検討した。 再現可能な実験では,CPU上のマルチスレッド計算を比較対象とし,浮動小数点精度のタイプに応じて,最大72倍の競合高速化を実現した。 半精度のGPU計算は、シングル精度のシングルスレッドCPU計算と比較して452倍の高速化を実現した。

The optimization of submodular functions constitutes a viable way to perform clustering. Strong approximation guarantees and feasible optimization w.r.t. streaming data make this clustering approach favorable. Technically, submodular functions map subsets of data to real values, which indicate how "representative" a specific subset is. Optimal sets might then be used to partition the data space and to infer clusters. Exemplar-based clustering is one of the possible submodular functions, but suffers from high computational complexity. However, for practical applications, the particular real-time or wall-clock run-time is decisive. In this work, we present a novel way to evaluate this particular function on GPUs, which keeps the necessities of optimizers in mind and reduces wall-clock run-time. To discuss our GPU algorithm, we investigated both the impact of different run-time critical problem properties, like data dimensionality and the number of data points in a subset, and the influence of required floating-point precision. In reproducible experiments, our GPU algorithm was able to achieve competitive speedups of up to 72x depending on whether multi-threaded computation on CPUs was used for comparison and the type of floating-point precision required. Half-precision GPU computation led to large speedups of up to 452x compared to single-precision, single-thread CPU computations.
翻訳日:2021-03-21 07:50:42 公開日:2021-01-21
# 低コストドローンを用いた機械学習による早期火災検知システム

Machine Learning Based Early Fire Detection System using a Low-Cost Drone ( http://arxiv.org/abs/2101.09362v1 )

ライセンス: Link先を確認
Ay\c{s}eg\"ul Yan{\i}k, Mehmet Serdar G\"uzel, Mertkan Yan{\i}k, Erkan Bostanc{\i}(参考訳) 本稿では,森林火災の早期検出を低コストかつ高精度に行う機械学習システムを提案する。 そのため、森林火災の視覚検出に新しく明確な視点をもたらすことを目的としている。 この目的のためにドローンが構築されます。 システム内のマイクロコントローラは深層学習の訓練によってプログラムされ、無人航空機は火災検知の最も初期の兆候である煙を認識する能力が与えられた。 火災検出に使用される一般的なアルゴリズムの一般的な問題は、高い誤報と過失率である。 可視化から得られた結果を監視段階の追加で確認することにより、システムの信頼性を高め、結果の正確性を保証する。 無人航空機の移動ビジョン能力により、データは任意の視点から明確に連続的に制御できる。 システム性能はシミュレーションと物理環境の両方で実験を行うことで検証される。

This paper proposes a new machine learning based system for forest fire earlier detection in a low-cost and accurate manner. Accordingly, it is aimed to bring a new and definite perspective to visual detection in forest fires. A drone is constructed for this purpose. The microcontroller in the system has been programmed by training with deep learning methods, and the unmanned aerial vehicle has been given the ability to recognize the smoke, the earliest sign of fire detection. The common problem in the prevalent algorithms used in fire detection is the high false alarm and overlook rates. Confirming the result obtained from the visualization with an additional supervision stage will increase the reliability of the system as well as guarantee the accuracy of the result. Due to the mobile vision ability of the unmanned aerial vehicle, the data can be controlled from any point of view clearly and continuously. System performance are validated by conducting experiments in both simulation and physical environments.
翻訳日:2021-03-21 07:50:22 公開日:2021-01-21
# GhostSR: 効率的な画像超解法のためのゴースト機能を学ぶ

GhostSR: Learning Ghost Features for Efficient Image Super-Resolution ( http://arxiv.org/abs/2101.08525v1 )

ライセンス: Link先を確認
Ying Nie, Kai Han, Zhenhua Liu, An Xiao, Yiping Deng, Chunjing Xu, Yunhe Wang(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく現代の単一画像超解像システム(SISR)は、膨大な計算コストを必要とする間、豪華な性能を実現する。 特徴冗長性に関する問題は、視覚認識タスクにおいてよく研究されているが、SISRで論じられることは稀である。 sisrモデルの多くの特徴が互いに類似しているという観測に基づいて,シフト演算を用いて冗長な特徴(ゴースト特徴)を生成することを提案する。 GPUやNPUと親和性のないディープワイド・コンボリューションと比較して、シフト操作は一般的なハードウェア上でのCNNの実用的な推論アクセラレーションをもたらす。 本稿では,sisrのシフト操作の利点を分析し,ガムベルソフトマックストリックに基づいてシフト方向を学習可能にする。 与えられた事前学習モデルに対して、まず各畳み込み層に全てのフィルタをクラスタリングし、固有の特徴を生成する固有のものを特定する。 ゴースト機能は、これらの固有の特徴を特定の方向に沿って移動させることによって引き起こされる。 完全な出力特徴は、本質的特徴とゴースト特徴を結合して構成される。 いくつかのベンチマークモデルとデータセットに対する大規模な実験により、提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が、パラメータ、FLOP、GPUレイテンシを大幅に削減することで、ベースラインのモデルと同等のパフォーマンスを達成できることが示されている。 例えば、パラメータを47%削減し、フロップを46%、gpuレイテンシをedsr x2ネットワークの41%削減しました。

Modern single image super-resolution (SISR) system based on convolutional neural networks (CNNs) achieves fancy performance while requires huge computational costs. The problem on feature redundancy is well studied in visual recognition task, but rarely discussed in SISR. Based on the observation that many features in SISR models are also similar to each other, we propose to use shift operation to generate the redundant features (i.e., Ghost features). Compared with depth-wise convolution which is not friendly to GPUs or NPUs, shift operation can bring practical inference acceleration for CNNs on common hardware. We analyze the benefits of shift operation for SISR and make the shift orientation learnable based on Gumbel-Softmax trick. For a given pre-trained model, we first cluster all filters in each convolutional layer to identify the intrinsic ones for generating intrinsic features. Ghost features will be derived by moving these intrinsic features along a specific orientation. The complete output features are constructed by concatenating the intrinsic and ghost features together. Extensive experiments on several benchmark models and datasets demonstrate that both the non-compact and lightweight SISR models embedded in our proposed module can achieve comparable performance to that of their baselines with large reduction of parameters, FLOPs and GPU latency. For instance, we reduce the parameters by 47%, FLOPs by 46% and GPU latency by 41% of EDSR x2 network without significant performance degradation.
翻訳日:2021-03-21 07:50:11 公開日:2021-01-21
# データ駆動ベースステーション睡眠制御のための時空間トラヒック予測を用いた深層強化学習

Deep Reinforcement Learning with Spatio-temporal Traffic Forecasting for Data-Driven Base Station Sleep Control ( http://arxiv.org/abs/2101.08391v1 )

ライセンス: Link先を確認
Qiong Wu and Xu Chen and Zhi Zhou and Liang Chen and Junshan Zhang(参考訳) 5g時代のモバイルトラフィックの増加に対応するため、基地局(bss)は無線アクセスネットワーク(ran)に密に配置され、ネットワークのカバレッジとキャパシティが向上している。 しかし、高密度のBSsはピークトラフィックに対応するように設計されているため、オフピーク時にBSsがオンになっている場合、不要に大量のエネルギーを消費する。 セルラーネットワークのエネルギー消費を抑えるために、交通需要に応えないアイドルベースステーションを非活性化する方法が効果的である。 本稿では,より少ないエネルギー消費とQoS(Quality of Service)要件を満たしつつ,BSのアクティブ/スリープモードを決定するための新しいデータ駆動学習手法であるDeepBSCという,トラフィックを考慮した動的BS睡眠制御フレームワークを開発する。 具体的には,移動トラフィックの地理的および意味的空間的相関を利用したGS-STNモデルにより交通需要を予測する。 正確な移動トラヒック予測では、bs睡眠制御問題をマルコフ決定プロセスとしてキャストし、アクタ-クリティック強化学習法によって解決する。 動的環境におけるコスト推定のばらつきを低減すべく,ポリシー更新にロバストなパフォーマンス指標を提供するベンチマーク変換手法を提案する。 トレーニングプロセスを迅速化するために,我々は,探索をさらに強化するエクスプローラネットワークとともに,ddpg(deep deterministic policy gradient)アプローチを採用する。 実世界のデータセットを用いた広範囲な実験は、提案フレームワークが既存のメソッドを大幅に上回っていることを裏付ける。

To meet the ever increasing mobile traffic demand in 5G era, base stations (BSs) have been densely deployed in radio access networks (RANs) to increase the network coverage and capacity. However, as the high density of BSs is designed to accommodate peak traffic, it would consume an unnecessarily large amount of energy if BSs are on during off-peak time. To save the energy consumption of cellular networks, an effective way is to deactivate some idle base stations that do not serve any traffic demand. In this paper, we develop a traffic-aware dynamic BS sleep control framework, named DeepBSC, which presents a novel data-driven learning approach to determine the BS active/sleep modes while meeting lower energy consumption and satisfactory Quality of Service (QoS) requirements. Specifically, the traffic demands are predicted by the proposed GS-STN model, which leverages the geographical and semantic spatial-temporal correlations of mobile traffic. With accurate mobile traffic forecasting, the BS sleep control problem is cast as a Markov Decision Process that is solved by Actor-Critic reinforcement learning methods. To reduce the variance of cost estimation in the dynamic environment, we propose a benchmark transformation method that provides robust performance indicator for policy update. To expedite the training process, we adopt a Deep Deterministic Policy Gradient (DDPG) approach, together with an explorer network, which can strengthen the exploration further. Extensive experiments with a real-world dataset corroborate that our proposed framework significantly outperforms the existing methods.
翻訳日:2021-03-21 07:49:21 公開日:2021-01-21
# 大規模コンテンツに基づくテキストファイル型検出

Content-Based Textual File Type Detection at Scale ( http://arxiv.org/abs/2101.08508v1 )

ライセンス: Link先を確認
Francesca Del Bonifro, Maurizio Gabbrielli, Stefano Zacchiroli(参考訳) プログラミング言語検出は、大規模なソースコードの解析において一般的なニーズである。 ファイルタイプを決定するために、いくつかの機能、特にファイル拡張に依存する既存のツールによってサポートされている。 我々は,テキストファイルの内容のみに基づいて,ソフトウェアコードベースでよく見られるファイルの種類を正確に検出する問題を考える。 そのためには、ファイル拡張を欠いたソースコード(例えば、Webに投稿されたコードスニペットや実行可能スクリプト)を分類し、間違ったファイル拡張や珍しいファイル拡張で記録されたソースコードの誤分類を避けるとともに、ソースコードファイルの本質的な認識性にも光を当てる。 本稿では, (a) テキストファイルに言語に依存しない単語トークン化器, (b) 1-/2-gram のグループトークン, (c) n-gram周波数に基づく特徴ベクトルの構築, (d) 単純な完全接続型ニューラルネットワークを分類器として使用する簡易モデルを提案する。 トレーニングセットとしては、既存のファイル拡張を根拠として、少なくとも1000の星を持つgithubリポジトリから抽出されたテキストファイルを使用する。 その単純さにもかかわらず、提案されたモデルは比較的多くの認識されたクラス(130以上のファイルタイプ)に対する実験で85%に達する。

Programming language detection is a common need in the analysis of large source code bases. It is supported by a number of existing tools that rely on several features, and most notably file extensions, to determine file types. We consider the problem of accurately detecting the type of files commonly found in software code bases, based solely on textual file content. Doing so is helpful to classify source code that lack file extensions (e.g., code snippets posted on the Web or executable scripts), to avoid misclassifying source code that has been recorded with wrong or uncommon file extensions, and also shed some light on the intrinsic recognizability of source code files. We propose a simple model that (a) use a language-agnostic word tokenizer for textual files, (b) group tokens in 1-/2-grams, (c) build feature vectors based on N-gram frequencies, and (d) use a simple fully connected neural network as classifier. As training set we use textual files extracted from GitHub repositories with at least 1000 stars, using existing file extensions as ground truth. Despite its simplicity the proposed model reaches 85% in our experiments for a relatively high number of recognized classes (more than 130 file types).
翻訳日:2021-03-21 07:48:56 公開日:2021-01-21
# 競争力のある自動車保険市場の顧客価格感性

Customer Price Sensitivities in Competitive Automobile Insurance Markets ( http://arxiv.org/abs/2101.08551v1 )

ライセンス: Link先を確認
Robert Matthijs Verschuren(参考訳) 保険業者は、政策ステークホルダーの滞在意欲に対するプレミアム・チェンジの間接効果を取り入れるため、より需要ベースの戦略を採用する傾向にある。 しかし、実際には、保険業者のリニューアル・プレミアと顧客のリアクションは、通常、顧客のリスクレベルに依存しているため、これらの戦略では、この不確実性に対する適切なコントロール方法を決定することが困難である。 そこで本稿では,顧客価格のセンシティビティを考慮し,プレミアム更新オファーを最大化する最適多時期利益を導き出す因果推論手法を検討する。 具体的には, エクストリームグラディエントブースティング (XGBoost) による Guelman と Guill\'en (2014) の離散的処理フレームワークを拡張し, 反事実応答の不確かさをよりよく説明するために, 多重計算により拡張する。 さらに,xgboostを用いた継続的処理フレームワークを保険文献に導入し,適切な更新提案の特定と,競合オファーを含む市場での競合に対する説明を可能にした。 オランダの自動車保険ポートフォリオへの2つの治療枠組みの適用は、市場における政策の競争性が顧客の価格感度に不可欠であること、XGBoostが従来のロジスティック回帰よりもこれを記述するのが適切であることを示唆している。 さらに、両方のフレームワークの効率的なフロンティアは、実現したよりもはるかに多くの利益を得ることができることを示しています。 複数周期の更新最適化がこれらの結果を確認し、競争性が将来の需要に対する過去のレート変化の時間的フィードバックを可能にすることを示す。

Insurers are increasingly adopting more demand-based strategies to incorporate the indirect effect of premium changes on their policyholders' willingness to stay. However, since in practice both insurers' renewal premia and customers' responses to these premia typically depend on the customer's level of risk, it remains challenging in these strategies to determine how to properly control for this confounding. We therefore consider a causal inference approach in this paper to account for customer price sensitivities and to deduce optimal, multi-period profit maximizing premium renewal offers. More specifically, we extend the discrete treatment framework of Guelman and Guill\'en (2014) by Extreme Gradient Boosting, or XGBoost, and by multiple imputation to better account for the uncertainty in the counterfactual responses. We additionally introduce the continuous treatment framework with XGBoost to the insurance literature to allow identification of the exact optimal renewal offers and account for any competition in the market by including competitor offers. The application of the two treatment frameworks to a Dutch automobile insurance portfolio suggests that a policy's competitiveness in the market is crucial for a customer's price sensitivity and that XGBoost is more appropriate to describe this than the traditional logistic regression. Moreover, an efficient frontier of both frameworks indicates that substantially more profit can be gained on the portfolio than realized, also already with less churn and in particular if we allow for continuous rate changes. A multi-period renewal optimization confirms these findings and demonstrates that the competitiveness enables temporal feedback of previous rate changes on future demand.
翻訳日:2021-03-21 07:48:36 公開日:2021-01-21
# Clairvoyant Prefetching for Distributed Machine Learning I/O

Clairvoyant Prefetching for Distributed Machine Learning I/O ( http://arxiv.org/abs/2101.08734v1 )

ライセンス: Link先を確認
Roman B\"ohringer, Nikoli Dryden, Tal Ben-Nun, Torsten Hoefler(参考訳) I/Oは、特にクラウドやスーパーコンピュータのような分散環境において、機械学習トレーニングの大きなボトルネックとして現れています。 最適なデータ取り込みパイプラインはシステムによって異なり、効率の向上にはローカルストレージ、外部ファイルシステム、リモートワーカーへのアクセスの微妙なバランスが必要となるが、既存のフレームワークではそのようなリソースを効率的に利用できない。 種子がsgdでトレーニングするためのランダムアクセスパターンを生成すると、我々は透視能力を持ち、与えられたサンプルがいつアクセスされるかを正確に予測できる。 トレーニングおよびパフォーマンスモデリングにおけるアクセスパターンの理論的分析と組み合わせて、新しい機械学習I/OミドルウェアであるHDMLPを作成し、I/Oボトルネックに取り組む。 HDMLPは使いやすく、フレキシブルでスケーラブルなソリューションを提供し、最先端のアプローチよりも優れたパフォーマンスを提供すると同時に、既存のコードベースにわずかな変更を必要とせず、幅広い環境をサポートする。

I/O is emerging as a major bottleneck for machine learning training, especially in distributed environments such as clouds and supercomputers. Optimal data ingestion pipelines differ between systems, and increasing efficiency requires a delicate balance between access to local storage, external filesystems, and remote workers; yet existing frameworks fail to efficiently utilize such resources. We observe that, given the seed generating the random access pattern for training with SGD, we have clairvoyance and can exactly predict when a given sample will be accessed. We combine this with a theoretical analysis of access patterns in training and performance modeling to produce a novel machine learning I/O middleware, HDMLP, to tackle the I/O bottleneck. HDMLP provides an easy-to-use, flexible, and scalable solution that delivers better performance than state-of-the-art approaches while requiring very few changes to existing codebases and supporting a broad range of environments.
翻訳日:2021-03-21 07:48:06 公開日:2021-01-21
# インシシットフィードバックからの項目推薦

Item Recommendation from Implicit Feedback ( http://arxiv.org/abs/2101.08769v1 )

ライセンス: Link先を確認
Steffen Rendle(参考訳) アイテムレコメンデーションのタスクは、大きなアイテムカタログからユーザのために最適なアイテムを選択することである。 アイテムレコメンダは、通常、前向きな過去のアクションからなる暗黙のフィードバックから訓練される。 項目推薦の主な課題は,(1)暗黙のフィードバックからトレーニング対象を定式化し,(2)大規模項目カタログ上でモデルを効率的にトレーニングする方法である。 この記事では、アイテムレコメンデーションの概要、ユニークな特徴、そしていくつかの一般的なアプローチについて説明する。 問題の導入から始まり、異なるトレーニング目標について議論する。 本体は学習アルゴリズムを扱い、一般的な推奨者のためのサンプリングベースのアルゴリズムと、ドット製品モデルのためのより効率的なアルゴリズムを提示する。 最後に,検索タスクに対するアイテムレコメンダの適用について論じる。

The task of item recommendation is to select the best items for a user from a large catalogue of items. Item recommenders are commonly trained from implicit feedback which consists of past actions that are positive only. Core challenges of item recommendation are (1) how to formulate a training objective from implicit feedback and (2) how to efficiently train models over a large item catalogue. This article provides an overview of item recommendation, its unique characteristics and some common approaches. It starts with an introduction to the problem and discusses different training objectives. The main body deals with learning algorithms and presents sampling based algorithms for general recommenders and more efficient algorithms for dot product models. Finally, the application of item recommenders for retrieval tasks is discussed.
翻訳日:2021-03-21 07:47:50 公開日:2021-01-21
# PyGlove: 自動機械学習のためのシンボリックプログラミング

PyGlove: Symbolic Programming for Automated Machine Learning ( http://arxiv.org/abs/2101.08809v1 )

ライセンス: Link先を確認
Daiyi Peng, Xuanyi Dong, Esteban Real, Mingxing Tan, Yifeng Lu, Hanxiao Liu, Gabriel Bender, Adam Kraft, Chen Liang, Quoc V. Le(参考訳) ニューラルネットワークはハイパーパラメータとアーキテクチャの選択に敏感である。 Automated Machine Learning (AutoML)は、これらの選択を自動化するための有望なパラダイムである。 しかし、現在のMLソフトウェアライブラリは、AutoMLのコンポーネント間の動的インタラクションの処理に非常に制限されている。 例えば、ENASやDARTSのような効率的なNASアルゴリズムは、通常、検索空間と検索アルゴリズムの間の実装結合を必要とする。 さらに,ハードウェア構成を探索するループ内のアーキテクチャの探索など,複雑な検索フローの実装も困難である。 要約すると、現在のMLライブラリの検索空間、検索アルゴリズム、または検索フローを変更するには、プログラムロジックに大きな変更が必要になる。 本稿では,記号型プログラミングに基づくAutoMLの新しいプログラミング手法を提案する。 このパラダイムでは、MLプログラムは変更可能であり、他のプログラムで容易に操作できる。 その結果、AutoMLはシンボル操作の自動化プロセスとして再編成できる。 この定式化により,探索アルゴリズム,探索空間,児童プログラムの三角形を分離する。 この分離により、検索スペースと検索アルゴリズム(ウェイトシェアなし)の変更が容易になり、既存のコードに検索機能を追加し、複雑な検索フローを実装することができる。 次に、このパラダイムを実装した新しいPythonライブラリであるPyGloveを紹介します。 ImageNetとNAS-Bench-101のケーススタディを通じて、PyGloveのユーザは静的プログラムを検索スペースに簡単に変換でき、検索スペースと検索アルゴリズムをすばやくイテレーションでき、複雑な検索フローを作成でき、より良い結果が得られることを示す。

Neural networks are sensitive to hyper-parameter and architecture choices. Automated Machine Learning (AutoML) is a promising paradigm for automating these choices. Current ML software libraries, however, are quite limited in handling the dynamic interactions among the components of AutoML. For example, efficientNAS algorithms, such as ENAS and DARTS, typically require an implementation coupling between the search space and search algorithm, the two key components in AutoML. Furthermore, implementing a complex search flow, such as searching architectures within a loop of searching hardware configurations, is difficult. To summarize, changing the search space, search algorithm, or search flow in current ML libraries usually requires a significant change in the program logic. In this paper, we introduce a new way of programming AutoML based on symbolic programming. Under this paradigm, ML programs are mutable, thus can be manipulated easily by another program. As a result, AutoML can be reformulated as an automated process of symbolic manipulation. With this formulation, we decouple the triangle of the search algorithm, the search space and the child program. This decoupling makes it easy to change the search space and search algorithm (without and with weight sharing), as well as to add search capabilities to existing code and implement complex search flows. We then introduce PyGlove, a new Python library that implements this paradigm. Through case studies on ImageNet and NAS-Bench-101, we show that with PyGlove users can easily convert a static program into a search space, quickly iterate on the search spaces and search algorithms, and craft complex search flows to achieve better results.
翻訳日:2021-03-21 07:47:37 公開日:2021-01-21
# 貯留層計算のためのスパース行列乗算器の直接空間実装

Direct Spatial Implementation of Sparse Matrix Multipliers for Reservoir Computing ( http://arxiv.org/abs/2101.08884v1 )

ライセンス: Link先を確認
Matthew Denton and Herman Schmit(参考訳) 貯水池計算システムは、非常に大きくスパースで固定された行列の繰り返しの乗算に依存する。 これらの固定行列の空間的直接的実装は計算における作業を最小限にし、定常伝播と論理最小化による遅延と電力の大幅な削減を可能にする。 ビットシリアル演算により、巨大な静的行列を実装できる。 本稿では,ビットシリアル行列乗算器の構造を示し,正規符号付き桁表現を用いて論理利用のさらなる削減を図る。 我々は、これらの行列を大きなFPGA上に実装し、シンプルで拡張可能なコストモデルを提供する。 これらのFPGAの実装は平均して、GPUライブラリと比較して50倍のレイテンシを86倍に削減する。 最近のスパースdnn加速器と比較すると、マトリックス次元とスパース性に依存するレイテンシの4.1倍から47倍削減できる。 FPGAソリューションのスループットは、幅広い行列次元とバッチサイズに対して競合する。 最後に,これらの手法をASICに展開する方法について議論し,動的スパース行列計算に適用する。

Reservoir computing systems rely on the recurrent multiplication of a very large, sparse, fixed matrix. We argue that direct spatial implementation of these fixed matrices minimizes the work performed in the computation, and allows for significant reduction in latency and power through constant propagation and logic minimization. Bit-serial arithmetic enables massive static matrices to be implemented. We present the structure of our bit-serial matrix multiplier, and evaluate using canonical signed digit representation to further reduce logic utilization. We have implemented these matrices on a large FPGA and provide a cost model that is simple and extensible. These FPGA implementations, on average, reduce latency by 50x up to 86x versus GPU libraries. Comparing against a recent sparse DNN accelerator, we measure a 4.1x to 47x reduction in latency depending on matrix dimension and sparsity. Throughput of the FPGA solution is also competitive for a wide range of matrix dimensions and batch sizes. Finally, we discuss ways these techniques could be deployed in ASICs, making them applicable for dynamic sparse matrix computations.
翻訳日:2021-03-21 07:47:12 公開日:2021-01-21
# リモート電気ネットワークコンディションモニタリングのための人工知能を用いたセンサデータ分析フレームワーク

Artificial Intelligence based Sensor Data Analytics Framework for Remote Electricity Network Condition Monitoring ( http://arxiv.org/abs/2102.03356v1 )

ライセンス: Link先を確認
Tharmakulasingam Sirojan(参考訳) 農村電化は、単一ワイヤアースリターン(SWER)ネットワークのような安価な技術の使用を要求する。 リモート消費者からのエネルギー需要は着実に増加しており、既存の路線の容量はすぐに不足する可能性がある。 さらに、SWER線からの高インピーダンスアーク断層(HIF)は、2009年のブラック・サタデー・イベントのような大火を引き起こす可能性がある。 ソリューションとして、既存のシステムをマイクログリッドに分解することで、信頼性の高い遠隔電気ネットワークを確立することができ、既存のSWER回線を使用してマイクログリッドを相互接続することができる。 エネルギー需要管理を向上した信頼性の高いネットワークの開発は、ネットワーク全体の状態監視システムの構築に依存している。 この論文の最初の貢献として、SWERネットワークにおける電力品質モニタリング、リアルタイムHIF識別、過渡分類を含む分散オンライン監視プラットフォームを開発した。 人工知能(AI)ベースの技術は、障害と過渡性を分類するために開発されている。 提案手法は高いHIF検出精度 (98.67%) と検出遅延 (115.2 ms) を示す。 次に,その過渡状態から負荷タイプを検出するために,リモートコンシューマの負荷識別手法を開発した。 負荷同定のための高周波解析を容易にするためにエッジコンピューティングに基づくアーキテクチャを提案する。 提案手法はリアルタイムに評価され,負荷の同定において平均98%の精度が得られる。 最後に、集約信号から負荷特異的エネルギーの使用を分離するために、ディープニューラルネットワークに基づくエネルギー分散フレームワークを開発する。 提案フレームワークは実世界のデータセットを用いて評価される。 信号集約誤差を44%改善し、最先端技術と比較して平均集約誤差を19%改善する。

Rural electrification demands the use of inexpensive technologies such as single wire earth return (SWER) networks. There is a steadily growing energy demand from remote consumers, and the capacity of existing lines may become inadequate soon. Furthermore, high impedance arcing faults (HIF) from SWER lines can cause catastrophic bushfires such as the 2009 Black Saturday event. As a solution, reliable remote electricity networks can be established through breaking the existing systems down into microgrids, and existing SWER lines can be utilised to interconnect those microgrids. The development of such reliable networks with better energy demand management will rely on having an integrated network-wide condition monitoring system. As the first contribution of this thesis, a distributed online monitoring platform is developed that incorporates power quality monitoring, real-time HIF identification and transient classification in SWER network. Artificial Intelligence (AI) based techniques are developed to classify faults and transients. The proposed approach demonstrates higher HIF detection accuracy (98.67%) and reduced detection latency (115.2 ms). Secondly, a remote consumer load identification methodology is developed to detect the load type from its transients. An edge computing-based architecture is proposed to facilitate the high-frequency analysis for load identification. The proposed approach is evaluated in real-time, and it achieves an average accuracy of 98% in identifying different loads. Finally, a deep neural network-based energy disaggregation framework is developed to separate the load specific energy usage from an aggregated signal. The proposed framework is evaluated using a real-world data set. It improves the signal aggregate error by 44% and mean aggregate error by 19% in comparison with the state-of-the-art techniques.
翻訳日:2021-03-21 07:46:32 公開日:2021-01-21
# 対数比較による最適フルランキング

Optimal Full Ranking from Pairwise Comparisons ( http://arxiv.org/abs/2101.08421v1 )

ライセンス: Link先を確認
Pinhan Chen, Chao Gao, Anderson Y. Zhang(参考訳) ブラッドリー・テリー・ルースモデルに基づく部分対比較データからn$プレイヤーをランク付けする問題を考える。 文献の中で初めて、このランキング問題の最小値は、逆数を数えて2つのランクベクトル間の差を測定するケンドールのタウ距離について導出される。 ランキングの最小レートは、問題の信号対雑音比の大きさに応じて指数率と多項式率の遷移を示す。 我々の知る限りでは、この現象は完全なランキングに特有であり、他の統計的推定問題では見られていない。 ミニマックスレートを達成するために,まず,n$ プレーヤーを類似したスキルのグループに分割し,次に各グループ内のローカル mle を計算する分割・コンクエストランキングアルゴリズムを提案する。 提案アルゴリズムの最適性は、2つのステップ間の注意深い近似独立性論によって確立される。

We consider the problem of ranking $n$ players from partial pairwise comparison data under the Bradley-Terry-Luce model. For the first time in the literature, the minimax rate of this ranking problem is derived with respect to the Kendall's tau distance that measures the difference between two rank vectors by counting the number of inversions. The minimax rate of ranking exhibits a transition between an exponential rate and a polynomial rate depending on the magnitude of the signal-to-noise ratio of the problem. To the best of our knowledge, this phenomenon is unique to full ranking and has not been seen in any other statistical estimation problem. To achieve the minimax rate, we propose a divide-and-conquer ranking algorithm that first divides the $n$ players into groups of similar skills and then computes local MLE within each group. The optimality of the proposed algorithm is established by a careful approximate independence argument between the two steps.
翻訳日:2021-03-21 07:46:09 公開日:2021-01-21
# コード生成による指静脈認識

Finger Vein Recognition by Generating Code ( http://arxiv.org/abs/2101.08415v1 )

ライセンス: Link先を確認
Zhongxia Zhang, Mingwen Wang(参考訳) フィンガー静脈認識は、高い識別能力、セキュリティ、非侵襲的な処置のために最も人気があり有望な生体認証の1つとして注目されている。 伝統的なスキームの主なアイデアは、指の静脈の画像やパターンから特徴を直接抽出し、特徴を比較して最適なマッチングを見つけることである。 しかし,画像から抽出した特徴には冗長なデータが多く,パターンから抽出した特徴は画像分割法に大きく影響されている。 これらの問題を解決するために,コード生成による新しい指静脈認識を提案する。 提案手法は,画像分割アルゴリズムを必要とせず,計算が容易で,少ないデータ量を有する。 まず、指静脈像をブロックに分割して平均値を算出した。 そして、生成した固有行列を用いて遠心対称符号化を行う。 得られたコードワードは、画像の特徴コードワードとして連結される。 静脈コード間の類似度は、最小ハミング距離とコードワード長の比率で測定される。 提案手法の有効性を検証するため,2つの公衆指静脈データベースを用いた広範囲な実験を行った。 その結果,本手法は最先端の手法よりも優れ,マッチングタスクの実行において競争力を有することがわかった。

Finger vein recognition has drawn increasing attention as one of the most popular and promising biometrics due to its high distinguishes ability, security and non-invasive procedure. The main idea of traditional schemes is to directly extract features from finger vein images or patterns and then compare features to find the best match. However, the features extracted from images contain much redundant data, while the features extracted from patterns are greatly influenced by image segmentation methods. To tack these problems, this paper proposes a new finger vein recognition by generating code. The proposed method does not require an image segmentation algorithm, is simple to calculate and has a small amount of data. Firstly, the finger vein images were divided into blocks to calculate the mean value. Then the centrosymmetric coding is performed by using the generated eigenmatrix. The obtained codewords are concatenated as the feature codewords of the image. The similarity between vein codes is measured by the ratio of minimum Hamming distance to codeword length. Extensive experiments on two public finger vein databases verify the effectiveness of the proposed method. The results indicate that our method outperforms the state-of-theart methods and has competitive potential in performing the matching task.
翻訳日:2021-03-21 07:45:56 公開日:2021-01-21
# LEAF: オーディオ分類のための学習可能なフロントエンド

LEAF: A Learnable Frontend for Audio Classification ( http://arxiv.org/abs/2101.08596v1 )

ライセンス: Link先を確認
Neil Zeghidour, Olivier Teboul, F\'elix de Chaumont Quitry, Marco Tagliasacchi(参考訳) メルフィルターバンクは、人間の知覚をエミュレートする、固定されたオーディオ機能で、現在までの音声理解の歴史を通じて使われている。 しかし、その不確定な性質は手作り表現の基本的な限界によって相反する。 本研究では,メルフィルタバンクを,音声,音楽,音声イベント,動物音など幅広い音声信号で上回る1つの学習可能なフロントエンドを訓練できることを示し,音声分類のための汎用学習フロントエンドを提供する。 そこで我々は,メルフィルタバンクのドロップイン代替として使用可能な,原則付きで軽量で完全に学習可能なアーキテクチャを提案する。 本システムでは,フィルタリングからプール,圧縮,正規化まで,音声特徴抽出のすべての操作を学習し,任意のニューラルネットワークに統合することができる。 我々は8つの多様な音声分類タスクでマルチタスクトレーニングを行い、メルフィルタバンクや従来の学習可能な代替品よりもモデルの一貫した改善を示す。 さらに,本システムは,現在学習可能な音声セットのフロントエンドを,桁違いに少ないパラメータで上回っている。

Mel-filterbanks are fixed, engineered audio features which emulate human perception and have been used through the history of audio understanding up to today. However, their undeniable qualities are counterbalanced by the fundamental limitations of handmade representations. In this work we show that we can train a single learnable frontend that outperforms mel-filterbanks on a wide range of audio signals, including speech, music, audio events and animal sounds, providing a general-purpose learned frontend for audio classification. To do so, we introduce a new principled, lightweight, fully learnable architecture that can be used as a drop-in replacement of mel-filterbanks. Our system learns all operations of audio features extraction, from filtering to pooling, compression and normalization, and can be integrated into any neural network at a negligible parameter cost. We perform multi-task training on eight diverse audio classification tasks, and show consistent improvements of our model over mel-filterbanks and previous learnable alternatives. Moreover, our system outperforms the current state-of-the-art learnable frontend on Audioset, with orders of magnitude fewer parameters.
翻訳日:2021-03-21 07:44:59 公開日:2021-01-21
# Synwalk -- ランダムウォークモデルによるコミュニティ検出

Synwalk -- Community Detection via Random Walk Modelling ( http://arxiv.org/abs/2101.08623v1 )

ライセンス: Link先を確認
Christian Toth, Denis Helic, Bernhard C. Geiger(参考訳) 複雑なシステムは、抽象的にネットワークとして表現され、日常生活においてユビキタスである。 これらのシステムの解析と理解には,コミュニティ検出ツールなどが必要である。 最良のコミュニティ検出アルゴリズムは存在しないため、さまざまな問題設定における堅牢性が望ましい。 本研究では,ランダムな歩行に基づくコミュニティ検出手法であるSynwalkを提案する。 Synwalkは確固たる理論的基盤の上に構築され、与えられたネットワークによって誘導されるランダムウォークを、候補となるランダムウォークのクラスから合成することによって、コミュニティを検出する。 合成ネットワークと経験ネットワークにおけるアプローチの有効性を徹底的に検証し,Synwalkの性能とInfomapとWalktrapの性能を比較した。 この結果から,Synwalkは様々な混合パラメータと次数分布を持つネットワーク上で頑健に動作することがわかった。 混合パラメータが高いネットワークではInfomapを上回り、小さなコミュニティが多くて平均度が低いネットワークではInfomapとWalktrapを上回ります。 我々の研究は、ランダムウォークの合成によるコミュニティ検出のさらなる発展を促す可能性があり、将来の研究に具体的なアイデアを提供する。

Complex systems, abstractly represented as networks, are ubiquitous in everyday life. Analyzing and understanding these systems requires, among others, tools for community detection. As no single best community detection algorithm can exist, robustness across a wide variety of problem settings is desirable. In this work, we present Synwalk, a random walk-based community detection method. Synwalk builds upon a solid theoretical basis and detects communities by synthesizing the random walk induced by the given network from a class of candidate random walks. We thoroughly validate the effectiveness of our approach on synthetic and empirical networks, respectively, and compare Synwalk's performance with the performance of Infomap and Walktrap. Our results indicate that Synwalk performs robustly on networks with varying mixing parameters and degree distributions. We outperform Infomap on networks with high mixing parameter, and Infomap and Walktrap on networks with many small communities and low average degree. Our work has a potential to inspire further development of community detection via synthesis of random walks and we provide concrete ideas for future research.
翻訳日:2021-03-21 07:44:40 公開日:2021-01-21
# コミュニケーション効率のよい連合学習のための時間相関スパルサフィケーション

Time-Correlated Sparsification for Communication-Effici ent Federated Learning ( http://arxiv.org/abs/2101.08837v1 )

ライセンス: Link先を確認
Emre Ozfatura and Kerem Ozfatura and Deniz Gunduz(参考訳) フェデレーション学習(fl)は、複数のクライアントがローカルデータセットを開示することなく、共有モデルを協調的にトレーニングすることを可能にする。 これはパラメータサーバ(PS)の助けを借りてローカルモデルの更新を交換することで実現される。 しかし、トレーニングされたモデルのサイズが大きくなるため、クライアントとps間の反復的な交換による通信負荷がパフォーマンスのボトルネックとなることが多い。 スパース通信は、モデル更新のごく一部のみがクライアントからpsに通信されるため、通信負荷を低減するためにしばしば使用される。 本稿では、スパース通信フレームワークを基礎となるモデルの最も重要な要素を識別できると考えることができるという概念に基づいて、新しい時間相関スパース化(tcs)スキームを提案する。 従って、tcsは、flの連続イテレーションで使用されるスパース表現と、スパース表現の符号化と伝送によるオーバーヘッドがテスト精度を損なうことなく大幅に低減されるように、一定の相関関係を求める。 cifar-10データセットの広範なシミュレーションを通じて、tcsは100倍のスパーシフィケーションと最大2000倍の量子化による通信負荷削減で集中的なトレーニング精度を達成できることを示した。

Federated learning (FL) enables multiple clients to collaboratively train a shared model without disclosing their local datasets. This is achieved by exchanging local model updates with the help of a parameter server (PS). However, due to the increasing size of the trained models, the communication load due to the iterative exchanges between the clients and the PS often becomes a bottleneck in the performance. Sparse communication is often employed to reduce the communication load, where only a small subset of the model updates are communicated from the clients to the PS. In this paper, we introduce a novel time-correlated sparsification (TCS) scheme, which builds upon the notion that sparse communication framework can be considered as identifying the most significant elements of the underlying model. Hence, TCS seeks a certain correlation between the sparse representations used at consecutive iterations in FL, so that the overhead due to encoding and transmission of the sparse representation can be significantly reduced without compromising the test accuracy. Through extensive simulations on the CIFAR-10 dataset, we show that TCS can achieve centralized training accuracy with 100 times sparsification, and up to 2000 times reduction in the communication load when employed together with quantization.
翻訳日:2021-03-21 07:44:25 公開日:2021-01-21