このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201220となっている論文です。

PDF登録状況(公開日: 20201220)

TitleAuthorsAbstract論文公表日・翻訳日
# 意味的人間の移動行動のマイニング・発見・分析手法

Methodology for Mining, Discovering and Analyzing Semantic Human Mobility Behaviors ( http://arxiv.org/abs/2012.04767v2 )

ライセンス: Link先を確認
Clement Moreau and Thomas Devogele and Laurent Etienne and Veronika Peralta and Cyril de Runz(参考訳) 様々な機関が日々の活動や人間の移動に関する情報を含む大規模なセマンティックデータセットを作成している。 このようなデータの分析と理解は、都市計画、社会心理学、政治科学、疫学に不可欠である。 しかし、データマイニングの典型的なプロセスは、セマンティックモビリティシーケンスの徹底的な解析のためにカスタマイズされず、データを理解可能な振る舞いに変換する。 そこで本研究では,情報と行動のコヒーレントを識別するために,意味的モビリティシーケンスをマイニングし分析するための新しい手法であるsimba(semantic indicators for mobility and behavior analysis)を提案する。 相補的な統計指標と視覚ツールを統合したセマンティックシーケンスのモビリティ分析とクラスタリングの可視性を示すフレームワークを実装した。 この手法を検証するために,家庭内旅行調査から得られた実日移動シーケンスを多数使用した。 補足的知識は提案手法で自動的に検出される。

Various institutes produce large semantic datasets containing information regarding daily activities and human mobility. The analysis and understanding of such data are crucial for urban planning, socio-psychology, political sciences, and epidemiology. However, none of the typical data mining processes have been customized for the thorough analysis of semantic mobility sequences to translate data into understandable behaviors. Based on an extended literature review, we propose a novel methodological pipeline called simba (Semantic Indicators for Mobility and Behavior Analysis), for mining and analyzing semantic mobility sequences to identify coherent information and human behaviors. A framework for semantic sequence mobility analysis and clustering explicability based on integrating different complementary statistical indicators and visual tools is implemented. To validate this methodology, we used a large set of real daily mobility sequences obtained from a household travel survey. Complementary knowledge is automatically discovered in the proposed method.
翻訳日:2021-05-16 21:03:24 公開日:2020-12-20
# (参考訳) AdnFM: CTR予測のための注意用DenseNetベースの因子化マシン [全文訳有]

AdnFM: An Attentive DenseNet based Factorization Machine for CTR Prediction ( http://arxiv.org/abs/2012.10820v1 )

ライセンス: CC BY 4.0
Kai Wang, Chunxu Shen, Wenye Ma(参考訳) 本稿では,Click-Through-Rate( CTR)予測問題について考察する。 ファクトリゼーションマシンとその変種は、ペアワイズな機能相互作用を考慮しますが、通常は、高速な複雑さのため、FMを使った高次機能相互作用は行いません。 多くの分野でディープニューラルネットワーク(DNN)の成功を考えると、研究者は高次特徴相互作用を学ぶためにいくつかのDNNベースのモデルを提案している。 マルチ層パーセプトロン (MLP) は機能埋め込みから最終ログへの信頼性の高いマッピングを学習するために広く用いられている。 本稿では,これらの高次特徴の相互作用についてより深く検討することを目的とする。 しかし、高次機能相互作用はより注意と更なる開発に値する。 本稿では,コンピュータビジョンにおけるDensely Connected Convolutional Networks (DenseNet) の大きな成果に触発されて,Attentive DenseNet based Factorization Machines (AdnFM) と呼ばれる新しいモデルを提案する。 adnfmは、フィードフォワードニューラルネットワークから隠されたすべてのレイヤを暗黙の高次特徴として使用することで、より包括的な深い特徴を抽出することができる。 また、DNNを用いた暗黙の方法での高次相互作用は、例えばFMのような明示的な方法よりもコスト効率が高い。 2つの実世界のデータセットに対する大規模な実験により、提案モデルがCTR予測の性能を効果的に改善できることが示されている。

In this paper, we consider the Click-Through-Rate (CTR) prediction problem. Factorization Machines and their variants consider pair-wise feature interactions, but normally we won't do high-order feature interactions using FM due to high time complexity. Given the success of deep neural networks (DNNs) in many fields, researchers have proposed several DNN-based models to learn high-order feature interactions. Multi-layer perceptrons (MLP) have been widely employed to learn reliable mappings from feature embeddings to final logits. In this paper, we aim to explore more about these high-order features interactions. However, high-order feature interaction deserves more attention and further development. Inspired by the great achievements of Densely Connected Convolutional Networks (DenseNet) in computer vision, we propose a novel model called Attentive DenseNet based Factorization Machines (AdnFM). AdnFM can extract more comprehensive deep features by using all the hidden layers from a feed-forward neural network as implicit high-order features, then selects dominant features via an attention mechanism. Also, high-order interactions in the implicit way using DNNs are more cost-efficient than in the explicit way, for example in FM. Extensive experiments on two real-world datasets show that the proposed model can effectively improve the performance of CTR prediction.
翻訳日:2021-05-01 09:20:22 公開日:2020-12-20
# (参考訳) 実際のビジュアルストリームを伴わない視覚音声強調 [全文訳有]

Visual Speech Enhancement Without A Real Visual Stream ( http://arxiv.org/abs/2012.10852v1 )

ライセンス: CC BY 4.0
Sindhu B Hegde, K R Prajwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C.V. Jawahar(参考訳) 本研究では,制約のない実環境における音声強調の課題を再考する。 現在の最先端の手法はオーディオストリームのみを使用しており、その性能は幅広い現実世界のノイズで制限されている。 唇の動きを付加的な手がかりとして用いた最近の研究は、"audio-only"法よりも生成音声の品質を向上させる。 しかし、これらの方法は、ビジュアルストリームが信頼できない、あるいは完全に欠落しているいくつかのアプリケーションでは使用できない。 音声駆動唇合成における最近のブレークスルーを生かして,音声強調のための新しいパラダイムを提案する。 教師ネットワークのようなモデルを用いて, 学生ネットワークを訓練し, 音を遮蔽する正確な唇運動を生成し, 「視覚ノイズフィルタ」として機能する。 擬似リップアプローチにより強調された音声の明瞭度は, 実唇を用いた場合と比較して 3% 差がある。 これは、実際のビデオストリームがなくても、唇の動きを利用する利点を活用できることを意味している。 定量的指標と人的評価を用いて, 厳密な評価を行った。 さらなるアブレーション研究とwebサイトのデモビデオでは、質的比較と結果が、我々のアプローチの有効性を明確に示しています。 本稿では,提案手法の有効性を,Webサイト上で明らかに示すデモビデオを提供する。 コードとモデルは、将来の研究のためにもリリースされている。

In this work, we re-think the task of speech enhancement in unconstrained real-world environments. Current state-of-the-art methods use only the audio stream and are limited in their performance in a wide range of real-world noises. Recent works using lip movements as additional cues improve the quality of generated speech over "audio-only" methods. But, these methods cannot be used for several applications where the visual stream is unreliable or completely absent. We propose a new paradigm for speech enhancement by exploiting recent breakthroughs in speech-driven lip synthesis. Using one such model as a teacher network, we train a robust student network to produce accurate lip movements that mask away the noise, thus acting as a "visual noise filter". The intelligibility of the speech enhanced by our pseudo-lip approach is comparable (< 3% difference) to the case of using real lips. This implies that we can exploit the advantages of using lip movements even in the absence of a real video stream. We rigorously evaluate our model using quantitative metrics as well as human evaluations. Additional ablation studies and a demo video on our website containing qualitative comparisons and results clearly illustrate the effectiveness of our approach. We provide a demo video which clearly illustrates the effectiveness of our proposed approach on our website: \url{http://cvit.iiit.ac. in/research/projects /cvit-projects/visua l-speech-enhancement -without-a-real-visu al-stream}. The code and models are also released for future research: \url{https://github.com/S indhu-Hegde/pseudo-v isual-speech-denoisi ng}.
翻訳日:2021-05-01 08:57:36 公開日:2020-12-20
# (参考訳) 歩行者検出のためのマルチモーダル学習 [全文訳有]

Where, What, Whether: Multi-modal Learning Meets Pedestrian Detection ( http://arxiv.org/abs/2012.10880v1 )

ライセンス: CC BY 4.0
Yan Luo, Chongyang Zhang, Muming Zhao, Hao Zhou, Jun Sun(参考訳) 歩行者検出は深層畳み込みニューラルネットワーク(cnns)から大きな恩恵を受けている。 しかし、CNNが閉塞やスケールの変動がある状況に対処することは本質的に困難である。 本稿では,歩行者検出タスクを<textbf{\textit{w}}hat,<textbf{\textit{w}}hat,<textbf{\textit{w}}hether problem directing against pedestrian localization, scale prediction, and classification basedly)に分解することで,上記の課題に対処しようとするw$^3$netを提案する。 具体的には,歩行者の場合,その特徴を3つのステップで定式化する。 一 閉塞問題のない鳥のビューマップを作成し、その上のすべてのポイントをスキャンして、各歩行者のインスタンスに適した場所を探します。 二 あらかじめ固定したアンカーを利用する代わりに、異なる位置における深度誘導スケールの生成を目的とした深度とスケールの相互依存性をモデル化し、異なる大きさのインスタンスをよりよくマッチングする。 iii)視覚空間とコーパス空間の両方で共有される潜在ベクトルを学習し、同様の垂直構造を持つが人間の部分的特徴を欠いた偽陽性をフィルターアウトする。 広く使われているデータセット(CitypersonsとCaltech)について、最先端の結果を得る。 特に。 ヘビーオクルージョン部分集合の評価では、mr$^{-2}$を49.3$\%$から18.7$\%$に減らし、カルテックでは45.18$$$$$から28.33$\%$に減らした。

Pedestrian detection benefits greatly from deep convolutional neural networks (CNNs). However, it is inherently hard for CNNs to handle situations in the presence of occlusion and scale variation. In this paper, we propose W$^3$Net, which attempts to address above challenges by decomposing the pedestrian detection task into \textbf{\textit{W}}here, \textbf{\textit{W}}hat and \textbf{\textit{W}}hether problem directing against pedestrian localization, scale prediction and classification correspondingly. Specifically, for a pedestrian instance, we formulate its feature by three steps. i) We generate a bird view map, which is naturally free from occlusion issues, and scan all points on it to look for suitable locations for each pedestrian instance. ii) Instead of utilizing pre-fixed anchors, we model the interdependency between depth and scale aiming at generating depth-guided scales at different locations for better matching instances of different sizes. iii) We learn a latent vector shared by both visual and corpus space, by which false positives with similar vertical structure but lacking human partial features would be filtered out. We achieve state-of-the-art results on widely used datasets (Citypersons and Caltech). In particular. when evaluating on heavy occlusion subset, our results reduce MR$^{-2}$ from 49.3$\%$ to 18.7$\%$ on Citypersons, and from 45.18$\%$ to 28.33$\%$ on Caltech.
翻訳日:2021-05-01 08:36:57 公開日:2020-12-20
# (参考訳) ppgn: 表現理解のための句案内提案生成ネットワーク [全文訳有]

PPGN: Phrase-Guided Proposal Generation Network For Referring Expression Comprehension ( http://arxiv.org/abs/2012.10890v1 )

ライセンス: CC BY 4.0
Chao Yang, Guoqing Wang, Dongsheng Li, Huawei Shen, Su Feng, Bin Jiang(参考訳) 参照表現理解(reference expression comprehension, REC)は、ある画像中のフレーズが参照する位置を見つけることを目的とする。 提案生成と提案表現は多くの2段階のREC手法において2つの有効な手法である。 しかし、既存の作業の多くは提案表現のみに焦点を当て、提案生成の重要性を無視している。 その結果、これらの手法によって生成される低品質な提案は、RECタスクのパフォーマンスボトルネックとなる。 本稿では,提案生成の問題を再考し,新しいフレーズ誘導提案生成ネットワーク(PPGN)を提案する。 PPGNの主な実装原理は、テキストで視覚的特徴を洗練し、回帰を通じて提案を生成することである。 ベンチマークデータセットにおいて,本手法が有効であることを示す実験を行った。

Reference expression comprehension (REC) aims to find the location that the phrase refer to in a given image. Proposal generation and proposal representation are two effective techniques in many two-stage REC methods. However, most of the existing works only focus on proposal representation and neglect the importance of proposal generation. As a result, the low-quality proposals generated by these methods become the performance bottleneck in REC tasks. In this paper, we reconsider the problem of proposal generation, and propose a novel phrase-guided proposal generation network (PPGN). The main implementation principle of PPGN is refining visual features with text and generate proposals through regression. Experiments show that our method is effective and achieve SOTA performance in benchmark datasets.
翻訳日:2021-05-01 08:23:03 公開日:2020-12-20
# (参考訳) ニューラルネットワークを用いた次元ロバスト関数空間MCMC [全文訳有]

Dimension-robust Function Space MCMC With Neural Network Priors ( http://arxiv.org/abs/2012.10943v1 )

ライセンス: CC BY 4.0
Torben Sell, Sumeetpal S. Singh(参考訳) 本稿では,関数領域の次元において,通常のKarhunen-Lo\eve関数空間よりも好意的にスケールする関数空間に対する新たな先行性を導入する。 提案手法では,各重みとバイアスがgaussian preを持つベイズ型ニューラルネットワークが先行するが,分散が和数列を形成し無限幅極限ニューラルネットワークをよく定義するように,ネットワーク幅のばらつきが減少するという重要な違いがある。 その結果得られた未知関数の後方は、ヒルベルト空間マルコフ連鎖モンテカルロ法を用いてサンプリングできることがわかった。 これらのサンプリング法は、メッシュリファインメントの下で安定であり、パラメータがより多く導入されるにつれて、受容確率が0に縮まることはないという意味で好まれる。 我々の優先順位は競争的であり、他の関数空間よりも異なる利点があることを示している。 強化学習へのベイズ的アプローチで連続値関数の適度な確率を定義すると、数値例でその性能と次元ロバスト性を示すために新しい前置法が用いられる。

This paper introduces a new prior on functions spaces which scales more favourably in the dimension of the function's domain compared to the usual Karhunen-Lo\'eve function space prior, a property we refer to as dimension-robustness . The proposed prior is a Bayesian neural network prior, where each weight and bias has an independent Gaussian prior, but with the key difference that the variances decrease in the width of the network, such that the variances form a summable sequence and the infinite width limit neural network is well defined. We show that our resulting posterior of the unknown function is amenable to sampling using Hilbert space Markov chain Monte Carlo methods. These sampling methods are favoured because they are stable under mesh-refinement, in the sense that the acceptance probability does not shrink to 0 as more parameters are introduced to better approximate the well-defined infinite limit. We show that our priors are competitive and have distinct advantages over other function space priors. Upon defining a suitable likelihood for continuous value functions in a Bayesian approach to reinforcement learning, our new prior is used in numerical examples to illustrate its performance and dimension-robustness .
翻訳日:2021-05-01 07:51:55 公開日:2020-12-20
# (参考訳) バイアスドモデルにはバイアスドの説明がある [全文訳有]

Biased Models Have Biased Explanations ( http://arxiv.org/abs/2012.10986v1 )

ライセンス: CC BY 4.0
Aditya Jain, Manish Ravula, Joydeep Ghosh(参考訳) 機械学習モデルで生成された属性に基づく説明のレンズを通して,機械学習(fairml)の公平性について検討する。 偏りのあるモデルにはバイアスのある説明があります。 それを確立するために、まず、群フェアネスの既存の統計的概念を翻訳し、モデルから与えられた説明の観点からこれらの概念を定義する。 そこで我々は,ブラックボックスモデルに対して不公平を検出する新しい方法を提案する。 公平性のための後処理技術や、バイアス緩和技術をより個々に公平にするための説明の活用方法についても検討する。 また,グループレベルの公平さを維持しつつ,個別の公正さを高める新しい処理後緩和手法を提案する。

We study fairness in Machine Learning (FairML) through the lens of attribute-based explanations generated for machine learning models. Our hypothesis is: Biased Models have Biased Explanations. To establish that, we first translate existing statistical notions of group fairness and define these notions in terms of explanations given by the model. Then, we propose a novel way of detecting (un)fairness for any black box model. We further look at post-processing techniques for fairness and reason how explanations can be used to make a bias mitigation technique more individually fair. We also introduce a novel post-processing mitigation technique which increases individual fairness in recourse while maintaining group level fairness.
翻訳日:2021-05-01 06:03:42 公開日:2020-12-20
# (参考訳) フィードバックループの回避による公平なパーソナライズに向けて [全文訳有]

Towards Fair Personalization by Avoiding Feedback Loops ( http://arxiv.org/abs/2012.12862v1 )

ライセンス: CC BY 4.0
G\"okhan \c{C}apan, \"Ozge Bozal, \.Ilker G\"undo\u{g}du, Ali Taylan Cemgil(参考訳) 自己情報フィードバックループは、インタラクティブなレコメンデーションシステムにおけるコンテンツの過剰および/または過小表示の原因と効果の両方である。 これはユーザの好みの誤った推定、すなわち過剰な表示されたコンテンツの過大評価につながると同時に、各選択肢に対して提示する権利を侵害することになります。 代替案への体系的かつ限定的な露出を明示的に含み、あるいは無視する2つのモデルを検討する。 シミュレーションにより, 体系的なプレゼンテーションを無視して, 推奨選択肢を過大評価し, 検閲された代替案を過小評価することを示す。 単に限定された露出の条件付けは、これらのバイアスの修正である。

Self-reinforcing feedback loops are both cause and effect of over and/or under-presentation of some content in interactive recommender systems. This leads to erroneous user preference estimates, namely, overestimation of over-presented content while violating the right to be presented of each alternative, contrary of which we define as a fair system. We consider two models that explicitly incorporate, or ignore the systematic and limited exposure to alternatives. By simulations, we demonstrate that ignoring the systematic presentations overestimates promoted options and underestimates censored alternatives. Simply conditioning on the limited exposure is a remedy for these biases.
翻訳日:2021-05-01 05:53:33 公開日:2020-12-20
# (参考訳) 臨床結果に対する予測モデルの投票:臨床データから敗血症を早期に予測するためのアルゴリズムのコンセンサスとPhysoryNet/Computing in Cardiology Challenge 2019の分析 [全文訳有]

Voting of predictive models for clinical outcomes: consensus of algorithms for the early prediction of sepsis from clinical data and an analysis of the PhysioNet/Computing in Cardiology Challenge 2019 ( http://arxiv.org/abs/2012.11013v1 )

ライセンス: CC BY 4.0
Matthew A. Reyna and Gari D. Clifford(参考訳) 弱い学習者の促進に関する研究は盛んに行われているが、強い学習者からの促進に関する研究はほとんど行われていない。 この後者のパラダイムは、学習された重み付き投票の形式である。 本研究では,70個の個別アルゴリズムからアンサンブルアルゴリズムを構築し,臨床データから敗血症の早期予測を行うことについて検討する。 このアンサンブルアルゴリズムは、特にほとんどのアルゴリズムが一般化に失敗した隠れテストセットにおいて、別個のアルゴリズムよりも優れていることがわかった。

Although there has been significant research in boosting of weak learners, there has been little work in the field of boosting from strong learners. This latter paradigm is a form of weighted voting with learned weights. In this work, we consider the problem of constructing an ensemble algorithm from 70 individual algorithms for the early prediction of sepsis from clinical data. We find that this ensemble algorithm outperforms separate algorithms, especially on a hidden test set on which most algorithms failed to generalize.
翻訳日:2021-05-01 05:47:24 公開日:2020-12-20
# (参考訳) 収縮係数を用いたオンライン学習アルゴリズムのプライバシー分析 [全文訳有]

Privacy Analysis of Online Learning Algorithms via Contraction Coefficients ( http://arxiv.org/abs/2012.11035v1 )

ライセンス: CC BY 4.0
Shahab Asoodeh, Mario Diaz, and Flavio P. Calmon(参考訳) オンラインアルゴリズムのプライバシー保証を分析するための情報理論手法を提案する。 具体的には,f$-divergences に対する強データ処理不等式から導出される縮約係数の直接適用により,反復アルゴリズムの差分プライバシー保証を決定できることを実証する。 本手法は,全変動距離に対するドブルシンの収縮係数を,$E_\gamma$-divergen ceとして知られる$f$-divergenceに一般化することに依存する。 すると$E_\gamma$-divergenc eは、近似微分プライバシーに相当する。 一例として,勾配降下の差分プライバシーパラメータを導出するために本手法を適用した。 さらに、このフレームワークは、トレーニングデータセットを1回パスするだけで実装できるバッチ学習アルゴリズムに合わせて調整可能であることも示している。

We propose an information-theoreti c technique for analyzing privacy guarantees of online algorithms. Specifically, we demonstrate that differential privacy guarantees of iterative algorithms can be determined by a direct application of contraction coefficients derived from strong data processing inequalities for $f$-divergences. Our technique relies on generalizing the Dobrushin's contraction coefficient for total variation distance to an $f$-divergence known as $E_\gamma$-divergenc e. $E_\gamma$-divergenc e, in turn, is equivalent to approximate differential privacy. As an example, we apply our technique to derive the differential privacy parameters of gradient descent. Moreover, we also show that this framework can be tailored to batch learning algorithms that can be implemented with one pass over the training dataset.
翻訳日:2021-05-01 05:31:52 公開日:2020-12-20
# ドメインドリフトシナリオに対するポストホック不確実性校正

Post-hoc Uncertainty Calibration for Domain Drift Scenarios ( http://arxiv.org/abs/2012.10988v1 )

ライセンス: Link先を確認
Christian Tomani, Sebastian Gruber, Muhammed Ebrar Erdem, Daniel Cremers, Florian Buettner(参考訳) 不確実性校正の問題に対処する。 標準のディープニューラルネットワークは通常、非校正された予測を生成するが、予測の真の可能性を表す校正された信頼スコアは、ポストホックキャリブレーション法を用いて達成できる。 しかし、これまでこれらのアプローチはドメイン内校正に重点を置いてきた。 私たちの貢献は2倍です。 まず,既存のポストホックキャリブレーション手法が,ドメインシフト下での信頼度の高い予測をもたらすことを示す。 第2に,ポストホックキャリブレーションステップを行う前に,検証セット内のサンプルに摂動を適用する簡単な戦略を提案する。 広範にわたる実験では、この摂動ステップにより、幅広いアーキテクチャやモデリングタスクにおけるドメインシフトのキャリブレーションが大幅に向上することを示した。

We address the problem of uncertainty calibration. While standard deep neural networks typically yield uncalibrated predictions, calibrated confidence scores that are representative of the true likelihood of a prediction can be achieved using post-hoc calibration methods. However, to date the focus of these approaches has been on in-domain calibration. Our contribution is two-fold. First, we show that existing post-hoc calibration methods yield highly over-confident predictions under domain shift. Second, we introduce a simple strategy where perturbations are applied to samples in the validation set before performing the post-hoc calibration step. In extensive experiments, we demonstrate that this perturbation step results in substantially better calibration under domain shift on a wide range of architectures and modelling tasks.
翻訳日:2021-05-01 04:50:24 公開日:2020-12-20
# Transductive Visual Verb Sense Disambiguation

Transductive Visual Verb Sense Disambiguation ( http://arxiv.org/abs/2012.10821v1 )

ライセンス: Link先を確認
Sebastiano Vascon, Sinem Aslan, Gianluca Bigaglia, Lorenzo Giudice, Marcello Pelillo(参考訳) Verb Sense DisambiguationはNLPでよく知られたタスクであり、文中の動詞の正しい感覚を見つけることを目的としている。 近年,不明瞭な動詞のテキスト的特徴と視覚的特徴の両面を活かして,新たな問題となるVisual Verb Sense Disambiguation (VVSD) が提案されている。 ここでは、動詞が現れる文ではなく、それと対になる画像の内容を考慮して動詞の感覚を割り当てる。 なぜなら、<$image, verb$>$のペアに正しい意味を割り当てるには、非自明な言語スキルと視覚スキルの両方が必要であるからです。 本研究は、文献と異なり、VVSDタスクは、少量のラベル付き情報のみを必要とするトランスダクティブ半教師付き学習(SSL)設定で実行され、注釈付きデータの必要性を大幅に低減する。 曖昧化のプロセスは、$<$image, verb$>$ pairsのmonoまたはmultimodal表現を考慮に入れるグラフベースのラベル伝播法に基づいている。 このタスクで唯一利用可能なデータセットである、最近公開されたデータセットVerSeで実験が行われた。 得られた結果は、各感覚ごとにわずかにラベル付けされたサンプルを使用しながら、現在の最先端を大きなマージンで上回る。 コードはhttps://github.com/G iBg1aN/TVVSD。

Verb Sense Disambiguation is a well-known task in NLP, the aim is to find the correct sense of a verb in a sentence. Recently, this problem has been extended in a multimodal scenario, by exploiting both textual and visual features of ambiguous verbs leading to a new problem, the Visual Verb Sense Disambiguation (VVSD). Here, the sense of a verb is assigned considering the content of an image paired with it rather than a sentence in which the verb appears. Annotating a dataset for this task is more complex than textual disambiguation, because assigning the correct sense to a pair of $<$image, verb$>$ requires both non-trivial linguistic and visual skills. In this work, differently from the literature, the VVSD task will be performed in a transductive semi-supervised learning (SSL) setting, in which only a small amount of labeled information is required, reducing tremendously the need for annotated data. The disambiguation process is based on a graph-based label propagation method which takes into account mono or multimodal representations for $<$image, verb$>$ pairs. Experiments have been carried out on the recently published dataset VerSe, the only available dataset for this task. The achieved results outperform the current state-of-the-art by a large margin while using only a small fraction of labeled samples per sense. Code available: https://github.com/G iBg1aN/TVVSD.
翻訳日:2021-05-01 04:50:10 公開日:2020-12-20
# KRISP:オープンドメイン知識に基づくVQAのための暗黙的・象徴的知識の統合

KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA ( http://arxiv.org/abs/2012.11014v1 )

ライセンス: Link先を確認
Kenneth Marino, Xinlei Chen, Devi Parikh, Abhinav Gupta, Marcus Rohrbach(参考訳) VQAの最も難しい質問タイプの一つは、疑問に答えるには、画像に存在しない外部知識が必要である。 本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。 知識表現と推論には2つのタイプがあります。 まず、教師なし言語から効果的に学習できる暗黙的知識と、トランスフォーマモデルを用いた教師なし学習データ。 第二に、明示的で象徴的な知識が知識ベースで符号化される。 我々のアプローチは、応答予測のためにトランスフォーマーモデルの強力な暗黙的推論を活用し、知識グラフから象徴的表現を統合すると同時に、明示的なセマンティクスを暗黙的埋め込みに決して失うことなく、両方を組み合わせる。 知識に基づく問題解決に必要な多様な知識をカバーするために、多様な知識源を組み合わせる。 我々のアプローチであるKRISP(Knowledge Reasoning with Implicit and Symbolic RePresentations)は、オープンドメイン知識ベースのVQAで利用可能な最大のデータセットであるOK-VQAにおいて、最先端よりも大幅に優れています。 我々のモデルは暗黙的知識推論をうまく活用する一方で、知識グラフと回答語彙を明示的に接続するシンボリック応答モジュールは、我々の手法の性能に欠かせないものであり、稀な解に一般化する。

One of the most challenging question types in VQA is when answering the question requires outside knowledge not present in the image. In this work we study open-domain knowledge, the setting when the knowledge required to answer a question is not given/annotated, neither at training nor test time. We tap into two types of knowledge representations and reasoning. First, implicit knowledge which can be learned effectively from unsupervised language pre-training and supervised training data with transformer-based models. Second, explicit, symbolic knowledge encoded in knowledge bases. Our approach combines both - exploiting the powerful implicit reasoning of transformer models for answer prediction, and integrating symbolic representations from a knowledge graph, while never losing their explicit semantics to an implicit embedding. We combine diverse sources of knowledge to cover the wide variety of knowledge needed to solve knowledge-based questions. We show our approach, KRISP (Knowledge Reasoning with Implicit and Symbolic rePresentations), significantly outperforms state-of-the-art on OK-VQA, the largest available dataset for open-domain knowledge-based VQA. We show with extensive ablations that while our model successfully exploits implicit knowledge reasoning, the symbolic answer module which explicitly connects the knowledge graph to the answer vocabulary is critical to the performance of our method and generalizes to rare answers.
翻訳日:2021-05-01 04:49:44 公開日:2020-12-20
# DISCO: ディープニューラルネットワークのための動的かつ不変なチャネル難読化

DISCO: Dynamic and Invariant Sensitive Channel Obfuscation for deep neural networks ( http://arxiv.org/abs/2012.11025v1 )

ライセンス: Link先を確認
Abhishek Singh, Ayush Chopra, Vivek Sharma, Ethan Garza, Emily Zhang, Praneeth Vepakomma, Ramesh Raskar(参考訳) 近年のディープラーニングモデルは画像分類において顕著な性能を示している。 これらのディープラーニングシステムは実用的なデプロイメントに近づいているが、データに関する一般的な仮定は、機密情報を持っていないことだ。 この仮定は、特に医療や顔認識システムなど、個人の個人情報が関与する領域において、多くの実践的なケースには当てはまらない。 この潜伏空間の機能を選択的に削除することで、機密情報を保護し、より優れたプライバシーとユーティリティのトレードオフを提供できると仮定する。 そこで本研究では,動的かつデータ駆動のプルーニングフィルタを学習し,特徴空間内の機密情報を選択的に隠蔽するディスコを提案する。 センシティブ・インプット \&属性に対する多様な攻撃手法を提案し,定量的・質的評価を通じて,最先端手法に対するdiscoの有効性を実証する。 最後に,新規攻撃方式の厳密な探索を促進するため,100万個の機密表現の評価ベンチマークデータセットもリリースした。

Recent deep learning models have shown remarkable performance in image classification. While these deep learning systems are getting closer to practical deployment, the common assumption made about data is that it does not carry any sensitive information. This assumption may not hold for many practical cases, especially in the domain where an individual's personal information is involved, like healthcare and facial recognition systems. We posit that selectively removing features in this latent space can protect the sensitive information and provide a better privacy-utility trade-off. Consequently, we propose DISCO which learns a dynamic and data driven pruning filter to selectively obfuscate sensitive information in the feature space. We propose diverse attack schemes for sensitive inputs \& attributes and demonstrate the effectiveness of DISCO against state-of-the-art methods through quantitative and qualitative evaluation. Finally, we also release an evaluation benchmark dataset of 1 million sensitive representations to encourage rigorous exploration of novel attack schemes.
翻訳日:2021-05-01 04:49:15 公開日:2020-12-20
# CNNと統計指標の融合による画像分類の改善

Fusion of CNNs and statistical indicators to improve image classification ( http://arxiv.org/abs/2012.11049v1 )

ライセンス: Link先を確認
Javier Huertas-Tato, Alejandro Mart\'in, Julian Fierrez, David Camacho(参考訳) 畳み込みネットワークは過去10年間コンピュータビジョンの分野を支配しており、非常に強力な特徴抽出能力と優れた分類性能を示している。 この傾向を長引かせる主な戦略は、ネットワーク規模の拡大によるものだ。 しかし、性能改善が限界となる一方で、コストは急速に上昇する。 我々は、より大規模なネットワークを構築するよりも、異質な情報ソースを追加する方がCNNにとってコスト効率が高いと仮定する。 本稿では,手動で定義した統計指標を用いた畳み込みニューラルネットワークアーキテクチャを用いて,画像の正確な分類のためのアンサンブル手法を提案する。 cnnの予測と統計的特徴を訓練した二次分類器の組み合わせにより、より良い分類性能を安価に達成することができる。 複数の学習アルゴリズムとCNNアーキテクチャをさまざまなデータセットでテストして、提案を検証し、GitHub経由ですべてのコードとデータを公開しています。 以上の結果から,追加指標とアンサンブル分類手法を取り入れることで,9つのデータセットのうち8つのパフォーマンスが向上し,そのうち2つで10%以上の精度が向上した。

Convolutional Networks have dominated the field of computer vision for the last ten years, exhibiting extremely powerful feature extraction capabilities and outstanding classification performance. The main strategy to prolong this trend relies on further upscaling networks in size. However, costs increase rapidly while performance improvements may be marginal. We hypothesise that adding heterogeneous sources of information may be more cost-effective to a CNN than building a bigger network. In this paper, an ensemble method is proposed for accurate image classification, fusing automatically detected features through Convolutional Neural Network architectures with a set of manually defined statistical indicators. Through a combination of the predictions of a CNN and a secondary classifier trained on statistical features, better classification performance can be cheaply achieved. We test multiple learning algorithms and CNN architectures on a diverse number of datasets to validate our proposal, making public all our code and data via GitHub. According to our results, the inclusion of additional indicators and an ensemble classification approach helps to increase the performance in 8 of 9 datasets, with a remarkable increase of more than 10% precision in two of them.
翻訳日:2021-05-01 04:48:58 公開日:2020-12-20
# 潜航コンパス:ナビゲーションによる創造

Latent Compass: Creation by Navigation ( http://arxiv.org/abs/2012.14283v1 )

ライセンス: Link先を確認
Sarah Schwettmann, Hendrik Strobelt, Mauro Martino(参考訳) マリウス・フォン・センデン(Marius von Senden)の『Space and Sight』では、新たに目撃された盲目の患者が、角をレモンのような感じで表現している。 pricklinessは、感覚体験の特徴空間における次元であり、両者が相互作用する場所に存在する知覚者に対する知覚の影響である。 新しく目撃された場合、ある相互作用から慣れ親しんだ効果は、新しい文脈に翻訳される。 知覚は、異なる経験間で共有される効果が、それらの経験に基づく具体的な抽象化を生み出すという、一般化の手段として機能する。 セザンヌとポスト印象派は経験翻訳の言語に精通しており、現実を最もよく反映した具体的な形を描く方法は、彼らが見たものではなく、見るべきものを描くことであることに気付いた。 私たちは、aiを使って創造する未来を想定しています。そこでは、どのように見えるかは、レプリカブル、転送可能、マニピュラブルです - アーティストのパレットの一部で、どちらも特定のコンテキストに基礎を置き、その上に一般化します。 アクティブな研究のラインは、人間の解釈可能な特徴をGAN潜在空間の方向へマッピングする。 予測方向の探索や、組込み空間における画像操作を駆動するオフザシェルフ分類器を用いた教師付きおよび自己監督型のアプローチは、発見できる様々な機能に限られている。 有意義な新しい方向を見つける教師なしのアプローチは、知覚的に有意義な方向の空間が完全にマッピングされるには程遠いことを示している。 この空間は広く創造的な可能性に満ちているため、人間の知覚の豊かさと一般化性を捉える方向発見ツールが求められている。 提案手法は,視覚的に意味のある方向を特定し,その方向に沿って解釈可能な画像翻訳を生成するために,リアルタイムツール使用中の発見ループにクリエーターを配置する。

In Marius von Senden's Space and Sight, a newly sighted blind patient describes the experience of a corner as lemon-like, because corners "prick" sight like lemons prick the tongue. Prickliness, here, is a dimension in the feature space of sensory experience, an effect of the perceived on the perceiver that arises where the two interact. In the account of the newly sighted, an effect familiar from one interaction translates to a novel context. Perception serves as the vehicle for generalization, in that an effect shared across different experiences produces a concrete abstraction grounded in those experiences. Cezanne and the post-impressionists, fluent in the language of experience translation, realized that the way to paint a concrete form that best reflected reality was to paint not what they saw, but what it was like to see. We envision a future of creation using AI where what it is like to see is replicable, transferrable, manipulable - part of the artist's palette that is both grounded in a particular context, and generalizable beyond it. An active line of research maps human-interpretable features onto directions in GAN latent space. Supervised and self-supervised approaches that search for anticipated directions or use off-the-shelf classifiers to drive image manipulation in embedding space are limited in the variety of features they can uncover. Unsupervised approaches that discover useful new directions show that the space of perceptually meaningful directions is nowhere close to being fully mapped. As this space is broad and full of creative potential, we want tools for direction discovery that capture the richness and generalizability of human perception. Our approach puts creators in the discovery loop during real-time tool use, in order to identify directions that are perceptually meaningful to them, and generate interpretable image translations along those directions.
翻訳日:2021-05-01 04:48:41 公開日:2020-12-20
# 畳み込みニューラルネットワークのカラーチャネル摂動攻撃とその防御

Color Channel Perturbation Attacks for Fooling Convolutional Neural Networks and A Defense Against Such Attacks ( http://arxiv.org/abs/2012.14456v1 )

ライセンス: Link先を確認
Jayendra Kantipudi, Shiv Ram Dubey, Soumendu Chakraborty(参考訳) 畳み込みニューラルネットワーク(cnns)は非常に強力なデータ依存階層的特徴抽出手法として出現した。 いくつかのコンピュータビジョン問題で広く使われている。 CNNは、トレーニングサンプルから重要な視覚的特徴を自動で学習する。 ネットワークがトレーニングサンプルを非常に容易に満たしていることが観察される。 オーバーフィッティングを避けるためにいくつかの正規化方法が提案されている。 それにもかかわらず、ネットワークは、既存のアプローチによって無視される画像内の色分布に敏感である。 本稿では,CNNを騙すためにカラーチャネル摂動(CCP)攻撃を提案することで,CNNの色堅牢性の問題を明らかにする。 ccp攻撃では、元のチャネルと確率的重みを組み合わせた新しいチャネルで新しいイメージが生成される。 CIFAR10、Caltech256およびTinyImageNetデータセットを画像分類フレームワークで実験した。 VGG、ResNet、DenseNetモデルは、提案された攻撃の影響をテストするために使用される。 提案したCCP攻撃によりCNNの性能が大幅に低下することが観察された。 その結果、CNN訓練モデルの堅牢性に対する単純なCCP攻撃の効果が示された。 また, 精度低下を評価するために既存のCNN偽造手法と比較した。 また,提案したCCP攻撃を用いてトレーニングデータセットを増強することにより,この問題に対する防御機構を提案する。 CCP攻撃下でのCNNロバスト性の観点から,提案手法を用いた最先端性能を実験的に検証した。 コードは \url{https://github.com/j ayendrakantipudi/Col or-Channel-Perturbat ion-Attack} で公開されている。

The Convolutional Neural Networks (CNNs) have emerged as a very powerful data dependent hierarchical feature extraction method. It is widely used in several computer vision problems. The CNNs learn the important visual features from training samples automatically. It is observed that the network overfits the training samples very easily. Several regularization methods have been proposed to avoid the overfitting. In spite of this, the network is sensitive to the color distribution within the images which is ignored by the existing approaches. In this paper, we discover the color robustness problem of CNN by proposing a Color Channel Perturbation (CCP) attack to fool the CNNs. In CCP attack new images are generated with new channels created by combining the original channels with the stochastic weights. Experiments were carried out over widely used CIFAR10, Caltech256 and TinyImageNet datasets in the image classification framework. The VGG, ResNet and DenseNet models are used to test the impact of the proposed attack. It is observed that the performance of the CNNs degrades drastically under the proposed CCP attack. Result show the effect of the proposed simple CCP attack over the robustness of the CNN trained model. The results are also compared with existing CNN fooling approaches to evaluate the accuracy drop. We also propose a primary defense mechanism to this problem by augmenting the training dataset with the proposed CCP attack. The state-of-the-art performance using the proposed solution in terms of the CNN robustness under CCP attack is observed in the experiments. The code is made publicly available at \url{https://github.com/j ayendrakantipudi/Col or-Channel-Perturbat ion-Attack}.
翻訳日:2021-05-01 04:48:08 公開日:2020-12-20
# 複雑生化学的エンティティ認識のためのハイブリッドディープラーニングアプローチ

A hybrid deep-learning approach for complex biochemical named entity recognition ( http://arxiv.org/abs/2012.10824v1 )

ライセンス: Link先を確認
Jian Liu, Lei Gao, Sujie Guo, Rui Ding, Xin Huang, Long Ye, Qinghua Meng, Asef Nazari and Dhananjay Thiruvady(参考訳) 化学物質と薬物のエンティティ認識(ner)は生化学研究において重要な情報抽出領域である。 NERは、実体関係抽出、属性抽出、代謝応答関係抽出を含む生化学反応におけるテキストマイニングのサポートを提供する。 しかし, バイオメディカル分野において, ポリセミーや特殊キャラクタといった複雑な命名特性の存在は, NERタスクを非常に困難にしている。 本稿では,NERの認識精度を向上させるためのハイブリッドディープラーニング手法を提案する。 具体的には,変換器 (BERT) モデルを用いてテキストの基本的な特徴を抽出し,BILSTM (Bidirectional Long Short-Term Memory) を通じてテキストのコンテキストの表現を学習し,章レベルの特徴を抽出するためのマルチヘッドアテンション (MHATT) 機構を組み込んだ。 提案手法は,完全テキストラベルにおける不整合問題に効率よく対処するため,略語認識精度の向上を目的としている。 さらに、この確率的手法は厳密な独立性仮定を必要とせず、任意の文脈情報を許容できるため、条件付きランダムフィールド(CRF)を用いてシーケンスタグをラベル付けする。 公開データセットを用いた実験結果から,提案手法が最高の認識性能を発揮すること,特に,最先端のアプローチと比較して,省略,ポリセム,低周波なエンティティの認識性能が著しく向上していることが示唆された。 例えば、BILSTM-CRFアルゴリズムによって生成された低周波天体の認識精度と比較して、2つのエンティティデータセット(MULTIPLEとIDENTIFIER)に対するハイブリッドアプローチによって生成された天体は、それぞれ80%と21.69%増加した。

Named entity recognition (NER) of chemicals and drugs is a critical domain of information extraction in biochemical research. NER provides support for text mining in biochemical reactions, including entity relation extraction, attribute extraction, and metabolic response relationship extraction. However, the existence of complex naming characteristics in the biomedical field, such as polysemy and special characters, make the NER task very challenging. Here, we propose a hybrid deep learning approach to improve the recognition accuracy of NER. Specifically, our approach applies the Bidirectional Encoder Representations from Transformers (BERT) model to extract the underlying features of the text, learns a representation of the context of the text through Bi-directional Long Short-Term Memory (BILSTM), and incorporates the multi-head attention (MHATT) mechanism to extract chapter-level features. In this approach, the MHATT mechanism aims to improve the recognition accuracy of abbreviations to efficiently deal with the problem of inconsistency in full-text labels. Moreover, conditional random field (CRF) is used to label sequence tags because this probabilistic method does not need strict independence assumptions and can accommodate arbitrary context information. The experimental evaluation on a publicly-available dataset shows that the proposed hybrid approach achieves the best recognition performance; in particular, it substantially improves performance in recognizing abbreviations, polysemes, and low-frequency entities, compared with the state-of-the-art approaches. For instance, compared with the recognition accuracies for low-frequency entities produced by the BILSTM-CRF algorithm, those produced by the hybrid approach on two entity datasets (MULTIPLE and IDENTIFIER) have been increased by 80% and 21.69%, respectively.
翻訳日:2021-05-01 04:47:48 公開日:2020-12-20
# eTREE: ツリー構造化の埋め込みを学ぶ

eTREE: Learning Tree-structured Embeddings ( http://arxiv.org/abs/2012.10853v1 )

ライセンス: Link先を確認
Faisal M. Almutairi, Yunlong Wang, Dong Wang, Emily Zhao, Nicholas D. Sidiropoulos(参考訳) マトリックス分解(MF)は、幅広い機械学習とデータマイニングモデルにおいて重要な役割を果たす。 MFは、アイテムの埋め込みや特徴表現を得るのによく使われており、相関や次元間の高次統計的依存関係を捉えることができる。 多くのアプリケーションでは、アイテムのカテゴリは階層的なツリー構造を示す。 例えば、ヒトの疾患は、細菌やウイルスのような粗い分類に分類することができる。 これらの分類はさらに細分化され、例えば、ウイルス感染は呼吸器、消化器、および外来性ウイルス病である。 電子商取引では、商品、映画、書籍等を分類し、例えば、衣料品を性別別に分類し、型別(形式、カジュアル等)する。 ツリー構造と異なるアイテムのカテゴリは、いくつかのアプリケーションで知られているかもしれないが、それらは他の多くの組み込みとともに学ばなければならない。 本研究では,埋め込みの質を高めるために(通常無視される)木構造を組み込んだモデルであるetreeを提案する。 非負のMF(NMF)の特殊特異性を利用して、eTREEの識別可能性を証明する。 提案モデルは,木構造を事前に活用するだけでなく,教師なしのデータ駆動方式で階層クラスタリングを学習する。 我々は、並列コンピューティング、計算キャッシング、ウォームスタート戦略を利用する効率的なアルゴリズムソリューションとスケーラブルなetreeの実装を導出する。 医療,レコメンダシステム,教育など,さまざまなアプリケーション領域の実際のデータに対するeTREEの有効性を示す。 また, etree から得られた木は, ドメインエキスパートによる解釈によって有意性を示す。

Matrix factorization (MF) plays an important role in a wide range of machine learning and data mining models. MF is commonly used to obtain item embeddings and feature representations due to its ability to capture correlations and higher-order statistical dependencies across dimensions. In many applications, the categories of items exhibit a hierarchical tree structure. For instance, human diseases can be divided into coarse categories, e.g., bacterial, and viral. These categories can be further divided into finer categories, e.g., viral infections can be respiratory, gastrointestinal, and exanthematous viral diseases. In e-commerce, products, movies, books, etc., are grouped into hierarchical categories, e.g., clothing items are divided by gender, then by type (formal, casual, etc.). While the tree structure and the categories of the different items may be known in some applications, they have to be learned together with the embeddings in many others. In this work, we propose eTREE, a model that incorporates the (usually ignored) tree structure to enhance the quality of the embeddings. We leverage the special uniqueness properties of Nonnegative MF (NMF) to prove identifiability of eTREE. The proposed model not only exploits the tree structure prior, but also learns the hierarchical clustering in an unsupervised data-driven fashion. We derive an efficient algorithmic solution and a scalable implementation of eTREE that exploits parallel computing, computation caching, and warm start strategies. We showcase the effectiveness of eTREE on real data from various application domains: healthcare, recommender systems, and education. We also demonstrate the meaningfulness of the tree obtained from eTREE by means of domain experts interpretation.
翻訳日:2021-05-01 04:47:17 公開日:2020-12-20
# 強化学習に基づく製品配信頻度制御

Reinforcement Learning-based Product Delivery Frequency Control ( http://arxiv.org/abs/2012.10858v1 )

ライセンス: Link先を確認
Yang Liu, Zhengxing Chen, Kittipat Virochsiri, Juan Wang, Jiahao Wu, Feng Liang(参考訳) 周波数制御は現代のレコメンダシステムにおいて重要な問題である。 製品の品質と効率を維持するための推奨のデリバリ頻度を規定している。 例えば、プロモーション通知の配信頻度は、日々のメトリクスとインフラリソースの消費(例)に影響します。 CPUとメモリ使用量)。 長期的なビジネス価値を表現するために最適化すべき目的と、動的に変動する環境での日々のメトリクスとリソース消費のバランスについて、依然としてオープンな疑問があります。 本研究では,強化学習(rl)を用いた長期的価値最適化と「有効要因」と呼ばれるロバストなボリューム制御手法を組み合わせた周波数制御問題のパーソナライズ手法を提案する。 本手法は,数十億ユーザ規模の通知アプリケーションにおいて,日々のメトリクスと資源効率の統計的に有意な改善を示す。 我々の知る限り、我々の研究はそのような産業規模での周波数制御問題に対する最初の深いRL応用である。

Frequency control is an important problem in modern recommender systems. It dictates the delivery frequency of recommendations to maintain product quality and efficiency. For example, the frequency of delivering promotional notifications impacts daily metrics as well as the infrastructure resource consumption (e.g. CPU and memory usage). There remain open questions on what objective we should optimize to represent business values in the long term best, and how we should balance between daily metrics and resource consumption in a dynamically fluctuating environment. We propose a personalized methodology for the frequency control problem, which combines long-term value optimization using reinforcement learning (RL) with a robust volume control technique we termed "Effective Factor". We demonstrate statistically significant improvement in daily metrics and resource efficiency by our method in several notification applications at a scale of billions of users. To our best knowledge, our study represents the first deep RL application on the frequency control problem at such an industrial scale.
翻訳日:2021-05-01 04:46:54 公開日:2020-12-20
# alphazero に対するモンテカルログラフ探索

Monte-Carlo Graph Search for AlphaZero ( http://arxiv.org/abs/2012.11045v1 )

ライセンス: Link先を確認
Johannes Czech, Patrick Korus, Kristian Kersting(参考訳) AlphaZeroアルゴリズムは様々な独立した領域、特にボードゲームでうまく適用されている。 それは、モンテカルロ木探索の探索を導くために、価値とポリシー関数を学ぶニューラルネットワークを利用する。 モンテカルロ木探索では、過去に多くの探索改善が提案されてきたが、そのほとんどは、計画にポリシーを使用しない木アルゴリズムの高信頼境界の古い変種を参照している。 探索木を有向非巡回グラフに一般化する,新しい改良されたalphazero探索アルゴリズムを提案する。 これにより、異なるサブツリー間の情報フローが可能になり、メモリ消費を大幅に削減できる。 モンテカルログラフ探索と並行して,epsilon-greedy exploration,修正ターミナルソルバ,制約としてのドメイン知識の統合など,さらに多くの拡張を提案する。 評価では、チェスとクレイジーハウスでCrazyAraエンジンを使用して、これらの変更がAlphaZeroに大きな改善をもたらすことを示す。

The AlphaZero algorithm has been successfully applied in a range of discrete domains, most notably board games. It utilizes a neural network, that learns a value and policy function to guide the exploration in a Monte-Carlo Tree Search. Although many search improvements have been proposed for Monte-Carlo Tree Search in the past, most of them refer to an older variant of the Upper Confidence bounds for Trees algorithm that does not use a policy for planning. We introduce a new, improved search algorithm for AlphaZero which generalizes the search tree to a directed acyclic graph. This enables information flow across different subtrees and greatly reduces memory consumption. Along with Monte-Carlo Graph Search, we propose a number of further extensions, such as the inclusion of Epsilon-greedy exploration, a revised terminal solver and the integration of domain knowledge as constraints. In our evaluations, we use the CrazyAra engine on chess and crazyhouse as examples to show that these changes bring significant improvements to AlphaZero.
翻訳日:2021-05-01 04:46:43 公開日:2020-12-20
# 特徴量平均シフトアルゴリズムによる高次元データの自動クラスタリング

Automated Clustering of High-dimensional Data with a Feature Weighted Mean Shift Algorithm ( http://arxiv.org/abs/2012.10929v1 )

ライセンス: Link先を確認
Saptarshi Chakraborty, Debolina Paul and Swagatam Das(参考訳) 平均シフト(Mean shift)は、データポイントを領域内のデータポイントの最も高い密度を示すモードへと徐々にシフトする単純な対話的な手順である。 平均シフトアルゴリズムは、データデノイジング、モード探索、データセット内のクラスタ数の自動検出に効果的に使用されている。 しかし、データ次元が大きくなるにつれて平均シフトの利点は急速に消え、データのクラスタ構造に関する有用な情報を含む特徴はごくわずかである。 本研究では,特徴量の重要性を効率的に学習するために,単純かつエレガントな特徴量シフトの変種を提案し,そのメリットを高次元データに拡張する。 その結果得られたアルゴリズムは、従来の平均シフトクラスタリング手順を上回るだけでなく、計算の単純さを保っている。 さらに,提案手法は,厳密な理論収束保証と少なくとも1立方次収束率を伴っている。 提案手法の有効性は,合成および実世界のデータセットに対するベースライン法と最先端クラスタリング法とを実験的に比較し,徹底的に評価する。

Mean shift is a simple interactive procedure that gradually shifts data points towards the mode which denotes the highest density of data points in the region. Mean shift algorithms have been effectively used for data denoising, mode seeking, and finding the number of clusters in a dataset in an automated fashion. However, the merits of mean shift quickly fade away as the data dimensions increase and only a handful of features contain useful information about the cluster structure of the data. We propose a simple yet elegant feature-weighted variant of mean shift to efficiently learn the feature importance and thus, extending the merits of mean shift to high-dimensional data. The resulting algorithm not only outperforms the conventional mean shift clustering procedure but also preserves its computational simplicity. In addition, the proposed method comes with rigorous theoretical convergence guarantees and a convergence rate of at least a cubic order. The efficacy of our proposal is thoroughly assessed through experimental comparison against baseline and state-of-the-art clustering methods on synthetic as well as real-world datasets.
翻訳日:2021-05-01 04:46:10 公開日:2020-12-20
# ベイジアン半監督型クラウドソーシング

Bayesian Semi-supervised Crowdsourcing ( http://arxiv.org/abs/2012.11048v1 )

ライセンス: Link先を確認
Panagiotis A. Traganitis and Georgios B. Giannakis(参考訳) クラウドソーシング(crowdsourcing)は、巨大なデータセットを効率的にラベル付けし、さまざまな学習タスクを実行するための強力なパラダイムとして登場した。 データに関する追加情報が得られると、人間の注釈からラベルを集約する半教師型クラウドソーシングアプローチが動機付けされる。 この研究は、半監督的なクラウドソースの分類を扱うもので、a) データのサブセットに対して基調ラベルを提供するラベル制約と、b) データのペア間の関係を示すインスタンスレベルの制約を得るのが簡単である。 変分推論に基づくベイズアルゴリズムは各制度ごとに開発され、その量的に改善された性能は、監督されていないクラウドソーシングと比較して分析的かつ経験的に複数のクラウドソーシングデータセットで検証される。

Crowdsourcing has emerged as a powerful paradigm for efficiently labeling large datasets and performing various learning tasks, by leveraging crowds of human annotators. When additional information is available about the data, semi-supervised crowdsourcing approaches that enhance the aggregation of labels from human annotators are well motivated. This work deals with semi-supervised crowdsourced classification, under two regimes of semi-supervision: a) label constraints, that provide ground-truth labels for a subset of data; and b) potentially easier to obtain instance-level constraints, that indicate relationships between pairs of data. Bayesian algorithms based on variational inference are developed for each regime, and their quantifiably improved performance, compared to unsupervised crowdsourcing, is analytically and empirically validated on several crowdsourcing datasets.
翻訳日:2021-05-01 04:45:33 公開日:2020-12-20
# メンバーシップクエリによるハーフスペースの学習

Learning Halfspaces With Membership Queries ( http://arxiv.org/abs/2012.10985v1 )

ライセンス: Link先を確認
Ori Kelner(参考訳) アクティブラーニング(active learning)は、機械学習のサブフィールドであり、学習アルゴリズムが学習するデータを選択することができる。 いくつかのケースにおいて、アクティブラーニングは、一般化誤差$\leq \epsilon$に到達するためにアルゴリズムが見る必要のあるサンプル数において指数関数的な利得をもたらすことが示されている。 本研究では,メンバーシップクエリを用いたハーフスペース学習の問題について検討する。 メンバシップクエリのシナリオでは、学習アルゴリズムが入力空間内のすべてのサンプルのラベルを要求できる。 この問題に対して新たなアルゴリズムを提案するとともに,いくつかのケースにおいてラベルの複雑さがほぼ最適であることを示す。 また,本アルゴリズムは実際にうまく動作し,不確実性サンプリングを著しく上回ることを示す。

Active learning is a subfield of machine learning, in which the learning algorithm is allowed to choose the data from which it learns. In some cases, it has been shown that active learning can yield an exponential gain in the number of samples the algorithm needs to see, in order to reach generalization error $\leq \epsilon$. In this work we study the problem of learning halfspaces with membership queries. In the membership query scenario, we allow the learning algorithm to ask for the label of every sample in the input space. We suggest a new algorithm for this problem, and prove it achieves a near optimal label complexity in some cases. We also show that the algorithm works well in practice, and significantly outperforms uncertainty sampling.
翻訳日:2021-05-01 04:45:17 公開日:2020-12-20
# LiDARインテンシティマップを用いたローカライズ学習

Learning to Localize Using a LiDAR Intensity Map ( http://arxiv.org/abs/2012.10902v1 )

ライセンス: Link先を確認
Ioan Andrei B\^arsan, Shenlong Wang, Andrei Pokrovsky, Raquel Urtasun(参考訳) 本稿では,自動運転車のリアルタイム・キャリブレーション非依存・効果的なローカライズシステムを提案する。 提案手法は,オンラインLiDARスイープとインテンシティマップを結合した深層埋め込み空間に埋め込むことを学習する。 ローカライゼーションは、埋め込み間の効率的な畳み込みマッチングによって実行される。 システム全体の動作は15hzで,さまざまなlidarセンサや環境においてセンチメートルレベルの精度を実現しています。 実験では、4000km以上の運転からなる大規模データセットにおける提案手法の性能を示す。

In this paper we propose a real-time, calibration-agnostic and effective localization system for self-driving cars. Our method learns to embed the online LiDAR sweeps and intensity map into a joint deep embedding space. Localization is then conducted through an efficient convolutional matching between the embeddings. Our full system can operate in real-time at 15Hz while achieving centimeter level accuracy across different LiDAR sensors and environments. Our experiments illustrate the performance of the proposed approach over a large-scale dataset consisting of over 4000km of driving.
翻訳日:2021-05-01 04:45:05 公開日:2020-12-20
# 圧縮バイナリマップによる局所化の学習

Learning to Localize Through Compressed Binary Maps ( http://arxiv.org/abs/2012.10942v1 )

ライセンス: Link先を確認
Xinkai Wei, Ioan Andrei B\^arsan, Shenlong Wang, Julieta Martinez, Raquel Urtasun(参考訳) 現在のローカライゼーションシステムを大規模環境にスケールする上で大きな課題の1つは、マップに必要なオンボードストレージである。 本稿では,局所化タスクに最適であるように地図表現を圧縮する学習法を提案する。 その結果、再構成を最適化する標準的な符号化方式と比較して、ローカライズ精度を損なうことなく高い圧縮率を達成することができる。 本研究では,webpなどの汎用コーデックに対して,性能を犠牲にすることなく,ストレージ要求を2桁削減するタスク固有圧縮を学習できることを実証する。

One of the main difficulties of scaling current localization systems to large environments is the on-board storage required for the maps. In this paper we propose to learn to compress the map representation such that it is optimal for the localization task. As a consequence, higher compression rates can be achieved without loss of localization accuracy when compared to standard coding schemes that optimize for reconstruction, thus ignoring the end task. Our experiments show that it is possible to learn a task-specific compression which reduces storage requirements by two orders of magnitude over general-purpose codecs such as WebP without sacrificing performance.
翻訳日:2021-05-01 04:44:57 公開日:2020-12-20
# 単眼ビデオからの高忠実性ニューラルヒューマンモーショントランスファー

High-Fidelity Neural Human Motion Transfer from Monocular Video ( http://arxiv.org/abs/2012.10974v1 )

ライセンス: Link先を確認
Moritz Kappel and Vladislav Golyanik and Mohamed Elgharib and Jann-Ole Henningson and Hans-Peter Seidel and Susana Castillo and Christian Theobalt and Marcus Magnor(参考訳) 映像に基づく人間の動き伝達は、映像のアニメーションを生成する。 現在の方法では, 密着した被験者に顕著な結果が得られた。 しかし、細部や高周波の細部を含む、妥当な衣服力学の時間的一貫性の欠如は、到達可能な視覚品質を著しく制限している。 本稿では,これらの制約に初めて対処し,様々な種類のゆるい衣服に対して,自然のポーズ依存非剛性変形を伴う高忠実かつ時間的に連続した人の動き伝達を行う新しい枠組みを提案する。 従来の手法とは対照的に,人間の形状,構造,外観を合成し,その後の3段階で画像生成を行う。 アクターの単眼的なRGBビデオが与えられた場合、我々は2Dポーズとその時間微分からこれらの中間表現を生成する一連の深層ニューラルネットワークを訓練する。 時間的動きの文脈を認識したサブタスクに難しい動き伝達問題を分割することは、プラウシブルなダイナミクスとポーズ依存の詳細で結果を合成するのに役立ちます。 個々のフレームワークステージを操作することで、結果の芸術的なコントロールも可能になる。 実験結果では,映像リアリズムの観点から,最先端技術よりも優れていた。 私たちのコードとデータは公開されます。

Video-based human motion transfer creates video animations of humans following a source motion. Current methods show remarkable results for tightly-clad subjects. However, the lack of temporally consistent handling of plausible clothing dynamics, including fine and high-frequency details, significantly limits the attainable visual quality. We address these limitations for the first time in the literature and present a new framework which performs high-fidelity and temporally-consisten t human motion transfer with natural pose-dependent non-rigid deformations, for several types of loose garments. In contrast to the previous techniques, we perform image generation in three subsequent stages, synthesizing human shape, structure, and appearance. Given a monocular RGB video of an actor, we train a stack of recurrent deep neural networks that generate these intermediate representations from 2D poses and their temporal derivatives. Splitting the difficult motion transfer problem into subtasks that are aware of the temporal motion context helps us to synthesize results with plausible dynamics and pose-dependent detail. It also allows artistic control of results by manipulation of individual framework stages. In the experimental results, we significantly outperform the state-of-the-art in terms of video realism. Our code and data will be made publicly available.
翻訳日:2021-05-01 04:44:47 公開日:2020-12-20
# TSEQPREDICTOR:カリフォルニア南部の時空間地震予測

TSEQPREDICTOR: Spatiotemporal Extreme Earthquakes Forecasting for Southern California ( http://arxiv.org/abs/2012.14336v1 )

ライセンス: Link先を確認
Bo Feng and Geoffrey C. Fox(参考訳) 過去数十年の地震学は、世界規模の地震の観測に最も進んだ技術と機器を活用してきた。 しかし、地震などの災害予知は歴史からはまだ未定の話題である。 時空間予測の最近の研究は、予測の成功の可能性を明らかにしており、多くの科学研究分野において重要な話題となっている。 それらの研究の多くは、ディープニューラルネットワークの応用に成功している。 地質学的研究において、地震予測は世界で最も難しい問題の一つであり、最先端のディープラーニング技術が有用なパターンを発見するのに役立つかもしれない。 本稿では,TSEQPREDICTORという,地震予知のための共同ディープラーニングモデリング手法を提案する。 TSEQPREDICTORでは、地震学におけるドメイン知識を備えた総合的なディープラーニング技術を使用し、エンコーダデコーダと時間畳み込みニューラルネットワークを用いて予測問題を利用する。 最先端のニューラルネットワークと比較し,南カリフォルニアの地震に対する大きな衝撃を予測できることを実証した。

Seismology from the past few decades has utilized the most advanced technologies and equipment to monitor seismic events globally. However, forecasting disasters like earthquakes is still an underdeveloped topic from the history. Recent researches in spatiotemporal forecasting have revealed some possibilities of successful predictions, which becomes an important topic in many scientific research fields. Most studies of them have many successful applications of using deep neural networks. In the geoscience study, earthquake prediction is one of the world's most challenging problems, about which cutting edge deep learning technologies may help to discover some useful patterns. In this project, we propose a joint deep learning modeling method for earthquake forecasting, namely TSEQPREDICTOR. In TSEQPREDICTOR, we use comprehensive deep learning technologies with domain knowledge in seismology and exploit the prediction problem using encoder-decoder and temporal convolutional neural networks. Comparing to some state-of-art recurrent neural networks, our experiments show our method is promising in terms of predicting major shocks for earthquakes in Southern California.
翻訳日:2021-05-01 04:44:28 公開日:2020-12-20
# バイオメディカルテキスト分類のためのブラックボックスモデル

Explaining Black-box Models for Biomedical Text Classification ( http://arxiv.org/abs/2012.10928v1 )

ライセンス: Link先を確認
Milad Moradi, Matthias Samwald(参考訳) 本稿では,バイオメディカルテキスト分類のためのブラックボックス機械学習モデルのポストホックな説明を目的とした,バイオメディカル信頼項目記述法(BioCIE)を提案する。 ドメイン知識のソースと自信のあるアイテムセットマイニング手法を用いて、biocieはブラックボックスの決定空間を小さなサブスペースに分類し、入力テキストと異なるサブスペースのクラスラベル間の意味関係を抽出する。 自信のある項目セットは、ブラックボックスの決定空間におけるクラスラベルとバイオメディカル概念がどのように関連しているかを発見する。 BioCIEは個々の予測のためにブラックボックスの振る舞いを近似するためにアイテムセットを使用する。 BioCIEは、忠実度、解釈可能性、カバレッジ対策を最適化し、ブラックボックスの決定境界を表すクラスワイドな説明を生成する。 各種バイオメディカルテキスト分類タスクとブラックボックスモデルによる評価の結果,BioCIEは,簡潔で正確かつ解釈可能な説明を提示する上で,摂動と意思決定の手法より優れていることが示された。 BioCIEは、インスタンスワイドとクラスワイドの説明の忠実度をそれぞれ11.6%と7.5%改善した。 また、説明の解釈性も8%向上した。 biocieは、ブラックボックスの生物医学的テキスト分類モデルが入力テキストとクラスラベルを意味的に関連付ける方法について説明するのに効果的に使うことができる。 ソースコードと補足資料はhttps://github.com/m moradi-iut/BioCIEで入手できる。

In this paper, we propose a novel method named Biomedical Confident Itemsets Explanation (BioCIE), aiming at post-hoc explanation of black-box machine learning models for biomedical text classification. Using sources of domain knowledge and a confident itemset mining method, BioCIE discretizes the decision space of a black-box into smaller subspaces and extracts semantic relationships between the input text and class labels in different subspaces. Confident itemsets discover how biomedical concepts are related to class labels in the black-box's decision space. BioCIE uses the itemsets to approximate the black-box's behavior for individual predictions. Optimizing fidelity, interpretability, and coverage measures, BioCIE produces class-wise explanations that represent decision boundaries of the black-box. Results of evaluations on various biomedical text classification tasks and black-box models demonstrated that BioCIE can outperform perturbation-based and decision set methods in terms of producing concise, accurate, and interpretable explanations. BioCIE improved the fidelity of instance-wise and class-wise explanations by 11.6% and 7.5%, respectively. It also improved the interpretability of explanations by 8%. BioCIE can be effectively used to explain how a black-box biomedical text classification model semantically relates input texts to class labels. The source code and supplementary material are available at https://github.com/m moradi-iut/BioCIE.
翻訳日:2021-05-01 04:43:48 公開日:2020-12-20
# Geometric Scene Refocusing

Geometric Scene Refocusing ( http://arxiv.org/abs/2012.10856v1 )

ライセンス: Link先を確認
Parikshit Sakurikar, P. J. Narayanan(参考訳) 広角カメラで撮影された画像は、焦点を合わせ、焦点を離したピクセルを持つ有限の深度のフィールドを示す。 コンパクトでロバストなフォーカスとデフォーカスの表現は、そのようなイメージの分析と操作に役立ちます。 本研究は,焦点スタックの文脈における被写界深度が浅い画像の微細特性について検討する。 本稿では,既存の尺度の組み合わせであるフォーカスの複合尺度を提案する。 焦点内画素、二重焦点画素、焦点スライス間のボケと空間的に異なるぼやけたカーネルを示す画素を同定する。 これらを用いて、焦点スタックの操作を容易にする新しい表現を構築する。 幾何的に正しい方法で捕獲後再フォーカスのための包括的アルゴリズムを提案する。 我々のアプローチは、フォーカスとデフォーカスの微妙な側面を保ちながら、シーンを高い忠実度で再フォーカスすることができる。

An image captured with a wide-aperture camera exhibits a finite depth-of-field, with focused and defocused pixels. A compact and robust representation of focus and defocus helps analyze and manipulate such images. In this work, we study the fine characteristics of images with a shallow depth-of-field in the context of focal stacks. We present a composite measure for focus that is a combination of existing measures. We identify in-focus pixels, dual-focus pixels, pixels that exhibit bokeh and spatially-varying blur kernels between focal slices. We use these to build a novel representation that facilitates easy manipulation of focal stacks. We present a comprehensive algorithm for post-capture refocusing in a geometrically correct manner. Our approach can refocus the scene at high fidelity while preserving fine aspects of focus and defocus blur.
翻訳日:2021-05-01 04:43:06 公開日:2020-12-20
# 動的3次元点雲列のためのアンカー型時空間注意畳み込みネットワーク

Anchor-Based Spatial-Temporal Attention Convolutional Networks for Dynamic 3D Point Cloud Sequences ( http://arxiv.org/abs/2012.10860v1 )

ライセンス: Link先を確認
Guangming Wang, Hanwen Liu, Muyao Chen, Yehui Yang, Zhe Liu, Hesheng Wang(参考訳) 近年,画像や映像からのロボット知覚のための学習手法が開発されているが,動的3次元点雲列のディープラーニング手法は未検討である。 LiDARやディープカメラといった3Dセンサーが広く応用されているため、3Dシークエンスデータから3D環境を効率よく正確に認識することは、自動運転やサービスロボットにとって重要な要素である。 本稿では,動的3次元点雲列を処理するために,アンカー型時空間注意畳み込み演算(astaconv)を提案する。 提案する畳み込み操作は、各点の周囲に複数の仮想アンカーを設定することにより、各点の周囲にレギュラーレセプティブフィールドを構築する。 周辺点の特徴は、まず空間的時間的注意機構に基づいて各アンカーに集約される。 次に、アンカーベースのスパース3d畳み込みを採用し、アンカーの特徴をコアポイントに集約する。 提案手法は,局所領域内の構造化情報をよりよく活用し,動的3次元点雲列から空間-時間埋め込み特徴を学習する。 次に,Anchorをベースとした時空間注意畳み込みニューラルネットワーク(ASTACNN)を分類とセグメンテーションタスクとして提案し,アクション認識とセグメンテーションタスクで評価する。 msraction3dとsynthiaデータセットの実験結果から,マルチフレーム融合の新たな戦略により,従来の最先端手法よりも高い精度を実現することができた。

Recently, learning based methods for the robot perception from the image or video have much developed, but deep learning methods for dynamic 3D point cloud sequences are underexplored. With the widespread application of 3D sensors such as LiDAR and depth camera, efficient and accurate perception of the 3D environment from 3D sequence data is pivotal to autonomous driving and service robots. An Anchor-based Spatial-Temporal Attention Convolution operation (ASTAConv) is proposed in this paper to process dynamic 3D point cloud sequences. The proposed convolution operation builds a regular receptive field around each point by setting several virtual anchors around each point. The features of neighborhood points are firstly aggregated to each anchor based on spatial-temporal attention mechanism. Then, anchor-based sparse 3D convolution is adopted to aggregate the features of these anchors to the core points. The proposed method makes better use of the structured information within the local region, and learn spatial-temporal embedding features from dynamic 3D point cloud sequences. Then Anchor-based Spatial-Temporal Attention Convolutional Neural Networks (ASTACNNs) are proposed for classification and segmentation tasks and are evaluated on action recognition and semantic segmentation tasks. The experimental results on MSRAction3D and Synthia datasets demonstrate that the higher accuracy can be achieved than the previous state-of-the-art method by our novel strategy of multi-frame fusion.
翻訳日:2021-05-01 04:42:55 公開日:2020-12-20
# コンピュータビジョンによる自動運転車事故検出

Computer Vision based Accident Detection for Autonomous Vehicles ( http://arxiv.org/abs/2012.10870v1 )

ライセンス: Link先を確認
Dhananjai Chand, Savyasachi Gupta, and Ilaiah Kavati(参考訳) 自動運転車による潜在的な事故を検出するために、多くのディープラーニングとセンサーベースのモデルが開発されている。 しかし、自動運転車は、他の車両間の事故を検知し、減速、停止、関係者への通知といった適切な行動を取る必要がある。 本稿では,ダッシュボードカメラを用いて車両事故を検知する自動運転支援システムを提案する。 このシステムは、車両検出のためのマスクr-cnnフレームワークと、検出された車両を追跡するセンタロイドトラッキングアルゴリズムを利用する。 さらに、このフレームワークは速度、加速度、軌道などの様々なパラメータを計算し、走行中の車両間で事故が発生したかどうかを判定する。 このフレームワークは、ダッシュカム映像のカスタムデータセットでテストされ、低い誤報率を維持しながら高い事故検出率を達成する。

Numerous Deep Learning and sensor-based models have been developed to detect potential accidents with an autonomous vehicle. However, a self-driving car needs to be able to detect accidents between other vehicles in its path and take appropriate actions such as to slow down or stop and inform the concerned authorities. In this paper, we propose a novel support system for self-driving cars that detects vehicular accidents through a dashboard camera. The system leverages the Mask R-CNN framework for vehicle detection and a centroid tracking algorithm to track the detected vehicle. Additionally, the framework calculates various parameters such as speed, acceleration, and trajectory to determine whether an accident has occurred between any of the tracked vehicles. The framework has been tested on a custom dataset of dashcam footage and achieves a high accident detection rate while maintaining a low false alarm rate.
翻訳日:2021-05-01 04:42:31 公開日:2020-12-20
# テキスト認識のためのシーケンスからシーケンスまでのコントラスト学習

Sequence-to-Sequence Contrastive Learning for Text Recognition ( http://arxiv.org/abs/2012.10873v1 )

ライセンス: Link先を確認
Aviad Aberdam, Ron Litman, Shahar Tsiper, Oron Anschel, Ron Slossberg, Shai Mazor, R. Manmatha, Pietro Perona(参考訳) 本稿では,テキスト認識に適用する視覚表現のシーケンス・ツー・シーケンスコントラスト学習(seqclr)フレームワークを提案する。 シーケンス対シーケンス構造を考慮するために、各特徴マップは、コントラスト損失が計算される異なるインスタンスに分割される。 この操作はサブワードレベルでのコントラストを可能にし、各画像から複数の正のペアと複数の負の例を抽出する。 テキスト認識に有効な視覚表現を与えるために,新たな拡張ヒューリスティック,異なるエンコーダアーキテクチャ,カスタムプロジェクションヘッドを提案する。 手書きテキストとシーンテキストの実験では,学習した表現に基づいてテキストデコーダを訓練すると,非逐次コントラスト法よりも優れることを示す。 さらに, 教師付きトレーニングと比較して, 監督の量を減らすと, SeqCLR は性能を著しく向上し, ラベルの100%を微調整すると, 標準的な手書きテキスト認識ベンチマークの最先端結果が得られる。

We propose a framework for sequence-to-sequence contrastive learning (SeqCLR) of visual representations, which we apply to text recognition. To account for the sequence-to-sequence structure, each feature map is divided into different instances over which the contrastive loss is computed. This operation enables us to contrast in a sub-word level, where from each image we extract several positive pairs and multiple negative examples. To yield effective visual representations for text recognition, we further suggest novel augmentation heuristics, different encoder architectures and custom projection heads. Experiments on handwritten text and on scene text show that when a text decoder is trained on the learned representations, our method outperforms non-sequential contrastive methods. In addition, when the amount of supervision is reduced, SeqCLR significantly improves performance compared with supervised training, and when fine-tuned with 100% of the labels, our method achieves state-of-the-art results on standard handwritten text recognition benchmarks.
翻訳日:2021-05-01 04:42:20 公開日:2020-12-20
# コンピュータビジョンによる自動運転車の動物衝突回避フレームワーク

Computer Vision based Animal Collision Avoidance Framework for Autonomous Vehicles ( http://arxiv.org/abs/2012.10878v1 )

ライセンス: Link先を確認
Savyasachi Gupta, Dhananjai Chand, and Ilaiah Kavati(参考訳) 動物はインドの道路でよく目撃されており、毎年自動車と自動車の事故が多発している。 これにより、このような事故の防止を支援するドライバーレス車両支援システムの開発が不可欠となる。 本稿では,ダシュカムビデオ上での深層学習とコンピュータビジョン技術を用いて,高速道路上での動物検出のための効率的なアプローチを開発することにより,車両と動物との衝突を避ける新奇な枠組みを提案する。 本手法では,マスクr-cnnモデルを用いて各種動物を検出・同定する。 そして車線検出を行い、検出された動物が車線上にあるか否かを推定し、遠心性物体追跡アルゴリズムを用いてその位置と移動方向を追跡する。 このアプローチは、動物が自律走行車の経路を妨害しているかどうかを判断し、その動きを予測し、それに応じてフィードバックを与えるのに効果的であることを保証する。 このシステムは様々な照明や気象条件下でテストされ、比較的良好な性能を示すことが観測され、インドの道路で動物と車両の衝突をリアルタイムに回避するための、著名な無人車のサポートシステムへと繋がった。

Animals have been a common sighting on roads in India which leads to several accidents between them and vehicles every year. This makes it vital to develop a support system for driverless vehicles that assists in preventing these forms of accidents. In this paper, we propose a neoteric framework for avoiding vehicle-to-animal collisions by developing an efficient approach for the detection of animals on highways using deep learning and computer vision techniques on dashcam video. Our approach leverages the Mask R-CNN model for detecting and identifying various commonly found animals. Then, we perform lane detection to deduce whether a detected animal is on the vehicle's lane or not and track its location and direction of movement using a centroid based object tracking algorithm. This approach ensures that the framework is effective at determining whether an animal is obstructing the path or not of an autonomous vehicle in addition to predicting its movement and giving feedback accordingly. This system was tested under various lighting and weather conditions and was observed to perform relatively well, which leads the way for prominent driverless vehicle's support systems for avoiding vehicular collisions with animals on Indian roads in real-time.
翻訳日:2021-05-01 04:42:02 公開日:2020-12-20
# ビデオキャプションのための誘導モジュールネットワーク

Guidance Module Network for Video Captioning ( http://arxiv.org/abs/2012.10930v1 )

ライセンス: Link先を確認
Xiao Zhang, Chunsheng Liu, Faliang Chang(参考訳) ビデオキャプションは、ビデオクリップの内容を単一の文で記述する、困難で重要なタスクである。 ビデオキャプションのモデルは、通常エンコーダデコーダである。 抽出した映像の特徴の正規化は,映像キャプションの最終的な性能を向上させることができる。 エンコーダ・デコーダモデルは通常、教師強化戦略を用いて訓練され、各単語の確率を0-1分布に近づけ、他の単語を無視する。 本稿では,エンコーダ・デコーダモデルを用いて,過去と未来に関連する単語をキャプション内で生成するためのガイダンスモジュールを提案する。 正規化および誘導モジュールに基づいて、ガイダンスモジュールネット(gmnet)が構築される。 一般的なデータセットMSVDによる実験結果から、GMNetの提案により、ビデオキャプションタスクにおけるエンコーダデコーダモデルの性能が向上することが示された。

Video captioning has been a challenging and significant task that describes the content of a video clip in a single sentence. The model of video captioning is usually an encoder-decoder. We find that the normalization of extracted video features can improve the final performance of video captioning. Encoder-decoder model is usually trained using teacher-enforced strategies to make the prediction probability of each word close to a 0-1 distribution and ignore other words. In this paper, we present a novel architecture which introduces a guidance module to encourage the encoder-decoder model to generate words related to the past and future words in a caption. Based on the normalization and guidance module, guidance module net (GMNet) is built. Experimental results on commonly used dataset MSVD show that proposed GMNet can improve the performance of the encoder-decoder model on video captioning tasks.
翻訳日:2021-05-01 04:41:20 公開日:2020-12-20
# グラフクラスタリング畳み込みネットワークを用いた半教師付きハイパースペクトル画像分類

Semi-supervised Hyperspectral Image Classification with Graph Clustering Convolutional Networks ( http://arxiv.org/abs/2012.10932v1 )

ライセンス: Link先を確認
Hao Zeng and Qingjie Liu and Mingming Zhang and Xiaoqing Han and Yunhong Wang(参考訳) ハイパースペクトラル画像分類(hic)は重要ではあるが困難な課題であり、この分野におけるアルゴリズム開発を制限する問題は、ハイパースペクトラル画像(hsis)の基底的真理を得ることが極めて難しいことである。 近年,グラフ畳み込みネットワーク(GCN)に基づくHIC手法が開発され,深層学習に基づくHIC手法においてラベル付きデータの不足を効果的に軽減している。 分類性能をさらに高めるために,HSI分類のためのグラフ畳み込みネットワーク(GCN)ベースのフレームワークを提案する。 特に、類似のスペクトル特徴を持つ画素をスーパーピクセルにまずクラスターし、入力したhsiのスーパーピクセルに基づいてグラフを構築する。 そして、この超画素グラフ上で畳み込みを行う代わりに、エッジを弱い重みで刈り上げ、高い類似性を持つノードの相関を強化することにより、さらにいくつかの部分グラフに分割する。 この第2ラウンドのクラスタリングは、グラフのサイズをさらに削減し、グラフ畳み込みの計算負荷を削減する。 3つのベンチマークデータセットにおける実験結果から,提案フレームワークの有効性が実証された。

Hyperspectral image classification (HIC) is an important but challenging task, and a problem that limits the algorithmic development in this field is that the ground truths of hyperspectral images (HSIs) are extremely hard to obtain. Recently a handful of HIC methods are developed based on the graph convolution networks (GCNs), which effectively relieves the scarcity of labeled data for deep learning based HIC methods. To further lift the classification performance, in this work we propose a graph convolution network (GCN) based framework for HSI classification that uses two clustering operations to better exploit multi-hop node correlations and also effectively reduce graph size. In particular, we first cluster the pixels with similar spectral features into a superpixel and build the graph based on the superpixels of the input HSI. Then instead of performing convolution over this superpixel graph, we further partition it into several sub-graphs by pruning the edges with weak weights, so as to strengthen the correlations of nodes with high similarity. This second round of clustering also further reduces the graph size, thus reducing the computation burden of graph convolution. Experimental results on three widely used benchmark datasets well prove the effectiveness of our proposed framework.
翻訳日:2021-05-01 04:41:06 公開日:2020-12-20
# マルチセンサ3次元物体検出のための深部連続融合

Deep Continuous Fusion for Multi-Sensor 3D Object Detection ( http://arxiv.org/abs/2012.10992v1 )

ライセンス: Link先を確認
Ming Liang, Bin Yang, Shenlong Wang, Raquel Urtasun(参考訳) 本稿では,LIDARとカメラを併用して高精度な位置検出を実現する3Dオブジェクト検出器を提案する。 この目標に向けて,連続畳み込みを利用して画像とlidar特徴マップを解像度の異なるレベルで融合する,エンドツーエンドの学習可能なアーキテクチャを設計する。 提案する連続融合層は離散状態画像の特徴と連続幾何情報の両方を符号化する。 これにより、複数のセンサに基づいて、新しい、信頼性が高く、効率的な学習可能な3Dオブジェクト検出器を設計できる。 KITTIと大規模3Dオブジェクト検出ベンチマークを併用した実験により,技術状況に対する大幅な改善が示された。

In this paper, we propose a novel 3D object detector that can exploit both LIDAR as well as cameras to perform very accurate localization. Towards this goal, we design an end-to-end learnable architecture that exploits continuous convolutions to fuse image and LIDAR feature maps at different levels of resolution. Our proposed continuous fusion layer encode both discrete-state image features as well as continuous geometric information. This enables us to design a novel, reliable and efficient end-to-end learnable 3D object detector based on multiple sensors. Our experimental evaluation on both KITTI as well as a large scale 3D object detection benchmark shows significant improvements over the state of the art.
翻訳日:2021-05-01 04:40:45 公開日:2020-12-20
# deep bingham networks: ポーズ推定における不確実性とあいまいさを扱う

Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose Estimation ( http://arxiv.org/abs/2012.11002v1 )

ライセンス: Link先を確認
Haowen Deng, Mai Bui, Nassir Navab, Leonidas Guibas, Slobodan Ilic, Tolga Birdal(参考訳) 本研究では,3Dデータに関するほぼすべての実生活アプリケーションにおいて,ポーズ関連の不確実性や曖昧性を自然に処理できる汎用フレームワークであるDeep Bingham Networks(DBN)を紹介する。 既存の研究はポーズ推定問題に対する単一の解を見つけようとしているが、どの解が最良の解であるかという不確実性を引き起こす曖昧さと和らげる。 代わりに、解空間の性質を捉える一連のポーズを報告します。 DBNは, (i) 異なる分布モードを生成可能な多仮説予測ヘッド, (ii) 回転におけるビンガム分布の恩恵を受ける新しい損失関数により, 直接ポーズ回帰ネットワークの状態を拡張する。 このように、dbnは不確実性情報を提供する曖昧なケースと、モードごとの不確実性が要求される曖昧なシーンの両方で動作する。 技術面では,連続したビンガム混合モデルをレグレッシブし,画像などの2次元データとポイントクラウドなどの3次元データの両方に適用する。 我々は,訓練中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案した。 i)画像からの6dカメラ再局在化,および(ii)3dポイントクラウドからのオブジェクトポーズ推定の2つの異なるアプリケーションに対して徹底的にテストを行い,その技術に対する適度な優位性を示した。 前者については、一意に識別できないビューに対応するイメージをキャプチャできない5つの屋内シーンからなる独自のデータセットを寄贈しました。 後者については、特にModelNetデータセットの対称オブジェクトの上位結果を得る。

In this work, we introduce Deep Bingham Networks (DBN), a generic framework that can naturally handle pose-related uncertainties and ambiguities arising in almost all real life applications concerning 3D data. While existing works strive to find a single solution to the pose estimation problem, we make peace with the ambiguities causing high uncertainty around which solutions to identify as the best. Instead, we report a family of poses which capture the nature of the solution space. DBN extends the state of the art direct pose regression networks by (i) a multi-hypotheses prediction head which can yield different distribution modes; and (ii) novel loss functions that benefit from Bingham distributions on rotations. This way, DBN can work both in unambiguous cases providing uncertainty information, and in ambiguous scenes where an uncertainty per mode is desired. On a technical front, our network regresses continuous Bingham mixture models and is applicable to both 2D data such as images and to 3D data such as point clouds. We proposed new training strategies so as to avoid mode or posterior collapse during training and to improve numerical stability. Our methods are thoroughly tested on two different applications exploiting two different modalities: (i) 6D camera relocalization from images; and (ii) object pose estimation from 3D point clouds, demonstrating decent advantages over the state of the art. For the former we contributed our own dataset composed of five indoor scenes where it is unavoidable to capture images corresponding to views that are hard to uniquely identify. For the latter we achieve the top results especially for symmetric objects of ModelNet dataset.
翻訳日:2021-05-01 04:40:35 公開日:2020-12-20
# Lexicographic Logic: 参照表現のための多値論理

Lexicographic Logic: a Many-valued Logic for Preference Representation ( http://arxiv.org/abs/2012.10940v1 )

ライセンス: Link先を確認
Angelos Charalambidis, Giorgos Papadimitriou, Panos Rondogiannis, Antonis Troumpoukis(参考訳) 論理形式は、嗜好を特定し、推論するための自然で簡潔な手段を提供する。 本稿では,古典命題論理の拡張であるlexicographic logicを提案する。 提案した論理は、意味論を真理値の有限リストの観点で定義できる単純な新しい接続性をサポートする。 我々は、語彙的嗜好の定量的表現に障壁をもたらすよく知られた理論的な制限にもかかわらず、提案された新しい接続が自然に定義できる有理数のサブセットが存在することを示した。 lexicographic logic は "$a$ や "if possible $b$" や "$a$ or fail that $b$" といった有名な優先演算子を単純な方法で定義するのに使うことができる。 さらに、他の階層的優越作用素は体系的なアプローチで定義することができる。 ユーザの嗜好の満足度に応じてクエリ結果のランク付けを行う上で,新しい論理は有効な形式である,と我々は主張する。

Logical formalisms provide a natural and concise means for specifying and reasoning about preferences. In this paper, we propose lexicographic logic, an extension of classical propositional logic that can express a variety of preferences, most notably lexicographic ones. The proposed logic supports a simple new connective whose semantics can be defined in terms of finite lists of truth values. We demonstrate that, despite the well-known theoretical limitations that pose barriers to the quantitative representation of lexicographic preferences, there exists a subset of the rational numbers over which the proposed new connective can be naturally defined. Lexicographic logic can be used to define in a simple way some well-known preferential operators, like "$A$ and if possible $B$", and "$A$ or failing that $B$". Moreover, many other hierarchical preferential operators can be defined using a systematic approach. We argue that the new logic is an effective formalism for ranking query results according to the satisfaction level of user preferences.
翻訳日:2021-05-01 04:40:06 公開日:2020-12-20
# 薄雲除去のためのマルチヘッド線形注意生成逆ネットワーク

Multi-Head Linear Attention Generative Adversarial Network for Thin Cloud Removal ( http://arxiv.org/abs/2012.10898v1 )

ライセンス: Link先を確認
Chenxi Duan, Rui Li(参考訳) リモートセンシング画像では、薄い雲の存在は必然的でユビキタスな現象であり、画像の品質を著しく低下させ、アプリケーションのシナリオを制限する。 そのため,薄雲除去はリモートセンシング画像の利用を促進させるには不可欠である。 一般的には、薄い雲で汚染されたとしても、ピクセルは表面情報を多かれ少なかれ保持する。 したがって、厚い雲の除去とは異なり、薄い雲の除去アルゴリズムは通常、雲に汚染されたピクセルの代わりに雲の影響を抑えることに集中する。 一方、雲によって隠された表面の特徴は通常隣接した領域と類似しているため、入力の各ピクセル間の依存性は汚染領域の再構成に有用である。 本稿では,画像の画素間の依存性を最大限に活用するために,雲の薄層除去のためのマルチヘッド線形注意生成逆ネットワーク(mlagan)を提案する。 MLA-GANは、複数の注意層と非畳み込み層からなる符号化・復号化フレームワークに基づいている。 6つのディープラーニングベースの薄雲除去ベンチマークと比較すると、 rice1 と rice2 データセットの実験結果から、提案フレームワークである mla-gan が薄雲除去において優勢であることが分かる。

In remote sensing images, the existence of the thin cloud is an inevitable and ubiquitous phenomenon that crucially reduces the quality of imageries and limits the scenarios of application. Therefore, thin cloud removal is an indispensable procedure to enhance the utilization of remote sensing images. Generally, even though contaminated by thin clouds, the pixels still retain more or less surface information. Hence, different from thick cloud removal, thin cloud removal algorithms normally concentrate on inhibiting the cloud influence rather than substituting the cloud-contaminated pixels. Meanwhile, considering the surface features obscured by the cloud are usually similar to adjacent areas, the dependency between each pixel of the input is useful to reconstruct contaminated areas. In this paper, to make full use of the dependencies between pixels of the image, we propose a Multi-Head Linear Attention Generative Adversarial Network (MLAGAN) for Thin Cloud Removal. The MLA-GAN is based on the encoding-decoding framework consisting of multiple attention-based layers and deconvolutional layers. Compared with six deep learning-based thin cloud removal benchmarks, the experimental results on the RICE1 and RICE2 datasets demonstrate that the proposed framework MLA-GAN has dominant advantages in thin cloud removal.
翻訳日:2021-05-01 04:39:31 公開日:2020-12-20
# MA-Unet:医療画像セグメンテーションのためのマルチスケール・アテンション機構に基づくUnetの改良版

MA-Unet: An improved version of Unet based on multi-scale and attention mechanism for medical image segmentation ( http://arxiv.org/abs/2012.10952v1 )

ライセンス: Link先を確認
Yutong Cai, Yong Wang(参考訳) 畳み込みニューラルネットワーク(cnns)は医用画像セマンティクスセグメンテーションの開発を促進するが、標準モデルにはいくつかの欠点がある。 まず、スキップ接続動作におけるエンコーダとデコーダのサブネットワークからの特徴マッピングは、意味的差異が大きい。 第二に、リモート機能依存は効果的にモデル化されない。 第3に、異なるスケールのグローバルコンテキスト情報は無視される。 本稿では,アテンションゲート (ags) を付加し,アテンション機構を用いて局所特徴と対応するグローバル依存性を結合し,チャネル間の依存関係を明示的にモデル化し,マルチスケール予測融合を用いて異なるスケールでグローバル情報を活用することにより,スキップ接続操作における意味的曖昧さを解消する。 他の最先端セグメンテーションネットワークと比較して、より少ないパラメータを導入しながら、より優れたセグメンテーション性能が得られる。

Although convolutional neural networks (CNNs) are promoting the development of medical image semantic segmentation, the standard model still has some shortcomings. First, the feature mapping from the encoder and decoder sub-networks in the skip connection operation has a large semantic difference. Second, the remote feature dependence is not effectively modeled. Third, the global context information of different scales is ignored. In this paper, we try to eliminate semantic ambiguity in skip connection operations by adding attention gates (AGs), and use attention mechanisms to combine local features with their corresponding global dependencies, explicitly model the dependencies between channels and use multi-scale predictive fusion to utilize global information at different scales. Compared with other state-of-the-art segmentation networks, our model obtains better segmentation performance while introducing fewer parameters.
翻訳日:2021-05-01 04:39:10 公開日:2020-12-20
# deep adversarial trainingを用いたドメイン適応転倒検出

Domain-adaptive Fall Detection Using Deep Adversarial Training ( http://arxiv.org/abs/2012.10911v1 )

ライセンス: Link先を確認
Kai-Chun Liu, Michael Chan, Chia-Yeh Hsieh, Hsiang-Yun Huang, Chia-Tai Chan and Yu Tsao(参考訳) 転倒検出(FD)システムは、緊急転倒イベントを検知し、介護者を警告する医療支援技術である。 しかし, 高精度FDシステムの実装において, 様々なセンサやセンサ位置の仕様で大規模な降雨イベントを得るのは容易ではない。 さらに、機械学習によって得られた知識は、同じドメインのタスクに制限されている。 異なるドメイン間のミスマッチは、FDシステムの性能を損なう可能性がある。 クロスドメインな知識伝達は、機械学習に基づくFDシステムにとって、新しい環境で十分にラベル付けされたデータで信頼性の高いFDモデルをトレーニングする上で非常に有益である。 本研究では,deep adversarial training (dat) を用いて,クロスポジションやクロスコンフィグレーションなどのクロスドメイン問題に対処するドメイン適応転倒検出(dafd)を提案する。 提案したDAFDは、ミスマッチ問題を避けるために、ドメインの矛盾を最小限に抑えて、ソースドメインからターゲットドメインに知識を転送することができる。 実験の結果,DAFDを用いた場合の平均F1スコア改善率は,クロスポジションシナリオでは1.5%から7%,クロスコンフィグレーションシナリオでは3.5%から12%であった。 その結果,提案するdafdはクロスドメイン問題への対処に成功し,検出性能が向上した。

Fall detection (FD) systems are important assistive technologies for healthcare that can detect emergency fall events and alert caregivers. However, it is not easy to obtain large-scale annotated fall events with various specifications of sensors or sensor positions, during the implementation of accurate FD systems. Moreover, the knowledge obtained through machine learning has been restricted to tasks in the same domain. The mismatch between different domains might hinder the performance of FD systems. Cross-domain knowledge transfer is very beneficial for machine-learning based FD systems to train a reliable FD model with well-labeled data in new environments. In this study, we propose domain-adaptive fall detection (DAFD) using deep adversarial training (DAT) to tackle cross-domain problems, such as cross-position and cross-configuration. The proposed DAFD can transfer knowledge from the source domain to the target domain by minimizing the domain discrepancy to avoid mismatch problems. The experimental results show that the average F1score improvement when using DAFD ranges from 1.5% to 7% in the cross-position scenario, and from 3.5% to 12% in the cross-configuration scenario, compared to using the conventional FD model without domain adaptation training. The results demonstrate that the proposed DAFD successfully helps to deal with cross-domain problems and to achieve better detection performance.
翻訳日:2021-05-01 04:38:24 公開日:2020-12-20
# 粗量子信号を用いた高効率分散RSS学習に関する研究

Study of Energy-Efficient Distributed RLS-based Learning with Coarsely Quantized Signals ( http://arxiv.org/abs/2012.10939v1 )

ライセンス: Link先を確認
A. Danaee, R. C. de Lamare and V. H. Nascimento(参考訳) 本研究では,モノのインターネット(IoT)ネットワークのための粗い量子化信号を用いたエネルギー効率の高い分散学習フレームワークを提案する。 特に、数ビットの量子化信号を用いてエネルギー効率の良い方法でパラメータを学習できる分散量子化・再帰的最小二乗法(dqa-rls)アルゴリズムを開発した。 DQA-RLSアルゴリズムは、IoTデバイスがピアツーピアモードで動作する分散パラメータ推定タスクにおいて、既存の手法と比較して評価する。

In this work, we present an energy-efficient distributed learning framework using coarsely quantized signals for Internet of Things (IoT) networks. In particular, we develop a distributed quantization-aware recursive least squares (DQA-RLS) algorithm that can learn parameters in an energy-efficient fashion using signals quantized with few bits while requiring a low computational cost. Numerical results assess the DQA-RLS algorithm against existing techniques for a distributed parameter estimation task where IoT devices operate in a peer-to-peer mode.
翻訳日:2021-05-01 04:38:02 公開日:2020-12-20
# 動的不均一グラフニューラルネットワークによる疑わしい大量登録検出

Suspicious Massive Registration Detection via Dynamic Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2012.10831v1 )

ライセンス: Link先を確認
Susie Xi Rao, Shuai Zhang, Zhichao Han, Zitao Zhang, Wei Min, Mo Cheng, Yinan Shan, Yang Zhao, Ce Zhang(参考訳) 大規模なアカウント登録は、eコマース企業のリスク管理、特に短期間で登録数が急増した場合の懸念を招いた。 これらの登録を継続的に監視し、発生する可能性のある損失を最小限に抑えるためには、大規模な登録の検出とリスクの予測が必要である。 本稿では,疑わしい大規模登録(dhgreg)をキャプチャする動的ヘテロジニアスグラフニューラルネットワークフレームワークを提案する。 まず,構造的部分グラフと時間的部分グラフからなる登録データから動的不均一グラフを構築する。 そして、疑わしい/良心的なアカウントを予測する効率的なアーキテクチャを設計する。 提案モデルはベースラインモデルより優れ,実世界のデータセットから構築した動的不均一グラフの処理に計算効率が高い。 実際には、DHGRegフレームワークは、早期に不審な登録行動を検出するのに役立つだろう。

Massive account registration has raised concerns on risk management in e-commerce companies, especially when registration increases rapidly within a short time frame. To monitor these registrations constantly and minimize the potential loss they might incur, detecting massive registration and predicting their riskiness are necessary. In this paper, we propose a Dynamic Heterogeneous Graph Neural Network framework to capture suspicious massive registrations (DHGReg). We first construct a dynamic heterogeneous graph from the registration data, which is composed of a structural subgraph and a temporal subgraph. Then, we design an efficient architecture to predict suspicious/benign accounts. Our proposed model outperforms the baseline models and is computationally efficient in processing a dynamic heterogeneous graph constructed from a real-world dataset. In practice, the DHGReg framework would benefit the detection of suspicious registration behaviors at an early stage.
翻訳日:2021-05-01 04:37:44 公開日:2020-12-20
# デジタル製作のためのパラメータ同定:ガウス過程学習アプローチ

Parameter Identification for Digital Fabrication: A Gaussian Process Learning Approach ( http://arxiv.org/abs/2012.11022v1 )

ライセンス: Link先を確認
Yvonne R. St\"urz, Mohammad Khosravi, Roy S. Smith(参考訳) 張力のあるケーブルネットは、薄いコンクリートシェル構造のような軽量建築要素の効率的な構築を支援する構造として使用できる。 後者の重要な機械的特性を保証するため, 張力のあるケーブルネット形状と目標形状とのずれに対する耐性は, 極めて密接である。 そのため、工事現場でフォームを調整する必要がある。 モデルに基づく最適化手法を採用するためには,ケーブルネットシステムの重要な不確実性パラメータの正確な同定が必要である。 本稿では,ガウス過程の回帰を用いて,ケーブル網形状を不確実なパラメータにマッピングする関数を学習する。 従来の提案手法とは対照的に,本手法ではケーブルネットモデルパラメータの同定に単一形状の計測しか必要としない。 建設現場のケーブルネット形状の計測は非常に高価であるため、これは有益である。 ガウス過程のトレーニングでは、シミュレーションされたデータは凸プログラミングによって効率的に計算される。 提案手法の有効性とパラメータの正確な同定がケーブルネットの形状に及ぼす影響を, 屋上構造物の4分の1の試作実験で実証した。

Tensioned cable nets can be used as supporting structures for the efficient construction of lightweight building elements, such as thin concrete shell structures. To guarantee important mechanical properties of the latter, the tolerances on deviations of the tensioned cable net geometry from the desired target form are very tight. Therefore, the form needs to be readjusted on the construction site. In order to employ model-based optimization techniques, the precise identification of important uncertain model parameters of the cable net system is required. This paper proposes the use of Gaussian process regression to learn the function that maps the cable net geometry to the uncertain parameters. In contrast to previously proposed methods, this approach requires only a single form measurement for the identification of the cable net model parameters. This is beneficial since measurements of the cable net form on the construction site are very expensive. For the training of the Gaussian processes, simulated data is efficiently computed via convex programming. The effectiveness of the proposed method and the impact of the precise identification of the parameters on the form of the cable net are demonstrated in numerical experiments on a quarter-scale prototype of a roof structure.
翻訳日:2021-05-01 04:37:32 公開日:2020-12-20