このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210110)

# (参考訳) 潜伏型ニューラルネットワークによる黒色シガトカ感染リスク予測 [全文訳有]

Forecasting Black Sigatoka Infection Risks with Latent Neural ODEs ( http://arxiv.org/abs/2012.00752v2 )

ライセンス: CC BY 4.0
Yuchen Wang, Matthieu Chan Chee, Ziyad Edher, Minh Duc Hoang, Shion Fujimori, Sornnujah Kathirgamanathan, Jesse Bettencourt(参考訳) 黒シガトカ病は世界のバナナ生産を著しく減少させ、気候変動は菌類の分布を変えることで問題を悪化させる。 この感染症の管理に多額の財政負担がかかるため、発展途上国の農家はバナナの収穫量に大きな損失を被っている。 科学者は感染症の数学的モデルを作成したが、これらのモデルに気候効果を取り込むことは困難である。 我々は,ニューラルネットワークであるMR.NODE(Multiple predictoR Neural ODE)を,ニューラル正規微分方程式(Neural Ordinary Differential Equations)によるデータから直接学習した黒色シガトカ感染の動態をモデル化する。 提案手法は,我々が推定する変数に加えて,外部予測因子を潜在空間にエンコードし,任意の時点における感染リスクを予測できる。 実証的に,過去の気候データから,本手法が将来1ヶ月までの時間点の一般化性能に優れ,目立たない不規則性があることを実証する。 我々は,この手法が黒色シガトカの拡散を制御するための有用なツールであると考えている。

Black Sigatoka disease severely decreases global banana production, and climate change aggravates the problem by altering fungal species distributions. Due to the heavy financial burden of managing this infectious disease, farmers in developing countries face significant banana crop losses. Though scientists have produced mathematical models of infectious diseases, adapting these models to incorporate climate effects is difficult. We present MR. NODE (Multiple predictoR Neural ODE), a neural network that models the dynamics of black Sigatoka infection learnt directly from data via Neural Ordinary Differential Equations. Our method encodes external predictor factors into the latent space in addition to the variable that we infer, and it can also predict the infection risk at an arbitrary point in time. Empirically, we demonstrate on historical climate data that our method has superior generalization performance on time points up to one month in the future and unseen irregularities. We believe that our method can be a useful tool to control the spread of black Sigatoka.
翻訳日:2021-05-30 22:27:33 公開日:2021-01-10
# 実像超解像のための全周波数領域適応表現の学習

Learning Omni-frequency Region-adaptive Representations for Real Image Super-Resolution ( http://arxiv.org/abs/2012.06131v2 )

ライセンス: Link先を確認
Xin Li, Xin Jin, Tao Yu, Yingxue Pang, Simeng Sun, Zhizheng Zhang, Zhibo Chen(参考訳) 単一および一様劣化(バイコビックダウンサンプリング)の解決に焦点をあてる従来の単一画像超解法(SISR)は、複雑な現実的な劣化のために現実の低解像度(LR)画像に適用した場合、通常、性能が低下する。 このより困難な実像超解像(RealSR)問題を解決する鍵は、情報とコンテンツの両方を意識した特徴表現の学習にある。 本稿では,低周波,中周波,高周波の全周波数特性を特徴とする全周領域適応ネットワーク(ornet)を提案する。 具体的には、周波数パースペクティブから始め、周波数分解(FD)モジュールを設計し、異なる周波数成分を分離し、実LR画像で失われた情報を包括的に補償する。 そして、実LR画像の異なる領域が異なる周波数情報を失うことを考慮し、動的畳み込みと空間的注意を生かして、異なる領域の周波数成分を適応的に復元する領域適応周波数アグリゲーション(RFA)モジュールを設計する。 この実験は、我々のOR-Net for RealSRの有効かつシナリオに依存しない性質を裏付けるものである。

Traditional single image super-resolution (SISR) methods that focus on solving single and uniform degradation (i.e., bicubic down-sampling), typically suffer from poor performance when applied into real-world low-resolution (LR) images due to the complicated realistic degradations. The key to solving this more challenging real image super-resolution (RealSR) problem lies in learning feature representations that are both informative and content-aware. In this paper, we propose an Omni-frequency Region-adaptive Network (ORNet) to address both challenges, here we call features of all low, middle and high frequencies omni-frequency features. Specifically, we start from the frequency perspective and design a Frequency Decomposition (FD) module to separate different frequency components to comprehensively compensate the information lost for real LR image. Then, considering the different regions of real LR image have different frequency information lost, we further design a Region-adaptive Frequency Aggregation (RFA) module by leveraging dynamic convolution and spatial attention to adaptively restore frequency components for different regions. The extensive experiments endorse the effective, and scenario-agnostic nature of our OR-Net for RealSR.
翻訳日:2021-05-11 02:53:57 公開日:2021-01-10
# 対人モーメントコントラスト前訓練

Adversarial Momentum-Contrastive Pre-Training ( http://arxiv.org/abs/2012.13154v2 )

ライセンス: Link先を確認
Cong Xu, Min Yang(参考訳) 深層ニューラルネットワークは、意味的不変な汚職や知覚不能な人工摂動に弱い。 データ拡張は前者に対する堅牢性を改善することができるが、後者に対する保証はない。 一方、敵対的な訓練は正反対だ。 近年、adversarial self-supervised pre-trainingは、データ拡張とadversarial perturbationの両方の下で不変表現を抽出するのに役立つことが示されている。 本論文は,mocoの考え方に基づき,2つの動的メモリバンクを設計,それぞれに歴史的なクリーン表現と逆表現を維持させ,長期に一貫性のある識別表現を活用すべく,新たなadversarial momentum-contrastive (amoc) pre-training approachを提案する。 既存の自己教師型事前トレーニングアプローチと比較して、AMOCはより小さなバッチサイズと少ないトレーニングエポックを使用することができるが、より堅牢な機能を学ぶことができる。 実験の結果,本手法は最先端の対向ロバスト性をさらに向上させることがわかった。 私たちのコードは \url{https://github.com/M TandHJ/amoc} で利用可能です。

Deep neural networks are vulnerable to semantic invariant corruptions and imperceptible artificial perturbations. Although data augmentation can improve the robustness against the former, it offers no guarantees against the latter. Adversarial training, on the other hand, is quite the opposite. Recent studies have shown that adversarial self-supervised pre-training is helpful to extract the invariant representations under both data augmentations and adversarial perturbations. Based on the MoCo's idea, this paper proposes a novel adversarial momentum-contrastive (AMOC) pre-training approach, which designs two dynamic memory banks to maintain the historical clean and adversarial representations respectively, so as to exploit the discriminative representations that are consistent in a long period. Compared with the existing self-supervised pre-training approaches, AMOC can use a smaller batch size and fewer training epochs but learn more robust features. Empirical results show that the developed approach further improves the current state-of-the-art adversarial robustness. Our code is available at \url{https://github.com/M TandHJ/amoc}.
翻訳日:2021-04-25 08:15:07 公開日:2021-01-10
# マングローブの地理的分布予測モデル

A Predictive Model for Geographic Distributions of Mangroves ( http://arxiv.org/abs/2101.00967v2 )

ライセンス: Link先を確認
Lynn Wahab, Ezzat Chebaro, Jad Ismail, Amir Nasrelddine, Ali El-Zein(参考訳) 気候変動は差し迫っている災害であり、毎年ますます懸念が高まっている。 気候変動が農業、土地資源、生物多様性に与える長期的な影響を研究するために、無数の努力がなされている。 しかし、海洋生物に関する研究は文学ではあまり一般的ではない。 本研究は,マングローブの個体群(熱帯沿岸干潟地帯に生息する低木や小樹群)と,気温,熱量,海水準,海水塩分濃度など,気候変動要因との関連性について検討した。 マングローブは海洋生態系に特に関係しているのは、他の海洋生物に対する保護性、二酸化炭素の高吸収率、および海岸の塩分濃度の変動に耐えられる能力のためである。 グローバル分布の変化は,前年の世界的分布,および海洋熱量,塩分濃度,温度,ハロステリック海水準,熱水位,総ステリック海水準に基づいて検討された。 最高の性能予測モデルは支持ベクトル回帰器であり、相関係数は0.9998である。

Climate change is an impending disaster which is of pressing concern more and more every year. Countless efforts have been made to study the long-term effects of climate change on agriculture, land resources, and biodiversity. Studies involving marine life, however, are less prevalent in the literature. Our research studies the available data on the population of mangroves (groups of shrubs or small trees living in saline coastal intertidal zones) and their correlations to climate change variables, specifically, temperature, heat content, various sea levels, and sea salinity. Mangroves are especially relevant to oceanic ecosystems because of their protective nature towards other marine life, as well as their high absorption rate of carbon dioxide, and their ability to withstand varying levels of salinity of our coasts. The change in global distribution was studied based on global distributions of the previous year, as well as ocean heat content, salinity, temperature, halosteric sea level, thermosteric sea level, and total steric sea level. The best performing predictive model was a support vector regressor, which yielded a correlation coefficient of 0.9998.
翻訳日:2021-04-18 05:53:59 公開日:2021-01-10
# (参考訳) ネットワークにおける異端性ホモフィリ、コミュニティ構造、および三進的閉鎖 [全文訳有]

Disentangling homophily, community structure and triadic closure in networks ( http://arxiv.org/abs/2101.02510v2 )

ライセンス: CC BY-SA 4.0
Tiago P. Peixoto(参考訳) ネットワークホモフィリー(英語版)、類似ノードの接続傾向、推移性(英語版)、共通隣ノードを共有する場合の2ノードの接続傾向は、一方のメカニズムが他方を駆動できるため、ネットワーク解析において共役特性である。 本稿では、両方のメカニズムを区別できる生成モデルとそれに対応する推論手順を提案する。 提案手法は, 3次元閉包エッジを付加した確率ブロックモデル(SBM)のバリエーションに基づいており, その推論により, ネットワーク内のすべてのエッジの存在に寄与する最も確実なメカニズムを, 基礎となるコミュニティ構造に加えて同定することができる。 本手法は,ネットワーク内の三角形の形成に起因した急激なコミュニティの検出を回避し,三進的閉鎖を伴わないSBMの純粋なバージョンと比較してリンク予測性能を向上させる方法を示す。

Network homophily, the tendency of similar nodes to be connected, and transitivity, the tendency of two nodes being connected if they share a common neighbor, are conflated properties in network analysis, since one mechanism can drive the other. Here we present a generative model and corresponding inference procedure that is capable of distinguishing between both mechanisms. Our approach is based on a variation of the stochastic block model (SBM) with the addition of triadic closure edges, and its inference can identify the most plausible mechanism responsible for the existence of every edge in the network, in addition to the underlying community structure itself. We show how the method can evade the detection of spurious communities caused solely by the formation of triangles in the network, and how it can improve the performance of link prediction when compared to the pure version of the SBM without triadic closure.
翻訳日:2021-04-10 17:12:17 公開日:2021-01-10
# (参考訳) 複雑系における接続性解析のための大規模拡大顆粒因果性(lsAGC):コンピュータシミュレーションから機能MRI(fMRI)へ [全文訳有]

Large-scale Augmented Granger Causality (lsAGC) for Connectivity Analysis in Complex Systems: From Computer Simulations to Functional MRI (fMRI) ( http://arxiv.org/abs/2101.09354v1 )

ライセンス: CC BY 4.0
Axel Wismuller and M. Ali Vosoughi(参考訳) 本稿では,複合システムにおける接続解析の方法として,大規模Augmented Granger Causality (lsAGC)を導入する。 lsagcアルゴリズムはディメンジョン低減とソース時系列拡張を組み合わせることで、時系列間の有向因果関係を推定するために予測時系列モデリングを用いる。 この方法は多変量アプローチであり、基礎となる力学系の全ての時系列が存在する場合、各時系列が他の時系列に与える影響を識別することができる。 合成指向性時系列ネットワーク上での lsAGC の性能を定量的に評価する。 参照法として,機能的MRI(fMRI)文献における接続性の標準尺度として一般的に用いられるクロス相関と比較する。 幅広い時系列長と5dBと15dBの2種類の信号対雑音比のシミュレーションを用いて、lsAGCは連続的にネットワーク接続を正確に検出し、テスト対象の時系列長とノイズレベルすべてで受信者演算子特性曲線(ROC)解析を用いて相互相関を向上する。 さらに, 臨床応用の可能性として, 自閉症スペクトラム障害(ASD)患者のfMRIデータと典型的コントロールの接続行列を, 自閉症脳画像データ交換II(ABIDE II)データレポジトリの59項目のサブセットを用いて, 予備的定性解析を行った。 以上の結果から,lsAGCは複雑なシステムにおけるネットワーク解析に有用であり,疾患関連分類や臨床データへの回帰タスクといった将来の研究における臨床fMRI解析にも応用できる可能性が示唆された。

We introduce large-scale Augmented Granger Causality (lsAGC) as a method for connectivity analysis in complex systems. The lsAGC algorithm combines dimension reduction with source time-series augmentation and uses predictive time-series modeling for estimating directed causal relationships among time-series. This method is a multivariate approach, since it is capable of identifying the influence of each time-series on any other time-series in the presence of all other time-series of the underlying dynamic system. We quantitatively evaluate the performance of lsAGC on synthetic directional time-series networks with known ground truth. As a reference method, we compare our results with cross-correlation, which is typically used as a standard measure of connectivity in the functional MRI (fMRI) literature. Using extensive simulations for a wide range of time-series lengths and two different signal-to-noise ratios of 5 and 15 dB, lsAGC consistently outperforms cross-correlation at accurately detecting network connections, using Receiver Operator Characteristic Curve (ROC) analysis, across all tested time-series lengths and noise levels. In addition, as an outlook to possible clinical application, we perform a preliminary qualitative analysis of connectivity matrices for fMRI data of Autism Spectrum Disorder (ASD) patients and typical controls, using a subset of 59 subjects of the Autism Brain Imaging Data Exchange II (ABIDE II) data repository. Our results suggest that lsAGC, by extracting sparse connectivity matrices, may be useful for network analysis in complex systems, and may be applicable to clinical fMRI analysis in future research, such as targeting disease-related classification or regression tasks on clinical data.
翻訳日:2021-04-09 06:38:52 公開日:2021-01-10
# (参考訳) 船体軌道類似性計算のための畳み込みオートエンコーダを用いた教師なし学習法 [全文訳有]

An Unsupervised Learning Method with Convolutional Auto-Encoder for Vessel Trajectory Similarity Computation ( http://arxiv.org/abs/2101.03169v1 )

ライセンス: CC BY 4.0
Maohan Liang, Ryan Wen Liu, Shichen Li, Zhe Xiao, Xin Liu, Feng Lu(参考訳) 大型船舶軌道の信頼性の高い鉱業結果を得るためには, 異なる船舶軌道間の類似性を効率的に計算する方法が重要な課題である。 近年,海洋データマイニング研究コミュニティにおいて,船舶軌道類似性の計算が注目されている。 しかし、従来の形状や反りに基づく手法では、高い計算コストや不要なアーティファクトに対する感度、不均一なサンプリングレートなどの欠点がしばしば発生する。 これらの欠点を解消するために,畳み込みオートエンコーダ(CAE)を用いて低次元特徴を自動的に抽出する教師なし学習手法を提案する。 特に, 生血管軌跡を時空間特性を保ちながら2次元の行列に再構成することにより, まず情報的軌跡画像を生成する。 収集された大量の血管軌跡に基づいて、CAEは教師なしの方法で情報的軌跡画像の低次元表現を学習することができる。 軌道類似性は、学習された低次元特徴間の類似性を効率的に計算することと同値である。 実データ集合に関する包括的実験により,提案手法は従来の軌道類似性計算手法よりも効率と有効性において優れることが示された。 高品質な軌道クラスタリング性能は、CAEに基づく軌道類似性計算結果に従って保証される。

To achieve reliable mining results for massive vessel trajectories, one of the most important challenges is how to efficiently compute the similarities between different vessel trajectories. The computation of vessel trajectory similarity has recently attracted increasing attention in the maritime data mining research community. However, traditional shape- and warping-based methods often suffer from several drawbacks such as high computational cost and sensitivity to unwanted artifacts and non-uniform sampling rates, etc. To eliminate these drawbacks, we propose an unsupervised learning method which automatically extracts low-dimensional features through a convolutional auto-encoder (CAE). In particular, we first generate the informative trajectory images by remapping the raw vessel trajectories into two-dimensional matrices while maintaining the spatio-temporal properties. Based on the massive vessel trajectories collected, the CAE can learn the low-dimensional representations of informative trajectory images in an unsupervised manner. The trajectory similarity is finally equivalent to efficiently computing the similarities between the learned low-dimensional features, which strongly correlate with the raw vessel trajectories. Comprehensive experiments on realistic data sets have demonstrated that the proposed method largely outperforms traditional trajectory similarity computation methods in terms of efficiency and effectiveness. The high-quality trajectory clustering performance could also be guaranteed according to the CAE-based trajectory similarity computation results.
翻訳日:2021-04-09 06:26:26 公開日:2021-01-10
# (参考訳) NOMAを用いたUAV支援可視光通信のサムレート最大化:Swarm Intelligenceが機械学習に到達 [全文訳有]

Sum-Rate Maximization for UAV-assisted Visible Light Communications using NOMA: Swarm Intelligence meets Machine Learning ( http://arxiv.org/abs/2101.03498v1 )

ライセンス: CC BY 4.0
Quoc-Viet Pham, Thien Huynh-The, Mamoun Alazab, Jun Zhao, Won-Joo Hwang(参考訳) 無人航空機(UAV)と可視光通信(VLC)の統合は、5G以降の大規模接続アプリケーションやサービスに多くのメリットをもたらす可能性があるため、非直交多重アクセスを用いたUAV支援型VLCを検討する。 具体的には、全ユーザの総和率を最大化するために、電力配分とUAV配置の連立問題を定式化し、電力配分の制約、ユーザのサービス品質、UAV位置について検討する。 この問題は一般に非凸かつNPハードであるため、最適に解くのは難しい。 さらに、この問題はVLCのチャネルモデリングのため、例えば座標降下アルゴリズムのような従来の手法では簡単には解決できない。 そこで本研究では,harris hawks optimization (hho) アルゴリズムを用いて定式化問題を解く手法を提案する。 次に,HHOアルゴリズムと人工ニューラルネットワークを用いて,リアルタイムアプリケーションに使用可能な設計を提案し,従来のトレーナーの"ローカルミニマ"トラップに陥ることを避ける。 提案アルゴリズムの有効性を検証し,提案アルゴリズム/HHOトレーナーがいくつかの代替スキームや既存メタヒューリスティックアルゴリズムよりも優れていることを示す。

As the integration of unmanned aerial vehicles (UAVs) into visible light communications (VLC) can offer many benefits for massive-connectivity applications and services in 5G and beyond, this work considers a UAV-assisted VLC using non-orthogonal multiple-access. More specifically, we formulate a joint problem of power allocation and UAV's placement to maximize the sum rate of all users, subject to constraints on power allocation, quality of service of users, and UAV's position. Since the problem is non-convex and NP-hard in general, it is difficult to be solved optimally. Moreover, the problem is not easy to be solved by conventional approaches, e.g., coordinate descent algorithms, due to channel modeling in VLC. Therefore, we propose using harris hawks optimization (HHO) algorithm to solve the formulated problem and obtain an efficient solution. We then use the HHO algorithm together with artificial neural networks to propose a design which can be used in real-time applications and avoid falling into the "local minima" trap in conventional trainers. Numerical results are provided to verify the effectiveness of the proposed algorithm and further demonstrate that the proposed algorithm/HHO trainer is superior to several alternative schemes and existing metaheuristic algorithms.
翻訳日:2021-04-09 05:57:37 公開日:2021-01-10
# (参考訳) CapsField: カプセルルーティングを用いた野生における光場に基づく顔と表情認識 [全文訳有]

CapsField: Light Field-based Face and Expression Recognition in the Wild using Capsule Routing ( http://arxiv.org/abs/2101.03503v1 )

ライセンス: CC BY 4.0
Alireza Sepas-Moghaddam, Ali Etemad, Fernando Pereira, Paulo Lobato Correia(参考訳) 光場(LF)カメラは、複数の視点から視覚シーンを感知することで、リッチな空間角の視覚表現を提供し、近年、バイオメトリックスや感情計算などの人間機械システムの性能を高めるための有望な技術として登場した。 顔画像解析におけるlf表現の有意な成功にもかかわらず、この技術は野生では顔認識や表情認識に使われていない。 本稿では、畳み込みニューラルネットワークと、カプセル間の階層的関係を学習するために動的ルーティングを利用する追加のカプセルネットワークに基づいて、capsfieldと呼ばれる新しい深層顔・表情認識ソリューションを提案する。 CapsFieldは、顔画像から空間的特徴を抽出し、各LF画像から描画された選択された2次元サブアパーチャ画像の角部関係を学習する。 野生環境における提案手法の性能を解析するために,野生のlf顔データセットにおける第1号と,同一被写体から取得した新たな補完的制約付き顔データセットがキャプチャされ,利用可能となった。 in the wildデータセットのサブセットには、表情の異なる顔画像が含まれており、表情認識テストのコンテキストでの使用にアノテートされている。 新しいデータセットを用いた広範な性能評価研究が提案および関連する先行ソリューションに対して行われ、capsfieldの提案するソリューションは、最先端のソリューションと比較して、顔認識タスクと表情認識タスクの両方において優れたパフォーマンスを達成できることが示されている。

Light field (LF) cameras provide rich spatio-angular visual representations by sensing the visual scene from multiple perspectives and have recently emerged as a promising technology to boost the performance of human-machine systems such as biometrics and affective computing. Despite the significant success of LF representation for constrained facial image analysis, this technology has never been used for face and expression recognition in the wild. In this context, this paper proposes a new deep face and expression recognition solution, called CapsField, based on a convolutional neural network and an additional capsule network that utilizes dynamic routing to learn hierarchical relations between capsules. CapsField extracts the spatial features from facial images and learns the angular part-whole relations for a selected set of 2D sub-aperture images rendered from each LF image. To analyze the performance of the proposed solution in the wild, the first in the wild LF face dataset, along with a new complementary constrained face dataset captured from the same subjects recorded earlier have been captured and are made available. A subset of the in the wild dataset contains facial images with different expressions, annotated for usage in the context of face expression recognition tests. An extensive performance assessment study using the new datasets has been conducted for the proposed and relevant prior solutions, showing that the CapsField proposed solution achieves superior performance for both face and expression recognition tasks when compared to the state-of-the-art.
翻訳日:2021-04-09 05:32:09 公開日:2021-01-10
# (参考訳) 逆環境下における軽量低速度ミリ波レーダを用いたナビゲーション表現のクロスモーダルコントラスト学習 [全文訳有]

Cross-Modal Contrastive Learning of Representations for Navigation using Lightweight, Low-Cost Millimeter Wave Radar for Adverse Environmental Conditions ( http://arxiv.org/abs/2101.03525v1 )

ライセンス: CC BY 4.0
Jui-Te Huang, Chen-Lung Lu, Po-Kai Chang, Ching-I Huang, Chao-Chun Hsu, Zu Lin Ewe, Po-Jui Huang and Hsueh-Cheng Wang(参考訳) エージェントがミスから学習する深層強化学習(RL)は、様々なタスクにうまく適用されている。 無人車両の衝突のないポリシーを学習するために、深部RLは、古典的な地図-ローカライズ-プランアプローチを使わずに、色付き画像、深度画像、LiDAR点雲などの様々な種類のデータでトレーニングするために使われてきた。 しかし、既存の手法はカメラやLiDAR機器に依存しているため、環境の悪さ(スモーキーな環境など)で感知が低下している。 そこで本研究では,シングルチップミリ波(mmWave)レーダーを軽量かつ安価に利用し,学習に基づく自律ナビゲーションを実現することを提案する。 しかし,mmWave レーダの信号はノイズが多く,疎いため,訓練段階における mmWave レーダデータと LiDAR データの一致を最大化する表現法 (CM-CLR) のクロスモーダルコントラスト学習を提案する。 本手法を実世界のロボットで評価し,1) クロスモーダル生成再構成とRLポリシーを用いた2つのネットワークを用いた手法,2) クロスモーダル表現のないベースラインRLポリシーと比較した。 逆学習によるエンドツーエンドの深層RLポリシーは,煙に満ちた迷路環境を通じてロボットをナビゲートし,ノイズの多い人工物壁や障害物を発生させる再生法に比べ,優れた性能を実現した。 事前トレーニングされたモデルとハードウェア設定はすべて、この研究を再現するためのオープンアクセスであり、https://arg-nctu.git hub.io/projects/deep rl-mmWave.orgで入手できる。

Deep reinforcement learning (RL), where the agent learns from mistakes, has been successfully applied to a variety of tasks. With the aim of learning collision-free policies for unmanned vehicles, deep RL has been used for training with various types of data, such as colored images, depth images, and LiDAR point clouds, without the use of classic map--localize--plan approaches. However, existing methods are limited by their reliance on cameras and LiDAR devices, which have degraded sensing under adverse environmental conditions (e.g., smoky environments). In response, we propose the use of single-chip millimeter-wave (mmWave) radar, which is lightweight and inexpensive, for learning-based autonomous navigation. However, because mmWave radar signals are often noisy and sparse, we propose a cross-modal contrastive learning for representation (CM-CLR) method that maximizes the agreement between mmWave radar data and LiDAR data in the training stage. We evaluated our method in real-world robot compared with 1) a method with two separate networks using cross-modal generative reconstruction and an RL policy and 2) a baseline RL policy without cross-modal representation. Our proposed end-to-end deep RL policy with contrastive learning successfully navigated the robot through smoke-filled maze environments and achieved better performance compared with generative reconstruction methods, in which noisy artifact walls or obstacles were produced. All pretrained models and hardware settings are open access for reproducing this study and can be obtained at https://arg-nctu.git hub.io/projects/deep rl-mmWave.html
翻訳日:2021-04-09 04:57:34 公開日:2021-01-10
# (参考訳) 限定的関係分類のためのラベル単語とジョイント表現学習を用いた適応型プロトタイプネットワーク [全文訳有]

Adaptive Prototypical Networks with Label Words and Joint Representation Learning for Few-Shot Relation Classification ( http://arxiv.org/abs/2101.03526v1 )

ライセンス: CC BY 4.0
Yan Xiao, Yaochu Jin, and Kuangrong Hao(参考訳) 関係分類(rc)タスクは情報抽出の基本課題の一つであり、非構造化自然言語テキストにおけるエンティティ対間の関係情報を検出し、エンティティ関係三重項という形で構造化データを生成することを目的としている。 遠隔監視手法は教師付き学習におけるトレーニングデータの欠如問題を効果的に軽減することができるが、データにノイズを生じさせ、トレーニングインスタンスのロングテール分布問題を根本的に解決することはできない。 ニューラルネットワークが人間のような少数のインスタンスを通して新しい知識を学べるようにするために、この研究は、クラスごとに多くのサンプルしか持たないトレーニングセットにない新しいクラスに分類器を一般化する、いくつかのショット関係分類(FSRC)に焦点を当てている。 既存の情報をフル活用し、各インスタンスのより優れた特徴表現を得るために、各クラスプロトタイプを2つの側面から適応的にエンコードすることを提案する。 まず,プロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。この機構は,我々の知る限りでは,各クラスのサポートサンプルの特徴にラベル情報を統合して,よりインタラクティブなクラスプロトタイプを得る最初の試みである。 次に,各カテゴリのサンプル間距離をより合理的に測定するために,協調表現学習のための損失関数を導入し,各サポートインスタンスを適応的に符号化する。 FewRel の様々な小ショット (FS) 設定下での大規模な実験により,ラベル語と共同表現学習を用いた適応型プロトタイプネットワークが精度を大幅に向上しただけでなく,少数ショットRCモデルの一般化能力も向上したことを示す。

Relation classification (RC) task is one of fundamental tasks of information extraction, aiming to detect the relation information between entity pairs in unstructured natural language text and generate structured data in the form of entity-relation triple. Although distant supervision methods can effectively alleviate the problem of lack of training data in supervised learning, they also introduce noise into the data, and still cannot fundamentally solve the long-tail distribution problem of the training instances. In order to enable the neural network to learn new knowledge through few instances like humans, this work focuses on few-shot relation classification (FSRC), where a classifier should generalize to new classes that have not been seen in the training set, given only a number of samples for each class. To make full use of the existing information and get a better feature representation for each instance, we propose to encode each class prototype in an adaptive way from two aspects. First, based on the prototypical networks, we propose an adaptive mixture mechanism to add label words to the representation of the class prototype, which, to the best of our knowledge, is the first attempt to integrate the label information into features of the support samples of each class so as to get more interactive class prototypes. Second, to more reasonably measure the distances between samples of each category, we introduce a loss function for joint representation learning to encode each support instance in an adaptive manner. Extensive experiments have been conducted on FewRel under different few-shot (FS) settings, and the results show that the proposed adaptive prototypical networks with label words and joint representation learning has not only achieved significant improvements in accuracy, but also increased the generalization ability of few-shot RC models.
翻訳日:2021-04-09 04:41:50 公開日:2021-01-10
# (参考訳) iotネットワークにおける機械学習による攻撃分類の実験的検討

An Experimental Analysis of Attack Classification Using Machine Learning in IoT Networks ( http://arxiv.org/abs/2101.12270v1 )

ライセンス: CC BY 4.0
Andrew Churcher, Rehmat Ullah, Jawad Ahmad, Sadaqat ur Rehman, Fawad Masood, Mandar Gogate, Fehaid Alqahtani, Boubakr Nour and William J. Buchanan(参考訳) 近年,IoT(Internet of Things,モノのインターネット)デバイスや,そのようなデバイスが生成するデータ量が大幅に増加している。 IoTネットワークに参加するデバイスは、リソースの制約のある性質のため問題になりがちで、これらのデバイスに対するセキュリティの統合は見過ごされがちである。 これにより、攻撃者はIoTデバイスをターゲットにするインセンティブが高まる。 ネットワーク上で可能な攻撃数が増えるにつれて、従来の侵入検知システム(IDS)がこれらの攻撃に効率的に対処することが難しくなる。 本稿では,k-nearest neighbor(KNN), Support vector machine(SVM), decision tree(DT), naive Bayes(NB), random forest(RF), Artificial Neural Network(ANN), logistic regression(LR)などの機械学習(ML)手法について述べる。 この作業では、MLアルゴリズムは、Bot-IoTデータセット上のバイナリとマルチクラスの分類で比較される。 精度,精度,リコール,F1スコア,ログ損失などのパラメータに基づいて,上記のMLアルゴリズムを実験的に比較した。 HTTP分散サービス拒否攻撃(DDoS)の場合、RFの精度は99%である。 さらに、他のシミュレーション結果に基づく精度、リコール、F1スコア、ログ損失測定は、RFがバイナリ分類における全ての種類の攻撃に優れていることを明らかにする。 しかし、マルチクラス分類では、KNNは他のMLアルゴリズムよりも99%、RFよりも4%高い精度で優れている。

In recent years, there has been a massive increase in the amount of Internet of Things (IoT) devices as well as the data generated by such devices. The participating devices in IoT networks can be problematic due to their resource-constrained nature, and integrating security on these devices is often overlooked. This has resulted in attackers having an increased incentive to target IoT devices. As the number of attacks possible on a network increases, it becomes more difficult for traditional intrusion detection systems (IDS) to cope with these attacks efficiently. In this paper, we highlight several machine learning (ML) methods such as k-nearest neighbour (KNN), support vector machine (SVM), decision tree (DT), naive Bayes (NB), random forest (RF), artificial neural network (ANN), and logistic regression (LR) that can be used in IDS. In this work, ML algorithms are compared for both binary and multi-class classification on Bot-IoT dataset. Based on several parameters such as accuracy, precision, recall, F1 score, and log loss, we experimentally compared the aforementioned ML algorithms. In the case of HTTP distributed denial-of-service (DDoS) attack, the accuracy of RF is 99%. Furthermore, other simulation results-based precision, recall, F1 score, and log loss metric reveal that RF outperforms on all types of attacks in binary classification. However, in multi-class classification, KNN outperforms other ML algorithms with an accuracy of 99%, which is 4% higher than RF.
翻訳日:2021-04-09 03:54:40 公開日:2021-01-10
# (参考訳) レーダに基づく物体検出のためのチャネルブースティング機能アンサンブル [全文訳有]

Channel Boosting Feature Ensemble for Radar-based Object Detection ( http://arxiv.org/abs/2101.03531v1 )

ライセンス: CC BY 4.0
Shoaib Azam, Farzeen Munir and Moongu Jeon(参考訳) 自動運転車は、SOTIF-ISO/PAS-21448( 意図された機能の安全性)で示される安全基準を検証することにより、安全で安全なサービスを提供することが考えられている。 この文脈を保ちながら、環境の認識は、局在化、計画、制御モジュールと協調して重要な役割を果たす。 知覚スタックにおける重要なアルゴリズムとして、物体検出は自動運転車の周囲に関する広範な洞察を提供する。 カメラとライダーは、様々なセンサーモードの物体検出に広く利用されているが、これらの外部センサーは解像度と悪天候条件に制限がある。 本研究では,レーダーによる物体検出が検討され,気象条件下でのセンサの展開と使用を可能にする。 レーダは複雑なデータを与えるため、トランスフォーマーエンコーダデコーダネットワークを用いたチャネルブースティング機能アンサンブル法を提案する。 レーダを用いた物体検出タスクは、設定された予測問題として定式化され、良質および良質の天候条件下で、利用可能なデータセット上で評価される。 提案手法の有効性は,coco評価指標を用いて広範囲に評価され,良質な気象条件と良質な気象条件の両方において,その最新手法を2.55\%$および2.48\%$で上回った。

Autonomous vehicles are conceived to provide safe and secure services by validating the safety standards as indicated by SOTIF-ISO/PAS-21448 (Safety of the intended functionality). Keeping in this context, the perception of the environment plays an instrumental role in conjunction with localization, planning and control modules. As a pivotal algorithm in the perception stack, object detection provides extensive insights into the autonomous vehicle's surroundings. Camera and Lidar are extensively utilized for object detection among different sensor modalities, but these exteroceptive sensors have limitations in resolution and adverse weather conditions. In this work, radar-based object detection is explored provides a counterpart sensor modality to be deployed and used in adverse weather conditions. The radar gives complex data; for this purpose, a channel boosting feature ensemble method with transformer encoder-decoder network is proposed. The object detection task using radar is formulated as a set prediction problem and evaluated on the publicly available dataset in both good and good-bad weather conditions. The proposed method's efficacy is extensively evaluated using the COCO evaluation metric, and the best-proposed model surpasses its state-of-the-art counterpart method by $12.55\%$ and $12.48\%$ in both good and good-bad weather conditions.
翻訳日:2021-04-08 12:26:59 公開日:2021-01-10
# (参考訳) 低温電子顕微鏡画像再構成のための学習回転不変特性 [全文訳有]

Learning Rotation Invariant Features for Cryogenic Electron Microscopy Image Reconstruction ( http://arxiv.org/abs/2101.03549v1 )

ライセンス: CC BY 4.0
Koby Bibas, Gili Weiss-Dicker, Dana Cohen, Noa Cahan, Hayit Greenspan(参考訳) クライエレクトロン顕微鏡(Cryo-Electron Microscopy, Cryo-EM)は、粒子の3次元構造を原子に近い分解能で決定するためのノーベル賞受賞技術である。 3次元単粒子構造の復元における基本的なステップは、その2次元投影を整列させることであり、固定回転角を持つ正準表現の構築が必要である。 ほとんどのアプローチでは、画像回転の連続的な性質を捉えるのに失敗する離散クラスタリングを使用している。 生成的対角ネットワークの最近の発展を生かした新しい手法を提案する。 回転角分類器を備えたエンコーダデコーダを導入する。 さらに,デコーダ出力の判別器を用いて再構成誤差を最小化する。 我々はCryo-EM 5HDBと回転したMNISTデータセットによるアプローチを実証し、最近の手法よりも大幅に改善したことを示す。

Cryo-Electron Microscopy (Cryo-EM) is a Nobel prize-winning technology for determining the 3D structure of particles at near-atomic resolution. A fundamental step in the recovering of the 3D single-particle structure is to align its 2D projections; thus, the construction of a canonical representation with a fixed rotation angle is required. Most approaches use discrete clustering which fails to capture the continuous nature of image rotation, others suffer from low-quality image reconstruction. We propose a novel method that leverages the recent development in the generative adversarial networks. We introduce an encoder-decoder with a rotation angle classifier. In addition, we utilize a discriminator on the decoder output to minimize the reconstruction error. We demonstrate our approach with the Cryo-EM 5HDB and the rotated MNIST datasets showing substantial improvement over recent methods.
翻訳日:2021-04-08 12:15:33 公開日:2021-01-10
# (参考訳) Summaformers @LaySumm 20 LongSumm 20 [全文訳有]

Summaformers @ LaySumm 20, LongSumm 20 ( http://arxiv.org/abs/2101.03553v1 )

ライセンス: CC BY 4.0
Sayar Ghosh Roy, Nikhil Pinnaparaju, Risubh Jain, Manish Gupta, Vasudeva Varma(参考訳) 自動要約は自然言語処理において重要なタスクとして広く研究されてきた。 伝統的に、様々な特徴工学と機械学習に基づくシステムは、抽象的テキスト要約と同様に抽出的に提案されている。 近年、ディープラーニング、特にトランスフォーマーベースのシステムは非常に人気がある。 要約は認知的に難しいタスクであり、要約に値する文を抽出するのは手間がかかり、抽象的な要約を行う際に意味を簡潔に表現するのは複雑である。 本稿では,複数の領域から科学的研究論文を要約する問題を特に考察する。 我々は,2種類の要約,すなわち (a) 要約,すなわち (a) 要約: 研究論文の本質を極端に具体的な技術用語に制限する,非常に短い要約, (b) ロングサム: 論文で触れられた様々なアイデアに対する具体的な洞察を提供することを目的とした,はるかに詳細な要約を区別する。 最新のTransformerベースのモデルを活用しながら、我々のシステムは単純で直感的であり、上述した2種類の紙セクションが人間の要約にどのように貢献するかに基づいています。 ROUGEメトリクスを用いた金標準サマリーに対する評価は,本手法の有効性を実証する。 ブラインドテストコーパスでは,LongSummタスクとLaySummタスクでそれぞれ1位と3位にランクされている。

Automatic text summarization has been widely studied as an important task in natural language processing. Traditionally, various feature engineering and machine learning based systems have been proposed for extractive as well as abstractive text summarization. Recently, deep learning based, specifically Transformer-based systems have been immensely popular. Summarization is a cognitively challenging task - extracting summary worthy sentences is laborious, and expressing semantics in brief when doing abstractive summarization is complicated. In this paper, we specifically look at the problem of summarizing scientific research papers from multiple domains. We differentiate between two types of summaries, namely, (a) LaySumm: A very short summary that captures the essence of the research paper in layman terms restricting overtly specific technical jargon and (b) LongSumm: A much longer detailed summary aimed at providing specific insights into various ideas touched upon in the paper. While leveraging latest Transformer-based models, our systems are simple, intuitive and based on how specific paper sections contribute to human summaries of the two types described above. Evaluations against gold standard summaries using ROUGE metrics prove the effectiveness of our approach. On blind test corpora, our system ranks first and third for the LongSumm and LaySumm tasks respectively.
翻訳日:2021-04-08 12:10:24 公開日:2021-01-10
# (参考訳) リスク最小化による課題満足からの学習 [全文訳有]

Learning from Satisfying Assignments Using Risk Minimization ( http://arxiv.org/abs/2101.03558v1 )

ライセンス: CC BY 4.0
Manjish Pal. Subham Pokhriyal(参考訳) 本稿では,低複雑性ブール関数 $f$ の割当を満たす一様分布に近似する分布を求めるために, \cite{1} によって導入された割当を満たすことから学習する問題を考える。 後の研究で \cite{2} は同じ問題を考慮しているが、ある連続分布の知識により$D$ を見積もることが目的であり、これは未知のブール関数 $f$ の満足な代入に制限される$D$ である。 統計的機械学習におけるパラメータ推定手法の観点からこれらの問題を考察し,リスク最小化のための標準最適化アルゴリズムに基づく同様の結果を示す。

In this paper we consider the problem of Learning from Satisfying Assignments introduced by \cite{1} of finding a distribution that is a close approximation to the uniform distribution over the satisfying assignments of a low complexity Boolean function $f$. In a later work \cite{2} consider the same problem but with the knowledge of some continuous distribution $D$ and the objective being to estimate $D_f$, which is $D$ restricted to the satisfying assignments of an unknown Boolean function $f$. We consider these problems from the point of view of parameter estimation techniques in statistical machine learning and prove similar results that are based on standard optimization algorithms for Risk Minimization.
翻訳日:2021-04-08 12:00:30 公開日:2021-01-10
# (参考訳) 安定型Nested Rollout Policy Adaptation [全文訳有]

Stabilized Nested Rollout Policy Adaptation ( http://arxiv.org/abs/2101.03563v1 )

ライセンス: CC BY 4.0
Tristan Cazenave and Jean-Baptiste Sevestre and Matthieu Toulemont(参考訳) nested rollout policy adaptation (nrpa) は、モンテカルロの単一プレイヤーゲームのための検索アルゴリズムである。 本稿では,アルゴリズムの安定性を向上させるため,NRPAの修正を提案する。 実験によると、samegame、travel salesman with time windows、expression discoveryなど、さまざまなアプリケーションドメインのアルゴリズムが改善されている。

Nested Rollout Policy Adaptation (NRPA) is a Monte Carlo search algorithm for single player games. In this paper we propose to modify NRPA in order to improve the stability of the algorithm. Experiments show it improves the algorithm for different application domains: SameGame, Traveling Salesman with Time Windows and Expression Discovery.
翻訳日:2021-04-08 11:55:08 公開日:2021-01-10
# (参考訳) 正規微分方程式を解く残留ニューラルネットワークの精度とアーキテクチャに関する研究 [全文訳有]

Accuracy and Architecture Studies of Residual Neural Network solving Ordinary Differential Equations ( http://arxiv.org/abs/2101.03583v1 )

ライセンス: CC BY 4.0
Changxin Qiu, Aaron Bendickson, Joshua Kalyanapu and Jue Yan(参考訳) 本稿では,残留ニューラルネットワーク(resnet)を用いた常微分方程式の解法を提案する。 ネットワークの重みとバイアスの最適パラメータセットを得るために, 確率勾配降下法を適用した。 euler,runge-kutta2およびrunge-kutta4有限差分法を適用し,resnetを訓練する3つのターゲットセットを生成し,対象研究を行う。 よく訓練されたResNetは、対応する1ステップの有限差分法と同等に振る舞う。 特に,(1) 最適ResNet構造を見つけるために, 1層当たりの隠蔽層数, ニューロン数の観点からアーキテクチャ研究を行い, (2) ResNetソルバの有限差分法と同等の精度で動作を検証し, (3) 解軌道シミュレーションを行った。 ResNetソルバは前方のEulerスキームと同様の方法で実装されているが、その精度は任意の1ステップの手法と同じくらいに高い。 resnetソルバの性能を示すために,数値例の列が提示された。

In this paper we consider utilizing a residual neural network (ResNet) to solve ordinary differential equations. Stochastic gradient descent method is applied to obtain the optimal parameter set of weights and biases of the network. We apply forward Euler, Runge-Kutta2 and Runge-Kutta4 finite difference methods to generate three sets of targets training the ResNet and carry out the target study. The well trained ResNet behaves just as its counterpart of the corresponding one-step finite difference method. In particular, we carry out (1) the architecture study in terms of number of hidden layers and neurons per layer to find the optimal ResNet structure; (2) the target study to verify the ResNet solver behaves as accurate as its finite difference method counterpart; (3) solution trajectory simulation. Even the ResNet solver looks like and is implemented in a way similar to forward Euler scheme, its accuracy can be as high as any one step method. A sequence of numerical examples are presented to demonstrate the performance of the ResNet solver.
翻訳日:2021-04-08 11:46:59 公開日:2021-01-10
# (参考訳) 血液細胞分類のためのニューラルネットワークモデルの組み合わせ [全文訳有]

Combining Neural Network Models for Blood Cell Classification ( http://arxiv.org/abs/2101.03604v1 )

ライセンス: CC BY 4.0
Indraneel Ghosh, Siddhant Kundu(参考訳) 本研究の目的は、異なるタイプの白血球を分類する問題を解くために、リカレントニューラルネットワーク(RNN)と畳み込みニューラルネットワーク(CNN)を組み合わせて構築した多層ニューラルネットワークモデルの効率を評価することである。 これは、所定の画像サンプル中の血液細胞の性質を特定する必要がある血液検査やその他のプロセスの分析を自動化するために、医薬品や医療産業に応用できる。 また、様々な血液関連疾患の診断にも用いられる。

The objective of the study is to evaluate the efficiency of a multi layer neural network models built by combining Recurrent Neural Network(RNN) and Convolutional Neural Network(CNN) for solving the problem of classifying different types of White Blood Cells. This can have applications in the pharmaceutical and healthcare industry for automating the analysis of blood tests and other processes requiring identifying the nature of blood cells in a given image sample. It can also be used in the diagnosis of various blood-related diseases in patients.
翻訳日:2021-04-08 09:26:28 公開日:2021-01-10
# (参考訳) 神経認知情報学マニフェスト [全文訳有]

Neurocognitive Informatics Manifesto ( http://arxiv.org/abs/2101.03609v1 )

ライセンス: CC BY-SA 4.0
W{\l}odzis{\l}aw Duch(参考訳) インフォマティクスは自然情報システムと人工情報システムの構造のあらゆる側面を研究する。 情報に対する理論的、抽象的なアプローチは大きな進歩を遂げてきたが、人間の情報処理は情報管理、表現、理解を含む多くの領域においてまだ整合していない。 ニューロ認知情報学(Neurocognitive informatics)は、人工システムと自然システムの整合性を改善するのに役立つ新しい分野であり、より優れた計算アルゴリズムによって、まだ機械の到達範囲を超えている問題を解決する。 本稿では,この領域における神経認知的インスピレーションと有望な方向性の例を示す。

Informatics studies all aspects of the structure of natural and artificial information systems. Theoretical and abstract approaches to information have made great advances, but human information processing is still unmatched in many areas, including information management, representation and understanding. Neurocognitive informatics is a new, emerging field that should help to improve the matching of artificial and natural systems, and inspire better computational algorithms to solve problems that are still beyond the reach of machines. In this position paper examples of neurocognitive inspirations and promising directions in this area are given.
翻訳日:2021-04-08 09:22:37 公開日:2021-01-10
# (参考訳) 顔の自動認識:写真の家族を認識する

Automatic Face Understanding: Recognizing Families in Photos ( http://arxiv.org/abs/2102.08941v1 )

ライセンス: CC BY 4.0
Joseph P Robinson(参考訳) 私たちは親族認識のための最大のデータベースを構築しました。 データは、ラベルの提案をサイド情報として使用して、より正確なクラスタをガイドする新しいクラスタリングアルゴリズムを使用してラベル付けされた。 時間と人間の入力に大きな節約があった。 統計学的には、fiwは前機種を大きく上回っている。 血縁検証,家族分類,三目的検証,大規模検索・検索にいくつかのベンチマークを行った。 また、FIW上でCNNを訓練し、そのモデルを有名なKinWild I, IIに展開し、SOTAを得た。 最近では、MMによるFIWをさらに強化する。 現在、ビデオダイナミクス、オーディオ、テキストキャプションは、キンシップ認識システムの意思決定に使用できる。 FIWは研究と現実に大きな影響を与えるだろう。 さらに、顔のランドマークの定位に関する古典的な問題にも取り組んだ。 これらのネットワークの大部分は、L1またはL2ノルムに基づく目的を持ち、いくつかの欠点を継承している。 ランドマークの位置は、予測されたランドマークの位置がスプレッドを考慮せずにペナルティ化される生成したヒートマップから決定される。 この問題に対処するため,信頼度を低くする目的を導入した。 もうひとつの問題はラベル付きデータへの依存であり、収集にコストがかかり、エラーの影響を受けやすい。 モデル性能を改善するためにラベルのないデータを活用する逆トレーニングフレームワークを提案することで、両方の問題に対処した。 我々の手法は有名なベンチマークで sota を主張する。 1/8のチャネル数は、CPU上でリアルタイムにSOTAに匹敵する。 最後に、BFWを構築し、民族と性別のサブグループ間のバイアスを測定するプロキシとして機能し、サブグループごとのFRパフォーマンスを特徴付ける。 サンプルペアが本物かどうかを判断するために単一のしきい値を使用する場合、パフォーマンスは最適でないことを示す。

We built the largest database for kinship recognition. The data were labeled using a novel clustering algorithm that used label proposals as side information to guide more accurate clusters. Great savings in time and human input was had. Statistically, FIW shows enormous gains over its predecessors. We have several benchmarks in kinship verification, family classification, tri-subject verification, and large-scale search and retrieval. We also trained CNNs on FIW and deployed the model on the renowned KinWild I and II to gain SOTA. Most recently, we further augmented FIW with MM. Now, video dynamics, audio, and text captions can be used in the decision making of kinship recognition systems. We expect FIW will significantly impact research and reality. Additionally, we tackled the classic problem of facial landmark localization. A majority of these networks have objectives based on L1 or L2 norms, which inherit several disadvantages. The locations of landmarks are determined from generated heatmaps from which predicted landmark locations get penalized without accounting for the spread: a high scatter corresponds to low confidence and vice-versa. To address this, we introduced an objective that penalizes for low confidence. Another issue is a dependency on labeled data, which is expensive to collect and susceptible to error. We addressed both issues by proposing an adversarial training framework that leverages unlabeled data to improve model performance. Our method claims SOTA on renowned benchmarks. Furthermore, our model is robust with a reduced size: 1/8 the number of channels is comparable to SOTA in real-time on a CPU. Finally, we built BFW to serve as a proxy to measure bias across ethnicity and gender subgroups, allowing us to characterize FR performances per subgroup. We show performances are non-optimal when a single threshold is used to determine whether sample pairs are genuine.
翻訳日:2021-04-08 08:52:39 公開日:2021-01-10
# (参考訳) 説明可能な人工知能(XAI):工学的展望 [全文訳有]

Explainable Artificial Intelligence (XAI): An Engineering Perspective ( http://arxiv.org/abs/2101.03613v1 )

ライセンス: CC0 1.0
F. Hussain, R. Hussain, and E. Hossain(参考訳) ディープラーニング(DL)アルゴリズムの顕著な進歩は、ほぼすべての領域で人工知能(AI)技術を使うことへの熱意を加速させたが、これらのアルゴリズムの不透明さは、安全クリティカルなシステムにおける彼らの応用に疑問符を打った。 この点において、ブラックボックスアルゴリズムの内部動作を説明するのに「説明可能性」の次元は不可欠であるだけでなく、規制当局、消費者、サービス提供者にとって最も重要な説明責任と透明性の次元も追加します。 説明可能な人工知能(xai)は、いわゆるブラックボックスaiアルゴリズムをホワイトボックスアルゴリズムに変換する技術と手法のセットであり、これらのアルゴリズムによって達成された結果と、得られた結果に到達するためにアルゴリズムが取る変数、パラメータ、ステップは透明かつ説明可能である。 本稿では、XAIに関する既存の文献を補完するために、XAIの概念を説明するために「エンジニアリング」アプローチをとる。 我々は、XAIの利害関係者について論じ、エンジニアリングの観点から、XAIの数学的輪郭について述べる。 次に、自動運転車をユースケースとして、オブジェクト検出、知覚、制御、行動決定など、XAIのさまざまなコンポーネントへの応用について議論する。 この研究は、XAI分野における新たな研究の道筋を特定するための探索的研究である。

The remarkable advancements in Deep Learning (DL) algorithms have fueled enthusiasm for using Artificial Intelligence (AI) technologies in almost every domain; however, the opaqueness of these algorithms put a question mark on their applications in safety-critical systems. In this regard, the `explainability' dimension is not only essential to both explain the inner workings of black-box algorithms, but it also adds accountability and transparency dimensions that are of prime importance for regulators, consumers, and service providers. eXplainable Artificial Intelligence (XAI) is the set of techniques and methods to convert the so-called black-box AI algorithms to white-box algorithms, where the results achieved by these algorithms and the variables, parameters, and steps taken by the algorithm to reach the obtained results, are transparent and explainable. To complement the existing literature on XAI, in this paper, we take an `engineering' approach to illustrate the concepts of XAI. We discuss the stakeholders in XAI and describe the mathematical contours of XAI from engineering perspective. Then we take the autonomous car as a use-case and discuss the applications of XAI for its different components such as object detection, perception, control, action decision, and so on. This work is an exploratory study to identify new avenues of research in the field of XAI.
翻訳日:2021-04-08 08:47:06 公開日:2021-01-10
# 完全畳み込みニューラルネットワークによる熱マップに基づく物体検出と追跡

Heatmap-based Object Detection and Tracking with a Fully Convolutional Neural Network ( http://arxiv.org/abs/2101.03541v1 )

ライセンス: Link先を確認
Fabian Amherd, Elias Rodriguez(参考訳) 本稿では,人工知能の分野を概観する。 本稿では,オブジェクト検出と追跡のためのアルゴリズムの実践的実装について述べる。 高速に動く物体を検知し追跡する能力は、自動運転、スポーツにおけるボールトラッキング、ロボット工学、オブジェクトカウントなど、さまざまな人工知能の応用に不可欠である。 本論文では,完全畳み込みニューラルネットワークCueNetを開発した。 ラビリンスゲームのキューボールをロバストかつ確実に検出および追跡する。 CueNet V1は単一の入力画像を持つが、CueNet V2のアプローチは3つの240 x 180ピクセルの画像を入力として取り、それらをキューボールの位置の確率ヒートマップに変換することである。 ネットワークは別のビデオでテストされ、堅牢性をテストするためにあらゆる種類の注意をそらした。 テストデータと向き合うと、CueNet V1はすべてのフレームの99.6%で正しいキューボールの位置を予測し、CueNet V2は99.8%の精度を示した。

The main topic of this paper is a brief overview of the field of Artificial Intelligence. The core of this paper is a practical implementation of an algorithm for object detection and tracking. The ability to detect and track fast-moving objects is crucial for various applications of Artificial Intelligence like autonomous driving, ball tracking in sports, robotics or object counting. As part of this paper the Fully Convolutional Neural Network "CueNet" was developed. It detects and tracks the cueball on a labyrinth game robustly and reliably. While CueNet V1 has a single input image, the approach with CueNet V2 was to take three consecutive 240 x 180-pixel images as an input and transform them into a probability heatmap for the cueball's location. The network was tested with a separate video that contained all sorts of distractions to test its robustness. When confronted with our testing data, CueNet V1 predicted the correct cueball location in 99.6% of all frames, while CueNet V2 had 99.8% accuracy.
翻訳日:2021-04-08 08:25:57 公開日:2021-01-10
# Entropic Causal Inference: Identifiability and Finite Sample Results

Entropic Causal Inference: Identifiability and Finite Sample Results ( http://arxiv.org/abs/2101.03501v1 )

ライセンス: Link先を確認
Spencer Compton, Murat Kocaoglu, Kristjan Greenewald, Dmitriy Katz(参考訳) エントロピー因果推論は、観測データから2つのカテゴリー変数間の因果方向を推定する枠組みである。 中心的な仮定は、システム内の観測されないランダム性の量はそれほど大きくないということである。 この観測されていないランダム性は、観測された変数間の因果関係を管理する構造因果モデルにおける外生変数のエントロピーによって測定される。 コカオグルなど。 外因性変数のエントロピーがあまり大きくない場合、因果方向が識別可能であると推測される。 本稿では,それらの予想の変種を証明する。 すなわち、外因性変数が観測変数の状態数にスケールしないエントロピーを持つほとんどすべての因果モデルにおいて、因果方向が観測データから識別可能であることを示す。 また,kocaogluらによって提示された最小エントロピー結合に基づくアルゴリズムアプローチを考察し,有限個のサンプルを用いてアルゴリズムの同定可能性を保証する。 本理論のいくつかの仮定を緩和するために,提案手法の堅牢性を評価するための広範な実験を行い,定数エントロピー外生変数と非潜在共生仮定の両方が実際に緩和可能であることを示す。 また,因果同定に必要な観察サンプル数を実験的に特徴付ける。 最後に,このアルゴリズムをtuebingen 因果効果ペアデータセットに適用する。

Entropic causal inference is a framework for inferring the causal direction between two categorical variables from observational data. The central assumption is that the amount of unobserved randomness in the system is not too large. This unobserved randomness is measured by the entropy of the exogenous variable in the underlying structural causal model, which governs the causal relation between the observed variables. Kocaoglu et al. conjectured that the causal direction is identifiable when the entropy of the exogenous variable is not too large. In this paper, we prove a variant of their conjecture. Namely, we show that for almost all causal models where the exogenous variable has entropy that does not scale with the number of states of the observed variables, the causal direction is identifiable from observational data. We also consider the minimum entropy coupling-based algorithmic approach presented by Kocaoglu et al., and for the first time demonstrate algorithmic identifiability guarantees using a finite number of samples. We conduct extensive experiments to evaluate the robustness of the method to relaxing some of the assumptions in our theory and demonstrate that both the constant-entropy exogenous variable and the no latent confounder assumptions can be relaxed in practice. We also empirically characterize the number of observational samples needed for causal identification. Finally, we apply the algorithm on Tuebingen cause-effect pairs dataset.
翻訳日:2021-04-08 08:25:38 公開日:2021-01-10
# リレーショナルグラフ畳み込みネットワークを用いた敵対的ポストの検出

Detecting Hostile Posts using Relational Graph Convolutional Network ( http://arxiv.org/abs/2101.03485v1 )

ライセンス: Link先を確認
Sarthak, Shikhar Shukla, Govind Mittal, Karm Veer Arya(参考訳) 本研究は, aaai@2021 がヒンディー語における敵対的ポストをソーシャルメディア上で検出するために実施した競争ヒンディー語制約への提案に基づいている。 ここでは,敵対的ポストの検出と分類,および関係グラフ畳み込みネットワークを用いた虚偽,不快,憎悪,名誉の分類を行うモデルを提案する。 他の既存の研究と異なり、我々のアプローチは、より優れた分類のための文脈情報とともに意味論的意味の使用に焦点を当てている。 aaai@2021の結果は、提案モデルが与えられたデータセット上でgoogleのxlm-robertaと同等のパフォーマンスを示している。 粗粒度評価におけるF1スコア0.97(7位)を達成し,偽ポストの識別における最高の性能を達成した。 XLM-Robertaを用いた分類システムでは,細粒度分類では2位であった。

This work is based on the submission to the competition Hindi Constraint conducted by AAAI@2021 for detection of hostile posts in Hindi on social media platforms. Here, a model is presented for detection and classification of hostile posts and further classify into fake, offensive, hate and defamation using Relational Graph Convolutional Networks. Unlike other existing work, our approach is focused on using semantic meaning along with contextutal information for better classification. The results from AAAI@2021 indicates that the proposed model is performing at par with Google's XLM-RoBERTa on the given dataset. Our best submission with RGCN achieves an F1 score of 0.97 (7th Rank) on coarse-grained evaluation and achieved best performance on identifying fake posts. Among all submissions to the challenge, our classification system with XLM-Roberta secured 2nd rank on fine-grained classification.
翻訳日:2021-04-08 08:25:06 公開日:2021-01-10
# 新型コロナウイルスのフェイクニュース検出のためのヒューリスティックなアンサンブルフレームワーク

A Heuristic-driven Ensemble Framework for COVID-19 Fake News Detection ( http://arxiv.org/abs/2101.03545v1 )

ライセンス: Link先を確認
Sourya Dipta Das, Ayan Basak and Saikat Dutta(参考訳) ソーシャルメディアの重要性は過去数十年で増し、世界で最も遠く離れた場所の人々がつながり続けるのを助けるようになった。 新型コロナウイルス(covid-19)パンデミック(covid-19)が拡大するにつれ、ソーシャルメディアはこれまで以上に重要で広く利用されるようになった。 本稿では、英語チャレンジにおけるConSTRAINT COVID19 Fake News Detectionの一部として、COVID-19に関連するツイートが「本物」なのか「フェイク」なのかを自動的に識別するフェイクニュース検知システムについて述べる。 我々は、事前訓練されたモデルからなるアンサンブルモデルを使用して、リーダーボードの8番目の共同ポジションを達成するのに役立ちました。 f1-score は 0.9831 でトップスコア 0.9869 に対して達成した。 コンテスト終了後、ユーザ名ハンドルとリンクドメインに基づく新しいヒューリスティックアルゴリズムを導入し、F1スコア0.9883のツイートを抽出し、与えられたデータセットで最先端の成果を得ることにより、システムを大幅に改善することができた。

The significance of social media has increased manifold in the past few decades as it helps people from even the most remote corners of the world stay connected. With the COVID-19 pandemic raging, social media has become more relevant and widely used than ever before, and along with this, there has been a resurgence in the circulation of fake news and tweets that demand immediate attention. In this paper, we describe our Fake News Detection system that automatically identifies whether a tweet related to COVID-19 is "real" or "fake", as a part of CONSTRAINT COVID19 Fake News Detection in English challenge. We have used an ensemble model consisting of pre-trained models that has helped us achieve a joint 8th position on the leader board. We have achieved an F1-score of 0.9831 against a top score of 0.9869. Post completion of the competition, we have been able to drastically improve our system by incorporating a novel heuristic algorithm based on username handles and link domains in tweets fetching an F1-score of 0.9883 and achieving state-of-the art results on the given dataset.
翻訳日:2021-04-08 08:24:52 公開日:2021-01-10
# SPAGAN: 最短パスグラフ注意ネットワーク

SPAGAN: Shortest Path Graph Attention Network ( http://arxiv.org/abs/2101.03464v1 )

ライセンス: Link先を確認
Yiding Yang, Xinchao Wang, Mingli Song, Junsong Yuan, Dacheng Tao(参考訳) グラフ畳み込みネットワーク(GCN)は、最近、グラフとして表現できる非グリッド構造データを解析する可能性を示した。 中心となる考え方は、畳み込みによってグラフの局所トポロジを中心ノードの特徴にエンコードすることである。 本稿では,最短経路グラフ注意ネットワーク(SPAGAN)と呼ばれる新しいGCNモデルを提案する。 各層内でノードベースの注意を行う従来のGCNモデルとは異なり、提案したSPAGANは、中央ノードとその上位ノード間の最小コスト(最短経路)をもたらすノード列の影響を明確に考慮したパスベースの注意を行う。 したがってSPAGANは、ノードベースのGCN法と比較して、グラフ構造のより情報的かつ無傷な探索を可能にし、さらに、より効果的な中央ノードへの情報の集約を可能にする。 複数の標準データセットの下流分類タスクにおいてSPAGANをテストし、その性能を最先端に向上させる。 コードはhttps://github.com/i hollywhy/SPAGAN.comで公開されている。

Graph convolutional networks (GCN) have recently demonstrated their potential in analyzing non-grid structure data that can be represented as graphs. The core idea is to encode the local topology of a graph, via convolutions, into the feature of a center node. In this paper, we propose a novel GCN model, which we term as Shortest Path Graph Attention Network (SPAGAN). Unlike conventional GCN models that carry out node-based attentions within each layer, the proposed SPAGAN conducts path-based attention that explicitly accounts for the influence of a sequence of nodes yielding the minimum cost, or shortest path, between the center node and its higher-order neighbors. SPAGAN therefore allows for a more informative and intact exploration of the graph structure and further {a} more effective aggregation of information from distant neighbors into the center node, as compared to node-based GCN methods. We test SPAGAN on the downstream classification task on several standard datasets, and achieve performances superior to the state of the art. Code is publicly available at https://github.com/i hollywhy/SPAGAN.
翻訳日:2021-04-08 08:24:18 公開日:2021-01-10
# 電子健康記録の分類に応用した曲率に基づく特徴選択

Curvature-based Feature Selection with Application in Classifying Electronic Health Records ( http://arxiv.org/abs/2101.03581v1 )

ライセンス: Link先を確認
Zheming Zuo, Jie Li, Noura Al Moubayed(参考訳) 電子健康記録(ehrs)は現在、医療施設で広く利用されている。 EHRの固有の不均一性、不均衡、不完全性、高次元性のため、精度医学の範囲内での予測と診断のために機械学習アルゴリズムを用いて分析することは難しい課題である。 次元縮小は高次元データ解析のための効率的なデータ前処理手法であり、例えば、データ解析の性能を向上させながら特徴量を削減する。 分類。 本稿では,より正確な診断を支援するための効率的な曲率に基づく特徴選択法を提案する。 提案手法は,Menger Curvatureを直接利用して,与えられたデータセットの属性をすべてランク付けするフィルタに基づく特徴選択手法である。 従来のPCAとBPCM, GSAM, WCNN, BLS II, VIBES, 2L-MJFA, RFGA, VAFを含む最近のPCAとの比較を行った。 本手法は, CCRFDS, BCCDS, BTDS, DRDDSの4つのベンチマーク医療データに対して, BTDSとCCRFDSのそれぞれ24.73%, 13.93%の改善, BCCDSの7.97%, DRDDSの3.63%の改善を行った。 私たちのCFSソースコードはhttps://github.com/z hemingzuo/CFS.comで公開されています。

Electronic Health Records (EHRs) are widely applied in healthcare facilities nowadays. Due to the inherent heterogeneity, unbalanced, incompleteness, and high-dimensional nature of EHRs, it is a challenging task to employ machine learning algorithms to analyse such EHRs for prediction and diagnostics within the scope of precision medicine. Dimensionality reduction is an efficient data preprocessing technique for the analysis of high dimensional data that reduces the number of features while improving the performance of the data analysis, e.g. classification. In this paper, we propose an efficient curvature-based feature selection method for supporting more precise diagnosis. The proposed method is a filter-based feature selection method, which directly utilises the Menger Curvature for ranking all the attributes in the given data set. We evaluate the performance of our method against conventional PCA and recent ones including BPCM, GSAM, WCNN, BLS II, VIBES, 2L-MJFA, RFGA, and VAF. Our method achieves state-of-the-art performance on four benchmark healthcare data sets including CCRFDS, BCCDS, BTDS, and DRDDS with impressive 24.73% and 13.93% improvements respectively on BTDS and CCRFDS, 7.97% improvement on BCCDS, and 3.63% improvement on DRDDS. Our CFS source code is publicly available at https://github.com/z hemingzuo/CFS.
翻訳日:2021-04-08 08:23:59 公開日:2021-01-10
# 騒音環境における能動出力選択戦略の改善

Improved active output selection strategy for noisy environments ( http://arxiv.org/abs/2101.03499v1 )

ライセンス: Link先を確認
Adrian Prochaska, Julien Pillas and Bernard B\"aker(参考訳) モデルベースキャリブレーションに必要なテストベンチ時間は、テスト設計のためのアクティブな学習方法によって削減できる。 本稿では,アクティブ出力選択のための改良戦略を提案する。 これは、同じ入力次元で複数のモデルを学習するタスクであり、キャリブレーションタスクのニーズに合致する。 既存の戦略と比較して,ガウス過程に固有の雑音推定を考慮に入れた。 この方法は3つの異なるおもちゃの例で検証される。 既存のベスト戦略と比較したパフォーマンスは、それぞれの例で同じかそれ以上です。 最善のシナリオでは、新しい戦略は、他のすべてのアクティブまたはパッシブ戦略と比較して、少なくとも10%の計測を必要とする。 さらなる取り組みは、現実世界のアプリケーションにおける戦略を評価する。 さらに、クエリ配置のためのより洗練されたアクティブラーニング戦略の実装を実現する。

The test bench time needed for model-based calibration can be reduced with active learning methods for test design. This paper presents an improved strategy for active output selection. This is the task of learning multiple models in the same input dimensions and suits the needs of calibration tasks. Compared to an existing strategy, we take into account the noise estimate, which is inherent to Gaussian processes. The method is validated on three different toy examples. The performance compared to the existing best strategy is the same or better in each example. In a best case scenario, the new strategy needs at least 10% less measurements compared to all other active or passive strategies. Further efforts will evaluate the strategy on a real-world application. Moreover, the implementation of more sophisticated active-learning strategies for the query placement will be realized.
翻訳日:2021-04-08 08:23:34 公開日:2021-01-10
# ガウスの神経過程

The Gaussian Neural Process ( http://arxiv.org/abs/2101.03606v1 )

ライセンス: Link先を確認
Wessel P. Bruinsma and James Requeima and Andrew Y. K. Foong and Jonathan Gordon and Richard E. Turner(参考訳) ニューラル・プロセス(NPs; Garnelo et al., 2018a,b)は、データセットを直接予測確率過程にマッピングするメタ学習のためのリッチなモデルのクラスである。 条件付きNPのトレーニングに使用される標準最大形目的の厳密な分析を行う。 さらに, 予測相関をモデル化し, 翻訳等価性を取り入れ, 普遍近似保証を提供し, 性能の向上を実証する, ガウスニューラル・プロセス(GNP)と呼ばれるニューラル・プロセス・ファミリーの新たなメンバーを提案する。

Neural Processes (NPs; Garnelo et al., 2018a,b) are a rich class of models for meta-learning that map data sets directly to predictive stochastic processes. We provide a rigorous analysis of the standard maximum-likelihood objective used to train conditional NPs. Moreover, we propose a new member to the Neural Process family called the Gaussian Neural Process (GNP), which models predictive correlations, incorporates translation equivariance, provides universal approximation guarantees, and demonstrates encouraging performance.
翻訳日:2021-04-08 08:23:25 公開日:2021-01-10
# Lambek-Grishin計算の軽快な文脈感性フラグメントの論理

The Logic for a Mildly Context-Sensitive Fragment of the Lambek-Grishin Calculus ( http://arxiv.org/abs/2101.03634v1 )

ライセンス: Link先を確認
Hiroyoshi Komatsu(参考訳) 文脈自由文法は、カテゴリー文法とその論理ランベック計算という単純な証明論的文法形式論によって特徴づけられるが、そのような特徴付けは木に付随する文法や、いくつかの努力にもかかわらず過去40年間に軽度に文脈に敏感な言語クラスでも知られていない。 我々はこの問題を本論文で解決する。 木に隣接する言語をキャプチャするLambek-Grishin計算の既存の断片に基づいて、HLGと呼ばれる論理を提示する:Moot が研究したランク2のハイパーエッジ置換文法に制限されたLambek-Grishin計算に基づく木に隣接する言語を証明論的に特徴づける。 HLGはカット許容性のある表示計算で定義される。 証明には、純構造接続性、有用性、HLGの証明ネットに関するグラフ理論の議論など、いくつかの新しい手法が導入された。

While context-free grammars are characterized by a simple proof-theoretic grammatical formalism namely categorial grammar and its logic the Lambek calculus, no such characterizations were known for tree-adjoining grammars, and even for any mildly context-sensitive languages classes in the last forty years despite some efforts. We settle this problem in this paper. On the basis of the existing fragment of the Lambek-Grishin calculus which captures tree-adjoining languages, we present a logic called HLG: a proof-theoretic characterization of tree-adjoining languages based on the Lambek-Grishin calculus restricted to Hyperedge-replacemen t grammar with rank two studied by Moot. HLG is defined in display calculus with cut-admissibility. Several new techniques are introduced for the proofs, such as purely structural connectives, usefulness, and a graph-theoretic argument on proof nets for HLG.
翻訳日:2021-04-08 08:23:06 公開日:2021-01-10
# 疎アノテーションを用いたリモートセンシング画像のセマンティックセグメンテーション

Semantic Segmentation of Remote Sensing Images with Sparse Annotations ( http://arxiv.org/abs/2101.03492v1 )

ライセンス: Link先を確認
Yuansheng Hua, Diego Marcos, Lichao Mou, Xiao Xiang Zhu, Devis Tuia(参考訳) 非常に高解像度な画像のために畳み込みニューラルネットワーク(CNN)を訓練するには、大量の高品質のピクセルレベルのアノテーションが必要である。 さらに、プロのフォトインタープリタはアノテーションの正しさを保証するために関与する必要があるかもしれない。 このような負担を軽減するため,不完全アノテーションに基づく航空画像のセマンティックセグメンテーションのためのフレームワークを提案する。 本研究では,これらのスパース・スクリブルアノテーションを活用するために,空間的・特徴的両面の近傍構造を考慮した教師なし学習信号を用いて,教師付きタスクを補完するFESTA法を提案する。

Training Convolutional Neural Networks (CNNs) for very high resolution images requires a large quantity of high-quality pixel-level annotations, which is extremely labor- and time-consuming to produce. Moreover, professional photo interpreters might have to be involved for guaranteeing the correctness of annotations. To alleviate such a burden, we propose a framework for semantic segmentation of aerial images based on incomplete annotations, where annotators are asked to label a few pixels with easy-to-draw scribbles. To exploit these sparse scribbled annotations, we propose the FEature and Spatial relaTional regulArization (FESTA) method to complement the supervised task with an unsupervised learning signal that accounts for neighbourhood structures both in spatial and feature terms.
翻訳日:2021-04-08 08:22:50 公開日:2021-01-10
# センサデータを用いた室内作業検出

Occupancy Detection in Room Using Sensor Data ( http://arxiv.org/abs/2101.03616v1 )

ライセンス: Link先を確認
Mohammadhossein Toutiaee(参考訳) Internet of Thing(IoT)の出現と、ポータブル(スマートフォン)または固定(センサー)デバイスによって毎回収集されるユビキタスデータにより、コンテキスト対応コンピューティング環境でセンサデータから洞察と意味のある情報を得ることが重要である。 セキュリティ、エネルギー効率、信頼性の構築、スマート環境のために、さまざまな分野の科学者によって多くの研究が実施されている。 多くの研究者が興味を持っている研究は、前述のセンサーが環境に関する情報を収集する占有検知に機械学習技術を利用することである。 本稿では,複数の変数を用いてセンサデータを用いて占有率を検出する方法を提案する。 さらに,機械学習とパターン認識機構を用いて収集したデータを解析することにより,屋内環境の占有度を推定できることを示す。 機械学習における7つの有名なアルゴリズム、例えばDecision Tree、Random Forest、Gradient Boosting Machine、Logistic Regression、Naive Bayes、Kernelized SVM、K-Nearest Neighborsがテストされ、比較されている。

With the advent of Internet of Thing (IoT), and ubiquitous data collected every moment by either portable (smart phone) or fixed (sensor) devices, it is important to gain insights and meaningful information from the sensor data in context-aware computing environments. Many researches have been implemented by scientists in different fields, to analyze such data for the purpose of security, energy efficiency, building reliability and smart environments. One study, that many researchers are interested in, is to utilize Machine Learning techniques for occupancy detection where the aforementioned sensors gather information about the environment. This paper provides a solution to detect occupancy using sensor data by using and testing several variables. Additionally we show the analysis performed over the gathered data using Machine Learning and pattern recognition mechanisms is possible to determine the occupancy of indoor environments. Seven famous algorithms in Machine Learning, namely as Decision Tree, Random Forest, Gradient Boosting Machine, Logistic Regression, Naive Bayes, Kernelized SVM and K-Nearest Neighbors are tested and compared in this study.
翻訳日:2021-04-08 08:22:37 公開日:2021-01-10
# クラウドソーシングによる曖昧なラベルを用いた顔感情機械学習モデルの訓練

Using Crowdsourcing to Train Facial Emotion Machine Learning Models with Ambiguous Labels ( http://arxiv.org/abs/2101.03477v1 )

ライセンス: Link先を確認
Peter Washington, Onur Cezmi Mutlu, Emilie Leblanc, Aaron Kline, Cathy Hou, Brianna Chrisman, Nate Stockham, Kelley Paskov, Catalin Voss, Nick Haber, Dennis Wall(参考訳) 現在の感情検出分類器は、離散的な感情を予測する。 しかし心理学の文献では、複合的で曖昧な表情はしばしば人間によって誘発されると記録されている。 複雑で曖昧な感情をより正確に反映した機械学習モデルの開発に向けて、従来のワンホット符号化されたラベル表現を、群衆のラベル分布に置き換える。 本研究は,小児表情のゴールド標準データセットであるcafe(child affective facial expression)データセットを中心とし,画像に100個の人間のラベルを含む。 私たちはまず、CAFEから207の感情のクラウドソースラベルを取得し、群衆からのコンセンサスラベルがオリジナルのCAFEラウンダーのコンセンサスと一致し、クラウドソーシングの有用性を検証する傾向があることを実証した。 次に,カフェ画像上でresnet-152分類器の2つのバージョンを訓練し,従来の1ホットエンコーディングと,応答の群集分布を表すベクターラベルの2種類のラベルを訓練した。 2つの分類器の出力分布を比較した。 ワンホット符号化分類器の伝統的なF1スコアは94.33%対78.68%であるのに対し、群衆訓練分類器の出力確率ベクトルは人間のラベルの分布と非常によく似ている(t=3.2827, p=0.0014)。 感情コンピューティングの多くのアプリケーションにおいて、人間の解釈によく似た感情確率分布を報告することは、従来の機械学習メトリクスよりも重要である。 この作業は、あいまいなクラスを持つ機械学習ケースを、インタラクティブシステムのエンジニアが考慮するための第一歩であり、あいまいなラベルによる機械学習に関する議論を生成し、クラウドソーシングを潜在的なソリューションとして活用することを願っている。

Current emotion detection classifiers predict discrete emotions. However, literature in psychology has documented that compound and ambiguous facial expressions are often evoked by humans. As a stride towards development of machine learning models that more accurately reflect compound and ambiguous emotions, we replace traditional one-hot encoded label representations with a crowd's distribution of labels. We center our study on the Child Affective Facial Expression (CAFE) dataset, a gold standard dataset of pediatric facial expressions which includes 100 human labels per image. We first acquire crowdsourced labels for 207 emotions from CAFE and demonstrate that the consensus labels from the crowd tend to match the consensus from the original CAFE raters, validating the utility of crowdsourcing. We then train two versions of a ResNet-152 classifier on CAFE images with two types of labels (1) traditional one-hot encoding and (2) vector labels representing the crowd distribution of responses. We compare the resulting output distributions of the two classifiers. While the traditional F1-score for the one-hot encoding classifier is much higher (94.33% vs. 78.68%), the output probability vector of the crowd-trained classifier much more closely resembles the distribution of human labels (t=3.2827, p=0.0014). For many applications of affective computing, reporting an emotion probability distribution that more closely resembles human interpretation can be more important than traditional machine learning metrics. This work is a first step for engineers of interactive systems to account for machine learning cases with ambiguous classes and we hope it will generate a discussion about machine learning with ambiguous labels and leveraging crowdsourcing as a potential solution.
翻訳日:2021-04-08 08:21:53 公開日:2021-01-10
# 移動カメラを用いた行動認識と訓練例:自閉症関連ヘッドバンギング検出への応用

Activity Recognition with Moving Cameras and Few Training Examples: Applications for Detection of Autism-Related Headbanging ( http://arxiv.org/abs/2101.03478v1 )

ライセンス: Link先を確認
Peter Washington, Aaron Kline, Onur Cezmi Mutlu, Emilie Leblanc, Cathy Hou, Nate Stockham, Kelley Paskov, Brianna Chrisman, Dennis P. Wall(参考訳) 活動認識コンピュータビジョンアルゴリズムは、「制限的かつ反復的な行動」と呼ばれるものを含む自閉症に関連する行動の存在を診断器によって検出することができる。 この領域に存在する限られたデータは、通常は手持ちのカメラで記録されるが、これは、カメラの動作を誤って特徴として捉えた活動検出のための伝統的な特徴表現アプローチの挑戦である。 これらの問題に対処するため,我々はまず,頭打ち検出に適用した場合の動作認識における現在の特徴表現手法の利点と限界を文書化する。 次に,頭部ポーズキーポイントのみからなる特徴表現を提案する。 我々は、CNNが入力シーケンスの各フレームから特徴を抽出する時間分散畳み込みニューラルネットワーク(CNN)を用いて、ホームビデオの頭部バンピングを検出するコンピュータビジョン分類器を作成し、これらの特徴を長い短期記憶(LSTM)ネットワークへの入力として供給する。 自己刺激行動データセット(self stimulatory behavior dataset:ssbd)からビデオ中の頭打ちや頭打ちを予測できないというバイナリタスクにおいて、列車に登場した子供が全員テストセットにいなかったことを保証するために、3倍のクロス検証(個別のf1-score:83.3%、89.0%、および100.0%)を用いて、平均的なf1-score(90.77%)に達する。 本研究は,映像クリップを撮影するカメラが不安定である場合でも,少ないトレーニング例で人間の動作を検出するコンピュータビジョン分類器の訓練に成功した技術について述べる。 ここで述べる一般的な方法は、インタラクティブシステムの設計者や開発者によって、モバイルおよびユビキタスなインタラクティブシステムで使用される他の人間の動きやポーズ分類問題に対して適用することができる。

Activity recognition computer vision algorithms can be used to detect the presence of autism-related behaviors, including what are termed "restricted and repetitive behaviors", or stimming, by diagnostic instruments. The limited data that exist in this domain are usually recorded with a handheld camera which can be shaky or even moving, posing a challenge for traditional feature representation approaches for activity detection which mistakenly capture the camera's motion as a feature. To address these issues, we first document the advantages and limitations of current feature representation techniques for activity recognition when applied to head banging detection. We then propose a feature representation consisting exclusively of head pose keypoints. We create a computer vision classifier for detecting head banging in home videos using a time-distributed convolutional neural network (CNN) in which a single CNN extracts features from each frame in the input sequence, and these extracted features are fed as input to a long short-term memory (LSTM) network. On the binary task of predicting head banging and no head banging within videos from the Self Stimulatory Behaviour Dataset (SSBD), we reach a mean F1-score of 90.77% using 3-fold cross validation (with individual fold F1-scores of 83.3%, 89.0%, and 100.0%) when ensuring that no child who appeared in the train set was in the test set for all folds. This work documents a successful technique for training a computer vision classifier which can detect human motion with few training examples and even when the camera recording the source clips is unstable. The general methods described here can be applied by designers and developers of interactive systems towards other human motion and pose classification problems used in mobile and ubiquitous interactive systems.
翻訳日:2021-04-08 08:21:18 公開日:2021-01-10
# 近似ICP

Provably Approximated ICP ( http://arxiv.org/abs/2101.03588v1 )

ライセンス: Link先を確認
Ibrahim Jubran, Alaa Maalouf, Ron Kimmel, Dan Feldman(参考訳) emph{alignment problem} の目標は、 (given) 点クラウド $p = \{p_1,\cdots,p_n\}$ を別の (observed) 点クラウド $q = \{q_1,\cdots,q_n\}$ に合わせることである。 すなわち、回転行列 $r \in \mathbb{r}^{3 \times 3}$ と変換ベクトル $t \in \mathbb{r}^{3}$ を計算すると、ある距離関数 $d$ に対して、対距離の和 $\sum_{i=1}^n d(rp_i-t,q_i)$ が最小になる。 より難しいバージョンは、対応が不明な \emph{registration problem} であり、最小値もまた$p$から$q$までの全ての対応関数である。 イテレーティブ・クローズト・ポイント(ICP)アルゴリズムやその変種のようなヒューリスティックスはこれらの問題に対して提案されたが、大域的最適値に対する証明可能な非自明な近似は得られなかった。 我々は、$P \times Q$に3ドルペアの「ウィットネス」集合が存在することを証明し、新しいアライメントアルゴリズムを通じて、この大域的最適値に対する定数係数近似(最悪の場合)を定義する。 次に、この証人集合を復元し、(i)$O(n)$期待時間におけるアライメント問題、(ii)多項式時間における登録問題の最初の証明可能な定数係数近似を与えるアルゴリズムを提供する。 このような小さな証人集合は、d$-次元空間の点、外れ値耐性コスト関数、異なる対応タイプを含む多くの変種に対して存在する。 実および合成データセットの広範な実験結果から、我々の近似定数は、実際には1ドル近くで、最先端のアルゴリズムよりも最大で10ドル小さいことが分かる。

The goal of the \emph{alignment problem} is to align a (given) point cloud $P = \{p_1,\cdots,p_n\}$ to another (observed) point cloud $Q = \{q_1,\cdots,q_n\}$. That is, to compute a rotation matrix $R \in \mathbb{R}^{3 \times 3}$ and a translation vector $t \in \mathbb{R}^{3}$ that minimize the sum of paired distances $\sum_{i=1}^n D(Rp_i-t,q_i)$ for some distance function $D$. A harder version is the \emph{registration problem}, where the correspondence is unknown, and the minimum is also over all possible correspondence functions from $P$ to $Q$. Heuristics such as the Iterative Closest Point (ICP) algorithm and its variants were suggested for these problems, but none yield a provable non-trivial approximation for the global optimum. We prove that there \emph{always} exists a "witness" set of $3$ pairs in $P \times Q$ that, via novel alignment algorithm, defines a constant factor approximation (in the worst case) to this global optimum. We then provide algorithms that recover this witness set and yield the first provable constant factor approximation for the: (i) alignment problem in $O(n)$ expected time, and (ii) registration problem in polynomial time. Such small witness sets exist for many variants including points in $d$-dimensional space, outlier-resistant cost functions, and different correspondence types. Extensive experimental results on real and synthetic datasets show that our approximation constants are, in practice, close to $1$, and up to x$10$ times smaller than state-of-the-art algorithms.
翻訳日:2021-04-08 08:20:44 公開日:2021-01-10
# PowerEvaluationBALD: 確率的獲得関数を用いた効率的な評価指向深層学習

PowerEvaluationBALD: Efficient Evaluation-Oriented Deep (Bayesian) Active Learning with Stochastic Acquisition Functions ( http://arxiv.org/abs/2101.03552v1 )

ライセンス: Link先を確認
Andreas Kirsch(参考訳) 我々は,未ラベルデータ,例えばプールセットの評価セットを考慮したバッチバルドの拡張として,深ベイズアクティブラーニングのための新しい獲得関数である batchevaluationbald を開発した。 また,評価情報ゲインと呼ばれる非ベイズ的セッティングの変種も開発している。 計算要求を減らし,これらの手法をより大きな獲得バッチサイズにスケールできるようにするため,係留された獲得スコアの重要サンプリングを利用する確率的獲得関数を導入する。 我々はこの手法をPowerEvaluationBALDと呼ぶ。 最初の実験では、PowerEvaluationBALD が BatchEvaluationBALD と同等であり、これは繰り返し MNIST (MNISTx2) 上で BatchBALD を上回り、BatchBALD や BatchEvaluationBALD と比較して計算要求を大幅に削減する。

We develop BatchEvaluationBALD, a new acquisition function for deep Bayesian active learning, as an expansion of BatchBALD that takes into account an evaluation set of unlabeled data, for example, the pool set. We also develop a variant for the non-Bayesian setting, which we call Evaluation Information Gain. To reduce computational requirements and allow these methods to scale to larger acquisition batch sizes, we introduce stochastic acquisition functions that use importance-sampling of tempered acquisition scores. We call this method PowerEvaluationBALD. We show in first experiments that PowerEvaluationBALD works on par with BatchEvaluationBALD, which outperforms BatchBALD on Repeated MNIST (MNISTx2), while massively reducing the computational requirements compared to BatchBALD or BatchEvaluationBALD.
翻訳日:2021-04-08 08:20:06 公開日:2021-01-10
# 無線エッジネットワークにおける複数フェデレート学習サービスの帯域割り当て

Bandwidth Allocation for Multiple Federated Learning Services in Wireless Edge Networks ( http://arxiv.org/abs/2101.03627v1 )

ライセンス: Link先を確認
Jie Xu, Heqiang Wang, Lixing Chen(参考訳) 本稿では,無線ネットワークに共存し,共通の無線リソースを共有する,フェデレートラーニング(FL)システムについて検討する。 既存の文献では、複数の同時flサービスに対するワイヤレスリソース割り当ての空白を埋める。 本手法は, \emph{intra-service} リソースアロケーションと \emph{inter-service} リソースアロケーションからなる2レベルリソースアロケーションフレームワークを設計する。 サービス内リソース割り当て問題は、各FLサービスのクライアント間の帯域割り当てを最適化することにより、FLラウンドの長さを最小化することを目的としている。 これに基づいて、複数の同時flサービス間で帯域幅リソースを分配するサービス間リソース割り当て問題をさらに検討する。 FLサービスの協力的・利己的な提供者について検討する。 協調型flサービスプロバイダに対して,複数のflサービス全体のパフォーマンスを最適化する分散帯域割り当てアルゴリズムを設計し,その一方で,flサービス間の公平性とクライアントのプライバシを満足させる。 利己的なflサービスプロバイダにとって、新しいオークションスキームは、flサービスオーナーを入札者、ネットワークプロバイダを競売人として設計されている。 デザインされたオークションスキームは、全体のFL性能と公正さのバランスをとる。 シミュレーションの結果,提案アルゴリズムは様々なネットワーク条件下で他のベンチマークより優れていることがわかった。

This paper studies a federated learning (FL) system, where \textit{multiple} FL services co-exist in a wireless network and share common wireless resources. It fills the void of wireless resource allocation for multiple simultaneous FL services in the existing literature. Our method designs a two-level resource allocation framework comprising \emph{intra-service} resource allocation and \emph{inter-service} resource allocation. The intra-service resource allocation problem aims to minimize the length of FL rounds by optimizing the bandwidth allocation among the clients of each FL service. Based on this, an inter-service resource allocation problem is further considered, which distributes bandwidth resources among multiple simultaneous FL services. We consider both cooperative and selfish providers of the FL services. For cooperative FL service providers, we design a distributed bandwidth allocation algorithm to optimize the overall performance of multiple FL services, meanwhile cater to the fairness among FL services and the privacy of clients. For selfish FL service providers, a new auction scheme is designed with the FL service owners as the bidders and the network provider as the auctioneer. The designed auction scheme strikes a balance between the overall FL performance and fairness. Our simulation results show that the proposed algorithms outperform other benchmarks under various network conditions.
翻訳日:2021-04-08 08:19:49 公開日:2021-01-10
# 機械学習を用いたシェイプレット変換を用いた雷雨の自動識別

Machine learning based automated identification of thunderstorms from anemometric records using shapelet transform ( http://arxiv.org/abs/2101.04516v1 )

ライセンス: Link先を確認
Monica Arul and Ahsan Kareem(参考訳) 雷雨の検出は, 極端な風場特性や構造物への風荷重の影響をより理解するために, 風害コミュニティにとって重要である。 本稿では,高頻度連続風速測定を含む大規模データベースから雷雨を自律的に識別・分離するために,風統計に基づくパラメータに依存しない機械学習技術を用いた新たな研究手法を提案する。 この文脈では、時系列の形状の類似性に基づいて、極端風の事象に特徴的な重要な個々の特性を同定するためにシェープレット変換を用いる。 この新しい形状に基づく表現は、機械学習アルゴリズムと組み合わせることで、最小限のドメイン知識を持つ実用的なイベント検出手順をもたらす。 本稿では,北地中海における広範囲な風観測網の一部である14の超音波風速計から1年間のデータから,ランダムな森林分類器と共にシェープレット変換を行い,雷雨の同定を行った。 本手法を用いて, 雷雨に伴う非定常記録の総計235件を同定した。 その結果,従来のガスト因子法でこれまで検出されなかった様々な雷雨について,より包括的に理解するための雷雨データプールの強化につながった。

Detection of thunderstorms is important to the wind hazard community to better understand extreme winds field characteristics and associated wind induced load effects on structures. This paper contributes to this effort by proposing a new course of research that uses machine learning techniques, independent of wind statistics based parameters, to autonomously identify and separate thunderstorms from large databases containing high frequency sampled continuous wind speed measurements. In this context, the use of Shapelet transform is proposed to identify key individual attributes distinctive to extreme wind events based on similarity of shape of their time series. This novel shape based representation when combined with machine learning algorithms yields a practical event detection procedure with minimal domain expertise. In this paper, the shapelet transform along with Random Forest classifier is employed for the identification of thunderstorms from 1 year of data from 14 ultrasonic anemometers that are a part of an extensive in situ wind monitoring network in the Northern Mediterranean ports. A collective total of 235 non-stationary records associated with thunderstorms were identified using this method. The results lead to enhancing the pool of thunderstorm data for more comprehensive understanding of a wide variety of thunderstorms that have not been previously detected using conventional gust factor-based methods.
翻訳日:2021-04-08 08:19:03 公開日:2021-01-10