このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210106となっている論文です。

PDF登録状況(公開日: 20210106)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 分子表現学習のための言語モデルの再プログラミング [全文訳有]

Reprogramming Language Models for Molecular Representation Learning ( http://arxiv.org/abs/2012.03460v2 )

ライセンス: CC BY 4.0
Ria Vinod, Pin-Yu Chen, Payel Das(参考訳) 近年のトランスファーラーニングの進歩は、学習表現の転送によるドメイン適応に有望なアプローチとなった。 これは特に、置換タスクが、分子データ領域に共通する、明確に定義されたラベル付きデータの限られたサンプルを持つ場合に関係する。 これにより、転送学習は分子学習タスクを解決するのに理想的なアプローチとなる。 Adversarialのリプログラミングは、ニューラルネットワークを代替タスクに再利用することに成功したが、ほとんどの研究は、同じドメイン内のソースと代替タスクについて検討している。 本研究では,分子学習タスクのための事前学習済み言語モデルに対して,アート言語モデルの大規模状態における学習表現の活用を動機とする,辞書学習による表現再プログラミング(r2dl)という新しいアルゴリズムを提案する。 逆数プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物分子データ)との線形変換を学習し、符号化されたデータのスパース表現を辞書学習により近似する。 r2dlは、ドメイン固有のデータに基づいてトレーニングされた技術毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。

Recent advancements in transfer learning have made it a promising approach for domain adaptation via transfer of learned representations. This is especially when relevant when alternate tasks have limited samples of well-defined and labeled data, which is common in the molecule data domain. This makes transfer learning an ideal approach to solve molecular learning tasks. While Adversarial reprogramming has proven to be a successful method to repurpose neural networks for alternate tasks, most works consider source and alternate tasks within the same domain. In this work, we propose a new algorithm, Representation Reprogramming via Dictionary Learning (R2DL), for adversarially reprogramming pretrained language models for molecular learning tasks, motivated by leveraging learned representations in massive state of the art language models. The adversarial program learns a linear transformation between a dense source model input space (language data) and a sparse target model input space (e.g., chemical and biological molecule data) using a k-SVD solver to approximate a sparse representation of the encoded data, via dictionary learning. R2DL achieves the baseline established by state of the art toxicity prediction models trained on domain-specific data and outperforms the baseline in a limited training-data setting, thereby establishing avenues for domain-agnostic transfer learning for tasks with molecule data.
翻訳日:2021-05-21 06:39:40 公開日:2021-01-06
# 楕円過程に対するスペクトル-ドメイン $\mathcal{W}_2$ワッサーシュタイン距離とスペクトル-ドメインゲルリッチ境界

The Spectral-Domain $\mathcal{W}_2$ Wasserstein Distance for Elliptical Processes and the Spectral-Domain Gelbrich Bound ( http://arxiv.org/abs/2012.04023v2 )

ライセンス: Link先を確認
Song Fang and Quanyan Zhu(参考訳) この短い注記では、楕円的確率過程に対するスペクトル領域 $\mathcal{w}_2$ wasserstein 距離について、それらのパワースペクトルの観点から紹介する。 また、必ずしも楕円ではないプロセスに対してスペクトル領域 Gelbrich bound を導入する。

In this short note, we introduce the spectral-domain $\mathcal{W}_2$ Wasserstein distance for elliptical stochastic processes in terms of their power spectra. We also introduce the spectral-domain Gelbrich bound for processes that are not necessarily elliptical.
翻訳日:2021-05-16 21:32:27 公開日:2021-01-06
# 進化的および勾配的ポリシー探索の統合のための効率的な非同期手法

An Efficient Asynchronous Method for Integrating Evolutionary and Gradient-based Policy Search ( http://arxiv.org/abs/2012.05417v2 )

ライセンス: Link先を確認
Kyunghyun Lee, Byeong-Uk Lee, Ukcheol Shin and In So Kweon(参考訳) 深部強化学習(DRL)アルゴリズムと進化戦略(ES)は様々なタスクに適用されており、優れた性能を示している。 これらは反対の性質を持ち、DRLはサンプル効率が良く安定性が低い一方、ESは逆である。 近年,これらのアルゴリズムを組み合わせる試みがあるが,これらの手法は同期更新方式に完全に依存しているため,ESにおける並列処理の利点を最大化することは理想的ではない。 この課題を解決するため、非同期更新スキームが導入され、優れた時間効率と多様なポリシー探索が可能になった。 本稿では、ESの並列効率を最大化し、ポリシー勾配法と統合する非同期進化戦略強化学習(AES-RL)を提案する。 具体的には,1) ESとDRLを非同期にマージする新しいフレームワークを提案し,2) 時間効率,安定性,サンプル効率を両立させる非同期更新手法を提案する。 提案するフレームワークと更新手法は連続制御ベンチマーク作業で評価され,従来の手法に比べて性能と時間効率が優れていた。

Deep reinforcement learning (DRL) algorithms and evolution strategies (ES) have been applied to various tasks, showing excellent performances. These have the opposite properties, with DRL having good sample efficiency and poor stability, while ES being vice versa. Recently, there have been attempts to combine these algorithms, but these methods fully rely on synchronous update scheme, making it not ideal to maximize the benefits of the parallelism in ES. To solve this challenge, asynchronous update scheme was introduced, which is capable of good time-efficiency and diverse policy exploration. In this paper, we introduce an Asynchronous Evolution Strategy-Reinforceme nt Learning (AES-RL) that maximizes the parallel efficiency of ES and integrates it with policy gradient methods. Specifically, we propose 1) a novel framework to merge ES and DRL asynchronously and 2) various asynchronous update methods that can take all advantages of asynchronism, ES, and DRL, which are exploration and time efficiency, stability, and sample efficiency, respectively. The proposed framework and update methods are evaluated in continuous control benchmark work, showing superior performance as well as time efficiency compared to the previous methods.
翻訳日:2021-05-15 06:37:26 公開日:2021-01-06
# (参考訳) Primer AIの頭字語識別と曖昧化のためのシステム [全文訳有]

Primer AI's Systems for Acronym Identification and Disambiguation ( http://arxiv.org/abs/2012.08013v2 )

ライセンス: CC BY 4.0
Nicholas Egan, John Bohannon(参考訳) 曖昧な頭字語が普及すると、人間や機械にとって科学文書を理解するのが難しくなり、テキスト中の頭字語を自動的に識別し、その意味を曖昧にするモデルが必要となる。 我々の頭字語識別モデルは、タグ予測にトークン埋め込みを学習し、頭字語非曖昧化モデルは、類似した文埋め込みをテスト例としてトレーニング例を見つける。 いずれのシステムも,提案手法よりも大幅な性能向上を実現し,SDU@AAAI-21共有タスクリーダーボード上で競争的に機能する。 私たちのモデルは、AuxAIとAuxADと呼ばれるこれらのタスクのための、新しい遠隔監視データセットに基づいてトレーニングされました。 また、SciADデータセットの重複競合問題を特定し、SciADの重複バージョンをSciAD-dedupeと呼ぶ形で作成した。 これら3つのデータセットを公開し、コミュニティが科学的文書理解をさらに前進させることを願っています。

The prevalence of ambiguous acronyms make scientific documents harder to understand for humans and machines alike, presenting a need for models that can automatically identify acronyms in text and disambiguate their meaning. We introduce new methods for acronym identification and disambiguation: our acronym identification model projects learned token embeddings onto tag predictions, and our acronym disambiguation model finds training examples with similar sentence embeddings as test examples. Both of our systems achieve significant performance gains over previously suggested methods, and perform competitively on the SDU@AAAI-21 shared task leaderboard. Our models were trained in part on new distantly-supervised datasets for these tasks which we call AuxAI and AuxAD. We also identified a duplication conflict issue in the SciAD dataset, and formed a deduplicated version of SciAD that we call SciAD-dedupe. We publicly released all three of these datasets, and hope that they help the community make further strides in scientific document understanding.
翻訳日:2021-05-08 15:11:36 公開日:2021-01-06
# 3次元部分ガイド型視覚データによる細粒度車両知覚

Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data Augmentation ( http://arxiv.org/abs/2012.08055v2 )

ライセンス: Link先を確認
Feixiang Lu, Zongdai Liu, Hui Miao, Peng Wang, Liangjun Zhang, Ruigang Yang, Dinesh Manocha, Bin Zhou(参考訳) 物体とその3D可動部品を視覚的知覚モデルで完全に理解することは、自律的なエージェントが世界と対話できるためには不可欠である。 自動運転では、ドア、トランク、ボンネットなどの車両部品のダイナミクスと状態は、自動運転車の安全性を確保する上で不可欠な意味的情報と相互作用状態を提供することができる。 既存の視覚知覚モデルは、主にオブジェクト境界ボックス検出やポーズ推定などの粗い解析にフォーカスしており、これらの状況に対処することは滅多にない。 本稿では,3つの課題を解決することで,この重要な自動運転問題に対処する。 まず,人間の車間相互作用(VHI)のシナリオを再構築する前に,車体に動的部品を付加した3次元自動車モデルを実画像に組み込むことにより,データ不足に対処する効果的なトレーニングデータ生成プロセスを提案する。 当社のアプローチは、人間のインタラクションなしに完全に自動化されており、ディープニューラルネットワーク(dnn)をトレーニングするために、珍しい状態(vus)の多数の車両を生成できる。 次に,VUS解析のためのマルチタスクネットワークと,VHI解析のためのマルチストリームネットワークを提案する。 第3に、データ拡張アプローチの有効性を定量的に評価するために、実際のトラフィックシナリオ(例えば、荷物のオン/アウトや配置/削除)で最初のvusデータセットを構築します。 実験の結果,提案手法は2次元検出とインスタンス分割の他のベースライン手法を大きなマージン(8%以上)で前進させることがわかった。 さらに,これらの事例の発見と理解において,ネットワークは大きな改善をもたらす。 さらに、ソースコード、データセット、トレーニングされたモデルをGithub(https://githu b.com/zongdai/Editin gForDNN)でリリースしました。

Holistically understanding an object and its 3D movable parts through visual perception models is essential for enabling an autonomous agent to interact with the world. For autonomous driving, the dynamics and states of vehicle parts such as doors, the trunk, and the bonnet can provide meaningful semantic information and interaction states, which are essential to ensuring the safety of the self-driving vehicle. Existing visual perception models mainly focus on coarse parsing such as object bounding box detection or pose estimation and rarely tackle these situations. In this paper, we address this important autonomous driving problem by solving three critical issues. First, to deal with data scarcity, we propose an effective training data generation process by fitting a 3D car model with dynamic parts to vehicles in real images before reconstructing human-vehicle interaction (VHI) scenarios. Our approach is fully automatic without any human interaction, which can generate a large number of vehicles in uncommon states (VUS) for training deep neural networks (DNNs). Second, to perform fine-grained vehicle perception, we present a multi-task network for VUS parsing and a multi-stream network for VHI parsing. Third, to quantitatively evaluate the effectiveness of our data augmentation approach, we build the first VUS dataset in real traffic scenarios (e.g., getting on/out or placing/removing luggage). Experimental results show that our approach advances other baseline methods in 2D detection and instance segmentation by a big margin (over 8%). In addition, our network yields large improvements in discovering and understanding these uncommon cases. Moreover, we have released the source code, the dataset, and the trained model on Github (https://github.com/ zongdai/EditingForDN N).
翻訳日:2021-05-07 05:25:29 公開日:2021-01-06
# (参考訳) 学術文書理解のための頭字語識別と曖昧さ共有課題 [全文訳有]

Acronym Identification and Disambiguation Shared Tasks for Scientific Document Understanding ( http://arxiv.org/abs/2012.11760v4 )

ライセンス: CC BY 4.0
Amir Pouran Ben Veyseh, Franck Dernoncourt, Thien Huu Nguyen, Walter Chang, Leo Anthony Celi(参考訳) 頭字語は長い句の短い形式であり、特に学術的な執筆において、空間を節約し情報の伝達を容易にするためにしばしば使われる。 したがって、すべてのテキスト理解ツールは、テキスト中の頭字語(頭字語識別)を認識し、その正しい意味(頭字語不曖昧)を見つけることができるべきである。 これらのタスクに関する以前の研究のほとんどは、バイオメディカル領域に限定され、限られたデータセットで訓練された教師なしの方法やモデルを使用するため、科学的文書理解のためにうまく機能しない。 この方向の研究を進めるために,我々は,AI@SDU と AD@SDU という2つの共通課題を,それぞれ科学的文書に編成した。 2つの共有タスクはそれぞれ52と43の参加者を集めている。 提出されたシステムは、既存のベースラインと比べて大幅に改善されているが、人間レベルのパフォーマンスには程遠い。 本稿では,2つのタスクの共有と,各タスクの参加システムについてレビューする。

Acronyms are the short forms of longer phrases and they are frequently used in writing, especially scholarly writing, to save space and facilitate the communication of information. As such, every text understanding tool should be capable of recognizing acronyms in text (i.e., acronym identification) and also finding their correct meaning (i.e., acronym disambiguation). As most of the prior works on these tasks are restricted to the biomedical domain and use unsupervised methods or models trained on limited datasets, they fail to perform well for scientific document understanding. To push forward research in this direction, we have organized two shared task for acronym identification and acronym disambiguation in scientific documents, named AI@SDU and AD@SDU, respectively. The two shared tasks have attracted 52 and 43 participants, respectively. While the submitted systems make substantial improvements compared to the existing baselines, there are still far from the human-level performance. This paper reviews the two shared tasks and the prominent participating systems for each of them.
翻訳日:2021-04-27 04:33:03 公開日:2021-01-06
# BKT-LSTM:知識追跡と学生のパフォーマンス予測のための効率的な学生モデリング

BKT-LSTM: Efficient Student Modeling for knowledge tracing and student performance prediction ( http://arxiv.org/abs/2012.12218v2 )

ライセンス: Link先を確認
Sein Minn(参考訳) 近年,オンライン教育プラットフォームの利用が急速に増加している。 パーソナライズされた教育は、将来の学習環境において極めて重要になった。 知識追跡(KT)とは、知的学習システム(ITS)に適応的なソリューションを提供するために、過去の成果から学生の知識状態を検出し、将来のパフォーマンスを予測することを指す。 ベイズ知識追跡(英: Bayesian Knowledge Tracing、BKT)は、心理学的に意味のあるパラメータで各スキルの熟達レベルを捉え、学習システムの成功に広く利用されているモデルである。 しかし、各スキルモデルが独立して学習され、学生のパフォーマンス予測の効率が低いため、スキル間の学習伝達を検出することができない。 ディープニューラルネットワークに基づく最近のKTモデルは、驚くべき予測力を示しているが、価格がついた。 ニューラルネットワークの10万のパラメータは、認知理論を反映した心理的に意味のある解釈を提供することができない。 本稿では,BKT-LSTMと呼ばれる効率的な学生モデルを提案する。 bktで評価された個々の \textit{skill mastery}、k-meansクラスタリングで検出される \textit{ability profile} (スキル間の学習転送)、および \textit{problem difficulty} である。 これらの要素はすべて,LSTMの予測能力を活用することによって,学生の今後のパフォーマンス予測に考慮される。 BKT-LSTMは、DKTにおける過去のインタラクションのバイナリ値ではなく、これらの有意義な特徴を考慮し、学生のパフォーマンス予測における最先端の学生モデルよりも優れている。 また,BKT-LSTMモデルの各コンポーネントのアブレーション調査を行い,各コンポーネントが学生のパフォーマンス予測に大きく貢献することを示した。 したがって、現実世界の教育システムにおいて適応的でパーソナライズされた指導を提供する可能性がある。

Recently, we have seen a rapid rise in usage of online educational platforms. The personalized education became crucially important in future learning environments. Knowledge tracing (KT) refers to the detection of students' knowledge states and predict future performance given their past outcomes for providing adaptive solution to Intelligent Tutoring Systems (ITS). Bayesian Knowledge Tracing (BKT) is a model to capture mastery level of each skill with psychologically meaningful parameters and widely used in successful tutoring systems. However, it is unable to detect learning transfer across skills because each skill model is learned independently and shows lower efficiency in student performance prediction. While recent KT models based on deep neural networks shows impressive predictive power but it came with a price. Ten of thousands of parameters in neural networks are unable to provide psychologically meaningful interpretation that reflect to cognitive theory. In this paper, we proposed an efficient student model called BKT-LSTM. It contains three meaningful components: individual \textit{skill mastery} assessed by BKT, \textit{ability profile} (learning transfer across skills) detected by k-means clustering and \textit{problem difficulty}. All these components are taken into account in student's future performance prediction by leveraging predictive power of LSTM. BKT-LSTM outperforms state-of-the-art student models in student's performance prediction by considering these meaningful features instead of using binary values of student's past interaction in DKT. We also conduct ablation studies on each of BKT-LSTM model components to examine their value and each component shows significant contribution in student's performance prediction. Thus, it has potential for providing adaptive and personalized instruction in real-world educational systems.
翻訳日:2021-04-26 07:32:57 公開日:2021-01-06
# (参考訳) 分布学習による重み付き処理効果推定

Weighting-Based Treatment Effect Estimation via Distribution Learning ( http://arxiv.org/abs/2012.13805v3 )

ライセンス: CC BY 4.0
Dongcheng Zhang, Kunpeng Zhang(参考訳) 既存の治療効果推定の重み付け法は、しばしば確率スコアや共変量バランスの考え方に基づいて構築される。 彼らは通常、線形性や特定の機能形式のような偏りのない推定を得るために、治療の割り当てや結果モデルに強い仮定を課す。 本稿では,分散学習に基づく重み付け手法を開発し,この問題を緩和することを目的とする。 まず, 治療課題を条件とした共変量の真の分布を学習し, 治療群における共変量の密度と対照群の濃度の比を, 治療効果の推定の重みとして活用する。 具体的には,変数の変化による可逆変換を通じて,処理群と制御群の両方における共変量の分布を近似する。 本手法の優越性,堅牢性,一般化性を示すため,合成データと実データを用いて広範な実験を行った。 実験結果から, 平均処理効果を観測データで推定する手法は, 最先端の重み付けのみベンチマーク法よりも優れており, 重み付けと先進的な結果モデリング法を併用した2重み付け推定法において, その優位性を維持していることがわかった。

Existing weighting methods for treatment effect estimation are often built upon the idea of propensity scores or covariate balance. They usually impose strong assumptions on treatment assignment or outcome model to obtain unbiased estimation, such as linearity or specific functional forms, which easily leads to the major drawback of model mis-specification. In this paper, we aim to alleviate these issues by developing a distribution learning-based weighting method. We first learn the true underlying distribution of covariates conditioned on treatment assignment, then leverage the ratio of covariates' density in the treatment group to that of the control group as the weight for estimating treatment effects. Specifically, we propose to approximate the distribution of covariates in both treatment and control groups through invertible transformations via change of variables. To demonstrate the superiority, robustness, and generalizability of our method, we conduct extensive experiments using synthetic and real data. From the experiment results, we find that our method for estimating average treatment effect on treated (ATT) with observational data outperforms several cutting-edge weighting-only benchmarking methods, and it maintains its advantage under a doubly-robust estimation framework that combines weighting with some advanced outcome modeling methods.
翻訳日:2021-04-25 01:23:21 公開日:2021-01-06
# 年齢感性モバイルエッジコンピューティングのためのフェデレーションマルチエージェントアクタ・クリティカルラーニング

Federated Multi-Agent Actor-Critic Learning for Age Sensitive Mobile Edge Computing ( http://arxiv.org/abs/2012.14137v2 )

ライセンス: Link先を確認
Zheqi Zhu, Shuo Wan, Pingyi Fan, Khaled B. Letaief(参考訳) 新たな技術として,モバイルエッジコンピューティング(MEC)では,IoT(Industrial Internet of Things)や車両通信,スマートシティなど,さまざまな分散通信計算システムを対象とした新たな処理方式が導入されている。 本研究は,データと計算タスクの鮮度が重要となるMECシステムのタイムラインに主眼を置いている。 まず、年齢に敏感なMECモデルを定式化し、関心事の平均年齢(AoI)最小化問題を定式化する。 そこで, ヘテロジニアス・マルチエージェント・アクター・アトラクション(H-MAAC)と呼ばれる新しいポリシーに基づくマルチエージェント・ディープ・強化学習(RL)フレームワークを, エッジデバイスとセンターコントローラが, それぞれの観察を通して対話的戦略を学習するMECシステムにおける共同作業のパラダイムとして提案する。 本研究では,学習収束の利点を理論的に保証できるマルチエージェント協調により,エッジフェデレーション学習モードを導入することにより,システム性能の向上を図る。 私たちの知る限りでは、エッジフェデレーションモードとマルチエージェントアクター批判強化学習を組み合わせた最初の共同MECコラボレーションアルゴリズムです。 さらに,提案手法を評価し,古典的rl法と比較する。 その結果,提案フレームワークはシステム平均年齢のベースラインを上回るだけでなく,トレーニングプロセスの安定性も向上することがわかった。 さらに、シミュレーションの結果は、エッジフェデレーションコラボレーションの下でのシステム設計に対する革新的な視点を提供する。

As an emerging technique, mobile edge computing (MEC) introduces a new processing scheme for various distributed communication-comput ing systems such as industrial Internet of Things (IoT), vehicular communication, smart city, etc. In this work, we mainly focus on the timeliness of the MEC systems where the freshness of the data and computation tasks is significant. Firstly, we formulate a kind of age-sensitive MEC models and define the average age of information (AoI) minimization problems of interests. Then, a novel policy based multi-agent deep reinforcement learning (RL) framework, called heterogeneous multi-agent actor critic (H-MAAC), is proposed as a paradigm for joint collaboration in the investigated MEC systems, where edge devices and center controller learn the interactive strategies through their own observations. To improves the system performance, we develop the corresponding online algorithm by introducing an edge federated learning mode into the multi-agent cooperation whose advantages on learning convergence can be guaranteed theoretically. To the best of our knowledge, it's the first joint MEC collaboration algorithm that combines the edge federated mode with the multi-agent actor-critic reinforcement learning. Furthermore, we evaluate the proposed approach and compare it with classical RL based methods. As a result, the proposed framework not only outperforms the baseline on average system age, but also promotes the stability of training process. Besides, the simulation results provide some innovative perspectives for the system design under the edge federated collaboration.
翻訳日:2021-04-19 11:09:46 公開日:2021-01-06
# 高次元構造空間のベイズ最適化のためのグッドプラクティス

Good practices for Bayesian Optimization of high dimensional structured spaces ( http://arxiv.org/abs/2012.15471v2 )

ライセンス: Link先を確認
Eero Siivola, Javier Gonzalez, Andrei Paleyes, Aki Vehtari(参考訳) 構造化された高次元データの可用性が向上し、新たな最適化の機会が開かれた。 新しくて有望な道の1つは、構造化された高次元データを低次元連続表現に投影し、最適化問題を単純化し、従来の最適化法の適用を可能にするための教師なしの方法の探求である。 しかし、この研究は純粋に方法論的であり、実践者のニーズとはほとんど関係がない。 本稿では,高次元構造化データセットのベイズ最適化における探索空間設計選択の効果について検討する。 特に, 潜在空間の次元性, 獲得関数の役割の影響を解析し, 潜在空間の最適化境界を自動的に定義するための新しい手法を評価する。 最後に, 合成および実データを用いた実験結果に基づいて, 実践者の推薦を行う。

The increasing availability of structured but high dimensional data has opened new opportunities for optimization. One emerging and promising avenue is the exploration of unsupervised methods for projecting structured high dimensional data into low dimensional continuous representations, simplifying the optimization problem and enabling the application of traditional optimization methods. However, this line of research has been purely methodological with little connection to the needs of practitioners so far. In this paper, we study the effect of different search space design choices for performing Bayesian Optimization in high dimensional structured datasets. In particular, we analyse the influence of the dimensionality of the latent space, the role of the acquisition function and evaluate new methods to automatically define the optimization bounds in the latent space. Finally, based on experimental results using synthetic and real datasets, we provide recommendations for the practitioners.
翻訳日:2021-04-17 17:04:39 公開日:2021-01-06
# (参考訳) 補間用オートエンコーダ [全文訳有]

AutoEncoder for Interpolation ( http://arxiv.org/abs/2101.00853v2 )

ライセンス: CC BY 4.0
Rahul Bhadani(参考訳) 物理科学では、センサーデータは時間とともに収集され、時系列データを生成する。 しかし、センサーの実際の状態や基礎となる物理によっては、データは騒がしいかもしれない。 さらに、センサー上のサンプルタイムの制限は、すべてのタイムポイントにデータを収集することができず、ある種の補間を必要とする可能性がある。 補間は十分に滑らかでなく、データにノイズを生じさせず、ノイズの大きいセンサデータのデリバティブ操作は、高次ダイナミクスを明らかにしない貧弱な場合がある。 本稿では,同時にデータをデノベートする補間を行うためのオートエンコーダを提案する。 実世界の簡単な例も提供されている。

In physical science, sensor data are collected over time to produce timeseries data. However, depending on the real-world condition and underlying physics of the sensor, data might be noisy. Besides, the limitation of sample-time on sensors may not allow collecting data over all the timepoints, may require some form of interpolation. Interpolation may not be smooth enough, fail to denoise data, and derivative operation on noisy sensor data may be poor that do not reveal any high order dynamics. In this article, we propose to use AutoEncoder to perform interpolation that also denoise data simultaneously. A brief example using a real-world is also provided.
翻訳日:2021-04-12 06:29:49 公開日:2021-01-06
# (参考訳) 凸最適化のための一階法

First-Order Methods for Convex Optimization ( http://arxiv.org/abs/2101.00935v2 )

ライセンス: CC BY 4.0
Pavel Dvurechensky and Mathias Staudigl and Shimrit Shtern(参考訳) 凸最適化問題の1次解法は,過去20年間,数学最適化の最前線にあった。 この重要なタイプのアルゴリズムの急速な発展は、機械学習、信号処理、イメージング、制御理論など、さまざまな応用で報告された成功ストーリーによって動機付けられた。 一階法は計算量が少ない場合に低精度の解を提供する可能性があり、大規模な最適化問題において魅力的なツールセットとなる。 本調査では,グラデーションに基づく最適化手法の重要な開発について紹介する。 これには古典的近位勾配法の非ユークリッド拡張とその加速版が含まれる。 さらに, プロジェクションフリー手法のクラス, および原始双対スキームの近近バージョンにおける最近の発展について調査した。 我々は、様々な重要な結果の完全な証明を行い、いくつかの最適化アルゴリズムの統一的な側面を強調する。

First-order methods for solving convex optimization problems have been at the forefront of mathematical optimization in the last 20 years. The rapid development of this important class of algorithms is motivated by the success stories reported in various applications, including most importantly machine learning, signal processing, imaging and control theory. First-order methods have the potential to provide low accuracy solutions at low computational complexity which makes them an attractive set of tools in large-scale optimization problems. In this survey we cover a number of key developments in gradient-based optimization methods. This includes non-Euclidean extensions of the classical proximal gradient method, and its accelerated versions. Additionally we survey recent developments within the class of projection-free methods, and proximal versions of primal-dual schemes. We give complete proofs for various key results, and highlight the unifying aspects of several optimization algorithms.
翻訳日:2021-04-12 05:36:45 公開日:2021-01-06
# ポルトガル語意味的役割ラベリング改善のためのトランスフォーマーとトランスファー学習

Transformers and Transfer Learning for Improving Portuguese Semantic Role Labeling ( http://arxiv.org/abs/2101.01213v2 )

ライセンス: Link先を確認
Sofia Oliveira and Daniel Loureiro and Al\'ipio Jorge(参考訳) Semantic Role Labeling (SRL)は、自然言語処理のコアタスクである。 英語では、変圧器モデルに基づく最近の手法は、以前の技術から大きく改善されている。 しかし、低リソース言語、特にポルトガルでは、現在利用可能なSRLモデルは訓練データ不足によって妨げられている。 本稿では,事前学習されたBERTモデル,線形層,ソフトマックス,ビタビ復号のみを用いたモデルアーキテクチャについて検討する。 ポルトガルでは15ドルF_1ドル以上のアートパフォーマンスが大幅に向上した。 さらに,多言語事前学習モデル (XLM-R) を用いた言語間移動学習と,ポルトガル語による係り受け解析からの伝達学習を利用して,ポルトガル語コーパスのSRL結果を改善する。 提案手法を実証的に評価し,利用可能な資源を考慮した最も適切なモデルの選択を支援するヒューリスティックを提案する。

Semantic Role Labeling (SRL) is a core Natural Language Processing task. For English, recent methods based on Transformer models have allowed for major improvements over the previous state of the art. However, for low resource languages, and in particular for Portuguese, currently available SRL models are hindered by scarce training data. In this paper, we explore a model architecture with only a pre-trained BERT-based model, a linear layer, softmax and Viterbi decoding. We substantially improve the state of the art performance in Portuguese by over 15$F_1$. Additionally, we improve SRL results in Portuguese corpora by exploiting cross-lingual transfer learning using multilingual pre-trained models (XLM-R), and transfer learning from dependency parsing in Portuguese. We evaluate the various proposed approaches empirically and as result we present an heuristic that supports the choice of the most appropriate model considering the available resources.
翻訳日:2021-04-11 22:57:04 公開日:2021-01-06
# 産業用ロボットのセマンティック記憶モデルとしての動的知識グラフ

Dynamic Knowledge Graphs as Semantic Memory Model for Industrial Robots ( http://arxiv.org/abs/2101.01099v2 )

ライセンス: Link先を確認
Mohak Sukhwani, Vishakh Duggal, Said Zahrai(参考訳) 本稿では,機械が情報や経験を収集し,時間とともに熟達することを可能にするセマンティックメモリのモデルを提案する。 データのセマンティック分析の後、情報は、自然言語で表現された命令を理解し、必要なタスクを決定論的に実行するために使用される知識グラフに格納される。 これは産業用ロボットの認知行動と直感的なユーザーインターフェースを付与するものであり、協調型ロボットが人間と一緒に働く時代において最も高く評価されている。 本論文は,提案の実用的実装とともに,システムのアーキテクチャを概説する。

In this paper, we present a model for semantic memory that allows machines to collect information and experiences to become more proficient with time. After a semantic analysis of the data, information is stored in a knowledge graph which is used to comprehend instructions, expressed in natural language, and execute the required tasks in a deterministic manner. This imparts industrial robots cognitive behavior and an intuitive user interface, which is most appreciated in an era, when collaborative robots are to work alongside humans. The paper outlines the architecture of the system together with a practical implementation of the proposal.
翻訳日:2021-04-11 22:51:56 公開日:2021-01-06
# (参考訳) ウェアラブルセンサを用いた人間の活動認識:レビュー,課題,評価ベンチマーク [全文訳有]

Human Activity Recognition using Wearable Sensors: Review, Challenges, Evaluation Benchmark ( http://arxiv.org/abs/2101.01665v2 )

ライセンス: CC BY 4.0
Reem Abdel-Salam, Rana Mostafa and Mayada Hadhood(参考訳) ヒトの活動を認識することは、医療、パーソナルフィットネス、スマートデバイスにおけるヒューマンインタラクション応用の進展に重要な役割を果たす。 多くの論文が人間の活動表現のための様々な技術を提示し、区別可能な進歩をもたらした。 本研究では,ウェアラブルセンサを用いたヒトの行動認識において,最新のトップパフォーマンス技術に関する広範な文献レビューを行う。 MHealth, USCHAD, UTD-MHAD, WISDM, WHARF, OPPORTUNITY の6つの公開データセットを用いて, 標準化された評価の欠如と, 最先端技術との公正な比較の確保のために, 最先端技術の評価ベンチマークを適用した。 また,MHealth, USCHAD, UTD-MHADデータセットに関して適用されたのと同じ標準評価ベンチマークで, 高性能な手工芸技術とニューラルネットワークアーキテクチャを併用した実験的改良手法を提案する。

Recognizing human activity plays a significant role in the advancements of human-interaction applications in healthcare, personal fitness, and smart devices. Many papers presented various techniques for human activity representation that resulted in distinguishable progress. In this study, we conduct an extensive literature review on recent, top-performing techniques in human activity recognition based on wearable sensors. Due to the lack of standardized evaluation and to assess and ensure a fair comparison between the state-of-the-art techniques, we applied a standardized evaluation benchmark on the state-of-the-art techniques using six publicly available data-sets: MHealth, USCHAD, UTD-MHAD, WISDM, WHARF, and OPPORTUNITY. Also, we propose an experimental, improved approach that is a hybrid of enhanced handcrafted features and a neural network architecture which outperformed top-performing techniques with the same standardized evaluation benchmark applied concerning MHealth, USCHAD, UTD-MHAD data-sets.
翻訳日:2021-04-11 13:57:49 公開日:2021-01-06
# (参考訳) 機能的MRIからマリファナユーザを分類する大規模拡張グランガー因果関係 [全文訳有]

Large-Scale Extended Granger Causality for Classification of Marijuana Users From Functional MRI ( http://arxiv.org/abs/2101.01832v1 )

ライセンス: CC BY 4.0
M. Ali Vosoughi and Axel Wismuller(参考訳) マリファナの使用は脳ネットワーク接続の変化と関連していることが文献で示されている。 本研究では, 大規模拡張グランガー因果性 (lsXGC) を提案し, 静止状態fMRIを用いてこのような変化を捉えることができるか検討する。 本手法はディメンジョン低減とソース時系列拡張を併用し,予測時系列モデルを用いてfmri時系列間の有向因果関係を推定する。 それは、基礎となる動的システムの他のすべての時系列の存在下で、時系列の相互依存性を識別できるため、多変量アプローチである。 本稿では,Addiction Connectome Preprocessed Initiative (ACPI)データベースからADHDの小児診断を行った成人126名を対象に,マリファナユーザを一般的なコントロールから分類するためのバイオマーカーとして機能するかどうかを検討する。 分類の特徴としてlsxgcによって推定される脳結合を用いる。 特徴抽出後,kendall-tauランク相関係数による特徴抽出を行い,サポートベクターマシンによる分類を行った。 参考法として,関数接続の標準尺度として文献で一般的に用いられる相互相関法と比較した。 100個の異なるトレーニング/テスト(90%/10%)データ分割のクロスバリデーションスキームにおいて、[0.714, 0.985]の平均精度範囲と、[0.825, 0.969]の平均aucと、[0.779, 0.999]のすべてのテストされた特徴量に対して[0.779, 0.999]の受信特性曲線(auc)の下の平均領域を得る。 以上の結果から,大麻用バイオマーカーとしてのlsXGCの有用性が示唆された。

It has been shown in the literature that marijuana use is associated with changes in brain network connectivity. We propose large-scale Extended Granger Causality (lsXGC) and investigate whether it can capture such changes using resting-state fMRI. This method combines dimension reduction with source time-series augmentation and uses predictive time-series modeling for estimating directed causal relationships among fMRI time-series. It is a multivariate approach, since it is capable of identifying the interdependence of time-series in the presence of all other time-series of the underlying dynamic system. Here, we investigate whether this model can serve as a biomarker for classifying marijuana users from typical controls using 126 adult subjects with a childhood diagnosis of ADHD from the Addiction Connectome Preprocessed Initiative (ACPI) database. We use brain connections estimated by lsXGC as features for classification. After feature extraction, we perform feature selection by Kendall's-tau rank correlation coefficient followed by classification using a support vector machine. As a reference method, we compare our results with cross-correlation, which is typically used in the literature as a standard measure of functional connectivity. Within a cross-validation scheme of 100 different training/test (90%/10%) data splits, we obtain a mean accuracy range of [0.714, 0.985] and a mean Area Under the receiver operating characteristic Curve (AUC) range of [0.779, 0.999] across all tested numbers of features for lsXGC, which is significantly better than results obtained with cross-correlation, namely mean accuracy of [0.728, 0.912] and mean AUC of [0.825, 0.969]. Our results suggest the applicability of lsXGC as a potential biomarker for marijuana use.
翻訳日:2021-04-11 09:12:50 公開日:2021-01-06
# (参考訳) STEMIまたはNSTEMI患者における性・年齢集団による院内死亡リスクマーカー : 機械学習に基づくアプローチ [全文訳有]

Risk markers by sex and age group for in-hospital mortality in patients with STEMI or NSTEMI: an approach based on machine learning ( http://arxiv.org/abs/2101.01835v1 )

ライセンス: CC BY 4.0
Blanca Vazquez, Gibran Fuentes, Fabian Garcia, Gabriela Borrayo, Juan Prohias(参考訳) 機械学習(ML)は、電子健康記録(EHR)から急性冠症候群(ACS)の臨床マーカーの同定において有望な結果を示した。 過去には、acsは、主に男性と女性に対する健康上の問題として、臨床試験で過小評価されていたため、両方の性が同じ臨床上の注意を向けられた。 マーカーを区別することの重要性を強調したアプローチもあるが、これらの区別はいまだに不明である。 本研究は,ST-elevation myocardial infarction (STEMI) と非ST-elevation myocardial infarction (NSTEMI) に対する性別および年齢群による宿主死亡マーカー同定のためのML手法の活用を目的とする。 MIMIC-IIIデータベースからSTEMI1,299例,NSTEMI2,820例を抽出した。 我々は,異なるハイパーパラメータ,臨床セット,ML手法による死亡予測モデルを訓練し,検証した。 ベストパフォーマンスモデルとゲーム理論を用いて予測を解釈し,stemi患者とnstemi患者のリスクマーカーを別々に同定した。 AUC=0.92 (95\% CI:0.87-0.98) と AUC=0.87 (95\% CI:0.80-0.93) である。 STEMIにとって、両方の性の主要なマーカーは低ナトリウム血症と代謝性アシドーシスである。 女性には急性腎不全、年齢は75歳、男性には慢性腎不全、年齢は70歳である。 対照的に、nstemiでは、両方の性別の上位マーカーは、高齢と挿管の手順である。 女性の具体的なマーカーは、クレアチニンレベルが低く、年齢が60歳であるのに対し、男性は左心房、年齢が70歳である。 性差マーカーの識別は,より適切な治療戦略につながる可能性があり,臨床効果が向上すると考えられる。

Machine learning (ML) has demonstrated promising results in the identification of clinical markers for Acute Coronary Syndrome (ACS) from electronic health records (EHR). In the past, the ACS was perceived as a health problem mainly for men and women were under-represented in clinical trials, which led to both sexes receiving the same clinical attention. Although some approaches have emphasized the importance of distinguishing markers, these distinctions remain unclear. This study aims at exploiting ML methods for identifying in-hospital mortality markers by sex and age-group for patients with ST-elevation myocardial infarction (STEMI) and the Non-ST-elevation myocardial infarction (NSTEMI) from EHR. From the MIMIC-III database, we extracted 1,299 patients with STEMI and 2,820 patients with NSTEMI. We trained and validated mortality prediction models with different hyperparameters, clinical sets, and ML methods. Using the best performing model and a game-theoretic approach to interpret predictions, we identified risk markers for patients with STEMI and NSTEMI separately. The models based on Extreme Gradient Boosting achieved the highest performance: AUC=0.92 (95\% CI:0.87-0.98) for STEMI and AUC=0.87 (95\% CI:0.80-0.93) for NSTEMI. For STEMI, the top markers for both sexes are the presence of hyponatremia, and metabolic acidosis. More specific markers for women are acute kidney failure, and age>75 years, while for men are chronic kidney failure, and age>70 years. In contrast, for NSTEMI, the top markers for both sexes are advanced age, and intubation procedures. The specific markers for women are low creatinine levels and age>60 years, whilst, for men are damage to the left atrium and age>70 years. We consider that distinguishing markers for sexes could lead to more appropriate treatment strategies, thus improving clinical outcomes.
翻訳日:2021-04-11 09:00:24 公開日:2021-01-06
# (参考訳) 長めのマルチトーカ記録における終端話者対応型ASRの仮説スティッチャ [全文訳有]

Hypothesis Stitcher for End-to-End Speaker-attributed ASR on Long-form Multi-talker Recordings ( http://arxiv.org/abs/2101.01853v1 )

ライセンス: CC BY 4.0
Xuankai Chang, Naoyuki Kanda, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Takuya Yoshioka(参考訳) 近年, 話者カウント, 音声認識, 話者識別を共同で行うために, 話者適応型自動音声認識(SA-ASR)モデルが提案されている。 このモデルは未知の話者数からなる単音重複音声に対して低話者分散単語誤り率(SA-WER)を達成した。 しかしながら、E2Eモデリングアプローチは、トレーニングとテスト条件のミスマッチに影響を受けやすい。 E2E SA-ASRモデルがトレーニング中のサンプルよりもはるかに長い記録に有効かどうかはまだ調査されていない。 本研究では,E2E SA-ASRタスクに長めの音声に対して単一話者ASRを実行するために,まず既知の復号化手法を適用した。 そこで本研究では,仮説ステッチラーというシーケンス・ツー・シーケンスモデルを用いた新しい手法を提案する。 モデルは、元のロングフォーム入力から抽出された短い音声セグメントから得られた複数の仮説を取り、融合した単一仮説を出力する。 仮説ステッチラーモデルのアーキテクチャ的バリエーションをいくつか提案し,従来の復号法と比較する。 LibriSpeech と LibriCSS コーパスを用いた実験により,SA-WER は長めのマルチトーカ記録において顕著に向上した。

An end-to-end (E2E) speaker-attributed automatic speech recognition (SA-ASR) model was proposed recently to jointly perform speaker counting, speech recognition and speaker identification. The model achieved a low speaker-attributed word error rate (SA-WER) for monaural overlapped speech comprising an unknown number of speakers. However, the E2E modeling approach is susceptible to the mismatch between the training and testing conditions. It has yet to be investigated whether the E2E SA-ASR model works well for recordings that are much longer than samples seen during training. In this work, we first apply a known decoding technique that was developed to perform single-speaker ASR for long-form audio to our E2E SA-ASR task. Then, we propose a novel method using a sequence-to-sequence model, called hypothesis stitcher. The model takes multiple hypotheses obtained from short audio segments that are extracted from the original long-form input, and it then outputs a fused single hypothesis. We propose several architectural variations of the hypothesis stitcher model and compare them with the conventional decoding methods. Experiments using LibriSpeech and LibriCSS corpora show that the proposed method significantly improves SA-WER especially for long-form multi-talker recordings.
翻訳日:2021-04-11 08:23:57 公開日:2021-01-06
# (参考訳) 潜流による強化学習 [全文訳有]

Reinforcement Learning with Latent Flow ( http://arxiv.org/abs/2101.01857v1 )

ライセンス: CC BY 4.0
Wenling Shang, Xiaofei Wang, Aravind Srinivas, Aravind Rajeswaran, Yang Gao, Pieter Abbeel, Michael Laskin(参考訳) 時間情報は強化学習(RL)による効果的な政策学習に不可欠である。 しかし、現在の最先端のRLアルゴリズムは、そのような情報が状態空間の一部として与えられると仮定するか、ピクセルから学ぶとき、フレームスタッキングの単純なヒューリスティックを用いて、画像観察に存在する時間情報を暗黙的にキャプチャする。 このヒューリスティックは、映像分類アーキテクチャの現在のパラダイムとは対照的で、光学フローや2ストリームアーキテクチャといった手法による時間情報の明示的なエンコーディングを利用して、最先端のパフォーマンスを達成する。 本稿では,遅延ベクトル差による時間情報を明示的に符号化するRLのためのネットワークアーキテクチャであるFlow of Latents for Reinforcement Learning(Flare)を紹介する。 We show that Flare (i) recovers optimal performance in state-based RL without explicit access to the state velocity, solely with positional state information, (ii) achieves state-of-the-art performance on pixel-based challenging continuous control tasks within the DeepMind control benchmark suite, namely quadruped walk, hopper hop, finger turn hard, pendulum swing, and walker run, and is the most sample efficient model-free pixel-based RL algorithm, outperforming the prior model-free state-of-the-art by 1.9X and 1.5X on the 500k and 1M step benchmarks, respectively, and (iv), when augmented over rainbow DQN, outperforms this state-of-the-art level baseline on 5 of 8 challenging Atari games at 100M time step benchmark.

Temporal information is essential to learning effective policies with Reinforcement Learning (RL). However, current state-of-the-art RL algorithms either assume that such information is given as part of the state space or, when learning from pixels, use the simple heuristic of frame-stacking to implicitly capture temporal information present in the image observations. This heuristic is in contrast to the current paradigm in video classification architectures, which utilize explicit encodings of temporal information through methods such as optical flow and two-stream architectures to achieve state-of-the-art performance. Inspired by leading video classification architectures, we introduce the Flow of Latents for Reinforcement Learning (Flare), a network architecture for RL that explicitly encodes temporal information through latent vector differences. We show that Flare (i) recovers optimal performance in state-based RL without explicit access to the state velocity, solely with positional state information, (ii) achieves state-of-the-art performance on pixel-based challenging continuous control tasks within the DeepMind control benchmark suite, namely quadruped walk, hopper hop, finger turn hard, pendulum swing, and walker run, and is the most sample efficient model-free pixel-based RL algorithm, outperforming the prior model-free state-of-the-art by 1.9X and 1.5X on the 500k and 1M step benchmarks, respectively, and (iv), when augmented over rainbow DQN, outperforms this state-of-the-art level baseline on 5 of 8 challenging Atari games at 100M time step benchmark.
翻訳日:2021-04-11 08:12:26 公開日:2021-01-06
# (参考訳) 分散システムのための環境伝達 [全文訳有]

Environment Transfer for Distributed Systems ( http://arxiv.org/abs/2101.01863v1 )

ライセンス: CC BY 4.0
Chunheng Jiang, Jae-wook Ahn, Nirmit Desai(参考訳) 様々な音響環境特性を表現できる量のデータを集めることは、分散音響機械学習にとって重要な問題である。 この問題に対処するためにいくつかのオーディオデータ拡張技術が導入されたが、既存のデータの単純な操作に留まり、環境の変動をカバーできない傾向にある。 本稿では,音声データ間の音響スタイルのテクスチャの転送に用いられてきた手法を拡張する手法を提案する。 分散音響データ拡張のための環境間で音声シグネチャを転送する。 本稿では,分類精度とコンテンツ保存に基づいて,生成した音響データを評価するメトリクスを考案する。 urbansound8kデータセットを用いて実験を行い,提案手法がコンテンツの特徴を維持しつつ,環境特性を伝達する音声データを生成することを示した。

Collecting sufficient amount of data that can represent various acoustic environmental attributes is a critical problem for distributed acoustic machine learning. Several audio data augmentation techniques have been introduced to address this problem but they tend to remain in simple manipulation of existing data and are insufficient to cover the variability of the environments. We propose a method to extend a technique that has been used for transferring acoustic style textures between audio data. The method transfers audio signatures between environments for distributed acoustic data augmentation. This paper devises metrics to evaluate the generated acoustic data, based on classification accuracy and content preservation. A series of experiments were conducted using UrbanSound8K dataset and the results show that the proposed method generates better audio data with transferred environmental features while preserving content features.
翻訳日:2021-04-11 07:52:25 公開日:2021-01-06
# (参考訳) Image-into-Audio Steganography のための多段階残像ホディング [全文訳有]

Multi-Stage Residual Hiding for Image-into-Audio Steganography ( http://arxiv.org/abs/2101.01872v1 )

ライセンス: CC0 1.0
Wenxue Cui, Shaohui Liu, Feng Jiang, Yongliang Liu, Debin Zhao(参考訳) 音声通信技術の広範な応用により、インターネット上の音声データの流速が向上し、シークレット通信の一般的なキャリアとなった。 本稿では,カバーオーディオの知覚的忠実さを保ちながら,画像コンテンツをオーディオキャリアに隠蔽するクロスモーダルステガノグラフィー手法を提案する。 第1のネットワークは、異なるオーディオサブシーケンス内のマルチレベル残差エラーを対応するステージサブネットワークで符号化し、第2のネットワークは、修正されたキャリアからの残差エラーを対応するステージサブネットワークで復号し、最終的な結果を生成する。 提案するフレームワークのマルチステージ設計により,ペイロード容量の制御がより柔軟になるだけでなく,残差の緩やかな特性から隠蔽も容易になる。 定性的な実験により、キャリアの変更は人間のリスナーには知られず、復号された画像は極めて知性が高いことが示唆された。

The widespread application of audio communication technologies has speeded up audio data flowing across the Internet, which made it a popular carrier for covert communication. In this paper, we present a cross-modal steganography method for hiding image content into audio carriers while preserving the perceptual fidelity of the cover audio. In our framework, two multi-stage networks are designed: the first network encodes the decreasing multilevel residual errors inside different audio subsequences with the corresponding stage sub-networks, while the second network decodes the residual errors from the modified carrier with the corresponding stage sub-networks to produce the final revealed results. The multi-stage design of proposed framework not only make the controlling of payload capacity more flexible, but also make hiding easier because of the gradual sparse characteristic of residual errors. Qualitative experiments suggest that modifications to the carrier are unnoticeable by human listeners and that the decoded images are highly intelligible.
翻訳日:2021-04-11 07:33:20 公開日:2021-01-06
# (参考訳) 特徴埋め込み空間に基づくオフポリシーメタ強化学習 [全文訳有]

Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces ( http://arxiv.org/abs/2101.01883v1 )

ライセンス: CC BY 4.0
Takahisa Imagawa, Takuya Hiraoka, Yoshimasa Tsuruoka(参考訳) メタ強化学習(Meta-Reinforcement Learning, RL)は, 過去の課題から得られた経験を用いて, 深部RLにおけるサンプル非効率性の問題に対処する。 しかし、ほとんどのメタrlメソッドは、部分的にまたは完全にオン・ポリシーなデータを必要とし、すなわち過去のポリシーによって収集されたデータを再利用できないため、サンプル効率の改善を妨げている。 この問題を軽減するために,新たなメタRL法を提案し,学習の埋め込みと不確実性の評価を行う。 ELUEエージェントは、タスク間で共有される特徴埋め込み空間の学習によって特徴付けられる。 埋め込み空間上の信念モデルと、信念条件ポリシーとq関数を学ぶ。 そして、新しいタスクのために、事前訓練されたポリシーでデータを収集し、信念モデルに基づいてその信念を更新する。 信念の更新により、少量のデータでパフォーマンスが向上する。 さらに、ニューラルネットワークのパラメータを更新して、十分なデータがある場合に事前訓練された関係を調整する。 ELUEは,メタRLベンチマーク実験により,最先端のメタRL法よりも優れていることを示す。

Meta-reinforcement learning (RL) addresses the problem of sample inefficiency in deep RL by using experience obtained in past tasks for a new task to be solved. However, most meta-RL methods require partially or fully on-policy data, i.e., they cannot reuse the data collected by past policies, which hinders the improvement of sample efficiency. To alleviate this problem, we propose a novel off-policy meta-RL method, embedding learning and evaluation of uncertainty (ELUE). An ELUE agent is characterized by the learning of a feature embedding space shared among tasks. It learns a belief model over the embedding space and a belief-conditional policy and Q-function. Then, for a new task, it collects data by the pretrained policy, and updates its belief based on the belief model. Thanks to the belief update, the performance can be improved with a small amount of data. In addition, it updates the parameters of the neural networks to adjust the pretrained relationships when there are enough data. We demonstrate that ELUE outperforms state-of-the-art meta RL methods through experiments on meta-RL benchmarks.
翻訳日:2021-04-11 07:25:45 公開日:2021-01-06
# (参考訳) 正確な電池寿命予測のための統計的学習

Statistical learning for accurate and interpretable battery lifetime prediction ( http://arxiv.org/abs/2101.01885v1 )

ライセンス: CC BY 4.0
Peter M. Attia, Kristen A. Severson, Jeremy D. Witmer(参考訳) 劣化メカニズムの理解が不十分で,適切なトレーニングセットが利用できるアプリケーションでは,データ駆動によるバッテリー寿命予測が注目されている。 しかしながら、高度な機械学習とディープラーニングの手法は、最小限の機能エンジニアリングでハイパフォーマンスを提供する一方で、より単純な"統計学習"の方法は、特に小さなトレーニングセットにおいて、同等のパフォーマンスを達成し、物理的および統計的な解釈性も提供する。 本研究では,バッテリ寿命予測のためのシンプルで正確で解釈可能なデータ駆動モデルを開発するために,先述したデータセットを用いた。 まず、電池電気化学サイクルデータのコンパクトな表現として「容量行列」の概念を一連の特徴表現とともに提示する。 次に、多数の単変量モデルと多変量モデルを作成し、その多くが、以前このデータセットで公開された最高のパフォーマンスモデルに匹敵するパフォーマンスを達成する。 これらのモデルはまた、これらの細胞の分解に関する洞察を与える。 我々のアプローチは、新しいデータセットのモデルを迅速にトレーニングし、より高度な機械学習メソッドのパフォーマンスをベンチマークするためにも使用できます。

Data-driven methods for battery lifetime prediction are attracting increasing attention for applications in which the degradation mechanisms are poorly understood and suitable training sets are available. However, while advanced machine learning and deep learning methods offer high performance with minimal feature engineering, simpler "statistical learning" methods often achieve comparable performance, especially for small training sets, while also providing physical and statistical interpretability. In this work, we use a previously published dataset to develop simple, accurate, and interpretable data-driven models for battery lifetime prediction. We first present the "capacity matrix" concept as a compact representation of battery electrochemical cycling data, along with a series of feature representations. We then create a number of univariate and multivariate models, many of which achieve comparable performance to the highest-performing models previously published for this dataset. These models also provide insights into the degradation of these cells. Our approaches can be used both to quickly train models for a new dataset and to benchmark the performance of more advanced machine learning methods.
翻訳日:2021-04-11 07:09:10 公開日:2021-01-06
# (参考訳) 半教師付き学習によるリスナーバックチャネルの予測 [全文訳有]

Exploring Semi-Supervised Learning for Predicting Listener Backchannels ( http://arxiv.org/abs/2101.01899v1 )

ライセンス: CC BY 4.0
Vidit Jain, Maitree Leekha, Rajiv Ratn Shah, Jainendra Shukla(参考訳) 人間のような会話エージェントの開発は、HCI研究の主要な領域であり、多くのタスクを仮定している。 リスナーのバックチャネルを予測することは、このような活発に調査されたタスクである。 多くの研究はバックチャネル予測に異なるアプローチを用いたが、それらはすべて大規模なデータセットの手動アノテーションに依存している。 これは開発のスケーラビリティに影響を与えるボトルネックです。 そこで本研究では,半教師付き手法を用いてバックチャネルの識別プロセスを自動化することにより,アノテーションプロセスの緩和を提案する。 識別モジュールの実現可能性を分析するために, (a) 手動アノテーションラベルと (b) セミ教師付きラベルでトレーニングされたバックチャネル予測モデルを比較した。 定量的解析により,提案手法は前者のパフォーマンスの95%を達成することができた。 実験の結果,60%の被験者が,提案モデルが予測したバックチャネル応答をより自然なものであることがわかった。 最後に,バックチャネル信号のタイプに対するパーソナリティの影響を分析し,ユーザ調査の結果を検証した。

Developing human-like conversational agents is a prime area in HCI research and subsumes many tasks. Predicting listener backchannels is one such actively-researched task. While many studies have used different approaches for backchannel prediction, they all have depended on manual annotations for a large dataset. This is a bottleneck impacting the scalability of development. To this end, we propose using semi-supervised techniques to automate the process of identifying backchannels, thereby easing the annotation process. To analyze our identification module's feasibility, we compared the backchannel prediction models trained on (a) manually-annotated and (b) semi-supervised labels. Quantitative analysis revealed that the proposed semi-supervised approach could attain 95% of the former's performance. Our user-study findings revealed that almost 60% of the participants found the backchannel responses predicted by the proposed model more natural. Finally, we also analyzed the impact of personality on the type of backchannel signals and validated our findings in the user-study.
翻訳日:2021-04-11 07:07:56 公開日:2021-01-06
# (参考訳) 量的ゲームにおける満足感について [全文訳有]

On Satisficing in Quantitative Games ( http://arxiv.org/abs/2101.02594v1 )

ライセンス: CC BY 4.0
Suguman Bansal, Krishnendu Chatterjee, Moshe Y. Vardi(参考訳) 計画と反応合成に関するいくつかの問題は、2人のプレイヤーによる定量的グラフゲームの分析に還元できる。 最適化とは分析の一形態である。 多くの場合、最適化問題を最適な解を探す代わりに、与えられたしきい値に従属する解を探索することが目的であるような {\em satisficing problem} に置き換えた方がよいと論じる。 本研究は,割引コストモデルを用いた2プレイヤーグラフゲームにおける満足度問題を定義し,検討する。 最適化問題と同様に数値手法で満足度を解くことができるが、この手法は最適化よりも説得力のある利点を示さない。 しかし、割引係数が整数である場合には、純粋にオートマトン法に基づく満足度に対する別のアプローチを示す。 このアプローチは、理論的にも経験的にもアルゴリズム的にもよりパフォーマンスが高く、過剰最適化を満足する幅広い適用性を示している。

Several problems in planning and reactive synthesis can be reduced to the analysis of two-player quantitative graph games. {\em Optimization} is one form of analysis. We argue that in many cases it may be better to replace the optimization problem with the {\em satisficing problem}, where instead of searching for optimal solutions, the goal is to search for solutions that adhere to a given threshold bound. This work defines and investigates the satisficing problem on a two-player graph game with the discounted-sum cost model. We show that while the satisficing problem can be solved using numerical methods just like the optimization problem, this approach does not render compelling benefits over optimization. When the discount factor is, however, an integer, we present another approach to satisficing, which is purely based on automata methods. We show that this approach is algorithmically more performant -- both theoretically and empirically -- and demonstrates the broader applicability of satisficing overoptimization.
翻訳日:2021-04-11 06:38:35 公開日:2021-01-06
# (参考訳) 機械学習と複数データセットを用いたフィッシング攻撃とwebサイト分類(比較分析) [全文訳有]

Phishing Attacks and Websites Classification Using Machine Learning and Multiple Datasets (A Comparative Analysis) ( http://arxiv.org/abs/2101.02552v1 )

ライセンス: CC BY 4.0
Sohail Ahmed Khan and Wasiq Khan and Abir Hussain(参考訳) フィッシング攻撃は機密情報を得るために使用される最も一般的なサイバー攻撃であり、世界中の個人や組織に影響を与える。 近年,フィッシング攻撃,特にマシンインテリジェンスの展開を識別するために,様々な手法が提案されている。 しかし、既存の作業では、デプロイアルゴリズムと識別要因が非常に多様である。 本研究では,機械学習アルゴリズムを網羅的に分析し,その性能を複数のデータセットで評価する。 我々は,複数のデータセットにおける最も重要な特徴をさらに調査し,その分類性能を縮小した次元データセットと比較する。 統計的には、ランダムフォレストとニューラルネットワークは他の分類アルゴリズムよりも優れており、同定された特徴を用いて97%以上の精度を達成している。

Phishing attacks are the most common type of cyber-attacks used to obtain sensitive information and have been affecting individuals as well as organisations across the globe. Various techniques have been proposed to identify the phishing attacks specifically, deployment of machine intelligence in recent years. However, the deployed algorithms and discriminating factors are very diverse in existing works. In this study, we present a comprehensive analysis of various machine learning algorithms to evaluate their performances over multiple datasets. We further investigate the most significant features within multiple datasets and compare the classification performance with the reduced dimensional datasets. The statistical results indicate that random forest and artificial neural network outperform other classification algorithms, achieving over 97% accuracy using the identified features.
翻訳日:2021-04-11 05:57:59 公開日:2021-01-06
# (参考訳) 高次元パーセプトロンの伝達学習における相転移 [全文訳有]

Phase Transitions in Transfer Learning for High-Dimensional Perceptrons ( http://arxiv.org/abs/2101.01918v1 )

ライセンス: CC BY 4.0
Oussama Dhifallah and Yue M. Lu(参考訳) 伝達学習は、関連するソースタスクから学んだ知識を活用して、対象タスクの一般化性能を向上させる。 中心となる質問は、どの情報を転送すべきか、いつ転送が有益かを判断することである。 後者の問題は、転送元情報が実際に目標タスクの一般化性能を低下させるいわゆる負の伝達現象に関連している。 これは2つのタスクが十分に異なる場合に起こる。 本稿では,2つの関連するパーセプトロン学習タスクを研究することによって,伝達学習の理論解析を行う。 モデルの単純さにもかかわらず、実際に観察されるいくつかの重要な現象を再現します。 具体的には,2つのタスクの類似性が明確に定義されたしきい値を越えると,負の伝達から正の伝達への相転移が明らかとなる。

Transfer learning seeks to improve the generalization performance of a target task by exploiting the knowledge learned from a related source task. Central questions include deciding what information one should transfer and when transfer can be beneficial. The latter question is related to the so-called negative transfer phenomenon, where the transferred source information actually reduces the generalization performance of the target task. This happens when the two tasks are sufficiently dissimilar. In this paper, we present a theoretical analysis of transfer learning by studying a pair of related perceptron learning tasks. Despite the simplicity of our model, it reproduces several key phenomena observed in practice. Specifically, our asymptotic analysis reveals a phase transition from negative transfer to positive transfer as the similarity of the two tasks moves past a well-defined threshold.
翻訳日:2021-04-11 05:46:39 公開日:2021-01-06
# (参考訳) 重み付きアンサンブルモデルとネットワーク解析:自然機能接続による流体インテリジェンス予測法 [全文訳有]

Weighted Ensemble-model and Network Analysis: A method to predict fluid intelligence via naturalistic functional connectivity ( http://arxiv.org/abs/2101.01973v1 )

ライセンス: CC BY 4.0
Xiaobo Liu, Su Yang(参考訳) 目的: 自然主義的刺激(映画など)と機械学習技術によって引き起こされる機能的接続は、流体知能などの脳機能を探究する上で大きな洞察を与える。 しかし、機能的接続は多層化されていると考えられており、個々のモデルに基づく従来の機械学習は性能に限界があるだけでなく、脳ネットワークから多次元および多層情報を取り出すことができない。 方法: 本研究は多層脳ネットワーク構造に着想を得て, 機械学習とグラフ理論を組み合わせた重み付きアンサンブルモデルとネットワーク解析という新しい手法を提案する。 まず,機能的接続解析とグラフィカル理論を併用した。 予備処理したfMRIデータを用いて計算した機能接続とグラフィカルな指標を全てオートエンコーダに並列に入力し、特徴抽出を行い、流体インテリジェンスを予測する。 性能を向上させるために,木回帰とリッジ回帰モデルを自動的に積み重み付き値で融合させた。 最後に、コネクトームパターンをよりよく説明するためにオートエンコーダの層を可視化し、続いて脳機能のメカニズムを正当化する性能評価を行った。 結果: 提案手法は平均絶対偏差 3.85, 相関係数 0.66, r-二乗係数 0.42 で, 従来の手法よりも優れていた。 また,自動エンコーダアルゴリズムによって生物パターン抽出の最適化が自動化されたことも注目に値する。 結論: 提案手法は, 最先端の報告に勝るだけでなく, 自然界の映画状態における機能的接続状態から生物学的パターンを効果的に把握し, 臨床研究の可能性を秘めている。

Objectives: Functional connectivity triggered by naturalistic stimulus (e.g., movies) and machine learning techniques provide a great insight in exploring the brain functions such as fluid intelligence. However, functional connectivity are considered to be multi-layered, while traditional machine learning based on individual models not only are limited in performance, but also fail to extract multi-dimensional and multi-layered information from brain network. Methods: In this study, inspired by multi-layer brain network structure, we propose a new method namely Weighted Ensemble-model and Network Analysis, which combines the machine learning and graph theory for improved fluid intelligence prediction. Firstly, functional connectivity analysis and graphical theory were jointly employed. The functional connectivity and graphical indices computed using the preprocessed fMRI data were then all fed into auto-encoder parallelly for feature extraction to predict the fluid intelligence. In order to improve the performance, tree regression and ridge regression model were automatically stacked and fused with weighted values. Finally, layers of auto-encoder were visualized to better illustrate the connectome patterns, followed by the evaluation of the performance to justify the mechanism of brain functions. Results: Our proposed methods achieved best performance with 3.85 mean absolute deviation, 0.66 correlation coefficient and 0.42 R-squared coefficient, outperformed other state-of-the-art methods. It is also worth noting that, the optimization of the biological pattern extraction was automated though the auto-encoder algorithm. Conclusion: The proposed method not only outperforming the state-of-the-art reports, but also able to effectively capturing the biological patterns from functional connectivity during naturalistic movies state for potential clinical explorations.
翻訳日:2021-04-11 05:17:36 公開日:2021-01-06
# (参考訳) 階層型シングルブランチネットワークによるマルチオブジェクトトラッキング [全文訳有]

Multi-object Tracking with a Hierarchical Single-branch Network ( http://arxiv.org/abs/2101.01984v1 )

ライセンス: CC BY 4.0
Fan Wang, Lei Luo, En Zhu, Siwei Wang, Jun Long(参考訳) 最近のMultiple Object Tracking(MOT)法は、オブジェクト検出とインスタンス再識別(Re-ID)を統合ネットワークに統合し、一段階のソリューションを構築しようとしている。 通常、これらの手法は1つのネットワーク内で分離された2つの分岐を用いて検出とRe-IDの相互関係を研究せずにそれぞれ達成し、トラッキング性能を必然的に損なう。 本稿では,この問題を解決するために,階層型単一ブランチネットワークに基づくオンライン多目的追跡フレームワークを提案する。 具体的には,改良された階層型オンラインインスタンスマッチング(ihoim)損失を利用して,オブジェクト検出と再id間の相互関係を明示的にモデル化する。 我々の新しいiHOIM損失関数は2つのサブタスクの目的を統一し、非常に混み合ったシーンでも優れた検出性能と特徴学習を促進する。 さらに,動きモデルによって予測される物体の位置を,検出結果と動き予測が異なるシナリオで相互に補完できるような,後続の物体検出のための領域提案として導入することを提案する。 MOT16およびMOT20データセットを用いた実験結果から,最先端の追跡性能が得られ,各コンポーネントの有効性が検証された。

Recent Multiple Object Tracking (MOT) methods have gradually attempted to integrate object detection and instance re-identification (Re-ID) into a united network to form a one-stage solution. Typically, these methods use two separated branches within a single network to accomplish detection and Re-ID respectively without studying the inter-relationship between them, which inevitably impedes the tracking performance. In this paper, we propose an online multi-object tracking framework based on a hierarchical single-branch network to solve this problem. Specifically, the proposed single-branch network utilizes an improved Hierarchical Online In-stance Matching (iHOIM) loss to explicitly model the inter-relationship between object detection and Re-ID. Our novel iHOIM loss function unifies the objectives of the two sub-tasks and encourages better detection performance and feature learning even in extremely crowded scenes. Moreover, we propose to introduce the object positions, predicted by a motion model, as region proposals for subsequent object detection, where the intuition is that detection results and motion predictions can complement each other in different scenarios. Experimental results on MOT16 and MOT20 datasets show that we can achieve state-of-the-art tracking performance, and the ablation study verifies the effectiveness of each proposed component.
翻訳日:2021-04-11 05:09:19 公開日:2021-01-06
# (参考訳) 手のジェスチャー認識と指先検出のための統一学習手法 [全文訳有]

A Unified Learning Approach for Hand Gesture Recognition and Fingertip Detection ( http://arxiv.org/abs/2101.02047v1 )

ライセンス: CC BY 4.0
Mohammad Mahmudul Alam, Mohammad Tariqul Islam, S. M. Mahbubur Rahman(参考訳) 人間とコンピュータの相互作用や手話の解釈では、手の動きを認識し、指先を検出することがコンピュータビジョン研究においてユビキタスになる。 本稿では,手指のジェスチャー認識と指先検出のための畳み込みニューラルネットワークの統一的アプローチを提案する。 提案アルゴリズムは1つのネットワークを用いて,ネットワークの前方伝播における指先と指先の位置の確率を予測する。 完全に接続された層から指先の位置を直接後退させる代わりに、指先の位置のアンサンブルを完全な畳み込みネットワークから後退させる。 その後、アンサンブル平均をとり、指先の最終位置を後退させる。 パイプライン全体が単一のネットワークを使用するため、計算速度は大幅に速い。 提案手法は,直接回帰法に比べて画素誤差が著しく減少し,ヒートマップベースのフレームワークを含む既存の指先検出法を上回った。

In human-computer interaction or sign language interpretation, recognizing hand gestures and detecting fingertips become ubiquitous in computer vision research. In this paper, a unified approach of convolutional neural network for both hand gesture recognition and fingertip detection is introduced. The proposed algorithm uses a single network to predict the probabilities of finger class and positions of fingertips in one forward propagation of the network. Instead of directly regressing the positions of fingertips from the fully connected layer, the ensemble of the position of fingertips is regressed from the fully convolutional network. Subsequently, the ensemble average is taken to regress the final position of fingertips. Since the whole pipeline uses a single network, it is significantly fast in computation. The proposed method results in remarkably less pixel error as compared to that in the direct regression approach and it outperforms the existing fingertip detection approaches including the Heatmap-based framework.
翻訳日:2021-04-11 04:57:54 公開日:2021-01-06
# (参考訳) 歴史地図セグメンテーションのための深層学習と数学的形態の組み合わせ [全文訳有]

Combining Deep Learning and Mathematical Morphology for Historical Map Segmentation ( http://arxiv.org/abs/2101.02144v1 )

ライセンス: CC BY-SA 4.0
Yizi Chen (1,2), Edwin Carlinet (1), Joseph Chazalon (1), Cl\'ement Mallet (2), Bertrand Dum\'enieu (3), Julien Perret (2,3) ((1) EPITA Research and Development Lab. (LRDE), EPITA, France, (2) Univ. Gustave Eiffel, IGN-ENSG, LaSTIG, (3) LaD\'eHiS, CRH, EHESS)(参考訳) 歴史地図のデジタル化は、古代、脆弱、独特、アクセス不能な情報ソースの研究を可能にする。 主要なマップ機能は、その後のテーマ分析の時間を通して検索および追跡することができる。 この研究の目的は、ベクトル化ステップ、すなわち、地図のラスター画像から興味のある対象のベクトル形状を抽出することである。 特に,建物,建物ブロック,庭園,河川などのクローズドな形状検出に関心がある。 時間的進化を監視するためです 歴史的地図画像は重要なパターン認識課題を呈する。 従来の数学的形態学(MM)を用いて閉じた形状を抽出することは、複数の地図特徴やテキストが重複しているため非常に困難である。 さらに、最先端の畳み込みニューラルネットワーク(cnn)は、コンテンツイメージフィルタリングのために完全に設計されているが、閉じた形状検出に関する保証はない。 また、歴史的地図のテクスチャ情報や色情報がないため、CNNがそれらの境界のみで表される形状を検出することは困難である。 我々の貢献は、CNN(エッジ検出とフィルタリングの効率)とMM(閉じた形状の保証抽出)の強みを組み合わせて、そのような課題を達成するパイプラインである。 公共データセットに対する我々のアプローチの評価は、歴史的地図における物体の閉じた境界を抽出する効果を示す。

The digitization of historical maps enables the study of ancient, fragile, unique, and hardly accessible information sources. Main map features can be retrieved and tracked through the time for subsequent thematic analysis. The goal of this work is the vectorization step, i.e., the extraction of vector shapes of the objects of interest from raster images of maps. We are particularly interested in closed shape detection such as buildings, building blocks, gardens, rivers, etc. in order to monitor their temporal evolution. Historical map images present significant pattern recognition challenges. The extraction of closed shapes by using traditional Mathematical Morphology (MM) is highly challenging due to the overlapping of multiple map features and texts. Moreover, state-of-the-art Convolutional Neural Networks (CNN) are perfectly designed for content image filtering but provide no guarantee about closed shape detection. Also, the lack of textural and color information of historical maps makes it hard for CNN to detect shapes that are represented by only their boundaries. Our contribution is a pipeline that combines the strengths of CNN (efficient edge detection and filtering) and MM (guaranteed extraction of closed shapes) in order to achieve such a task. The evaluation of our approach on a public dataset shows its effectiveness for extracting the closed boundaries of objects in historical maps.
翻訳日:2021-04-11 04:27:31 公開日:2021-01-06
# (参考訳) アンサンブルゲームにおける分類器の共有値 [全文訳有]

The Shapley Value of Classifiers in Ensemble Games ( http://arxiv.org/abs/2101.02153v1 )

ライセンス: CC BY 4.0
Benedek Rozemberczki and Rik Sarkar(参考訳) アンサンブルモデルにおいて、個々の分類器の公正値をどのように決定するか。 我々は,この問題に答えるために,移動可能な実用協力型ゲームの新しいクラスを導入する。 アンサンブルゲームのプレイヤーは、データセットからポイントを正確にラベル付けするためにアンサンブルで協調する事前訓練されたバイナリ分類器である。 我々は,アンサンブルゲームのShapley値に基づいて,個々のモデルのペイオフを指定するスケーラブルなアルゴリズムを設計する。 これらのゲームにおける分類器の近似シェープ値は、高い予測モデルの部分群を選択するための適切な尺度であることを示す。 さらに、モデル品質に関して機械学習のアンサンブルの不均一性を定量化するための新しい計量であるShapley entropyを導入する。 我々はShapley値近似アルゴリズムが正確で,大規模アンサンブルやビッグデータまで拡張可能であることを解析的に証明した。 グラフ分類タスクの実験結果から、TroupeはアンサンブルゲームにおけるShapley値の正確な推定を行う。 我々は、シェープリー値が大きなアンサンブルを刈り取るのに有効であることを示し、複雑な分類器が正誤分類決定において主要な役割を担っていることを示し、敵対的モデルが低い評価を受けることを示す。

How do we decide the fair value of individual classifiers in an ensemble model? We introduce a new class of transferable utility cooperative games to answer this question. The players in ensemble games are pre-trained binary classifiers that collaborate in an ensemble to correctly label points from a dataset. We design Troupe a scalable algorithm that designates payoffs to individual models based on the Shapley value of those in the ensemble game. We show that the approximate Shapley value of classifiers in these games is an adequate measure for selecting a subgroup of highly predictive models. In addition, we introduce the Shapley entropy a new metric to quantify the heterogeneity of machine learning ensembles when it comes to model quality. We analytically prove that our Shapley value approximation algorithm is accurate and scales to large ensembles and big data. Experimental results on graph classification tasks establish that Troupe gives precise estimates of the Shapley value in ensemble games. We demonstrate that the Shapley value can be used for pruning large ensembles, show that complex classifiers have a prime role in correct and incorrect classification decisions, and provide evidence that adversarial models receive a low valuation.
翻訳日:2021-04-11 04:16:26 公開日:2021-01-06
# (参考訳) 財務開示におけるテキスト分析 [全文訳有]

Text analysis in financial disclosures ( http://arxiv.org/abs/2101.04480v1 )

ライセンス: CC BY 4.0
Sridhar Ravula(参考訳) 財務開示分析と知識抽出は金融分析の重要な問題である。 一般的な方法は、ウィンドウドレッシングや過去の焦点といった制限に悩まされる量比と技法に大きく依存する。 企業の財務情報開示のほとんどの情報は構造化されていないテキストであり、その健康に関する貴重な情報を含んでいる。 人間と機械は、その膨大な量と非構造的な性質のために、それを十分に分析できない。 研究者は最近、情報開示のテキストコンテンツを分析し始めた。 本稿では,金融・会計における非構造化データ分析における先行研究について述べる。 また、計算言語学におけるアートメソッドの現状を探求し、自然言語処理(NLP)における現在の方法論についてレビューする。 具体的には、テキスト分析アプローチで使用されるテキストソース、言語属性、ファーム属性、数学的モデルに関する研究に焦点を当てる。 本研究は,現在の感情指標への焦点の限界を強調し,より広い将来研究領域を強調することで,開示分析手法に寄与する。

Financial disclosure analysis and Knowledge extraction is an important financial analysis problem. Prevailing methods depend predominantly on quantitative ratios and techniques, which suffer from limitations like window dressing and past focus. Most of the information in a firm's financial disclosures is in unstructured text and contains valuable information about its health. Humans and machines fail to analyze it satisfactorily due to the enormous volume and unstructured nature, respectively. Researchers have started analyzing text content in disclosures recently. This paper covers the previous work in unstructured data analysis in Finance and Accounting. It also explores the state of art methods in computational linguistics and reviews the current methodologies in Natural Language Processing (NLP). Specifically, it focuses on research related to text source, linguistic attributes, firm attributes, and mathematical models employed in the text analysis approach. This work contributes to disclosure analysis methods by highlighting the limitations of the current focus on sentiment metrics and highlighting broader future research areas
翻訳日:2021-04-11 03:59:52 公開日:2021-01-06
# (参考訳) コーニックプログラミングによるランダムドット製品グラフのベイズ推定 [全文訳有]

Bayesian Inference of Random Dot Product Graphs via Conic Programming ( http://arxiv.org/abs/2101.02180v1 )

ライセンス: CC BY 4.0
David Wu, David R. Palmer, Daryl R. Deford(参考訳) 本稿では,ランダムドット積グラフ(RDPG)の潜在確率行列を推定するための凸錐プログラムを提案する。 最適化問題は、追加の核ノルム正規化項でベルヌーイ最大度関数を最大化する。 双対問題は、MaxCut問題のよく知られた半定値プログラム緩和に関連して、特によい形式を持つ。 原始双対最適性条件を用いて、原始解と双対解のエントリとランクを制限した。 さらに, 最適目的値を限定し, 軽度な技術的仮定の下で, わずかに修正されたモデルの確率推定の漸近的一貫性を証明した。 RDPGの合成実験は、自然クラスターを復元するだけでなく、元のデータの低次元形状も明らかにする。 また,この手法は,空手クラブグラフとアメリカ合衆国上院世論投票グラフの潜在構造を復元し,数百ノードまでのグラフに拡張可能であることを実証した。

We present a convex cone program to infer the latent probability matrix of a random dot product graph (RDPG). The optimization problem maximizes the Bernoulli maximum likelihood function with an added nuclear norm regularization term. The dual problem has a particularly nice form, related to the well-known semidefinite program relaxation of the MaxCut problem. Using the primal-dual optimality conditions, we bound the entries and rank of the primal and dual solutions. Furthermore, we bound the optimal objective value and prove asymptotic consistency of the probability estimates of a slightly modified model under mild technical assumptions. Our experiments on synthetic RDPGs not only recover natural clusters, but also reveal the underlying low-dimensional geometry of the original data. We also demonstrate that the method recovers latent structure in the Karate Club Graph and synthetic U.S. Senate vote graphs and is scalable to graphs with up to a few hundred nodes.
翻訳日:2021-04-11 03:30:24 公開日:2021-01-06
# (参考訳) Hypernetworks を用いた正規化圧縮型MRI画像再構成 [全文訳有]

Regularization-Agnos tic Compressed Sensing MRI Reconstruction with Hypernetworks ( http://arxiv.org/abs/2101.02194v1 )

ライセンス: CC BY 4.0
Alan Q. Wang, Adrian V. Dalca, Mert R. Sabuncu(参考訳) 圧縮センシングMRI(CS-MRI)におけるアンダーサンプリングk空間の再構成は、正規化最小二乗法により古典的に解決される。 近年、深層学習は、アンダーサンプル計測のデータセットに基づいて再構成ネットワークをトレーニングすることで、この最適化を改善している。 ここで重要な設計選択は正規化関数(s)と対応する重み(s)である。 本稿では,正規化重みの関数として分離された再構成ネットワークのパラメータを生成するためにハイパーネットワークを利用する新たな戦略を探求し,正規化に依存しない再構築モデルを提案する。 実験時, アンダーサンプル画像の場合, 我々のモデルは, 異なる量の正規化で高速に再構成を計算できる。 特に全体的な品質が類似した状況において,これらの復元の変動性を分析する。 最後に,ハイパーネットワーク容量を制限したリコンストラクション性能を最大化する効率的なデータ駆動方式を提案する。 私たちのコードはhttps://github.com/a lanqrwang/RegAgnosti cCSMRIで公開されています。

Reconstructing under-sampled k-space measurements in Compressed Sensing MRI (CS-MRI) is classically solved with regularized least-squares. Recently, deep learning has been used to amortize this optimization by training reconstruction networks on a dataset of under-sampled measurements. Here, a crucial design choice is the regularization function(s) and corresponding weight(s). In this paper, we explore a novel strategy of using a hypernetwork to generate the parameters of a separate reconstruction network as a function of the regularization weight(s), resulting in a regularization-agnos tic reconstruction model. At test time, for a given under-sampled image, our model can rapidly compute reconstructions with different amounts of regularization. We analyze the variability of these reconstructions, especially in situations when the overall quality is similar. Finally, we propose and empirically demonstrate an efficient and data-driven way of maximizing reconstruction performance given limited hypernetwork capacity. Our code is publicly available at https://github.com/a lanqrwang/RegAgnosti cCSMRI.
翻訳日:2021-04-11 02:57:50 公開日:2021-01-06
# (参考訳) 転校学習のための動的認識状態埋め込みの学習 [全文訳有]

Learn Dynamic-Aware State Embedding for Transfer Learning ( http://arxiv.org/abs/2101.02230v1 )

ライセンス: CC BY 4.0
Kaige Yang(参考訳) トランスファー強化学習は、以前のタスクから得られた経験を活用して、目に見えない新しいタスクを解決するサンプル効率を向上させることを目的としている。 報酬関数を除く全てのタスク(MDP)が同じ環境を共有できるような設定を考える。 この設定では、MDPのダイナミクスは、一様ランダムなポリシーによって推測できる、転送のよい知識である。 しかし、一様無作為政策によって生成される軌道は政策改善に役立たず、サンプル効率を著しく損なう。 代わりに、バイナリmdpダイナミックは、均一なランダムポリシーの必要性を避ける任意のポリシーの軌跡から推測できると観察する。 バイナリMDPダイナミックは、すべてのタスクで共有される状態構造を含んでいるので、転送には適していると考えています。 この観察に基づいて,二進法mdp動的オンラインを推定する手法と,それを利用して状態埋め込み学習のガイドを行い,それを新しいタスクに転送する手法を提案する。 我々は国家の埋め込み学習と政策学習を別々に維持する。 その結果、学習状態の埋め込みはタスクとポリシーに依存しないため、転送学習に理想的です。 さらに, 状態空間の探索を容易にするため, 推定された二分法mdpダイナミックに基づく新たな固有報酬を提案する。 提案手法はモデルフリーなRLアルゴリズムと組み合わせて利用できる。 2つのインスタンスを \algo{dqn} と \algo{a2c} に基づいて示す。 集中実験の結果,様々な転校学習タスクにおいて提案手法の利点が示された。

Transfer reinforcement learning aims to improve the sample efficiency of solving unseen new tasks by leveraging experiences obtained from previous tasks. We consider the setting where all tasks (MDPs) share the same environment dynamic except reward function. In this setting, the MDP dynamic is a good knowledge to transfer, which can be inferred by uniformly random policy. However, trajectories generated by uniform random policy are not useful for policy improvement, which impairs the sample efficiency severely. Instead, we observe that the binary MDP dynamic can be inferred from trajectories of any policy which avoids the need of uniform random policy. As the binary MDP dynamic contains the state structure shared over all tasks we believe it is suitable to transfer. Built on this observation, we introduce a method to infer the binary MDP dynamic on-line and at the same time utilize it to guide state embedding learning, which is then transferred to new tasks. We keep state embedding learning and policy learning separately. As a result, the learned state embedding is task and policy agnostic which makes it ideal for transfer learning. In addition, to facilitate the exploration over the state space, we propose a novel intrinsic reward based on the inferred binary MDP dynamic. Our method can be used out-of-box in combination with model-free RL algorithms. We show two instances on the basis of \algo{DQN} and \algo{A2C}. Empirical results of intensive experiments show the advantage of our proposed method in various transfer learning tasks.
翻訳日:2021-04-11 02:47:56 公開日:2021-01-06
# (参考訳) アリストテレスはラップトップを使ったか? 暗黙的推論戦略を用いた質問応答ベンチマーク [全文訳有]

Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies ( http://arxiv.org/abs/2101.02235v1 )

ライセンス: CC0 1.0
Mor Geva, Daniel Khashabi, Elad Segal, Tushar Khot, Dan Roth, Jonathan Berant(参考訳) マルチホップ推論の現在のデータセットにおける重要な制限は、質問に答えるために必要なステップが明示的に記述されていることである。 本研究では,必要な推論ステップが暗黙的であり,戦略を用いて推測されるべきである,質問応答(QA)ベンチマークであるStrategyQAを紹介する。 このセットアップの根本的な課題は、幅広い潜在的な戦略をカバーしながら、クラウドソーシングワーカーからこのような創造的な質問を引き出す方法である。 本稿では,用語ベースのプライミングを組み合わせてアノテータを刺激し,アノテータの個体群を慎重に制御するデータ収集手法を提案する。 さらに,(1) 回答のための推論ステップへの分解,(2) それぞれのステップに対する回答を含むウィキペディアの段落について,各質問に注釈を付ける。 総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。 分析によると、StrategyQAの質問は短く、トピックの多様性があり、幅広い戦略をカバーする。 経験的に、このタスクで人間は良く(87%)、最良のベースラインは$\sim$66%の精度に達する。

A key limitation in current datasets for multi-hop reasoning is that the required steps for answering the question are mentioned in it explicitly. In this work, we introduce StrategyQA, a question answering (QA) benchmark where the required reasoning steps are implicit in the question, and should be inferred using a strategy. A fundamental challenge in this setup is how to elicit such creative questions from crowdsourcing workers, while covering a broad range of potential strategies. We propose a data collection procedure that combines term-based priming to inspire annotators, careful control over the annotator population, and adversarial filtering for eliminating reasoning shortcuts. Moreover, we annotate each question with (1) a decomposition into reasoning steps for answering it, and (2) Wikipedia paragraphs that contain the answers to each step. Overall, StrategyQA includes 2,780 examples, each consisting of a strategy question, its decomposition, and evidence paragraphs. Analysis shows that questions in StrategyQA are short, topic-diverse, and cover a wide range of strategies. Empirically, we show that humans perform well (87%) on this task, while our best baseline reaches an accuracy of $\sim$66%.
翻訳日:2021-04-11 02:37:05 公開日:2021-01-06
# (参考訳) ユーザ・エグゼクティブ・マキナ : テキスト分析におけるデザイン・プローブとしてのシミュレーション [全文訳有]

User Ex Machina : Simulation as a Design Probe in Human-in-the-Loop Text Analytics ( http://arxiv.org/abs/2101.02244v1 )

ライセンス: CC BY 4.0
Anamaria Crisan, Michael Correll(参考訳) トピックモデルは文書のクラスタリングやテキストコーパスのテーマ要素の抽出に広く利用されている。 これらのモデルは最適化が難しいままであり、ドメインの専門家が自分の知識を使って制御し調整する"人道的"なアプローチがしばしば必要です。 しかし、これらのモデルの脆弱性、不完全性、不透明性は、たとえ小さな変更であっても、結果としてモデルが大きく、望ましくない変更を引き起こす可能性があることを意味する。 本稿では,話題モデルと人間中心インタラクションのシミュレーションに基づく分析を行い,ユーザ行動の共通クラスに対する話題モデルの感度を測定することを目的とする。 ユーザインタラクションには、大きさが違うが、多くの場合、ユーザが評価するのが難しい方法で、結果のモデリングの品質に悪影響を及ぼす影響があることが分かりました。 我々は,これらの欠陥を克服するために,トピックモデルインタフェースへの感度と「多元的」解析の導入を提案する。

Topic models are widely used analysis techniques for clustering documents and surfacing thematic elements of text corpora. These models remain challenging to optimize and often require a "human-in-the-loop&qu ot; approach where domain experts use their knowledge to steer and adjust. However, the fragility, incompleteness, and opacity of these models means even minor changes could induce large and potentially undesirable changes in resulting model. In this paper we conduct a simulation-based analysis of human-centered interactions with topic models, with the objective of measuring the sensitivity of topic models to common classes of user actions. We find that user interactions have impacts that differ in magnitude but often negatively affect the quality of the resulting modelling in a way that can be difficult for the user to evaluate. We suggest the incorporation of sensitivity and "multiverse" analyses to topic model interfaces to surface and overcome these deficiencies.
翻訳日:2021-04-11 02:19:10 公開日:2021-01-06
# (参考訳) RNNは再帰的Nested Subject-Verb Agreementsを学習できるか? [全文訳有]

Can RNNs learn Recursive Nested Subject-Verb Agreements? ( http://arxiv.org/abs/2101.02258v1 )

ライセンス: CC BY 4.0
Yair Lakretz, Th\'eo Desbordes, Jean-R\'emi King, Beno\^it Crabb\'e, Maxime Oquab, Stanislas Dehaene(参考訳) 現代言語学の基本原理の1つは、言語処理は再帰的にネストされた木構造を抽出する能力を必要とすると述べている。 しかし、このコードがニューラルネットワークでどのように実装されるのかは不明だ。 リカレントニューラルネットワーク(RNN)の最近の進歩は、いくつかの言語タスクにおいて、ほぼ人間に近いパフォーマンスを実現している。 本稿では,RNNにおける再帰的処理を研究するための新しい枠組みを提案する。 文の長さと構文木の深さを独立に操作する簡易な確率論的文脈自由文法を用いて6種類のRNNを訓練した。 すべてのRNNは、トレーニング中に見られるものよりも長く、主観的な依存関係に一般化した。 しかし、より深い木構造への体系的な一般化は行われず、ネストした木(スタック-RNN)を学習する構造バイアスを持つものさえもなかった。 また,本研究では,lstm系モデルの一般化パターンにおけるプライマシーとrecency効果を明らかにし,これらのモデルが中央埋め込み木構造の外側と内側でよく機能するが,中間層ではよく機能しないことを示した。 最後に,ネストした木構造を持つ文の処理中にモデルの内部状態を調べることで,文法的合意情報の複雑な符号化(例)を見出した。 複数の単語の名詞の全ての情報が単一の単位によって運ばれた文法的数)。 これらの結果は, 系統的再帰的ルールを学習することなく, ニューラルネットワークが有界なネスト木構造を抽出する方法を示している。

One of the fundamental principles of contemporary linguistics states that language processing requires the ability to extract recursively nested tree structures. However, it remains unclear whether and how this code could be implemented in neural circuits. Recent advances in Recurrent Neural Networks (RNNs), which achieve near-human performance in some language tasks, provide a compelling model to address such questions. Here, we present a new framework to study recursive processing in RNNs, using subject-verb agreement as a probe into the representations of the neural network. We trained six distinct types of RNNs on a simplified probabilistic context-free grammar designed to independently manipulate the length of a sentence and the depth of its syntactic tree. All RNNs generalized to subject-verb dependencies longer than those seen during training. However, none systematically generalized to deeper tree structures, even those with a structural bias towards learning nested tree (i.e., stack-RNNs). In addition, our analyses revealed primacy and recency effects in the generalization patterns of LSTM-based models, showing that these models tend to perform well on the outer- and innermost parts of a center-embedded tree structure, but poorly on its middle levels. Finally, probing the internal states of the model during the processing of sentences with nested tree structures, we found a complex encoding of grammatical agreement information (e.g. grammatical number), in which all the information for multiple words nouns was carried by a single unit. Taken together, these results indicate how neural networks may extract bounded nested tree structures, without learning a systematic recursive rule.
翻訳日:2021-04-11 01:53:02 公開日:2021-01-06
# (参考訳) 遊ばせてくれ ゲーマー! 複雑な現象と決定木を言語的に記述したコンピュータゲームにおけるImitative Learning [全文訳有]

Teach me to play, gamer! Imitative learning in computer games via linguistic description of complex phenomena and decision tree ( http://arxiv.org/abs/2101.02264v1 )

ライセンス: CC BY 4.0
Clemente Rubio-Manzano, Tomas Lermanda, CLaudia Martinez, Alejandra Segura, Christian Vidal(参考訳) 本稿では,複雑な現象の言語的記述に基づく模倣による新しい機械学習モデルを提案する。 このアイデアは、まず、ゲームの実行トレースに基づいて計算知覚ネットワークを作成し、次にファジィ論理(言語変数とif-then規則)を用いてそれを表現することによって、人間のプレイヤーの振る舞いを捉える。 この知識から、一連のデータ(データセット)が自動的に作成され、決定木に基づく学習モデルを生成する。 このモデルは後にボットの動きを自動的に制御するために使われる。 その結果、人間のプレイヤーを模倣する人工エージェントが生まれる。 私たちはこの技術を実装、テスト、評価しました。 その結果,ゲーム開発における知的エージェントの動作を設計・実装する上で,本手法が優れた代替手段となる可能性が示唆された。

In this article, we present a new machine learning model by imitation based on the linguistic description of complex phenomena. The idea consists of, first, capturing the behaviour of human players by creating a computational perception network based on the execution traces of the games and, second, representing it using fuzzy logic (linguistic variables and if-then rules). From this knowledge, a set of data (dataset) is automatically created to generate a learning model based on decision trees. This model will be used later to automatically control the movements of a bot. The result is an artificial agent that mimics the human player. We have implemented, tested and evaluated this technology. The results obtained are interesting and promising, showing that this method can be a good alternative to design and implement the behaviour of intelligent agents in video game development.
翻訳日:2021-04-11 01:47:39 公開日:2021-01-06
# (参考訳) LightLayers:画像分類のためのパラメータ効率の良いDenseと畳み込み層 [全文訳有]

LightLayers: Parameter Efficient Dense and Convolutional Layers for Image Classification ( http://arxiv.org/abs/2101.02268v1 )

ライセンス: CC BY 4.0
Debesh Jha, Anis Yazidi, Michael A. Riegler, Dag Johansen, H{\aa}vard D. Johansen, and P{\aa}l Halvorsen(参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョンや他の多くのパターン認識タスクにおいてデファクトスタンダードになっている。 DNNの重要な欠点は、トレーニングフェーズが非常に計算コストが高いことだ。 最先端のハードウェアを購入したり、クラウドにホストされたインフラストラクチャを利用する余裕のない組織や個人は、トレーニングが完了するまで長い待ち時間に直面したり、モデルをトレーニングできない場合があります。 トレーニング時間を短縮する新しい方法を調査することは、この欠点を緩和し、新しいアルゴリズムとモデルのより迅速な開発を可能にする潜在的な解決策となる。 本稿では,ディープニューラルネットワーク(dnn)における学習可能なパラメータ数を削減する手法であるlightlayersを提案する。 提案された光層はlightdense層とlightconv2d層で構成され、通常のconv2d層と同等の効率だがパラメータは少ない。 我々は,dnnモデルの複雑さを低減し,計算能力の少ない軽量なdnnモデルを実現するため,精度を損なうことなく行列分解を行う。 MNIST、Fashion MNIST、CI-FAR 10、CIFAR 100データセット上でLightLayersをテストしました。 MNIST, Fashion MNIST, CIFAR-10 データセットに対して, CIFAR 100 はパラメータが少なくて許容できる性能を示した。

Deep Neural Networks (DNNs) have become the de-facto standard in computer vision, as well as in many other pattern recognition tasks. A key drawback of DNNs is that the training phase can be very computationally expensive. Organizations or individuals that cannot afford purchasing state-of-the-art hardware or tapping into cloud-hosted infrastructures may face a long waiting time before the training completes or might not be able to train a model at all. Investigating novel ways to reduce the training time could be a potential solution to alleviate this drawback, and thus enabling more rapid development of new algorithms and models. In this paper, we propose LightLayers, a method for reducing the number of trainable parameters in deep neural networks (DNN). The proposed LightLayers consists of LightDense andLightConv2D layer that are as efficient as regular Conv2D and Dense layers, but uses less parameters. We resort to Matrix Factorization to reduce the complexity of the DNN models resulting into lightweight DNNmodels that require less computational power, without much loss in the accuracy. We have tested LightLayers on MNIST, Fashion MNIST, CI-FAR 10, and CIFAR 100 datasets. Promising results are obtained for MNIST, Fashion MNIST, CIFAR-10 datasets whereas CIFAR 100 shows acceptable performance by using fewer parameters.
翻訳日:2021-04-11 01:34:24 公開日:2021-01-06
# (参考訳) クラスウェイト計算における選択表現学習を用いた部分領域適応 [全文訳有]

Partial Domain Adaptation Using Selective Representation Learning For Class-Weight Computation ( http://arxiv.org/abs/2101.02275v1 )

ライセンス: CC BY 4.0
Sandipan Choudhuri, Riti Paul, Arunabha Sen, Baoxin Li, Hemanth Venkateswara(参考訳) ディープラーニングモデルの一般化能力は、リッチラベルデータに依存する。 大規模アノテート情報を用いたこの監視は、データ収集とそのアノテーションが膨大なコストを伴うほとんどの現実のシナリオにおいて制限される。 この分布差を橋渡しする様々なドメイン適応技術が文献に存在している。 しかし、これらのモデルのほとんどは、両方のドメインのラベルセットを同一にする必要がある。 より実践的で困難なシナリオに対処するために、ソースラベルセットがターゲットラベルセットのスーパーセットである部分的なドメイン適応の観点から問題文を定式化する。 本研究は,画像スタイルが各ドメインにプライベートであるという動機から,画像コンテンツ情報からのみ外部クラスを識別し,ソース画像からのクラスコンテンツにのみ依存するラベル分類器を訓練する手法を開発した。 さらに、ソフトクラスレベルの重みを0(外部ソースクラス)と1(共有クラス)の2つのクラスタに変換し、クラスタ間の分散を最大化することにより、ソースドメインにプライベートなクラスからサンプルの負の転送の排除を実現する。

The generalization power of deep-learning models is dependent on rich-labelled data. This supervision using large-scaled annotated information is restrictive in most real-world scenarios where data collection and their annotation involve huge cost. Various domain adaptation techniques exist in literature that bridge this distribution discrepancy. However, a majority of these models require the label sets of both the domains to be identical. To tackle a more practical and challenging scenario, we formulate the problem statement from a partial domain adaptation perspective, where the source label set is a super set of the target label set. Driven by the motivation that image styles are private to each domain, in this work, we develop a method that identifies outlier classes exclusively from image content information and train a label classifier exclusively on class-content from source images. Additionally, elimination of negative transfer of samples from classes private to the source domain is achieved by transforming the soft class-level weights into two clusters, 0 (outlier source classes) and 1 (shared classes) by maximizing the between-cluster variance between them.
翻訳日:2021-04-11 01:24:48 公開日:2021-01-06
# (参考訳) 遅延フィードバックのモデリングにおけるクリック毎の多くの変換処理 [全文訳有]

Handling many conversions per click in modeling delayed feedback ( http://arxiv.org/abs/2101.02284v1 )

ライセンス: CC BY 4.0
Ashwinkumar Badanidiyuru, Andrew Evdokimov, Vinodh Krishnan, Pan Li, Wynn Vonnegut, Jayden Wang(参考訳) クリック後変換(購入やその他のイベント)の期待値や数を予測することは、パフォーマンスベースのデジタル広告において重要なタスクである。 変換オプティマイザモデルのトレーニングにおいて、最も重要な側面の1つは、変換に関して遅延したフィードバックを扱うことである。 このタスクは、広告主ごとに遅延分布が異なり、ロングテールであり、しばしば特定のパラメトリック分布のクラスに従わず、時間とともに変化する可能性があるため、難しい。 3つの中核的なアイデアに基づいた不偏推定モデルを用いて,これらの課題に取り組む。 第1のアイデアは、ラベルを異なる遅延バケットを持つラベルの合計として分割することであり、それぞれのラベルは成熟ラベルのみで、第2のアイデアは温度計エンコーディングを使用して精度を高め、推論コストを削減し、第3のアイデアはモデルの安定性を高め、分布のドリフトを処理するために補助情報を使用することである。

Predicting the expected value or number of post-click conversions (purchases or other events) is a key task in performance-based digital advertising. In training a conversion optimizer model, one of the most crucial aspects is handling delayed feedback with respect to conversions, which can happen multiple times with varying delay. This task is difficult, as the delay distribution is different for each advertiser, is long-tailed, often does not follow any particular class of parametric distributions, and can change over time. We tackle these challenges using an unbiased estimation model based on three core ideas. The first idea is to split the label as a sum of labels with different delay buckets, each of which trains only on mature label, the second is to use thermometer encoding to increase accuracy and reduce inference cost, and the third is to use auxiliary information to increase the stability of the model and to handle drift in the distribution.
翻訳日:2021-04-11 01:17:59 公開日:2021-01-06
# (参考訳) Hyperboost: 勾配ブースティングサロゲートモデルによるハイパーパラメータ最適化 [全文訳有]

Hyperboost: Hyperparameter Optimization by Gradient Boosting surrogate models ( http://arxiv.org/abs/2101.02289v1 )

ライセンス: CC BY 4.0
Jeroen van Hoof, Joaquin Vanschoren(参考訳) Bayesian Optimizationは、自動機械学習(AutoML)システムでアルゴリズムをチューニングするための一般的なツールである。 現在の最先端の手法は、ランダムフォレストやガウス過程を利用して、特定のハイパーパラメータの設定でアルゴリズムのパフォーマンスを予測するサロゲートモデルを構築する。 本稿では,非観測ハイパーパラメータ設定の性能を楽観的に推定し,非観測および観測されたハイパーパラメータ設定間の距離メトリックと組み合わせて探索を規制する,グラデーションブースティングに基づく新しいサーロゲートモデルを提案する。 実験により,新しい手法は,ある程度の分類問題に対して,最先端技術より優れていることを示す。

Bayesian Optimization is a popular tool for tuning algorithms in automatic machine learning (AutoML) systems. Current state-of-the-art methods leverage Random Forests or Gaussian processes to build a surrogate model that predicts algorithm performance given a certain set of hyperparameter settings. In this paper, we propose a new surrogate model based on gradient boosting, where we use quantile regression to provide optimistic estimates of the performance of an unobserved hyperparameter setting, and combine this with a distance metric between unobserved and observed hyperparameter settings to help regulate exploration. We demonstrate empirically that the new method is able to outperform some state-of-the art techniques across a reasonable sized set of classification problems.
翻訳日:2021-04-11 01:05:12 公開日:2021-01-06
# (参考訳) 血小板利用の需要予測:一変量時系列から多変量モデルへ [全文訳有]

Demand Forecasting for Platelet Usage: from Univariate Time Series to Multivariate Models ( http://arxiv.org/abs/2101.02305v1 )

ライセンス: CC BY 4.0
Maryam Motamedi, Na Li, Douglas G. Down and Nancy M. Heddle(参考訳) 血小板製品も高価で、棚の寿命も非常に短い。 血小板の使用率は非常に可変であるため、血小板の需要と供給の効果的な管理は非常に重要であるが困難である。 本研究の目的は,Canadian Blood Services (CBS) における血小板需要の効率的な予測モデルを提供することである。 この目標を達成するために、ARIMA(Auto Regressive moving Average)、Prophet(Prophet)、Lasso regression(Laast absolute shrinkage and selection operator)、LSTM(Long Short-Term Memory)ネットワークの4つの異なる需要予測手法を活用し、評価する。 2010年から2018年までオンタリオ州ハミルトンの4つの病院において, 集中血輸血センターのための大規模臨床データセットを用いて, 製品仕様, 受給者特性, 受験者検査結果などの情報とともに血小板輸血を行った。 本研究は, 統計時系列モデルからデータ駆動回帰まで, 臨床予測器と異なる量のデータを用いた血小板輸血のための機械学習手法を初めて活用したものである。 多変量法は一般に最も精度が高いが、十分なデータが得られれば、ARIMAのようなより単純な時系列法が十分であると考えられる。 また,多変量モデルに対して臨床指標(インプット)を選択するアプローチについてもコメントする。

Platelet products are both expensive and have very short shelf lives. As usage rates for platelets are highly variable, the effective management of platelet demand and supply is very important yet challenging. The primary goal of this paper is to present an efficient forecasting model for platelet demand at Canadian Blood Services (CBS). To accomplish this goal, four different demand forecasting methods, ARIMA (Auto Regressive Moving Average), Prophet, lasso regression (least absolute shrinkage and selection operator) and LSTM (Long Short-Term Memory) networks are utilized and evaluated. We use a large clinical dataset for a centralized blood distribution centre for four hospitals in Hamilton, Ontario, spanning from 2010 to 2018 and consisting of daily platelet transfusions along with information such as the product specifications, the recipients' characteristics, and the recipients' laboratory test results. This study is the first to utilize different methods from statistical time series models to data-driven regression and a machine learning technique for platelet transfusion using clinical predictors and with different amounts of data. We find that the multivariate approaches have the highest accuracy in general, however, if sufficient data are available, a simpler time series approach such as ARIMA appears to be sufficient. We also comment on the approach to choose clinical indicators (inputs) for the multivariate models.
翻訳日:2021-04-11 00:46:04 公開日:2021-01-06
# スケッチを用いたマージオントロジーからの順序埋め込み

Order Embeddings from Merged Ontologies using Sketching ( http://arxiv.org/abs/2101.02158v1 )

ライセンス: Link先を確認
Kenneth L. Clarkson and Sanjana Sahayaraj(参考訳) オントロジーから順序埋め込みを生成するための単純で低リソースのメソッドを与える。 このような埋め込みは単語をベクトルにマッピングし、ハイパーネミーやハイポニーミーのような単語の順序関係を直接的に表現する。 本手法では,スケッチ技法,特にcountsketchを用いて次元の縮小を行う。 また, オントロジー, 特に医学領域におけるマージ手法について検討し, 順序関係を保存した。 我々は,医療オントロジーとwordnetの計算結果を提供し,融合手法が有効であることを示し,汎用領域と特殊領域の両方において正確な表現を与える。

We give a simple, low resource method to produce order embeddings from ontologies. Such embeddings map words to vectors so that order relations on the words, such as hypernymy/hyponymy, are represented in a direct way. Our method uses sketching techniques, in particular countsketch, for dimensionality reduction. We also study methods to merge ontologies, in particular those in medical domains, so that order relations are preserved. We give computational results for medical ontologies and for wordnet, showing that our merging techniques are effective and our embedding yields an accurate representation in both generic and specialised domains.
翻訳日:2021-04-11 00:17:07 公開日:2021-01-06
# マルチモーダル特徴を用いたオンデバイス文書分類

On-Device Document Classification using multimodal features ( http://arxiv.org/abs/2101.01880v1 )

ライセンス: Link先を確認
Sugam Garg, Harichandana and Sumit Kumar(参考訳) 小さなスクリーンショットから大きなビデオまで、文書は現代のスマートフォンのスペースの大部分を占める。 携帯電話の文書は様々な情報源から蓄積でき、携帯のストレージ容量が高いため、数百の文書が短期間に蓄積される。 しかし、ほとんどの検索方法はメタ情報か文書中のテキストのみに依存しているため、文書の検索や管理は厄介な作業である。 本稿では,単一のモダリティで分類が不十分であることを示すとともに,デバイス上で文書を分類する新たなパイプラインを提案することにより,サーバへのプライベートなデータ転送を防止できることを示す。 そこで我々は,OCR(Optical Character Recognition)のためのオープンソースライブラリと,パイプラインに新たなモデルアーキテクチャを統合する。 デバイス上の推論に必要なメトリックであるサイズに対するモデルを最適化する。 この分類モデルを標準のマルチモーダルデータセットfood-101でベンチマークし、30%のモデル圧縮で以前の技術と競合する結果を示す。

From small screenshots to large videos, documents take up a bulk of space in a modern smartphone. Documents in a phone can accumulate from various sources, and with the high storage capacity of mobiles, hundreds of documents are accumulated in a short period. However, searching or managing documents remains an onerous task, since most search methods depend on meta-information or only text in a document. In this paper, we showcase that a single modality is insufficient for classification and present a novel pipeline to classify documents on-device, thus preventing any private user data transfer to server. For this task, we integrate an open-source library for Optical Character Recognition (OCR) and our novel model architecture in the pipeline. We optimise the model for size, a necessary metric for on-device inference. We benchmark our classification model with a standard multimodal dataset FOOD-101 and showcase competitive results with the previous State of the Art with 30% model compression.
翻訳日:2021-04-11 00:16:57 公開日:2021-01-06
# 軍事訓練のための適応型合成文字

Adaptive Synthetic Characters for Military Training ( http://arxiv.org/abs/2101.02185v1 )

ライセンス: Link先を確認
Volkan Ustun, Rajay Kumar, Adam Reilly, Seyed Sajjadi, Andrew Miller(参考訳) 現在の軍事シミュレーションにおける合成文字の挙動は、通常、最小の知性を持つルールベースおよびリアクティブ計算モデルによって生成されるため、限られている。 このような計算モデルはキャラクタの経験を反映することができないため、コストと労働集約的なプロセスによって考案された最も効果的な行動モデルでさえも脆弱な知性をもたらす。 機械学習と合成エンティティの経験を適切な事前知識と組み合わせた観察に基づく行動モデル適応は、既存の計算行動モデルの問題に対処し、軍事訓練シミュレーションにおけるより良いトレーニングエクスペリエンスを生み出すことができる。 本稿では,人間の学習者とそのニーズを学習シミュレーションで認識しながら,信頼できる行動のコヒーレントなシーケンスを実行できる自律的な合成文字を作成することを目的とした枠組みを提案する。 このフレームワークは、3つの相互補完的なコンポーネントをまとめる。 最初のコンポーネントはUnityベースのシミュレーション環境である。Rapid Integration and Development Environment(RIDE)はOne World Terrain(OWT)モデルをサポートし、機械学習実験を実行およびサポートすることができる。 2つ目は、様々なシミュレーション環境とインターフェースし、さらに様々な学習アルゴリズムを活用できる、新しいマルチエージェント強化および模倣学習フレームワークであるshivaである。 最後のコンポーネントであるSigma Cognitive Architectureは、象徴的で確率論的推論能力を備えた行動モデルを強化するものだ。 我々は、このフレームワークを現実的な地形上で活用し、機械学習を軍事シミュレーションに持ち込むための重要なステップとして、概念実証行動モデルの作成に成功した。

Behaviors of the synthetic characters in current military simulations are limited since they are generally generated by rule-based and reactive computational models with minimal intelligence. Such computational models cannot adapt to reflect the experience of the characters, resulting in brittle intelligence for even the most effective behavior models devised via costly and labor-intensive processes. Observation-based behavior model adaptation that leverages machine learning and the experience of synthetic entities in combination with appropriate prior knowledge can address the issues in the existing computational behavior models to create a better training experience in military training simulations. In this paper, we introduce a framework that aims to create autonomous synthetic characters that can perform coherent sequences of believable behavior while being aware of human trainees and their needs within a training simulation. This framework brings together three mutually complementary components. The first component is a Unity-based simulation environment - Rapid Integration and Development Environment (RIDE) - supporting One World Terrain (OWT) models and capable of running and supporting machine learning experiments. The second is Shiva, a novel multi-agent reinforcement and imitation learning framework that can interface with a variety of simulation environments, and that can additionally utilize a variety of learning algorithms. The final component is the Sigma Cognitive Architecture that will augment the behavior models with symbolic and probabilistic reasoning capabilities. We have successfully created proof-of-concept behavior models leveraging this framework on realistic terrain as an essential step towards bringing machine learning into military simulations.
翻訳日:2021-04-11 00:16:42 公開日:2021-01-06
# シミュレーションにおける合成文字の制御:認知アーキテクチャとシグマの場合

Controlling Synthetic Characters in Simulations: A Case for Cognitive Architectures and Sigma ( http://arxiv.org/abs/2101.02231v1 )

ライセンス: Link先を確認
Volkan Ustun, Paul S. Rosenbloom, Seyed Sajjadi, Jeremy Nuttal(参考訳) シミュレーションは、仮想世界やビデオゲームのような類似のアプリケーションと同様に、相互作用する合成文字に対して現実的で信頼できる振る舞いを生成する知性の計算モデルを必要とする。 認知的アーキテクチャ(cognitive architecture)は、自然系と人工系の両方における知的行動の基盤となる固定された構造のモデルであり、心の標準的なモデルに向けた現在の取り組みで証明されているように、概念的に有効な共通基盤を提供し、これらの合成文字に対して人間のような知的行動を生成する。 Sigmaは認知アーキテクチャとシステムであり、象徴的認知アーキテクチャ、確率的グラフィカルモデル、そしてより最近のニューラルモデルに関する40年間にわたる独立した研究から学んだことを、グラフィカルアーキテクチャ仮説の下で組み合わせようとしている。 シグマは、従来の認知能力だけでなく、重要な非認知的側面の統一化に向けて、因子グラフの拡張形式を活用し、認知的、自律的、対話的、感情的、適応的な新しい種類の認知モデルを構築するためのユニークな機会を生み出している。 In this paper, we will introduce Sigma along with its diverse capabilities and then use three distinct proof-of-concept Sigma models to highlight combinations of these capabilities: (1) Distributional reinforcement learning models in; (2) A pair of adaptive and interactive agent models that demonstrate rule-based, probabilistic, and social reasoning; and (3) A knowledge-free exploration model in which an agent leverages only architectural appraisal variables, namely attention and curiosity, to locate an item while building up a map in a Unity environment.

Simulations, along with other similar applications like virtual worlds and video games, require computational models of intelligence that generate realistic and credible behavior for the participating synthetic characters. Cognitive architectures, which are models of the fixed structure underlying intelligent behavior in both natural and artificial systems, provide a conceptually valid common basis, as evidenced by the current efforts towards a standard model of the mind, to generate human-like intelligent behavior for these synthetic characters. Sigma is a cognitive architecture and system that strives to combine what has been learned from four decades of independent work on symbolic cognitive architectures, probabilistic graphical models, and more recently neural models, under its graphical architecture hypothesis. Sigma leverages an extended form of factor graphs towards a uniform grand unification of not only traditional cognitive capabilities but also key non-cognitive aspects, creating unique opportunities for the construction of new kinds of cognitive models that possess a Theory-of-Mind and that are perceptual, autonomous, interactive, affective, and adaptive. In this paper, we will introduce Sigma along with its diverse capabilities and then use three distinct proof-of-concept Sigma models to highlight combinations of these capabilities: (1) Distributional reinforcement learning models in; (2) A pair of adaptive and interactive agent models that demonstrate rule-based, probabilistic, and social reasoning; and (3) A knowledge-free exploration model in which an agent leverages only architectural appraisal variables, namely attention and curiosity, to locate an item while building up a map in a Unity environment.
翻訳日:2021-04-11 00:16:18 公開日:2021-01-06
# 時系列深層学習モデルの水文学におけるデータ相乗効果

The data synergy effects of time-series deep learning models in hydrology ( http://arxiv.org/abs/2101.01876v1 )

ライセンス: Link先を確認
Kuai Fang, Daniel Kifer, Kathryn Lawson, Dapeng Feng, Chaopeng Shen(参考訳) 水文学のような地球科学的分野の変数に統計モデルを適用する場合、大きな空間領域を複数の領域に分割し、データ全体(統一とも呼ばれる)に単一のモデルを適用する代わりに各領域を別々に研究することが慣例である。 これらの分野における伝統的な知恵は、各領域に別々に構築されたモデルは、各領域内の均質性のため、より高いパフォーマンスをもたらすことを示唆している。 しかし、トレーニングデータを分割することで、各モデルはより少ないデータポイントにアクセスでき、リージョン間の共通点から学べない。 ここでは,2つの水文学的な例(土壌水分と流水)を通して,ビッグデータとディープラーニング(DL)の時代において,統一が地域化を著しく上回っていることを論じる。 共通dlアーキテクチャは、個別のカスタマイズなしでも、地域固有の差異を正確に学習しながら、地域共通性から利益を得るモデルを自動的に構築することができる。 我々は、データシナジー(data synergy)と呼ばれる効果を強調し、特徴のある異なる領域からデータをプールすると、DLモデルの結果が改善された。 実際、DLモデルの性能は、均質なトレーニングデータよりも、より多様なデータから恩恵を受けている。 我々は、dlモデルがモデルに十分な識別情報を提供しながら、共通性を特定するために自動的に内部表現を調整することを仮定する。 この結果は、より大きなデータセットをまとめることを提案し、学術コミュニティはデータ共有とコンパイルにもっと重点を置くべきであることを示唆している。

When fitting statistical models to variables in geoscientific disciplines such as hydrology, it is a customary practice to regionalize - to divide a large spatial domain into multiple regions and study each region separately - instead of fitting a single model on the entire data (also known as unification). Traditional wisdom in these fields suggests that models built for each region separately will have higher performance because of homogeneity within each region. However, by partitioning the training data, each model has access to fewer data points and cannot learn from commonalities between regions. Here, through two hydrologic examples (soil moisture and streamflow), we argue that unification can often significantly outperform regionalization in the era of big data and deep learning (DL). Common DL architectures, even without bespoke customization, can automatically build models that benefit from regional commonality while accurately learning region-specific differences. We highlight an effect we call data synergy, where the results of the DL models improved when data were pooled together from characteristically different regions. In fact, the performance of the DL models benefited from more diverse rather than more homogeneous training data. We hypothesize that DL models automatically adjust their internal representations to identify commonalities while also providing sufficient discriminatory information to the model. The results here advocate for pooling together larger datasets, and suggest the academic community should place greater emphasis on data sharing and compilation.
翻訳日:2021-04-11 00:15:30 公開日:2021-01-06
# 連続最適輸送の公正性

Fairness with Continuous Optimal Transport ( http://arxiv.org/abs/2101.02084v1 )

ライセンス: Link先を確認
Silvia Chiappa and Aldo Pacchiano(参考訳) 最適輸送(OT)は、公平性問題に対処するための強力で柔軟なアプローチとして認識されつつあるが、現在のOTフェアネス法は離散OTの使用に限られている。 本稿では, OT文献の最近の進歩を活用し, 連続OTの二重定式化に基づく確率階調法を導入する。 本手法は,データが少ない場合には離散OT法よりも優れた性能を示し,それ以外は同様の性能を示す。 また、連続的および離散的なOT法は、MLシステムの現実的な応用において起こりうる様々な不公平なレベルに適応するために、モデルパラメータを継続的に調整できることを示す。

Whilst optimal transport (OT) is increasingly being recognized as a powerful and flexible approach for dealing with fairness issues, current OT fairness methods are confined to the use of discrete OT. In this paper, we leverage recent advances from the OT literature to introduce a stochastic-gradient fairness method based on a dual formulation of continuous OT. We show that this method gives superior performance to discrete OT methods when little data is available to solve the OT problem, and similar performance otherwise. We also show that both continuous and discrete OT methods are able to continually adjust the model parameters to adapt to different levels of unfairness that might occur in real-world applications of ML systems.
翻訳日:2021-04-11 00:15:07 公開日:2021-01-06
# 時系列予測にはディープラーニングモデルが必要なのでしょうか?

Do We Really Need Deep Learning Models for Time Series Forecasting? ( http://arxiv.org/abs/2101.02118v1 )

ライセンス: Link先を確認
Shereen Elsayed, Daniela Thyssens, Ahmed Rashed, Lars Schmidt-Thieme and Hadi Samer Jomaa(参考訳) 時系列予測は、電力消費量、交通量、空気品質の予測に限らず、幅広い応用があるため、機械学習において重要なタスクである。 従来の予測モデルは、ローリング平均、ベクトル自動回帰、自動回帰統合移動平均に依存していた。 一方で、より競争力のあるパフォーマンスで同じ問題に取り組むために、ディープラーニングとマトリックス分解モデルが最近提案されている。 しかし、そのようなモデルの大きな欠点は、従来の手法に比べて複雑すぎる傾向があることである。 本稿では,これらの高度に複雑なディープラーニングモデルが代替手段がないかどうかを問う。 我々は,時系列予測のための勾配ブースティング回帰木を再検討することにより,単純かつ強力なベースラインのプールを強化することを目的とする。 具体的には、ディープラーニングモデルに類似したウィンドウ方式で、勾配木ブースティングモデルによる時系列データの扱い方を再設定する。 トレーニングウィンドウ毎に、ターゲット値は外部特徴と連結され、フラット化されて、マルチ出力勾配向上回帰ツリーモデルのための1つの入力インスタンスを形成する。 我々は過去数年間にトップレベルのカンファレンスで発表された8つの最先端ディープラーニングモデルに対する9つのデータセットの比較研究を行った。 その結果,提案手法は最先端モデルに匹敵することがわかった。

Time series forecasting is a crucial task in machine learning, as it has a wide range of applications including but not limited to forecasting electricity consumption, traffic, and air quality. Traditional forecasting models relied on rolling averages, vector auto-regression and auto-regressive integrated moving averages. On the other hand, deep learning and matrix factorization models have been recently proposed to tackle the same problem with more competitive performance. However, one major drawback of such models is that they tend to be overly complex in comparison to traditional techniques. In this paper, we try to answer whether these highly complex deep learning models are without alternative. We aim to enrich the pool of simple but powerful baselines by revisiting the gradient boosting regression trees for time series forecasting. Specifically, we reconfigure the way time series data is handled by Gradient Tree Boosting models in a windowed fashion that is similar to the deep learning models. For each training window, the target values are concatenated with external features, and then flattened to form one input instance for a multi-output gradient boosting regression tree model. We conducted a comparative study on nine datasets for eight state-of-the-art deep-learning models that were presented at top-level conferences in the last years. The results demonstrated that the proposed approach outperforms all of the state-of-the-art models.
翻訳日:2021-04-11 00:14:54 公開日:2021-01-06
# TGCN:マルチオブジェクト追跡のための時間領域グラフ畳み込みネットワーク

TGCN: Time Domain Graph Convolutional Network for Multiple Objects Tracking ( http://arxiv.org/abs/2101.01861v1 )

ライセンス: Link先を確認
Jie Zhang(参考訳) 複数のオブジェクト追跡は、ビデオ内の各オブジェクトにIDを与える。 難しいのは、予測されたオブジェクトと検出されたオブジェクトを同じフレームでマッチングする方法だ。 マッチング機能には、外観機能、位置情報機能などが含まれる。 予測対象のこれらの特徴は、基本的には以前のフレームに基づいている。 However, few papers describe the relationship in the time domain between the previous frame features and the current frame features.In this paper, we proposed a time domain graph convolutional network for multiple objects tracking.The model is mainly divided into two parts, we first use convolutional neural network (CNN) to extract pedestrian appearance feature, which is a normal operation processing image in deep learning, then we use GCN to model some past frames' appearance feature to get the prediction appearance feature of the current frame. この拡張により、過去のいくつかのフレーム間の関係に応じて、現在のフレームのポーズ特徴を得ることができる。 実験評価の結果,mot16ではmotaが1.3倍向上し,高いフレームレートで性能が向上した。

Multiple object tracking is to give each object an id in the video. The difficulty is how to match the predicted objects and detected objects in same frames. Matching features include appearance features, location features, etc. These features of the predicted object are basically based on some previous frames. However, few papers describe the relationship in the time domain between the previous frame features and the current frame features.In this paper, we proposed a time domain graph convolutional network for multiple objects tracking.The model is mainly divided into two parts, we first use convolutional neural network (CNN) to extract pedestrian appearance feature, which is a normal operation processing image in deep learning, then we use GCN to model some past frames' appearance feature to get the prediction appearance feature of the current frame. Due to this extension, we can get the pose features of the current frame according to the relationship between some frames in the past. Experimental evaluation shows that our extensions improve the MOTA by 1.3 on the MOT16, achieving overall competitive performance at high frame rates.
翻訳日:2021-04-11 00:14:36 公開日:2021-01-06
# モダリティ特異的蒸留

Modality-specific Distillation ( http://arxiv.org/abs/2101.01881v1 )

ライセンス: Link先を確認
Woojeong Jin, Maziar Sanjabi, Shaoliang Nie, Liang Tan, Xiang Ren, Hamed Firooz(参考訳) 大きなニューラルネットワークは、計算コストと推論の遅いため、モバイルデバイスにデプロイすることができない。 知識蒸留(KD)は、大きな「教師」モデルからより小さな「学生」モデルに知識を移すことにより、性能を維持しながら、モデルサイズを縮小する技術である。 しかし、視覚言語データセットのようなマルチモーダルデータセット上のKDは、比較的未探索であり、異なるモーダルが異なるタイプの情報を示すため、そのようなマルチモーダル情報の消化は困難である。 本稿では,マルチモーダルデータセット上で教師からの知識を効果的に伝達するための,モーダル比蒸留(MSD)を提案する。 既存のKDアプローチはマルチモーダル設定に適用できるが、学生はモダリティ固有の予測にアクセスできない。 本研究の目的は,教師のモダリティに特有の予測を模倣し,各モダリティに補助的損失項を導入することである。 それぞれのモダリティは予測に異なる重要性を持っているため、補助的損失に対する重み付けアプローチ(メタラーニングアプローチ)を提案し、これらの損失項の最適重み付けを学習する。 実験では,msdの有効性と重み付け方式を実証し,kdよりも優れた性能が得られることを示す。

Large neural networks are impractical to deploy on mobile devices due to their heavy computational cost and slow inference. Knowledge distillation (KD) is a technique to reduce the model size while retaining performance by transferring knowledge from a large "teacher" model to a smaller "student" model. However, KD on multimodal datasets such as vision-language datasets is relatively unexplored and digesting such multimodal information is challenging since different modalities present different types of information. In this paper, we propose modality-specific distillation (MSD) to effectively transfer knowledge from a teacher on multimodal datasets. Existing KD approaches can be applied to multimodal setup, but a student doesn't have access to modality-specific predictions. Our idea aims at mimicking a teacher's modality-specific predictions by introducing an auxiliary loss term for each modality. Because each modality has different importance for predictions, we also propose weighting approaches for the auxiliary losses; a meta-learning approach to learn the optimal weights on these loss terms. In our experiments, we demonstrate the effectiveness of our MSD and the weighting scheme and show that it achieves better performance than KD.
翻訳日:2021-04-11 00:14:24 公開日:2021-01-06
# リモートセンシングデータと機械学習を用いた森林火災の予測

Predicting Forest Fire Using Remote Sensing Data And Machine Learning ( http://arxiv.org/abs/2101.01975v1 )

ライセンス: Link先を確認
Suwei Yang, Massimo Lupascu, Kuldeep S. Meel(参考訳) 過去数十年間、森林破壊と気候変動により森林火災が増加している。 東南アジアでは、インドネシアは熱帯の泥炭林の森林火災で最も影響を受けた国である。 これらの火災は気候に大きな影響を与え、広範な健康、社会、経済問題を引き起こしている。 カナダ森林火災警報システムのような既存の森林火災予報システムは、手作りの特徴に基づいており、高額の機器を地上に設置し、メンテナンスする必要があるため、インドネシアのような発展途上国では困難である。 インドネシアの森林火災を予測するためにリモートセンシングデータを用いた,費用対効果の高い機械学習に基づく新しいアプローチを提案する。 我々の予測モデルは、受信演算子特性(ROC)曲線の下で0.81以上の領域を達成し、同じタスクにおいてROC曲線下で0.70を超えることのないベースラインアプローチよりも大幅に向上する。 モデルの性能は, ROC曲線下0.81領域に留まり, 縮小したデータで評価した。 その結果,機械学習に基づくアプローチが森林火災予測システムに信頼性と費用対効果をもたらす可能性が示唆された。

Over the last few decades, deforestation and climate change have caused increasing number of forest fires. In Southeast Asia, Indonesia has been the most affected country by tropical peatland forest fires. These fires have a significant impact on the climate resulting in extensive health, social and economic issues. Existing forest fire prediction systems, such as the Canadian Forest Fire Danger Rating System, are based on handcrafted features and require installation and maintenance of expensive instruments on the ground, which can be a challenge for developing countries such as Indonesia. We propose a novel, cost-effective, machine-learning based approach that uses remote sensing data to predict forest fires in Indonesia. Our prediction model achieves more than 0.81 area under the receiver operator characteristic (ROC) curve, performing significantly better than the baseline approach which never exceeds 0.70 area under ROC curve on the same tasks. Our model's performance remained above 0.81 area under ROC curve even when evaluated with reduced data. The results support our claim that machine-learning based approaches can lead to reliable and cost-effective forest fire prediction systems.
翻訳日:2021-04-11 00:14:05 公開日:2021-01-06
# アナログ計算と合成勾配による設計による対向ロバスト性

Adversarial Robustness by Design through Analog Computing and Synthetic Gradients ( http://arxiv.org/abs/2101.02115v1 )

ライセンス: Link先を確認
Alessandro Cappelli, Ruben Ohana, Julien Launay, Laurent Meunier, Iacopo Poli, Florent Krzakala(参考訳) 我々は,光コプロセッサにインスパイアされた敵攻撃に対する新たな防御機構を提案し,ホワイトボックスとブラックボックスの両方の設定において,自然な精度を損なうことなく堅牢性を実現する。 このハードウェアコプロセッサは、パラメータが未知であり、十分な寸法の十分な精度で取得できない非線形固定ランダム変換を実行する。 ホワイトボックス設定では、我々の防御はランダム投影のパラメータを難読化することで機能する。 難読化勾配に依存する他の防御法とは異なり、難読化パラメータに対する信頼できる後方微分可能な近似を構築することはできない。 さらに, ハイブリッドバックプロパゲーション-合成勾配法では, モデルが良好な自然精度に達する一方で, 逆例生成に使用する場合も同様のアプローチが最適である。 光学系におけるランダムプロジェクションとバイナライゼーションの組み合わせにより、様々な種類のブラックボックス攻撃に対するロバスト性も向上する。 最後に,当社のハイブリッドトレーニング手法は,転送攻撃に対する堅牢な機能を構築する。 我々は,CIFAR-10 と CIFAR-100 上に,VGG ライクなアーキテクチャを配置し,CIFAR-10 と CIFAR-100 コードはhttps://github.com/l ightonai/adversarial -robustness-by-desig nで入手できる。

We propose a new defense mechanism against adversarial attacks inspired by an optical co-processor, providing robustness without compromising natural accuracy in both white-box and black-box settings. This hardware co-processor performs a nonlinear fixed random transformation, where the parameters are unknown and impossible to retrieve with sufficient precision for large enough dimensions. In the white-box setting, our defense works by obfuscating the parameters of the random projection. Unlike other defenses relying on obfuscated gradients, we find we are unable to build a reliable backward differentiable approximation for obfuscated parameters. Moreover, while our model reaches a good natural accuracy with a hybrid backpropagation - synthetic gradient method, the same approach is suboptimal if employed to generate adversarial examples. We find the combination of a random projection and binarization in the optical system also improves robustness against various types of black-box attacks. Finally, our hybrid training method builds robust features against transfer attacks. We demonstrate our approach on a VGG-like architecture, placing the defense on top of the convolutional features, on CIFAR-10 and CIFAR-100. Code is available at https://github.com/l ightonai/adversarial -robustness-by-desig n.
翻訳日:2021-04-11 00:13:50 公開日:2021-01-06
# シングルショットマルチタスク歩行者検出と行動予測

Single Shot Multitask Pedestrian Detection and Behavior Prediction ( http://arxiv.org/abs/2101.02232v1 )

ライセンス: Link先を確認
Prateek Agrawal and Pratik Prabhanjan Brahma(参考訳) 歩行者の行動を検知し、予測することは、自動運転車が安全に計画し、対話する上で極めて重要である。 この分野にはいくつかの研究があるが、高速でメモリ効率の良いモデルを持つことは重要である。 本研究では,空間的時間的マルチタスクによる歩行者検出と意図予測を行う新しいアーキテクチャを提案する。 提案手法は,すべての歩行者の意図を単一ショットで検出・予測できると同時に,関連するオブジェクトレベルの情報やインタラクションで特徴を共有することで,より正確な精度を実現することによって,遅延を著しく低減する。

Detecting and predicting the behavior of pedestrians is extremely crucial for self-driving vehicles to plan and interact with them safely. Although there have been several research works in this area, it is important to have fast and memory efficient models such that it can operate in embedded hardware in these autonomous machines. In this work, we propose a novel architecture using spatial-temporal multi-tasking to do camera based pedestrian detection and intention prediction. Our approach significantly reduces the latency by being able to detect and predict all pedestrians' intention in a single shot manner while also being able to attain better accuracy by sharing features with relevant object level information and interactions.
翻訳日:2021-04-11 00:12:48 公開日:2021-01-06
# 量子インスパイアされた体験リプレイによる深層強化学習

Deep Reinforcement Learning with Quantum-inspired Experience Replay ( http://arxiv.org/abs/2101.02034v1 )

ライセンス: Link先を確認
Qing Wei, Hailan Ma, Chunlin Chen, Daoyi Dong(参考訳) 本稿では,経験的リプレイを伴う深部強化学習(DRL)のために,量子計算にインスパイアされた新しいトレーニングパラダイムを提案する。 DRLの従来の経験リプレイ機構とは対照的に、量子インスパイアされた経験リプレイ(DRL-QER)を用いた深層強化学習では、各経験の複雑さと再生時間(遷移とも呼ばれる)に応じて、リプレイバッファから経験を適応的に選択し、探索と搾取のバランスをとる。 DRL-QERでは、遷移をまず量子表現で定式化し、その遷移に対して準備操作と減価演算を行う。 この過程では, 時間差誤差(TDエラー)と経験の重要性との関係を反映し, 減価償却操作を考慮し, 遷移の多様性を確保する。 Atari 2600ゲームにおける実験結果から、DRL-QERはDRL-PERやDCRLといった最先端のアルゴリズムよりも訓練効率が向上し、ダブルネットワークやデュエルネットワークといったメモリベースのDRLアプローチにも適用可能であることが示された。

In this paper, a novel training paradigm inspired by quantum computation is proposed for deep reinforcement learning (DRL) with experience replay. In contrast to traditional experience replay mechanism in DRL, the proposed deep reinforcement learning with quantum-inspired experience replay (DRL-QER) adaptively chooses experiences from the replay buffer according to the complexity and the replayed times of each experience (also called transition), to achieve a balance between exploration and exploitation. In DRL-QER, transitions are first formulated in quantum representations, and then the preparation operation and the depreciation operation are performed on the transitions. In this progress, the preparation operation reflects the relationship between the temporal difference errors (TD-errors) and the importance of the experiences, while the depreciation operation is taken into account to ensure the diversity of the transitions. The experimental results on Atari 2600 games show that DRL-QER outperforms state-of-the-art algorithms such as DRL-PER and DCRL on most of these games with improved training efficiency, and is also applicable to such memory-based DRL approaches as double network and dueling network.
翻訳日:2021-04-11 00:12:38 公開日:2021-01-06
# ランダム化ニューラルネットワークのクロスバリデーションと不確実性判定とモバイルセンサへの応用

Cross-Validation and Uncertainty Determination for Randomized Neural Networks with Applications to Mobile Sensors ( http://arxiv.org/abs/2101.01990v1 )

ライセンス: Link先を確認
Ansgar Steland and Bart E. Pieters(参考訳) 極端学習マシンのようなランダム化された人工ニューラルネットワークは、限られたコンピュータリソースとグリーン機械学習の下で教師付き学習を行うための魅力的で効率的な方法を提供する。 これは、モバイルデバイス(センサー)に弱い人工知能を装備する際に特に当てはまる。 このようなネットワークと回帰手法による教師あり学習について,一般化と予測誤差の整合性および境界性の観点から考察した。 特に,センサを移動させて非定常かつ依存的なサンプルに導くデータを用いて,最近の研究成果をレビューした。 ランダム化されたネットワークがサンプル外性能のランダム化に繋がるので、ランダム性に対処し、サンプル外性能を改善するためのクロスバリデーション手法を検討する。 さらに, 2段階推定に基づいて, 平均外乱予測誤差に対する信頼区間の観点から, 結果の不確かさを計算的に効率的に判定する手法について議論した。 本手法は車両統合太陽光発電における予測問題に適用される。

Randomized artificial neural networks such as extreme learning machines provide an attractive and efficient method for supervised learning under limited computing ressources and green machine learning. This especially applies when equipping mobile devices (sensors) with weak artificial intelligence. Results are discussed about supervised learning with such networks and regression methods in terms of consistency and bounds for the generalization and prediction error. Especially, some recent results are reviewed addressing learning with data sampled by moving sensors leading to non-stationary and dependent samples. As randomized networks lead to random out-of-sample performance measures, we study a cross-validation approach to handle the randomness and make use of it to improve out-of-sample performance. Additionally, a computationally efficient approach to determine the resulting uncertainty in terms of a confidence interval for the mean out-of-sample prediction error is discussed based on two-stage estimation. The approach is applied to a prediction problem arising in vehicle integrated photovoltaics.
翻訳日:2021-04-11 00:11:53 公開日:2021-01-06
# 密度比推定を用いた教師なし表現学習の統一的視点:相互情報、非線形ICAおよび非線形部分空間推定の最大化

A unified view for unsupervised representation learning with density ratio estimation: Maximization of mutual information, nonlinear ICA and nonlinear subspace estimation ( http://arxiv.org/abs/2101.02083v1 )

ライセンス: Link先を確認
Hiroaki Sasaki and Takashi Takenouchi(参考訳) 教師なし表現学習は機械学習における最も重要な問題の1つである。 最近の有望な手法は対照的な学習に基づいている。 しかし、対照的な学習はしばしばヒューリスティックな考えに依存しているため、対照的な学習が何をしているのかを理解することは容易ではない。 本稿では,教師なし表現学習の有望な目標は密度比推定であり,コントラスト学習への理解を促進することを強調する。 本稿では,非教師なし表現学習のための3つの枠組み,すなわち相互情報の最大化(mi),非線形独立成分分析(ica),および低次元非線形部分空間推定のための新しい枠組みを理論的に示すことを目的とする。 この統合された視点は、比較学習がMIの最大化、非線形ICAの実行、あるいは提案フレームワークの低次元非線形部分空間の推定などとみなすことができる条件下で明らかにする。 さらに,各フレームワークの理論的貢献も行う: 特定の条件下での密度比推定によりMIを最大化できることを示す一方,非線形ICA解析では,数値実験で明らかに支持されている潜伏成分の回収に関する新たな知見を明らかにする。 さらに,提案フレームワークの非線形部分空間を推定する理論条件も確立されている。 統一的な視点から、密度比推定による教師なし表現学習のための2つの実践的手法を提案し、第1の方法は、表現学習のためのアウトリー・ロバスト法であり、第2の方法は、サンプリング効率のよい非線形ICA法である。 最後に,非線形icaにおける提案手法の有用性を数値的に示し,下流課題の分類への応用を行った。

Unsupervised representation learning is one of the most important problems in machine learning. Recent promising methods are based on contrastive learning. However, contrastive learning often relies on heuristic ideas, and therefore it is not easy to understand what contrastive learning is doing. This paper emphasizes that density ratio estimation is a promising goal for unsupervised representation learning, and promotes understanding to contrastive learning. Our primal contribution is to theoretically show that density ratio estimation unifies three frameworks for unsupervised representation learning: Maximization of mutual information (MI), nonlinear independent component analysis (ICA) and a novel framework for estimation of a lower-dimensional nonlinear subspace proposed in this paper. This unified view clarifies under what conditions contrastive learning can be regarded as maximizing MI, performing nonlinear ICA or estimating the lower-dimensional nonlinear subspace in the proposed framework. Furthermore, we also make theoretical contributions in each of the three frameworks: We show that MI can be maximized through density ratio estimation under certain conditions, while our analysis for nonlinear ICA reveals a novel insight for recovery of the latent source components, which is clearly supported by numerical experiments. In addition, some theoretical conditions are also established to estimate a nonlinear subspace in the proposed framework. Based on the unified view, we propose two practical methods for unsupervised representation learning through density ratio estimation: The first method is an outlier-robust method for representation learning, while the second one is a sample-efficient nonlinear ICA method. Finally, we numerically demonstrate usefulness of the proposed methods in nonlinear ICA and through application to a downstream task for classification.
翻訳日:2021-04-11 00:11:41 公開日:2021-01-06
# アンサッツ表現性と勾配マグニチュードおよび不毛高原の連結

Connecting ansatz expressibility to gradient magnitudes and barren plateaus ( http://arxiv.org/abs/2101.02138v1 )

ライセンス: Link先を確認
Zo\"e Holmes, Kunal Sharma, M. Cerezo, Patrick J. Coles(参考訳) パラメータ化量子回路は変分問題を解くための ans\"{a}tze として機能し、短期量子コンピュータをプログラミングするための柔軟なパラダイムを提供する。 理想的には、そのような ans\"{a}tze は、所望の解の近接近似にアクセスできるように高度に表現的であるべきである。 一方、アンザッツはトレーニングを可能にする十分な大きな勾配を持つ必要がある。 ここで、これらの2つの重要な特性、表現可能性と訓練可能性の基本的な関係を導出する。 これは、正確な2-設計を形成する ans\"{a}tze を任意の ans\"{a}tze に持つ、確立された不毛台地現象を拡張することによって行われる。 具体的には,アンサッツの表現性の観点から,コスト勾配のばらつきを2設計からの距離で算出する。 結果として得られた境界は、非常に表現力の高い ans\"{a}tze がよりフラットなコストランドスケープを示し、したがって訓練が困難になることを示している。 さらに,表現度が勾配スケーリングに与える影響を示す数値を提示し,不毛高原を回避するための戦略設計の意義について考察する。

Parameterized quantum circuits serve as ans\"{a}tze for solving variational problems and provide a flexible paradigm for programming near-term quantum computers. Ideally, such ans\"{a}tze should be highly expressive so that a close approximation of the desired solution can be accessed. On the other hand, the ansatz must also have sufficiently large gradients to allow for training. Here, we derive a fundamental relationship between these two essential properties: expressibility and trainability. This is done by extending the well established barren plateau phenomenon, which holds for ans\"{a}tze that form exact 2-designs, to arbitrary ans\"{a}tze. Specifically, we calculate the variance in the cost gradient in terms of the expressibility of the ansatz, as measured by its distance from being a 2-design. Our resulting bounds indicate that highly expressive ans\"{a}tze exhibit flatter cost landscapes and therefore will be harder to train. Furthermore, we provide numerics illustrating the effect of expressiblity on gradient scalings, and we discuss the implications for designing strategies to avoid barren plateaus.
翻訳日:2021-04-11 00:11:13 公開日:2021-01-06
# 適応性制約下における線形関数近似による効率的強化学習

Provably Efficient Reinforcement Learning with Linear Function Approximation Under Adaptivity Constraints ( http://arxiv.org/abs/2101.02195v1 )

ライセンス: Link先を確認
Tianhao Wang and Dongruo Zhou and Quanquan Gu(参考訳) 適応性制約の下で線形関数近似を用いた強化学習(RL)について検討した。 バッチ学習モデルとレアポリシースイッチモデルという2つの一般的な限定適応モデルを検討し,線形マルコフ決定プロセスに対する2つの効率的なオンラインrlアルゴリズムを提案する。 具体的には、バッチ学習モデルに対して、提案したLSVI-UCB-Batchアルゴリズムは、$\tilde O(\sqrt{d^3H^3T} + dHT/B)$ regret, where $d$ is the dimension of the feature mapping, $H$ is the episode length, $T$ is the number of interaction and $B$ is the number of batches。 その結果、$\sqrt{t/dh}$バッチのみを使用して$\tilde o(\sqrt{d^3h^3t})$ regretを得ることができた。 希少なポリシースイッチモデルでは、LSVI-UCB-RareSwitchアルゴリズムは、$\tilde O(\sqrt{d^3H^3T[1+T/(dH)]^{dH/B}})を後悔し、$dH\log T$ポリシースイッチは$\tilde O(\sqrt{d^3H^3T})を後悔する。 我々のアルゴリズムはLSVI-UCBアルゴリズム(Jin et al., 2019)と同じ残念な結果を得るが、適応性はかなり小さい。

We study reinforcement learning (RL) with linear function approximation under the adaptivity constraint. We consider two popular limited adaptivity models: batch learning model and rare policy switch model, and propose two efficient online RL algorithms for linear Markov decision processes. In specific, for the batch learning model, our proposed LSVI-UCB-Batch algorithm achieves an $\tilde O(\sqrt{d^3H^3T} + dHT/B)$ regret, where $d$ is the dimension of the feature mapping, $H$ is the episode length, $T$ is the number of interactions and $B$ is the number of batches. Our result suggests that it suffices to use only $\sqrt{T/dH}$ batches to obtain $\tilde O(\sqrt{d^3H^3T})$ regret. For the rare policy switch model, our proposed LSVI-UCB-RareSwitch algorithm enjoys an $\tilde O(\sqrt{d^3H^3T[1+T/(dH)]^{dH/B}})$ regret, which implies that $dH\log T$ policy switches suffice to obtain the $\tilde O(\sqrt{d^3H^3T})$ regret. Our algorithms achieve the same regret as the LSVI-UCB algorithm (Jin et al., 2019), yet with a substantially smaller amount of adaptivity.
翻訳日:2021-04-11 00:10:53 公開日:2021-01-06
# ジョイント2d-3d学習による屋外地形マッピングのための空中画像からのメッシュ再構成

Mesh Reconstruction from Aerial Images for Outdoor Terrain Mapping Using Joint 2D-3D Learning ( http://arxiv.org/abs/2101.01844v1 )

ライセンス: Link先を確認
Qiaojun Feng, Nikolay Atanasov(参考訳) 本稿では,無人航空機の頭上画像を用いた屋外地形マッピングについて述べる。 飛行中の空中画像からの深度推定は困難である。 機能ベースのローカライズとマッピング技術はリアルタイムのオドメトリとスパースポイントの再構成をもたらすが、密集した環境モデルは通常、かなりの計算とストレージでオフラインで復元される。 本稿では,各カメラのキーフレームに局所メッシュを再構築し,グローバル環境モデルに組み込む2次元3次元学習手法を提案する。 各ローカルメッシュはスパース深さ測定から初期化される。 画像特徴をカメラ投影によりメッシュ頂点と関連付け,グラフ畳み込みを用いて2次元再投影深度と3次元メッシュ監督に基づいてメッシュ頂点を洗練する。 実空画像を用いた定量的・質的評価は,環境モニタリングおよび監視アプリケーションを支援する手法の可能性を示している。

This paper addresses outdoor terrain mapping using overhead images obtained from an unmanned aerial vehicle. Dense depth estimation from aerial images during flight is challenging. While feature-based localization and mapping techniques can deliver real-time odometry and sparse points reconstruction, a dense environment model is generally recovered offline with significant computation and storage. This paper develops a joint 2D-3D learning approach to reconstruct local meshes at each camera keyframe, which can be assembled into a global environment model. Each local mesh is initialized from sparse depth measurements. We associate image features with the mesh vertices through camera projection and apply graph convolution to refine the mesh vertices based on joint 2-D reprojected depth and 3-D mesh supervision. Quantitative and qualitative evaluations using real aerial images show the potential of our method to support environmental monitoring and surveillance applications.
翻訳日:2021-04-11 00:10:17 公開日:2021-01-06
# 生成型adversarial networkにおけるモデル抽出と防御

Model Extraction and Defenses on Generative Adversarial Networks ( http://arxiv.org/abs/2101.02069v1 )

ライセンス: Link先を確認
Hailong Hu, Jun Pang(参考訳) モデル抽出攻撃は、ターゲットモデルへのクエリアクセスを通じて機械学習モデルを複製することを目的としている。 初期の研究は主に識別モデルに焦点をあてた。 成功にもかかわらず、生成モデルに対するモデル抽出攻撃は、あまりよく研究されていない。 本稿では,gans(generative adversarial network)に対するモデル抽出攻撃の可能性について体系的に検討する。 具体的には,まず,GANに対するモデル抽出攻撃の精度と忠実度を定義する。 次に, 敵の目標と背景知識に基づき, 精度抽出と忠実性抽出の観点から, gansに対するモデル抽出攻撃について検討する。 さらに,300万以上の画像で訓練された最先端ganを新たなドメインに移植して,モデル抽出攻撃の適用範囲を広げる,抽出されたモデルに関する知識の伝達が可能なケーススタディも実施する。 最後に,GANモデルの実用性とセキュリティのトレードオフを考慮した効果的な防衛手法を提案する。

Model extraction attacks aim to duplicate a machine learning model through query access to a target model. Early studies mainly focus on discriminative models. Despite the success, model extraction attacks against generative models are less well explored. In this paper, we systematically study the feasibility of model extraction attacks against generative adversarial networks (GANs). Specifically, we first define accuracy and fidelity on model extraction attacks against GANs. Then we study model extraction attacks against GANs from the perspective of accuracy extraction and fidelity extraction, according to the adversary's goals and background knowledge. We further conduct a case study where an adversary can transfer knowledge of the extracted model which steals a state-of-the-art GAN trained with more than 3 million images to new domains to broaden the scope of applications of model extraction attacks. Finally, we propose effective defense techniques to safeguard GANs, considering a trade-off between the utility and security of GAN models.
翻訳日:2021-04-11 00:10:01 公開日:2021-01-06
# 米国の新型コロナウイルス感染者の深部予測における人口統計値とソーシャルディスタンシングスコアの相互作用

The Interplay of Demographic Variables and Social Distancing Scores in Deep Prediction of U.S. COVID-19 Cases ( http://arxiv.org/abs/2101.02113v1 )

ライセンス: Link先を確認
Francesca Tang, Yang Feng, Hamza Chiheb, Jianqing Fan(参考訳) 新型コロナウイルス(covid-19)の感染拡大の深刻さにより、スペクトルクラスタリングと相関行列の新たな組み合わせを用いて、米国の郡の成長軌跡の性質を特徴付ける。 米国と世界の他の地域は深刻な第2波の感染に見舞われているため、郡に成長会員を割り当て、成長の要因を理解することの重要性がますます顕著になっている。 次に,コミュニティの識別において最も統計的に有意な特徴を選択する。 最後に,3つのソーシャルディスタンシングスコアを用いて,LSTMを用いた郡の将来的な成長を効果的に予測する。 この包括的調査は、成長コミュニティ、人口統計要因、社会的分散パフォーマンスを用いて、非常にマイクロレベルのケースにおける郡の成長の性質を捉え、政府機関が既知の情報を利用して、どの郡が資源や資金を標的にするかを適切に決定するのを助ける。

With the severity of the COVID-19 outbreak, we characterize the nature of the growth trajectories of counties in the United States using a novel combination of spectral clustering and the correlation matrix. As the U.S. and the rest of the world are experiencing a severe second wave of infections, the importance of assigning growth membership to counties and understanding the determinants of the growth are increasingly evident. Subsequently, we select the demographic features that are most statistically significant in distinguishing the communities. Lastly, we effectively predict the future growth of a given county with an LSTM using three social distancing scores. This comprehensive study captures the nature of counties' growth in cases at a very micro-level using growth communities, demographic factors, and social distancing performance to help government agencies utilize known information to make appropriate decisions regarding which potential counties to target resources and funding to.
翻訳日:2021-04-11 00:09:48 公開日:2021-01-06
# 擬似ブール制約のDNNF符号化における下界

A Lower Bound on DNNF Encodings of Pseudo-Boolean Constraints ( http://arxiv.org/abs/2101.01953v1 )

ライセンス: Link先を確認
Alexis de Colnet(参考訳) 疑似boolean(pb)制約をsatにエンコードする場合の2つの重要な考慮事項は、エンコーディングの大きさと伝播強度、すなわち単位伝搬下での振る舞いが良好であることの保証である。 伝播強度が保証されるいくつかのエンコーディングは、制約をDNNF(decomposable negation normal form)、BDD(binary decision diagram)、その他のサブバリアントに事前コンパイルする。 しかし、順序づけられたBDD(OBDD)表現を持つPB制約が存在することが示されており、従って推論されたCNFエンコーディングは指数的サイズである。 DNNFはOBDDよりも簡潔であるため、サイズ爆発を避けるためにDNNF経由のエンコーディングが好ましい。 しかし本稿では,DNNFがすべて指数的サイズを必要とするPB制約の存在を実証する。

Two major considerations when encoding pseudo-Boolean (PB) constraints into SAT are the size of the encoding and its propagation strength, that is, the guarantee that it has a good behaviour under unit propagation. Several encodings with propagation strength guarantees rely upon prior compilation of the constraints into DNNF (decomposable negation normal form), BDD (binary decision diagram), or some other sub-variants. However it has been shown that there exist PB-constraints whose ordered BDD (OBDD) representations, and thus the inferred CNF encodings, all have exponential size. Since DNNFs are more succinct than OBDDs, preferring encodings via DNNF to avoid size explosion seems a legitimate choice. Yet in this paper, we prove the existence of PB-constraints whose DNNFs all require exponential size.
翻訳日:2021-04-11 00:09:12 公開日:2021-01-06
# Ludii ゲームロジックガイド

Ludii Game Logic Guide ( http://arxiv.org/abs/2101.02120v1 )

ライセンス: Link先を確認
Eric Piette, Cameron Browne and Dennis J. N. J. Soemers(参考訳) 本技術報告では,多種多様なゲームに使用可能な汎用ゲームシステムであるLudiiの基本動作について概説する。 LudiiはERCが出資するDigital Ludeme Projectのために開発されたプログラムで、数学と計算のアプローチを使って歴史を通じてゲームがどのようにプレイされ、拡散されたかを研究する。 本報告では,Ludiiにおける汎用ゲーム状態と機器の表現方法と,ルールルデムが舞台裏でどのように実装されているかを説明し,Ludiiの汎用ゲームプレーヤーの背後にあるコアゲームロジックについて考察する。 このガイドは、ゲームデザイナーがLudiiのゲーム記述言語を使って、より完全に理解し、ゲームを記述する際にその機能を完全に活用することを目的としている。

This technical report outlines the fundamental workings of the game logic behind Ludii, a general game system, that can be used to play a wide variety of games. Ludii is a program developed for the ERC-funded Digital Ludeme Project, in which mathematical and computational approaches are used to study how games were played, and spread, throughout history. This report explains how general game states and equipment are represented in Ludii, and how the rule ludemes dictating play are implemented behind the scenes, giving some insight into the core game logic behind the Ludii general game player. This guide is intended to help game designers using the Ludii game description language to understand it more completely and make fuller use of its features when describing their games.
翻訳日:2021-04-11 00:08:44 公開日:2021-01-06
# 局所最小鍵点に基づくスマイルおよびラウ表現の検出

Smile and Laugh Expressions Detection Based on Local Minimum Key Points ( http://arxiv.org/abs/2101.01874v1 )

ライセンス: Link先を確認
Mina Mohammadi Dashti, Majid Harouni(参考訳) 本稿では,キーポイントの次元減少と記述プロセスに基づいて,笑顔と笑いの表情を提示する。 本論文は,2つの主目的を持つ。1つは特徴的特徴の観点から局所的臨界点を抽出することであり,もう1つは学習入力への依存を減らすことである。 これらの目的を達成するために,特徴抽出における3つのシナリオを提案する。 まず、顔の離散部分は、入力画像の様々な領域を考慮したテクスチャ分類のためのグローバル特徴ベクトルの集合を抽出するために使用される局所二分法によって検出される。 そして、第1のシナリオにおいて、口領域のテクスチャ上の隣接画素の相関変化について、ハリス角検出器を用いて局所鍵点の集合を抽出する。 第2シナリオでは、主成分分析アルゴリズムが提供する第1シナリオの抽出点の次元縮小により、計算コストと全体の複雑さが低下し、性能や柔軟性が失われることなく減少する。

In this paper, a smile and laugh facial expression is presented based on dimension reduction and description process of the key points. The paper has two main objectives; the first is to extract the local critical points in terms of their apparent features, and the second is to reduce the system's dependence on training inputs. To achieve these objectives, three different scenarios on extracting the features are proposed. First of all, the discrete parts of a face are detected by local binary pattern method that is used to extract a set of global feature vectors for texture classification considering various regions of an input-image face. Then, in the first scenario and with respect to the correlation changes of adjacent pixels on the texture of a mouth area, a set of local key points are extracted using the Harris corner detector. In the second scenario, the dimension reduction of the extracted points of first scenario provided by principal component analysis algorithm leading to reduction in computational costs and overall complexity without loss of performance and flexibility, etc.
翻訳日:2021-04-11 00:08:30 公開日:2021-01-06
# エッジなし変圧器を用いた線分検出

Line Segment Detection Using Transformers without Edges ( http://arxiv.org/abs/2101.01909v1 )

ライセンス: Link先を確認
Yifan Xu, Weijian Xu, David Cheung and Zhuowen Tu(参考訳) 本稿では,ポストプロセッシングおよびヒューリスティックスガイド付き中間処理(エッジ/接合/領域検出)を含まないトランスフォーマを用いた線分検出法を提案する。 本手法では, エッジ要素検出, 知覚的グルーピング, 総括的推論という3つの問題に対して, エンコードとデコードを統合したトークン化クエリ, セルフアテンション, ジョイントクエリを含む, 検出トランスフォーマ (detr) の3つのハイライトにより対処する。 トランスフォーマは、前列セグメンテーションアルゴリズムのヒューリスティック設計をスキップする自己着脱機構の層を通して、漸進的にラインセグメントを洗練することを学ぶ。 トランスフォーマにマルチスケールエンコーダ/デコーダを装備し、境界ボックスに都合よく表現されない線分などのエンティティに特に適する、直接端点距離損失下で細粒度ラインセグメント検出を行う。 実験では、Wireframe と YorkUrban のベンチマークで最先端の結果を示す。 LETRは、標準オブジェクト境界ボックス表現を超えて汎用エンティティをエンドツーエンドで検出するための有望な方向を指している。

In this paper, we present a holistically end-to-end algorithm for line segment detection with transformers that is post-processing and heuristics-guided intermediate processing (edge/junction/regio n detection) free. Our method, named LinE segment TRansformers (LETR), tackles the three main problems in this domain, namely edge element detection, perceptual grouping, and holistic inference by three highlights in detection transformers (DETR) including tokenized queries with integrated encoding and decoding, self-attention, and joint queries respectively. The transformers learn to progressively refine line segments through layers of self-attention mechanism skipping the heuristic design in the previous line segmentation algorithms. We equip multi-scale encoder/decoder in the transformers to perform fine-grained line segment detection under a direct end-point distance loss that is particularly suitable for entities such as line segments that are not conveniently represented by bounding boxes. In the experiments, we show state-of-the-art results on Wireframe and YorkUrban benchmarks. LETR points to a promising direction for joint end-to-end detection of general entities beyond the standard object bounding box representation.
翻訳日:2021-04-11 00:08:15 公開日:2021-01-06
# 多面的3次元再構成

Weakly-Supervised Multi-Face 3D Reconstruction ( http://arxiv.org/abs/2101.02000v1 )

ライセンス: Link先を確認
Jialiang Zhang, Lixiang Lin, Jianke Zhu, Steven C.H. Hoi(参考訳) 3d顔再構成は、デジタルエンターテイメント、ソーシャルメディア、感情分析、人物識別など、多くの現実世界のマルチメディアアプリケーションにおいて非常に重要な役割を果たす。 画像からパラメトリック顔モデルを推定するためのデファクトパイプラインは、まずランドマークのある顔領域を検出し、各顔を収穫してディープラーニングベースの回帰器を養う必要がある。 検出された各インスタンスの前方推定を独立に行う従来の手法と比較して,複数インスタンスのモデルパラメータを1つのネットワーク推論で同時に予測できる,多面3D再構成のための効果的なエンドツーエンドフレームワークを提案する。 提案手法は特徴抽出における計算冗長性を著しく低減するだけでなく,単一ネットワークモデルによる展開手順をより容易にする。 さらに、各画像の再構成顔に対して、同じグローバルカメラモデルを用いて、3Dシーンにおける相対的な頭部位置と向きを復元することができる。 我々は,スパース面と高密度面アライメントタスクに対する提案手法を評価するために,広範囲な実験を行った。 実験結果から,提案手法は顔アライメントタスクにおいて,検出や収穫などの事前処理を必要とせず,非常に有望であることが示唆された。 実装は \url{https://github.com/k alyo-zjl/wm3dr} で公開しています。

3D face reconstruction plays a very important role in many real-world multimedia applications, including digital entertainment, social media, affection analysis, and person identification. The de-facto pipeline for estimating the parametric face model from an image requires to firstly detect the facial regions with landmarks, and then crop each face to feed the deep learning-based regressor. Comparing to the conventional methods performing forward inference for each detected instance independently, we suggest an effective end-to-end framework for multi-face 3D reconstruction, which is able to predict the model parameters of multiple instances simultaneously using single network inference. Our proposed approach not only greatly reduces the computational redundancy in feature extraction but also makes the deployment procedure much easier using the single network model. More importantly, we employ the same global camera model for the reconstructed faces in each image, which makes it possible to recover the relative head positions and orientations in the 3D scene. We have conducted extensive experiments to evaluate our proposed approach on the sparse and dense face alignment tasks. The experimental results indicate that our proposed approach is very promising on face alignment tasks without fully-supervision and pre-processing like detection and crop. Our implementation is publicly available at \url{https://github.com/k alyo-zjl/WM3DR}.
翻訳日:2021-04-11 00:07:54 公開日:2021-01-06
# 回転推定のための半有限緩和の厚さについて

On the Tightness of Semidefinite Relaxations for Rotation Estimation ( http://arxiv.org/abs/2101.02099v1 )

ライセンス: Link先を確認
Lucas Brynte, Viktor Larsson, Jos\'e Pedro Iglesias, Carl Olsson, Fredrik Kahl(参考訳) なぜ半定緩和が、回転を含む非凸最適化問題の解決にコンピュータビジョンやロボット工学の多くの応用で成功したのか? 経験的性能の研究において、文献に報告された障害事例はほとんどなく、理論的観点からこれらの問題にアプローチする動機となっていることに留意する。 二次目的関数と回転制約を持つ問題の半定値緩和のパワーを解析するために代数幾何学のツールに基づく一般的な枠組みが導入された。 応用例としては、登録、手目の校正、カメラの切除、回転平均化などがある。 極端な点を特徴付け,単一回転の場合であっても緩和がきつくないような障害ケースが多数存在することを示す。 また,問題クラスでは,適切な回転パラメトリゼーションが厳密な緩和を保証していることを示す。 我々の理論的知見は数値シミュレーションを伴い、さらなる証拠と結果の理解を提供する。

Why is it that semidefinite relaxations have been so successful in numerous applications in computer vision and robotics for solving non-convex optimization problems involving rotations? In studying the empirical performance, we note that there are hardly any failure cases reported in the literature, motivating us to approach these problems from a theoretical perspective. A general framework based on tools from algebraic geometry is introduced for analyzing the power of semidefinite relaxations of problems with quadratic objective functions and rotational constraints. Applications include registration, hand-eye calibration, camera resectioning and rotation averaging. We characterize the extreme points, and show that there are plenty of failure cases for which the relaxation is not tight, even in the case of a single rotation. We also show that for some problem classes, an appropriate rotation parametrization guarantees tight relaxations. Our theoretical findings are accompanied with numerical simulations, providing further evidence and understanding of the results.
翻訳日:2021-04-11 00:07:34 公開日:2021-01-06
# LAEO-Net++:ビデオでお互いを見る人々を再考

LAEO-Net++: revisiting people Looking At Each Other in videos ( http://arxiv.org/abs/2101.02136v1 )

ライセンス: Link先を確認
Manuel J. Marin-Jimenez, Vicky Kalogeiton, Pablo Medina-Suarez, and Andrew Zisserman(参考訳) 人々の「相互視」を捉えることは、それらの間の社会的相互作用を理解し、解釈するために不可欠である。 そこで本稿では,ビデオのシーケンスでお互いを見ている人(LAEO)を検出する問題に対処する。 この目的のために,ビデオ中のLAEOを決定するための新しいディープCNNであるLAEO-Net++を提案する。 LAEO-Net++は以前の研究とは対照的に、時空間トラックをトラック全体の入力と理由としている。 3つの枝からなり、1つは各キャラクターの追跡された頭部、もう1つは相対的な位置である。 さらに,UCO-LAEO と AVA-LAEO の2つの新しい LAEO データセットを導入する。 LAEO-Net++は,2人がLAEOであるかどうか,その発生場所の時間的ウィンドウを正しく判断する能力を示している。 本モデルは,既存のTVHID-LAEOビデオデータセットの最先端化を実現し,従来の手法よりも大幅に優れていた。 最後に、LAEO-Net++をソーシャルネットワークに適用し、LAEOの頻度と期間に基づいて、ペア間の社会的関係を自動的に推測し、ビデオ内の人間のインタラクションをガイドする有用なツールであることを示す。 コードはhttps://github.com/a vauco/laeonetplusで入手できる。

Capturing the 'mutual gaze' of people is essential for understanding and interpreting the social interactions between them. To this end, this paper addresses the problem of detecting people Looking At Each Other (LAEO) in video sequences. For this purpose, we propose LAEO-Net++, a new deep CNN for determining LAEO in videos. In contrast to previous works, LAEO-Net++ takes spatio-temporal tracks as input and reasons about the whole track. It consists of three branches, one for each character's tracked head and one for their relative position. Moreover, we introduce two new LAEO datasets: UCO-LAEO and AVA-LAEO. A thorough experimental evaluation demonstrates the ability of LAEO-Net++ to successfully determine if two people are LAEO and the temporal window where it happens. Our model achieves state-of-the-art results on the existing TVHID-LAEO video dataset, significantly outperforming previous approaches. Finally, we apply LAEO-Net++ to a social network, where we automatically infer the social relationship between pairs of people based on the frequency and duration that they LAEO, and show that LAEO can be a useful tool for guided search of human interactions in videos. The code is available at https://github.com/A VAuco/laeonetplus.
翻訳日:2021-04-11 00:07:21 公開日:2021-01-06
# 農業用ロバスト照明不変カメラシステム

A Robust Illumination-Invaria nt Camera System for Agricultural Applications ( http://arxiv.org/abs/2101.02190v1 )

ライセンス: Link先を確認
Abhisesh Silwal, Tanvir Parhar, Francisco Yandun and George Kantor(参考訳) 対象検出と意味セグメンテーションは、農業分野で最も広く採用されているディープラーニングアルゴリズムの2つである。 このような作業のために屋外で取得した画像品質の変化の主な要因の1つは、物体の外観や全体像の内容を変えることができる照明条件を変更することである。 トランスファーラーニングとデータ拡張は、ディープニューラルネットワークをトレーニングするための大量のデータの必要性をある程度低減するが、多種多様な品種と農業における共有データセットの欠如により、広範囲のフィールド展開が困難になる。 本稿では,全照明条件で一貫した画像を生成する高スループットな能動照明カメラシステムを提案する。 画像品質の一貫性を示す実験を詳述し、オブジェクト検出タスクのために深層ニューラルネットワークを訓練するイメージを比較的少なくする。 さらに、能動照明のない画像が一貫した結果を得られない極端照明条件下でのフィールド実験の結果を示す。 実験の結果、一貫性のあるデータで訓練された物体検出のための深層ネットは、同じレベルの精度を達成するのに、ほぼ4倍のデータを必要としていた。 この提案は、農業におけるコンピュータビジョンのニーズに実用的な解決策を提供する可能性がある。

Object detection and semantic segmentation are two of the most widely adopted deep learning algorithms in agricultural applications. One of the major sources of variability in image quality acquired in the outdoors for such tasks is changing lighting condition that can alter the appearance of the objects or the contents of the entire image. While transfer learning and data augmentation to some extent reduce the need for large amount of data to train deep neural networks, the large variety of cultivars and the lack of shared datasets in agriculture makes wide-scale field deployments difficult. In this paper, we present a high throughput robust active lighting-based camera system that generates consistent images in all lighting conditions. We detail experiments that show the consistency in images quality leading to relatively fewer images to train deep neural networks for the task of object detection. We further present results from field experiment under extreme lighting conditions where images without active lighting significantly lack to provide consistent results. The experimental results show that on average, deep nets for object detection trained on consistent data required nearly four times less data to achieve similar level of accuracy. This proposed work could potentially provide pragmatic solutions to computer vision needs in agriculture.
翻訳日:2021-04-11 00:06:59 公開日:2021-01-06
# 映像中の時空間構造をマイニングした箱からのマスク生成

Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in Videos ( http://arxiv.org/abs/2101.02196v1 )

ライセンス: Link先を確認
Bin Zhao, Goutam Bhat, Martin Danelljan, Luc Van Gool, Radu Timofte(参考訳) ビデオ内のオブジェクトのセグメンテーションは、基本的なコンピュータビジョンタスクである。 現在のディープラーニングベースのパラダイムは、強力だがデータハングリーなソリューションを提供する。 しかし、現在のデータセットは、ビデオにオブジェクトマスクを注釈するコストと人的労力によって制限されている。 これにより、既存のビデオセグメンテーション手法の性能と一般化能力を効果的に制限する。 この問題に対処するため、バウンディングボックスアノテーションのより弱い形式を探求する。 ビデオ中のフレーム単位境界ボックスアノテーションからセグメンテーションマスクを生成する手法を提案する。 そこで本稿では,複数のフレームにまたがる物体の構成と背景の出現を効果的にマイニングする時空間凝集モジュールを提案する。 得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。 境界ボックスアノテーションのみを使用して,大規模追跡データセット用のセグメンテーションマスクを生成する。 追加データにより、VOSとより困難なトラッキングドメインの両方で最先端の結果につながる、かなり優れた一般化性能が得られる。

Segmenting objects in videos is a fundamental computer vision task. The current deep learning based paradigm offers a powerful, but data-hungry solution. However, current datasets are limited by the cost and human effort of annotating object masks in videos. This effectively limits the performance and generalization capabilities of existing video segmentation methods. To address this issue, we explore weaker form of bounding box annotations. We introduce a method for generating segmentation masks from per-frame bounding box annotations in videos. To this end, we propose a spatio-temporal aggregation module that effectively mines consistencies in the object and background appearance across multiple frames. We use our resulting accurate masks for weakly supervised training of video object segmentation (VOS) networks. We generate segmentation masks for large scale tracking datasets, using only their bounding box annotations. The additional data provides substantially better generalization performance leading to state-of-the-art results in both the VOS and more challenging tracking domain.
翻訳日:2021-04-11 00:06:42 公開日:2021-01-06
# SF-QA:オープンドメイン質問応答のためのシンプルで公正な評価ライブラリ

SF-QA: Simple and Fair Evaluation Library for Open-domain Question Answering ( http://arxiv.org/abs/2101.01910v1 )

ライセンス: Link先を確認
Xiaopeng Lu, Kyusong Lee, Tiancheng Zhao(参考訳) 近年, オープンドメイン質問応答 (QA) が注目されているが, システム全体の構築には大量のリソースが必要であり, 複雑な構成のため, 以前の結果を再現することが困難な場合が多い。 本稿では,オープンドメインQAのためのシンプルで公正な評価フレームワークであるSF-QAを紹介する。 SF-QAフレームワークは、パイプラインのオープンドメインQAシステムをモジュール化する。 提案された評価フレームワークは公開されており、誰でもコードや評価に貢献できる。

Although open-domain question answering (QA) draws great attention in recent years, it requires large amounts of resources for building the full system and is often difficult to reproduce previous results due to complex configurations. In this paper, we introduce SF-QA: simple and fair evaluation framework for open-domain QA. SF-QA framework modularizes the pipeline open-domain QA system, which makes the task itself easily accessible and reproducible to research groups without enough computing resources. The proposed evaluation framework is publicly available and anyone can contribute to the code and evaluations.
翻訳日:2021-04-11 00:06:30 公開日:2021-01-06
# Node2Seq: グラフニューラルネットワークのトレーニング可能な畳み込みを目指す

Node2Seq: Towards Trainable Convolutions in Graph Neural Networks ( http://arxiv.org/abs/2101.01849v1 )

ライセンス: Link先を確認
Hao Yuan, Shuiwang Ji(参考訳) グラフ特徴学習の探索は、多くの実世界のアプリケーションでグラフデータの出現によって本質的に重要になる。 ノード特徴学習にはいくつかのグラフニューラルネットワークアプローチが提案されており、一般にノード特徴を学習するために隣接する情報集約スキームに従う。 性能は高いが、近隣の異なるノードの重み付け学習はいまだに研究されていない。 本研究では,ノード埋め込みを学習するためのグラフネットワーク層Node2Seqを提案する。 対象ノードに対しては,アテンション機構を用いて隣接ノードをソートし,情報集約のために1次元畳み込みニューラルネットワーク(CNN)を用いる。 さらに,注目スコアに基づいて,特徴学習のための非局所的な情報を適応的に組み込むことを提案する。 実験結果は,提案するnode2seq層の有効性を示し,提案する適応型非局所情報学習により,特徴学習の性能が向上することを示す。

Investigating graph feature learning becomes essentially important with the emergence of graph data in many real-world applications. Several graph neural network approaches are proposed for node feature learning and they generally follow a neighboring information aggregation scheme to learn node features. While great performance has been achieved, the weights learning for different neighboring nodes is still less explored. In this work, we propose a novel graph network layer, known as Node2Seq, to learn node embeddings with explicitly trainable weights for different neighboring nodes. For a target node, our method sorts its neighboring nodes via attention mechanism and then employs 1D convolutional neural networks (CNNs) to enable explicit weights for information aggregation. In addition, we propose to incorporate non-local information for feature learning in an adaptive manner based on the attention scores. Experimental results demonstrate the effectiveness of our proposed Node2Seq layer and show that the proposed adaptively non-local information learning can improve the performance of feature learning.
翻訳日:2021-04-11 00:06:20 公開日:2021-01-06
# in-cabinユースケースにおける人工知能手法の検討

Artificial Intelligence Methods in In-Cabin Use Cases: A Survey ( http://arxiv.org/abs/2101.02082v1 )

ライセンス: Link先を確認
Yao Rong, Chao Han, Christian Hellert, Antje Loyal, Enkelejda Kasneci(参考訳) 自動運転への関心が高まるにつれ、自動車の高度自動化の要件を満たす努力が進められている。 この状況下では、キャビン内の機能は、ドライバーと乗客の安全で快適な旅を確保する上で重要な役割を果たす。 同時に、人工知能(AI)の分野での最近の進歩は、車室内における自動的な問題を解決するために、さまざまな新しい応用と支援システムを可能にした。 本稿では,(1)運転安全性と(2)運転快適性に関する応用シナリオに焦点をあて,運転室内のユースケースにAI手法を利用する既存の作業について,徹底的な調査を行った。 調査された研究の結果、ai技術は自動運転の分野でインカビンタスクに取り組む有望な未来を持っていることが示されています。

As interest in autonomous driving increases, efforts are being made to meet requirements for the high-level automation of vehicles. In this context, the functionality inside the vehicle cabin plays a key role in ensuring a safe and pleasant journey for driver and passenger alike. At the same time, recent advances in the field of artificial intelligence (AI) have enabled a whole range of new applications and assistance systems to solve automated problems in the vehicle cabin. This paper presents a thorough survey on existing work that utilizes AI methods for use-cases inside the driving cabin, focusing, in particular, on application scenarios related to (1) driving safety and (2) driving comfort. Results from the surveyed works show that AI technology has a promising future in tackling in-cabin tasks within the autonomous driving aspect.
翻訳日:2021-04-11 00:05:33 公開日:2021-01-06
# セマンティックリワードマニピュレーションによるワンショット政策緩和

One-shot Policy Elicitation via Semantic Reward Manipulation ( http://arxiv.org/abs/2101.01860v1 )

ライセンス: Link先を確認
Aaquib Tabrez, Ryan Leonard, Bradley Hayes(参考訳) 世界の状況に関する期待と知識の同期は、効果的なコラボレーションに欠かせない能力です。 ロボットが人間や他の自律エージェントと効果的に協力するためには、世界の理解と協力者の理解の相違を和らげるために、知的な説明を生成できることが重要である。 本研究では,計画述語の組み合わせから得られた意味的説明を用いて,エージェントの報酬関数を増強し,より最適な行動を示すためのポリシーを駆動する,新しい逐次最適化アルゴリズムであるSingle-shot Policy Explanation for Augmenting Rewards(SPEAR)を提案する。 本研究では,2つの実用的基盤を持つアプリケーションにおいて,アルゴリズムのポリシー操作能力を実験的に検証し,より複雑な状態空間と述語数を持つ領域上でのSPEARの性能解析を行った。 提案手法は,実行時および対処可能な問題サイズにおいて最先端よりも大幅に改善され,エージェントが自身の専門知識を活用して動作可能な情報を伝達し,その性能を向上させることができることを示す。

Synchronizing expectations and knowledge about the state of the world is an essential capability for effective collaboration. For robots to effectively collaborate with humans and other autonomous agents, it is critical that they be able to generate intelligible explanations to reconcile differences between their understanding of the world and that of their collaborators. In this work we present Single-shot Policy Explanation for Augmenting Rewards (SPEAR), a novel sequential optimization algorithm that uses semantic explanations derived from combinations of planning predicates to augment agents' reward functions, driving their policies to exhibit more optimal behavior. We provide an experimental validation of our algorithm's policy manipulation capabilities in two practically grounded applications and conclude with a performance analysis of SPEAR on domains of increasingly complex state space and predicate counts. We demonstrate that our method makes substantial improvements over the state-of-the-art in terms of runtime and addressable problem size, enabling an agent to leverage its own expertise to communicate actionable information to improve another's performance.
翻訳日:2021-04-11 00:05:19 公開日:2021-01-06
# 高速MAVマニピュレータのCNNに基づくビジュアルエゴ運動推定

CNN-based Visual Ego-Motion Estimation for Fast MAV Maneuvers ( http://arxiv.org/abs/2101.01841v1 )

ライセンス: Link先を確認
Yingfu Xu, Guido C. H. E. de Croon(参考訳) マイクロエアビー(MAV)の視覚的エゴモーション推定の分野では、大きな視覚的相違と動きのぼかしが主な原因で、迅速な操縦が困難である。 高いロバスト性を求めるために,畳み込みニューラルネットワーク(cnns)を用いて,平面シーンに対向する高速移動単眼カメラから,後続画像間の相対的なポーズを予測する。 慣性計測ユニット (IMU) の支援を受けて, 主に翻訳運動に着目した。 本研究のネットワークは、類似の小型モデルサイズ(約1.35MB)と高速推論速度(モバイルGPUで約100Hz)を有する。 トレーニングやテスト用の画像は、リアルな動きのぼやけがあります。 第1の画像とカスケードされたネットワークブロックを反復的にマッチさせるネットワークフレームワークから離れ、異なるネットワークアーキテクチャとトレーニング戦略を研究する。 シミュレーションデータセットとMAV飛行データセットが評価に使用される。 提案手法は,高速操作時の既存ネットワークや従来の特徴点法よりも精度がよい。 さらに、自己教師型学習は教師型学習よりも優れる。 この論文のために開発されたコードはhttps://github.com/t udelft/.comで公開される。

In the field of visual ego-motion estimation for Micro Air Vehicles (MAVs), fast maneuvers stay challenging mainly because of the big visual disparity and motion blur. In the pursuit of higher robustness, we study convolutional neural networks (CNNs) that predict the relative pose between subsequent images from a fast-moving monocular camera facing a planar scene. Aided by the Inertial Measurement Unit (IMU), we mainly focus on the translational motion. The networks we study have similar small model sizes (around 1.35MB) and high inference speeds (around 100Hz on a mobile GPU). Images for training and testing have realistic motion blur. Departing from a network framework that iteratively warps the first image to match the second with cascaded network blocks, we study different network architectures and training strategies. Simulated datasets and MAV flight datasets are used for evaluation. The proposed setup shows better accuracy over existing networks and traditional feature-point-based methods during fast maneuvers. Moreover, self-supervised learning outperforms supervised learning. The code developed for this paper will be open-source upon publication at https://github.com/t udelft/.
翻訳日:2021-04-11 00:05:01 公開日:2021-01-06
# ファンビームと円錐ビームct再構成のための新しい重み付け法

A New Weighting Scheme for Fan-beam and Circle Cone-beam CT Reconstructions ( http://arxiv.org/abs/2101.01886v1 )

ライセンス: Link先を確認
Wei Wang, Xiang-Gen Xia, Chuanjiang He, Zemin Ren, Jian Lu, Tianfu Wang and Baiying Lei(参考訳) 本稿では,KatsevichのヘリカルCT公式を2次元ファンビームCT再構成に適用することにより,ファンビームCT再構成のためのアークベースアルゴリズムを提案する。 次に、冗長な投影データを扱うための新たな重み付け関数を提案する。 重み付きアークベースファンビームアルゴリズムを円錐ビーム形状に拡張することにより、円錐ビームCT再構成のための新しいFDK類似アルゴリズムを得る。 実験により,Parker-weightedのファンビームアルゴリズムとFDKアルゴリズムと比較してPSNRとSSIMの精度が向上した。

In this paper, we first present an arc based algorithm for fan-beam computed tomography (CT) reconstruction via applying Katsevich's helical CT formula to 2D fan-beam CT reconstruction. Then, we propose a new weighting function to deal with the redundant projection data. By extending the weighted arc based fan-beam algorithm to circle cone-beam geometry, we also obtain a new FDK-similar algorithm for circle cone-beam CT reconstruction. Experiments show that our methods can obtain higher PSNR and SSIM compared to the Parker-weighted conventional fan-beam algorithm and the FDK algorithm for super-short-scan trajectories.
翻訳日:2021-04-11 00:04:44 公開日:2021-01-06
# ハイパースペクトル画像のためのアンサンブルとランダム協調表現に基づく異常検出

Ensemble and Random Collaborative Representation-Based Anomaly Detector for Hyperspectral Imagery ( http://arxiv.org/abs/2101.01976v1 )

ライセンス: Link先を確認
Rong Wang, Wei Feng, Qianrong Zhang, Feiping Nie, Zhen Wang, and Xuelong Li(参考訳) 近年では、超スペクトル異常検出(had)が活発な話題となり、軍事分野や民間分野で重要な役割を担っている。 古典的HAD法として、協調表現に基づく検出器(CRD)が注目され、詳細な研究が行われている。 CRD法の優れた性能にもかかわらず、その計算コストは広く要求されるリアルタイムアプリケーションには高すぎる。 この問題を軽減するために,新しいアンサンブルとランダムな協調表現ベース検出器(ERCRD)が提案されている。 このアプローチは2つの主要なステップからなる。 まず,元々のcrd法で用いられたスライディングデュアルウインドウ戦略を置き換えるために,ランダムな背景モデルを提案する。 第二に、複数のランダムな背景モデリングにより複数の検出結果を得ることができ、これらの結果はアンサンブル学習により最終的な検出結果にさらに洗練される。 4つの実超スペクトルデータセットの実験では、提案手法の精度と効率が10の最先端HAD法と比較された。

In recent years, hyperspectral anomaly detection (HAD) has become an active topic and plays a significant role in military and civilian fields. As a classic HAD method, the collaboration representation-based detector (CRD) has attracted extensive attention and in-depth research. Despite the good performance of CRD method, its computational cost is too high for the widely demanded real-time applications. To alleviate this problem, a novel ensemble and random collaborative representation-based detector (ERCRD) is proposed for HAD. This approach comprises two main steps. Firstly, we propose a random background modeling to replace the sliding dual window strategy used in the original CRD method. Secondly, we can obtain multiple detection results through multiple random background modeling, and these results are further refined to final detection result through ensemble learning. Experiments on four real hyperspectral datasets exhibit the accuracy and efficiency of this proposed ERCRD method compared with ten state-of-the-art HAD methods.
翻訳日:2021-04-11 00:04:32 公開日:2021-01-06
# 浅層UWnet : 水中画像強調のための圧縮モデル

Shallow-UWnet : Compressed Model for Underwater Image Enhancement ( http://arxiv.org/abs/2101.02073v1 )

ライセンス: Link先を確認
Ankita Naik (1), Apurva Swarnakar (1), Kartik Mittal (1) ((1) University of Massachusetts Amherst)(参考訳) 過去数十年間、水中画像のエンハンスメントは、水中ロボティクスと海洋工学における重要性から、多くの研究努力を惹きつけてきた。 研究は物理ベースのソリューションの実装から、非常に深いcnnとganの使用へと発展した。 しかし、これらの最先端アルゴリズムは計算コストが高く、メモリ集約的である。 これにより、水中探査作業のための携帯機器への展開が妨げられる。 これらのモデルは、合成または限られた実世界のデータセットで訓練され、実世界のシナリオでは実用的でない。 本稿では、性能を保ち、最先端モデルよりも少ないパラメータを持つ、浅いニューラルネットワークアーキテクチャである \textbf{Shallow-UWnet を提案する。 また,合成データセットと実世界のデータセットを組み合わせることで,その性能をベンチマークすることで,モデルの一般化を実証した。

Over the past few decades, underwater image enhancement has attracted increasing amount of research effort due to its significance in underwater robotics and ocean engineering. Research has evolved from implementing physics-based solutions to using very deep CNNs and GANs. However, these state-of-art algorithms are computationally expensive and memory intensive. This hinders their deployment on portable devices for underwater exploration tasks. These models are trained on either synthetic or limited real world datasets making them less practical in real-world scenarios. In this paper we propose a shallow neural network architecture, \textbf{Shallow-UWnet} which maintains performance and has fewer parameters than the state-of-art models. We also demonstrated the generalization of our model by benchmarking its performance on combination of synthetic and real-world datasets.
翻訳日:2021-04-11 00:04:18 公開日:2021-01-06
# VOGUE: StyleGAN補間最適化によるトライオン

VOGUE: Try-On by StyleGAN Interpolation Optimization ( http://arxiv.org/abs/2101.02285v1 )

ライセンス: Link先を確認
Kathleen M Lewis, Srivatsan Varadharajan, Ira Kemelmacher-Shlizerm an(参考訳) 対象者の画像と衣服を身に着けている人の画像が与えられた場合、対象者の衣服を自動生成する。 本手法の核となるのはポーズ条件付きStyleGAN2潜時空間補間であり,各画像からの関心領域,すなわち体形,毛髪,肌の色をシームレスに結合し,衣服の折りたたみ,材質,形状は衣服画像から得られる。 潜在空間における層毎の補間係数を自動的に最適化することにより、衣服と対象人物の融合をシームレスに行うことができる。 このアルゴリズムにより, 衣服は所定の形状に応じて変形し, パターンや素材の詳細を保存できる。 実験は、最先端のフォトリアリスティックな結果を高解像度で実証する(512\times 512$)。

Given an image of a target person and an image of another person wearing a garment, we automatically generate the target person in the given garment. At the core of our method is a pose-conditioned StyleGAN2 latent space interpolation, which seamlessly combines the areas of interest from each image, i.e., body shape, hair, and skin color are derived from the target person, while the garment with its folds, material properties, and shape comes from the garment image. By automatically optimizing for interpolation coefficients per layer in the latent space, we can perform a seamless, yet true to source, merging of the garment and target person. Our algorithm allows for garments to deform according to the given body shape, while preserving pattern and material details. Experiments demonstrate state-of-the-art photo-realistic results at high resolution ($512\times 512$).
翻訳日:2021-04-11 00:04:08 公開日:2021-01-06
# 拘束的ブロック非線形ニューラル力学モデル

Constrained Block Nonlinear Neural Dynamical Models ( http://arxiv.org/abs/2101.01864v1 )

ライセンス: Link先を確認
Elliott Skomski, Soumya Vasisht, Colby Wight, Aaron Tuor, Jan Drgona, Draguna Vrabie(参考訳) 既知の事前条件付きニューラルネットワークモジュールは、非線形ダイナミクスを持つシステムを表現するために、効果的にトレーニングされ、組み合わせられる。 本研究では,局所モデル構造と制約を組み込んだ深層制御指向非線形力学モデルのデータ効率学習のための新しい定式化について検討する。 提案手法は,入力,状態,出力のダイナミクスを表現するニューラルネットワークブロックで構成され,ネットワーク重みとシステム変数に制約を課す。 部分的に観測可能な力学系を扱うために、状態オブザーバニューラルネットワークを用いてシステムの潜在力学の状態を推定する。 提案手法は, 連発式タンクリアクター, 2タンク間相互作用システム, 空力体という3つの非線形システムのシステム識別タスクにおいて, 提案手法の性能評価を行った。 数千のシステム状態観測で最適化されたモデルは、単一の初期条件から数千の時間ステップにわたる開ループシミュレーションにおいてシステムダイナミクスを正確に表現する。 実験結果から,従来の非構造的ニューラルネットワークモデルと非構造的ニューラルネットワークモデルを比較した場合,オープンループシミュレーションでは2乗誤差が大域的に減少することが示された。

Neural network modules conditioned by known priors can be effectively trained and combined to represent systems with nonlinear dynamics. This work explores a novel formulation for data-efficient learning of deep control-oriented nonlinear dynamical models by embedding local model structure and constraints. The proposed method consists of neural network blocks that represent input, state, and output dynamics with constraints placed on the network weights and system variables. For handling partially observable dynamical systems, we utilize a state observer neural network to estimate the states of the system's latent dynamics. We evaluate the performance of the proposed architecture and training methods on system identification tasks for three nonlinear systems: a continuous stirred tank reactor, a two tank interacting system, and an aerodynamics body. Models optimized with a few thousand system state observations accurately represent system dynamics in open loop simulation over thousands of time steps from a single set of initial conditions. Experimental results demonstrate an order of magnitude reduction in open-loop simulation mean squared error for our constrained, block-structured neural models when compared to traditional unstructured and unconstrained neural network models.
翻訳日:2021-04-11 00:03:52 公開日:2021-01-06
# 3次元変動データ同化のためのアテンションベース畳み込みオートエンコーダ

Attention-based Convolutional Autoencoders for 3D-Variational Data Assimilation ( http://arxiv.org/abs/2101.02121v1 )

ライセンス: Link先を確認
Julian Mack, Rossella Arcucci, Miguel Molina-Solana and Yi-Ke Guo(参考訳) 本論文では,畳み込みオートエンコーダを用いた3次元変分データ同化の解法を提案する。 提案手法は従来の手法と同一解であるが,計算複雑性が著しく低いことを証明し,データ同化精度に影響を与えることなく計算コストを削減できることを示す。 ロンドン・エレファント・アンド・キャッスルにある遺跡の汚染モデルを用いて, 実世界のデータを用いて新しい手法を検証したところ, 背景共分散行列表現のサイズをo(10^3)削減できることがわかった。

We propose a new 'Bi-Reduced Space' approach to solving 3D Variational Data Assimilation using Convolutional Autoencoders. We prove that our approach has the same solution as previous methods but has significantly lower computational complexity; in other words, we reduce the computational cost without affecting the data assimilation accuracy. We tested the new method with data from a real-world application: a pollution model of a site in Elephant and Castle, London and found that we could reduce the size of the background covariance matrix representation by O(10^3) and, at the same time, increase our data assimilation accuracy with respect to existing reduced space methods.
翻訳日:2021-04-11 00:03:34 公開日:2021-01-06
# RANK: エンタープライズネットワークにおける永続的攻撃を検出するAI支援のエンドツーエンドアーキテクチャ

RANK: AI-assisted End-to-End Architecture for Detecting Persistent Attacks in Enterprise Networks ( http://arxiv.org/abs/2101.02573v1 )

ライセンス: Link先を確認
Hazem M. Soliman, Geoff Salmon, Du\v{s}an Sovilj, Mohan Rao(参考訳) Advanced Persistent Threats (APT) は高度な多段階攻撃であり、現代の政府や企業ネットワークをターゲットにした高度な敵によって計画され実行されている。 侵入検知システム(IDS)とユーザ・エンティティ・ビヘイビア・アナリティクス(UEBA)は、APTの検出においてセキュリティアナリストを支援するために一般的に使用される。 APTの長期的性質とUEBAとIDSの微妙な焦点が組み合わさって、アナリストはますます非現実的なアラート数で圧倒される。 このデータの豊富さと、問題の重要さと、関係する熟練した人材の高コストさに加えて、APT検出の問題は人工知能(AI)による自動化のための完璧な候補となる。 本稿では、私たちの知る限り、APT検出のためのエンドツーエンドAI支援アーキテクチャRANKの最初の研究と実装を提供する。 システムの目的は、アナリストを置き換えるのではなく、データソースからアナリストレビューのための最終的なインシデントまで、完全なパイプラインを自動化することだ。 1)警告テンプレートとマージ、2)警告グラフの構築、3)警告グラフをインシデントに分割する、4)インシデントスコアと順序付けである。 我々は2000年のDARPA侵入検知データセットと中規模企業からのリードワールドプライベートデータセットに対してアーキテクチャを評価した。 分析対象のデータの3桁の削減,イシデントの革新的な抽出,抽出したインシデントのセキュリティ面でのスコア付けなど,広範な結果が得られた。

Advanced Persistent Threats (APTs) are sophisticated multi-step attacks, planned and executed by skilled adversaries targeting modern government and enterprise networks. Intrusion Detection Systems (IDSs) and User and Entity Behavior Analytics (UEBA) are commonly employed to aid a security analyst in the detection of APTs. The prolonged nature of APTs, combined with the granular focus of UEBA and IDS, results in overwhelming the analyst with an increasingly impractical number of alerts. Consequent to this abundance of data, and together with the crucial importance of the problem as well as the high cost of the skilled personnel involved, the problem of APT detection becomes a perfect candidate for automation through Artificial Intelligence (AI). In this paper, we provide, up to our knowledge, the first study and implementation of an end-to-end AI-assisted architecture for detecting APTs -- RANK. The goal of the system is not to replace the analyst, rather, it is to automate the complete pipeline from data sources to a final set of incidents for analyst review. The architecture is composed of four consecutive steps: 1) alert templating and merging, 2) alert graph construction, 3) alert graph partitioning into incidents, and 4) incident scoring and ordering. We evaluate our architecture against the 2000 DARPA Intrusion Detection dataset, as well as a read-world private dataset from a medium-scale enterprise. Extensive results are provided showing a three order of magnitude reduction in the amount of data to be reviewed by the analyst, innovative extraction of incidents and security-wise scoring of extracted incidents.
翻訳日:2021-04-11 00:03:22 公開日:2021-01-06
# AI駆動6G mmWaveネットワークにおける高速で信頼性の高い初期アクセスのためのディープラーニング

Deep Learning for Fast and Reliable Initial Access in AI-Driven 6G mmWave Networks ( http://arxiv.org/abs/2101.01847v1 )

ライセンス: Link先を確認
Tarun S. Cousik, Vijay K. Shah, Tugba Erpek, Yalin E. Sagduyu, Jeffrey H. Reed(参考訳) DeepIAはディープニューラルネットワーク(DNN)フレームワークで、5Gおよび6Gミリミリ(mmWave)ネットワークを超えたAI駆動の高速で信頼性の高い初期アクセスを可能にする。 deepiaは、利用可能なビームのサブセットのみを利用することで、従来のサーチベースia法に比べてビームスイープ時間を短縮する。 DeepIAマップは、受信機に最も向いているビームへのビームのサブセットから得られる信号強度(RSS)を受信する。 視線(LoS)と非視線(NLoS)の両方の条件では、DeepIAはIA時間を短縮し、従来のIAのビーム予測精度を上回っている。 以上の結果から,deepiaのビーム予測精度はiaに用いるビーム数に比例し,ビームの特定の選択に依存することがわかった。 LoS条件では、ビームの選択は連続的に行われ、精度を最大70%向上させる。 NLoSの場合、最大で35%精度が向上する。 複数のrssスナップショットを平均することで、必要なビーム数をさらに削減し、losとnlosの両方の条件で95%以上の精度を達成することが分かっています。 最後に,組み込みハードウェア実装によるdeepiaのビーム予測時間を評価し,従来のビームスイーピングよりも改善することを示す。

We present DeepIA, a deep neural network (DNN) framework for enabling fast and reliable initial access for AI-driven beyond 5G and 6G millimeter (mmWave) networks. DeepIA reduces the beam sweep time compared to a conventional exhaustive search-based IA process by utilizing only a subset of the available beams. DeepIA maps received signal strengths (RSSs) obtained from a subset of beams to the beam that is best oriented to the receiver. In both line of sight (LoS) and non-line of sight (NLoS) conditions, DeepIA reduces the IA time and outperforms the conventional IA's beam prediction accuracy. We show that the beam prediction accuracy of DeepIA saturates with the number of beams used for IA and depends on the particular selection of the beams. In LoS conditions, the selection of the beams is consequential and improves the accuracy by up to 70%. In NLoS situations, it improves accuracy by up to 35%. We find that, averaging multiple RSS snapshots further reduces the number of beams needed and achieves more than 95% accuracy in both LoS and NLoS conditions. Finally, we evaluate the beam prediction time of DeepIA through embedded hardware implementation and show the improvement over the conventional beam sweeping.
翻訳日:2021-04-11 00:02:38 公開日:2021-01-06
# バイオセンサーと機械学習による細胞の検出・階層化・分類の高度化

Biosensors and Machine Learning for Enhanced Detection, Stratification, and Classification of Cells: A Review ( http://arxiv.org/abs/2101.01866v1 )

ライセンス: Link先を確認
Hassan Raji, Muhammad Tayyab, Jianye Sui, Seyed Reza Mahmoodi, Mehdi Javanmard(参考訳) 生物学的細胞は定義上、すべての生物が構成される生命の基本分子を含む基本的な単位である。 細胞が互いにどのように機能し、分化するかを理解することは、疾患の診断や治療において最重要となる。 細胞の検出と階層化に焦点を当てたセンサーが人気を博し、テクノロジーの進歩により、各日毎のpos(point-of-care)ソリューションに近づいた様々なコンポーネントの小型化を可能にした。 さらに、機械学習は、これらの様々なバイオセンシングモダリティの分析能力、特に、物理駆動ではなくデータ駆動アプローチを用いて、細胞を様々なカテゴリに分類する難しいタスクの強化を可能にしている。 本稿では,細胞を検知・分類するセンサに対して機械学習が明示的に適用されてきたことを説明する。 また,異なるセンシングモードとアルゴリズムが分類器の精度と必要なデータセットサイズにどのように影響するかを比較した。

Biological cells, by definition, are the basic units which contain the fundamental molecules of life of which all living things are composed. Understanding how they function and differentiating cells from one another therefore is of paramount importance for disease diagnostics as well as therapeutics. Sensors focusing on the detection and stratification of cells have gained popularity as technological advancements have allowed for the miniaturization of various components inching us closer to Point-of-Care (POC) solutions with each passing day. Furthermore, Machine Learning has allowed for enhancement in analytical capabilities of these various biosensing modalities, especially the challenging task of classification of cells into various categories using a data-driven approach rather than physics-driven. In this review, we provide an account of how Machine Learning has been applied explicitly to sensors that detect and classify cells. We also provide a comparison of how different sensing modalities and algorithms affect the classifier accuracy and the dataset size required.
翻訳日:2021-04-11 00:02:18 公開日:2021-01-06
# 燃焼系の不安定検出のための3次元畳み込み選択型オートエンコーダ

3D Convolutional Selective Autoencoder For Instability Detection in Combustion Systems ( http://arxiv.org/abs/2101.01877v1 )

ライセンス: Link先を確認
Tryambak Gangopadhyay, Vikram Ramanan, Adedotun Akintayo, Paige K Boor, Soumalya Sarkar, Satyanarayanan R Chakravarthy, Soumik Sarkar(参考訳) 物理系における臨界(位相)遷移の解析解は単純な非線形系には豊富であるが、実寿命力学系ではそのような解析は難解である。 そのような物理システムの重要な例は燃焼における熱音響不安定性であり、宇宙産業やエネルギー産業を駆動するより安全でエネルギー効率の良いガスタービンエンジンを構築するためには、不安定発生の予測や早期検出が難しい技術的課題である。 エンジンの燃焼室で発生する不安定性は数学的に複雑すぎてモデル化できない。 データ駆動方式でこの問題に対処するため,スワール安定化燃焼器(ガスタービンエンジン燃焼器の共振器)から撮影したハイスピードビデオを用いて自励発振の進化を検出する3D畳み込み選択型オートエンコーダ(3D-CSAE)と呼ばれる新しいディープラーニングアーキテクチャを提案する。 3d-csaeは、燃焼不安定に関連する複雑な視覚的および動的特徴を階層的に学習するフィルターで構成されている。 限られた操作条件から得られたビデオのフレーム上で3D-CSAEをトレーニングする。 ビデオ中の動的情報を利用して階層的・大規模不安定構造を特徴付けるのに有効な3D-CSAEハイパーパラメータを選択する。 提案モデルは,不安定な前駆体を検出する際の性能改善を示す。 機械学習による結果は、物理ベースのオフライン測定によって検証される。 高度な能動制御機構は、提案された3D-CSAEのオンライン検出能力を直接利用して、様々な厳しい条件と条件下で作動するエンジンに対する燃焼不安定性の影響を軽減することができる。

While analytical solutions of critical (phase) transitions in physical systems are abundant for simple nonlinear systems, such analysis remains intractable for real-life dynamical systems. A key example of such a physical system is thermoacoustic instability in combustion, where prediction or early detection of an onset of instability is a hard technical challenge, which needs to be addressed to build safer and more energy-efficient gas turbine engines powering aerospace and energy industries. The instabilities arising in combustion chambers of engines are mathematically too complex to model. To address this issue in a data-driven manner instead, we propose a novel deep learning architecture called 3D convolutional selective autoencoder (3D-CSAE) to detect the evolution of self-excited oscillations using spatiotemporal data, i.e., hi-speed videos taken from a swirl-stabilized combustor (laboratory surrogate of gas turbine engine combustor). 3D-CSAE consists of filters to learn, in a hierarchical fashion, the complex visual and dynamic features related to combustion instability. We train the 3D-CSAE on frames of videos obtained from a limited set of operating conditions. We select the 3D-CSAE hyper-parameters that are effective for characterizing hierarchical and multiscale instability structure evolution by utilizing the dynamic information available in the video. The proposed model clearly shows performance improvement in detecting the precursors of instability. The machine learning-driven results are verified with physics-based off-line measures. Advanced active control mechanisms can directly leverage the proposed online detection capability of 3D-CSAE to mitigate the adverse effects of combustion instabilities on the engine operating under various stringent requirements and conditions.
翻訳日:2021-04-11 00:02:03 公開日:2021-01-06
# IPLS : 分散フェデレーション学習のためのフレームワーク

IPLS : A Framework for Decentralized Federated Learning ( http://arxiv.org/abs/2101.01901v1 )

ライセンス: Link先を確認
Christodoulos Pappas, Dimitris Chatzopoulos, Spyros Lalis, Manolis Vavalis(参考訳) リッチで多次元、プライバシに敏感なユーザデータを格納するリソース豊富なモバイルデバイスの普及は、データを共有することなくMLモデルを作成することができる機械学習(ML)パラダイムであるフェデレーションドラーニング(FL)の設計を動機付けている。 しかし、既存のFLフレームワークの大半は集中型エンティティに依存しています。 本稿では,惑星間ファイルシステム(IPFS)を部分的にベースとした,完全に分散化されたフェデレーション学習フレームワークであるIPLSを紹介する。 IPLSを使用して対応するプライベートIPFSネットワークに接続することで、任意のパーティがMLモデルのトレーニングプロセスを開始するか、すでに他のパーティによって開始されているトレーニングプロセスに参加することができる。 IPLSは、参加者数に応じてスケールし、断続接続や動的入場/到着に対して堅牢であり、最小限のリソースを必要とし、トレーニングされたモデルの精度が1000分の1の精度低下を伴う集中FLフレームワークの精度に迅速に収束することを保証する。

The proliferation of resourceful mobile devices that store rich, multidimensional and privacy-sensitive user data motivate the design of federated learning (FL), a machine-learning (ML) paradigm that enables mobile devices to produce an ML model without sharing their data. However, the majority of the existing FL frameworks rely on centralized entities. In this work, we introduce IPLS, a fully decentralized federated learning framework that is partially based on the interplanetary file system (IPFS). By using IPLS and connecting into the corresponding private IPFS network, any party can initiate the training process of an ML model or join an ongoing training process that has already been started by another party. IPLS scales with the number of participants, is robust against intermittent connectivity and dynamic participant departures/arrivals, requires minimal resources, and guarantees that the accuracy of the trained model quickly converges to that of a centralized FL framework with an accuracy drop of less than one per thousand.
翻訳日:2021-04-11 00:01:35 公開日:2021-01-06
# 雑音下における連合学習:収束解析と設計例

Federated Learning over Noisy Channels: Convergence Analysis and Design Examples ( http://arxiv.org/abs/2101.02198v1 )

ライセンス: Link先を確認
Xizixiang Wei and Cong Shen(参考訳) 連邦学習(FL)は、アップリンクとダウンリンクの両方のコミュニケーションに誤りがある場合に有効か? flはどの程度の通信ノイズを処理できるのか,学習性能に与える影響は何か? この作業は、flパイプラインにアップリンクとダウンリンクの両方のノイズチャネルを明示的に組み込むことで、これらの事実上重要な質問に答えることに費やされている。 本報告では, フルクライアントおよび部分クライアントの参加, 直接モデルおよびモデル差分送信, 非独立および同一分散(IID)ローカルデータセットを含む, FLの同時アップリンクおよびダウンリンクノイズ通信チャネル上の新しい収束解析について述べる。 これらの解析は、ノイズチャネル上のflが通信エラーのない理想的な場合と同じ収束挙動を持つのに十分な条件を特徴付ける。 具体的には、FedAvgのO(1/T)収束率を完全通信で維持するためには、直接モデル伝送のためのアップリンクとダウンリンクの信号-雑音比(SNR)を、tが通信ラウンドの指標であるO(t^2)としてスケールするように制御する必要があるが、モデル差動伝送には一定を維持することができる。 確率的勾配降下(sgd)は本質的にノイズの多いプロセスであり、アップリンク/ダウンリンクの通信ノイズは時間的に変化するsgdノイズを支配できなければ許容できる。 実世界のflタスクを用いた広範囲な数値実験により, 電力制御とダイバーシティの組み合わせという2つの広く採用されているコミュニケーション手法を用いて, これらの理論的な知見を実証し, それらの性能の利点を検証した。

Does Federated Learning (FL) work when both uplink and downlink communications have errors? How much communication noise can FL handle and what is its impact to the learning performance? This work is devoted to answering these practically important questions by explicitly incorporating both uplink and downlink noisy channels in the FL pipeline. We present several novel convergence analyses of FL over simultaneous uplink and downlink noisy communication channels, which encompass full and partial clients participation, direct model and model differential transmissions, and non-independent and identically distributed (IID) local datasets. These analyses characterize the sufficient conditions for FL over noisy channels to have the same convergence behavior as the ideal case of no communication error. More specifically, in order to maintain the O(1/T) convergence rate of FedAvg with perfect communications, the uplink and downlink signal-to-noise ratio (SNR) for direct model transmissions should be controlled such that they scale as O(t^2) where t is the index of communication rounds, but can stay constant for model differential transmissions. The key insight of these theoretical results is a "flying under the radar" principle - stochastic gradient descent (SGD) is an inherent noisy process and uplink/downlink communication noises can be tolerated as long as they do not dominate the time-varying SGD noise. We exemplify these theoretical findings with two widely adopted communication techniques - transmit power control and diversity combining - and further validating their performance advantages over the standard methods via extensive numerical experiments using several real-world FL tasks.
翻訳日:2021-04-11 00:01:16 公開日:2021-01-06