このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201223となっている論文です。

PDF登録状況(公開日: 20201223)

TitleAuthorsAbstract論文公表日・翻訳日
# ディープラーニングに基づくDenoisingアルゴリズムによるリアルタイムモンテカルロ線量計算に向けたDeep Dose Plugin

Deep Dose Plugin Towards Real-time Monte Carlo Dose Calculation Through a Deep Learning based Denoising Algorithm ( http://arxiv.org/abs/2011.14959v2 )

ライセンス: Link先を確認
Ti Bai, Biling Wang, Dan Nguyen, Steve Jiang(参考訳) モンテカルロ (MC) シミュレーションは放射線治療用線量計算の金標準法であると考えられている。 しかし、高精度を実現するには多くのシミュレーション履歴が必要であり、これは時間を要する。 コンピュータグラフィックス処理ユニット(GPU)の使用はMCシミュレーションを大幅に加速し、典型的な放射線治療計画のために数分以内に線量計算を可能にした。 しかし、いくつかの臨床応用では、MC線量計算のリアルタイム効率が要求される。 この問題に対処するため,我々は,リアルタイムMC線量計算を実現するために,現在のGPUベースのMC線量エンジンに接続可能なリアルタイム深層学習ベースの線量デノイザを開発した。 この目的を達成するために,(1)voxelアンシャッフルとvoxelシャッフル演算子を適用し,情報損失のない入出力サイズを低減し,2)3次元体積畳み込みを2次元軸畳み込みと1次元スライス畳み込みに分離した。 さらに、弱教師付き学習フレームワークを用いてネットワークをトレーニングし、必要なトレーニングデータセットのサイズを大幅に削減し、訓練されたモデルの異なる放射線ビームへの高速な微調整を可能とした。 実験の結果,提案したデノイザは39msで動作可能であり,ベースラインモデルよりも約11.6倍高速であることがわかった。 結果として、MC線量計算パイプライン全体が0.15秒以内で完了し、GPU MC線量計算とディープラーニングに基づく denoising の両方が含まれ、オンライン適応放射線治療のような放射線治療応用に必要なリアルタイム効率を達成することができる。

Monte Carlo (MC) simulation is considered the gold standard method for radiotherapy dose calculation. However, achieving high precision requires a large number of simulation histories, which is time consuming. The use of computer graphics processing units (GPUs) has greatly accelerated MC simulation and allows dose calculation within a few minutes for a typical radiotherapy treatment plan. However, some clinical applications demand real time efficiency for MC dose calculation. To tackle this problem, we have developed a real time, deep learning based dose denoiser that can be plugged into a current GPU based MC dose engine to enable real time MC dose calculation. We used two different acceleration strategies to achieve this goal: 1) we applied voxel unshuffle and voxel shuffle operators to decrease the input and output sizes without any information loss, and 2) we decoupled the 3D volumetric convolution into a 2D axial convolution and a 1D slice convolution. In addition, we used a weakly supervised learning framework to train the network, which greatly reduces the size of the required training dataset and thus enables fast fine tuning based adaptation of the trained model to different radiation beams. Experimental results show that the proposed denoiser can run in as little as 39 ms, which is around 11.6 times faster than the baseline model. As a result, the whole MC dose calculation pipeline can be finished within 0.15 seconds, including both GPU MC dose calculation and deep learning based denoising, achieving the real time efficiency needed for some radiotherapy applications, such as online adaptive radiotherapy.
翻訳日:2021-06-06 14:42:48 公開日:2020-12-23
# CPF:ハンドオブジェクトインタラクションをモデル化するための接触電位場学習

CPF: Learning a Contact Potential Field to Model the Hand-object Interaction ( http://arxiv.org/abs/2012.00924v2 )

ライセンス: Link先を確認
Lixin Yang, Xinyu Zhan, Kailin Li, Wenqiang Xu, Jiefeng Li, Cewu Lu(参考訳) 深層学習の手法により,相互作用中の手オブジェクトのポーズ(HO)の推定が顕著な成長をもたらした。 手と物体の接触を適切にモデル化することが、もっともらしい把握を構築する鍵である。 しかし、従来の研究は通常、hoポーズを共同推定することに焦点をあてるが、把持時に保持される物理的接触を完全には探索しない。 本稿では,各接触をバネ質量系としてモデル化した明示的な接触場である接触電位場(CPF)を提案する。 すると、これらの系に対する弾性エネルギーを最小化することで、自然な把握を洗練できる。 CPFを回復するために,MIHOという学習適合型ハイブリッドフレームワークを提案する。 2つの公開ベンチマークによる大規模な実験により,提案手法はいくつかの再現指標において最先端を達成でき,地上構造が厳密な相互接続や解離性を示す場合でも,より物理的に妥当なHOポーズを生成できることが示された。 私たちのコードはhttps://github.com/l ixiny/cpfで利用可能です。

Estimating hand-object (HO) pose during interaction has been brought remarkable growth in virtue of deep learning methods. Modeling the contact between the hand and object properly is the key to construct a plausible grasp. Yet, previous works usually focus on jointly estimating HO pose but not fully explore the physical contact preserved in grasping. In this paper, we present an explicit contact representation, Contact Potential Field (CPF) that models each hand-object contact as a spring-mass system. Then we can refine a natural grasp by minimizing the elastic energy w.r.t those systems. To recover CPF, we also propose a learning-fitting hybrid framework named MIHO. Extensive experiments on two public benchmarks have shown that our method can achieve state-of-the-art in several reconstruction metrics, and allow us to produce more physically plausible HO pose even when the ground-truth exhibits severe interpenetration or disjointedness. Our code is available at https://github.com/l ixiny/CPF.
翻訳日:2021-05-25 04:02:43 公開日:2020-12-23
# 新型コロナウイルス(COVID-19)のTwitter談話における誤情報とエンゲージメントの予測

Predicting Misinformation and Engagement in COVID-19 Twitter Discourse in the First Months of the Outbreak ( http://arxiv.org/abs/2012.02164v2 )

ライセンス: Link先を確認
Mirela Silva, Fabr\'icio Ceschin, Prakash Shrestha, Christopher Brant, Juliana Fernandes, Catia S. Silva, Andr\'e Gr\'egio, Daniela Oliveira, and Luiz Giovanini(参考訳) 偽情報には、より大きな疑わしい議題と社会のカオス的なフラクチャーへの故意な虚偽の拡散が伴う。 一般大衆は、これらの悪質な目的に対するソーシャルメディアの誤用に気付いており、世界的な公衆衛生危機でさえ誤情報の影響を受けていない(悪意のない偽装コンテンツが拡散している)。 本稿では,新型コロナウイルス関連ツイート505万件について,ボット行動とエンゲージメントの機能として誤情報を理解するために検討した。 相関に基づく特徴選択法を用いて、170以上の特徴のうち、最も関連性の高い特徴サブセット11を選定し、事実と誤報を区別し、高機能な誤報ツイートを予測する。 10個の人気クラス分類器を用いて, 平均Fスコアを72 %以上達成し, 選択した特徴の関連性を高めた。 その結果, (i) 実際のユーザが事実と誤情報の両方をツイートするのに対して, (ii) 偽情報のツイートは事実よりもエンゲージメントが低いこと, (iii) ツイートのテキスト内容が事実と誤情報とを区別する上で最も重要なこと, (iv) ユーザアカウントのメタデータと人間のような活動が, 事実と誤情報ツイートのハイエンゲージメントを予測する上で最も重要なこと, (v) 感情的特徴は関連性がないことがわかった。

Disinformation entails the purposeful dissemination of falsehoods towards a greater dubious agenda and the chaotic fracturing of a society. The general public has grown aware of the misuse of social media towards these nefarious ends, where even global public health crises have not been immune to misinformation (deceptive content spread without intended malice). In this paper, we examine nearly 505K COVID-19-related tweets from the initial months of the pandemic to understand misinformation as a function of bot-behavior and engagement. Using a correlation-based feature selection method, we selected the 11 most relevant feature subsets among over 170 features to distinguish misinformation from facts, and to predict highly engaging misinformation tweets about COVID-19. We achieved an average F-score of at least 72\% with ten popular multi-class classifiers, reinforcing the relevance of the selected features. We found that (i) real users tweet both facts and misinformation, while bots tweet proportionally more misinformation; (ii) misinformation tweets were less engaging than facts; (iii) the textual content of a tweet was the most important to distinguish fact from misinformation while (iv) user account metadata and human-like activity were most important to predict high engagement in factual and misinformation tweets; and (v) sentiment features were not relevant.
翻訳日:2021-05-23 14:36:11 公開日:2020-12-23
# (参考訳) Wassersteinに基づく非定常性を用いたオンライン確率最適化

Online Stochastic Optimization with Wasserstein Based Non-stationarity ( http://arxiv.org/abs/2012.06961v2 )

ライセンス: CC BY 4.0
Jiashuo Jiang, Xiaocheng Li, Jiawei Zhang(参考訳) 有限期間の地平線上で複数の予算制約を持つ一般的なオンライン確率最適化問題を考える。 各期間において、報酬関数と複数のコスト関数が明らかにされ、意思決定者は、報酬を収集して予算を消費するために、凸及びコンパクトなアクションセットからのアクションを指定する必要がある。 各コスト関数は1つの予算の消費に対応する。 それぞれの期間において、報酬とコスト関数は未知の分布から引き出される。 意思決定者の目標は、予算制約の対象となる累積報酬を最大化することである。 この定式化は、オンラインリニアプログラミングやネットワーク収益管理など、幅広いアプリケーションを取り込んでいる。 本稿では,次の2つの設定について考察する。 (i) 真の分布が未知であるが,事前推定(おそらく不正確な)が利用可能であるデータ駆動設定 (ii) 真の分布が完全に未知であるような非形式的設定 (uninformative setting) である。 本研究では,事前推定の不正確な設定(i)とシステムの非定常性(ii)を定量化する統一wasserstein- distance based measureを提案する。 提案手法は,両設定においてサブ線形後悔の達成に必要かつ十分な条件を導出することを示す。 i) 設定のために,本アルゴリズムは主対双対的な視点を採り,基礎となる分布の事前情報を双対空間におけるオンライン勾配降下手順に統合するアルゴリズムを提案する。 このアルゴリズムは自然に非形式的設定 (ii) にも拡張される。 どちらの設定でも、対応するアルゴリズムが最適な順序を後悔することを示す。 数値実験では,提案アルゴリズムが再解法と自然に統合され,経験的性能がさらに向上することを示した。

We consider a general online stochastic optimization problem with multiple budget constraints over a horizon of finite time periods. In each time period, a reward function and multiple cost functions are revealed, and the decision maker needs to specify an action from a convex and compact action set to collect the reward and consume the budget. Each cost function corresponds to the consumption of one budget. In each period, the reward and cost functions are drawn from an unknown distribution, which is non-stationary across time. The objective of the decision maker is to maximize the cumulative reward subject to the budget constraints. This formulation captures a wide range of applications including online linear programming and network revenue management, among others. In this paper, we consider two settings: (i) a data-driven setting where the true distribution is unknown but a prior estimate (possibly inaccurate) is available; (ii) an uninformative setting where the true distribution is completely unknown. We propose a unified Wasserstein-distance based measure to quantify the inaccuracy of the prior estimate in setting (i) and the non-stationarity of the system in setting (ii). We show that the proposed measure leads to a necessary and sufficient condition for the attainability of a sublinear regret in both settings. For setting (i), we propose a new algorithm, which takes a primal-dual perspective and integrates the prior information of the underlying distributions into an online gradient descent procedure in the dual space. The algorithm also naturally extends to the uninformative setting (ii). Under both settings, we show the corresponding algorithm achieves a regret of optimal order. In numerical experiments, we demonstrate how the proposed algorithms can be naturally integrated with the re-solving technique to further boost the empirical performance.
翻訳日:2021-05-09 19:43:54 公開日:2020-12-23
# (参考訳) FaceDet3D:3次元幾何学的詳細予測による顔表現 [全文訳有]

FaceDet3D: Facial Expressions with 3D Geometric Detail Prediction ( http://arxiv.org/abs/2012.07999v3 )

ライセンス: CC BY 4.0
ShahRukh Athar, Albert Pumarola, Francesc Moreno-Noguer, Dimitris Samaras(参考訳) 顔表現は3次元顔形状に関する様々な高度な詳細を誘導する。 例えば、笑うと頬のしわや染みが生じるが、怒っていると額のしわが生じることが多い。 人間の顔の変形可能なモデル(3dmm)は、pcaベースの表現でそのような詳細を捉えられず、表現の編集に使用するとそのような詳細を生成することができない。 そこで本研究では,1つの画像から,任意の対象表現と一致する幾何学的顔詳細を生成する,初歩的な手法であるfaceedet3dを紹介する。 顔の詳細は頂点変位マップとして表現され、その後Neural Rendererによって、任意の所望の表現とビューにおいて、任意の単一の画像の新規画像を写真リアルに描画するために使用される。 プロジェクトのWebサイトは以下の通り。

Facial Expressions induce a variety of high-level details on the 3D face geometry. For example, a smile causes the wrinkling of cheeks or the formation of dimples, while being angry often causes wrinkling of the forehead. Morphable Models (3DMMs) of the human face fail to capture such fine details in their PCA-based representations and consequently cannot generate such details when used to edit expressions. In this work, we introduce FaceDet3D, a first-of-its-kind method that generates - from a single image - geometric facial details that are consistent with any desired target expression. The facial details are represented as a vertex displacement map and used then by a Neural Renderer to photo-realistically render novel images of any single image in any desired expression and view. The project website is: http://shahrukhathar .github.io/2020/12/1 4/FaceDet3D.html
翻訳日:2021-05-08 15:46:52 公開日:2020-12-23
# (参考訳) 一般政策、直列化、及び計画幅 [全文訳有]

General Policies, Serializations, and Planning Width ( http://arxiv.org/abs/2012.08033v2 )

ライセンス: CC BY 4.0
Blai Bonet and Hector Geffner(参考訳) 多くのベンチマーク計画領域では、問題幅が指数関数的に動く単純な多項式探索手順(iw)で原子目標に達することが観察されている。 そのような問題には、実際に有界幅がある: 問題変数の数で成長せず、しばしば2より大きい幅である。 しかし、幅の概念はBFWSのような最先端の計画アルゴリズムの一部となっているが、なぜ多くのベンチマークドメインが幅境界を持つのかについては、まだよく説明されていない。 本研究では,計画問題の複数事例を一度に解決しようとする一般計画の考え方に,境界幅と直列幅を関連付けることで,この問題に対処する。 有界幅は、ドメインエンコーディングにおいて明示的あるいは暗黙的に表現される特徴の観点から、最適の一般ポリシーを許容する計画領域の特性であることを示す。 結果は、一般的なポリシーが最適である必要がないような境界付き直列化幅を持つはるかに大きな領域に拡張される。 この研究はまた、手作業でドメイン制御の知識をエンコードしたり、トレースから学習したりできるポリシースケッチの形でドメインシリアライズを指定するための、新しいシンプルで意味のある、表現力のある言語へと導かれる。 スケッチの使用と理論的結果の意味は、すべて多くの例を通して説明されている。

It has been observed that in many of the benchmark planning domains, atomic goals can be reached with a simple polynomial exploration procedure, called IW, that runs in time exponential in the problem width. Such problems have indeed a bounded width: a width that does not grow with the number of problem variables and is often no greater than two. Yet, while the notion of width has become part of the state-of-the-art planning algorithms like BFWS, there is still no good explanation for why so many benchmark domains have bounded width. In this work, we address this question by relating bounded width and serialized width to ideas of generalized planning, where general policies aim to solve multiple instances of a planning problem all at once. We show that bounded width is a property of planning domains that admit optimal general policies in terms of features that are explicitly or implicitly represented in the domain encoding. The results are extended to much larger class of domains with bounded serialized width where the general policies do not have to be optimal. The study leads also to a new simple, meaningful, and expressive language for specifying domain serializations in the form of policy sketches which can be used for encoding domain control knowledge by hand or for learning it from traces. The use of sketches and the meaning of the theoretical results are all illustrated through a number of examples.
翻訳日:2021-05-08 13:16:35 公開日:2020-12-23
# 部分点雲上の3次元物体分類 : 実用的展望

3D Object Classification on Partial Point Clouds: A Practical Perspective ( http://arxiv.org/abs/2012.10042v2 )

ライセンス: Link先を確認
Zelin Xu, Ke Chen, Tong Zhang, C. L. Philip Chen, Kui Jia(参考訳) 点雲(英: point cloud)は、物体の表面全体を覆う3dオブジェクト分類で採用されている一般的な形状表現である。 しかし、現実のシナリオで収集された点雲は、任意のSO(3)視点で観察される可視的な対象部分からスキャンされるため、実際にはそのような仮定は無効である。 そこで本研究では,任意のポーズの下でオブジェクトインスタンスの部分点雲を分類する実用的な設定を提案する。 完全な対象点雲の分類と比較すると、対象クラス間の局所形状の幾何学的類似性と、観測ビューによって制限される測地線のクラス内異同性の観点から、この問題はより困難なものとなっている。 対象物表面における部分点雲の位置を特定することは、上記の課題を軽減し、6次元オブジェクトのポーズ推定の補助的タスクによって解決できると考える。 そこで本論文では, 可視点雲の正準姿勢への剛性変換のためのアライメントモジュール予測オブジェクトと, PointNet++ や DGCNN などの典型的な点分類器からなるアライメント分類方式のアルゴリズムを提案する。 単一ビューの部分的な設定に適応したModelNet40およびScanNetデータセットの実験結果から、提案手法は、全点クラウドの代表的なクラウド分類器から拡張された3つの代替スキームより優れていることを示した。

A point cloud is a popular shape representation adopted in 3D object classification, which covers the whole surface of an object and is usually well aligned. However, such an assumption can be invalid in practice, as point clouds collected in real-world scenarios are typically scanned from visible object parts observed under arbitrary SO(3) viewpoint, which are thus incomplete due to self and inter-object occlusion. In light of this, this paper introduces a practical setting to classify partial point clouds of object instances under any poses. Compared to the classification of complete object point clouds, such a problem is made more challenging in view of geometric similarities of local shape across object classes and intra-class dissimilarities of geometries restricted by their observation view. We consider that specifying the location of partial point clouds on their object surface is essential to alleviate suffering from the aforementioned challenges, which can be solved via an auxiliary task of 6D object pose estimation. To this end, a novel algorithm in an alignment-classifica tion manner is proposed in this paper, which consists of an alignment module predicting object pose for the rigid transformation of visible point clouds to their canonical pose and a typical point classifier such as PointNet++ and DGCNN. Experiment results on the popular ModelNet40 and ScanNet datasets, which are adapted to a single-view partial setting, demonstrate the proposed method can outperform three alternative schemes extended from representative point cloud classifiers for complete point clouds.
翻訳日:2021-05-01 18:13:58 公開日:2020-12-23
# エンド・ツー・エンド話者ダイアリゼーション

End-to-End Speaker Diarization as Post-Processing ( http://arxiv.org/abs/2012.10055v2 )

ライセンス: Link先を確認
Shota Horiguchi, Paola Garcia, Yusuke Fujita, Shinji Watanabe, Kenji Nagamatsu(参考訳) 本稿では,従来のクラスタリングによるダイアリゼーションの後処理として,エンドツーエンドダイアリゼーションモデルの利用について検討する。 クラスタリングに基づくダイアリゼーション手法では、フレームを話者数のクラスタに分割する。 一方,いくつかのエンドツーエンドダイアリゼーション手法では,問題を多ラベル分類として扱うことで重なり合う音声を処理できる。 柔軟な話者数を扱う方法もあるが、話者数が大きい場合にはうまく機能しない。 そこで本研究では,クラスタリング法により得られた結果の処理後処理として,両話者間のダイアリゼーション手法を提案する。 結果から2つの話者を反復的に選択し、2つの話者の結果を更新し、重なり合う領域を改善する。 実験結果から,提案アルゴリズムはCALLHOME,AMI,DIHARD IIデータセット間の最先端手法の性能を一貫して向上することが示された。

This paper investigates the utilization of an end-to-end diarization model as post-processing of conventional clustering-based diarization. Clustering-based diarization methods partition frames into clusters of the number of speakers; thus, they typically cannot handle overlapping speech because each frame is assigned to one speaker. On the other hand, some end-to-end diarization methods can handle overlapping speech by treating the problem as multi-label classification. Although some methods can treat a flexible number of speakers, they do not perform well when the number of speakers is large. To compensate for each other's weakness, we propose to use a two-speaker end-to-end diarization method as post-processing of the results obtained by a clustering-based method. We iteratively select two speakers from the results and update the results of the two speakers to improve the overlapped region. Experimental results show that the proposed algorithm consistently improved the performance of the state-of-the-art methods across CALLHOME, AMI, and DIHARD II datasets.
翻訳日:2021-05-01 18:05:22 公開日:2020-12-23
# 深部ReLUネットワークのためのニューラルタンジェントカーネルの最小固有値のタイト境界

Tight Bounds on the Smallest Eigenvalue of the Neural Tangent Kernel for Deep ReLU Networks ( http://arxiv.org/abs/2012.11654v2 )

ライセンス: Link先を確認
Quynh Nguyen, Marco Mondelli, Guido Montufar(参考訳) 最近の研究は、ニューラルネットワークの神経接核(neural tangent kernel, ntk)による理論的性質を分析した。 特に、NTKの最小固有値は、記憶能力、勾配降下アルゴリズムの収束、深層ネットの一般化に関係している。 しかし、既存の結果は2層設定のバウンダリを提供するか、NTKのスペクトルが多層ネットワークの0から離れていると仮定する。 本稿では,深部ReLUネットワークにおけるNTK行列の最小固有値に対して,無限幅および有限幅の制限の場合の厳密な境界を与える。 有限幅設定では、我々が考えるネットワークアーキテクチャは、非常に一般的なものである:我々は、およそn$ニューロンのオーダーを持つ広い層の存在、データサンプルの数がn$であること、そして残りの幅のスケーリングは任意である(対数因子によって)。 結果を得るためには,特徴行列の最小特異値に対する下限と,入出力特徴写像のリプシッツ定数に対する上限を与える。

A recent line of work has analyzed the theoretical properties of deep neural networks via the Neural Tangent Kernel (NTK). In particular, the smallest eigenvalue of the NTK has been related to memorization capacity, convergence of gradient descent algorithms and generalization of deep nets. However, existing results either provide bounds in the two-layer setting or assume that the spectrum of the NTK is bounded away from 0 for multi-layer networks. In this paper, we provide tight bounds on the smallest eigenvalue of NTK matrices for deep ReLU networks, both in the limiting case of infinite widths and for finite widths. In the finite-width setting, the network architectures we consider are quite general: we require the existence of a wide layer with roughly order of $N$ neurons, $N$ being the number of data samples; and the scaling of the remaining widths is arbitrary (up to logarithmic factors). To obtain our results, we analyze various quantities of independent interest: we give lower bounds on the smallest singular value of feature matrices, and upper bounds on the Lipschitz constant of input-output feature maps.
翻訳日:2021-04-27 06:44:35 公開日:2020-12-23
# RealFormer: Transformerは残留注意を好む

RealFormer: Transformer Likes Residual Attention ( http://arxiv.org/abs/2012.11747v2 )

ライセンス: Link先を確認
Ruining He and Anirudh Ravula and Bhargav Kanagal and Joshua Ainslie(参考訳) Transformerは現代のNLPモデルのバックボーンである。 本稿では,Masked Language Modeling, GLUE, SQuADなどのタスクにおいて, カノニカルトランスフォーマを大幅に上回るシンプルなResidual Attention Layer TransformerアーキテクチャであるRealFormerを提案する。 定性的には、realformerは実装が容易で、最小限のハイパーパラメータチューニングを必要とする。 また、トレーニングを安定させ、スパーザーの注意を引くモデルに繋がる。 コードは、紙が受け入れられるとオープンソースになる。

Transformer is the backbone of modern NLP models. In this paper, we propose RealFormer, a simple Residual Attention Layer Transformer architecture that significantly outperforms canonical Transformers on a spectrum of tasks including Masked Language Modeling, GLUE, and SQuAD. Qualitatively, RealFormer is easy to implement and requires minimal hyper-parameter tuning. It also stabilizes training and leads to models with sparser attentions. Code will be open-sourced upon paper acceptance.
翻訳日:2021-04-27 06:25:15 公開日:2020-12-23
# Facebookの広告エンゲージメント、2016年のロシアのアクティブ対策キャンペーンに

Facebook Ad Engagement in the Russian Active Measures Campaign of 2016 ( http://arxiv.org/abs/2012.11690v2 )

ライセンス: Link先を確認
Mirela Silva, Luiz Giovanini, Juliana Fernandes, Daniela Oliveira, Catia S. Silva(参考訳) 本稿は、ロシアのインターネット調査機関(IRA)が2015年6月から2017年8月までに作成した3,517件のFacebook広告を、2016年アメリカ合衆国大統領選挙をターゲットとしたアクティブな対策偽情報キャンペーンで調査する。 広告のエンゲージメント(広告クリック数による測定)と、広告のメタデータ、社会言語構造、感情に関する41の機能の関係を明らかにすることを目的とした。 i)相関分析によるエンゲージメントと機能の関係を理解すること、(ii)機能選択によってエンゲージメントを予測するために最も関連する機能サブセットを見つけること、(iii)トピックモデリングによってデータセットを最も特徴付けるセマンティックトピックを見つけること、の3つです。 広告費、テキストサイズ、広告ライフタイム、感情が、広告へのユーザのエンゲージメントを予測するトップ機能であることがわかった。 さらに、ポジティブ感情広告はネガティブ広告よりも魅力的であり、社会言語学的特徴(例えば宗教関連語の使用)は、エンゲージメント広告の構成において非常に重要であると認識された。 線形SVMとロジスティック回帰分類器はFスコアの最高値(両方のモデルで93.6%)を達成し、最適な特徴サブセットはそれぞれ12と6の機能を含んでいると判定した。 最後に、IRAが特定の広告トピック(LGBTの権利、アフリカ系アメリカ人の賠償など)を対象とする関連する研究の発見を裏付ける。

This paper examines 3,517 Facebook ads created by Russia's Internet Research Agency (IRA) between June 2015 and August 2017 in its active measures disinformation campaign targeting the 2016 U.S. general election. We aimed to unearth the relationship between ad engagement (as measured by ad clicks) and 41 features related to ads' metadata, sociolinguistic structures, and sentiment. Our analysis was three-fold: (i) understand the relationship between engagement and features via correlation analysis; (ii) find the most relevant feature subsets to predict engagement via feature selection; and (iii) find the semantic topics that best characterize the dataset via topic modeling. We found that ad expenditure, text size, ad lifetime, and sentiment were the top features predicting users' engagement to the ads. Additionally, positive sentiment ads were more engaging than negative ads, and sociolinguistic features (e.g., use of religion-relevant words) were identified as highly important in the makeup of an engaging ad. Linear SVM and Logistic Regression classifiers achieved the highest mean F-scores (93.6% for both models), determining that the optimal feature subset contains 12 and 6 features, respectively. Finally, we corroborate the findings of related works that the IRA specifically targeted Americans on divisive ad topics (e.g., LGBT rights, African American reparations).
翻訳日:2021-04-27 06:16:08 公開日:2020-12-23
# AdapMT ICON 2020における英語・ヒンディー語機械翻訳タスクのためのNMTモデルのドメイン適応

Domain Adaptation of NMT models for English-Hindi Machine Translation Task at AdapMT ICON 2020 ( http://arxiv.org/abs/2012.12112v2 )

ライセンス: Link先を確認
Ramchandra Joshi, Rushabh Karnavat, Kaustubh Jirapure, Raviraj Joshi(参考訳) ニューラルマシン翻訳(NMT)モデルの最近の進歩は、低資源のインドの言語に対する機械翻訳における技術結果の状態を実証している。 本稿では,adapmt共有タスクアイコン2020で提示された英語ヒンディー語のニューラルマシン翻訳システムについて述べる。 この共有タスクは、ai(artificial intelligence)や化学といった特定のドメインにおけるインド言語のための、小さなドメイン内並列コーパスを用いた翻訳システムの構築を目的としている。 BLEUスコアに基づく英ヒンディー語機械翻訳タスクにおける2つのNMTモデル,LSTM,Transformerアーキテクチャの有効性を評価した。 主にドメイン外のデータを用いてこれらのモデルをトレーニングし、ドメイン内のデータセットの特徴に基づいてシンプルなドメイン適応技術を用いています。 微調整と混合ドメインデータアプローチはドメイン適応に使用される。 我々のチームは化学・一般分野のEn-Hi翻訳タスクで第1位、AI分野のEn-Hi翻訳タスクで第2位にランクインした。

Recent advancements in Neural Machine Translation (NMT) models have proved to produce a state of the art results on machine translation for low resource Indian languages. This paper describes the neural machine translation systems for the English-Hindi language presented in AdapMT Shared Task ICON 2020. The shared task aims to build a translation system for Indian languages in specific domains like Artificial Intelligence (AI) and Chemistry using a small in-domain parallel corpus. We evaluated the effectiveness of two popular NMT models i.e, LSTM, and Transformer architectures for the English-Hindi machine translation task based on BLEU scores. We train these models primarily using the out of domain data and employ simple domain adaptation techniques based on the characteristics of the in-domain dataset. The fine-tuning and mixed-domain data approaches are used for domain adaptation. Our team was ranked first in the chemistry and general domain En-Hi translation task and second in the AI domain En-Hi translation task.
翻訳日:2021-04-26 07:45:21 公開日:2020-12-23
# (参考訳) 制御可能な人物画像生成のための対応学習 [全文訳有]

Correspondence Learning for Controllable Person Image Generation ( http://arxiv.org/abs/2012.12440v1 )

ライセンス: CC BY 4.0
Shilong Shen(参考訳) 本稿では、対象人物像のテクスチャを維持しつつ、対象人物像のポーズを対象ポーズに変換し、対象人物像のテクスチャを所望の衣服テクスチャに変化させる、対象人物像合成の制御可能な生成モデルである、図1に示すように、対象人物像合成の制御可能な生成モデルを提案する。 対象のポーズとソース画像との密接な対応を明確にすることで、ポーズ・トランファーがもたらすミスアライメントに効果的に対処し、高品質な画像を生成することができる。 具体的には、まずターゲットポーズの案内の下でターゲットセマンティックマップを生成し、生成プロセス中により正確なポーズ表現と構造的制約を提供する。 次に、分解された属性エンコーダを用いてコンポーネントの特徴を抽出し、より正確な密接な対応を確立するだけでなく、衣服誘導者生成を実現する。 その後、ターゲットポーズとshardedドメイン内のソースイメージとの密接な対応を確立する。 ソース画像特徴を濃密な対応に従って反動させ、変形を柔軟に考慮する。 最後に、ネットワークは、歪んだソース画像機能とターゲットポーズに基づいて画像をレンダリングする。 提案手法は,ポーズ誘導者生成における最先端手法よりも優れ,衣服誘導者生成における有効性を示す。

We present a generative model for controllable person image synthesis,as shown in Figure , which can be applied to pose-guided person image synthesis, $i.e.$, converting the pose of a source person image to the target pose while preserving the texture of that source person image, and clothing-guided person image synthesis, $i.e.$, changing the clothing texture of a source person image to the desired clothing texture. By explicitly establishing the dense correspondence between the target pose and the source image, we can effectively address the misalignment introduced by pose tranfer and generate high-quality images. Specifically, we first generate the target semantic map under the guidence of the target pose, which can provide more accurate pose representation and structural constraints during the generation process. Then, decomposed attribute encoder is used to extract the component features, which not only helps to establish a more accurate dense correspondence, but also realizes the clothing-guided person generation. After that, we will establish a dense correspondence between the target pose and the source image within the sharded domain. The source image feature is warped according to the dense correspondence to flexibly account for deformations. Finally, the network renders image based on the warped source image feature and the target pose. Experimental results show that our method is superior to state-of-the-art methods in pose-guided person generation and its effectiveness in clothing-guided person generation.
翻訳日:2021-04-26 05:59:20 公開日:2020-12-23
# (参考訳) 実画像の注目度向上に向けて : サブバンド・ピラミッド・アテンション [全文訳有]

Towards Boosting the Channel Attention in Real Image Denoising : Sub-band Pyramid Attention ( http://arxiv.org/abs/2012.12481v1 )

ライセンス: CC BY 4.0
Huayu Li, Haiyu Wu, Xiwen Chen, Hanning Zhang, and Abolfazl Razi(参考訳) ニューラルネットワーク(ANN)の畳み込みレイヤは、機能選択の柔軟性のないチャネル機能を等しく扱う。 未知のノイズ分布を持つ実世界のアプリケーション、特に学習可能なパターンを持つ構造化ノイズでは、画像のデノイジングにannを使用すると、有益な機能をモデリングすることで、パフォーマンスが大幅に向上する可能性がある。 実画像のノイズ除去タスクにおけるチャネルアテンションメソッドは、機能チャネル間の依存性を利用するため、周波数成分フィルタリングのメカニズムとなる。 既存のチャンネルアテンションモジュールは通常、チャネル間の相関を学ぶためにデリプタとしてグローバル静的を使用する。 本手法は、周波数レベルでチャネルを再スケーリングするための代表係数の学習において非効率であると考える。 本稿では,ウェーブレットサブバンドピラミッドに基づく新しいサブバンドピラミッド注意(SPA)を提案し,抽出した特徴の周波数成分をよりきめ細かな方法で再検討する。 実画像復調用に設計されたネットワーク上にSPAブロックを配置する。 実験の結果,提案手法は,ベンチマークナイーブチャネルアテンションブロックよりも著しい改善が得られた。 さらに, ピラミッドレベルがSPAブロックの性能にどのように影響するかを示し, SPAブロックに対して良好な一般化能力を示す。

Convolutional layers in Artificial Neural Networks (ANN) treat the channel features equally without feature selection flexibility. While using ANNs for image denoising in real-world applications with unknown noise distributions, particularly structured noise with learnable patterns, modeling informative features can substantially boost the performance. Channel attention methods in real image denoising tasks exploit dependencies between the feature channels, hence being a frequency component filtering mechanism. Existing channel attention modules typically use global statics as descriptors to learn the inter-channel correlations. This method deems inefficient at learning representative coefficients for re-scaling the channels in frequency level. This paper proposes a novel Sub-band Pyramid Attention (SPA) based on wavelet sub-band pyramid to recalibrate the frequency components of the extracted features in a more fine-grained fashion. We equip the SPA blocks on a network designed for real image denoising. Experimental results show that the proposed method achieves a remarkable improvement than the benchmark naive channel attention block. Furthermore, our results show how the pyramid level affects the performance of the SPA blocks and exhibits favorable generalization capability for the SPA blocks.
翻訳日:2021-04-26 05:34:52 公開日:2020-12-23
# (参考訳) 低域テンソルを用いた加速度MRIの能動サンプリング [全文訳有]

Active Sampling for Accelerated MRI with Low-Rank Tensors ( http://arxiv.org/abs/2012.12496v1 )

ライセンス: CC BY 4.0
Zichang He, Bo Zhao, Zheng Zhang(参考訳) 磁気共鳴イメージング(MRI)は医学や生物学に革命をもたらす強力な画像モダリティである。 高次元MRIの撮像速度はしばしば制限され、実用性は制限される。 近年,スパースサンプリングによる高速MRイメージングを実現するために,低ランクテンソルモデルが利用されている。 既存の手法の多くは事前定義されたサンプリング設計を用いており、アクティブセンシングはローランクテンソルイメージングには適用されていない。 本稿では,高速MRイメージングのための能動的低ランクテンソルモデルを提案し,低ランクテンソル構造を利用したクエリ・バイ・コミッテモデルに基づくアクティブサンプリング手法を提案する。 3次元MRIデータセットの数値実験により,提案手法の有効性が示された。

Magnetic resonance imaging (MRI) is a powerful imaging modality that revolutionizes medicine and biology. The imaging speed of high-dimensional MRI is often limited, which constrains its practical utility. Recently, low-rank tensor models have been exploited to enable fast MR imaging with sparse sampling. Most existing methods use some pre-defined sampling design, and active sensing has not been explored for low-rank tensor imaging. In this paper, we introduce an active low-rank tensor model for fast MR imaging.We propose an active sampling method based on a Query-by-Committee model, making use of the benefits of low-rank tensor structure. Numerical experiments on a 3-D MRI data set demonstrate the effectiveness of the proposed method.
翻訳日:2021-04-26 05:25:04 公開日:2020-12-23
# (参考訳) Googleスケールディスクデータベースのための学習指標 [全文訳有]

Learned Indexes for a Google-scale Disk-based Database ( http://arxiv.org/abs/2012.12501v1 )

ライセンス: CC0 1.0
Hussam Abu-Libdeh, Deniz Alt{\i}nb\"uken, Alex Beutel, Ed H. Chi, Lyric Doshi, Tim Kraska, Xiaozhou (Steve) Li, Andy Ly, Christopher Olston(参考訳) 学習されたインデックス構造には大きな興奮があるが、B-Treesに関する数十年の研究を先導する新しい手法の実用性について理解可能な懐疑論がある。 本稿では,分散ディスクベースのデータベースシステムであるgoogleのbigtableに学習インデックスをどのように統合できるかを示すことにより,その不確実性を取り除くことに取り組んでいる。 学習したインデックスをBigtableに統合するために行ったいくつかの設計決定について詳述する。 その結果,学習インデックスの統合により,bigtableの読み取りレイテンシとスループットが大幅に向上することがわかった。

There is great excitement about learned index structures, but understandable skepticism about the practicality of a new method uprooting decades of research on B-Trees. In this paper, we work to remove some of that uncertainty by demonstrating how a learned index can be integrated in a distributed, disk-based database system: Google's Bigtable. We detail several design decisions we made to integrate learned indexes in Bigtable. Our results show that integrating learned index significantly improves the end-to-end read latency and throughput for Bigtable.
翻訳日:2021-04-26 04:52:20 公開日:2020-12-23
# (参考訳) 不整合データに対するAHP法とファジィAHP法の比較検討 [全文訳有]

A Comparative Study of AHP and Fuzzy AHP Method for Inconsistent Data ( http://arxiv.org/abs/2101.01067v1 )

ライセンス: CC BY 4.0
Md. Ashek-Al-Aziz, Sagar Mahmud, Md. Azizul Islam, Jubayer Al Mahmud, Khan Md. Hasib(参考訳) 決定分析の様々なケースでは、分析階層プロセス(ahp)とファジィベースahpまたはファジィahpという2つの一般的な方法を用いる。 どちらの手法も確率的データを扱うことができ、MCDM(Multi Criteria Decision Making)プロセスによって決定結果を決定することができる。 2つのメソッドの値は明らかに同じではないが、同じデータセットがそれらに供給される。 本研究では,2つの方法の類似点と類似点の観察を試みた。 出力のほぼ同じ傾向や変動は、整合性のない同じ入力データのセットに対して両方の手法で観測されている。 どちらの方法も50%の場合、アップとダウンの変動は同じである。

In various cases of decision analysis we use two popular methods: Analytical Hierarchical Process (AHP) and Fuzzy based AHP or Fuzzy AHP. Both the methods deal with stochastic data and can determine decision result through Multi Criteria Decision Making (MCDM) process. Obviously resulting values of the two methods are not same though same set of data is fed into them. In this research work, we have tried to observe similarities and dissimilarities between two methods outputs. Almost same trend or fluctuations in outputs have been seen for both methods for same set of input data which are not consistent. Both method outputs ups and down fluctuations are same for fifty percent cases.
翻訳日:2021-04-26 04:25:08 公開日:2020-12-23
# (参考訳) 転校学習に基づく糖尿病網膜症評価システム [全文訳有]

Diabetic Retinopathy Grading System Based on Transfer Learning ( http://arxiv.org/abs/2012.12515v1 )

ライセンス: CC BY 4.0
Eman AbdelMaksoud, Sherif Barakat, and Mohammed Elmogy(参考訳) 糖尿病網膜症(dr)を正しく検出・診断するために、研究者は多くの努力を払っている。 この病気は、連続的にスクリーニングされなければ突然盲目を引き起こす可能性があるため、非常に危険である。 そのため,様々なdrグレードを診断するためにcadシステム(computer assisted diagnostic)が開発されている。 近年,DR病の病的異常の診断において,深層学習(DL)法に基づくCADシステムが多く採用されている。 本稿では,多ラベル分類に依存したフルベースDLCADシステムを提案する。 提案するDL CADシステムでは,DR病の早期および高度な診断のために,カスタマイズされた効率的なネットモデルを提案する。 学習の転送は、小さなデータセットのトレーニングに非常に役立ちます。 IDRiDデータセットを利用した。 マルチラベルのデータセットである。 実験の結果,提案したDL CAD システムは堅牢で信頼性が高く,DR の検出・評価に有望な結果を無視できることがわかった。 提案システムは精度(ACC)が86%、Dice類似度係数(DSC)が78.45である。

Much effort is being made by the researchers in order to detect and diagnose diabetic retinopathy (DR) accurately automatically. The disease is very dangerous as it can cause blindness suddenly if it is not continuously screened. Therefore, many computers aided diagnosis (CAD) systems have been developed to diagnose the various DR grades. Recently, many CAD systems based on deep learning (DL) methods have been adopted to get deep learning merits in diagnosing the pathological abnormalities of DR disease. In this paper, we present a full based-DL CAD system depending on multi-label classification. In the proposed DL CAD system, we present a customized efficientNet model in order to diagnose the early and advanced grades of the DR disease. Learning transfer is very useful in training small datasets. We utilized IDRiD dataset. It is a multi-label dataset. The experiments manifest that the proposed DL CAD system is robust, reliable, and deigns promising results in detecting and grading DR. The proposed system achieved accuracy (ACC) equals 86%, and the Dice similarity coefficient (DSC) equals 78.45.
翻訳日:2021-04-26 03:54:02 公開日:2020-12-23
# (参考訳) 畳み込みニューラルネットワーク内の表現の解析 [全文訳有]

Analyzing Representations inside Convolutional Neural Networks ( http://arxiv.org/abs/2012.12516v1 )

ライセンス: CC BY 4.0
Uday Singh Saini, Evangelos E. Papalexakis(参考訳) ニューラルネットワークが学んだ概念をどのように発見し、簡潔に要約するか? このようなタスクは、fMRI/x線に基づく診断など、分類を含む推論領域におけるネットワークの適用において非常に重要である。 本研究では,ネットワークが学習する概念を,一連の入力例のクラスタ化方法,それらが活性化する例に基づくニューロンのクラスタ化,およびすべて同じ潜在空間内での入力機能に基づいて分類するフレームワークを提案する。 このフレームワークは教師なしで、入力機能のためのラベルなしで動作可能であり、入力例ごとにネットワークの内部アクティベーションにアクセスする必要があるため、広く適用することができる。 提案手法を広範囲に評価し,cifar-100データセット上でresnet-18が学習した,人間理解可能なコヒーレントな概念を提示する。

How can we discover and succinctly summarize the concepts that a neural network has learned? Such a task is of great importance in applications of networks in areas of inference that involve classification, like medical diagnosis based on fMRI/x-ray etc. In this work, we propose a framework to categorize the concepts a network learns based on the way it clusters a set of input examples, clusters neurons based on the examples they activate for, and input features all in the same latent space. This framework is unsupervised and can work without any labels for input features, it only needs access to internal activations of the network for each input example, thereby making it widely applicable. We extensively evaluate the proposed method and demonstrate that it produces human-understandable and coherent concepts that a ResNet-18 has learned on the CIFAR-100 dataset.
翻訳日:2021-04-26 03:45:11 公開日:2020-12-23
# (参考訳) Dual Distance Center Lossに基づく車両再識別 [全文訳有]

Vehicle Re-identification Based on Dual Distance Center Loss ( http://arxiv.org/abs/2012.12519v1 )

ライセンス: CC BY 4.0
Zhijun Hu, Yong Xu, Jie Wen, Lilei Sun, Raja S P(参考訳) 近年、深層学習は車両再識別の分野で広く利用されている。 深層モデルのトレーニングでは、ソフトマックス損失は通常、監視ツールとして使用される。 しかし、softmaxの損失はクローズドセットタスクではうまく機能するが、オープンセットタスクではうまく動作しない。 本稿では,中心損失の5つの欠点を要約し,これらすべてをdual distance center loss (ddcl) を提案することで解決した。 特に,中心損失とソフトマックス損失を組み合わせてモデルのトレーニングを監督しなければならないという欠点を解消し,中心損失を調査するための新たな視点を提供する。 さらに,提案したDDCLと特徴空間のソフトマックス損失との矛盾を検証し,ソフトマックス損失を除去した後に特徴空間のソフトマックス損失によって中心損失が制限されなくなることを示した。 具体的には、ユークリッド距離に基づいてピアソン距離を同じ中心に加え、同クラスのすべての特徴を特徴空間内の超球面と超キューブの交叉に限定する。 提案するピアソン距離は,中心損失のクラス内コンパクト性を強化し,中心損失の一般化能力を高める。 さらに、すべての中心対間のユークリッド距離閾値を設計することで、中心損失のクラス間分離性を高めるだけでなく、中心損失(DDCL)をソフトマックス損失と組み合わせることなくうまく機能させることができる。 DDCLをVeRi-776データセットとVabyIDデータセットという車両再識別分野に適用する。 そして、その優れた一般化能力を検証するために、msmt17データセットとmarket1501データセットという人物再識別の分野で一般的に使用される2つのデータセットで検証する。

Recently, deep learning has been widely used in the field of vehicle re-identification. When training a deep model, softmax loss is usually used as a supervision tool. However, the softmax loss performs well for closed-set tasks, but not very well for open-set tasks. In this paper, we sum up five shortcomings of center loss and solved all of them by proposing a dual distance center loss (DDCL). Especially we solve the shortcoming that center loss must combine with the softmax loss to supervise training the model, which provides us with a new perspective to examine the center loss. In addition, we verify the inconsistency between the proposed DDCL and softmax loss in the feature space, which makes the center loss no longer be limited by the softmax loss in the feature space after removing the softmax loss. To be specifically, we add the Pearson distance on the basis of the Euclidean distance to the same center, which makes all features of the same class be confined to the intersection of a hypersphere and a hypercube in the feature space. The proposed Pearson distance strengthens the intra-class compactness of the center loss and enhances the generalization ability of center loss. Moreover, by designing a Euclidean distance threshold between all center pairs, which not only strengthens the inter-class separability of center loss, but also makes the center loss (or DDCL) works well without the combination of softmax loss. We apply DDCL in the field of vehicle re-identification named VeRi-776 dataset and VehicleID dataset. And in order to verify its good generalization ability, we also verify it in two datasets commonly used in the field of person re-identification named MSMT17 dataset and Market1501 dataset.
翻訳日:2021-04-26 03:33:34 公開日:2020-12-23
# (参考訳) 視覚補間とフレーム選択誘導を用いた効率的なビデオアノテーション [全文訳有]

Efficient video annotation with visual interpolation and frame selection guidance ( http://arxiv.org/abs/2012.12554v1 )

ライセンス: CC BY 4.0
A. Kuznetsova, A. Talati, Y. Luo, K. Simmons and V. Ferrari(参考訳) 我々は、バウンディングボックス付きジェネリックビデオアノテーションのための統合フレームワークを導入する。 ビデオアノテーションは退屈で時間を要するプロセスであるため、長年にわたる問題です。 ビデオアノテーションの2つの重要な課題は,(1)全フレームのサブセットに人間の注釈器によって提供される境界ボックスの自動補間と補間,(2)手動で注釈を行うためのフレームの自動選択である。 第一に,補間能力と補間能力の両方を有するモデルを提案し,第二に,前述したアノテーションに基づいて,次にアノテートするフレームの提案を逐次生成する誘導機構を提案する。 シミュレーションにおいて,いくつかの難解なデータセットに対するアプローチを広範囲に評価し,線形補間よりも60%,市販トラッカーより35%,手動境界ボックス数を削減できることを実証した。 さらに,バウンディングボックス[25]を用いたビデオアノテーションの最先端手法に対して,10%のアノテーション時間の改善を示す。 最後に,人間のアノテーション実験を行い,その結果の広範囲な分析を行い,従来の線形補間に比べて実際のアノテーション処理時間を50%削減できることを示した。

We introduce a unified framework for generic video annotation with bounding boxes. Video annotation is a longstanding problem, as it is a tedious and time-consuming process. We tackle two important challenges of video annotation: (1) automatic temporal interpolation and extrapolation of bounding boxes provided by a human annotator on a subset of all frames, and (2) automatic selection of frames to annotate manually. Our contribution is two-fold: first, we propose a model that has both interpolating and extrapolating capabilities; second, we propose a guiding mechanism that sequentially generates suggestions for what frame to annotate next, based on the annotations made previously. We extensively evaluate our approach on several challenging datasets in simulation and demonstrate a reduction in terms of the number of manual bounding boxes drawn by 60% over linear interpolation and by 35% over an off-the-shelf tracker. Moreover, we also show 10% annotation time improvement over a state-of-the-art method for video annotation with bounding boxes [25]. Finally, we run human annotation experiments and provide extensive analysis of the results, showing that our approach reduces actual measured annotation time by 50% compared to commonly used linear interpolation.
翻訳日:2021-04-26 02:30:49 公開日:2020-12-23
# (参考訳) 分散適応制御:ロボットリサイクルプラント管理のための理想的な認知アーキテクチャ候補 [全文訳有]

Distributed Adaptive Control: An ideal Cognitive Architecture candidate for managing a robotic recycling plant ( http://arxiv.org/abs/2012.12586v1 )

ライセンス: CC BY 4.0
Oscar Guerrero-Rosado and Paul Verschure(参考訳) 過去10年間、社会は様々な技術分野において顕著な成長を遂げてきた。 しかし、第四次産業革命はまだ受け入れられていない。 業界 4.0 は、オープン環境がサイバー物理システム(CPS)に表す不確実性に対処するための新しいアーキテクチャモデルの必要性を含むいくつかの課題を課している。 廃棄物電気電子機器(WEEE)リサイクルプラントは、そのようなオープンな環境の1つである。 ここでは、CPSは変化する環境の中で調和して働き、類似した、あまり類似しないCPSと相互作用し、人間の労働者と適応的に協力する必要があります。 本稿では,リサイクルプラント管理に適した認知アーキテクチャとして,分散適応制御(DAC)理論を支持する。 具体的には、欧州プロジェクトHRリサイクルの要求を満たすため、DACの再帰的な実施(単一エージェントと大規模レベルの両方)が提案されている。 さらに,再帰型DACの将来の実装に関する現実的なベンチマークを行うことを目的として,マイクロリサイクルプラントプロトタイプについて紹介する。

In the past decade, society has experienced notable growth in a variety of technological areas. However, the Fourth Industrial Revolution has not been embraced yet. Industry 4.0 imposes several challenges which include the necessity of new architectural models to tackle the uncertainty that open environments represent to cyber-physical systems (CPS). Waste Electrical and Electronic Equipment (WEEE) recycling plants stand for one of such open environments. Here, CPSs must work harmoniously in a changing environment, interacting with similar and not so similar CPSs, and adaptively collaborating with human workers. In this paper, we support the Distributed Adaptive Control (DAC) theory as a suitable Cognitive Architecture for managing a recycling plant. Specifically, a recursive implementation of DAC (between both single-agent and large-scale levels) is proposed to meet the expected demands of the European Project HR-Recycler. Additionally, with the aim of having a realistic benchmark for future implementations of the recursive DAC, a micro-recycling plant prototype is presented.
翻訳日:2021-04-26 02:01:27 公開日:2020-12-23
# (参考訳) 医療におけるプライバシー保護型分散ディープラーニング手法の比較 [全文訳有]

Comparison of Privacy-Preserving Distributed Deep Learning Methods in Healthcare ( http://arxiv.org/abs/2012.12591v1 )

ライセンス: CC BY 4.0
Manish Gawali, Arvind C S, Shriya Suryavanshi, Harshit Madaan, Ashrika Gaikwad, Bhanu Prakash KN, Viraj Kulkarni, Aniruddha Pant(参考訳) 本稿では,プライバシ保護型分散学習技術であるフェデレーション学習,分割学習,SplitFedを比較した。 これらの手法を用いて胸部x線から結核を検出できる2値分類モデルを開発し,分類性能,通信コスト,計算コスト,訓練時間の観点から比較した。 本研究では,splitfedv3と呼ばれる分散学習アーキテクチャを提案する。 また,スプリット学習のための新たなトレーニング手法である代替ミニバッチトレーニングを提案する。

In this paper, we compare three privacy-preserving distributed learning techniques: federated learning, split learning, and SplitFed. We use these techniques to develop binary classification models for detecting tuberculosis from chest X-rays and compare them in terms of classification performance, communication and computational costs, and training time. We propose a novel distributed learning architecture called SplitFedv3, which performs better than split learning and SplitFedv2 in our experiments. We also propose alternate mini-batch training, a new training technique for split learning, that performs better than alternate client training, where clients take turns to train a model.
翻訳日:2021-04-26 01:51:06 公開日:2020-12-23
# (参考訳) 畳み込みニューラルネットワークに基づくFPGA深層学習加速の概観 [全文訳有]

Overview of FPGA deep learning acceleration based on convolutional neural network ( http://arxiv.org/abs/2012.12634v1 )

ライセンス: CC BY 4.0
Simin Liu(参考訳) 近年、ディープラーニングはますます成熟し、ディープラーニングの一般的なアルゴリズムとして、畳み込みニューラルネットワークは様々な視覚的タスクで広く使われている。 これまでは、ディープラーニングアルゴリズムに基づく研究は主にGPUやCPUなどのハードウェアに依存していた。 しかし、FPGAやフィールドプログラマブルな論理ゲートアレイの発展に伴い、様々なニューラルネットワーク深層学習アルゴリズムを組み合わせたハードウェアプラットフォームとして実装され、主に畳み込みの理論とアルゴリズムを紹介するレビュー記事である。 畳み込みニューラルネットワークに基づく既存のFPGA技術の応用シナリオを要約し、主に加速器の応用を紹介する。 同時に、いくつかのアクセラレータのロジックリソースの過小利用やメモリ帯域の過小利用を要約し、最高のパフォーマンスを得ることができないようにしている。

In recent years, deep learning has become more and more mature, and as a commonly used algorithm in deep learning, convolutional neural networks have been widely used in various visual tasks. In the past, research based on deep learning algorithms mainly relied on hardware such as GPUs and CPUs. However, with the increasing development of FPGAs, both field programmable logic gate arrays, it has become the main implementation hardware platform that combines various neural network deep learning algorithms This article is a review article, which mainly introduces the related theories and algorithms of convolution. It summarizes the application scenarios of several existing FPGA technologies based on convolutional neural networks, and mainly introduces the application of accelerators. At the same time, it summarizes some accelerators' under-utilization of logic resources or under-utilization of memory bandwidth, so that they can't get the best performance.
翻訳日:2021-04-26 00:17:45 公開日:2020-12-23
# (参考訳) ベイジアンニューラルネットワークに対する勾配自由逆攻撃 [全文訳有]

Gradient-Free Adversarial Attacks for Bayesian Neural Networks ( http://arxiv.org/abs/2012.12640v1 )

ライセンス: CC BY 4.0
Matthew Yuan, Matthew Wicker, Luca Laurenti(参考訳) 敵対的な例の存在は、機械学習モデルの堅牢性を理解することの重要性を強調している。 ベイズニューラルネットワーク(BNN)は、校正された不確実性のため、好適な対向性を持つことを示した。 しかし、近似ベイズ推定法を用いる場合、BNNの対角的堅牢性はまだよく理解されていない。 本研究では,BNNの逆例を見つけるために,勾配のない最適化手法を用いる。 特に,遺伝的アルゴリズム,代理モデル,およびゼロ次最適化手法を考察し,BNNの逆例を見つける目的に適応させる。 MNIST と Fashion MNIST データセットの実証評価では,ベイズ推定法により,勾配のないアルゴリズムを用いることで,最先端の勾配に基づく手法と比較して,逆例の発見率を大幅に向上させることができることを示した。

The existence of adversarial examples underscores the importance of understanding the robustness of machine learning models. Bayesian neural networks (BNNs), due to their calibrated uncertainty, have been shown to posses favorable adversarial robustness properties. However, when approximate Bayesian inference methods are employed, the adversarial robustness of BNNs is still not well understood. In this work, we employ gradient-free optimization methods in order to find adversarial examples for BNNs. In particular, we consider genetic algorithms, surrogate models, as well as zeroth order optimization methods and adapt them to the goal of finding adversarial examples for BNNs. In an empirical evaluation on the MNIST and Fashion MNIST datasets, we show that for various approximate Bayesian inference methods the usage of gradient-free algorithms can greatly improve the rate of finding adversarial examples compared to state-of-the-art gradient-based methods.
翻訳日:2021-04-26 00:11:14 公開日:2020-12-23
# (参考訳) 肺癌放射線検査におけるテクスチャーによる形態変化の予後 [全文訳有]

Prognostic Power of Texture Based Morphological Operations in a Radiomics Study for Lung Cancer ( http://arxiv.org/abs/2012.12652v1 )

ライセンス: CC BY 4.0
Paul Desbordes and Diksha and Benoit Macq(参考訳) 患者の予後を予測するための放射線学的特徴の重要性が確立されている。 予後に関する初期の研究は、より効率的な治療のパーソナライゼーションをもたらす可能性がある。 このため, 数学的形態学に基づく新たな放射能特性が提案されている。 彼らの研究は非小細胞肺癌(NSCLC)患者のオープンデータベース上で行われた。 腫瘍の特徴をCT画像から抽出し,PCAおよびKaplan-Meierサバイバル分析を用いて解析し,最も関連性の高いものを選択する。 研究対象の1,589例のうち32例は患者生存予測に関連があり,27例の古典的放射能特徴と5例のMM特徴(粒度と形態的共分散特徴を含む)がある。 これらの特徴は予後予測モデルに寄与し、最終的には臨床意思決定と患者の治療方針に寄与する。

The importance of radiomics features for predicting patient outcome is now well-established. Early study of prognostic features can lead to a more efficient treatment personalisation. For this reason new radiomics features obtained through mathematical morphology-based operations are proposed. Their study is conducted on an open database of patients suffering from Nonsmall Cells Lung Carcinoma (NSCLC). The tumor features are extracted from the CT images and analyzed via PCA and a Kaplan-Meier survival analysis in order to select the most relevant ones. Among the 1,589 studied features, 32 are found relevant to predict patient survival: 27 classical radiomics features and five MM features (including both granularity and morphological covariance features). These features will contribute towards the prognostic models, and eventually to clinical decision making and the course of treatment for patients.
翻訳日:2021-04-26 00:02:03 公開日:2020-12-23
# (参考訳) 要素の知性が低くなればなるほど、全体として知性が高まる。 それとも、そうじゃないの? [全文訳有]

The Less Intelligent the Elements, the More Intelligent the Whole. Or, Possibly Not? ( http://arxiv.org/abs/2012.12689v1 )

ライセンス: CC BY 4.0
Guido Fioretti, Andrea Policarpi(参考訳) 私たちは、脳内のニューロンと社会内の人々の類似性を利用して、集団知恵を創出するために個人の知性が必要かどうか、そして最も重要なことは、個々の知性がより大きな集団知恵を導出するかどうかを自問します。 本稿では,コネクショナリズム,エージェントベースモデリング,グループ心理学,経済学,物理学から得られた知見と知見を,システムのリアプノフ関数の構造変化の観点から考察する。 最後に、これらの知見をロトカ・ボルテラモデルにおける捕食者や捕食者の知性の種類や程度に応用し、特定の個々の理解が2つの種を共存させる理由を説明する。

We dare to make use of a possible analogy between neurons in a brain and people in society, asking ourselves whether individual intelligence is necessary in order to collective wisdom to emerge and, most importantly, what sort of individual intelligence is conducive of greater collective wisdom. We review insights and findings from connectionism, agent-based modeling, group psychology, economics and physics, casting them in terms of changing structure of the system's Lyapunov function. Finally, we apply these insights to the sort and degrees of intelligence of preys and predators in the Lotka-Volterra model, explaining why certain individual understandings lead to co-existence of the two species whereas other usages of their individual intelligence cause global extinction.
翻訳日:2021-04-25 23:52:23 公開日:2020-12-23
# (参考訳) 部分観測可能なモンテカルロ計画における予測外決定の同定-ルールに基づくアプローチ [全文訳有]

Identification of Unexpected Decisions in Partially Observable Monte-Carlo Planning: a Rule-Based Approach ( http://arxiv.org/abs/2012.12732v1 )

ライセンス: CC BY 4.0
Giulio Mazzi, Alberto Castellini, Alessandro Farinelli(参考訳) 部分的に観測可能なモンテカルロ計画 (POMCP) は、大規模な部分観測可能なマルコフ決定プロセスのための近似ポリシーを生成することができる強力なオンラインアルゴリズムである。 この手法のオンライン性は、完全なポリシー表現を避けてスケーラビリティをサポートする。 しかし、明示的な表現の欠如は解釈可能性を妨げる。 本研究では,pomcpポリシーを,そのトレース,すなわちアルゴリズムが生成する信念・行動・観察三重項列を検査することにより解析する,満足性モジュラー理論(smt)に基づく手法を提案する。 提案手法は,政策行動の局所的特性を探索し,予期せぬ決定を識別する。 We propose an iterative process of trace analysis consisting of three main steps, i) the definition of a question by means of a parametric logical formula describing (probabilistic) relationships between beliefs and actions, ii) the generation of an answer by computing the parameters of the logical formula that maximize the number of satisfied clauses (solving a MAX-SMT problem), iii) the analysis of the generated logical formula and the related decision boundaries for identifying unexpected decisions made by POMCP with respect to the original question. 我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価する。 結果は、この手法がドメイン上の人間の知識を活用でき、予期せぬ決定を識別するための最先端の異常検出方法よりも優れていることを示している。 テストでは,最大47.5%のエリアアンダーカーブの改善が達成された。

Partially Observable Monte-Carlo Planning (POMCP) is a powerful online algorithm able to generate approximate policies for large Partially Observable Markov Decision Processes. The online nature of this method supports scalability by avoiding complete policy representation. The lack of an explicit representation however hinders interpretability. In this work, we propose a methodology based on Satisfiability Modulo Theory (SMT) for analyzing POMCP policies by inspecting their traces, namely sequences of belief-action-observ ation triplets generated by the algorithm. The proposed method explores local properties of policy behavior to identify unexpected decisions. We propose an iterative process of trace analysis consisting of three main steps, i) the definition of a question by means of a parametric logical formula describing (probabilistic) relationships between beliefs and actions, ii) the generation of an answer by computing the parameters of the logical formula that maximize the number of satisfied clauses (solving a MAX-SMT problem), iii) the analysis of the generated logical formula and the related decision boundaries for identifying unexpected decisions made by POMCP with respect to the original question. We evaluate our approach on Tiger, a standard benchmark for POMDPs, and a real-world problem related to mobile robot navigation. Results show that the approach can exploit human knowledge on the domain, outperforming state-of-the-art anomaly detection methods in identifying unexpected decisions. An improvement of the Area Under Curve up to 47\% has been achieved in our tests.
翻訳日:2021-04-25 23:34:25 公開日:2020-12-23
# (参考訳) EmotionGIF-IITP-AINL PML: Ansemble-based Automated Deep Neural System for predicting category(ies) of a GIF response [全文訳有]

EmotionGIF-IITP-AINL PML: Ensemble-based Automated Deep Neural System for predicting category(ies) of a GIF response ( http://arxiv.org/abs/2012.12756v1 )

ライセンス: CC BY 4.0
Soumitra Ghosh, Arkaprava Roy, Asif Ekbal and Pushpak Bhattacharyya(参考訳) 本稿では,我々のIITP-AINLPMLチームが提出したシステムについて述べる。このシステムは,与えられたツイートに対するGIF応答のカテゴリ(e)を予測するためのSocialNLP 2020,EmotionGIF 2020の共有タスクである。 本研究は,タスクの1段階目において,ツイート(テキスト)と応答(テキストがどこにあるか)とGIF応答のカテゴリ(e)の両方に基づいて学習した,注目に基づく双方向GRUネットワークを提案する。 第2ラウンドでは、タスクのためのディープニューラルネットワークベースの分類器を構築し、多数決に基づくアンサンブル手法を用いて最終予測を報告する。 提案したモデルでは,各ラウンド1とラウンド2でそれぞれ52.92%,53.80%の平均リコール(MR)スコアが得られた。

In this paper, we describe the systems submitted by our IITP-AINLPML team in the shared task of SocialNLP 2020, EmotionGIF 2020, on predicting the category(ies) of a GIF response for a given unlabelled tweet. For the round 1 phase of the task, we propose an attention-based Bi-directional GRU network trained on both the tweet (text) and their replies (text wherever available) and the given category(ies) for its GIF response. In the round 2 phase, we build several deep neural-based classifiers for the task and report the final predictions through a majority voting based ensemble technique. Our proposed models attain the best Mean Recall (MR) scores of 52.92% and 53.80% in round 1 and round 2, respectively.
翻訳日:2021-04-25 23:17:15 公開日:2020-12-23
# (参考訳) 行列最適化に基づく外れ値付きユークリッド埋め込み [全文訳有]

Matrix optimization based Euclidean embedding with outliers ( http://arxiv.org/abs/2012.12772v1 )

ライセンス: CC BY 4.0
Qian Zhang, Xinyuan Zhao, Chao Ding(参考訳) 異常誤差を含むノイズ観測からのユークリッド埋め込みは、統計と機械学習において重要かつ困難な問題である。 既存の多くの手法は検出能力の欠如のために異常値に悩まされた。 本稿では,信頼度の高い組込みを生成できる行列最適化に基づく組込みモデルを提案する。 提案手法により得られた推定器は非漸近的リスク境界を満たすことを示し、サンプルサイズの順序が対数係数までほぼ自由度である場合、モデルが高い確率で高精度な推定器を提供することを示す。 さらに,いくつかの穏やかな条件下では,提案手法は,事前情報を高い確率で特定できることを示す。 最後に, 行列最適化に基づくモデルを用いて, 高品質な構成を導出し, 大規模ネットワークにおいても外れ値の同定に成功した。

Euclidean embedding from noisy observations containing outlier errors is an important and challenging problem in statistics and machine learning. Many existing methods would struggle with outliers due to a lack of detection ability. In this paper, we propose a matrix optimization based embedding model that can produce reliable embeddings and identify the outliers jointly. We show that the estimators obtained by the proposed method satisfy a non-asymptotic risk bound, implying that the model provides a high accuracy estimator with high probability when the order of the sample size is roughly the degree of freedom up to a logarithmic factor. Moreover, we show that under some mild conditions, the proposed model also can identify the outliers without any prior information with high probability. Finally, numerical experiments demonstrate that the matrix optimization-based model can produce configurations of high quality and successfully identify outliers even for large networks.
翻訳日:2021-04-25 23:10:23 公開日:2020-12-23
# (参考訳) 資源制約装置の適応的精度訓練 [全文訳有]

Adaptive Precision Training for Resource Constrained Devices ( http://arxiv.org/abs/2012.12775v1 )

ライセンス: CC BY 4.0
Tian Huang, Tao Luo and Joey Tianyi Zhou(参考訳) Edge AIのトレンドは、その場で学ぶことだ。 エッジデバイス上でのディープニューラルネットワーク(DNN)のトレーニングは、エネルギーとメモリの両方に制約があるため、難しい。 低い精度のトレーニングは、単一のトレーニングイテレーションのエネルギーコストを削減するのに役立つが、低精度のトレーニングは収束率を低下させるため、トレーニングプロセス全体のエネルギー節約に必ずしも寄与しない。 ひとつの証拠は、精度の低いトレーニングでは、トレーニング中にfp32コピーを保持し、エッジデバイスにメモリ要件を課すことである。 本研究は適応的精密訓練を提案する。 トレーニング全体のエネルギーコストとメモリ使用量の両方を同時に節約することができる。 トレーニングにおけるメモリ使用量を削減するため,前向きパスと後向きパスの両方で同じ精度のモデルを用いる。 トレーニングの進捗を評価することで、APTはレイヤーワイズ精度を動的に割り当て、モデルがより早くより長い時間学習できるようにします。 APTは、トレーニングエネルギーコスト、メモリ使用量、精度のトレードオフをユーザが行うためのアプリケーション固有のハイパーパラメータを提供する。 実験の結果、aptはトレーニングエネルギーとメモリ使用量を50%以上節約でき、精度の低下は少ない。 トレーニングエネルギーとメモリ使用量の20%削減は、精度損失の1%を犠牲にする見返りに達成できる。

Learn in-situ is a growing trend for Edge AI. Training deep neural network (DNN) on edge devices is challenging because both energy and memory are constrained. Low precision training helps to reduce the energy cost of a single training iteration, but that does not necessarily translate to energy savings for the whole training process, because low precision could slows down the convergence rate. One evidence is that most works for low precision training keep an fp32 copy of the model during training, which in turn imposes memory requirements on edge devices. In this work we propose Adaptive Precision Training. It is able to save both total training energy cost and memory usage at the same time. We use model of the same precision for both forward and backward pass in order to reduce memory usage for training. Through evaluating the progress of training, APT allocates layer-wise precision dynamically so that the model learns quicker for longer time. APT provides an application specific hyper-parameter for users to play trade-off between training energy cost, memory usage and accuracy. Experiment shows that APT achieves more than 50% saving on training energy and memory usage with limited accuracy loss. 20% more savings of training energy and memory usage can be achieved in return for a 1% sacrifice in accuracy loss.
翻訳日:2021-04-25 21:31:03 公開日:2020-12-23
# (参考訳) EQ-Net: ログライクな比率推定と量子化のための統合ディープラーニングフレームワーク [全文訳有]

EQ-Net: A Unified Deep Learning Framework for Log-Likelihood Ratio Estimation and Quantization ( http://arxiv.org/abs/2012.12843v1 )

ライセンス: CC BY 4.0
Marius Arvinte, Ahmed H. Tewfik, and Sriram Vishwanath(参考訳) 本研究では,ログ類似度(LLR)推定のタスクと,データ駆動方式による量子化を両立する最初の包括的フレームワークであるEQ-Netを紹介する。 複雑度スペクトルの終端における2つの実用的推定アルゴリズムに関する理論的知見を用いて、我々のアプローチを動機付け、アルゴリズムの複雑さと情報ボトルネック法との関係を明らかにする。 これにより、LLR圧縮をプレテキストタスクとして用いる2段階のアルゴリズムを提案し、ディープニューラルネットワークによる低レイテンシで高性能な実装に焦点を当てる。 我々は,従来の手法と比較して,我々の単一アーキテクチャが両タスクの最先端化を実現しており,汎用およびグラフィカル処理ユニット(GPU)で測定すると,最大20 %の量子化効率と推定遅延を最大60 %まで低減できることを示す。 特に,Multiple-Input multiple-output (MIMO) 構成では,GPUの推論遅延を2倍以上削減する。 最後に,提案手法は分布変化に対して頑健であり,5Gチャネルモデルおよびチャネル推定誤差で評価した場合,その性能のかなりの部分を保持することを示す。

In this work, we introduce EQ-Net: the first holistic framework that solves both the tasks of log-likelihood ratio (LLR) estimation and quantization using a data-driven method. We motivate our approach with theoretical insights on two practical estimation algorithms at the ends of the complexity spectrum and reveal a connection between the complexity of an algorithm and the information bottleneck method: simpler algorithms admit smaller bottlenecks when representing their solution. This motivates us to propose a two-stage algorithm that uses LLR compression as a pretext task for estimation and is focused on low-latency, high-performance implementations via deep neural networks. We carry out extensive experimental evaluation and demonstrate that our single architecture achieves state-of-the-art results on both tasks when compared to previous methods, with gains in quantization efficiency as high as $20\%$ and reduced estimation latency by up to $60\%$ when measured on general purpose and graphical processing units (GPU). In particular, our approach reduces the GPU inference latency by more than two times in several multiple-input multiple-output (MIMO) configurations. Finally, we demonstrate that our scheme is robust to distributional shifts and retains a significant part of its performance when evaluated on 5G channel models, as well as channel estimation errors.
翻訳日:2021-04-25 21:02:33 公開日:2020-12-23
# (参考訳) ANR:仮想アバターのためのArticulated Neural Rendering [全文訳有]

ANR: Articulated Neural Rendering for Virtual Avatars ( http://arxiv.org/abs/2012.12890v1 )

ライセンス: CC BY 4.0
Amit Raj, Julian Tanke, James Hays, Minh Vo, Carsten Stoll, Christoph Lassner(参考訳) deferred neural rendering(dnr)における従来のレンダリングとニューラルネットワークの組み合わせは、計算の複雑さと結果の画像のリアリズムの間の説得力のあるバランスをもたらす。 オブジェクトの描画にスキン付きメッシュを使用することは、DNRフレームワークの自然な拡張であり、多数のアプリケーションに開放される。 しかしながら、このケースでは、ニューラルネットワークシェーディングステップは、メッシュ内でキャプチャされない可能性のある変形と、DNRパイプラインを混乱させる可能性のあるアライメントの不正確さとダイナミクスを考慮しなければならない。 我々はDNRに基づく新しいフレームワークであるArticulated Neural Rendering (ANR)について述べる。 我々は,DNR だけでなく,アバター生成とアニメーションに特化した手法で ANR の優位性を示す。 2つのユーザスタディにおいて,アバターモデルに対する明確な好みを観察し,定量的評価指標における最先端のパフォーマンスを示す。 知覚上は、より優れた時間安定性、詳細度、信頼性を観察する。

The combination of traditional rendering with neural networks in Deferred Neural Rendering (DNR) provides a compelling balance between computational complexity and realism of the resulting images. Using skinned meshes for rendering articulating objects is a natural extension for the DNR framework and would open it up to a plethora of applications. However, in this case the neural shading step must account for deformations that are possibly not captured in the mesh, as well as alignment inaccuracies and dynamics -- which can confound the DNR pipeline. We present Articulated Neural Rendering (ANR), a novel framework based on DNR which explicitly addresses its limitations for virtual human avatars. We show the superiority of ANR not only with respect to DNR but also with methods specialized for avatar creation and animation. In two user studies, we observe a clear preference for our avatar model and we demonstrate state-of-the-art performance on quantitative evaluation metrics. Perceptually, we observe better temporal stability, level of detail and plausibility.
翻訳日:2021-04-25 20:46:08 公開日:2020-12-23
# (参考訳) Awareness Logic: Heifetz-Meier-Schipp er モデルのクリプキに基づくレンタル [全文訳有]

Awareness Logic: A Kripke-based Rendition of the Heifetz-Meier-Schipp er Model ( http://arxiv.org/abs/2012.12982v1 )

ライセンス: CC BY 4.0
Gaia Belardinelli, Rasmus K. Rendsvig(参考訳) Heifetz, Meier and Schipper (HMS) は認識の格子モデルを示す。 構文のないHMSモデルは、格子を誘導する形式言語に依存する単純な選択肢を排除し、1つの絡み合った構造体で不確実性と無知を表現し、どちらの特性も評価することが困難である。 ここでは、不確かさと不明瞭さを分離する原子サブセット包摂によって誘導されるクリプキモデルの格子に基づくモデルを提案する。 式満足度を保つ変換を定義することで等価となるモデルを示し、我々の結果とhmsの結果を通じて完全性を得る。

Heifetz, Meier and Schipper (HMS) present a lattice model of awareness. The HMS model is syntax-free, which precludes the simple option to rely on formal language to induce lattices, and represents uncertainty and unawareness with one entangled construct, making it difficult to assess the properties of either. Here, we present a model based on a lattice of Kripke models, induced by atom subset inclusion, in which uncertainty and unawareness are separate. We show the models to be equivalent by defining transformations between them which preserve formula satisfaction, and obtain completeness through our and HMS' results.
翻訳日:2021-04-25 20:31:14 公開日:2020-12-23
# (参考訳) SyNet:UAV画像におけるオブジェクト検出のためのアンサンブルネットワーク [全文訳有]

SyNet: An Ensemble Network for Object Detection in UAV Images ( http://arxiv.org/abs/2012.12991v1 )

ライセンス: CC BY 4.0
Berat Mert Albaba, Sedat Ozer(参考訳) カメラ搭載ドローンの最近の進歩と普及により、航空画像に対する視覚に基づく物体検出アルゴリズムの需要が高まった。 物体検出プロセスは、本質的には汎用的なコンピュータビジョン問題としての課題であるが、uav(またはドローン)での物体検出アルゴリズムの使用は、比較的新しい領域であるため、航空画像中の物体を検出するためのより困難な問題として残されている。 i)大きな物体のばらつきを含む大規模なドローンデータセットの欠如、(ii)地上画像と比較してドローン画像の大きな向きとスケールのばらつき、(iii)地上画像と空中画像のテクスチャと形状の特徴の違いなど、いくつかの理由がある。 ディープラーニングに基づく物体検出アルゴリズムは、(a)単段検出器と(b)多段検出器の2つの主要なカテゴリに分類される。 シングルステージソリューションとマルチステージソリューションはどちらも、それぞれに長所と短所がある。 しかし、これらの解の良辺を結合する手法は、それぞれの解よりも強い解を個々に得ることができる。 本稿では,多段方式と単段方式を組み合わせたアンサンブルネットワークであるsynetを提案する。 ビルディングブロックとして、事前訓練された特徴抽出器を備えたCenterNetとCascade R-CNNをアンサンブル戦略と共に利用する。 提案手法によって得られた2つの異なるデータセット、すなわち、mAP_{IoU = 0.75}$がMS-COCO $val2017$データセットで得られ、mAP_{IoU = 0.75}$がVisDrone $test-set$で得られる。

Recent advances in camera equipped drone applications and their widespread use increased the demand on vision based object detection algorithms for aerial images. Object detection process is inherently a challenging task as a generic computer vision problem, however, since the use of object detection algorithms on UAVs (or on drones) is relatively a new area, it remains as a more challenging problem to detect objects in aerial images. There are several reasons for that including: (i) the lack of large drone datasets including large object variance, (ii) the large orientation and scale variance in drone images when compared to the ground images, and (iii) the difference in texture and shape features between the ground and the aerial images. Deep learning based object detection algorithms can be classified under two main categories: (a) single-stage detectors and (b) multi-stage detectors. Both single-stage and multi-stage solutions have their advantages and disadvantages over each other. However, a technique to combine the good sides of each of those solutions could yield even a stronger solution than each of those solutions individually. In this paper, we propose an ensemble network, SyNet, that combines a multi-stage method with a single-stage one with the motivation of decreasing the high false negative rate of multi-stage detectors and increasing the quality of the single-stage detector proposals. As building blocks, CenterNet and Cascade R-CNN with pretrained feature extractors are utilized along with an ensembling strategy. We report the state of the art results obtained by our proposed solution on two different datasets: namely MS-COCO and visDrone with \%52.1 $mAP_{IoU = 0.75}$ is obtained on MS-COCO $val2017$ dataset and \%26.2 $mAP_{IoU = 0.75}$ is obtained on VisDrone $test-set$.
翻訳日:2021-04-25 20:05:52 公開日:2020-12-23
# (参考訳) 低リソースasrのための音声合成 [全文訳有]

Speech Synthesis as Augmentation for Low-Resource ASR ( http://arxiv.org/abs/2012.13004v1 )

ライセンス: CC BY-SA 4.0
Deblin Bagchi, Shannon Wotherspoon, Zhuolin Jiang and Prasanna Muthukumar(参考訳) 音声合成は低リソース音声認識の鍵を握るかもしれない。 データ拡張技術は、現代の音声認識トレーニングの重要な部分となっている。 しかし、それらはシンプルで、素直で、現実世界の状態を反映することはめったにない。 一方、音声合成技術は、人間のような音声を達成するという目標に急速に近づきつつある。 本稿では,合成音声をデータ拡張の一形態として利用し,音声認識のためのリソースを削減できる可能性を検討する。 我々は,統計的パラメトリック,ニューラル,逆相の3種類のシンセサイザーを実験した。 我々の発見は興味深いものであり、将来の新たな研究の方向性を示している。

Speech synthesis might hold the key to low-resource speech recognition. Data augmentation techniques have become an essential part of modern speech recognition training. Yet, they are simple, naive, and rarely reflect real-world conditions. Meanwhile, speech synthesis techniques have been rapidly getting closer to the goal of achieving human-like speech. In this paper, we investigate the possibility of using synthesized speech as a form of data augmentation to lower the resources necessary to build a speech recognizer. We experiment with three different kinds of synthesizers: statistical parametric, neural, and adversarial. Our findings are interesting and point to new research directions for the future.
翻訳日:2021-04-25 19:32:12 公開日:2020-12-23
# (参考訳) シャドウ除去のための物理に基づくシャドウ画像分解 [全文訳有]

Physics-based Shadow Image Decomposition for Shadow Removal ( http://arxiv.org/abs/2012.13018v1 )

ライセンス: CC BY 4.0
Hieu Le and Dimitris Samaras(参考訳) 陰影除去のための新しい深層学習法を提案する。 影形成の物理モデルに着想を得て,影像を影のない画像,影パラメータ,マット層の組み合わせとして表現できる画像の影効果を線形照明変換によりモデル化する。 我々はSP-NetとM-Netという2つの深いネットワークを用いてそれぞれ影パラメータと影行列を予測する。 このシステムにより、画像から影効果を除去できる。 次に、インペイントネットワークであるI-Netを使って結果をさらに洗練します。 私たちは、最も難しいシャドウ除去データセット(ISTD)でフレームワークをトレーニングし、テストします。 本手法は,影領域の根平均二乗誤差(RMSE)を20 %改善する。 さらに,この分解により,パッチベースの弱教師付きシャドウ除去法を定式化できる。 このモデルは、(取得しづらい)シャドウフリーの画像なしでトレーニングでき、完全にペアのシャドウとシャドウフリーの画像で訓練された最先端の手法と比較して、競合するシャドウ除去結果が得られる。 最後に、シャドウ除去手法を評価するためのビデオシャドウ除去データセットであるSBU-Timelapseを紹介する。

We propose a novel deep learning method for shadow removal. Inspired by physical models of shadow formation, we use a linear illumination transformation to model the shadow effects in the image that allows the shadow image to be expressed as a combination of the shadow-free image, the shadow parameters, and a matte layer. We use two deep networks, namely SP-Net and M-Net, to predict the shadow parameters and the shadow matte respectively. This system allows us to remove the shadow effects from images. We then employ an inpainting network, I-Net, to further refine the results. We train and test our framework on the most challenging shadow removal dataset (ISTD). Our method improves the state-of-the-art in terms of root mean square error (RMSE) for the shadow area by 20\%. Furthermore, this decomposition allows us to formulate a patch-based weakly-supervised shadow removal method. This model can be trained without any shadow-free images (that are cumbersome to acquire) and achieves competitive shadow removal results compared to state-of-the-art methods that are trained with fully paired shadow and shadow-free images. Last, we introduce SBU-Timelapse, a video shadow removal dataset for evaluating shadow removal methods.
翻訳日:2021-04-25 19:25:11 公開日:2020-12-23
# マルチモーダルディープラーニングアプローチによるミームにおけるヘイトスピーチの検出:ヘイトフルミームチャレンジへの受賞ソリューション

Detecting Hate Speech in Memes Using Multimodal Deep Learning Approaches: Prize-winning solution to Hateful Memes Challenge ( http://arxiv.org/abs/2012.12975v1 )

ライセンス: Link先を確認
Riza Velioglu, Jewgeni Rose(参考訳) インターネット上のミームは、しばしば無害で、時々面白くなります。 しかし、ある種類の画像、テキスト、あるいは両方の組み合わせを使用することで、一見無害なミームは、憎悪的なミームであるマルチモーダルタイプのヘイトスピーチとなる。 ヘイトフルミームチャレンジ(Hateful Memes Challenge)は、マルチモーダルミームにおけるヘイトスピーチの検出に焦点を当てた、第一種コンペティションであり、マルチモーダルコンテンツの1万以上の新しいサンプルを含む新しいデータセットを提案する。 私たちは、画像やキャプションをマルチモーダルにトレーニングしたVisualBERT(ビジョンと言語のBERT)を使用し、Ensemble Learningを適用します。 提案手法は,チャレンジテストセットの精度0.765の0.811 AUROCを達成し,Hateful Memes Challengeの参加者3,173名中3位に位置づけた。

Memes on the Internet are often harmless and sometimes amusing. However, by using certain types of images, text, or combinations of both, the seemingly harmless meme becomes a multimodal type of hate speech -- a hateful meme. The Hateful Memes Challenge is a first-of-its-kind competition which focuses on detecting hate speech in multimodal memes and it proposes a new data set containing 10,000+ new examples of multimodal content. We utilize VisualBERT -- which meant to be the BERT of vision and language -- that was trained multimodally on images and captions and apply Ensemble Learning. Our approach achieves 0.811 AUROC with an accuracy of 0.765 on the challenge test set and placed third out of 3,173 participants in the Hateful Memes Challenge.
翻訳日:2021-04-25 18:24:20 公開日:2020-12-23
# ノイズラベルは良い表現を誘導できる

Noisy Labels Can Induce Good Representations ( http://arxiv.org/abs/2012.12896v1 )

ライセンス: Link先を確認
Jingling Li, Mozhi Zhang, Keyulu Xu, John P. Dickerson, Jimmy Ba(参考訳) ディープラーニングの現在の成功は、大規模なラベル付きデータセットに依存する。 実際には、高品質なアノテーションは収集にコストがかかるが、うるさいアノテーションはより安価である。 ニューラルネットワークはランダムラベルを簡単に記憶することができるが、ノイズラベルから一般化することもできる。 このパズルを説明するために,アーキテクチャが雑音ラベルによる学習に与える影響について検討する。 アーキテクチャがタスクに適合すると、モデルが一般化が不十分な場合でも、ノイズラベルを用いたトレーニングが有用な隠れ表現を誘導する。 この発見は、ノイズの多いラベルで訓練されたモデルを改善するための単純な方法をもたらす: 最終的な密度の高い層を線形モデルに置き換え、その重みは小さなクリーンなデータから学習する。 我々は,3つのアーキテクチャ(畳み込みニューラルネットワーク,グラフニューラルネットワーク,マルチレイヤパーセプトロン)と2つのドメイン(グラフアルゴリズムタスクと画像分類)にまたがる結果を実証的に検証した。 さらに,提案手法と既存のラベル学習手法を組み合わせることで,画像分類ベンチマークの最先端結果を得る。

The current success of deep learning depends on large-scale labeled datasets. In practice, high-quality annotations are expensive to collect, but noisy annotations are more affordable. Previous works report mixed empirical results when training with noisy labels: neural networks can easily memorize random labels, but they can also generalize from noisy labels. To explain this puzzle, we study how architecture affects learning with noisy labels. We observe that if an architecture "suits" the task, training with noisy labels can induce useful hidden representations, even when the model generalizes poorly; i.e., the last few layers of the model are more negatively affected by noisy labels. This finding leads to a simple method to improve models trained on noisy labels: replacing the final dense layers with a linear model, whose weights are learned from a small set of clean data. We empirically validate our findings across three architectures (Convolutional Neural Networks, Graph Neural Networks, and Multi-Layer Perceptrons) and two domains (graph algorithmic tasks and image classification). Furthermore, we achieve state-of-the-art results on image classification benchmarks by combining our method with existing approaches on noisy label training.
翻訳日:2021-04-25 18:24:02 公開日:2020-12-23
# 同時翻訳のための未来誘導インクリメンタルトランス

Future-Guided Incremental Transformer for Simultaneous Translation ( http://arxiv.org/abs/2012.12465v1 )

ライセンス: Link先を確認
Shaolei Zhang, Yang Feng, Liangyou Li(参考訳) 同時翻訳(st)は、原文を読みながら翻訳を同期的に開始し、多くのオンラインシナリオで使用される。 以前のwait-kポリシーは簡潔で、STで良い結果を得た。 しかし、wait-kポリシーは、隠れた状態の再計算によるトレーニング速度の低下と、トレーニングを導くための将来の情報源情報の欠如という2つの弱点に直面している。 低トレーニング速度では,学習中の隠れ状態の計算速度を高速化するため,平均埋め込み層(AEL)を有するインクリメンタルトランスを提案する。 今後の指導訓練のために,インクリメンタルトランスの教師として従来の変圧器を提案し,知識蒸留を通したモデルに将来の情報を埋め込む。 提案手法を評価するために,中国語-英語-ドイツ語-英語同時翻訳タスクの実験を行い,wait-kポリシーと比較した。 提案手法は,学習速度を平均28倍に向上させ,予測能力を暗黙的にモデルに組み込むことにより,待ち時間ベースラインよりも優れた翻訳品質を実現する。

Simultaneous translation (ST) starts translations synchronously while reading source sentences, and is used in many online scenarios. The previous wait-k policy is concise and achieved good results in ST. However, wait-k policy faces two weaknesses: low training speed caused by the recalculation of hidden states and lack of future source information to guide training. For the low training speed, we propose an incremental Transformer with an average embedding layer (AEL) to accelerate the speed of calculation of the hidden states during training. For future-guided training, we propose a conventional Transformer as the teacher of the incremental Transformer, and try to invisibly embed some future information in the model through knowledge distillation. We conducted experiments on Chinese-English and German-English simultaneous translation tasks and compared with the wait-k policy to evaluate the proposed method. Our method can effectively increase the training speed by about 28 times on average at different k and implicitly embed some predictive abilities in the model, achieving better translation quality than wait-k baseline.
翻訳日:2021-04-25 18:23:43 公開日:2020-12-23
# マシンビジョンに基づく骨格型アプローチ:調査

Skeleton-based Approaches based on Machine Vision: A Survey ( http://arxiv.org/abs/2012.12447v1 )

ライセンス: Link先を確認
Jie Li, Binglin Li, Min Gao(参考訳) 近年,骨格表現に大きな成功を生かして,骨格に基づくアプローチが急速に進歩している。 多くの研究が骨格の特徴に応じて特定の問題を解決することに重点を置いている。 スケルトンに基づくいくつかのアプローチは、オブジェクト検出についていくつかの概要で言及されている。 それでも、骨格に基づくアプローチの徹底的な分析は行われていない。 これらの手法を理論的構成の観点から記述する代わりに、スケルトンに基づくアプローチをアプリケーション分野に関して要約し、可能な限り包括的にタスクを割り当てる。 本論文は,スケルトンに基づく応用のさらなる理解と,特定の問題への対処をめざすものである。

Recently, skeleton-based approaches have achieved rapid progress on the basis of great success in skeleton representation. Plenty of researches focus on solving specific problems according to skeleton features. Some skeleton-based approaches have been mentioned in several overviews on object detection as a non-essential part. Nevertheless, there has not been any thorough analysis of skeleton-based approaches attentively. Instead of describing these techniques in terms of theoretical constructs, we devote to summarizing skeleton-based approaches with regard to application fields and given tasks as comprehensively as possible. This paper is conducive to further understanding of skeleton-based application and dealing with particular issues.
翻訳日:2021-04-25 18:23:00 公開日:2020-12-23
# ICMSC : 非教師的領域適応のための股関節骨分節に対する意味的整合性

ICMSC: Intra- and Cross-modality Semantic Consistency for Unsupervised Domain Adaptation on Hip Joint Bone Segmentation ( http://arxiv.org/abs/2012.12570v1 )

ライセンス: Link先を確認
Guodong Zeng, Till D. Lerch, Florian Schmaranzer, Guoyan Zheng, Juergen Burger, Kate Gerber, Moritz Tannast, Klaus Siebenrock, Nicolas Gerber(参考訳) クロスモダリティ医療画像セグメンテーションのための教師なし領域適応(uda)は、ドメイン不変特徴学習や画像出現翻訳によって大きな進歩を遂げている。 適応型特徴学習は通常、ピクセルレベルでの領域シフトを検出できず、密集したセマンティックセグメンテーションタスクで良い結果を得ることができない。 画像の外観変換など。 CycleGANは、その人口にもかかわらず、その意味的な一貫性は維持されにくく、結果としてモダリティのセグメンテーションが劣る。 本稿では,UDAのためのICMSC(inter- and cross-modality semantic consistency)を提案する。 具体的には、画像翻訳モジュールとドメイン固有のセグメンテーションモジュールで構成される。 画像翻訳モジュールは標準のCycleGANであり、セグメンテーションモジュールは2つのドメイン固有のセグメンテーションネットワークを含んでいる。 モダリティ内セマンティック一貫性(IMSC)は、サイクル後の再構成画像を元の入力画像と同じ方法でセグメント化させ、一方、相互モダリティセマンティック一貫性(CMSC)は翻訳後の合成画像を翻訳前と同じセグメント化することを推奨する。 人工股関節置換術の包括的実験により, アセタブレムでは平均81.61%, 大腿骨近位では88.16%, 術式では88.16%, 術式では88.16%であった。 UDAなしでは、股関節骨分節のCTで訓練されたモデルがMRIでは転送不可能であり、ほぼゼロDICE分節である点に注意が必要である。

Unsupervised domain adaptation (UDA) for cross-modality medical image segmentation has shown great progress by domain-invariant feature learning or image appearance translation. Adapted feature learning usually cannot detect domain shifts at the pixel level and is not able to achieve good results in dense semantic segmentation tasks. Image appearance translation, e.g. CycleGAN, translates images into different styles with good appearance, despite its population, its semantic consistency is hardly to maintain and results in poor cross-modality segmentation. In this paper, we propose intra- and cross-modality semantic consistency (ICMSC) for UDA and our key insight is that the segmentation of synthesised images in different styles should be consistent. Specifically, our model consists of an image translation module and a domain-specific segmentation module. The image translation module is a standard CycleGAN, while the segmentation module contains two domain-specific segmentation networks. The intra-modality semantic consistency (IMSC) forces the reconstructed image after a cycle to be segmented in the same way as the original input image, while the cross-modality semantic consistency (CMSC) encourages the synthesized images after translation to be segmented exactly the same as before translation. Comprehensive experimental results on cross-modality hip joint bone segmentation show the effectiveness of our proposed method, which achieves an average DICE of 81.61% on the acetabulum and 88.16% on the proximal femur, outperforming other state-of-the-art methods. It is worth to note that without UDA, a model trained on CT for hip joint bone segmentation is non-transferable to MRI and has almost zero-DICE segmentation.
翻訳日:2021-04-25 18:22:35 公開日:2020-12-23
# バイオメディカル・サイエント・レビューにおけるレイ言語の自動要約

Automated Lay Language Summarization of Biomedical Scientific Reviews ( http://arxiv.org/abs/2012.12573v1 )

ライセンス: Link先を確認
Yue Guo, Wei Qiu, Yizhong Wang, Trevor Cohen(参考訳) 健康リテラシーは適切な健康判断と治療結果の確保において重要な要素として浮上している。 しかし、この領域における医学用語と専門用語の複雑な構造は、特に理解が困難である。 したがって、一般大衆への生物医学文献のアクセシビリティを高めるために、自動的な方法が緊急に必要となる。 この問題は、医療専門家の言語と一般人の言語の間の翻訳問題の一種として構成することができる。 本稿では,バイオメディカル・サイエンス・レビューにおけるレイ言語要約の自動生成という新たな課題を紹介し,バイオメディカル文献のアクセシビリティを高めるための自動手法の開発と評価を支援するデータセットを構築する。 本研究は,鍵点の要約だけでなく,背景知識の説明や専門用語の簡略化など,この課題を解決する上でのさまざまな課題の分析を行う。 我々は,最先端の要約モデルといくつかのデータ拡張手法を実験し,自動計測とヒューマンアセスメントを用いてその性能を評価する。 その結果, 現代のニューラルネットワークを用いた自動生成サマリーは, 一般一般向けに開発された参照サマリー(50.24のROUGE-L, 13.30のFlesch-Kincaid可読性スコア)と比較して, 有望な品質と可読性を達成できることが示唆された。 我々はまた、現在の試みの限界についても議論し、将来の作業への洞察と指示を提供する。

Health literacy has emerged as a crucial factor in making appropriate health decisions and ensuring treatment outcomes. However, medical jargon and the complex structure of professional language in this domain make health information especially hard to interpret. Thus, there is an urgent unmet need for automated methods to enhance the accessibility of the biomedical literature to the general population. This problem can be framed as a type of translation problem between the language of healthcare professionals, and that of the general public. In this paper, we introduce the novel task of automated generation of lay language summaries of biomedical scientific reviews, and construct a dataset to support the development and evaluation of automated methods through which to enhance the accessibility of the biomedical literature. We conduct analyses of the various challenges in solving this task, including not only summarization of the key points but also explanation of background knowledge and simplification of professional language. We experiment with state-of-the-art summarization models as well as several data augmentation techniques, and evaluate their performance using both automated metrics and human assessment. Results indicate that automatically generated summaries produced using contemporary neural architectures can achieve promising quality and readability as compared with reference summaries developed for the lay public by experts (best ROUGE-L of 50.24 and Flesch-Kincaid readability score of 13.30). We also discuss the limitations of the current attempt, providing insights and directions for future work.
翻訳日:2021-04-25 18:21:38 公開日:2020-12-23
# AutonoML: 自律機械学習のための統合フレームワークを目指す

AutonoML: Towards an Integrated Framework for Autonomous Machine Learning ( http://arxiv.org/abs/2012.12600v1 )

ライセンス: Link先を確認
David Jacob Kedziora and Katarzyna Musial and Bogdan Gabrys(参考訳) 過去10年間で、機械学習(ML)におけるハイレベルなプロセスを自動化するための長い努力が主流となり、最適化技術の進歩と、MLモデル/アルゴリズムの選択に対する彼らの影響によって刺激されている。 このドライブの中心は、人間との相互作用が最小限である任意のML問題に対して、高性能なソリューションを発見し、展開する計算システムの工学的魅力である。 これ以外にも、さらに大きな目標は自律性の追求であり、状況変化の生涯にわたってMLソリューションを独立的に調整するシステムの能力を記述する。 しかし、これらの野心は、様々なメカニズムや理論的な枠組みを広く統合することなく、堅牢な方法で達成することは不可能であり、現在、多くの研究スレッドに分散している。 したがって、このレビューは、これらの要素をどのように統合するかを考慮しながら、自動化および自律的なMLシステムを構成するものに関して、より広範な視点を動機付けようとしている。 ハイパーパラメータ最適化,マルチコンポーネントモデル,ニューラルアーキテクチャ探索,自動機能工学,メタラーニング,マルチレベルセンシング,動的適応,多目的評価,リソース制約,フレキシブルなユーザ関与,一般化の原則など,研究分野の発展を調査した。 また、各トピックによって拡張されたレビュー全体を通じて概念的なフレームワークを開発し、ハイレベルなメカニズムを自律型MLシステムに融合する方法を1つ示す。 最終的に、アーキテクチャ統合の概念は、自動化MLの分野が技術的優位性と一般的な獲得の両方を損なうリスクを伴わない、より議論に値すると結論付けます。

Over the last decade, the long-running endeavour to automate high-level processes in machine learning (ML) has risen to mainstream prominence, stimulated by advances in optimisation techniques and their impact on selecting ML models/algorithms. Central to this drive is the appeal of engineering a computational system that both discovers and deploys high-performance solutions to arbitrary ML problems with minimal human interaction. Beyond this, an even loftier goal is the pursuit of autonomy, which describes the capability of the system to independently adjust an ML solution over a lifetime of changing contexts. However, these ambitions are unlikely to be achieved in a robust manner without the broader synthesis of various mechanisms and theoretical frameworks, which, at the present time, remain scattered across numerous research threads. Accordingly, this review seeks to motivate a more expansive perspective on what constitutes an automated/autonomous ML system, alongside consideration of how best to consolidate those elements. In doing so, we survey developments in the following research areas: hyperparameter optimisation, multi-component models, neural architecture search, automated feature engineering, meta-learning, multi-level ensembling, dynamic adaptation, multi-objective evaluation, resource constraints, flexible user involvement, and the principles of generalisation. We also develop a conceptual framework throughout the review, augmented by each topic, to illustrate one possible way of fusing high-level mechanisms into an autonomous ML system. Ultimately, we conclude that the notion of architectural integration deserves more discussion, without which the field of automated ML risks stifling both its technical advantages and general uptake.
翻訳日:2021-04-25 18:21:17 公開日:2020-12-23
# GDPRに基づくプライバシドキュメントのコンプライアンス生成 - 自動化と機械学習のロードマップ

Compliance Generation for Privacy Documents under GDPR: A Roadmap for Implementing Automation and Machine Learning ( http://arxiv.org/abs/2012.12718v1 )

ライセンス: Link先を確認
David Restrepo Amariles, Aurore Cl\'ement Troussel, Rajaa El Hamdani(参考訳) 今日、最も顕著な研究は、消費者中心および公共規制アプローチによるデータ保護法の遵守である。 この視点をPrivatechプロジェクトで転換し、コンプライアンスのエージェントとして企業や法律会社に注力します。 データ保護法に準拠するために、データプロセッサは、プライバシー文書とプライバシー慣行の両方に関してコンプライアンスを評価し文書化するための説明責任対策を実行しなければならない。 本稿では, GDPRの自動化に関する最近の研究と, その一方で, 企業がGDPRに従わなければならない運用上の課題について調査し, 新たな形態の自動化の恩恵を受ける可能性がある。 私たちはそのギャップを橋渡ししようとする。 コンプライアンス問題を特定し,機械学習と自動化によって対処可能なタスクに分割し,privatechプロジェクトにおける関連する開発に関するメモを提供することで,コンプライアンス評価と生成のロードマップを提供する。

Most prominent research today addresses compliance with data protection laws through consumer-centric and public-regulatory approaches. We shift this perspective with the Privatech project to focus on corporations and law firms as agents of compliance. To comply with data protection laws, data processors must implement accountability measures to assess and document compliance in relation to both privacy documents and privacy practices. In this paper, we survey, on the one hand, current research on GDPR automation, and on the other hand, the operational challenges corporations face to comply with GDPR, and that may benefit from new forms of automation. We attempt to bridge the gap. We provide a roadmap for compliance assessment and generation by identifying compliance issues, breaking them down into tasks that can be addressed through machine learning and automation, and providing notes about related developments in the Privatech project.
翻訳日:2021-04-25 18:20:49 公開日:2020-12-23
# ベイズ深層学習による衛星結合管理の自動化に向けて

Towards Automated Satellite Conjunction Management with Bayesian Deep Learning ( http://arxiv.org/abs/2012.12450v1 )

ライセンス: Link先を確認
Francesco Pinto, Giacomo Acciarini, Sascha Metz, Sarah Boufelja, Sylvester Kaczmarek, Klaus Merz, Jos\'e A. Martinez-Heras, Francesca Letizia, Christopher Bridges, At{\i}l{\i}m G\"une\c{s} Baydin(参考訳) 数十年にわたる宇宙旅行の後、低軌道は廃棄されたロケット本体、死んだ衛星、衝突や爆発による数百万の破片のジャンクヤードである。 高度の高い天体は大気圏に再突入して燃え上がるのではなく、長期間地球を周回する軌道に留まる。 速度は28,000km/hで、これらの軌道上の衝突は断片を発生させ、ケスラー症候群として知られるさらなる衝突のカスケードを引き起こす可能性がある。 この現象は将来の宇宙活動の妨げとなり、宇宙や地球科学の応用に不可欠な衛星インフラを損なう可能性があるため、惑星的な課題となる可能性がある。 商業団体が軌道上の衛星のメガコンステレーションを行うと、衝突回避操作を行うオペレーターの負担が増加する。 このため、潜在的な衝突イベント(結合)を予測する自動ツールの開発が不可欠である。 本稿では,この問題に対するベイズ深層学習手法を紹介し,空間コミュニティが使用する標準データフォーマットである時系列結合データメッセージ (cdms) で動作するリカレントニューラルネットワークアーキテクチャ (lstms) を開発した。 提案手法は,今後のCDMの到着時期など,全てのCDM特徴を同時にモデル化し,関連する不確実性と組み合わせたイベントの進化を予測できることを示す。

After decades of space travel, low Earth orbit is a junkyard of discarded rocket bodies, dead satellites, and millions of pieces of debris from collisions and explosions. Objects in high enough altitudes do not re-enter and burn up in the atmosphere, but stay in orbit around Earth for a long time. With a speed of 28,000 km/h, collisions in these orbits can generate fragments and potentially trigger a cascade of more collisions known as the Kessler syndrome. This could pose a planetary challenge, because the phenomenon could escalate to the point of hindering future space operations and damaging satellite infrastructure critical for space and Earth science applications. As commercial entities place mega-constellations of satellites in orbit, the burden on operators conducting collision avoidance manoeuvres will increase. For this reason, development of automated tools that predict potential collision events (conjunctions) is critical. We introduce a Bayesian deep learning approach to this problem, and develop recurrent neural network architectures (LSTMs) that work with time series of conjunction data messages (CDMs), a standard data format used by the space community. We show that our method can be used to model all CDM features simultaneously, including the time of arrival of future CDMs, providing predictions of conjunction event evolution with associated uncertainties.
翻訳日:2021-04-25 18:20:35 公開日:2020-12-23
# 深層学習と確率論的論理を組み合わせた自己教師型自己監督

Self-supervised self-supervision by combining deep learning and probabilistic logic ( http://arxiv.org/abs/2012.12474v1 )

ライセンス: Link先を確認
Hunter Lang, Hoifung Poon(参考訳) 大規模なトレーニング例のラベル付けは、マシンラーニングにおける長年にわたる課題だ。 自己スーパービジョン手法は、事前知識を活用してノイズの多いラベル付き例を自動的に生成することにより、直接的な監督の欠如を補う。 deep probabilistic logic (dpl) は未知ラベルを潜在変数として表現する自己教師あり学習のための統一フレームワークであり、確率論理を用いた多種多様な自己教師あり論理を組み込んで、変分emを用いてディープニューラルネットワークをエンドツーエンドに訓練する。 DPLは、事前に特定された自己スーパービジョンを組み合わせることに成功しているが、高い精度を達成するために手動で自己スーパービジョンを構築することは、いまだに面倒で難しい。 本稿では、DPLに新たな自己スーパービジョンを自動学習する機能を追加するセルフスーパービジョン(S4)を提案する。 s4は、最初の"シード"から始まり、ディープニューラルネットワークを使って新しい自己管理を提案する。 これらは直接追加(構造化された自己学習の形式)するか、あるいは(機能ベースのアクティブラーニングのように)人間の専門家によって検証される。 実験によると、S4は自動的に正確な自己スーパービジョンを提案し、監督された手法の精度を人間の努力のごく一部とほぼ一致させることができる。

Labeling training examples at scale is a perennial challenge in machine learning. Self-supervision methods compensate for the lack of direct supervision by leveraging prior knowledge to automatically generate noisy labeled examples. Deep probabilistic logic (DPL) is a unifying framework for self-supervised learning that represents unknown labels as latent variables and incorporates diverse self-supervision using probabilistic logic to train a deep neural network end-to-end using variational EM. While DPL is successful at combining pre-specified self-supervision, manually crafting self-supervision to attain high accuracy may still be tedious and challenging. In this paper, we propose Self-Supervised Self-Supervision (S4), which adds to DPL the capability to learn new self-supervision automatically. Starting from an initial "seed," S4 iteratively uses the deep neural network to propose new self supervision. These are either added directly (a form of structured self-training) or verified by a human expert (as in feature-based active learning). Experiments show that S4 is able to automatically propose accurate self-supervision and can often nearly match the accuracy of supervised methods with a tiny fraction of the human effort.
翻訳日:2021-04-25 18:20:12 公開日:2020-12-23
# IFGAN:特徴固有生成逆数ネットワークを用いた値計算の欠如

IFGAN: Missing Value Imputation using Feature-specific Generative Adversarial Networks ( http://arxiv.org/abs/2012.12581v1 )

ライセンス: Link先を確認
Wei Qiu, Yangsibo Huang, Quanzheng Li(参考訳) データマイニングにおいて、価値計算の欠如は困難でよく研究されているトピックである。 本稿では,特徴特異的生成型逆ネットワーク(gan)に基づく欠落値インプテーションアルゴリズムifganを提案する。 特徴固有のジェネレータは、欠落した値をインプットするように訓練され、識別器は、インプットされた値と観察された値とを区別することが期待される。 提案したアーキテクチャは、さまざまなデータタイプ、データ分散、欠落メカニズム、欠落率を扱うことができる。 また、機能間相関を保ち、インプット後の分析を改善する。 IFGANは、様々な不足条件下で現在の最先端アルゴリズムより優れている実生活データセットを実証的に示す。

Missing value imputation is a challenging and well-researched topic in data mining. In this paper, we propose IFGAN, a missing value imputation algorithm based on Feature-specific Generative Adversarial Networks (GAN). Our idea is intuitive yet effective: a feature-specific generator is trained to impute missing values, while a discriminator is expected to distinguish the imputed values from observed ones. The proposed architecture is capable of handling different data types, data distributions, missing mechanisms, and missing rates. It also improves post-imputation analysis by preserving inter-feature correlations. We empirically show on several real-life datasets that IFGAN outperforms current state-of-the-art algorithm under various missing conditions.
翻訳日:2021-04-25 18:19:15 公開日:2020-12-23
# 二次損失:不確実性改善のための新しい回帰目標

Second-Moment Loss: A Novel Regression Objective for Improved Uncertainties ( http://arxiv.org/abs/2012.12687v1 )

ライセンス: Link先を確認
Joachim Sicking, Maram Akila, Maximilian Pintz, Tim Wirtz, Asja Fischer, Stefan Wrobel(参考訳) 不確実性の定量化は、安全な機械学習を確立する最も有望なアプローチの1つである。 その重要性にもかかわらず、特にニューラルネットワークでは、一般的な解決には程遠い。 これまでの最も一般的なアプローチの1つはモンテカルロドロップアウトで、計算量的に安価で、実際に簡単に適用できる。 しかし、不確実性は過小評価できる。 本稿では,この問題に対処するため,第2モーメント損失(SML)と呼ばれる新たな目標を提案する。 完全なネットワークは平均をモデル化するよう奨励されるが、ドロップアウトネットワークはモデル分散を最適化するために明示的に使用される。 我々は,様々な玩具およびUCI回帰データセットを用いて,新しい目標の性能を分析した。 ディープアンサンブルの最先端と比較すると、SMLは単一のモデルのみを必要とする一方で、同等の予測精度と不確実性の推定につながる。 流通シフトでは,適度な改善が観察される。 安全性の観点からは、最悪のケースの不確実性の研究も重要である。 この点で私たちはかなり改善します。 最後に、SMLは、最新のオブジェクト検出ネットワークであるSqueezeDetに適用可能であることを示す。 回帰品質を損なうことなく,不確実性に関するスコアを改善する。 その結果,非飽和な直感的なwasserstein距離に基づく不確実性尺度を導入し,任意の不確実性推定値間の品質差を解消する。

Quantification of uncertainty is one of the most promising approaches to establish safe machine learning. Despite its importance, it is far from being generally solved, especially for neural networks. One of the most commonly used approaches so far is Monte Carlo dropout, which is computationally cheap and easy to apply in practice. However, it can underestimate the uncertainty. We propose a new objective, referred to as second-moment loss (SML), to address this issue. While the full network is encouraged to model the mean, the dropout networks are explicitly used to optimize the model variance. We analyze the performance of the new objective on various toy and UCI regression datasets. Comparing to the state-of-the-art of deep ensembles, SML leads to comparable prediction accuracies and uncertainty estimates while only requiring a single model. Under distribution shift, we observe moderate improvements. From a safety perspective also the study of worst-case uncertainties is crucial. In this regard we improve considerably. Finally, we show that SML can be successfully applied to SqueezeDet, a modern object detection network. We improve on its uncertainty-related scores while not deteriorating regression quality. As a side result, we introduce an intuitive Wasserstein distance-based uncertainty measure that is non-saturating and thus allows to resolve quality differences between any two uncertainty estimates.
翻訳日:2021-04-25 18:19:03 公開日:2020-12-23
# 構造的マルチアウトプット回帰による脊髄 cobb 角度の直接推定

Direct Estimation of Spinal Cobb Angles by Structured Multi-Output Regression ( http://arxiv.org/abs/2012.12626v1 )

ライセンス: Link先を確認
Haoliang Sun, Xiantong Zhen, Chris Bailey, Parham Rasoulinejad, Yilong Yin, Shuo Li(参考訳) 脊柱管曲率を定量的に評価するコブ角は、スコリオーシスの診断と治療において重要な役割を果たす。 これらの角度の従来の測定は、集中的な手動介入によって大きな変動と信頼性の低下に苦しむ。 しかし,椎体の境界付近には高い曖昧性と変動性があるため,自動的にコブ角を得ることは困難である。 本稿では,脊髄x線からのcobb角の推定を多出力回帰タスクとして定式化する。 一つのフレームワークにおいて,x線による脊椎の cobb 角度とランドマークを共同推定するための構造的支持ベクトル回帰 (s^2vr) を提案する。 提案するs^2vrは入力画像と定量的出力の非線形関係を忠実に処理でき,出力の固有相関を明示的に捉えることができる。 出力空間の幾何を利用するために多様体正規化を導入する。 本稿では、カーネルターゲットアライメントによるS2VRにおけるカーネルの学習を提案し、その識別能力を高める。 提案手法は, 439症例の脊髄X線データセットを用いて評価し, 人手による地上の真理と92.76%のインスピレーション相関係数を達成し, 2つのベースライン法より優れていた。 本手法は, 高い精度で cobb 角度の直接推定が可能であり, 臨床応用の可能性も示唆する。

The Cobb angle that quantitatively evaluates the spinal curvature plays an important role in the scoliosis diagnosis and treatment. Conventional measurement of these angles suffers from huge variability and low reliability due to intensive manual intervention. However, since there exist high ambiguity and variability around boundaries of vertebrae, it is challenging to obtain Cobb angles automatically. In this paper, we formulate the estimation of the Cobb angles from spinal X-rays as a multi-output regression task. We propose structured support vector regression (S^2VR) to jointly estimate Cobb angles and landmarks of the spine in X-rays in one single framework. The proposed S^2VR can faithfully handle the nonlinear relationship between input images and quantitative outputs, while explicitly capturing the intrinsic correlation of outputs. We introduce the manifold regularization to exploit the geometry of the output space. We propose learning the kernel in S2VR by kernel target alignment to enhance its discriminative ability. The proposed method is evaluated on the spinal X-rays dataset of 439 scoliosis subjects, which achieves the inspiring correlation coefficient of 92.76% with ground truth obtained manually by human experts and outperforms two baseline methods. Our method achieves the direct estimation of Cobb angles with high accuracy, which indicates its great potential in clinical use.
翻訳日:2021-04-25 18:18:18 公開日:2020-12-23
# シーンテキスト認識モデルの校正について

On Calibration of Scene-Text Recognition Models ( http://arxiv.org/abs/2012.12643v1 )

ライセンス: Link先を確認
Ron Slossberg, Oron Anschel, Amir Markovitz, Ron Litman, Aviad Aberdam, Shahar Tsiper, Shai Mazor, Jon Wu and R. Manmatha(参考訳) 本研究では,シーンテキスト認識(STR)における単語レベルの信頼度校正の問題について検討する。 信頼性キャリブレーションの話題は過去数十年にわたって活発な研究領域であったが、構造的およびシーケンス予測キャリブレーションの事例はほとんど調査されていない。 我々は最近のSTR法を分析し、それらが常に過信であることを示す。 次に、文字レベルではなく単語上のSTRモデルの校正に焦点を当てる。 特に注意に基づくデコーダでは、個々の文字予測のキャリブレーションにより、キャリブレーションされていないモデルと比較して単語レベルのキャリブレーション誤差が増加することを示す。 さらに,既存のキャリブレーション手法と新しいシーケンスベース拡張を多数のSTRモデルに適用し,キャリブレーション誤差を最大7。 最後に,ビームサーチにおける前処理ステップとして提案したシーケンスキャリブレーション法を適用し,一貫した精度向上を示す。

In this work, we study the problem of word-level confidence calibration for scene-text recognition (STR). Although the topic of confidence calibration has been an active research area for the last several decades, the case of structured and sequence prediction calibration has been scarcely explored. We analyze several recent STR methods and show that they are consistently overconfident. We then focus on the calibration of STR models on the word rather than the character level. In particular, we demonstrate that for attention based decoders, calibration of individual character predictions increases word-level calibration error compared to an uncalibrated model. In addition, we apply existing calibration methodologies as well as new sequence-based extensions to numerous STR models, demonstrating reduced calibration error by up to a factor of nearly 7. Finally, we show consistently improved accuracy results by applying our proposed sequence calibration method as a preprocessing step to beam-search.
翻訳日:2021-04-25 18:17:57 公開日:2020-12-23
# ハイブリッドラテント表現学習のためのプライベート共有分散マルチモーダルVAE

Private-Shared Disentangled Multimodal VAE for Learning of Hybrid Latent Representations ( http://arxiv.org/abs/2012.13024v1 )

ライセンス: Link先を確認
Mihee Lee, Vladimir Pavlovic(参考訳) マルチモーダル生成モデルは、複数のビューやモダリティを持つデータの表現学習を容易にすることを目的としているディープモデルの重要なファミリーを表す。 しかし、現在の深層マルチモーダルモデルは共有表現の推論にフォーカスしているが、個々のモダリティ内のデータの重要なプライベートな側面は無視している。 本稿では,複数のモードのプライベートかつ共有の潜在空間を分離するために,分散VAE戦略を利用する分散マルチモーダル変分オートエンコーダ(DMVAE)を提案する。 特に、潜在因子が連続的かつ離散的性質を持つ可能性がある場合を考察し、一般的なハイブリッドdmvaeモデルの族へと導く。 半教師付き学習タスクにおけるdmvaeの有用性を実証し,一方のモダリティが部分的データラベルを含み,他方のモダリティと無関係であることを示す。 いくつかのベンチマークで行った実験は、プライベートシェードな絡み合いとハイブリッドな潜伏表現の重要性を示している。

Multi-modal generative models represent an important family of deep models, whose goal is to facilitate representation learning on data with multiple views or modalities. However, current deep multi-modal models focus on the inference of shared representations, while neglecting the important private aspects of data within individual modalities. In this paper, we introduce a disentangled multi-modal variational autoencoder (DMVAE) that utilizes disentangled VAE strategy to separate the private and shared latent spaces of multiple modalities. We specifically consider the instance where the latent factor may be of both continuous and discrete nature, leading to the family of general hybrid DMVAE models. We demonstrate the utility of DMVAE on a semi-supervised learning task, where one of the modalities contains partial data labels, both relevant and irrelevant to the other modality. Our experiments on several benchmarks indicate the importance of the private-shared disentanglement as well as the hybrid latent representation.
翻訳日:2021-04-25 18:17:44 公開日:2020-12-23
# 自動車用クロスモーダル監視用カメラ画像へのレーダデータのワーピング

Warping of Radar Data into Camera Image for Cross-Modal Supervision in Automotive Applications ( http://arxiv.org/abs/2012.12809v1 )

ライセンス: Link先を確認
Christopher Grimm, Tai Fei, Ernst Warsitz, Ridha Farhoud, Tobias Breddermann, Reinhold Haeb-Umbach(参考訳) 本稿では,自動車用レーダレンジドップラー(rd)スペクトルをカメラ画像に投影する新しい枠組みを提案する。 使用済みのワーピング操作は、操作を通じてエラーバックプロパゲーションを可能にするため、完全に微分可能なように設計されている。 これにより、カメラビジョンモデルから提供されるラベルを利用することで、RDスペクトルのみで動作するニューラルネットワーク(NN)のトレーニングが可能になる。 ウォーピング操作は正確なシーンフローに依存するため,カメラ,ライダー,レーダーから供給されるシーンフロー推定アルゴリズムを提案することにより,ウォーピング動作の精度を向上させることができる。 本フレームワークは,カメラデータからの指向性推定(DoA),ターゲット検出,セマンティックセグメンテーション,レーダパワー推定など,複数のアプリケーションで実証されている。 広範に評価を行った結果,従来の推定値と比較してNNベース推定値に優れた品質が示唆された。 新たなシーンフロー推定手法は,最先端のシーンフローアルゴリズムに対してベンチマークを行い,約3分の1の精度で評価する。

In this paper, we present a novel framework to project automotive radar range-Doppler (RD) spectrum into camera image. The utilized warping operation is designed to be fully differentiable, which allows error backpropagation through the operation. This enables the training of neural networks (NN) operating exclusively on RD spectrum by utilizing labels provided from camera vision models. As the warping operation relies on accurate scene flow, additionally, we present a novel scene flow estimation algorithm fed from camera, lidar and radar, enabling us to improve the accuracy of the warping operation. We demonstrate the framework in multiple applications like direction-of-arrival (DoA) estimation, target detection, semantic segmentation and estimation of radar power from camera data. Extensive evaluations have been carried out for the DoA application and suggest superior quality for NN based estimators compared to classical estimators. The novel scene flow estimation approach is benchmarked against state-of-the-art scene flow algorithms and outperforms them by roughly a third.
翻訳日:2021-04-25 18:17:26 公開日:2020-12-23
# 測定誤差を伴う離散データの部分的識別可能性

Partial Identifiability in Discrete Data With Measurement Error ( http://arxiv.org/abs/2012.12449v1 )

ライセンス: Link先を確認
Noam Finkelstein, Roy Adams, Suchi Saria, Ilya Shpitser(参考訳) データに測定誤差が含まれている場合、観測された誤ったデータを観測されていない真の現象と関連づける仮定をする必要がある。 これらの仮定は従属的な根拠で正当化されるべきであるが、推論のターゲットを正確に特定するため、しばしば数学的利便性によって動機づけられる。 我々は、疑わしい前提の下で正確な識別を追求するよりも、正当化可能な仮定の下で境界を示すことが好ましいという見解を採用する。 そこで本研究では,モデルパラメータの線形制約として,一般的な測定誤差や条件付き独立仮定を含む,離散変数を含む広範囲なモデリング仮定を表現できることを実証する。 次に、そのようなモデルにおける測定誤差の下で、実数分布と反実数分布の鋭い境界を生成するために線形プログラミング手法を用いる。 さらに,非線形モデルにおける外界を求める手法を提案する。 本手法では,計測誤差を持つ機器変数のシナリオなど,多くの重要な設定において,これまで境界が知られていなかったシャープな境界を求める。

When data contains measurement errors, it is necessary to make assumptions relating the observed, erroneous data to the unobserved true phenomena of interest. These assumptions should be justifiable on substantive grounds, but are often motivated by mathematical convenience, for the sake of exactly identifying the target of inference. We adopt the view that it is preferable to present bounds under justifiable assumptions than to pursue exact identification under dubious ones. To that end, we demonstrate how a broad class of modeling assumptions involving discrete variables, including common measurement error and conditional independence assumptions, can be expressed as linear constraints on the parameters of the model. We then use linear programming techniques to produce sharp bounds for factual and counterfactual distributions under measurement error in such models. We additionally propose a procedure for obtaining outer bounds on non-linear models. Our method yields sharp bounds in a number of important settings -- such as the instrumental variable scenario with measurement error -- for which no bounds were previously known.
翻訳日:2021-04-25 18:16:30 公開日:2020-12-23
# 調達コストを考慮したオンライン資源配分における競争率向上のための機能設計

Function Design for Improved Competitive Ratio in Online Resource Allocation with Procurement Costs ( http://arxiv.org/abs/2012.12457v1 )

ライセンス: Link先を確認
Mitas Ray, Omid Sadeghi, Lillian J. Ratliff, Maryam Fazel(参考訳) 我々は、複数の顧客が順次到着し、売り手が入ってくる各顧客に対して無意味にリソースを割り当てると同時に、総割り当ての調達コストに直面するオンラインリソース割り当ての問題について検討する。 資源調達が限界的に増大するコスト関数に従えば、顧客の要求を満たすことで得られる報酬が累積調達コストに匹敵する最大化が目的である。 本研究では,本手法におけるプライマル・デュアルアルゴリズムの競合比を分析し,アルゴリズムが使用する調達コスト関数のサロゲート関数を合成する最適化フレームワークを開発し,プライマル・デュアルアルゴリズムの競合比を向上させる。 最初の設計手法は, 多項式調達コスト関数に着目し, 最適サロゲート関数を用いて, より洗練された境界を提供する。 第2の設計手法は, 準凸最適化を用いて, 調達コスト関数の一般クラスに対する最適設計パラメータを求める。 数値的な例は設計技法を説明するために使われる。 分析を拡張して、アルゴリズムが顧客の好みを明らかにする必要のない価格設定メカニズムを考案する。

We study the problem of online resource allocation, where multiple customers arrive sequentially and the seller must irrevocably allocate resources to each incoming customer while also facing a procurement cost for the total allocation. Assuming resource procurement follows an a priori known marginally increasing cost function, the objective is to maximize the reward obtained from fulfilling the customers' requests sans the cumulative procurement cost. We analyze the competitive ratio of a primal-dual algorithm in this setting, and develop an optimization framework for synthesizing a surrogate function for the procurement cost function to be used by the algorithm, in order to improve the competitive ratio of the primal-dual algorithm. Our first design method focuses on polynomial procurement cost functions and uses the optimal surrogate function to provide a more refined bound than the state of the art. Our second design method uses quasiconvex optimization to find optimal design parameters for a general class of procurement cost functions. Numerical examples are used to illustrate the design techniques. We conclude by extending the analysis to devise a posted pricing mechanism in which the algorithm does not require the customers' preferences to be revealed.
翻訳日:2021-04-25 18:16:15 公開日:2020-12-23
# 半透明パッチ:物体検出器に対する物理的および普遍的な攻撃

The Translucent Patch: A Physical and Universal Attack on Object Detectors ( http://arxiv.org/abs/2012.12528v1 )

ライセンス: Link先を確認
Alon Zolfi and Moshe Kravchik and Yuval Elovici and Asaf Shabtai(参考訳) 近年、物体検出器に対する物理的敵対攻撃が成功している。 しかし、これらの攻撃は物理的パッチを適用するために興味のあるオブジェクトに直接アクセスする必要がある。 さらに、複数のオブジェクトを隠すには、各オブジェクトに逆パッチを適用する必要がある。 本稿では,カメラのレンズに配置したパターンを念入りに組み込んだ非接触半透明の物理的パッチを,最先端の物体検出器を騙すために提案する。 パッチの主な目標は、選択されたターゲットクラスのすべてのインスタンスを隠すことです。 さらに、パッチ構築に使用される最適化手法は、他の(未対象の)クラスの検出が損なわれないようにすることを目的としている。 そこで,自動運転における最先端の物体検出モデルを用いた実験では,パッチが選択された対象クラスと他のクラスの両方の検出に与える影響について検討する。 我々のパッチは、他のクラスの高い(約80%)検出を維持しながら、すべてのストップサインインスタンスの42.27%の検出を防止できた。

Physical adversarial attacks against object detectors have seen increasing success in recent years. However, these attacks require direct access to the object of interest in order to apply a physical patch. Furthermore, to hide multiple objects, an adversarial patch must be applied to each object. In this paper, we propose a contactless translucent physical patch containing a carefully constructed pattern, which is placed on the camera's lens, to fool state-of-the-art object detectors. The primary goal of our patch is to hide all instances of a selected target class. In addition, the optimization method used to construct the patch aims to ensure that the detection of other (untargeted) classes remains unharmed. Therefore, in our experiments, which are conducted on state-of-the-art object detection models used in autonomous driving, we study the effect of the patch on the detection of both the selected target class and the other classes. We show that our patch was able to prevent the detection of 42.27% of all stop sign instances while maintaining high (nearly 80%) detection of the other classes.
翻訳日:2021-04-25 18:15:04 公開日:2020-12-23
# GANDA: 腫瘍画素内のナノ粒子の空間分布を推定する深層生成対向ネットワーク

GANDA: A deep generative adversarial network predicts the spatial distribution of nanoparticles in tumor pixelly ( http://arxiv.org/abs/2012.12561v1 )

ライセンス: Link先を確認
Jiulou Zhang, Yuxia Tang, Shouju Wang(参考訳) 腫瘍内ナノ粒子 (nps) 分布は診断および治療効果に重要であるが, 複雑な生体-ナノ相互作用のために分布を予測できない。 本稿では,腫瘍間のnps分布の画素間予測を行うganda(generative adversarial network for distribution analysis)を開発した。 この予測モデルは、腫瘍部位の全スライディング画像から腫瘍血管と細胞核の特徴を自動的に学習するためにディープラーニングアプローチを使用した。 GANDAは腫瘍血管と核の原像と同じ空間分解能でNPs分布の画像を生成することができた。 GANDAはNPs分布(R2=0.93)を定量的に分析し、実際の分布を知らずにエクスポーテーションを可能にした。 このモデルは、個々の腫瘍におけるNPs分布に影響を及ぼす要因を調べる機会を与え、パーソナライズされた治療のためのナノメディシン最適化を導く。

Intratumoral nanoparticles (NPs) distribution is critical for the diagnostic and therapeutic effect, but methods to predict the distribution remain unavailable due to the complex bio-nano interactions. Here, we developed a Generative Adversarial Network for Distribution Analysis (GANDA) to make pixels-to-pixels prediction of the NPs distribution across tumors. This predictive model used deep learning approaches to automatically learn the features of tumor vessels and cell nuclei from whole-slide images of tumor sections. We showed that the GANDA could generate images of NPs distribution with the same spatial resolution as original images of tumor vessels and nuclei. The GANDA enabled quantitative analysis of NPs distribution (R2=0.93) and extravasation without knowing their real distribution. This model provides opportunities to investigate how influencing factors affect NPs distribution in individual tumors and may guide nanomedicine optimization for personalized treatments.
翻訳日:2021-04-25 18:14:49 公開日:2020-12-23
# 深層多様体学習はプロテアソーム自己制御の隠れたダイナミクスを明らかにする

Deep manifold learning reveals hidden dynamics of proteasome autoregulation ( http://arxiv.org/abs/2012.12854v1 )

ライセンス: Link先を確認
Zhaolong Wu, Shuwen Zhang, Wei Li Wang, Yinping Ma, Yuanchen Dong and Youdong Mao(参考訳) 2.5-MDa 26Sプロテアソームはプロテオスタシスを維持し、無数の細胞プロセスを制御する。 ポリウビキチル化基質相互作用がプロテアソーム活性を制御するかは理解されていない。 ここでは,非平衡コンフォメーション連続体の原子レベル低温電子顕微鏡(cryo-EM)再構成を可能にし,プロテアソーム自己制御の隠れたダイナミクスを基板劣化の過程で再構成するAlphaCryo4Dという深層多様体学習フレームワークを紹介する。 AlphaCryo4Dは3次元深層学習と自由エネルギー景観の多様体埋め込みを統合し、エネルギーベースの粒子投票アルゴリズムによって3次元クラスタリングを誘導する。 ブラインド評価において,αcryo4dは従来の手法の3倍の3次元識別精度を達成し,130kdaタンパク質のサブ3アングストローム分解による連続構造変化を再構成した。 ヒト26Sプロテアソームの64個のコンホメータをAlphaCryo4Dを用いて解析し、二重キャップホロ酵素中の2つの制御粒子のコンホメーションの絡み合いと、それらのエネルギー的相違を明らかにした。 新規ユビキチン結合部位がRPN2、RPN10、Alpha5サブユニットで発見され、ポリユビキチン鎖をデビキチン化とリサイクルのためにリモデリングする。 重要なことは、AlphaCryo4Dはトランスロケーション開始時にプロテアソームAAA-ATPaseモーターの単一ヌクレオチド交換ダイナミクスを解析し、求核性攻撃を促進することでプロテアーゼ活性を亢進させる。 我々のシステム解析は、プロテアソーム自己調節のための大階層アロステリーを照らす。

The 2.5-MDa 26S proteasome maintains proteostasis and regulates myriad cellular processes. How polyubiquitylated substrate interactions regulate proteasome activity is not understood. Here we introduce a deep manifold learning framework, named AlphaCryo4D, which enables atomic-level cryogenic electron microscopy (cryo-EM) reconstructions of nonequilibrium conformational continuum and reconstitutes hidden dynamics of proteasome autoregulation in the act of substrate degradation. AlphaCryo4D integrates 3D deep residual learning with manifold embedding of free-energy landscapes, which directs 3D clustering via an energy-based particle-voting algorithm. In blind assessments using simulated heterogeneous cryo-EM datasets, AlphaCryo4D achieved 3D classification accuracy three times that of conventional method and reconstructed continuous conformational changes of a 130-kDa protein at sub-3-angstrom resolution. By using AlphaCryo4D to analyze a single experimental cryo-EM dataset, we identified 64 conformers of the substrate-bound human 26S proteasome, revealing conformational entanglement of two regulatory particles in the doubly capped holoenzymes and their energetic differences with singly capped ones. Novel ubiquitin-binding sites are discovered on the RPN2, RPN10 and Alpha5 subunits to remodel polyubiquitin chains for deubiquitylation and recycle. Importantly, AlphaCryo4D choreographs single-nucleotide-ex change dynamics of proteasomal AAA-ATPase motor during translocation initiation, which upregulates proteolytic activity by allosterically promoting nucleophilic attack. Our systemic analysis illuminates a grand hierarchical allostery for proteasome autoregulation.
翻訳日:2021-04-25 18:14:19 公開日:2020-12-23
# オフロード動的低可視環境における低遅延知覚

Low-latency Perception in Off-Road Dynamical Low Visibility Environments ( http://arxiv.org/abs/2012.13014v1 )

ライセンス: Link先を確認
Nelson Alves, Marco Ruiz, Marco Reis, Tiago Cajahyba, Davi Oliveira, Ana Barreto, Eduardo F. Simas Filho, Wagner L. A. de Oliveira, Leizer Schnitman, Roberto L. S. Monteiro(参考訳) 本研究は、未舗装道路とオフロード環境に特化した自動運転車と先進運転支援システムを提案する。 本研究では,オフロード環境と未舗装道路のセマンティックセグメンテーションに応用したディープラーニングアルゴリズムの挙動を,視認性の悪い条件下で検討した。 未舗装とオフロードの異なる環境の約12,000枚の画像が収集され、ラベルがつけられた。 開発専用のオフロード試験場として組み立てられた。 提案したデータセットには、雨、塵、低光など多くの有害な状況も含まれている。 システムを開発するために,畳み込みニューラルネットワークを用いて障害物や車が通過できる領域を分割する訓練を行った。 我々は、異なるアーキテクチャアレンジメントを作成し、提案するデータセット上でそれらをテストするための構成可能なモジュールセグメンテーションネットワーク(cmsnet)フレームワークを開発した。 また、組み込みリアルタイム推論を実現し、フィールドテストを可能にするためにTensorRT、C++、CUDAを使って多くのレイヤを削除、融合することで、いくつかのCMSNet構成も移植しました。 The main contributions of this work are: a new dataset for unpaved roads and off-roads environments containing many adverse conditions such as night, rain, and dust; a CMSNet framework; an investigation regarding the feasibility of applying deep learning to detect region where the vehicle can pass through when there is no clear boundary of the track; a study of how our proposed segmentation algorithms behave in different severity levels of visibility impairment; and an evaluation of field tests carried out with semantic segmentation architectures ported for real-time inference.

This work proposes a perception system for autonomous vehicles and advanced driver assistance specialized on unpaved roads and off-road environments. In this research, the authors have investigated the behavior of Deep Learning algorithms applied to semantic segmentation of off-road environments and unpaved roads under differents adverse conditions of visibility. Almost 12,000 images of different unpaved and off-road environments were collected and labeled. It was assembled an off-road proving ground exclusively for its development. The proposed dataset also contains many adverse situations such as rain, dust, and low light. To develop the system, we have used convolutional neural networks trained to segment obstacles and areas where the car can pass through. We developed a Configurable Modular Segmentation Network (CMSNet) framework to help create different architectures arrangements and test them on the proposed dataset. Besides, we also have ported some CMSNet configurations by removing and fusing many layers using TensorRT, C++, and CUDA to achieve embedded real-time inference and allow field tests. The main contributions of this work are: a new dataset for unpaved roads and off-roads environments containing many adverse conditions such as night, rain, and dust; a CMSNet framework; an investigation regarding the feasibility of applying deep learning to detect region where the vehicle can pass through when there is no clear boundary of the track; a study of how our proposed segmentation algorithms behave in different severity levels of visibility impairment; and an evaluation of field tests carried out with semantic segmentation architectures ported for real-time inference.
翻訳日:2021-04-25 18:13:43 公開日:2020-12-23
# プロポーショナルプログレッシブな擬似ラベルによる一般ドメイン適応

General Domain Adaptation Through Proportional Progressive Pseudo Labeling ( http://arxiv.org/abs/2012.13028v1 )

ライセンス: Link先を確認
Mohammad J. Hashemi, Eric Keller(参考訳) ドメイン適応はラベル付きソースドメインから取得した知識をラベルなしターゲットドメインに転送するのに役立つ。 過去数年間、異なるドメイン適応技術が出版されている。 これらのアプローチの一般的な欠点は、画像のような1つの入力タイプでうまく機能するが、テキストや時系列など、他の入力タイプに適用されるとパフォーマンスが低下する点である。 本稿では,いくつかの入力タイプに適用可能な,より汎用的なドメイン適応手法を構築するために,数行のコードで実装可能な,単純かつ効果的な手法であるprogressal progressive pseudo labeling (pppl)を提案する。 トレーニングフェーズの開始時にPPPLは、擬似ラベル付き対象ドメインサンプルでモデルを直接トレーニングし、トレーニングセットからより間違った擬似ラベルを持つサンプルを除外し、そのようなサンプル上でのトレーニングを延期することにより、対象ドメイン分類誤差を段階的に低減する。 異常検出、テキスト感情分析、画像分類などのタスクを含む6つの異なるデータセットの実験は、PPPLが他のベースラインを破り、より一般化できることを示しています。

Domain adaptation helps transfer the knowledge gained from a labeled source domain to an unlabeled target domain. During the past few years, different domain adaptation techniques have been published. One common flaw of these approaches is that while they might work well on one input type, such as images, their performance drops when applied to others, such as text or time-series. In this paper, we introduce Proportional Progressive Pseudo Labeling (PPPL), a simple, yet effective technique that can be implemented in a few lines of code to build a more general domain adaptation technique that can be applied on several different input types. At the beginning of the training phase, PPPL progressively reduces target domain classification error, by training the model directly with pseudo-labeled target domain samples, while excluding samples with more likely wrong pseudo-labels from the training set and also postponing training on such samples. Experiments on 6 different datasets that include tasks such as anomaly detection, text sentiment analysis and image classification demonstrate that PPPL can beat other baselines and generalize better.
翻訳日:2021-04-25 18:13:22 公開日:2020-12-23
# ニューラルネットワークを用いた混合整数プログラムの解法

Solving Mixed Integer Programs Using Neural Networks ( http://arxiv.org/abs/2012.13349v1 )

ライセンス: Link先を確認
Vinod Nair, Sergey Bartunov, Felix Gimeno, Ingrid von Glehn, Pawel Lichocki, Ivan Lobov, Brendan O'Donoghue, Nicolas Sonnerat, Christian Tjandraatmadja, Pengming Wang, Ravichandra Addanki, Tharindi Hapuarachchi, Thomas Keck, James Keeling, Pushmeet Kohli, Ira Ktena, Yujia Li, Oriol Vinyals, Yori Zwols(参考訳) 混合整数プログラミング(mip)ソルバは、何十年もの研究で開発された洗練されたヒューリスティックの配列に依存し、実際に遭遇する大規模mipインスタンスを解決する。 機械学習は、データ内のインスタンス間の共有構造を利用して、データからより優れたヒューリスティックを自動構築する。 本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。 提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。 Neural Divingは、整数変数に対する複数の部分代入を生成するディープニューラルネットワークを学習し、その結果、未割り当て変数に対するより小さなMIPをSCIPで解決し、高品質な関節代入を構築する。 ニューラルブランチはディープニューラルネットワークを学び、分岐とバウンドの変数選択決定を行い、目的値ギャップを小さな木とバウンドする。 これは、GPUを使用して大規模インスタンスにスケールする、Full Strong Branchingの新しい変種を模倣することで実現される。 2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。 すべてのデータセットのほとんどのインスタンスは、10^3-10^6$変数を持ち、事前解決後の制約がある。 保持されたインスタンスセットの平均的なプリマル・デュアルギャップに対するソルバを比較すると、学習によるscipは10^5$x以上のデータセットを除いて、すべてのデータセットで2倍から10倍に向上する。 私たちの知る限りでは、大規模な実世界のアプリケーションデータセットとMIPLIBの両方において、SCIPよりも大きな改善を示す最初の学習アプローチです。

Mixed Integer Programming (MIP) solvers rely on an array of sophisticated heuristics developed with decades of research to solve large-scale MIP instances encountered in practice. Machine learning offers to automatically construct better heuristics from data by exploiting shared structure among instances in the data. This paper applies learning to the two key sub-tasks of a MIP solver, generating a high-quality joint variable assignment, and bounding the gap in objective value between that assignment and an optimal one. Our approach constructs two corresponding neural network-based components, Neural Diving and Neural Branching, to use in a base MIP solver such as SCIP. Neural Diving learns a deep neural network to generate multiple partial assignments for its integer variables, and the resulting smaller MIPs for un-assigned variables are solved with SCIP to construct high quality joint assignments. Neural Branching learns a deep neural network to make variable selection decisions in branch-and-bound to bound the objective value gap with a small tree. This is done by imitating a new variant of Full Strong Branching we propose that scales to large instances using GPUs. We evaluate our approach on six diverse real-world datasets, including two Google production datasets and MIPLIB, by training separate neural networks on each. Most instances in all the datasets combined have $10^3-10^6$ variables and constraints after presolve, which is significantly larger than previous learning approaches. Comparing solvers with respect to primal-dual gap averaged over a held-out set of instances, the learning-augmented SCIP is 2x to 10x better on all datasets except one on which it is $10^5$x better, at large time limits. To the best of our knowledge, ours is the first learning approach to demonstrate such large improvements over SCIP on both large-scale real-world application datasets and MIPLIB.
翻訳日:2021-04-25 18:13:04 公開日:2020-12-23
# 学習創発空間における創発的PDEの学習

Learning emergent PDEs in a learned emergent space ( http://arxiv.org/abs/2012.12738v1 )

ライセンス: Link先を確認
Felix P. Kemeth, Tom Bertalan, Thomas Thiem, Felix Dietrich, Sung Joon Moon, Carlo R. Laing and Ioannis G. Kevrekidis(参考訳) 我々は、結合した異種物質の大規模系の力学の観測から、データ駆動空間座標を抽出する。 これらの座標は、結合エージェント系の集合記述のための偏微分方程式(PDE)の形で予測モデルを学習する創発的空間として機能する。 このPDEでは、独立した空間変数の役割を担います(依存型、あるいはデータ駆動型状態変数とは対照的に)。 このことは、これらの創発座標に局所的な力学の代替記述をもたらし、複雑な結合エージェント系に対する代替モデリングパスを容易にする。 各エージェントがリミットサイクル発振器(いわゆるスチュアート・ランダウ発振器)であり、エージェントは異種(それぞれ異なる固有周波数$\omega$を持つ)であり、それぞれの変数のアンサンブル平均を介して結合されるシステム上で、このアプローチを説明する。 高速初期遷移の後、スロー多様体上の集団ダイナミクスは、創発座標における局所的"空間的"部分微分に基づく学習モデルによって近似できることを示した。 モデルは、時間内の予測や、システムのパラメータが変化するときの集合的分岐を捉えるために使用される。 提案手法では,エージェントのダイナミクスをパラメータ化する創発的空間座標の自動抽出と,このパラメータ化におけるダイナミクスの"emergent pde"記述の機械学習による同定を統合する。

We extract data-driven, intrinsic spatial coordinates from observations of the dynamics of large systems of coupled heterogeneous agents. These coordinates then serve as an emergent space in which to learn predictive models in the form of partial differential equations (PDEs) for the collective description of the coupled-agent system. They play the role of the independent spatial variables in this PDE (as opposed to the dependent, possibly also data-driven, state variables). This leads to an alternative description of the dynamics, local in these emergent coordinates, thus facilitating an alternative modeling path for complex coupled-agent systems. We illustrate this approach on a system where each agent is a limit cycle oscillator (a so-called Stuart-Landau oscillator); the agents are heterogeneous (they each have a different intrinsic frequency $\omega$) and are coupled through the ensemble average of their respective variables. After fast initial transients, we show that the collective dynamics on a slow manifold can be approximated through a learned model based on local "spatial" partial derivatives in the emergent coordinates. The model is then used for prediction in time, as well as to capture collective bifurcations when system parameters vary. The proposed approach thus integrates the automatic, data-driven extraction of emergent space coordinates parametrizing the agent dynamics, with machine-learning assisted identification of an "emergent PDE" description of the dynamics in this parametrization.
翻訳日:2021-04-25 18:12:27 公開日:2020-12-23
# 格子ゲージ同変畳み込みニューラルネットワーク

Lattice gauge equivariant convolutional neural networks ( http://arxiv.org/abs/2012.12901v1 )

ライセンス: Link先を確認
Matteo Favoni, Andreas Ipp, David I. M\"uller, Daniel Schuh(参考訳) 格子ゲージ理論問題に対する汎用機械学習応用のための格子ゲージ同変畳み込みニューラルネットワーク(L-CNN)を提案する。 このネットワーク構造の中心には、連続した双線型層に任意の形状のウィルソンループを形成しながらゲージ平衡を保存する新しい畳み込み層がある。 例えばポリアコフループからの位相情報とともに、そのようなネットワークは格子上の任意のゲージ共変関数を原理的に近似することができる。 従来の畳み込みニューラルネットワークでは検出できないゲージ不変量をL-CNNが学習し、一般化できることを実証する。

We propose Lattice gauge equivariant Convolutional Neural Networks (L-CNNs) for generic machine learning applications on lattice gauge theoretical problems. At the heart of this network structure is a novel convolutional layer that preserves gauge equivariance while forming arbitrarily shaped Wilson loops in successive bilinear layers. Together with topological information, for example from Polyakov loops, such a network can in principle approximate any gauge covariant function on the lattice. We demonstrate that L-CNNs can learn and generalize gauge invariant quantities that traditional convolutional neural networks are incapable of finding.
翻訳日:2021-04-25 18:12:03 公開日:2020-12-23
# 認知推論における否定

Negation in Cognitive Reasoning ( http://arxiv.org/abs/2012.12641v1 )

ライセンス: Link先を確認
Claudia Schon, Sophie Siebert, Frieder Stolzenburg(参考訳) 否定は、形式論理学と自然言語における操作であり、命題は「ノー」または「他の否定のキュー」の追加によって、反対を表すものに置き換えられる。 コモンセンス推論とテキスト理解を含む認知的推論には、適切な方法で否定を扱う必要がある。 認知的推論の1つの課題は、自然言語の文によって与えられる質問に答えることである。 言論表現理論に基づくツールがあり、文を自動的に形式論理表現に変換する。 しかし、論理データベースにおける知識は常に不完全であるため、自動推論システムの前方推論だけでは、完全な証明の代わりに部分的正の知識のみを導出できるため、質問に対する答えを導出するのに十分ではない。 結果として、否定表現からの負の情報はこの文脈では役に立たない。 したがって, 厳密に言えば, 否定された事象や性質を逆数に還元することを目指す。 これは、一般的な質問応答に論理と機械学習の両方を用いる認知的推論の基礎となる。 本稿では,否定された事象や性質を逆系や認知的推論システムで置き換えるための効果的な手順について述べる。 この手順を実例で示し,いくつかのベンチマークを用いて評価する。

Negation is both an operation in formal logic and in natural language by which a proposition is replaced by one stating the opposite, as by the addition of "not" or another negation cue. Treating negation in an adequate way is required for cognitive reasoning, which comprises commonsense reasoning and text comprehension. One task of cognitive reasoning is answering questions given by sentences in natural language. There are tools based on discourse representation theory to convert sentences automatically into a formal logical representation. However, since the knowledge in logical databases in practice always is incomplete, forward reasoning of automated reasoning systems alone does not suffice to derive answers to questions because, instead of complete proofs, often only partial positive knowledge can be derived. In consequence, negative information from negated expressions does not help in this context, because only negative knowledge can be derived from this. Therefore, we aim at reducing syntactic negation, strictly speaking, the negated event or property, to its inverse. This lays the basis of cognitive reasoning employing both logic and machine learning for general question answering. In this paper, we describe an effective procedure to determine the negated event or property in order to replace it with it inverse and our overall system for cognitive reasoning. We demonstrate the procedure with examples and evaluate it with several benchmarks.
翻訳日:2021-04-25 18:11:36 公開日:2020-12-23
# Syllabificationのないスペイン語詩の自動スキャン

Automatic Scansion of Spanish Poetry without Syllabification ( http://arxiv.org/abs/2012.12799v1 )

ライセンス: Link先を確認
Guillermo Marco Rem\'on, Julio Gonzalo(参考訳) 近年、スペイン詩の自動計量分析システムがいくつか登場している。 これらのシステムは、計算コストが高いPoSタグライブラリを使用する、シラビフィケーションとストレス割り当ての複雑な方法に依存している。 このコストは計量のあいまいさの計算によって増加する。 さらに、11音節以上の詩のヘミスティック間の補償現象など、音節数における問題を決定することも考慮していない。 しかし、これらのコストのかかる手法を使わずに、情報的かつ正確な計量分析を行うことは可能である。 本研究では,音節分割を伴わずに正確なスキャン(音節数,ストレスパターン,詩の種類)を行うアルゴリズムを提案する。 計量的曖昧さに対処し、ヘミシュス補償を考慮に入れる。 我々のアルゴリズムは、固定長詩では2%、混合長詩では25%の精度で芸術の現況を上回ります。 また、それぞれ21倍と25倍の速度で走る。 最後に、スペイン語詩の研究者のためのツールとしてデスクトップアプリケーションが提供される。

In recent years, several systems of automated metric analysis of Spanish poetry have emerged. These systems rely on complex methods of syllabification and stress assignment, which use PoS-tagging libraries, whose computational cost is high. This cost increases with the calculation of metric ambiguities. Furthermore, they do not consider determining issues in syllabic count such as the phenomena of compensation between hemistichs of verses of more than eleven syllables. However, it is possible to carry out an informative and accurate metric analysis without using these costly methods. We propose an algorithm that performs accurate scansion (number of syllables, stress pattern and type of verse) without syllabification. It addresses metric ambiguities and takes into account the hemistichs compensation. Our algorithm outperforms the current state of the art by 2% in fixed-metre poetry, and 25% in mixed-metre poetry. It also runs 21 and 25 times faster, respectively. Finally, a desktop application is offered as a tool for researchers of Spanish poetry.
翻訳日:2021-04-25 18:11:14 公開日:2020-12-23
# 抽象論の安定性

Stability in Abstract Argumentation ( http://arxiv.org/abs/2012.12588v1 )

ライセンス: Link先を確認
Jean-Guy Mailly and Julien Rossit(参考訳) 構造化議論設定における安定性の概念は、与えられたリテラルに関連する受け入れステータスが、この設定の将来の進化に影響されない状況を特徴づける。 本稿では,議論の論理構造を抽象化し,この安定性の概念をダンジョン論の枠組みの文脈に転換する。 特に,この問題をArgument-Incomplete AFsを用いて推論する方法について述べる。 そして、4つの顕著な意味論の下での安定性に関する予備的な複雑性結果を提供する。 最後に,議論に基づくネゴシエーションの応用において,この概念がどの程度有用かを示す。

The notion of stability in a structured argumentation setup characterizes situations where the acceptance status associated with a given literal will not be impacted by any future evolution of this setup. In this paper, we abstract away from the logical structure of arguments, and we transpose this notion of stability to the context of Dungean argumentation frameworks. In particular, we show how this problem can be translated into reasoning with Argument-Incomplete AFs. Then we provide preliminary complexity results for stability under four prominent semantics, in the case of both credulous and skeptical reasoning. Finally, we illustrate to what extent this notion can be useful with an application to argument-based negotiation.
翻訳日:2021-04-25 18:11:00 公開日:2020-12-23
# AIベースの電力グリッド制御を再考する:アルゴリズム設計への転換

Rethink AI-based Power Grid Control: Diving Into Algorithm Design ( http://arxiv.org/abs/2012.13026v1 )

ライセンス: Link先を確認
Xiren Zhou and Siqi Wang and Ruisheng Diao and Desong Bian and Jiahui Duan and Di Shi(参考訳) Recently, deep reinforcement learning (DRL)-based approach has shown promisein solving complex decision and control problems in power engineering domain.In this paper, we present an in-depth analysis of DRL-based voltage control fromaspects of algorithm selection, state space representation, and reward engineering.To resolve observed issues, we propose a novel imitation learning-based approachto directly map power grid operating points to effective actions without any interimreinforcement learning process. その結果, 提案手法は, 学習時間が少なく, 高い一般化能力を有しており, 模倣学習により訓練されたエージェントは, 電圧制御問題を効果的かつ頑健に解くことができ, 従来のrlエージェントよりも優れていた。

Recently, deep reinforcement learning (DRL)-based approach has shown promisein solving complex decision and control problems in power engineering domain.In this paper, we present an in-depth analysis of DRL-based voltage control fromaspects of algorithm selection, state space representation, and reward engineering.To resolve observed issues, we propose a novel imitation learning-based approachto directly map power grid operating points to effective actions without any interimreinforcement learning process. The performance results demonstrate that theproposed approach has strong generalization ability with much less training time.The agent trained by imitation learning is effective and robust to solve voltagecontrol problem and outperforms the former RL agents.
翻訳日:2021-04-25 18:10:48 公開日:2020-12-23
# MG-SAGC:3次元点雲のためのマルチスケールグラフとその自己適応グラフ畳み込みネットワーク

MG-SAGC: A multiscale graph and its self-adaptive graph convolution network for 3D point clouds ( http://arxiv.org/abs/2012.12445v1 )

ライセンス: Link先を確認
Bo Wu, Bo Lang(参考訳) 本稿では,ニューラルネットワークがローカルポイントクラウドの特徴を抽出し,その品質を向上させる能力を高めるために,多スケールグラフ生成法と自己適応グラフ畳み込み法を提案する。 まず,点雲に対するマルチスケールグラフ生成手法を提案する。 このアプローチは、点雲を、スケール空間における点雲のマルチスケール解析をサポートする構造化されたマルチスケールグラフ形式に変換し、異なるスケールで点雲データの次元的特徴を得ることができるので、最良の点雲の特徴を容易に得ることができる。 従来の畳み込みニューラルネットワークは不規則な頂点近傍を持つグラフデータには適用できないため、最適近似理論に基づく不規則畳み込みフィルタにチェビシェフ多項式を用いたセフ適応グラフ畳み込みカーネルを提案する。 本稿では,スケールマップの異なる特徴を合成し,ポイントクラウド機能を生成するためにmax poolingを採用する。 広く使われている3つの公開データセットを用いて行った実験では、提案手法は他の最先端モデルよりも優れ、その有効性と一般化性を示す。

To enhance the ability of neural networks to extract local point cloud features and improve their quality, in this paper, we propose a multiscale graph generation method and a self-adaptive graph convolution method. First, we propose a multiscale graph generation method for point clouds. This approach transforms point clouds into a structured multiscale graph form that supports multiscale analysis of point clouds in the scale space and can obtain the dimensional features of point cloud data at different scales, thus making it easier to obtain the best point cloud features. Because traditional convolutional neural networks are not applicable to graph data with irregular vertex neighborhoods, this paper presents an sef-adaptive graph convolution kernel that uses the Chebyshev polynomial to fit an irregular convolution filter based on the theory of optimal approximation. In this paper, we adopt max pooling to synthesize the features of different scale maps and generate the point cloud features. In experiments conducted on three widely used public datasets, the proposed method significantly outperforms other state-of-the-art models, demonstrating its effectiveness and generalizability.
翻訳日:2021-04-25 18:10:38 公開日:2020-12-23
# CholecSeg8k: Cholec80 を用いた腹腔鏡下胆嚢摘出術のセマンティックセグメンテーションデータセット

CholecSeg8k: A Semantic Segmentation Dataset for Laparoscopic Cholecystectomy Based on Cholec80 ( http://arxiv.org/abs/2012.12453v1 )

ライセンス: Link先を確認
W.-Y. Hong, C.-L. Kao, Y.-H. Kuo, J.-R. Wang, W.-L. Chang and C.-S. Shih(参考訳) 手術の正確性と安全性を高めるためにコンピュータ支援手術が開発された。 しかし、研究者やエンジニアは、より良いアルゴリズムを開発し訓練するために、注釈付きデータに苦しむ。 したがって、同時局在マッピング(SLAM)のような基本アルゴリズムの開発は限られている。 本稿では,多くのコンピュータ支援手術機構の基礎となるセマンティクスセグメンテーションのためのデータセット作成の取り組みについて詳述する。 Cholec80データセット[3]に基づいて,Colec80の17本のビデオクリップから8,080本の腹腔鏡下胆嚢摘出画像フレームを抽出し,注視した。 データセットはCholecSeg8Kと名付けられ、総サイズは3GBである。 これらの画像はそれぞれ、腹腔鏡下胆嚢摘出術で一般的に確立される13のクラスでピクセルレベルでアノテートされる。 CholecSeg8kはCC BY-NC-SA 4.0ライセンスでリリースされた。

Computer-assisted surgery has been developed to enhance surgery correctness and safety. However, researchers and engineers suffer from limited annotated data to develop and train better algorithms. Consequently, the development of fundamental algorithms such as Simultaneous Localization and Mapping (SLAM) is limited. This article elaborates on the efforts of preparing the dataset for semantic segmentation, which is the foundation of many computer-assisted surgery mechanisms. Based on the Cholec80 dataset [3], we extracted 8,080 laparoscopic cholecystectomy image frames from 17 video clips in Cholec80 and annotated the images. The dataset is named CholecSeg8K and its total size is 3GB. Each of these images is annotated at pixel-level for thirteen classes, which are commonly founded in laparoscopic cholecystectomy surgery. CholecSeg8k is released under the license CC BY- NC-SA 4.0.
翻訳日:2021-04-25 18:10:18 公開日:2020-12-23
# トポロジカル制約を伴う群集の局在

Localization in the Crowd with Topological Constraints ( http://arxiv.org/abs/2012.12482v1 )

ライセンス: Link先を確認
Shahira Abousamra and Minh Hoai and Dimitris Samaras and Chao Chen(参考訳) 混み合っている場面の人に対応する点の予測という,群集の局所化の問題に対処する。 様々な課題により、ローカライズ手法は空間的意味的誤り、すなわち同一人物内の複数の点を予測したり、乱雑な領域で複数の点を崩壊させる。 これらの意味的誤りを対象とするトポロジ的アプローチを提案する。 本稿では,ドットの空間配置を推論するためにモデルを教えるトポロジカル制約を導入する。 この制約を強制するために、持続的ホモロジーの理論に基づいた永続的損失を定義する。 この損失は、確率写像の地形的景観と基底真理のトポロジーを比較している。 トポロジカル推論は局所化アルゴリズムの品質を特に散在する領域の近くで改善する。 複数の公開ベンチマークでは,従来のローカライズ手法を上回っている。 さらに,本手法が群集カウントタスクの性能向上に有効であることを示す。

We address the problem of crowd localization, i.e., the prediction of dots corresponding to people in a crowded scene. Due to various challenges, a localization method is prone to spatial semantic errors, i.e., predicting multiple dots within a same person or collapsing multiple dots in a cluttered region. We propose a topological approach targeting these semantic errors. We introduce a topological constraint that teaches the model to reason about the spatial arrangement of dots. To enforce this constraint, we define a persistence loss based on the theory of persistent homology. The loss compares the topographic landscape of the likelihood map and the topology of the ground truth. Topological reasoning improves the quality of the localization algorithm especially near cluttered regions. On multiple public benchmarks, our method outperforms previous localization methods. Additionally, we demonstrate the potential of our method in improving the performance in the crowd counting task.
翻訳日:2021-04-25 18:10:02 公開日:2020-12-23
# マルチBlur2Deblurは、ビデオの効率を良くする

Blur More To Deblur Better: Multi-Blur2Deblur For Efficient Video Deblurring ( http://arxiv.org/abs/2012.12507v1 )

ライセンス: Link先を確認
Dongwon Park, Dong Un Kang, Se Young Chun(参考訳) ビデオデブラリングの重要なコンポーネントの1つは、隣り合うフレームをどのように利用するかである。 最近の最先端の手法では、隣接フレームを中央フレームに配置するか、過去のフレームに関する情報を現在のフレームに繰り返し伝達する。 本稿では,隣り合うフレームを効率的にデブラリングするための新しい概念であるmb2dを提案する。 まず、unsharpのマスキングに触発されて、よりぼやけた画像と長時間露光を使用することで、追加の入力によってパフォーマンスが大幅に向上する、と主張する。 第2に,隣接するフレームからよりぼやけた画像を合成し,既存のビデオデブロワー法により性能を大幅に向上させるマルチブルーリカレントニューラルネットワーク(MBRNN)を提案する。 最後に,MBRNN(MSDR)からの繰り返し特徴マップを接続して,高速かつメモリ効率のよいGoProおよびSuデータセットの最先端性能を実現するマルチスケールデブロアリングを提案する。

One of the key components for video deblurring is how to exploit neighboring frames. Recent state-of-the-art methods either used aligned adjacent frames to the center frame or propagated the information on past frames to the current frame recurrently. Here we propose multi-blur-to-deblur (MB2D), a novel concept to exploit neighboring frames for efficient video deblurring. Firstly, inspired by unsharp masking, we argue that using more blurred images with long exposures as additional inputs significantly improves performance. Secondly, we propose multi-blurring recurrent neural network (MBRNN) that can synthesize more blurred images from neighboring frames, yielding substantially improved performance with existing video deblurring methods. Lastly, we propose multi-scale deblurring with connecting recurrent feature map from MBRNN (MSDR) to achieve state-of-the-art performance on the popular GoPro and Su datasets in fast and memory efficient ways.
翻訳日:2021-04-25 18:09:50 公開日:2020-12-23
# コンテンツ転送によるセマンティックセグメンテーションのための教師なしドメイン適応

Unsupervised Domain Adaptation for Semantic Segmentation by Content Transfer ( http://arxiv.org/abs/2012.12545v1 )

ライセンス: Link先を確認
Suhyeon Lee, Junhyuk Hyun, Hongje Seong, Euntai Kim(参考訳) 本稿では,ラベル付き合成データを用いてラベルなしの実データを分割することを目的とした,意味セグメンテーションのための教師なしドメイン適応(uda)に取り組む。 セマンティックセグメンテーションにおけるUDAの主な問題は、実画像と合成画像の間の領域ギャップを減らすことである。 この問題を解決するため,画像中の情報をコンテンツやスタイルに分離することに注力した。 ここでは、コンテンツだけがセマンティックセグメンテーションのヒントを持ち、スタイルがドメインのギャップを作ります。 したがって、画像中のコンテンツとスタイルを正確に分離することは、合成データで学習しても実データの監督として効果を発揮する。 この効果を最大限に活用するために,ゼロスタイルの損失を提案する。 実領域におけるセマンティックセグメンテーションのためのコンテンツを完全に抽出するが、もうひとつの大きな課題であるクラス不均衡問題は、セマンティックセグメンテーションのための UDA に存在する。 我々は、尾クラスの内容を合成ドメインから実ドメインに転送することでこの問題に対処する。 実験結果から,提案手法は主要な2つのUDA設定に対するセマンティックセグメンテーションにおける最先端の性能を実現する。

In this paper, we tackle the unsupervised domain adaptation (UDA) for semantic segmentation, which aims to segment the unlabeled real data using labeled synthetic data. The main problem of UDA for semantic segmentation relies on reducing the domain gap between the real image and synthetic image. To solve this problem, we focused on separating information in an image into content and style. Here, only the content has cues for semantic segmentation, and the style makes the domain gap. Thus, precise separation of content and style in an image leads to effect as supervision of real data even when learning with synthetic data. To make the best of this effect, we propose a zero-style loss. Even though we perfectly extract content for semantic segmentation in the real domain, another main challenge, the class imbalance problem, still exists in UDA for semantic segmentation. We address this problem by transferring the contents of tail classes from synthetic to real domain. Experimental results show that the proposed method achieves the state-of-the-art performance in semantic segmentation on the major two UDA settings.
翻訳日:2021-04-25 18:09:12 公開日:2020-12-23
# 軌道非関連動作予測のための多目的グラフ畳み込みネットワーク

Multi-grained Trajectory Graph Convolutional Networks for Habit-unrelated Human Motion Prediction ( http://arxiv.org/abs/2012.12558v1 )

ライセンス: Link先を確認
Jin Liu, Jianqin Yin(参考訳) 人間の動きの予測は、人間とロボットのコラボレーションに不可欠である。 高精度な予測のための時空間モデルの有効性向上に主眼を置いている既存の手法とは異なり,予測品質,計算効率,軽量化を目指して,有効性と効率を考慮に入れている。 習慣非関係な人間の動きを予測するために,多層トラジェクトリグラフ畳み込みネットワークと軽量フレームワークを提案する。 具体的には,関節軌跡とサブジョイント軌跡を含む多結晶軌道として,人間の運動を表現した。 先進的な表現に基づいて,複数粒度の時空間依存性を探索するために,多層トラジェクトリグラフ畳み込みネットワークを提案する。 また、大多数の人の右利きの習慣を考慮し、左利きの動作を発生させる新しい動き生成法を提案し、人間の習慣への偏りを少なくした動きをモデル化する。 human3.6m と cmu mocap を含む挑戦的データセットの実験結果は,提案手法の有効性と有効性を示す0.12倍のパラメータで,提案モデルが最先端技術を上回ることを示した。

Human motion prediction is an essential part for human-robot collaboration. Unlike most of the existing methods mainly focusing on improving the effectiveness of spatiotemporal modeling for accurate prediction, we take effectiveness and efficiency into consideration, aiming at the prediction quality, computational efficiency and the lightweight of the model. A multi-grained trajectory graph convolutional networks based and lightweight framework is proposed for habit-unrelated human motion prediction. Specifically, we represent human motion as multi-grained trajectories, including joint trajectory and sub-joint trajectory. Based on the advanced representation, multi-grained trajectory graph convolutional networks are proposed to explore the spatiotemporal dependencies at the multiple granularities. Moreover, considering the right-handedness habit of the vast majority of people, a new motion generation method is proposed to generate the motion with left-handedness, to better model the motion with less bias to the human habit. Experimental results on challenging datasets, including Human3.6M and CMU Mocap, show that the proposed model outperforms state-of-the-art with less than 0.12 times parameters, which demonstrates the effectiveness and efficiency of our proposed method.
翻訳日:2021-04-25 18:08:53 公開日:2020-12-23
# ConvMath: 数学的表現認識のための畳み込みシーケンスネットワーク

ConvMath: A Convolutional Sequence Network for Mathematical Expression Recognition ( http://arxiv.org/abs/2012.12619v1 )

ライセンス: Link先を確認
Zuoyu Yan, Xiaode Zhang, Liangcai Gao, Ke Yuan and Zhi Tang(参考訳) 近年の光学的文字認識(OCR)の進歩にもかかわらず、数学的表現は2次元のグラフィカルレイアウトのために認識する上で大きな課題に直面している。 本稿では,画像中の数学的表現記述をLaTeXシーケンスに変換する畳み込みシーケンスモデリングネットワークであるConvMathを提案する。 特徴抽出用画像エンコーダと、シーケンス生成用畳み込みデコーダとを組み合わせたネットワークである。 他のLong Short Term Memory(LSTM)ベースのエンコーダデコーダモデルと比較して、ConvMathは完全に畳み込みに基づいているため、並列計算が容易である。 さらに、ネットワークはデコーダにマルチレイヤーアテンション機構を採用しており、モデルが出力シンボルをソース特徴ベクトルと自動的に整合させ、モデルのトレーニング中にカバレッジ不足の問題を軽減することができる。 ConvMathの性能は、103556サンプルを含むIM2LATEX-100Kというオープンデータセットで評価される。 実験の結果,提案ネットワークは従来の手法よりも精度が高く,効率も優れていた。

Despite the recent advances in optical character recognition (OCR), mathematical expressions still face a great challenge to recognize due to their two-dimensional graphical layout. In this paper, we propose a convolutional sequence modeling network, ConvMath, which converts the mathematical expression description in an image into a LaTeX sequence in an end-to-end way. The network combines an image encoder for feature extraction and a convolutional decoder for sequence generation. Compared with other Long Short Term Memory(LSTM) based encoder-decoder models, ConvMath is entirely based on convolution, thus it is easy to perform parallel computation. Besides, the network adopts multi-layer attention mechanism in the decoder, which allows the model to align output symbols with source feature vectors automatically, and alleviates the problem of lacking coverage while training the model. The performance of ConvMath is evaluated on an open dataset named IM2LATEX-100K, including 103556 samples. The experimental results demonstrate that the proposed network achieves state-of-the-art accuracy and much better efficiency than previous methods.
翻訳日:2021-04-25 18:08:34 公開日:2020-12-23
# 確率的信頼領域を用いた頭部位置と方位からのドライバの視線領域の推定

Estimation of Driver's Gaze Region from Head Position and Orientation using Probabilistic Confidence Regions ( http://arxiv.org/abs/2012.12754v1 )

ライセンス: Link先を確認
Sumit Jha, Carlos Busso(参考訳) スマートな車両は人間の行動を理解し、危険な状況を避けるために行動を予測する必要がある。 人間の行動の特定の特性は自動的に予測され、それによって車両の安全性が向上する。 運転タスクに関連する最も重要な側面の1つは、運転者の視覚的注意である。 ドライバーの視覚的注意を予測することは、車両がドライバーの認識状態を理解し、重要なコンテキスト情報を提供するのに役立つ。 車内環境において正確な視線方向を推定することは困難であるが、頭部の位置や向きを追跡することで視覚的注意の粗い推定が得られる。 頭部の姿勢と視線方向の関係は一対一ではないため,ドライバの視覚的注意を表現した突出領域を作成するための確率モデルに基づく定式化を提案する。 予測された領域の面積は、モデルが予測に自信を持ち、データから直接学習した場合に小さい。 我々は,gaussian process regression (gpr) を用いて,線形回帰法やニューラルネットワークに基づく手法などの異なる回帰定式法との比較を行った。 UTDriveプラットフォームで収集した自然な記録を用いて,空間分解能と確率マップの精度のトレードオフについて検討した。 GPR法は局所的な正解域で正確な予測を行うのに最適である。 例えば95%の信頼領域は、ドライバーを取り巻く球体の3.77%の領域をカバーする領域で定義される。

A smart vehicle should be able to understand human behavior and predict their actions to avoid hazardous situations. Specific traits in human behavior can be automatically predicted, which can help the vehicle make decisions, increasing safety. One of the most important aspects pertaining to the driving task is the driver's visual attention. Predicting the driver's visual attention can help a vehicle understand the awareness state of the driver, providing important contextual information. While estimating the exact gaze direction is difficult in the car environment, a coarse estimation of the visual attention can be obtained by tracking the position and orientation of the head. Since the relation between head pose and gaze direction is not one-to-one, this paper proposes a formulation based on probabilistic models to create salient regions describing the visual attention of the driver. The area of the predicted region is small when the model has high confidence on the prediction, which is directly learned from the data. We use Gaussian process regression (GPR) to implement the framework, comparing the performance with different regression formulations such as linear regression and neural network based methods. We evaluate these frameworks by studying the tradeoff between spatial resolution and accuracy of the probability map using naturalistic recordings collected with the UTDrive platform. We observe that the GPR method produces the best result creating accurate predictions with localized salient regions. For example, the 95% confidence region is defined by an area that covers 3.77% region of a sphere surrounding the driver.
翻訳日:2021-04-25 18:07:43 公開日:2020-12-23
# 深い特徴と相関フィルタを用いた粗い物体追跡

Coarse-to-Fine Object Tracking Using Deep Features and Correlation Filters ( http://arxiv.org/abs/2012.12784v1 )

ライセンス: Link先を確認
Ahmed Zgaren, Wassim Bouachir, Riadh Ksantini(参考訳) 過去数年間、ディープラーニングトラッカーは、追跡問題の解決に興味深いアイデアをもたらしながら、刺激的な結果を得た。 この進歩は、大きな画像データベース上で深層畳み込みニューラルネットワーク(cnns)を訓練することで得られた学習された深層特徴の使用が主な原因である。 しかし、CNNはもともと画像分類のために開発されたため、深層で提供される外観モデリングはトラッキングタスクに十分な識別性を持たないかもしれない。 実際、そのような特徴は、オブジェクトの特定のインスタンスよりもオブジェクトカテゴリに関連がある、高レベルな情報を表している。 この観察と、識別相関フィルタ(dcfs)が補足的な低レベル情報を提供する可能性があるという事実に動機づけられ、両者のアプローチを生かした新しい追跡アルゴリズムを提案する。 追跡タスクを2段階の手順として定式化する。 まず,深層特徴の一般化機能を活用し,対象翻訳の粗さを推定し,出現変化に対する不均一性を確保した。 そして,相関フィルタの識別力を利用して追跡対象を正確に局所化する。 さらに,モデルドリフトを回避しながら外観変化を学習する更新制御機構を設計した。 提案手法をオブジェクト追跡ベンチマークで評価した。 実験の結果,提案アルゴリズムはCNNやDCFベースのトラッカーに対して良好に機能することがわかった。 https://github.com/a hmedzgaren/coarse-to -fine-tracker

During the last years, deep learning trackers achieved stimulating results while bringing interesting ideas to solve the tracking problem. This progress is mainly due to the use of learned deep features obtained by training deep convolutional neural networks (CNNs) on large image databases. But since CNNs were originally developed for image classification, appearance modeling provided by their deep layers might be not enough discriminative for the tracking task. In fact,such features represent high-level information, that is more related to object category than to a specific instance of the object. Motivated by this observation, and by the fact that discriminative correlation filters(DCFs) may provide a complimentary low-level information, we presenta novel tracking algorithm taking advantage of both approaches. We formulate the tracking task as a two-stage procedure. First, we exploit the generalization ability of deep features to coarsely estimate target translation, while ensuring invariance to appearance change. Then, we capitalize on the discriminative power of correlation filters to precisely localize the tracked object. Furthermore, we designed an update control mechanism to learn appearance change while avoiding model drift. We evaluated the proposed tracker on object tracking benchmarks. Experimental results show the robustness of our algorithm, which performs favorably against CNN and DCF-based trackers. Code is available at: https://github.com/A hmedZgaren/Coarse-to -fine-Tracker
翻訳日:2021-04-25 18:07:20 公開日:2020-12-23
# コンボリューションニューラルネットワークによる室内シナリオにおける高齢者の放浪予測

Convolutional Neural Network for Elderly Wandering Prediction in Indoor Scenarios ( http://arxiv.org/abs/2012.12987v1 )

ライセンス: Link先を確認
Rafael F. C. Oliveira, Fabio Barreto, Raphael Abreu(参考訳) 本研究は,非侵入型屋内センサから収集したパスデータからアルツハイマー病患者の迷走行動を検出する方法を提案する。 十分なデータがないため、当社が開発したアプリケーションを使用して、220パスのデータセットを手動で生成しました。 文学の迷走パターンは通常、視覚的特徴(ループやランダムな動きなど)によって識別されるため、データセットは画像に変換され、拡張されます。 畳み込み層は、特に画像上のパターンを見つける良い結果をもたらす傾向があるため、ニューラルネットワークモデルで使用された。 The Convolutional Neural Network model were training with the generated data and achieve a f1 score (relation between precision and recall) of 75%, recall of 60%, and precision of 100% on our 10 sample validation slice。

This work proposes a way to detect the wandering activity of Alzheimer's patients from path data collected from non-intrusive indoor sensors around the house. Due to the lack of adequate data, we've manually generated a dataset of 220 paths using our own developed application. Wandering patterns in the literature are normally identified by visual features (such as loops or random movement), thus our dataset was transformed into images and augmented. Convolutional layers were used on the neural network model since they tend to have good results finding patterns, especially on images. The Convolutional Neural Network model was trained with the generated data and achieved an f1 score (relation between precision and recall) of 75%, recall of 60%, and precision of 100% on our 10 sample validation slice
翻訳日:2021-04-25 18:06:27 公開日:2020-12-23
# スイス3DCitiesのセマンティックセグメンテーション:航空測光3Dポイントクラウドデータセットのベンチマーク研究

Semantic Segmentation on Swiss3DCities: A Benchmark Study on Aerial Photogrammetric 3D Pointcloud Dataset ( http://arxiv.org/abs/2012.12996v1 )

ライセンス: Link先を確認
G\"ulcan Can, Dario Mantegazza, Gabriele Abbate, S\'ebastien Chappuis, Alessandro Giusti(参考訳) 我々は,スイスの3都市で異なる特徴を持つ2.7 km^2$の屋外3Dポイントクラウドデータセットを新たに導入した。 データセットは、ポイントごとのラベルによるセマンティックセグメンテーションのために手動でアノテートされ、高解像度カメラを備えたマルチローターによって取得された画像のフォトグラムを用いて構築される。 地上のLiDARセンサーで取得したデータセットとは対照的に、結果のポイントクラウドは均一に密度が高く、完全であり、自律運転、ゲーム、スマートシティプランニングなどの異なるアプリケーションに有用である。 ベンチマークとして,確立されたポイントベース深層3次元意味セグメンテーションモデルであるpointnet++の定量的結果について報告する。

We introduce a new outdoor urban 3D pointcloud dataset, covering a total area of 2.7 $km^2$, sampled from three Swiss cities with different characteristics. The dataset is manually annotated for semantic segmentation with per-point labels, and is built using photogrammetry from images acquired by multirotors equipped with high-resolution cameras. In contrast to datasets acquired with ground LiDAR sensors, the resulting point clouds are uniformly dense and complete, and are useful to disparate applications, including autonomous driving, gaming and smart city planning. As a benchmark, we report quantitative results of PointNet++, an established point-based deep 3D semantic segmentation model; on this model, we additionally study the impact of using different cities for model generalization.
翻訳日:2021-04-25 18:06:12 公開日:2020-12-23
# multimodal driver monitoring database: a naturalistic corpus to study driver attention

The Multimodal Driver Monitoring Database: A Naturalistic Corpus to Study Driver Attention ( http://arxiv.org/abs/2101.04639v1 )

ライセンス: Link先を確認
Sumit Jha, Mohamed F. Marzban, Tiancheng Hu, Mohamed H. Mahmoud, Naofal Al-Dhahir, Carlos Busso(参考訳) スマートな車両は、人間の運転者の行動や行動を監視して、必要な時に警告や介入を行う必要がある。 ディープラーニングとコンピュータビジョンの最近の進歩は、人間の行動や活動を監視することに大きな期待を示している。 これらのアルゴリズムは制御された環境ではうまく機能するが、自然主義的な運転条件は照明のバリエーション、閉塞、極端な頭部ポーズなどの新しい課題をもたらす。 運転行動や振る舞いを効果的に監視するためには、運転に関連するタスクを予測する上で高いパフォーマンスを提供するモデルをトレーニングするために、膨大なドメイン内データが要求される。 本稿では,必要なインフラストラクチャの構築に向けて,59名の被験者で収集したマルチモーダルドライバモニタリング(mdm)データセットについて述べる。 我々は,fiducial markerを用いてドライバの頭部の動きを連続的に追跡するficapデバイスを用いて,自然な運転条件下で頭部ポーズアルゴリズムをトレーニングするためのフレームベースのアノテーションを提供する。 運転者の顔画像と視覚注意の正確な相関を得るため,運転者に所定の視線位置を見るように依頼する。 また,スマートフォンを用いたナビゲーションや車内インフォテインメントシステムの運用など,運転者が共通する二次動作を行う際にもデータを収集する。 ドライバーの活動はすべて高精細なRGBカメラと飛行時間深度カメラで記録される。 制御領域ネットワークバス(CAN-Bus)も記録し,重要な情報を抽出する。 これらの高品質記録は、運転者を監視するための様々な効率的なアルゴリズムを訓練するための理想的なリソースとなり、車内安全システムの分野でさらなる進歩をもたらす。

A smart vehicle should be able to monitor the actions and behaviors of the human driver to provide critical warnings or intervene when necessary. Recent advancements in deep learning and computer vision have shown great promise in monitoring human behaviors and activities. While these algorithms work well in a controlled environment, naturalistic driving conditions add new challenges such as illumination variations, occlusions and extreme head poses. A vast amount of in-domain data is required to train models that provide high performance in predicting driving related tasks to effectively monitor driver actions and behaviors. Toward building the required infrastructure, this paper presents the multimodal driver monitoring (MDM) dataset, which was collected with 59 subjects that were recorded performing various tasks. We use the Fi- Cap device that continuously tracks the head movement of the driver using fiducial markers, providing frame-based annotations to train head pose algorithms in naturalistic driving conditions. We ask the driver to look at predetermined gaze locations to obtain accurate correlation between the driver's facial image and visual attention. We also collect data when the driver performs common secondary activities such as navigation using a smart phone and operating the in-car infotainment system. All of the driver's activities are recorded with high definition RGB cameras and time-of-flight depth camera. We also record the controller area network-bus (CAN-Bus), extracting important information. These high quality recordings serve as the ideal resource to train various efficient algorithms for monitoring the driver, providing further advancements in the field of in-vehicle safety systems.
翻訳日:2021-04-25 18:05:57 公開日:2020-12-23
# リスクサンプリングによるエンティティ解決のためのアクティブ深層学習

Active Deep Learning on Entity Resolution by Risk Sampling ( http://arxiv.org/abs/2012.12960v1 )

ライセンス: Link先を確認
Youcef Nafa, Qun Chen, Zhaoqiang Chen, Xingyu Lu, Haiyang He, Tianyi Duan and Zhanhuai Li(参考訳) 実体分解能(ER)の最先端性能は深層学習によって達成されているが、その有効性は大量の正確なラベル付きトレーニングデータに依存する。 データラベリングの負担を軽減するため、アクティブラーニング(AL)は、モデルトレーニングに役立つと考えられるデータに焦点を当てた、実現可能なソリューションとして自己を提示する。 ERのリスク分析の最近の進歩に基づき、より単純な分類器出力よりもラベル誤予測リスクをより正確に見積もることができるようにし、ERのリスクサンプリングの新たなALアプローチを提案する。 リスクサンプリングは、アクティブなインスタンス選択に誤予測リスク推定を利用する。 ALのコアセット特性に基づいて、不均一リプシッツ連続性によるコアセット損失を最小限に抑える最適化モデルを理論的に導出する。 重み付きk-メドイド問題はnp-ハードであるため、効率的なヒューリスティックアルゴリズムを提案する。 最後に,実データに対する提案手法の有効性を比較検討により実証的に検証する。 我々の広範な実験により、既存の代替品よりもかなりの差で優れていることが示されている。 ERをテストケースとして使用することにより、リスクサンプリングが他の困難な分類タスクに適用可能な有望なアプローチであることを実証する。

While the state-of-the-art performance on entity resolution (ER) has been achieved by deep learning, its effectiveness depends on large quantities of accurately labeled training data. To alleviate the data labeling burden, Active Learning (AL) presents itself as a feasible solution that focuses on data deemed useful for model training. Building upon the recent advances in risk analysis for ER, which can provide a more refined estimate on label misprediction risk than the simpler classifier outputs, we propose a novel AL approach of risk sampling for ER. Risk sampling leverages misprediction risk estimation for active instance selection. Based on the core-set characterization for AL, we theoretically derive an optimization model which aims to minimize core-set loss with non-uniform Lipschitz continuity. Since the defined weighted K-medoids problem is NP-hard, we then present an efficient heuristic algorithm. Finally, we empirically verify the efficacy of the proposed approach on real data by a comparative study. Our extensive experiments have shown that it outperforms the existing alternatives by considerable margins. Using ER as a test case, we demonstrate that risk sampling is a promising approach potentially applicable to other challenging classification tasks.
翻訳日:2021-04-25 18:05:00 公開日:2020-12-23
# GAHNE: グラフ集約型不均一ネットワーク埋め込み

GAHNE: Graph-Aggregated Heterogeneous Network Embedding ( http://arxiv.org/abs/2012.12517v1 )

ライセンス: Link先を確認
Xiaohe Li, Lijie Wen, Chen Qian, Jianmin Wang(参考訳) 現実世界のネットワークは、異種情報ネットワーク(hin)として広く知られる、異なる種類のノードとエッジで構成されることが多い。 不均質なネットワーク埋め込みは、ノードを低次元ベクトルに埋め込むことを目的としており、不均質なネットワークの豊富な固有情報を取得する。 しかしながら、既存のモデルは、手動でメタパスを設計するか、異なる意味論間の相互効果を無視するか、あるいはグローバルネットワークからの情報のいくつかの側面を省略する。 これらの制約に対処するために,HINのセマンティクスを可能な限り包括的に抽出し,グラフ畳み込みニューラルネットワークに基づく下流タスクの結果を改善するための新しいグラフ集約異種ネットワーク埋め込み(GAHNE)を提案する。 GAHNEモデルでは、異なる単一タイプのサブネットワークからのセマンティック表現を集約する機構を開発し、グローバル情報を最終埋め込みに融合させる。 3つの実世界のHINデータセットに対する大規模な実験により、提案したモデルが既存の最先端手法よりも一貫して優れていることが示された。

The real-world networks often compose of different types of nodes and edges with rich semantics, widely known as heterogeneous information network (HIN). Heterogeneous network embedding aims to embed nodes into low-dimensional vectors which capture rich intrinsic information of heterogeneous networks. However, existing models either depend on manually designing meta-paths, ignore mutual effects between different semantics, or omit some aspects of information from global networks. To address these limitations, we propose a novel Graph-Aggregated Heterogeneous Network Embedding (GAHNE), which is designed to extract the semantics of HINs as comprehensively as possible to improve the results of downstream tasks based on graph convolutional neural networks. In GAHNE model, we develop several mechanisms that can aggregate semantic representations from different single-type sub-networks as well as fuse the global information into final embeddings. Extensive experiments on three real-world HIN datasets show that our proposed model consistently outperforms the existing state-of-the-art methods.
翻訳日:2021-04-25 18:04:41 公開日:2020-12-23
# ワンショットモデルによるニューラルアーキテクチャの進化

Evolving Neural Architecture Using One Shot Model ( http://arxiv.org/abs/2012.12540v1 )

ライセンス: Link先を確認
Nilotpal Sinha, Kuan-Wen Chen(参考訳) ニューラルアーキテクチャ検索(nas)は、特定のタスク用に設計された手作りのニューラルアーキテクチャを置き換える可能性を秘めた、新たな研究方向として登場している。 従来の進化的アーキテクチャ探索は高い計算資源を必要とするため、探索時間が高い。 本研究では,nas問題に単純な遺伝的アルゴリズムを適用する新しい手法であるevnas(evolving neural architecture using one shot model)を提案する。 アーキテクチャは、1ショットモデルのアーキテクチャパラメータを用いて表現され、その結果、特定の数のアーキテクチャに対するアーキテクチャ間の重みの共有と、一世代から次世代のアーキテクチャへの重みの継承をもたらす。 本稿では,アーキテクチャパラメータの復号化手法を提案する。この手法は,勾配情報の大部分を与えられたアーキテクチャに分散させ,探索過程における1ショットモデルから与えられたアーキテクチャの性能予測を改善するためにも用いられる。 さらに,検証データに対する部分的に訓練されたアーキテクチャの精度を,その適合性の予測として活用し,探索時間を短縮した。 EvNASはプロキシデータセット、すなわち、アーキテクチャを検索する。 CIFAR-10 for 4.4 GPU day on a single GPU and achieved top-1 test error of 2.47% with 3.63M parameters that then transfer to CIFAR-100 and ImageNet achieved top-1 error of 16.37% and top-5 error of 7.4%。 これらの結果は,アーキテクチャ探索問題の解法における進化的手法の可能性を示している。

Neural Architecture Search (NAS) is emerging as a new research direction which has the potential to replace the hand-crafted neural architectures designed for specific tasks. Previous evolution based architecture search requires high computational resources resulting in high search time. In this work, we propose a novel way of applying a simple genetic algorithm to the NAS problem called EvNAS (Evolving Neural Architecture using One Shot Model) which reduces the search time significantly while still achieving better result than previous evolution based methods. The architectures are represented by using the architecture parameter of the one shot model which results in the weight sharing among the architectures for a given population of architectures and also weight inheritance from one generation to the next generation of architectures. We propose a decoding technique for the architecture parameter which is used to divert majority of the gradient information towards the given architecture and is also used for improving the performance prediction of the given architecture from the one shot model during the search process. Furthermore, we use the accuracy of the partially trained architecture on the validation data as a prediction of its fitness in order to reduce the search time. EvNAS searches for the architecture on the proxy dataset i.e. CIFAR-10 for 4.4 GPU day on a single GPU and achieves top-1 test error of 2.47% with 3.63M parameters which is then transferred to CIFAR-100 and ImageNet achieving top-1 error of 16.37% and top-5 error of 7.4% respectively. All of these results show the potential of evolutionary methods in solving the architecture search problem.
翻訳日:2021-04-25 18:04:22 公開日:2020-12-23
# 輝きは金ではない - 保証付きプロセス発見技術に向けて

All That Glitters Is Not Gold: Towards Process Discovery Techniques with Guarantees ( http://arxiv.org/abs/2012.12764v1 )

ライセンス: Link先を確認
Jan Martijn E. M. van der Werf, Artem Polyvyanyy, Bart R. van Wensveen, Matthieu Brinkhuis and Hajo A. Reijers(参考訳) プロセス発見アルゴリズムの目的は、イベントデータから、基盤となる現実世界のプロセスを記述するプロセスモデルを構築することである。 直感的には、イベントデータの品質が向上すればするほど、発見されるモデルの品質も向上します。 しかし、既存のプロセス発見アルゴリズムはこの関係を保証していない。 我々は、イベントデータと発見プロセスモデルの両方に対して、様々な品質指標を用いてこれを実証する。 本稿では,IS技術者のコミュニティに対して,プロセス発見アルゴリズムを,入力の質と出力の質を関連付ける特性で補完するように呼びかける。 そこで,本研究では,関連する特性の定式化と実験的検証のための具体的なガイドラインとともに,これらのアルゴリズム開発のための4段階の段階を区別する。 また、これらのステージを使用して、アルゴリズムによるプロセス発見に関する考え方を前進させる必要性を示す技術の現状を反映します。

The aim of a process discovery algorithm is to construct from event data a process model that describes the underlying, real-world process well. Intuitively, the better the quality of the event data, the better the quality of the model that is discovered. However, existing process discovery algorithms do not guarantee this relationship. We demonstrate this by using a range of quality measures for both event data and discovered process models. This paper is a call to the community of IS engineers to complement their process discovery algorithms with properties that relate qualities of their inputs to those of their outputs. To this end, we distinguish four incremental stages for the development of such algorithms, along with concrete guidelines for the formulation of relevant properties and experimental validation. We will also use these stages to reflect on the state of the art, which shows the need to move forward in our thinking about algorithmic process discovery.
翻訳日:2021-04-25 18:03:36 公開日:2020-12-23
# 反トラスト・人工知能(AAI):反トラスト・ビジャランス・ライフサイクルとAI法推論オートノミー

Antitrust and Artificial Intelligence (AAI): Antitrust Vigilance Lifecycle and AI Legal Reasoning Autonomy ( http://arxiv.org/abs/2012.13016v1 )

ライセンス: Link先を確認
Lance Eliot(参考訳) 人工知能(AI)分野と反トラスト分野の融合への関心が高まっており、研究文献においてしばしば反トラストとAI(AAI)と呼ばれる。 本研究は,(1)反トラストのAIへの適用,(2)反トラストへのAIの適用,という2つの分野が交わる主要な方法を求めることによって,反トラストとAIを絡めるシナジーに焦点を当てた。 これまで、このインターミキシングに関する既存の研究のほとんどは、AIに対する反トラスト適用という前者に集中しており、AIの出現とそれに伴う悪質な反トラスト行動の可能性によって市場がどのように変化するかを示している。 このコインの反対側をより深く探究することを目的として、この研究は、反トラストに対するAIの適用を精査し、反トラスト検出、執行、強化後の監視を可能にするために、AIが実質的に注入されると予測される反トラスト警戒ライフサイクルを確立する。 さらに、AI法推論(AILR)における自律性レベル(LoA)の中で、AIの反トラスト警戒への段階的かつ漸進的な注入が発生することが期待されている。

There is an increasing interest in the entwining of the field of antitrust with the field of Artificial Intelligence (AI), frequently referred to jointly as Antitrust and AI (AAI) in the research literature. This study focuses on the synergies entangling antitrust and AI, doing so to extend the literature by proffering the primary ways that these two fields intersect, consisting of: (1) the application of antitrust to AI, and (2) the application of AI to antitrust. To date, most of the existing research on this intermixing has concentrated on the former, namely the application of antitrust to AI, entailing how the marketplace will be altered by the advent of AI and the potential for adverse antitrust behaviors arising accordingly. Opting to explore more deeply the other side of this coin, this research closely examines the application of AI to antitrust and establishes an antitrust vigilance lifecycle to which AI is predicted to be substantively infused for purposes of enabling and bolstering antitrust detection, enforcement, and post-enforcement monitoring. Furthermore, a gradual and incremental injection of AI into antitrust vigilance is anticipated to occur as significant advances emerge amidst the Levels of Autonomy (LoA) for AI Legal Reasoning (AILR).
翻訳日:2021-04-25 18:03:22 公開日:2020-12-23
# ハードウェアアクセラレーションによるCOVID-19の確率疫学モデルの推定

Hardware-accelerated Simulation-based Inference of Stochastic Epidemiology Models for COVID-19 ( http://arxiv.org/abs/2012.14332v1 )

ライセンス: Link先を確認
Sourabh Kulkarni and Mario Michael Krell and Seth Nabarro and Csaba Andras Moritz(参考訳) 疫学モデルは大規模パンデミックの理解と制御の中心である。 いくつかの疫学モデルは、そのパラメータを観測に適合させるために、近似ベイズ計算(ABC)のようなシミュレーションベースの推論を必要とする。 ABC推論は効率的なハードウェアアクセラレーションに非常に適している。 本研究では,COVID-19に対する確率的疫学モデルのABC同時推定法を開発した。 統計的推論フレームワークは、Intel Xeon CPU、NVIDIA Tesla V100 GPU、Graphcore Mk1 IPUで実装され、比較され、計算アーキテクチャの文脈で議論される。 結果,GPUは4倍,IPUはXeon CPUの30倍高速であることがわかった。 大規模性能解析により、IPUとGPUの差は、通信帯域幅の増大、メモリの計算精度の向上、IPUの計算能力の向上によるものと考えられる。 提案されたフレームワークは16 IPUにまたがってスケールし、スケーリングのオーバーヘッドは実験の8%を超えない。 本稿では,3カ国にわたる疫学モデル上での推論を行い,その結果の概要を述べる。

Epidemiology models are central in understanding and controlling large scale pandemics. Several epidemiology models require simulation-based inference such as Approximate Bayesian Computation (ABC) to fit their parameters to observations. ABC inference is highly amenable to efficient hardware acceleration. In this work, we develop parallel ABC inference of a stochastic epidemiology model for COVID-19. The statistical inference framework is implemented and compared on Intel Xeon CPU, NVIDIA Tesla V100 GPU and the Graphcore Mk1 IPU, and the results are discussed in the context of their computational architectures. Results show that GPUs are 4x and IPUs are 30x faster than Xeon CPUs. Extensive performance analysis indicates that the difference between IPU and GPU can be attributed to higher communication bandwidth, closeness of memory to compute, and higher compute power in the IPU. The proposed framework scales across 16 IPUs, with scaling overhead not exceeding 8% for the experiments performed. We present an example of our framework in practice, performing inference on the epidemiology model across three countries, and giving a brief overview of the results.
翻訳日:2021-04-25 18:02:58 公開日:2020-12-23
# Pit30M: 自動運転車時代のグローバルローカライゼーションのベンチマーク

Pit30M: A Benchmark for Global Localization in the Age of Self-Driving Cars ( http://arxiv.org/abs/2012.12437v1 )

ライセンス: Link先を確認
Julieta Martinez, Sasha Doubov, Jack Fan, Ioan Andrei B\^arsan, Shenlong Wang, Gell\'ert M\'attyus, Raquel Urtasun(参考訳) 私たちは、検索ベースのローカライズアプローチが自動運転車のコンテキストで十分であるかどうかを理解することに興味を持っています。 この目標に向けて、3000万フレームを超える新しいイメージとLiDARデータセットであるPit30Mを紹介します。 Pit30Mは様々な条件(季節、天気、日時、交通量)で捕獲され、正確な位置決めの真実を提供する。 また、過去の気象や天文学的なデータに加えて、画像やLiDARセマンティックセグメンテーションをオクルージョンのプロキシ尺度として自動的にアノテートします。 我々は、画像とLiDAR検索のための既存の複数の手法をベンチマークし、その過程で、技術の状況と競合する単純な、効果的な畳み込みネットワークベースのLiDAR検索手法を導入する。 本研究は,都市規模におけるサブメートル検索に基づくローカライズのためのベンチマークを初めて提供する。 データセット、追加の実験結果、センサ、キャリブレーション、メタデータに関する詳細な情報は、プロジェクトのWebサイトで公開されている。

We are interested in understanding whether retrieval-based localization approaches are good enough in the context of self-driving vehicles. Towards this goal, we introduce Pit30M, a new image and LiDAR dataset with over 30 million frames, which is 10 to 100 times larger than those used in previous work. Pit30M is captured under diverse conditions (i.e., season, weather, time of the day, traffic), and provides accurate localization ground truth. We also automatically annotate our dataset with historical weather and astronomical data, as well as with image and LiDAR semantic segmentation as a proxy measure for occlusion. We benchmark multiple existing methods for image and LiDAR retrieval and, in the process, introduce a simple, yet effective convolutional network-based LiDAR retrieval method that is competitive with the state of the art. Our work provides, for the first time, a benchmark for sub-metre retrieval-based localization at city scale. The dataset, additional experimental results, as well as more information about the sensors, calibration, and metadata, are available on the project website: https://uber.com/atg /datasets/pit30m
翻訳日:2021-04-25 18:01:53 公開日:2020-12-23
# 胸部X線自動トリアージ(胸部X線自動トリアージ) : 4つのDeep Learningアーキテクチャを組み合わせることで,異なるタイプのラベルを活用

Chest x-ray automated triage: a semiologic approach designed for clinical implementation, exploiting different types of labels through a combination of four Deep Learning architectures ( http://arxiv.org/abs/2012.12712v1 )

ライセンス: Link先を確認
Candelaria Mosquera (1 and 2), Facundo Nahuel Diaz (3), Fernando Binder (1), Jose Martin Rabellino (3), Sonia Elizabeth Benitez (1), Alejandro Daniel Beres\~nak (3), Alberto Seehaus (3), Gabriel Ducrey (3), Jorge Alberto Ocantos (3) and Daniel Roberto Luna (1) ((1) Health Informatics Department Hospital Italiano de Buenos Aires,(2) Universidad Tecnologica Nacional,(3) Radiology Department Hospital Italiano de Buenos Aires)(参考訳) 背景と目的: 過去数年間にリリースされた複数の胸部x線データセットには、異なるコンピュータビジョンタスクを意図した接地ラベルがあり、様々な種類のアノテーションを活用できる方法を使用することで、胸部x線自動解釈のパフォーマンスが向上することを示唆している。 本研究は,異なる畳み込みアーキテクチャの遅発的融合に基づく深層学習手法を提案する。これにより,単純な実装で異種データとのトレーニングが可能となり,独立したテストデータでの性能評価を行う。 病院のワークフローにうまく統合できる臨床的に有用なツールの入手に焦点をあてた。 材料と方法: 専門的考察から, 肺の異常, 骨折, 気胸, 胸水という4つの胸部X線所見を抽出した。 それぞれの発見に対して,最も適切な地下構造ラベルを定義し,公共胸部X線データセットと機関アーカイブの画像を組み合わせた4つのトレーニングデータセットを構築した。 4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。 2つのテストデータセット、すなわち外部で利用可能なデータセットと、地域住民のパフォーマンスを推定するためのふりかえりデータセットでパフォーマンスを測定した。 結果: 外部テストセットは4376, 局所テストセットは1064の画像で, 異常胸部X線の検出において, 0.75 (95%CI: 0.74-0.76), 0.87 (95%CI: 0.86-0.89) の範囲を示した。 地域住民の感度は86%(95%CI:84-90)、特異性は88%(95%CI:86-90)であり、人口集団間で有意差はなかった。 本稿では, 真偽と偽陽性を検証し, 達成されたレベルの解釈可能性を示すヒートマップの例を示す。

BACKGROUND AND OBJECTIVES: The multiple chest x-ray datasets released in the last years have ground-truth labels intended for different computer vision tasks, suggesting that performance in automated chest-xray interpretation might improve by using a method that can exploit diverse types of annotations. This work presents a Deep Learning method based on the late fusion of different convolutional architectures, that allows training with heterogeneous data with a simple implementation, and evaluates its performance on independent test data. We focused on obtaining a clinically useful tool that could be successfully integrated into a hospital workflow. MATERIALS AND METHODS: Based on expert opinion, we selected four target chest x-ray findings, namely lung opacities, fractures, pneumothorax and pleural effusion. For each finding we defined the most adequate type of ground-truth label, and built four training datasets combining images from public chest x-ray datasets and our institutional archive. We trained four different Deep Learning architectures and combined their outputs with a late fusion strategy, obtaining a unified tool. Performance was measured on two test datasets: an external openly-available dataset, and a retrospective institutional dataset, to estimate performance on local population. RESULTS: The external and local test sets had 4376 and 1064 images, respectively, for which the model showed an area under the Receiver Operating Characteristics curve of 0.75 (95%CI: 0.74-0.76) and 0.87 (95%CI: 0.86-0.89) in the detection of abnormal chest x-rays. For the local population, a sensitivity of 86% (95%CI: 84-90), and a specificity of 88% (95%CI: 86-90) were obtained, with no significant differences between demographic subgroups. We present examples of heatmaps to show the accomplished level of interpretability, examining true and false positives.
翻訳日:2021-04-25 18:01:32 公開日:2020-12-23
# Vid2Actor:野生のビデオからの自由視点アニメーション人合成

Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the Wild ( http://arxiv.org/abs/2012.12884v1 )

ライセンス: Link先を確認
Chung-Yi Weng, Brian Curless, Ira Kemelmacher-Shlizerm an(参考訳) 対象者の「夢中」映像が与えられた場合、映像中の人物のアニマタブルなモデルを再構築する。 出力モデルは、明示的な3dメッシュ再構成なしに、学習されたコントロールを介して、任意のカメラビューに任意のボディポーズでレンダリングすることができる。 提案手法の核心は,入力ビデオで訓練された深層ネットワークを用いて再構成された体積3次元人間表現であり,新しいポーズ/ビュー合成を可能にする。 本手法は,内部3d表現によるポーズやカメラの合成を可能にするが,メッシュベース学習のように事前学習されたモデルや基礎的真理メッシュを必要としないため,ganによる画像から画像への画像変換の進歩である。 実験は、設計上の選択を検証し、合成データや、制約のない活動を行う多様な人々の実ビデオ(例)で結果を得る。 テニスをしたり踊ったり)。 最後に,学習モデルを用いた動き再ターゲティングと弾丸時間レンダリングを実演する。

Given an "in-the-wild" video of a person, we reconstruct an animatable model of the person in the video. The output model can be rendered in any body pose to any camera view, via the learned controls, without explicit 3D mesh reconstruction. At the core of our method is a volumetric 3D human representation reconstructed with a deep network trained on input video, enabling novel pose/view synthesis. Our method is an advance over GAN-based image-to-image translation since it allows image synthesis for any pose and camera via the internal 3D representation, while at the same time it does not require a pre-rigged model or ground truth meshes for training, as in mesh-based learning. Experiments validate the design choices and yield results on synthetic data and on real videos of diverse people performing unconstrained activities (e.g. dancing or playing tennis). Finally, we demonstrate motion re-targeting and bullet-time rendering with the learned models.
翻訳日:2021-04-25 18:00:52 公開日:2020-12-23
# BENN:ディープニューラルネットワークを用いたバイアス推定

BENN: Bias Estimation Using Deep Neural Network ( http://arxiv.org/abs/2012.12537v1 )

ライセンス: Link先を確認
Amit Giloni and Edita Grolman and Tanja Hagemann and Ronald Fromm and Sebastian Fischer and Yuval Elovici and Asaf Shabtai(参考訳) The need to detect bias in machine learning (ML) models has led to the development of multiple bias detection methods, yet utilizing them is challenging since each method: i) explores a different ethical aspect of bias, which may result in contradictory output among the different methods, ii) provides an output of a different range/scale and therefore, can't be compared with other methods, and iii) requires different input, and therefore a human expert needs to be involved to adjust each method according to the examined model. 本稿では,事前学習された教師なし深層ニューラルネットワークを用いたバイアス推定手法であるbennを提案する。 MLモデルとデータサンプルが与えられた場合、BENNはモデルの予測に基づいて、すべての機能のバイアス推定を提供する。 3つのベンチマークデータセットと1つの独自のチャーン予測モデルを用いてBENNを評価し、既存の21のバイアス推定手法と比較した。 評価結果は、BENNがアンサンブルよりも大きな利点を浮き彫りにしており(つまり、任意のMLモデルに適用できる)、ドメインの専門家は必要ないが、アンサンブルのモデルと整合したバイアス推定を提供する。

The need to detect bias in machine learning (ML) models has led to the development of multiple bias detection methods, yet utilizing them is challenging since each method: i) explores a different ethical aspect of bias, which may result in contradictory output among the different methods, ii) provides an output of a different range/scale and therefore, can't be compared with other methods, and iii) requires different input, and therefore a human expert needs to be involved to adjust each method according to the examined model. In this paper, we present BENN -- a novel bias estimation method that uses a pretrained unsupervised deep neural network. Given a ML model and data samples, BENN provides a bias estimation for every feature based on the model's predictions. We evaluated BENN using three benchmark datasets and one proprietary churn prediction model used by a European Telco and compared it with an ensemble of 21 existing bias estimation methods. Evaluation results highlight the significant advantages of BENN over the ensemble, as it is generic (i.e., can be applied to any ML model) and there is no need for a domain expert, yet it provides bias estimations that are aligned with those of the ensemble.
翻訳日:2021-04-25 18:00:35 公開日:2020-12-23
# K-Meansカーネル分類器

K-Means Kernel Classifier ( http://arxiv.org/abs/2012.13021v1 )

ライセンス: Link先を確認
M. Andrecut(参考訳) K平均クラスタリングと最小二乗のカーネル分類法を組み合わせる。 K平均クラスタリングは、クラスごとに代表ベクトルの集合を抽出するために使用される。 最小二乗カーネル法は、これらの代表ベクトルを分類タスクのトレーニングセットとして使用する。 教師なし学習アルゴリズムと教師なし学習アルゴリズムの組み合わせは, MNISTデータセットを用いて, この手法を実証する。

We combine K-means clustering with the least-squares kernel classification method. K-means clustering is used to extract a set of representative vectors for each class. The least-squares kernel method uses these representative vectors as a training set for the classification task. We show that this combination of unsupervised and supervised learning algorithms performs very well, and we illustrate this approach using the MNIST dataset
翻訳日:2021-04-25 18:00:20 公開日:2020-12-23
# 高ひずみ脆性破壊における多変量機械学習予測の不確かさ境界

Uncertainty Bounds for Multivariate Machine Learning Predictions on High-Strain Brittle Fracture ( http://arxiv.org/abs/2012.15739v1 )

ライセンス: Link先を確認
Cristina Garcia-Cardona, M. Giselle Fern\'andez-Godino, Daniel O'Malley and Tanmoy Bhattacharya(参考訳) 脆性材料を用いた高速衝撃実験における亀裂ネットワークの進展シミュレーションは非常に計算集約的である。 ひび割れの長さ、位置、方向のランダム性を考慮するために複数のシミュレーションが必要な場合、コストはさらに増大する。 機械学習エミュレータの構築は、プロセスを桁違いに高速化することができる。 しかし、その予測にかかわる誤差を評価する作業はほとんど行われていない。 これらの誤差を推定することは、全体的な不確かさの定量化に不可欠である。 本研究では,不確実性推定を多出力機械学習エミュレータに拡張する。 応答予測はやや保守的な不確実性の推定で堅牢であることがわかった。

Simulation of the crack network evolution on high strain rate impact experiments performed in brittle materials is very compute-intensive. The cost increases even more if multiple simulations are needed to account for the randomness in crack length, location, and orientation, which is inherently found in real-world materials. Constructing a machine learning emulator can make the process faster by orders of magnitude. There has been little work, however, on assessing the error associated with their predictions. Estimating these errors is imperative for meaningful overall uncertainty quantification. In this work, we extend the heteroscedastic uncertainty estimates to bound a multiple output machine learning emulator. We find that the response prediction is robust with a somewhat conservative estimate of uncertainty.
翻訳日:2021-04-25 18:00:15 公開日:2020-12-23
# 産業制御システムにおけるサイバー攻撃検知器の攻撃対策

Poisoning Attacks on Cyber Attack Detectors for Industrial Control Systems ( http://arxiv.org/abs/2012.15740v1 )

ライセンス: Link先を確認
Moshe Kravchik and Battista Biggio and Asaf Shabtai(参考訳) 近年,産業制御システム(ICS)を対象としたサイバー攻撃の検出において,オートエンコーダを含むニューラルネットワークに基づく手法が提案されている。 このような検出器は、監視された信号の自然進化(すなわち概念ドリフト)に対処するために、システム操作中に収集されたデータを使用して再訓練されることが多い。 しかし、このメカニズムを悪用することにより、攻撃者は、トレーニング時に破損したセンサーによって提供された信号を偽装し、テスト時にサイバー攻撃が検出されないように検出器の学習プロセスを汚染することができる。 この研究により、我々はICSサイバー攻撃オンラインNN検出器に対するこのような毒攻撃を初めて実証した。 本研究では,2つの異なる攻撃アルゴリズム,すなわち補間と逆勾配に基づく中毒を提案し,その効果を合成および実世界のicデータで実証する。 また,潜在的な緩和戦略について検討・分析する。

Recently, neural network (NN)-based methods, including autoencoders, have been proposed for the detection of cyber attacks targeting industrial control systems (ICSs). Such detectors are often retrained, using data collected during system operation, to cope with the natural evolution (i.e., concept drift) of the monitored signals. However, by exploiting this mechanism, an attacker can fake the signals provided by corrupted sensors at training time and poison the learning process of the detector such that cyber attacks go undetected at test time. With this research, we are the first to demonstrate such poisoning attacks on ICS cyber attack online NN detectors. We propose two distinct attack algorithms, namely, interpolation- and back-gradient based poisoning, and demonstrate their effectiveness on both synthetic and real-world ICS data. We also discuss and analyze some potential mitigation strategies.
翻訳日:2021-04-25 18:00:07 公開日:2020-12-23
# ソボレフ時間空間におけるディープニューラルネットワークの近似

Approximations with deep neural networks in Sobolev time-space ( http://arxiv.org/abs/2101.06115v1 )

ライセンス: Link先を確認
Ahmed Abdeljawad and Philipp Grohs(参考訳) 進化方程式の解は、一般に特定のボヒナー・ソボレフ空間に存在し、解は空間変数に対して異なる時間変数に対して正則性と可積分性を持つ。 そこで本稿では,ディープニューラルネットワークがボヒナー・ソボレフ空間に対してソボレフ正則関数を近似できることを示す枠組みを開発した。 我々の研究では、いわゆるRectified Cubic Unit(ReCU)をネットワークのアクティベーション関数として使用し、最も一般的に使用されるRectived Linear Unit(ReLU)アクティベーション関数の非正規性に起因する問題を回避しつつ、ニューラルネットワークの近似結果の導出を可能にする。

Solutions of evolution equation generally lies in certain Bochner-Sobolev spaces, in which the solution may has regularity and integrability properties for the time variable that can be different for the space variables. Therefore, in this paper, we develop a framework shows that deep neural networks can approximate Sobolev-regular functions with respect to Bochner-Sobolev spaces. In our work we use the so-called Rectified Cubic Unit (ReCU) as an activation function in our networks, which allows us to deduce approximation results of the neural networks while avoiding issues caused by the non regularity of the most commonly used Rectivied Linear Unit (ReLU) activation function.
翻訳日:2021-04-25 17:59:53 公開日:2020-12-23
# 画像からの原理的ネットワーク抽出

Principled network extraction from images ( http://arxiv.org/abs/2012.12758v1 )

ライセンス: Link先を確認
Diego Baptista and Caterina De Bacco(参考訳) 自然系の画像は、ネットワークのような構造を表現し、基礎となる対象のトポロジ的特性に関する重要な情報を明らかにすることができる。 しかし、画像自体がノードとエッジのセットという観点でネットワークの正式な定義を自動で提供するわけではない。 代わりに、この情報は原画像データから好適に抽出されるべきである。 そこで我々は,スケーラブルで効率的な画像からネットワークトポロジを抽出する基本モデルを提案する。 我々は,この目標を,運用コストやインフラコストの観点から解釈可能なエネルギー関数を最小限に抑えるネットワークであるルーティング最適化問題にマッピングする。 本手法は, 最適輸送理論の最近の結果に依拠し, ヒューリスティックスに基づく標準画像処理手法に代わる原理的手法である。 網膜血管系,スライム型,河川ネットワークの実際の画像を用いて実験を行い,画像処理技術を組み合わせたルーチンと比較した。 結果は抽出に保存された情報量に関する類似度尺度を用いて検証される。 本モデルでは,手書き画像に類似した網膜血管網画像からネットワークを抽出し,河川やスライムカビの画像からネットワークを抽出し,真理が得られていない場合に高い性能を示す。 すべての画像をベストに適合させるユニークな方法はないが、我々のアプローチはデータセット間で一貫して実行しているが、アルゴリズムの実装は効率的であり、監督のほとんどない複数のデータセット上で実行できるように完全に自動化することができる。

Images of natural systems may represent patterns of network-like structure, which could reveal important information about the topological properties of the underlying subject. However, the image itself does not automatically provide a formal definition of a network in terms of sets of nodes and edges. Instead, this information should be suitably extracted from the raw image data. Motivated by this, we present a principled model to extract network topologies from images that is scalable and efficient. We map this goal into solving a routing optimization problem where the solution is a network that minimizes an energy function which can be interpreted in terms of an operational and infrastructural cost. Our method relies on recent results from optimal transport theory and is a principled alternative to standard image-processing techniques that are based on heuristics. We test our model on real images of the retinal vascular system, slime mold and river networks and compare with routines combining image-processing techniques. Results are tested in terms of a similarity measure related to the amount of information preserved in the extraction. We find that our model finds networks from retina vascular network images that are more similar to hand-labeled ones, while also giving high performance in extracting networks from images of rivers and slime mold for which there is no ground truth available. While there is no unique method that fits all the images the best, our approach performs consistently across datasets, its algorithmic implementation is efficient and can be fully automatized to be run on several datasets with little supervision.
翻訳日:2021-04-25 17:59:37 公開日:2020-12-23
# 電力市場における日頭・リアルタイム位置縁価格のギャップの学習

Learning the Gap in the Day-Ahead and Real-Time Locational Marginal Prices in the Electricity Market ( http://arxiv.org/abs/2012.12792v1 )

ライセンス: Link先を確認
Nika Nizharadze, Arash Farokhi Soofi, Saeed D. Manshadi(参考訳) 本稿では,統計的機械学習アルゴリズムとディープニューラルネットワークを用いて,日頭電気市場とリアルタイム電気市場との価格差の値を予測する。 いくつかの外生的特徴を収集し、これらの特徴のインパクトを調べ、特徴と対象変数の間の最良の関係を捉える。 アンサンブル学習アルゴリズム(英: Ensemble learning algorithm)とは、日頭およびリアルタイム市場における予測電力価格の確率分布を計算するために発行されるランダムフォレストである。 日頭市場とリアルタイム市場の予測を減算するよりも、前述の市場間の直接的ギャップ値の予測と、直接的ギャップ価格予測の利点において、長期的依存性を捉えるためにlstm(long-short-term -memory)が使用される。 ケーススタディはcalifornia independent system operator (caiso)の電気市場データで2年間実施されている。 提案手法を評価し,ニューラルネットワークはギャップの正確な値を予測できる有望な結果を示した。

In this paper, statistical machine learning algorithms, as well as deep neural networks, are used to predict the values of the price gap between day-ahead and real-time electricity markets. Several exogenous features are collected and impacts of these features are examined to capture the best relations between the features and the target variable. Ensemble learning algorithm namely the Random Forest issued to calculate the probability distribution of the predicted electricity prices for day-ahead and real-time markets. Long-Short-Term-Memo ry (LSTM) is utilized to capture long term dependencies in predicting direct gap values between mentioned markets and the benefits of directly predicting the gap price rather than subtracting the predictions of day-ahead and real-time markets are illustrated. Case studies are implemented on the California Independent System Operator (CAISO) electricity market data for a two years period. The proposed methods are evaluated and neural networks showed promising results in predicting the exact values of the gap.
翻訳日:2021-04-25 17:59:15 公開日:2020-12-23
# メトロポリス調整ランジュバンアルゴリズムの最適次元依存性

Optimal dimension dependence of the Metropolis-Adjusted Langevin Algorithm ( http://arxiv.org/abs/2012.12810v1 )

ライセンス: Link先を確認
Sinho Chewi, Chen Lu, Kwangjun Ahn, Xiang Cheng, Thibaut Le Gouic, Philippe Rigollet(参考訳) 一般的な拡散スケーリングの限界に裏打ちされた標本文献における従来の知見は、メトロポリス調整ランジュバンアルゴリズム(mala)の混合時間は、次元が$d$である場合、$o(d^{1/3})$にスケールすることを示唆している。 しかし、拡散スケーリング限界は対象分布に厳密な仮定を必要とし、本質的に漸近的である。 対照的に、対数平滑かつ強対数凹分布のクラス上でMALAが有する最もよく知られた非漸近混合時間は$O(d)$である。 本研究は, 対象分布のクラスにおけるMALAの混合時間は, 温かい開始条件下で$\widetilde\Theta(d^{1/2})$であることを示す。 上界証明では,MALAの学習をLangevin SDEのよく研究された離散化解析に還元し,受理確率の直接計算を回避し,メトロポリス調整の投影特性に基づく新しい手法を導入する。

Conventional wisdom in the sampling literature, backed by a popular diffusion scaling limit, suggests that the mixing time of the Metropolis-Adjusted Langevin Algorithm (MALA) scales as $O(d^{1/3})$, where $d$ is the dimension. However, the diffusion scaling limit requires stringent assumptions on the target distribution and is asymptotic in nature. In contrast, the best known non-asymptotic mixing time bound for MALA on the class of log-smooth and strongly log-concave distributions is $O(d)$. In this work, we establish that the mixing time of MALA on this class of target distributions is $\widetilde\Theta(d^{1/2})$ under a warm start. Our upper bound proof introduces a new technique based on a projection characterization of the Metropolis adjustment which reduces the study of MALA to the well-studied discretization analysis of the Langevin SDE and bypasses direct computation of the acceptance probability.
翻訳日:2021-04-25 17:58:55 公開日:2020-12-23
# ハッチンソンのトレース推定器の現代的解析

A Modern Analysis of Hutchinson's Trace Estimator ( http://arxiv.org/abs/2012.12895v1 )

ライセンス: Link先を確認
Maciej Skorski(参考訳) 本稿ではハッチンソンのトレース推定器の精度解析における新しい最先端技術を確立する。 この文脈ではこれまで使われていなかったツール、特にサブガンマ分布の超収縮的不等式と濃度特性を利用して、エレガントでモジュラーな解析と数値的に優れた境界を提供する。 これらの改善に加えて、この取り組みは前述のcsコミュニティ内のテクニックをより広めることを目的としている。

The paper establishes the new state-of-art in the accuracy analysis of Hutchinson's trace estimator. Leveraging tools that have not been previously used in this context, particularly hypercontractive inequalities and concentration properties of sub-gamma distributions, we offer an elegant and modular analysis, as well as numerically superior bounds. Besides these improvements, this work aims to better popularize the aforementioned techniques within the CS community.
翻訳日:2021-04-25 17:58:36 公開日:2020-12-23
# 植物とのユーリトミックダンス ---ヒトの身体運動に対する植物反応の測定-

Eurythmic Dancing with Plants -- Measuring Plant Response to Human Body Movement in an Anthroposophic Environment ( http://arxiv.org/abs/2012.12978v1 )

ライセンス: Link先を確認
Sebastian Duerr, Josephine van Delden, Buenyamin Oezkaya, Peter A. Gloor(参考訳) 本稿では,人間と庭植物との相互作用を測定する3つの実験について述べる。 特に、植物(ミツバチ、トマト、レタス)近くのヒトの体の動きは、植物の電気活動を測定する装置であるスパイカーボックスによって測定された作用電位と、カメラで追跡された植物の葉の動きと相関する。 最初の実験では、測定システムは異なる植物に対する外部刺激を同一に捉え、測定システムを検証した。 第2の実験は、植物の反応がダンサーの動きと相関していることを示している。 3つ目の実験は、数週にわたってユーリトミックダンスに曝された植物は、初めてユーリトミックダンスに曝された植物と異なる反応を示す。

This paper describes three experiments measuring interaction of humans with garden plants. In particular, body movement of a human conducting eurythmic dances near the plants (beetroots, tomatoes, lettuce) is correlated with the action potential measured by a plant SpikerBox, a device measuring the electrical activity of plants, and the leaf movement of the plant, tracked with a camera. The first experiment shows that our measurement system captures external stimuli identically for different plants, validating the measurement system. The second experiment illustrates that the plants' response is correlated to the movements of the dancer. The third experiment indicates that plants that have been exposed for multiple weeks to eurythmic dancing might respond differently to plants which are exposed for the first time to eurythmic dancing.
翻訳日:2021-04-25 17:58:29 公開日:2020-12-23