このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200724となっている論文です。

PDF登録状況(公開日: 20200724)

TitleAuthorsAbstract論文公表日・翻訳日
# 宣言機構設計

Declarative Mechanism Design ( http://arxiv.org/abs/1912.13122v3 )

ライセンス: Link先を確認
Andr\'es Garc\'ia-Camino(参考訳) マルチエージェントシステム(mas)と宣言型電子機関(deis)の規制は、(物理的およびソフトウェア)エージェントと法に関する過去10年間の多分野にわたる研究テーマであったが、最近は2016年以来、ニュースを流用するロボット弁護士へと進化した。 ソフトウェアエージェントの行動を制限する最初の提案の1つは、電子的な機関である。しかしながら、最近のディープラーニング(dl)としての人工ニューラルネットワーク(anns)の改革により、dlの使用に関するセキュリティ、プライバシ、倫理、法的な問題により、人工知能(ai)コミュニティの懸念が高まっている。 現在、MASの規制はほぼ正しく対処されているため、我々はInstitutional Neural Network (INN)と呼ぶ特殊なタイプの制御ニューラルネットワークのエージェントベーストレーニングとして、ニューラルネットワークの規制を提案する。 本研究の目的は,人工学習(AT)に注意を向けることであり,Regulated Deep Learning(RDL)の概念実証実装を示す仮の回答を与えることである。 本稿では,これまで宣言的モデルや電子施設の拡張に用いられてきたsIを,ニューラルネットワークの実行と人工教師(AT)とのインタラクションを規制する手段として紹介する。

Regulation of Multi-Agent Systems (MAS) and Declarative Electronic Institutions (DEIs) was a multidisciplinary research topic of the past decade involving (Physical and Software) Agents and Law since the beginning, but recently evolved towards News-claimed Robot Lawyer since 2016. One of these first proposals of restricting the behaviour of Software Agentswas Electronic Institutions.However, with the recent reformulation of Artificial Neural Networks (ANNs) as Deep Learning (DL), Security, Privacy,Ethical and Legal issues regarding the use of DL has raised concerns in the Artificial Intelligence (AI) Community. Now that the Regulation of MAS is almost correctly addressed, we propose the Regulation of Artificial Neural Networks as Agent-based Training of a special type of regulated Artificial Neural Network that we call Institutional Neural Network (INN).The main purpose of this paper is to bring attention to Artificial Teaching (AT) and to give a tentative answer showing a proof-of-concept implementation of Regulated Deep Learning (RDL). This paper introduces the former concept and provide sI, a language previously used to model declaratively and extend Electronic Institutions, as a means to regulate the execution of Artificial Neural Networks and their interactions with Artificial Teachers (ATs)
翻訳日:2023-01-16 20:42:36 公開日:2020-07-24
# データ同化と機械学習を組み合わせることで、スパースとノイズの観測から力学モデルをエミュレートする:lorenz 96モデルによるケーススタディ

Combining data assimilation and machine learning to emulate a dynamical model from sparse and noisy observations: a case study with the Lorenz 96 model ( http://arxiv.org/abs/2001.01520v2 )

ライセンス: Link先を確認
Julien Brajard (1 and 2), Alberto Carassi (3 and 4), Marc Bocquet (5), Laurent Bertino (1) ((1) Nansen Center, Bergen, Norway, (2) Sorbonne University, CNRS-IRD-MNHN, LOCEAN, Paris, France, (3) Dept of Meteorology, University of Reading, (4) Mathematical Institute, University of Utrecht, (5) CEREA, joint laboratory \'Ecole des Ponts ParisTech and EDF R&D, Universit\'e Paris-Est, Champs-sur-Marne, France)(参考訳) データ同化と機械学習の組み合わせに基づく新しい手法を提案する。 新しいハイブリッドアプローチは、2倍の範囲で設計されている。 (i)隠れて、おそらくカオス的で、ダイナミックでエミュレートする (ii)将来の状態を予測すること。 この方法は、データ同化ステップを反復的に適用し、ここでアンサンブルカルマンフィルタとニューラルネットワークとからなる。 データ同化は、サロゲートモデルとスパースノイズデータとを最適に組み合わせるために用いられる。 出力解析は空間的に完全であり、ニューラルネットワークがサロゲートモデルを更新するためのトレーニングセットとして使用される。 2つのステップは繰り返し繰り返される。 カオス的な40変数Lorenz 96モデルを用いて数値実験を行い、提案手法の収束と統計的スキルの両立を証明した。 サーロゲートモデルは、最大2回のリアプノフ時間までの短期予測スキルを示し、正のリアプノフ指数の検索と、パワー密度スペクトルのよりエネルギー的な周波数を示す。 また, 予測精度は観測ノイズの増加とともに円滑に低下するが, モデル領域の半分未満の場合には突然低下する。 低次元システムで証明されたデータ同化と機械学習の相乗効果は、より洗練されたダイナミクスを備えたハイブリッドのさらなる研究を促進する。

A novel method, based on the combination of data assimilation and machine learning is introduced. The new hybrid approach is designed for a two-fold scope: (i) emulating hidden, possibly chaotic, dynamics and (ii) predicting their future states. The method consists in applying iteratively a data assimilation step, here an ensemble Kalman filter, and a neural network. Data assimilation is used to optimally combine a surrogate model with sparse noisy data. The output analysis is spatially complete and is used as a training set by the neural network to update the surrogate model. The two steps are then repeated iteratively. Numerical experiments have been carried out using the chaotic 40-variables Lorenz 96 model, proving both convergence and statistical skill of the proposed hybrid approach. The surrogate model shows short-term forecast skill up to two Lyapunov times, the retrieval of positive Lyapunov exponents as well as the more energetic frequencies of the power density spectrum. The sensitivity of the method to critical setup parameters is also presented: the forecast skill decreases smoothly with increased observational noise but drops abruptly if less than half of the model domain is observed. The successful synergy between data assimilation and machine learning, proven here with a low-dimensional system, encourages further investigation of such hybrids with more sophisticated dynamics.
翻訳日:2023-01-14 02:09:07 公開日:2020-07-24
# 位相的に順序付けられた多体局在系に対する運動の局所積分

Local Integrals of Motion for Topologically Ordered Many-Body Localized Systems ( http://arxiv.org/abs/2001.03167v3 )

ライセンス: Link先を確認
Thorsten B. Wahl, Benjamin B\'eri(参考訳) 多体局所化(mbl)システムは、スピン系に対して、オンサイトスピンz作用素の集合の局所ユニタリ変換であると一般的に想定される、運動の局所積分を用いてしばしば記述される。 この仮定は位相的に順序付けられたmbl系では成立しない。 そのような系を任意の空間次元で捉えるのに適した定義を用いて、MBLの位相順序を含む多くの特徴を実演する。 (i)すべての固有状態について同じ。 (ii)MBLを保存するどんな摂動にも頑健である。 (iii) 位相的に非自明な多様体上では、運動の完全集合は局所一意的な非可約ウィルソンループの形で非局所環を含む必要がある。 提案手法はテンソルネットワーク法に適しており,エネルギーの重なりにもかかわらず,高励起有限サイズスプリットな位相固有空間を解けることが期待されている。 我々は、乱れたキタエフ連鎖、トーリック符号、およびx-cubeモデルに対する我々のアプローチを説明する。

Many-body localized (MBL) systems are often described using their local integrals of motion, which, for spin systems, are commonly assumed to be a local unitary transform of the set of on-site spin-z operators. We show that this assumption cannot hold for topologically ordered MBL systems. Using a suitable definition to capture such systems in any spatial dimension, we demonstrate a number of features, including that MBL topological order, if present: (i) is the same for all eigenstates; (ii) is robust in character against any perturbation preserving MBL; (iii) implies that on topologically nontrivial manifolds a complete set of integrals of motion must include nonlocal ones in the form of local-unitary-dressed noncontractible Wilson loops. Our approach is well suited for tensor-network methods, and is expected to allow these to resolve highly-excited finite-size-split topological eigenspaces despite their overlap in energy. We illustrate our approach on the disordered Kitaev chain, toric code, and X-cube model.
翻訳日:2023-01-13 05:41:38 公開日:2020-07-24
# 従属散逸量子系における相関誘起定常状態と極限サイクル

Correlation-induced steady states and limit cycles in driven dissipative quantum systems ( http://arxiv.org/abs/2001.05474v2 )

ライセンス: Link先を確認
Haggai Landa, Marco Schir\'o, Gr\'egoire Misguich(参考訳) 最寄り-neighbor相互作用を持つ格子上のスピン1/半(量子ビット)の駆動散逸モデルについて検討した。 系の位相決定におけるスピンスピン-スピン相関の空間的拡張の役割に着目し,定常状態における相関の空間構造と時間ダイナミクスを特徴付ける。 次元 1 では、大系で本質的に正確な行列-積-作用素シミュレーションを使い、これらの計算を次元 2 にプッシュすると、小さなシリンダーで正確な結果が得られる。 また、先行順の量子ゆらぎのフィードバックにdressした平均場の力学を解くことに基づく近似スキームも採用する。 このアプローチにより,空間次元を最大5次元に増やすことにより,10万スピン以上の大きな格子における相関の効果を研究できる。 2次元以上では、量子相関によって安定化され、モデルの平均場限界には存在しない2つの新しい状態が見つかる。 これらのうちの1つは、2つの双安定平均場値の間にある平均磁化値を持ち、相関関数は両者を想起させる性質を持つ定常状態である。 新しい位相の相関長は臨界点で分岐し、その先には磁化と相関器が周期的に周期的に振動する新しい極限サイクル状態が現れる。

We study a driven-dissipative model of spins one-half (qubits) on a lattice with nearest-neighbor interactions. Focusing on the role of spatially extended spin-spin correlations in determining the phases of the system, we characterize the spatial structure of the correlations in the steady state, as well as their temporal dynamics. In dimension one we use essentially exact matrix-product-operator simulations on large systems, and pushing these calculations to dimension two, we obtain accurate results on small cylinders. We also employ an approximation scheme based on solving the dynamics of the mean field dressed by the feedback of quantum fluctuations at leading order. This approach allows us to study the effect of correlations in large lattices with over one hundred thousand spins, as the spatial dimension is increased up to five. In dimension two and higher we find two new states that are stabilized by quantum correlations and do not exist in the mean-field limit of the model. One of these is a steady state with mean magnetization values that lie between the two bistable mean-field values, and whose correlation functions have properties reminiscent of both. The correlation length of the new phase diverges at a critical point, beyond which we find emerging a new limit cycle state with the magnetization and correlators oscillating periodically in time.
翻訳日:2023-01-11 06:49:48 公開日:2020-07-24
# 非凸世界におけるSGDのより良い理論

Better Theory for SGD in the Nonconvex World ( http://arxiv.org/abs/2002.03329v3 )

ライセンス: Link先を確認
Ahmed Khaled and Peter Richt\'arik(参考訳) 大規模な非凸最適化問題は、現代の機械学習では至るところで行われており、SGD(Stochastic Gradient Descent)は、その解決に関心のある実践者の中では、最高である。 我々は,非凸設定におけるsgdの解析を再検討し,確率勾配の第2モーメントの挙動を規定する最近導入された期待平滑性仮定の新しい変種を提案する。 我々の仮定は、以前のすべての作業でなされた仮定よりも一般的で理にかなったものであることを示す。 さらに、この結果から、非凸な滑らかな関数の定常点を求めるための最適な$\mathcal{O}(\varepsilon^{-4})$レートが得られ、Polyak-{\L}ojasiewicz条件を満たす場合、大域的な解を求めるための最適な$\mathcal{O}(\varepsilon^{-1})$レートが回復される。 凸性下の収束率と比較し、二次汎関数成長および凸性の下でのsgdの収束に関する定理を証明する。 さらに,有限サム最適化問題に対する広範囲のサンプリング戦略とミニバッチサイズの影響を詳細に研究するフレームワークを用いて解析を行う。 我々は理論結果を実データと合成データの実験と照合する。

Large-scale nonconvex optimization problems are ubiquitous in modern machine learning, and among practitioners interested in solving them, Stochastic Gradient Descent (SGD) reigns supreme. We revisit the analysis of SGD in the nonconvex setting and propose a new variant of the recently introduced expected smoothness assumption which governs the behaviour of the second moment of the stochastic gradient. We show that our assumption is both more general and more reasonable than assumptions made in all prior work. Moreover, our results yield the optimal $\mathcal{O}(\varepsilon^{-4})$ rate for finding a stationary point of nonconvex smooth functions, and recover the optimal $\mathcal{O}(\varepsilon^{-1})$ rate for finding a global solution if the Polyak-{\L}ojasiewicz condition is satisfied. We compare against convergence rates under convexity and prove a theorem on the convergence of SGD under Quadratic Functional Growth and convexity, which might be of independent interest. Moreover, we perform our analysis in a framework which allows for a detailed study of the effects of a wide array of sampling strategies and minibatch sizes for finite-sum optimization problems. We corroborate our theoretical results with experiments on real and synthetic data.
翻訳日:2023-01-02 14:36:55 公開日:2020-07-24
# 非null仮説の数と効果の大きさの推定

Estimating the number and effect sizes of non-null hypotheses ( http://arxiv.org/abs/2002.07297v2 )

ライセンス: Link先を確認
Jennifer Brennan, Ramya Korlakai Vinayak and Kevin Jamieson(参考訳) 本研究では,複数のテスト環境における効果量分布(代替仮説に基づくテスト統計の平均値)を推定する問題について検討する。 この分布を知ることで、実験的な設計のパワー(タイプIIエラー)を計算することができる。 この分布を安価なパイロット実験で推定することは可能であり, 発見を同定する実験で必要となる試料よりはるかに少ない試料を採取できることを示した。 我々の推定器は、将来の実験で与えられた実験設計を用いて行われる発見の数を保証するために使用できる。 この単純で計算効率の良い推定器は、多くの理論的性質を享受し、ショウジョウバエのインフルエンザ抑制に関する遺伝子ノックアウト実験のデータによる効果を実証する。

We study the problem of estimating the distribution of effect sizes (the mean of the test statistic under the alternate hypothesis) in a multiple testing setting. Knowing this distribution allows us to calculate the power (type II error) of any experimental design. We show that it is possible to estimate this distribution using an inexpensive pilot experiment, which takes significantly fewer samples than would be required by an experiment that identified the discoveries. Our estimator can be used to guarantee the number of discoveries that will be made using a given experimental design in a future experiment. We prove that this simple and computationally efficient estimator enjoys a number of favorable theoretical properties, and demonstrate its effectiveness on data from a gene knockout experiment on influenza inhibition in Drosophila.
翻訳日:2022-12-31 12:17:05 公開日:2020-07-24
# 寿命変換合成

Lifespan Age Transformation Synthesis ( http://arxiv.org/abs/2003.09764v2 )

ライセンス: Link先を確認
Roy Or-El, Soumyadip Sengupta, Ohad Fried, Eli Shechtman, Ira Kemelmacher-Shlizerman(参考訳) 一つの写真年齢の進行と回帰という問題に対処し、その人が将来どのように見えるか、過去をどう見たかを予測する。 既存の老化法は、人間の老化と成長の過程で起こる頭部の形状の変化を見渡す、テクスチャを変えることに限定されている。 これにより、成人の老化に対する従来の方法の適用性が制限され、子供の写真にこれらの手法を適用することで、質の高い結果が得られない。 本稿では,学習された潜在空間が連続的な双方向の老化過程をモデル化する,新しいマルチドメイン画像対画像生成対向ネットワークアーキテクチャを提案する。 ネットワークはFFHQデータセットに基づいてトレーニングされており、年齢、性別、セマンティックセグメンテーションをラベル付けしています。 固定年齢クラスは、ほぼ連続年齢変換のアンカーとして使用される。 1枚の写真から0歳から70歳までの頭部のポートレートを予測し、頭部のテクスチャと形状の両方を修正した。 さまざまな写真やデータセットで結果を実証し,技術状況に対して大幅な改善が見られた。

We address the problem of single photo age progression and regression-the prediction of how a person might look in the future, or how they looked in the past. Most existing aging methods are limited to changing the texture, overlooking transformations in head shape that occur during the human aging and growth process. This limits the applicability of previous methods to aging of adults to slightly older adults, and application of those methods to photos of children does not produce quality results. We propose a novel multi-domain image-to-image generative adversarial network architecture, whose learned latent space models a continuous bi-directional aging process. The network is trained on the FFHQ dataset, which we labeled for ages, gender, and semantic segmentation. Fixed age classes are used as anchors to approximate continuous age transformation. Our framework can predict a full head portrait for ages 0-70 from a single photo, modifying both texture and shape of the head. We demonstrate results on a wide variety of photos and datasets, and show significant improvement over the state of the art.
翻訳日:2022-12-21 13:06:10 公開日:2020-07-24
# 半教師学習のための平均教師による局所クラスタリング

Local Clustering with Mean Teacher for Semi-supervised Learning ( http://arxiv.org/abs/2004.09665v2 )

ライセンス: Link先を確認
Zexi Chen, Benjamin Dutton, Bharathkumar Ramachandra, Tianfu Wu, Ranga Raju Vatsavai(参考訳) Tarvainen と Valpola の Mean Teacher (MT) モデルは、いくつかの半教師付きベンチマークデータセットで好成績を示した。 MTは、教師モデルの重みを学生モデルの重みの指数的な移動平均として維持し、入力の多様な摂動の下での確率予測のばらつきを最小限にする。 しかし、MTは確認バイアス、すなわち誤った教師モデル予測の強化に悩まされていることが知られている。 本研究では,検証バイアスの影響を軽減するために,ローカルクラスタリング (LC) と呼ばれる単純な手法を提案する。 MTでは、各データポイントはトレーニング中に他のポイントとは独立していると考えられるが、類似した特徴を共有する場合、データポイントは機能空間において互いに近接している可能性が高い。 特徴空間内の隣接データ点間の対距離を最小化することにより,局所的にデータポイントをクラスタリングする。 ラベル付きデータポイントの標準分類クロスエントロピー目標と組み合わせることで、誤分類されたラベル付きデータポイントは、隣人の助けを借りて、正しいクラスの高密度領域に引っ張られ、モデル性能が向上する。 半教師付きベンチマークデータセット SVHN と CIFAR-10 を用いて,LC の損失を MT に付加すると,MT と比較して大幅に向上し,半教師付き学習における技術水準に匹敵する性能が得られた。

The Mean Teacher (MT) model of Tarvainen and Valpola has shown favorable performance on several semi-supervised benchmark datasets. MT maintains a teacher model's weights as the exponential moving average of a student model's weights and minimizes the divergence between their probability predictions under diverse perturbations of the inputs. However, MT is known to suffer from confirmation bias, that is, reinforcing incorrect teacher model predictions. In this work, we propose a simple yet effective method called Local Clustering (LC) to mitigate the effect of confirmation bias. In MT, each data point is considered independent of other points during training; however, data points are likely to be close to each other in feature space if they share similar features. Motivated by this, we cluster data points locally by minimizing the pairwise distance between neighboring data points in feature space. Combined with a standard classification cross-entropy objective on labeled data points, the misclassified unlabeled data points are pulled towards high-density regions of their correct class with the help of their neighbors, thus improving model performance. We demonstrate on semi-supervised benchmark datasets SVHN and CIFAR-10 that adding our LC loss to MT yields significant improvements compared to MT and performance comparable to the state of the art in semi-supervised learning.
翻訳日:2022-12-11 17:34:47 公開日:2020-07-24
# 偶然の統計的意義に基づく2成分データセットの階層的クラスタリング

Hierarchical clustering of bipartite data sets based on the statistical significance of coincidences ( http://arxiv.org/abs/2004.14764v2 )

ライセンス: Link先を確認
Ignacio Tamarit, Mar\'ia Pereda, and Jos\'e A. Cuesta(参考訳) ある「エンティティ」が「機能」によって関連付けられている場合、それらは二部ネットワーク表現に順応できる。 植物汚染者コミュニティ、科学論文の共著者、顧客と購入、あるいは世論調査の回答などは、ごく一部の例である。 ネットワーク内のそのようなエンティティのクラスタリングを分析することは、インターネット技術、レコメンダシステム、病気の検出など、多くの分野のアプリケーションで有用なツールである。 二部ネットワークのクラスタを見つけるために最も広く用いられるアルゴリズムはモジュラリティ最適化の変種である。 ここでは、2つのエンティティが共有する特徴が単なるチャンスに起因する確率を定量化するエンティティ間の相似性に基づく階層的クラスタリングアルゴリズムを提案する。 アルゴリズムのパフォーマンスは n 個の実体の集合に適用すると$O(n^2)$ となり、その結果はそれらの実体の接続を示すデンドログラムとなる。 サセプティビリティ(susceptibility)"尺度を導入することで、クラスタリングの'最適'の選択と、その品質の定量化が可能になります。 dendrogramは、クラスタ内のサブクラスタの存在や、任意のクラスタに適合しないノードの存在など、さらに有用な構造情報を示している。 まず、合成ネットワークのセットに適用し、次にサンプルを選択することで、アルゴリズムを説明します。 また、我々のアルゴリズムを1モードネットワークの有効な代替品にする方法も説明し、より高い数値性能で、少なくとも標準のモジュラリティベースのアルゴリズムと同様に性能を発揮することを示す。 githubから自由にアクセス可能なpythonのアルゴリズムの実装を提供する。

When some 'entities' are related by the 'features' they share they are amenable to a bipartite network representation. Plant-pollinator ecological communities, co-authorship of scientific papers, customers and purchases, or answers in a poll, are but a few examples. Analyzing clustering of such entities in the network is a useful tool with applications in many fields, like internet technology, recommender systems, or detection of diseases. The algorithms most widely applied to find clusters in bipartite networks are variants of modularity optimization. Here we provide an hierarchical clustering algorithm based on a dissimilarity between entities that quantifies the probability that the features shared by two entities is due to mere chance. The algorithm performance is $O(n^2)$ when applied to a set of n entities, and its outcome is a dendrogram exhibiting the connections of those entities. Through the introduction of a 'susceptibility' measure we can provide an 'optimal' choice for the clustering as well as quantify its quality. The dendrogram reveals further useful structural information though -- like the existence of sub-clusters within clusters or of nodes that do not fit in any cluster. We illustrate the algorithm by applying it first to a set of synthetic networks, and then to a selection of examples. We also illustrate how to transform our algorithm into a valid alternative for one-mode networks as well, and show that it performs at least as well as the standard, modularity-based algorithms -- with a higher numerical performance. We provide an implementation of the algorithm in Python freely accessible from GitHub.
翻訳日:2022-12-09 06:18:05 公開日:2020-07-24
# powerplanningdl:ディープラーニングを用いたオンチップ電力グリッド設計のための信頼性アウェアフレームワーク

PowerPlanningDL: Reliability-Aware Framework for On-Chip Power Grid Design using Deep Learning ( http://arxiv.org/abs/2005.01386v2 )

ライセンス: Link先を確認
Sukanta Dey, Sukumar Nandi, and Gaurav Trivedi(参考訳) チップ設計の複雑さが増すにつれ、VLSI物理設計は反復設計プロセスである時間を要する課題となった。 電力計画とは、基礎となる全ての機能ブロックに十分な電力を提供するために電力グリッドネットワークを設計するvlsi物理設計のフロアプランニングの一部である。 電力計画はまた、最悪のIRドロップとエレクトロマイグレーション(EM)マージンを満たしながら、電力グリッドネットワークを作成するために複数の反復的なステップを必要とする。 本稿では,電力グリッドネットワークの初期設計を概ね予測し,信頼性の制約を考慮し,Deep Learning(DL)ベースのフレームワークを初めて導入する。 提案フレームワークは,反復的な設計ステップを削減し,全体の設計サイクルを高速化する。 ニューラルネットワークに基づくマルチターゲット回帰手法を用いてDLモデルを作成する。 特徴抽出を行い、トレーニングデータセットはIBMプロセッサから抽出された電力グリッドの設計のフロアプランから生成される。 DLモデルは生成されたデータセットを使用してトレーニングされる。 提案したDLベースのフレームワークは、新しいパワーグリッド仕様(トレーニングフェーズで使用される設計の摂動によって達成される)を用いて検証される。 その結果、予測電力グリッド設計は、予測誤差が最小(〜2%)で元の設計に近いことがわかった。 提案したDLベースのアプローチは、標準電力グリッドベンチマークの高速化により設計サイクル時間も改善する。

With the increase in the complexity of chip designs, VLSI physical design has become a time-consuming task, which is an iterative design process. Power planning is that part of the floorplanning in VLSI physical design where power grid networks are designed in order to provide adequate power to all the underlying functional blocks. Power planning also requires multiple iterative steps to create the power grid network while satisfying the allowed worst-case IR drop and Electromigration (EM) margin. For the first time, this paper introduces Deep learning (DL)-based framework to approximately predict the initial design of the power grid network, considering different reliability constraints. The proposed framework reduces many iterative design steps and speeds up the total design cycle. Neural Network-based multi-target regression technique is used to create the DL model. Feature extraction is done, and the training dataset is generated from the floorplans of some of the power grid designs extracted from the IBM processor. The DL model is trained using the generated dataset. The proposed DL-based framework is validated using a new set of power grid specifications (obtained by perturbing the designs used in the training phase). The results show that the predicted power grid design is closer to the original design with minimal prediction error (~2%). The proposed DL-based approach also improves the design cycle time with a speedup of ~6X for standard power grid benchmarks.
翻訳日:2022-12-07 01:40:49 公開日:2020-07-24
# 中高分解能衛星画像を用いた閉鎖林外樹木のグローバル同定法

A global method to identify trees outside of closed-canopy forests with medium-resolution satellite imagery ( http://arxiv.org/abs/2005.08702v2 )

ライセンス: Link先を確認
John Brandt, Fred Stolle(参考訳) 密集した閉鎖性林の外の伐採された木は、炭素の隔離、生活支援、生態系の整合性維持、気候変動の適応と緩和に非常に重要である。 閉鎖林内の樹木とは対照的に、地球規模で散在する樹木の空間的範囲や分布についてはあまり知られていない。 高解像度衛星画像のコストのため、地球規模の監視システムは土地利用を監視するために中解像度衛星に依存している。 ここでは,3メートル以上の天蓋径の樹木を高解像度の光学・レーダ画像で同定する一貫した手法を提案する。 隔週で雲のない10メートルのセンチネル-2光学画像とセンチネル-1レーダー画像を使用して、畳み込みゲートリカレントユニット層と特徴ピラミッドアテンション層からなる完全畳み込みネットワークを訓練する。 提案モデルは-60度から+60度まで分布する215,000のセンチネル-1とセンチネル-2ピクセルでテストされ、ヘクタールの樹冠密度 (40%未満) の低中密度の樹冠と、密度 (40%以上) のヘクタールの樹冠と生産者の精度 (95%) を75%超えた。 提案手法は,疎水・散布木被覆面積(40%未満)における樹木の分布モニタリングの精度を最大20%向上させ,山間部および非常に曇り地における照準誤差と欠落誤差を約半分削減する。 大規模で異質な景観に適用すると、この結果は世界中の多様な景観に対して、高精細で精度の高い樹木を地図化できる可能性を示している。 この情報は現在の土地被覆を理解するのに重要であり、林業、生物ホットスポット周辺の緩衝帯、森林の拡大や侵食などの土地被覆の変化を検出するのに使うことができる。

Scattered trees outside of dense, closed-canopy forests are very important for carbon sequestration, supporting livelihoods, maintaining ecosystem integrity, and climate change adaptation and mitigation. In contrast to trees inside of closed-canopy forests, not much is known about the spatial extent and distribution of scattered trees at a global scale. Due to the cost of high-resolution satellite imagery, global monitoring systems rely on medium-resolution satellites to monitor land use. Here we present a globally consistent method to identify trees with canopy diameters greater than three meters with medium-resolution optical and radar imagery. Biweekly cloud-free, pan-sharpened 10 meter Sentinel-2 optical imagery and Sentinel-1 radar imagery are used to train a fully convolutional network, consisting of a convolutional gated recurrent unit layer and a feature pyramid attention layer. Tested across more than 215,000 Sentinel-1 and Sentinel-2 pixels distributed from -60 to +60 latitude, the proposed model exceeds 75% user's and producer's accuracy identifying trees in hectares with a low to medium density (less than 40%) of tree cover, and 95% user's and producer's accuracy in hectares with dense (greater than 40%) tree cover. The proposed method increases the accuracy of monitoring tree presence in areas with sparse and scattered tree cover (less than 40%) by as much as 20%, and reduces commission and omission error in mountainous and very cloudy regions by nearly half. When applied across large, heterogeneous landscapes, the results demonstrate potential to map trees in high detail and accuracy over diverse landscapes across the globe. This information is important for understanding current land cover and can be used to detect changes in land cover such as agroforestry, buffer zones around biological hotspots, and expansion or encroachment of forests.
翻訳日:2022-12-03 12:59:07 公開日:2020-07-24
# マルチタスク学習による大規模画像ギャラリー表現の効率化

Efficient Image Gallery Representations at Scale Through Multi-Task Learning ( http://arxiv.org/abs/2005.09027v3 )

ライセンス: Link先を確認
Benjamin Gutelman and Pavel Levin(参考訳) 画像ギャラリーは、多くのレコメンデーションや検索アプリケーションで活用できる製品に関する多様な情報の豊富な情報源を提供する。 マルチタスク学習(MTL)アプローチによるユニバーサル画像ギャラリーエンコーダ構築の問題について検討し,新たな下流タスクへの学習表現の一般化を実現するための実践的な方法であることを実証する。 さらに,MTLが学習したソリューションの相対的性能を,最適で高コストなソリューションに対して解析し,MTLが低リソースのバイナリタスクにおけるスパーシリティに対処する有用なメカニズムであることを示す。

Image galleries provide a rich source of diverse information about a product which can be leveraged across many recommendation and retrieval applications. We study the problem of building a universal image gallery encoder through multi-task learning (MTL) approach and demonstrate that it is indeed a practical way to achieve generalizability of learned representations to new downstream tasks. Additionally, we analyze the relative predictive performance of MTL-trained solutions against optimal and substantially more expensive solutions, and find signals that MTL can be a useful mechanism to address sparsity in low-resource binary tasks.
翻訳日:2022-12-01 23:32:19 公開日:2020-07-24
# 歩行者軌跡予測のための時空間グラフトランスフォーマネットワーク

Spatio-Temporal Graph Transformer Networks for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2005.08514v2 )

ライセンス: Link先を確認
Cunjun Yu, Xiao Ma, Jiawei Ren, Haiyu Zhao, Shuai Yi(参考訳) 群衆の動きのダイナミクスを理解することは、例えば監視システムや自動運転など、現実世界の応用には不可欠である。 これは、社会的に認識された群衆空間相互作用と複雑な時間的依存関係を効果的にモデル化する必要があるためである。 軌道予測の最も重要な要因は注意力である。 本稿では,注意機構のみによる軌跡予測に対処する,時空間型graAph tRansformerフレームワークSTARを提案する。 STARは、新しいトランスフォーマーベースのグラフ畳み込み機構であるTGConvによるグラフ内群衆相互作用をモデル化する。 グラフ間の時間依存は、別々の時間変換器によってモデル化される。 STARは空間変換器と時間変換器の相互結合によって複雑な時空間相互作用をキャプチャする。 失明した歩行者の長期的効果の時間的予測を校正するために,時間的トランスフォーマーによって常に更新される読み書き可能な外部メモリモジュールを導入する。 注意機構のみを用いて、STARは5つの現実世界の歩行者予測データセット上で最先端のパフォーマンスを達成することを示す。

Understanding crowd motion dynamics is critical to real-world applications, e.g., surveillance systems and autonomous driving. This is challenging because it requires effectively modeling the socially aware crowd spatial interaction and complex temporal dependencies. We believe attention is the most important factor for trajectory prediction. In this paper, we present STAR, a Spatio-Temporal grAph tRansformer framework, which tackles trajectory prediction by only attention mechanisms. STAR models intra-graph crowd interaction by TGConv, a novel Transformer-based graph convolution mechanism. The inter-graph temporal dependencies are modeled by separate temporal Transformers. STAR captures complex spatio-temporal interactions by interleaving between spatial and temporal Transformers. To calibrate the temporal prediction for the long-lasting effect of disappeared pedestrians, we introduce a read-writable external memory module, consistently being updated by the temporal Transformer. We show that with only attention mechanism, STAR achieves state-of-the-art performance on 5 commonly used real-world pedestrian prediction datasets.
翻訳日:2022-12-01 23:21:48 公開日:2020-07-24
# KaLM at SemEval-2020 Task 4: 理解と生成のための知識対応言語モデル

KaLM at SemEval-2020 Task 4: Knowledge-aware Language Models for Comprehension And Generation ( http://arxiv.org/abs/2005.11768v2 )

ライセンス: Link先を確認
Jiajing Wan and Xinting Huang(参考訳) 本稿では,SemEval 2020 Task 4: Commonsense Validation and Explanationにおける我々の戦略について述べる。 3つのサブタスクのバックボーンとして, エビデンスを探索し, 異なる大規模事前学習モデルを選択する新しい方法を提案する。 その結果, エビデンス探索手法はコモンセンス説明タスクのモデル性能を向上させることがわかった。 評価スコアでは,私たちのチームはサブタスクCで2位です。

This paper presents our strategies in SemEval 2020 Task 4: Commonsense Validation and Explanation. We propose a novel way to search for evidence and choose the different large-scale pre-trained models as the backbone for three subtasks. The results show that our evidence-searching approach improves model performance on commonsense explanation task. Our team ranks 2nd in subtask C according to human evaluation score.
翻訳日:2022-11-29 13:41:30 公開日:2020-07-24
# ファクトチェッカーとしての言語モデル?

Language Models as Fact Checkers? ( http://arxiv.org/abs/2006.04102v2 )

ライセンス: Link先を確認
Nayeon Lee, Belinda Z. Li, Sinong Wang, Wen-tau Yih, Hao Ma, Madian Khabsa(参考訳) 最近の研究は、言語モデル(LM)が事前学習データから学んだ常識と事実の両方を記憶していることを示唆している。 本稿では,この暗黙的知識を活用して,外部知識や明示的な検索コンポーネントを使わずに,言語モデルのみを用いた効果的なエンドツーエンドのファクトチェッカーを作成する。 lmsから知識を抽出する以前の作業は、オープンドメインの質問応答のタスクに重点を置いてきたが、事実チェッカーとしての言語モデルの使用を調べる最初の作業である。 クローズドブック設定では、ゼロショットLMアプローチが標準FEVERタスクのランダムベースラインよりも優れており、微調整LMが標準ベースラインと良好に比較可能であることを示す。 明示的な知識ベースを使用するメソッドを最終的に上回っている訳ではありませんが、この方法が実現可能であり、探索の余地が十分にあると私たちは信じています。

Recent work has suggested that language models (LMs) store both common-sense and factual knowledge learned from pre-training data. In this paper, we leverage this implicit knowledge to create an effective end-to-end fact checker using a solely a language model, without any external knowledge or explicit retrieval components. While previous work on extracting knowledge from LMs have focused on the task of open-domain question answering, to the best of our knowledge, this is the first work to examine the use of language models as fact checkers. In a closed-book setting, we show that our zero-shot LM approach outperforms a random baseline on the standard FEVER task, and that our fine-tuned LM compares favorably with standard baselines. Though we do not ultimately outperform methods which use explicit knowledge bases, we believe our exploration shows that this method is viable and has much room for exploration.
翻訳日:2022-11-24 07:21:23 公開日:2020-07-24
# ニューラルタンジェントトランスファーによる訓練可能なスパースネットワークの探索

Finding trainable sparse networks through Neural Tangent Transfer ( http://arxiv.org/abs/2006.08228v2 )

ライセンス: Link先を確認
Tianlin Liu and Friedemann Zenke(参考訳) ディープニューラルネットワークは、機械学習を劇的に変化させたが、そのメモリとエネルギーの需要はかなり大きい。 実際の生物学的ニューラルネットワークの要件は、比較においてかなり控えめであり、この厳しさを損なう可能性のある1つの特徴は、その疎結合である。 深層学習において、特定のタスクでうまく機能する訓練可能なスパースネットワークは通常、ラベル依存プルーニング基準を用いて構築される。 本稿では,学習可能なスパースネットワークをラベルフリーで検出する手法であるNeural Tangent Transferを紹介する。 具体的には、神経接核を特徴とするトレーニングダイナミクスが関数空間内の密集したネットワークを模倣するスパースネットワークを見出す。 最後に,いくつかの標準分類課題に対するラベル非依存のアプローチを評価し,より高速な収束と高い分類性能を実現することを示す。

Deep neural networks have dramatically transformed machine learning, but their memory and energy demands are substantial. The requirements of real biological neural networks are rather modest in comparison, and one feature that might underlie this austerity is their sparse connectivity. In deep learning, trainable sparse networks that perform well on a specific task are usually constructed using label-dependent pruning criteria. In this article, we introduce Neural Tangent Transfer, a method that instead finds trainable sparse networks in a label-free manner. Specifically, we find sparse networks whose training dynamics, as characterized by the neural tangent kernel, mimic those of dense networks in function space. Finally, we evaluate our label-agnostic approach on several standard classification tasks and show that the resulting sparse networks achieve higher classification performance while converging faster.
翻訳日:2022-11-21 02:13:00 公開日:2020-07-24
# 大規模画像データセット:コンピュータビジョンのピュロス的勝利?

Large image datasets: A pyrrhic win for computer vision? ( http://arxiv.org/abs/2006.16923v2 )

ライセンス: Link先を確認
Vinay Uday Prabhu, Abeba Birhane(参考訳) 本稿では,大規模ビジョンデータセットの問題点と結果について考察する。 我々は、同意や正義の問題や、データセットにポルノ画像を含めるといった具体的な懸念など、幅広い問題について検討する。 ImageNet-ILSVRC-2012データセットを例として、年齢、性別、NSFWコンテンツスコアリング、クラスワイド精度、ヒューマンカルディナリティ分析、画像クラス情報のセマンティリティといった要素を網羅した横断モデルに基づく定量的調査を行い、倫理的転帰の程度と微妙さを統計的に調査する。 imagenet-ilsvrc-2012データセット内の画像のルックアップテーブルを手作業で測定し、ポルノグラフィのカテゴリに分類します。 我々は、社会と個人が直面する危険と脅威の状況について、批判的でない、考えにくいデータセットキュレーションの実践によって調査する。 次に,これらの誤りの修正と批判の可能なコースを提案する。 私たちは、コンピュータビジョンコミュニティが構築するこの取り組みで生成されたすべてのコードと国勢調査メタデータセットを、完全にオープンソース化しました。 脅威の深刻さを明らかにすることで、大規模データセットのキュレーションプロセスに必須の機関審査委員会(IRB)の構成を動機付けることが望まれます。

In this paper we investigate problematic practices and consequences of large scale vision datasets. We examine broad issues such as the question of consent and justice as well as specific concerns such as the inclusion of verifiably pornographic images in datasets. Taking the ImageNet-ILSVRC-2012 dataset as an example, we perform a cross-sectional model-based quantitative census covering factors such as age, gender, NSFW content scoring, class-wise accuracy, human-cardinality-analysis, and the semanticity of the image class information in order to statistically investigate the extent and subtleties of ethical transgressions. We then use the census to help hand-curate a look-up-table of images in the ImageNet-ILSVRC-2012 dataset that fall into the categories of verifiably pornographic: shot in a non-consensual setting (up-skirt), beach voyeuristic, and exposed private parts. We survey the landscape of harm and threats both society broadly and individuals face due to uncritical and ill-considered dataset curation practices. We then propose possible courses of correction and critique the pros and cons of these. We have duly open-sourced all of the code and the census meta-datasets generated in this endeavor for the computer vision community to build on. By unveiling the severity of the threats, our hope is to motivate the constitution of mandatory Institutional Review Boards (IRB) for large scale dataset curation processes.
翻訳日:2022-11-17 13:26:10 公開日:2020-07-24
# クロスドメインアライメントのためのグラフ最適輸送

Graph Optimal Transport for Cross-Domain Alignment ( http://arxiv.org/abs/2006.14744v3 )

ライセンス: Link先を確認
Liqun Chen, Zhe Gan, Yu Cheng, Linjie Li, Lawrence Carin, Jingjing Liu(参考訳) 2つのエンティティ(例えば、画像内のオブジェクト、文中の単語)間のドメイン間のアライメントは、コンピュータビジョンと自然言語処理の両方に基本である。 既存の手法は主にソフトアライメントをシミュレートするための高度なアライメント機構の設計に重点を置いている。 学習された注意行列も密度が高く、解釈性に欠ける。 我々は,最近の最適輸送(OT)の進歩から発芽する基本的枠組みであるグラフ最適輸送(GOT)を提案する。 gotでは、エンティティを動的に構築されたグラフに表現することで、クロスドメインアライメントをグラフマッチング問題として定式化する。 ot距離には以下の2種類がある。 (i)ノード(エンティティ)マッチングのためのwasserstein距離(wd)、及び (ii)エッジマッチングのためのgromov-wasserstein距離(gwd)。 WDとGWDはどちらも既存のニューラルネットワークモデルに組み込むことができ、事実上ドロップイン正規化器として機能する。 推論された輸送計画はまたスパースと自己正規化アライメントをもたらし、学習モデルの解釈可能性を高める。 実験は、画像テキスト検索、視覚的質問応答、画像キャプション、機械翻訳、テキスト要約など、幅広いタスクにわたるベースライン上でのGOTの一貫性のあるパフォーマンスを示す。

Cross-domain alignment between two sets of entities (e.g., objects in an image, words in a sentence) is fundamental to both computer vision and natural language processing. Existing methods mainly focus on designing advanced attention mechanisms to simulate soft alignment, with no training signals to explicitly encourage alignment. The learned attention matrices are also dense and lacks interpretability. We propose Graph Optimal Transport (GOT), a principled framework that germinates from recent advances in Optimal Transport (OT). In GOT, cross-domain alignment is formulated as a graph matching problem, by representing entities into a dynamically-constructed graph. Two types of OT distances are considered: (i) Wasserstein distance (WD) for node (entity) matching; and (ii) Gromov-Wasserstein distance (GWD) for edge (structure) matching. Both WD and GWD can be incorporated into existing neural network models, effectively acting as a drop-in regularizer. The inferred transport plan also yields sparse and self-normalized alignment, enhancing the interpretability of the learned model. Experiments show consistent outperformance of GOT over baselines across a wide range of tasks, including image-text retrieval, visual question answering, image captioning, machine translation, and text summarization.
翻訳日:2022-11-16 20:47:29 公開日:2020-07-24
# セッションベースレコメンデーションのための並列注意による長期的・短期的関心のモデル化

Modeling Long-Term and Short-Term Interests with Parallel Attentions for Session-based Recommendation ( http://arxiv.org/abs/2006.15346v2 )

ライセンス: Link先を確認
Jing Zhu, Yanan Xu and Yanmin Zhu(参考訳) セッションベースのリコメンデーションの目的は、ユーザの行動に固有の不確実性や匿名の暗黙のフィードバック情報のために、ユーザの次のクリック項目を予測することである。 強力なセッションベースのレコメンダは、通常、ユーザの進化する関心(すなわち、彼の長期的な関心と短期的な関心の組み合わせ)を探索することができる。 近年の注意機構の進歩により、この課題を解決するための最先端の手法が導かれた。 しかし、主な欠点は2つある。 まず、注意に基づく手法のほとんどは、時間的情報や行動文脈を無視したユーザの短期的関心を表すために、最後にクリックした項目のみを利用する。 第二に、最近の研究では、長期的利益と短期的利益は同等に重要であると考えているが、それらの重要性はユーザー固有のものであるべきである。 そこで,セッションベース推薦のための並列注意ネットワークモデル(PAN)を提案する。 具体的には,コンテキスト情報と時間信号を同時に考慮し,ユーザの短期関心を学習するための新しい時間認識注意機構を提案する。 さらに,ユーザの長期的および短期的嗜好を適応的に統合し,ハイブリッドな興味表現を生成するゲート型融合手法を提案する。 3つの実世界のデータセットの実験によると、PANは最先端の手法よりも明らかに改善されている。

The aim of session-based recommendation is to predict the users' next clicked item, which is a challenging task due to the inherent uncertainty in user behaviors and anonymous implicit feedback information. A powerful session-based recommender can typically explore the users' evolving interests (i.e., a combination of his/her long-term and short-term interests). Recent advances in attention mechanisms have led to state-of-the-art methods for solving this task. However, there are two main drawbacks. First, most of the attention-based methods only simply utilize the last clicked item to represent the user's short-term interest ignoring the temporal information and behavior context, which may fail to capture the recent preference of users comprehensively. Second, current studies typically think long-term and short-term interests as equally important, but the importance of them should be user-specific. Therefore, we propose a novel Parallel Attention Network model (PAN) for Session-based Recommendation. Specifically, we propose a novel time-aware attention mechanism to learn user's short-term interest by taking into account the contextual information and temporal signals simultaneously. Besides, we introduce a gated fusion method that adaptively integrates the user's long-term and short-term preferences to generate the hybrid interest representation. Experiments on the three real-world datasets show that PAN achieves obvious improvements than the state-of-the-art methods.
翻訳日:2022-11-16 08:18:26 公開日:2020-07-24
# 反復的塩分推定 柔軟なフレームワーク

ITSELF: Iterative Saliency Estimation fLexible Framework ( http://arxiv.org/abs/2006.16956v2 )

ライセンス: Link先を確認
Leonardo de Melo Joao, Felipe de Castro Belem, Alexandre Xavier Falcao(参考訳) 機密度オブジェクト検出は、画像で最も顕著なオブジェクトを推定する。 利用可能な教師なしのサリエンシ推定器は、人間がサリエンシを認識して差別的な特徴を作り出す方法について、事前に決められた仮定のセットに依存している。 事前選択された仮定をモデルに不可欠な部分として固定することで、これらの方法は特定の設定や異なるイメージドメインに対して容易に拡張できない。 次に,ユーザが定義した仮定をモデルに追加可能な,スーパーピクセルに基づく反復的サリエンシー推定フレキシブルフレームワーク(itself)を提案する。 近年のスーパーピクセルセグメンテーションアルゴリズムの進歩により、サリエンシマップはスーパーピクセルのデライン化を改善するために利用できる。 本研究では,サリエンシーに基づくスーパーピクセルアルゴリズムとスーパーピクセルに基づくサリエンシー推定器を組み合わせることで,サリエンシーマップを反復的に拡張する新しいサリエンシー/スーパーピクセル自己改善ループを提案する。 ITSELFを5つの指標と6つのデータセットで比較し、そのうち4つは自然画像と2つのバイオメディカル画像からなる。 実験の結果,本手法は比較法よりも頑健であり,自然画像データセットの競合結果を示し,生体画像データセットよりも優れていた。

Saliency object detection estimates the objects that most stand out in an image. The available unsupervised saliency estimators rely on a pre-determined set of assumptions of how humans perceive saliency to create discriminating features. By fixing the pre-selected assumptions as an integral part of their models, these methods cannot be easily extended for specific settings and different image domains. We then propose a superpixel-based ITerative Saliency Estimation fLexible Framework (ITSELF) that allows any user-defined assumptions to be added to the model when required. Thanks to recent advancements in superpixel segmentation algorithms, saliency-maps can be used to improve superpixel delineation. By combining a saliency-based superpixel algorithm to a superpixel-based saliency estimator, we propose a novel saliency/superpixel self-improving loop to iteratively enhance saliency maps. We compare ITSELF to two state-of-the-art saliency estimators on five metrics and six datasets, four of which are composed of natural-images, and two of biomedical-images. Experiments show that our approach is more robust than the compared methods, presenting competitive results on natural-image datasets and outperforming them on biomedical-image datasets.
翻訳日:2022-11-15 05:56:40 公開日:2020-07-24
# HoughNet:ボトムアップオブジェクト検出の近距離および長距離証拠の統合

HoughNet: Integrating near and long-range evidence for bottom-up object detection ( http://arxiv.org/abs/2007.02355v3 )

ライセンス: Link先を確認
Nermin Samet, Samet Hicsonmez, Emre Akbas(参考訳) 本稿では,一段階のアンカーフリー,投票ベース,ボトムアップオブジェクト検出手法であるHoughNetを提案する。 一般化されたハフ変換にインスパイアされたHoughNetは、ある場所におけるオブジェクトの存在を、その場所に投じられた投票の合計によって決定する。 投票は、対極投票の場に基づいて、近距離と遠距離の両方の場所から集められる。 この投票機構のおかげで、HoughNetは視覚認識のための近距離および長距離のクラス条件のエビデンスを統合することができ、それによって現在のオブジェクト検出方法論を一般化し、拡張することができる。 COCOデータセットでは、HoughNetの最良のモデルは46.4$AP$(および65.1$AP_{50}$)を達成し、ボトムアップオブジェクト検出における最先端の最先端と同等に動作し、主要な1段階と2段階のメソッドよりも優れている。 我々は、HoughNetの投票モジュールを2つの異なるGANモデルに統合することにより、別のタスク、すなわち「写真へのラベル」画像生成における提案の有効性をさらに検証し、どちらの場合においても精度が大幅に向上することを示す。 コードはhttps://github.com/nerminsamet/houghnetで入手できる。

This paper presents HoughNet, a one-stage, anchor-free, voting-based, bottom-up object detection method. Inspired by the Generalized Hough Transform, HoughNet determines the presence of an object at a certain location by the sum of the votes cast on that location. Votes are collected from both near and long-distance locations based on a log-polar vote field. Thanks to this voting mechanism, HoughNet is able to integrate both near and long-range, class-conditional evidence for visual recognition, thereby generalizing and enhancing current object detection methodology, which typically relies on only local evidence. On the COCO dataset, HoughNet's best model achieves 46.4 $AP$ (and 65.1 $AP_{50}$), performing on par with the state-of-the-art in bottom-up object detection and outperforming most major one-stage and two-stage methods. We further validate the effectiveness of our proposal in another task, namely, "labels to photo" image generation by integrating the voting module of HoughNet to two different GAN models and showing that the accuracy is significantly improved in both cases. Code is available at https://github.com/nerminsamet/houghnet.
翻訳日:2022-11-13 08:21:53 公開日:2020-07-24
# 正規化ラグランジアンによるオフポリシー評価

Off-Policy Evaluation via the Regularized Lagrangian ( http://arxiv.org/abs/2007.03438v2 )

ライセンス: Link先を確認
Mengjiao Yang, Ofir Nachum, Bo Dai, Lihong Li, Dale Schuurmans(参考訳) 近年提案されている分布補正推定(dice)ファミリーは,行動によらないデータから,オフポリシー評価における最先端の手法である。 これらの推定子はいずれも定常分布の補正を行うが、それらは異なる導出と目的関数から生じる。 本稿では,これらを線形プログラムの正規化ラグランジアンとして統一する。 この統合により、DICE推定器の空間を、性能改善を示す新しい代替手段に拡張することができる。 さらに重要なことは、数学的にも経験的にも拡張された推定器の空間を解析することで、双対解は最適化安定性と推定バイアスの間のトレードオフをナビゲートする際の柔軟性を向上し、一般的にはより優れた推定値を提供する。

The recently proposed distribution correction estimation (DICE) family of estimators has advanced the state of the art in off-policy evaluation from behavior-agnostic data. While these estimators all perform some form of stationary distribution correction, they arise from different derivations and objective functions. In this paper, we unify these estimators as regularized Lagrangians of the same linear program. The unification allows us to expand the space of DICE estimators to new alternatives that demonstrate improved performance. More importantly, by analyzing the expanded space of estimators both mathematically and empirically we find that dual solutions offer greater flexibility in navigating the tradeoff between optimization stability and estimation bias, and generally provide superior estimates in practice.
翻訳日:2022-11-12 19:14:22 公開日:2020-07-24
# 自己注意型拡張畳み込みニューラルネットワークによる歌詞の自動転写

Automatic Lyrics Transcription using Dilated Convolutional Neural Networks with Self-Attention ( http://arxiv.org/abs/2007.06486v2 )

ライセンス: Link先を確認
Emir Demirel, Sven Ahlback, Simon Dixon(参考訳) 音声認識は先進的な研究分野であり、ソフトウェア産業において現在の技術システムが多くの応用に使われているが、今日まで、歌声から単語や文を認識するための強固なシステムは存在していない。 本稿では,このタスクの完全なパイプラインを提案し,これをALT(Automatic lyrics transcription)と呼ぶ。 我々は,音響モデル構築のためのシーケンス分類手法を用いて,自己注意型畳み込み時間遅延ニューラルネットワークをモノフォニックカラオケ録音に訓練した。 この研究で使用されたデータセット、DAMP - Sing! 300x30x2[1]は、英語のみの歌詞を持つようにフィルタリングされる。 英語のポップソングの歌詞に基づいて訓練されたMaxEntやRecurrent Neural Networksなど、さまざまな言語モデルがテストされている。 コンテキスト幅とアテンションヘッドの数を調整しながら、自己注意機構の奥行き分析を行う。 最適設定を用いて,ALTにおける最先端技術の改善を実現し,タスクの新たなベースラインを提供する。

Speech recognition is a well developed research field so that the current state of the art systems are being used in many applications in the software industry, yet as by today, there still does not exist such robust system for the recognition of words and sentences from singing voice. This paper proposes a complete pipeline for this task which may commonly be referred as automatic lyrics transcription (ALT). We have trained convolutional time-delay neural networks with self-attention on monophonic karaoke recordings using a sequence classification objective for building the acoustic model. The dataset used in this study, DAMP - Sing! 300x30x2 [1] is filtered to have songs with only English lyrics. Different language models are tested including MaxEnt and Recurrent Neural Networks based methods which are trained on the lyrics of pop songs in English. An in-depth analysis of the self-attention mechanism is held while tuning its context width and the number of attention heads. Using the best settings, our system achieves notable improvement to the state-of-the-art in ALT and provides a new baseline for the task.
翻訳日:2022-11-10 23:33:44 公開日:2020-07-24
# Kubernetes上のサーバレス推論

Serverless inferencing on Kubernetes ( http://arxiv.org/abs/2007.07366v2 )

ライセンス: Link先を確認
Clive Cox, Dan Sun, Ellis Tarn, Animesh Singh, Rakesh Kelkar, David Goodwin(参考訳) 組織はますます、機械学習モデルを大規模に運用している。 サーバーレスのスケール・ツー・ゼロパラダイムの人気が高まる中、多くのモデルが継続的に使用されていない場合のインフラストラクチャコストを軽減するために、マシンラーニングモデルをデプロイする機会が生まれる。 我々は、KNativeサーバレスパラダイムに基づいて、データサイエンティストがモデルをデプロイするための一貫性とシンプルなインターフェースを提供するサーバレス機械学習推論ソリューションを提供するKFServingプロジェクトについて議論する。 GPUベースの推論を自動スケーリングする際の課題の解決方法を示し、本番環境での使用から学んだ教訓について論じる。

Organisations are increasingly putting machine learning models into production at scale. The increasing popularity of serverless scale-to-zero paradigms presents an opportunity for deploying machine learning models to help mitigate infrastructure costs when many models may not be in continuous use. We will discuss the KFServing project which builds on the KNative serverless paradigm to provide a serverless machine learning inference solution that allows a consistent and simple interface for data scientists to deploy their models. We will show how it solves the challenges of autoscaling GPU based inference and discuss some of the lessons learnt from using it in production.
翻訳日:2022-11-10 14:25:38 公開日:2020-07-24
# 自己指導型自己学習による物体検出の改善

Improving Object Detection with Selective Self-supervised Self-training ( http://arxiv.org/abs/2007.09162v2 )

ライセンス: Link先を確認
Yandong Li, Di Huang, Danfeng Qin, Liqiang Wang, Boqing Gong(参考訳) 本研究では, web 画像を利用した物体検出データセットの強化について検討する。 私たちのアプローチは二段階です。 一方,画像間検索によるWeb画像の検索では,他の検索手法に比べて,キュレートされたデータからのドメインシフトが少ない。 Webイメージは多様なもので、さまざまなオブジェクトのポーズ、外観、コンテキストとのインタラクションなどを提供します。 一方,画像分類のためのラベルのないデータ(自己学習と自己教師型学習)を探索する2つの並列的な作業によって動機付けられた新しい学習手法を提案する。 Webイメージとキュレートされたデータセット間のドメインギャップのため、バニラ形式のオブジェクト検出器の改善には失敗している。 この課題に対処するため,Web画像の監視信号を修正するための選択ネットを提案する。 ポジティブなバウンディングボックスを識別するだけでなく、ハードネガティブなボックスをマイニングするための安全なゾーンも生成する。 日常のシーンからバックパックや椅子を検知し,他の難易度の高いオブジェクトクラスも検出した。

We study how to leverage Web images to augment human-curated object detection datasets. Our approach is two-pronged. On the one hand, we retrieve Web images by image-to-image search, which incurs less domain shift from the curated data than other search methods. The Web images are diverse, supplying a wide variety of object poses, appearances, their interactions with the context, etc. On the other hand, we propose a novel learning method motivated by two parallel lines of work that explore unlabeled data for image classification: self-training and self-supervised learning. They fail to improve object detectors in their vanilla forms due to the domain gap between the Web images and curated datasets. To tackle this challenge, we propose a selective net to rectify the supervision signals in Web images. It not only identifies positive bounding boxes but also creates a safe zone for mining hard negative boxes. We report state-of-the-art results on detecting backpacks and chairs from everyday scenes, along with other challenging object classes.
翻訳日:2022-11-09 14:25:07 公開日:2020-07-24
# URIE: 野生での視覚認識のためのユニバーサルイメージの強化

URIE: Universal Image Enhancement for Visual Recognition in the Wild ( http://arxiv.org/abs/2007.08979v3 )

ライセンス: Link先を確認
Taeyoung Son, Juwon Kang, Namyup Kim, Sunghyun Cho and Suha Kwak(参考訳) 視覚認識の大きな進歩にもかかわらず、一般的なデータセットのクリーンイメージでトレーニングされた認識モデルは、現実世界の歪んだ画像に対して堅牢ではないことが目撃されている。 そこで本研究では,既存の認識モデルの前に装着し,歪んだ入力を増大させ,再学習することなくその性能を向上させる,ユニバーサルで認識に優しい画像強調ネットワーク urie を提案する。 URIEは、画像劣化の様々な要因に対処し、任意の認識モデルに組み込むことを目的としている。 また、出力画像の知覚品質ではなく、後続の認識モデルの堅牢性の向上に最適化されているため、認識に親しみやすい。 実験により,urieは様々な画像歪みを処理でき,入力画像の劣化時に既存のモデルの性能を向上させることができた。

Despite the great advances in visual recognition, it has been witnessed that recognition models trained on clean images of common datasets are not robust against distorted images in the real world. To tackle this issue, we present a Universal and Recognition-friendly Image Enhancement network, dubbed URIE, which is attached in front of existing recognition models and enhances distorted input to improve their performance without retraining them. URIE is universal in that it aims to handle various factors of image degradation and to be incorporated with any arbitrary recognition models. Also, it is recognition-friendly since it is optimized to improve the robustness of following recognition models, instead of perceptual quality of output image. Our experiments demonstrate that URIE can handle various and latent image distortions and improve the performance of existing models for five diverse recognition tasks when input images are degraded.
翻訳日:2022-11-09 14:14:53 公開日:2020-07-24
# 点をつなぐ:コンテキスト不整合を用いた逆摂動の検出

Connecting the Dots: Detecting Adversarial Perturbations Using Context Inconsistency ( http://arxiv.org/abs/2007.09763v2 )

ライセンス: Link先を確認
Shasha Li, Shitong Zhu, Sudipta Paul, Amit Roy-Chowdhury, Chengyu Song, Srikanth Krishnamurthy, Ananthram Swami, Kevin S Chan(参考訳) 近年、マシンビジョンにおけるディープニューラルネットワーク(DNN)を倒す敵の摂動の研究が急増している。 人間はシーン内や他のありそうもない物体とともに現れる物体を認識できるという観察にインスパイアされ、トレーニング中にコンテキスト整合性ルールを学習し、テスト中に同じ物体の違反をチェックするシステムでDNNを強化する。 提案手法では,各オブジェクトクラス毎に自動エンコーダのセットを構築し,追加の対向摂動がコンテキスト整合規則に違反している場合,入力と出力の差分を出力するように適切に訓練する。 PASCAL VOC と MS COCO を用いた実験により,本手法は様々な敵攻撃を効果的に検出し,高いROC-AUC(ほとんどの場合 0.95 以上)を達成することが示された。

There has been a recent surge in research on adversarial perturbations that defeat Deep Neural Networks (DNNs) in machine vision; most of these perturbation-based attacks target object classifiers. Inspired by the observation that humans are able to recognize objects that appear out of place in a scene or along with other unlikely objects, we augment the DNN with a system that learns context consistency rules during training and checks for the violations of the same during testing. Our approach builds a set of auto-encoders, one for each object class, appropriately trained so as to output a discrepancy between the input and output if an added adversarial perturbation violates context consistency rules. Experiments on PASCAL VOC and MS COCO show that our method effectively detects various adversarial attacks and achieves high ROC-AUC (over 0.95 in most cases); this corresponds to over 20% improvement over a state-of-the-art context-agnostic method.
翻訳日:2022-11-08 23:57:05 公開日:2020-07-24
# システム設計におけるNo-Regretアルゴリズムの展開

Exploiting No-Regret Algorithms in System Design ( http://arxiv.org/abs/2007.11172v2 )

ライセンス: Link先を確認
Le Cong Dinh and Nick Bishop and Long Tran-Thanh(参考訳) 本研究では,コラムプレーヤがシステムの設計者でもある2人プレイのゼロサムゲームの設定を繰り返し検討し,ペイオフ行列の設計を完全に制御する。 さらに、row playerはno-regretアルゴリズムを使用して、その戦略をコラムプレイヤーの振る舞いに効率的に適応する方法を学習し、十分な総報酬を得る。 コラムプレイヤーの目標は、システムデザイナーに好まれる混合戦略を選択するために対戦相手を導くことである。 したがって、彼女はこうする必要がある。 i) 行プレーヤの所望の混合戦略を含む独自のミニマックスソリューションを含む適切なペイオフ行列$A$を設計すること。 (ii) プレイの連続中に行プレーヤと戦略的に相互作用し、相手にその望ましい行動に収束させるよう誘導する。 このようなペイオフ行列を設計するために,所望の振る舞いを持つ一意のミニマックス解を確実に持つ新しい解を提案する。 また、一意性が不要な問題の緩和についても検討するが、すべてのminimaxソリューションは行プレーヤに対して同じ混合戦略を持つ。 最後に,システム設計者のための新たなゲームプレイアルゴリズムを提案し, \emph{stable} no-regretアルゴリズムをプレイ可能な行プレーヤをミニマックス解に収束させることを証明した。

We investigate a repeated two-player zero-sum game setting where the column player is also a designer of the system, and has full control on the design of the payoff matrix. In addition, the row player uses a no-regret algorithm to efficiently learn how to adapt their strategy to the column player's behaviour over time in order to achieve good total payoff. The goal of the column player is to guide her opponent to pick a mixed strategy which is favourable for the system designer. Therefore, she needs to: (i) design an appropriate payoff matrix $A$ whose unique minimax solution contains the desired mixed strategy of the row player; and (ii) strategically interact with the row player during a sequence of plays in order to guide her opponent to converge to that desired behaviour. To design such a payoff matrix, we propose a novel solution that provably has a unique minimax solution with the desired behaviour. We also investigate a relaxation of this problem where uniqueness is not required, but all the minimax solutions have the same mixed strategy for the row player. Finally, we propose a new game playing algorithm for the system designer and prove that it can guide the row player, who may play a \emph{stable} no-regret algorithm, to converge to a minimax solution.
翻訳日:2022-11-07 23:15:54 公開日:2020-07-24
# モノクルビデオからの接触と人間のダイナミクス

Contact and Human Dynamics from Monocular Video ( http://arxiv.org/abs/2007.11678v2 )

ライセンス: Link先を確認
Davis Rempe, Leonidas J. Guibas, Aaron Hertzmann, Bryan Russell, Ruben Villegas, Jimei Yang(参考訳) 既存の深層モデルでは、ほぼ正確な映像から2dと3dのキネマティックなポーズを予測するが、足が地面を貫通したり、体が極端な角度に傾いたりといった物理的制約に違反する目に見えるエラーを含む。 本稿では,初期2次元および3次元ポーズ推定を入力とする映像列から3次元人間の動きを推定する物理ベースの手法を提案する。 まず,手書きデータなしでトレーニングした新しい予測ネットワークを用いて接地タイミングを推定する。 物理ベースの軌道最適化は、入力に基づいて物理的に許容できる動きを解く。 このプロセスは、純粋にキネマティックな手法よりもはるかに現実的な動きを生じさせ、キネマティックおよび動的可視性の定量的測定を著しく改善する。 本稿では,複雑な接触パターンを持つダンスやスポーツの動的動きのキャラクターアニメーションとポーズ推定タスクについて紹介する。

Existing deep models predict 2D and 3D kinematic poses from video that are approximately accurate, but contain visible errors that violate physical constraints, such as feet penetrating the ground and bodies leaning at extreme angles. In this paper, we present a physics-based method for inferring 3D human motion from video sequences that takes initial 2D and 3D pose estimates as input. We first estimate ground contact timings with a novel prediction network which is trained without hand-labeled data. A physics-based trajectory optimization then solves for a physically-plausible motion, based on the inputs. We show this process produces motions that are significantly more realistic than those from purely kinematic methods, substantially improving quantitative measures of both kinematic and dynamic plausibility. We demonstrate our method on character animation and pose estimation tasks on dynamic motions of dancing and sports with complex contact patterns.
翻訳日:2022-11-07 23:05:46 公開日:2020-07-24
# weightnet: 重みネットワークの設計空間を再検討する

WeightNet: Revisiting the Design Space of Weight Networks ( http://arxiv.org/abs/2007.11823v2 )

ライセンス: Link先を確認
Ningning Ma, Xiangyu Zhang, Jiawei Huang, Jian Sun(参考訳) 重み付けネットワークのための概念的にシンプルで柔軟で効果的なフレームワークを提案する。 我々のアプローチは、現在の2つの非常に効果的なセネティクスとcondconvを、重み空間上の同じ枠組みに統合するものである。 WeightNetと呼ばれるこの方法は、アテンションアクティベーション層にもう1つのグループ化された完全連結層を追加するだけで2つのメソッドを一般化する。 重みネットは(グループ化された)完全連結層で構成され、畳み込み重みを直接出力する。 WeightNetは、機能空間ではなくカーネル空間で、トレーニングが簡単で、メモリ保存も容易である。 この柔軟性により,ImageNetおよびCOCO検出タスクの既存手法よりも優れた精度FLOPと精度パラメータトレードオフを実現する。 フレキシブルウェイト空間のフレームワークは、パフォーマンスをさらに改善する可能性がある。 コードはhttps://github.com/megvii-model/WeightNetで入手できる。

We present a conceptually simple, flexible and effective framework for weight generating networks. Our approach is general that unifies two current distinct and extremely effective SENet and CondConv into the same framework on weight space. The method, called WeightNet, generalizes the two methods by simply adding one more grouped fully-connected layer to the attention activation layer. We use the WeightNet, composed entirely of (grouped) fully-connected layers, to directly output the convolutional weight. WeightNet is easy and memory-conserving to train, on the kernel space instead of the feature space. Because of the flexibility, our method outperforms existing approaches on both ImageNet and COCO detection tasks, achieving better Accuracy-FLOPs and Accuracy-Parameter trade-offs. The framework on the flexible weight space has the potential to further improve the performance. Code is available at https://github.com/megvii-model/WeightNet.
翻訳日:2022-11-07 12:41:03 公開日:2020-07-24
# 視覚認識のためのファンネルアクティベーション

Funnel Activation for Visual Recognition ( http://arxiv.org/abs/2007.11824v2 )

ライセンス: Link先を確認
Ningning Ma, Xiangyu Zhang, Jian Sun(参考訳) 本稿では,Funnel activation (FRELU) と呼ばれる画像認識タスクに対して,空間条件の無視的オーバーヘッドを加えることで,ReLUとPRELUを2次元アクティベーションに拡張する,概念的にシンプルだが効果的なファンネルアクティベーションを提案する。 ReLU と PReLU の形式はそれぞれ y = max(x, 0) と y = max(x, px) であり、FReLU は y = max(x,T(x)) の形で、T(x) は 2次元空間条件である。 さらに、空間条件はピクセルワイドなモデリング能力を簡単な方法で実現し、通常の畳み込みを伴う複雑な視覚的レイアウトをキャプチャする。 画像ネット,coco検出,セマンティックセグメンテーションタスクの実験を行い,視覚認識タスクにおけるfrelの大幅な改善と堅牢性を示した。 コードはhttps://github.com/megvii-model/funnelactで入手できる。

We present a conceptually simple but effective funnel activation for image recognition tasks, called Funnel activation (FReLU), that extends ReLU and PReLU to a 2D activation by adding a negligible overhead of spatial condition. The forms of ReLU and PReLU are y = max(x, 0) and y = max(x, px), respectively, while FReLU is in the form of y = max(x,T(x)), where T(x) is the 2D spatial condition. Moreover, the spatial condition achieves a pixel-wise modeling capacity in a simple way, capturing complicated visual layouts with regular convolutions. We conduct experiments on ImageNet, COCO detection, and semantic segmentation tasks, showing great improvements and robustness of FReLU in the visual recognition tasks. Code is available at https://github.com/megvii-model/FunnelAct.
翻訳日:2022-11-07 12:40:48 公開日:2020-07-24
# 隠れて見るプライバシー問題

Hide-and-Seek Privacy Challenge ( http://arxiv.org/abs/2007.12087v2 )

ライセンス: Link先を確認
James Jordon, Daniel Jarrett, Jinsung Yoon, Tavian Barnes, Paul Elbers, Patrick Thoral, Ari Ercole, Cheng Zhang, Danielle Belgrave and Mihaela van der Schaar(参考訳) 臨床時系列設定は、データモデリングと共有に固有の課題の組み合わせをもたらす。 臨床時系列の次元が高いため、データの有効性を維持しながらプライバシーを維持するための適切な非識別は、共通の非識別技術を用いて達成することは困難である。 この問題に対する革新的なアプローチは、合成データ生成である。 技術的な観点からは、時系列データの優れた生成モデルは、時間間の高次元変数間の元の関係を新しいシーケンスが尊重するという意味で、時間的ダイナミクスを保存すべきである。 プライバシの観点からは、脆弱性をメンバーシップ推論攻撃に限定することで、患者の再識別を防止する必要がある。 NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両問題を同時に解決する新しい2トラックの競争だ。 私たちの頭から頭へのフォーマットでは、合成データ生成トラック(すなわち「ハイドラー」)と患者再識別トラック(すなわち「シーカー」)の参加者は、新たな高品質集中治療時系列データセットであるアムステルダムumcdbデータセットによって、直接対決されます。 最終的には,(1)忠実性と予測性の観点から臨床的に有意な,(2)患者の再同定という具体的な概念によって,会員プライバシーリスクを最小化することが可能な,高密度かつ高次元の時間データストリーム生成手法の進歩を目指す。

The clinical time-series setting poses a unique combination of challenges to data modeling and sharing. Due to the high dimensionality of clinical time series, adequate de-identification to preserve privacy while retaining data utility is difficult to achieve using common de-identification techniques. An innovative approach to this problem is synthetic data generation. From a technical perspective, a good generative model for time-series data should preserve temporal dynamics, in the sense that new sequences respect the original relationships between high-dimensional variables across time. From the privacy perspective, the model should prevent patient re-identification by limiting vulnerability to membership inference attacks. The NeurIPS 2020 Hide-and-Seek Privacy Challenge is a novel two-tracked competition to simultaneously accelerate progress in tackling both problems. In our head-to-head format, participants in the synthetic data generation track (i.e. "hiders") and the patient re-identification track (i.e. "seekers") are directly pitted against each other by way of a new, high-quality intensive care time-series dataset: the AmsterdamUMCdb dataset. Ultimately, we seek to advance generative techniques for dense and high-dimensional temporal data streams that are (1) clinically meaningful in terms of fidelity and predictivity, as well as (2) capable of minimizing membership privacy risks in terms of the concrete notion of patient re-identification.
翻訳日:2022-11-07 12:11:31 公開日:2020-07-24
# 単一画像カメラキャリブレーションのためのニューラル幾何学的パーサ

Neural Geometric Parser for Single Image Camera Calibration ( http://arxiv.org/abs/2007.11855v2 )

ライセンス: Link先を確認
Jinwoo Lee and Minhyuk Sung and Hyunjoon Lee and Junho Kim(参考訳) 本研究では,人工シーンの単一カメラキャリブレーションを学習するニューラルジオメトリ解析器を提案する。 ニューラルネットワークから得られる意味的手がかりのみに依存する従来のニューラルネットワークアプローチとは異なり、我々のアプローチは意味的手がかりと幾何学的手がかりの両方を考慮し、精度が大幅に向上する。 提案するフレームワークは2つのネットワークで構成されている。 画像の線分を幾何学的手がかりとして、第1のネットワークは、ゼニスの消失点を推定し、カメラ回転と焦点長からなる複数の候補を生成する。 第2のネットワークは、与えられた画像と幾何学的手がかりに基づいて各候補を評価し、その評価に人工シーンの事前知識を用いる。 画像の水平線と焦点距離からなるデータセットの監督により、我々のネットワークは、同じカメラパラメータを推定するように訓練することができる。 マンハッタンの世界の仮定に基づいて、カメラの回転と焦点距離を弱教師付きで推定することができる。 実験の結果, 室内および屋外の単一画像に対して, 既存の最先端カメラキャリブレーション技術よりも, 神経アプローチの性能が有意に高いことがわかった。

We propose a neural geometric parser learning single image camera calibration for man-made scenes. Unlike previous neural approaches that rely only on semantic cues obtained from neural networks, our approach considers both semantic and geometric cues, resulting in significant accuracy improvement. The proposed framework consists of two networks. Using line segments of an image as geometric cues, the first network estimates the zenith vanishing point and generates several candidates consisting of the camera rotation and focal length. The second network evaluates each candidate based on the given image and the geometric cues, where prior knowledge of man-made scenes is used for the evaluation. With the supervision of datasets consisting of the horizontal line and focal length of the images, our networks can be trained to estimate the same camera parameters. Based on the Manhattan world assumption, we can further estimate the camera rotation and focal length in a weakly supervised manner. The experimental results reveal that the performance of our neural approach is significantly higher than that of existing state-of-the-art camera calibration techniques for single images of indoor and outdoor scenes.
翻訳日:2022-11-07 12:03:48 公開日:2020-07-24
# 分散コンピューティングアプリケーションにおけるデータシナプス管理の不確実性管理のためのインテリジェントスキーム

An Intelligent Scheme for Uncertainty Management of Data Synopses Management in Pervasive Computing Applications ( http://arxiv.org/abs/2007.12648v1 )

ライセンス: Link先を確認
Kostas Kolomvatsos(参考訳) 広範コンピューティングアプリケーションは、エンドユーザーを中心にインテリジェントなコンポーネントを組み込んで活動を促進する。 このようなアプリケーションは、IoT(Internet of Things)とエッジコンピューティング(EC)の巨大なインフラストラクチャ上に提供される。 IoTデバイスは、周辺データをECとクラウドに転送して、さらなる処理を行う。 ECノードは、さまざまな処理アクティビティが行われる分散データセットのホストになる可能性がある。 ECの将来には、IoTデバイスとそれ自身を協調的に操作する多数のノードが関与し、望ましい処理を実現する。 この協力的アプローチを結論付ける上で重要な問題は、ECノードにピアに存在するデータを知らせるようにデータシナプスを交換することである。 このような知識は、処理アクティビティの実行に関連する意思決定に役立ちます。 本稿では,データシナプス交換のための不確実性駆動モデルを提案する。 ECノードは、特に歴史的値に顕著な違いが存在しない場合に、シナプスの交換を遅らせるべきである。 本機構はファジィ論理 (fl) システムを採用し, 前回報告したシナプスと有意な差があるかを判定し, 新たなシンセサイザーの交換を決定する。 本方式では, シナプスの変動が低い場合でも, 多数のメッセージからネットワークを緩和することができる。 モデルを解析的に記述し,大規模な実験を通して評価する。 実験対象は,分散データセットにおける統計的変化を即時把握しながら,不必要なメッセージの除去に基づくアプローチの効率性を検出することである。

Pervasive computing applications deal with the incorporation of intelligent components around end users to facilitate their activities. Such applications can be provided upon the vast infrastructures of Internet of Things (IoT) and Edge Computing (EC). IoT devices collect ambient data transferring them towards the EC and Cloud for further processing. EC nodes could become the hosts of distributed datasets where various processing activities take place. The future of EC involves numerous nodes interacting with the IoT devices and themselves in a cooperative manner to realize the desired processing. A critical issue for concluding this cooperative approach is the exchange of data synopses to have EC nodes informed about the data present in their peers. Such knowledge will be useful for decision making related to the execution of processing activities. In this paper, we propose n uncertainty driven model for the exchange of data synopses. We argue that EC nodes should delay the exchange of synopses especially when no significant differences with historical values are present. Our mechanism adopts a Fuzzy Logic (FL) system to decide when there is a significant difference with the previous reported synopses to decide the exchange of the new one. Our scheme is capable of alleviating the network from numerous messages retrieved even for low fluctuations in synopses. We analytically describe our model and evaluate it through a large set of experiments. Our experimental evaluation targets to detect the efficiency of the approach based on the elimination of unnecessary messages while keeping immediately informed peer nodes for significant statistical changes in the distributed datasets.
翻訳日:2022-11-07 07:21:32 公開日:2020-07-24
# 調査サンプリングにおけるプライバシ損失の制御(作業論文)

Controlling Privacy Loss in Survey Sampling (Working Paper) ( http://arxiv.org/abs/2007.12674v1 )

ライセンス: Link先を確認
Mark Bun and J\"org Drechsler and Marco Gaboardi and Audra McMillan(参考訳) 社会科学と経済学の研究は、しばしば調査で収集されたデータに基づいている。 時間的制約と予算的制約のため、このデータはデータ収集のコストを削減しつつ精度を向上させるように設計された複雑なサンプリングスキームを使用して収集されることが多い。 一般的に信じられている信念は、サンプリングプロセスはデータの対象にさらなるプライバシーを与えるというものである。 この直感は、単純なランダムサンプリングのために差分プライバシー文学において形式化されている: 人口の単純なランダムサブサンプル上で実行される差分プライベートメカニズムは、全人口で実行される場合よりも高いプライバシー保証を提供する。 本研究では,クラスタサンプリングや階層化サンプリングなど,より複雑なサンプリング方式のプライバシに関する調査を開始する。 これらのスキームがプライバシーを増幅するだけでなく、プライバシーが劣化する可能性があることが分かっています。

Social science and economics research is often based on data collected in surveys. Due to time and budgetary constraints, this data is often collected using complex sampling schemes designed to increase accuracy while reducing the costs of data collection. A commonly held belief is that the sampling process affords the data subjects some additional privacy. This intuition has been formalized in the differential privacy literature for simple random sampling: a differentially private mechanism run on a simple random subsample of a population provides higher privacy guarantees than when run on the entire population. In this work we initiate the study of the privacy implications of more complicated sampling schemes including cluster sampling and stratified sampling. We find that not only do these schemes often not amplify privacy, but that they can result in privacy degradation.
翻訳日:2022-11-07 07:21:08 公開日:2020-07-24
# PDEによる2つの履歴依存的専門家からのアドバイスによるバイナリシーケンスの予測

A PDE Approach to the Prediction of a Binary Sequence with Advice from Two History-Dependent Experts ( http://arxiv.org/abs/2007.12732v1 )

ライセンス: Link先を確認
Nadejda Drenska, Robert V. Kohn(参考訳) バイナリシーケンスの予測は、オンライン機械学習の古典的な例である。 私たちはこれを"ストック予測問題"と呼び、各ステップで1ユニットずつ上昇またはダウンする株の価格履歴としてシーケンスを見るのが好きです。 この問題では、投資家は2つ以上の「専門家」の予測にアクセスでき、最も優れた専門家に対する最後の後悔を最小限に抑えようとしている。 確率は役割を果たさず、むしろ市場は敵対的であると仮定される。 我々は、直近の株価変動によって予測が決定される2人の歴史依存の専門家がいる場合を考える。 最適制御, グラフ理論, 偏微分方程式の手法を用いて, 適切な連続限界に着目し, 投資家と敵市場に対する戦略について議論し, 投資家の最終的後悔について, 関連する上下境界を決定する。 d が 4 未満の場合、上と下の境界が合わさり、提案された戦略は漸近的に最適である。 最近の偏微分方程式の予測への応用と比較して、我々の研究には新しい要素がある: 2つの時間スケールがある、なぜなら最近の歴史は各ステップで変化しているが、後悔はよりゆっくりと蓄積されるからである。

The prediction of a binary sequence is a classic example of online machine learning. We like to call it the 'stock prediction problem,' viewing the sequence as the price history of a stock that goes up or down one unit at each time step. In this problem, an investor has access to the predictions of two or more 'experts,' and strives to minimize her final-time regret with respect to the best-performing expert. Probability plays no role; rather, the market is assumed to be adversarial. We consider the case when there are two history-dependent experts, whose predictions are determined by the d most recent stock moves. Focusing on an appropriate continuum limit and using methods from optimal control, graph theory, and partial differential equations, we discuss strategies for the investor and the adversarial market, and we determine associated upper and lower bounds for the investor's final-time regret. When d is less than 4 our upper and lower bounds coalesce, so the proposed strategies are asymptotically optimal. Compared to other recent applications of partial differential equations to prediction, ours has a new element: there are two timescales, since the recent history changes at every step whereas regret accumulates more slowly.
翻訳日:2022-11-07 07:20:55 公開日:2020-07-24
# 臨界インフラにおけるAIによる侵入検知技術の比較検討

A Comparative Study of AI-based Intrusion Detection Techniques in Critical Infrastructures ( http://arxiv.org/abs/2008.00088v1 )

ライセンス: Link先を確認
Safa Otoum and Burak Kantarci and Hussein Mouftah(参考訳) ボランティアコンピューティングでは、インターネットに接続されたデバイス(laptops、pc、スマートデバイスなど)を使用しており、所有者がストレージやコンピューティングパワーリソースとしてボランティアをすることで、多くのアプリケーションでリソース管理に不可欠なメカニズムとなっている。 インターネットにおけるボリュームとさまざまなデータトラフィックの増加は、特に重要なインフラにおけるサイバー物理システムの堅牢性への懸念を招いている。 そのため,センサデータ収集のための効率的な侵入検知システムの実現が重要視されている。 本稿では、重要な応用を追跡する無線接続センサのための人工知能(ai)駆動侵入検知システムの比較研究を行う。 具体的には,収集トラフィックの侵入行動を認識するための機械学習,ディープラーニング,強化学習ソリューションの利用に関する詳細な分析を行う。 提案手法を実攻撃データセットとしてkd'99を用いて評価する。 その結果、Adaptively Supervised and Clustered Hybrid IDS (ASCH-IDS)、Restricted Boltzmann Machine-based Clustered IDS (RBC-IDS)、Q-learning based IDS (QL-IDS)の3つの異なるIDSのパフォーマンス指標が示された。 また,SARSA(State-Action-Reward-State-Action Learning)やTD(Temporal Difference Learning)など,異なる強化学習手法の性能を示す。 シミュレーションの結果,SARSA-IDSとTD-IDSは99.5%で,QL-IDSは100%検出レートで動作していることがわかった。

Volunteer computing uses Internet-connected devices (laptops, PCs, smart devices, etc.), in which their owners volunteer them as storage and computing power resources, has become an essential mechanism for resource management in numerous applications. The growth of the volume and variety of data traffic in the Internet leads to concerns on the robustness of cyberphysical systems especially for critical infrastructures. Therefore, the implementation of an efficient Intrusion Detection System for gathering such sensory data has gained vital importance. In this paper, we present a comparative study of Artificial Intelligence (AI)-driven intrusion detection systems for wirelessly connected sensors that track crucial applications. Specifically, we present an in-depth analysis of the use of machine learning, deep learning and reinforcement learning solutions to recognize intrusive behavior in the collected traffic. We evaluate the proposed mechanisms by using KD'99 as real attack data-set in our simulations. Results present the performance metrics for three different IDSs namely the Adaptively Supervised and Clustered Hybrid IDS (ASCH-IDS), Restricted Boltzmann Machine-based Clustered IDS (RBC-IDS) and Q-learning based IDS (QL-IDS) to detect malicious behaviors. We also present the performance of different reinforcement learning techniques such as State-Action-Reward-State-Action Learning (SARSA) and the Temporal Difference learning (TD). Through simulations, we show that QL-IDS performs with 100% detection rate while SARSA-IDS and TD-IDS perform at the order of 99.5%.
翻訳日:2022-11-07 07:20:34 公開日:2020-07-24
# オンラインヘイトスピーチの検出:弱い監督とネットワーク埋め込みモデルを用いたアプローチ

Detecting Online Hate Speech: Approaches Using Weak Supervision and Network Embedding Models ( http://arxiv.org/abs/2007.12724v1 )

ライセンス: Link先を確認
Michael Ridenhour, Arunkumar Bagavathi, Elaheh Raisi, Siddharth Krishnan(参考訳) ソーシャルメディアのユビキタス性は、個人間のオンラインインタラクションを変革した。 ポジティブな効果はあるものの、かつてないほどソーシャルな要素を他のソーシャルメディア環境(gab.comなど)にまとめることも可能にしている。 このような憎しみのあるスピーチを自動化技術で検出することで、ソーシャルメディアプラットフォームはコンテンツを中和し、ヘイトスピーチの伝播のような悪質な行為を防ぐことができる。 本研究では,弱監督型深層学習モデルを提案する。 (i)憎しみのある利用者を定量的に把握し、 (ii)間接的な憎悪的な会話を明らかにするために,新しい質的分析を行う。 このモデルは、ポストやユーザーレベルではなく、インタラクションレベルにおけるコンテンツをスコアし、憎しみのある会話に頻繁に参加するユーザの特徴づけを可能にする。 19.2mの投稿でモデルを評価し,間接的ヘイトフルなインタラクションを識別する上でのベースラインモデルよりも弱い監督モデルの方が優れていることを示す。 また,gab(quote and reply)における2種類のユーザインタラクションと,エッジウェイトとしての弱い監督モデルによるインタラクションスコアから構築した多層ネットワークを分析し,ヘイトフルユーザを予測する。 本稿では,多層ネットワーク埋め込み手法を用いて予測タスクの特徴を生成し,複数のネットワークからのユーザコンテキストを考慮すれば,gabにおけるヘイトフルユーザの予測精度が向上することを示す。 単一層や均一ネットワーク埋め込みモデルと比較して最大7%の性能向上が得られます。

The ubiquity of social media has transformed online interactions among individuals. Despite positive effects, it has also allowed anti-social elements to unite in alternative social media environments (eg. Gab.com) like never before. Detecting such hateful speech using automated techniques can allow social media platforms to moderate their content and prevent nefarious activities like hate speech propagation. In this work, we propose a weak supervision deep learning model that - (i) quantitatively uncover hateful users and (ii) present a novel qualitative analysis to uncover indirect hateful conversations. This model scores content on the interaction level, rather than the post or user level, and allows for characterization of users who most frequently participate in hateful conversations. We evaluate our model on 19.2M posts and show that our weak supervision model outperforms the baseline models in identifying indirect hateful interactions. We also analyze a multilayer network, constructed from two types of user interactions in Gab(quote and reply) and interaction scores from the weak supervision model as edge weights, to predict hateful users. We utilize the multilayer network embedding methods to generate features for the prediction task and we show that considering user context from multiple networks help achieving better predictions of hateful users in Gab. We receive up to 7% performance gain compared to single layer or homogeneous network embedding models.
翻訳日:2022-11-07 07:17:17 公開日:2020-07-24
# グラフ表現とディープニューラルネットワークを用いた動物診断のためのゲノム配列分類

Genome Sequence Classification for Animal Diagnostics with Graph Representations and Deep Neural Networks ( http://arxiv.org/abs/2007.12791v1 )

ライセンス: Link先を確認
Sai Narayanan, Akhilesh Ramachandran, Sathyanarayanan N. Aakur, Arunkumar Bagavathi(参考訳) ウシ呼吸器疾患複合体 (brdc) は、細菌やウイルスを含む複数の病因を持つ牛の複雑な呼吸器疾患である。 BRDCによる死亡率、死亡率、治療、検疫は、牛産業に重大な損失をもたらすと推定されている。 brdcの早期検出と管理は経済損失の軽減に不可欠である。 現在の動物疾患診断は、細菌培養、血清分析、PCR(PCR)検査などの従来の検査に基づいている。 これらのテストはいくつかの疾患で検証されているが、主な課題は複数の病原体を同時に検出する能力の制限である。 データ分析と機械学習の進歩とメタジェノミーシークエンシング上の応用は、いくつかのアプリケーションでトレンドを定めている。 本稿では,ウシメタゲノーム配列に存在する病原体シグネチャを,k-merに基づくネットワーク埋め込みとディープラーニングに基づく分類タスクを用いて同定する機械学習手法を提案する。 2つの異なるシミュレーションデータセットで実験を行い、ネットワークベースの機械学習アプローチが最大89.7%の精度で病原体シグネチャを検出できることを示した。 難しいドメインでこの重要な問題に対処するように要求すると、データを公開します。

Bovine Respiratory Disease Complex (BRDC) is a complex respiratory disease in cattle with multiple etiologies, including bacterial and viral. It is estimated that mortality, morbidity, therapy, and quarantine resulting from BRDC account for significant losses in the cattle industry. Early detection and management of BRDC are crucial in mitigating economic losses. Current animal disease diagnostics is based on traditional tests such as bacterial culture, serolog, and Polymerase Chain Reaction (PCR) tests. Even though these tests are validated for several diseases, their main challenge is their limited ability to detect the presence of multiple pathogens simultaneously. Advancements of data analytics and machine learning and applications over metagenome sequencing are setting trends on several applications. In this work, we demonstrate a machine learning approach to identify pathogen signatures present in bovine metagenome sequences using k-mer-based network embedding followed by a deep learning-based classification task. With experiments conducted on two different simulated datasets, we show that networks-based machine learning approaches can detect pathogen signature with up to 89.7% accuracy. We will make the data available publicly upon request to tackle this important problem in a difficult domain.
翻訳日:2022-11-07 07:16:41 公開日:2020-07-24
# 最小学習ドメイン逆ニューラルネットワークを用いたウェアラブルセンサデータからの血圧推定のパーソナライズモデルの開発

Developing Personalized Models of Blood Pressure Estimation from Wearable Sensors Data Using Minimally-trained Domain Adversarial Neural Networks ( http://arxiv.org/abs/2007.12802v1 )

ライセンス: Link先を確認
Lida Zhang, Nathan C. Hurley, Bassem Ibrahim, Erica Spatz, Harlan M. Krumholz, Roozbeh Jafari, Bobak J. Mortazavi(参考訳) 血圧モニタリングは高血圧管理と関連する合併症の予測に不可欠な要素である。 血圧は、ある日を通して頻繁に変化するダイナミックなバイタルサインである。 遠隔かつ頻繁な血圧測定(遠心型血圧モニタリングとも呼ばれる)は、従来、インフレータブルカフを用いて個別の間隔で血圧を測定することで達成されてきた。 しかし、血圧を連続的に測定するカフレス血圧モニタリングシステムの開発への関心が高まっている。 そのようなアプローチの1つは、生体インピーダンスセンサーを使用して回帰モデルを構築することである。 このアプローチの現実的な問題は、そのような回帰モデルを確実に訓練するために必要なデータの量は禁じられることである。 本稿では,MTL(Multitask Learning)血圧推定モデルにDANN(Domain-adversarial Training Neural Network)法を適用し,被験者間の知識伝達を可能にする。 提案モデルは,3分間のトレーニングデータを用いた場合の平均根平均2乗誤差(RMSE)が4.80 \pm 0.74$ mmHg,7.34 \pm 1.88$ mmHgが7.34 \pm 1.88$ mmHg,4分間のトレーニングデータを用いた場合それぞれ4.64 \pm 0.60$ mmHg,7.10 \pm 1.79$が4.48 \pm 0.57$ mmHg,6.79 \pm 1.70$である。 DANNは、直接トレーニングと、訓練済みモデルのトレーニングの両方と比較して、最小限のデータによるトレーニングを改善し、RMSEを0.19$から0.26$ mmHg(ディアストリック)に、最高のベースラインモデルと比較して0.46$から0.67$ mmHg(シストリック)に減らした。 4分間のトレーニングデータが、この患者のコホート内でiso標準を超えるためのフレームワークの最低限の要件であることを観察しました。

Blood pressure monitoring is an essential component of hypertension management and in the prediction of associated comorbidities. Blood pressure is a dynamic vital sign with frequent changes throughout a given day. Capturing blood pressure remotely and frequently (also known as ambulatory blood pressure monitoring) has traditionally been achieved by measuring blood pressure at discrete intervals using an inflatable cuff. However, there is growing interest in developing a cuffless ambulatory blood pressure monitoring system to measure blood pressure continuously. One such approach is by utilizing bioimpedance sensors to build regression models. A practical problem with this approach is that the amount of data required to confidently train such a regression model can be prohibitive. In this paper, we propose the application of the domain-adversarial training neural network (DANN) method on our multitask learning (MTL) blood pressure estimation model, allowing for knowledge transfer between subjects. Our proposed model obtains average root mean square error (RMSE) of $4.80 \pm 0.74$ mmHg for diastolic blood pressure and $7.34 \pm 1.88$ mmHg for systolic blood pressure when using three minutes of training data, $4.64 \pm 0.60$ mmHg and $7.10 \pm 1.79$ respectively when using four minutes of training data, and $4.48 \pm 0.57$ mmHg and $6.79 \pm 1.70$ respectively when using five minutes of training data. DANN improves training with minimal data in comparison to both directly training and to training with a pretrained model from another subject, decreasing RMSE by $0.19$ to $0.26$ mmHg (diastolic) and by $0.46$ to $0.67$ mmHg (systolic) in comparison to the best baseline models. We observe that four minutes of training data is the minimum requirement for our framework to exceed ISO standards within this cohort of patients.
翻訳日:2022-11-07 07:16:22 公開日:2020-07-24
# 回転フーリエ変換の間の点積の短い文字

A short letter on the dot product between rotated Fourier transforms ( http://arxiv.org/abs/2007.13462v1 )

ライセンス: Link先を確認
Aaron R. Voelker(参考訳) 空間意味ポインタ(SSP)は、認知モデリングやディープラーニングへの多くの応用を含む、連続空間の表現と変換のための強力なツールとして最近登場した。 sspsの基本は、n$-次元空間における異なる点を表すベクトル間の「類似性」の概念であり、典型的には、フーリエ領域で回転単位長複素係数を持つベクトルのドット積またはコサイン類似性である。 類似性測度は以前、ユークリッド距離のガウス函数であると推測されていた。 この予想とは対照的に、空間変位と類似性に関する単純な三角式を導出し、フーリエ係数が一様である場合、予想される類似性は正規化されたシンク関数の積である: $\prod_{k=1}^{n} \operatorname{sinc} \left(a_k \right)$, ここで $\mathbf{a} \in \mathbb{R}^n$ は2つの n-次元点の間の空間変位である。 これにより空間とSSPの類似性との間の直接的なリンクが確立され、空間構造を操作するニューラルネットワークを設計するための有用な数学的枠組みが確立される。

Spatial Semantic Pointers (SSPs) have recently emerged as a powerful tool for representing and transforming continuous space, with numerous applications to cognitive modelling and deep learning. Fundamental to SSPs is the notion of "similarity" between vectors representing different points in $n$-dimensional space -- typically the dot product or cosine similarity between vectors with rotated unit-length complex coefficients in the Fourier domain. The similarity measure has previously been conjectured to be a Gaussian function of Euclidean distance. Contrary to this conjecture, we derive a simple trigonometric formula relating spatial displacement to similarity, and prove that, in the case where the Fourier coefficients are uniform i.i.d., the expected similarity is a product of normalized sinc functions: $\prod_{k=1}^{n} \operatorname{sinc} \left( a_k \right)$, where $\mathbf{a} \in \mathbb{R}^n$ is the spatial displacement between the two $n$-dimensional points. This establishes a direct link between space and the similarity of SSPs, which in turn helps bolster a useful mathematical framework for architecting neural networks that manipulate spatial structures.
翻訳日:2022-11-07 07:15:44 公開日:2020-07-24
# エンド・オブ・ライフ・ツールの資産活用に向けて--加工産業におけるディープラーニングに基づく価値共同創造

Towards Leveraging End-of-Life Tools as an Asset: Value Co-Creation based on Deep Learning in the Machining Industry ( http://arxiv.org/abs/2008.01053v1 )

ライセンス: Link先を確認
Jannis Walk, Niklas K\"uhl and Jonathan Sch\"afer(参考訳) 持続可能性(Sustainability)は、製品管理における重要な概念である。 エンド・オブ・ライフの製品は、リサイクル可能な資産としての価値に加えて、生産者や消費者に付加価値をもたらすことを提案します。 これは加工産業において特に当てはまり、将来的には工具製造者と工具利用者(顧客)のコクリエーションを促進するための切削工具の自動的特徴を説明する。 そこで本研究では,身に着ける道具の自動分類を行うための,ディープラーニングを用いたコンピュータビジョンシステムを提案する。 0.878と0.644のマシューズ相関係数は、VGG-16ネットワークとグラディエントブースティングに基づくシステムの実現可能性を確認する。 これらの最初の結果に基づいて、セマンティックセグメンテーションによるより包括的なツールのキャラクタリゼーションの必要性に対処し、異なるユーザグループによる認識されたビジネスへの影響とユーザビリティを評価する。

Sustainability is the key concept in the management of products that reached their end-of-life. We propose that end-of-life products have -- besides their value as recyclable assets -- additional value for producer and consumer. We argue this is especially true for the machining industry, where we illustrate an automatic characterization of worn cutting tools to foster value co-creation between tool manufacturer and tool user (customer) in the future. In the work at hand, we present a deep-learning-based computer vision system for the automatic classification of worn tools regarding flank wear and chipping. The resulting Matthews Correlation Coefficient of 0.878 and 0.644 confirms the feasibility of our system based on the VGG-16 network and Gradient Boosting. Based on these first results we derive a research agenda which addresses the need for a more holistic tool characterization by semantic segmentation and assesses the perceived business impact and usability by different user groups.
翻訳日:2022-11-07 07:15:07 公開日:2020-07-24
# 伝達強化学習による実走行条件の適応的エネルギー管理

Adaptive Energy Management for Real Driving Conditions via Transfer Reinforcement Learning ( http://arxiv.org/abs/2007.12560v1 )

ライセンス: Link先を確認
Teng Liu, Wenhao Tan, Xiaolin Tang, Jiaxin Chen, Dongpu Cao(参考訳) 本稿では,並列トポロジを持つハイブリッド電気自動車 (hev) のためのトランスファー強化学習(rl)に基づく適応エネルギー管理手法を提案する。 このアプローチは2レベルです。 アップレベルは drive cycle transformation (dct) を通じて rl フレームワークの q-値テーブルを変換する方法を特徴付ける。 特に、電力要求の遷移確率行列(TPM)を異なるサイクルで計算し、誘導行列ノルム(IMN)を臨界基準として、変換の違いを特定し、制御戦略の変更を決定する。 低レベルは、モデルフリー強化学習(RL)アルゴリズムを用いて、変換されたQ値テーブルとTPMで対応する制御戦略を設定する方法を決定する。 数値実験により、移動性能はIMN値で調整でき、移動RL制御器はより高い燃費を得られることが示された。 提案手法は計算速度と制御性能の両面で従来のRL手法より優れていることを示す。

This article proposes a transfer reinforcement learning (RL) based adaptive energy managing approach for a hybrid electric vehicle (HEV) with parallel topology. This approach is bi-level. The up-level characterizes how to transform the Q-value tables in the RL framework via driving cycle transformation (DCT). Especially, transition probability matrices (TPMs) of power request are computed for different cycles, and induced matrix norm (IMN) is employed as a critical criterion to identify the transformation differences and to determine the alteration of the control strategy. The lower-level determines how to set the corresponding control strategies with the transformed Q-value tables and TPMs by using model-free reinforcement learning (RL) algorithm. Numerical tests illustrate that the transferred performance can be tuned by IMN value and the transfer RL controller could receive a higher fuel economy. The comparison demonstrates that the proposed strategy exceeds the conventional RL approach in both calculation speed and control performance.
翻訳日:2022-11-07 07:14:26 公開日:2020-07-24
# ドライ音声信号と音響システムの結合推定による残響推定

Dereverberation using joint estimation of dry speech signal and acoustic system ( http://arxiv.org/abs/2007.12581v1 )

ライセンス: Link先を確認
Sanna Wager, Keunwoo Choi, Simon Durand(参考訳) 音声のデバーベレーションの目的は、信号から時間不変インパルス応答フィルタの品質劣化効果を取り除くことである。 本報告では, ドライ音声信号と室内インパルス応答の同時推定を含む, 発声除去へのアプローチについて述べる。 各タスクに個別に適用されるディープラーニングモデルと,これらを共有パラメータとの共同モデルで組み合わせる方法について検討する。

The purpose of speech dereverberation is to remove quality-degrading effects of a time-invariant impulse response filter from the signal. In this report, we describe an approach to speech dereverberation that involves joint estimation of the dry speech signal and of the room impulse response. We explore deep learning models that apply to each task separately, and how these can be combined in a joint model with shared parameters.
翻訳日:2022-11-07 07:14:09 公開日:2020-07-24
# 潜在意味表現の学習によるパーソナライズされた視覚芸術推薦

Personalised Visual Art Recommendation by Learning Latent Semantic Representations ( http://arxiv.org/abs/2008.02687v1 )

ライセンス: Link先を確認
Bereket Abera Yilma, Najib Aghenda, Marcelo Romero, Yannick Naudet and Herve Panetto(参考訳) Recommenderシステムでは、データセットに埋め込まれた説明的要因を絡み合わせる、隠蔽する能力を持つため、データ表現技術が大きな役割を果たす。 したがって、それらはレコメンデーションの品質に影響を与える。 特に、視覚芸術(va)では、絵画の中に具現化された概念の複雑さを推奨しており、機械によって意味を捉える作業はさほど簡単ではない。 VAレコメンデーションでは、著名な作品が手作業によるメタデータを使ってレコメンデーションを推進している。 この領域における最近の研究は、Deep Neural Networks (DNN) を用いて抽出された視覚的特徴を活用することを目的としている。 しかし、そのようなデータ表現アプローチはリソース要求であり、直接解釈を持たないため、ユーザの受け入れを妨げる。 これらの制約に対処するために,絵画の潜在意味表現を学習した上で,視覚芸術のパーソナライズドレコメンデーションのためのアプローチを導入する。 具体的には,絵画のテキスト記述に基づく潜在ディリクレ配置(LDA)モデルを訓練した。 我々のLDAモデルは、説明可能なレコメンデーションを提供しながら、絵画間の不可避な意味関係を明らかにすることに成功した。 実験により,本手法は,事前学習したディープニューラルネットワークを用いて抽出した視覚的特徴を活用できる傾向を示した。

In Recommender systems, data representation techniques play a great role as they have the power to entangle, hide and reveal explanatory factors embedded within datasets. Hence, they influence the quality of recommendations. Specifically, in Visual Art (VA) recommendations the complexity of the concepts embodied within paintings, makes the task of capturing semantics by machines far from trivial. In VA recommendation, prominent works commonly use manually curated metadata to drive recommendations. Recent works in this domain aim at leveraging visual features extracted using Deep Neural Networks (DNN). However, such data representation approaches are resource demanding and do not have a direct interpretation, hindering user acceptance. To address these limitations, we introduce an approach for Personalised Recommendation of Visual arts based on learning latent semantic representation of paintings. Specifically, we trained a Latent Dirichlet Allocation (LDA) model on textual descriptions of paintings. Our LDA model manages to successfully uncover non-obvious semantic relationships between paintings whilst being able to offer explainable recommendations. Experimental evaluations demonstrate that our method tends to perform better than exploiting visual features extracted using pre-trained Deep Neural Networks.
翻訳日:2022-11-07 07:08:03 公開日:2020-07-24
# GeoGebraにおける幾何学的定理の自動発見に向けて

Towards Automated Discovery of Geometrical Theorems in GeoGebra ( http://arxiv.org/abs/2007.12447v1 )

ライセンス: Link先を確認
Zolt\'an Kov\'acs and Jonathan H. Yu(参考訳) 本稿では,新しい実験用ジオジェブラコマンドおよびツールディスカバリのプロトタイプについて述べる。 このツールは基本平面幾何学における自動発見の基本的な実装である。 本論文は, 実装の数学的背景と, 幾何学的図形の興味深い性質を記憶する際の組合せ的爆発を避ける方法に焦点を当てる。

We describe a prototype of a new experimental GeoGebra command and tool Discover that analyzes geometric figures for salient patterns, properties, and theorems. This tool is a basic implementation of automated discovery in elementary planar geometry. The paper focuses on the mathematical background of the implementation, as well as methods to avoid combinatorial explosion when storing the interesting properties of a geometric figure.
翻訳日:2022-11-07 07:07:42 公開日:2020-07-24
# 消費者保護のためのメモリネットワーク:不公平が露呈

Memory networks for consumer protection:unfairness exposed ( http://arxiv.org/abs/2008.07346v1 )

ライセンス: Link先を確認
Federico Ruggeri, Francesca Lagioia, Marco Lippi, Paolo Torroni(参考訳) 近年の研究では、法律文書の自動解析をサポートすることによって、データ駆動型AIメソッドが消費者保護を活用する方法が実証されている。 しかし、データ駆動アプローチの欠点は説明しにくい。 この領域において、分類結果の有用な説明は、法的根拠に頼れば得られると仮定する。 そこで我々は、文脈知識のモデリングにおいて有理性が特別な役割を果たすメモリ拡張ニューラルネットワークの構成について考察する。 その結果,分類精度の向上に合理性が寄与するだけでなく,不透明な分類結果の有意義で自然言語的説明も可能となった。

Recent work has demonstrated how data-driven AI methods can leverage consumer protection by supporting the automated analysis of legal documents. However, a shortcoming of data-driven approaches is poor explainability. We posit that in this domain useful explanations of classifier outcomes can be provided by resorting to legal rationales. We thus consider several configurations of memory-augmented neural networks where rationales are given a special role in the modeling of context knowledge. Our results show that rationales not only contribute to improve the classification accuracy, but are also able to offer meaningful, natural language explanations of otherwise opaque classifier outcomes.
翻訳日:2022-11-07 07:07:35 公開日:2020-07-24
# 複数話者条件ミクチャーアプローチによる共音声ジェスチャーアニメーションのスタイル転送

Style Transfer for Co-Speech Gesture Animation: A Multi-Speaker Conditional-Mixture Approach ( http://arxiv.org/abs/2007.12553v1 )

ライセンス: Link先を確認
Chaitanya Ahuja, Dong Won Lee, Yukiko I. Nakano, Louis-Philippe Morency(参考訳) ロボットやバーチャルアシスタントに自然にジェスチャーを教えるには? もっと進んで、特定の話者に従うようにジェスチャースタイルを適用できますか? 人間のコミュニケーション中に対応する音声と自然に同期するジェスチャは、協調ジェスチャ(co-speech gestures)と呼ばれる。 ジェスチャースタイル転送と呼ばれる重要な課題は、ターゲット話者「B」のジェスチャースタイルにおいて、発話エージェント「A」に対してこれらのジェスチャーを生成するモデルを学習することである。 第二のゴールは、複数の話者に対して、各話者に固有のことを覚えながら、同時に、複数の話者のための音声ジェスチャーを生成することである。 私たちはこの挑戦スタイルを保存と呼ぶ。 本稿では,複数の話者に対して1つのモデルを訓練し,各話者のジェスチャーに固有のスタイルの埋め込みをエンドツーエンドに学習するMix-StAGEというモデルを提案する。 Mix-StAGEの新たな特徴は、各話者のユニークなジェスチャースタイルを条件付けることができる生成モデルの混合を学ぶことである。 Mix-StAGEはスタイルとジェスチャーの内容が混在しているため、単にスタイル埋め込みを切り替えることで、同じ入力音声のジェスチャースタイルを変更することができる。 Mix-StAGEはまた、複数の話者から同時に学習する際のスタイル保存を可能にする。 また、ジェスチャー生成とスタイル転送を研究するために、新しいデータセットPose-Audio-Transcript-Style (PATS)を導入する。 提案したMix-StAGEモデルは,従来のジェスチャー生成手法よりも優れ,複数の話者間でジェスチャースタイルの転送を行うための経路を提供する。 コード、データ、ビデオへのリンク: http://chahuja.com/mix-stage

How can we teach robots or virtual assistants to gesture naturally? Can we go further and adapt the gesturing style to follow a specific speaker? Gestures that are naturally timed with corresponding speech during human communication are called co-speech gestures. A key challenge, called gesture style transfer, is to learn a model that generates these gestures for a speaking agent 'A' in the gesturing style of a target speaker 'B'. A secondary goal is to simultaneously learn to generate co-speech gestures for multiple speakers while remembering what is unique about each speaker. We call this challenge style preservation. In this paper, we propose a new model, named Mix-StAGE, which trains a single model for multiple speakers while learning unique style embeddings for each speaker's gestures in an end-to-end manner. A novelty of Mix-StAGE is to learn a mixture of generative models which allows for conditioning on the unique gesture style of each speaker. As Mix-StAGE disentangles style and content of gestures, gesturing styles for the same input speech can be altered by simply switching the style embeddings. Mix-StAGE also allows for style preservation when learning simultaneously from multiple speakers. We also introduce a new dataset, Pose-Audio-Transcript-Style (PATS), designed to study gesture generation and style transfer. Our proposed Mix-StAGE model significantly outperforms the previous state-of-the-art approach for gesture generation and provides a path towards performing gesture style transfer across multiple speakers. Link to code, data, and videos: http://chahuja.com/mix-stage
翻訳日:2022-11-07 07:07:20 公開日:2020-07-24
# 複雑なロボット協調作業における説明生成のための統合マインドモデリング

Joint Mind Modeling for Explanation Generation in Complex Human-Robot Collaborative Tasks ( http://arxiv.org/abs/2007.12803v1 )

ライセンス: Link先を確認
Xiaofeng Gao, Ran Gong, Yizhou Zhao, Shu Wang, Tianmin Shu, Song-Chun Zhu(参考訳) 人間の協力者は、お互いの精神状態(例えば、目標、信念、欲求)を推測することで、パートナーと効果的にコミュニケーションして共通のタスクを完了させることができる。 このようなマインドアウェアコミュニケーションは、協力者の精神状態の相違を最小限に抑え、人間のアドホックチームの成功に不可欠である。 我々は,人間と協調するロボットは,同様の教育行動を示すべきだと考えている。 そこで本研究では,ロボットが人間の階層的マインドモデルを構築し,ユーザの精神状態のオンラインベイズ的推論に基づくコミュニケーションの形式として,自身の心の説明を生成する,人間-ロボットコラボレーションにおける人間的なコミュニケーションを実現するための,説明可能なAI(XAI)フレームワークを提案する。 本フレームワークを評価するために,リアルタイムのロボット調理タスクについてユーザスタディを行う。 実験結果から,提案手法はロボットの協調性能とユーザ認識を著しく向上させることがわかった。 コードとビデオのデモはプロジェクトのWebサイトで公開されている。

Human collaborators can effectively communicate with their partners to finish a common task by inferring each other's mental states (e.g., goals, beliefs, and desires). Such mind-aware communication minimizes the discrepancy among collaborators' mental states, and is crucial to the success in human ad-hoc teaming. We believe that robots collaborating with human users should demonstrate similar pedagogic behavior. Thus, in this paper, we propose a novel explainable AI (XAI) framework for achieving human-like communication in human-robot collaborations, where the robot builds a hierarchical mind model of the human user and generates explanations of its own mind as a form of communications based on its online Bayesian inference of the user's mental state. To evaluate our framework, we conduct a user study on a real-time human-robot cooking task. Experimental results show that the generated explanations of our approach significantly improves the collaboration performance and user perception of the robot. Code and video demos are available on our project website: https://xfgao.github.io/xCookingWeb/.
翻訳日:2022-11-07 07:06:19 公開日:2020-07-24
# グラフによる深部強化学習による不確実性下の自律探査

Autonomous Exploration Under Uncertainty via Deep Reinforcement Learning on Graphs ( http://arxiv.org/abs/2007.12640v1 )

ライセンス: Link先を確認
Fanfei Chen, John D. Martin, Yewei Huang, Jinkun Wang, Brendan Englot(参考訳) 本研究では,地域化の不確実性を抑え,情報獲得を両立させる検知行動を選択することを目的として,事前に未知の環境におけるランドマークの正確なマッピングをリアルタイムに行う自律的な探索問題を考える。 この問題に対して、ロボットセンシングと推定を前方にシミュレーションする信念空間計画法は、しばしばリアルタイムな実装では失敗し、状態、信念、行動空間の増大とともにスケールが低下する。 本稿では,グラフニューラルネットワーク(GNN)と深部強化学習(DRL)を併用した新しい手法を提案する。 このポリシーは、人間の介入なしに異なるランダム環境で訓練され、リアルタイムでスケーラブルな意思決定プロセスを提供し、高性能な探索的センシングアクションは正確な地図と高い情報利得をもたらす。

We consider an autonomous exploration problem in which a range-sensing mobile robot is tasked with accurately mapping the landmarks in an a priori unknown environment efficiently in real-time; it must choose sensing actions that both curb localization uncertainty and achieve information gain. For this problem, belief space planning methods that forward-simulate robot sensing and estimation may often fail in real-time implementation, scaling poorly with increasing size of the state, belief and action spaces. We propose a novel approach that uses graph neural networks (GNNs) in conjunction with deep reinforcement learning (DRL), enabling decision-making over graphs containing exploration information to predict a robot's optimal sensing action in belief space. The policy, which is trained in different random environments without human intervention, offers a real-time, scalable decision-making process whose high-performance exploratory sensing actions yield accurate maps and high rates of information gain.
翻訳日:2022-11-07 07:05:38 公開日:2020-07-24
# 地図修復:衛星画像における深部キャダストアマップのアライメントと時間的不整合

Map-Repair: Deep Cadastre Maps Alignment and Temporal Inconsistencies Fix in Satellite Images ( http://arxiv.org/abs/2007.12470v1 )

ライセンス: Link先を確認
Stefano Zorzi, Ksenia Bittner, Friedrich Fraundorfer(参考訳) 急速な発展途上国では、新しい建物や古い構造物の破壊を辿ることは困難であり、その結果、最新のカダストレ地図を維持することは困難である。 また, 都市域の複雑化やカダストアマップ抽出に使用されるデータの整合性のため, 誤認識の形の誤りが一般的な問題である。 本研究では,ラベルノイズを補正することで入力強度画像と利用可能な建物の足跡の不一致を解消し,必要に応じて誤用を解消する,エンドツーエンドのディープラーニング手法を提案する。 得られた結果から,openstreetmap 補正のような実アプリケーションに適応できるような,過度に不整合な例まで,提案手法の頑健性が示される。

In the fast developing countries it is hard to trace new buildings construction or old structures destruction and, as a result, to keep the up-to-date cadastre maps. Moreover, due to the complexity of urban regions or inconsistency of data used for cadastre maps extraction, the errors in form of misalignment is a common problem. In this work, we propose an end-to-end deep learning approach which is able to solve inconsistencies between the input intensity image and the available building footprints by correcting label noises and, at the same time, misalignments if needed. The obtained results demonstrate the robustness of the proposed method to even severely misaligned examples that makes it potentially suitable for real applications, like OpenStreetMap correction.
翻訳日:2022-11-07 06:59:40 公開日:2020-07-24
# 閉塞型多視点幾何整合による単眼3次元顔再構成

Self-Supervised Monocular 3D Face Reconstruction by Occlusion-Aware Multi-view Geometry Consistency ( http://arxiv.org/abs/2007.12494v1 )

ライセンス: Link先を確認
Jiaxiang Shang, Tianwei Shen, Shiwei Li, Lei Zhou, Mingmin Zhen, Tian Fang, Long Quan(参考訳) 近年の学習ベースアプローチでは, 単眼の3次元顔の再構成に有望な結果が得られたが, 顔のポーズや奥行きのあいまいさの問題に悩まされている。 従来の2次元特徴制約のみを強制する作業とは対照的に,顔のポーズや深度推定に信頼性のある制約を与える多視点幾何整合性を利用して,自己指導型トレーニングアーキテクチャを提案する。 まず,自己教師型学習に多視点幾何整合性を適用したオクルージョン・アウェア・ビュー合成法を提案する。 次に,画素の整合性損失,奥行きの整合性損失,顔のランドマークに基づくエピポーラロスの3つの新たな損失関数を設計する。 提案手法は精度が高く,特に多彩な表現,ポーズ,照明条件下では堅牢である。 顔アライメントと3次元顔再構成ベンチマークに関する包括的実験は最先端手法よりも優れていることが示されている。 私たちのコードとモデルはhttps://github.com/jiaxiangshang/mgcnetでリリースされています。

Recent learning-based approaches, in which models are trained by single-view images have shown promising results for monocular 3D face reconstruction, but they suffer from the ill-posed face pose and depth ambiguity issue. In contrast to previous works that only enforce 2D feature constraints, we propose a self-supervised training architecture by leveraging the multi-view geometry consistency, which provides reliable constraints on face pose and depth estimation. We first propose an occlusion-aware view synthesis method to apply multi-view geometry consistency to self-supervised learning. Then we design three novel loss functions for multi-view consistency, including the pixel consistency loss, the depth consistency loss, and the facial landmark-based epipolar loss. Our method is accurate and robust, especially under large variations of expressions, poses, and illumination conditions. Comprehensive experiments on the face alignment and 3D face reconstruction benchmarks have demonstrated superiority over state-of-the-art methods. Our code and model are released in https://github.com/jiaxiangshang/MGCNet.
翻訳日:2022-11-07 06:59:24 公開日:2020-07-24
# 線形教師なし画像-画像間翻訳のサプライズ効果

The Surprising Effectiveness of Linear Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2007.12568v1 )

ライセンス: Link先を確認
Eitan Richardson and Yair Weiss(参考訳) 教師なし画像間翻訳は本質的に不適切な問題である。 ディープエンコーダ-デコーダアーキテクチャに基づく最近の手法は印象的な結果を示しているが、強い局所バイアスのためだけに成功し、非常に単純な非局所変換(例えば、逆さまの顔から直立顔へのマッピング)を学ばないことが示されている。 局所バイアスが取り除かれた場合、メソッドは強力であり、単純な局所変換を学習できない可能性がある。 本稿では,教師なし画像変換のための線形エンコーダデコーダアーキテクチャを提案する。 これらのアーキテクチャでは、学習はずっと簡単で速くなりますが、その結果は驚くほど効果的です。 特に,リニアメソッドの結果が最先端アーキテクチャに匹敵するが,トレーニング時間のごく一部であるような局所的な問題や,リニアメソッドが成功している間に最先端が失敗するような非局所的な問題をいくつか提示する。

Unsupervised image-to-image translation is an inherently ill-posed problem. Recent methods based on deep encoder-decoder architectures have shown impressive results, but we show that they only succeed due to a strong locality bias, and they fail to learn very simple nonlocal transformations (e.g. mapping upside down faces to upright faces). When the locality bias is removed, the methods are too powerful and may fail to learn simple local transformations. In this paper we introduce linear encoder-decoder architectures for unsupervised image to image translation. We show that learning is much easier and faster with these architectures and yet the results are surprisingly effective. In particular, we show a number of local problems for which the results of the linear methods are comparable to those of state-of-the-art architectures but with a fraction of the training time, and a number of nonlocal problems for which the state-of-the-art fails while linear methods succeed.
翻訳日:2022-11-07 06:58:54 公開日:2020-07-24
# 閉塞ハンドリングによる単眼ビュー生成のための軽量ニューラルネットワーク

A Lightweight Neural Network for Monocular View Generation with Occlusion Handling ( http://arxiv.org/abs/2007.12577v1 )

ライセンス: Link先を確認
Simon Evain and Christine Guillemot(参考訳) 本稿では、1つの画像からビュー合成を行うステレオデータペアに基づいて訓練された、非常に軽量なニューラルネットワークアーキテクチャを提案する。 マルチビューフォーマットの成功に伴い、この問題はますます重要になっている。 ネットワークは、オクルージョンハンドリング技術を用いて誤った予測領域を満たす不一致推定から構築された予測を返す。 トレーニング中、ネットワークはステレオ入力画像のペアに対する左右の一貫性構造制約を推定し、1つの画像からテスト時にそれを再現できるようにする。 本手法は,差分推定に基づく予測と,隠蔽領域における直接最小化に基づく予測という,2つの予測をブレンドするアイデアに基づいて構築される。 ネットワークはまた、生成した不一致マップのピクセル毎の左-右一貫性をチェックすることで、トレーニングやテスト時にこれらのオクルードされた領域を識別することができる。 テスト時に、1つの入力画像から左サイドと右サイドのビューを生成することができ、予測における深度マップと画素単位の信頼度を測定することができる。 この研究は、要求されるパラメータ数(6.5M)の非常に大きな桁(5倍から10倍)を減らしながら、挑戦的なKITTIデータセットに対して視覚的および計量的に最先端のアプローチより優れている。

In this article, we present a very lightweight neural network architecture, trained on stereo data pairs, which performs view synthesis from one single image. With the growing success of multi-view formats, this problem is indeed increasingly relevant. The network returns a prediction built from disparity estimation, which fills in wrongly predicted regions using a occlusion handling technique. To do so, during training, the network learns to estimate the left-right consistency structural constraint on the pair of stereo input images, to be able to replicate it at test time from one single image. The method is built upon the idea of blending two predictions: a prediction based on disparity estimation, and a prediction based on direct minimization in occluded regions. The network is also able to identify these occluded areas at training and at test time by checking the pixelwise left-right consistency of the produced disparity maps. At test time, the approach can thus generate a left-side and a right-side view from one input image, as well as a depth map and a pixelwise confidence measure in the prediction. The work outperforms visually and metric-wise state-of-the-art approaches on the challenging KITTI dataset, all while reducing by a very significant order of magnitude (5 or 10 times) the required number of parameters (6.5 M).
翻訳日:2022-11-07 06:58:37 公開日:2020-07-24
# 臨床現場への一般化のための実世界マルチドメインデータ応用

Real-World Multi-Domain Data Applications for Generalizations to Clinical Settings ( http://arxiv.org/abs/2007.12672v1 )

ライセンス: Link先を確認
Nooshin Mojab, Vahid Noroozi, Darvin Yi, Manoj Prabhakar Nallabothula, Abdullah Aleem, Phillip S. Yu, Joelle A. Hallak(参考訳) コンピュータビジョンにおける機械学習に基づくモデルの有望な成果により、医療画像データへの応用は指数関数的に増加している。 しかし、複雑な実世界臨床データへの一般化は永続的な問題である。 ディープラーニングモデルは、臨床試験のような人工的な設定から標準化されたデータセットでトレーニングされた場合、うまく機能する。 しかし、実際のデータは異なり、翻訳の結果は様々である。 医療における現実世界のアプリケーションの複雑さは、さまざまな画像解像度、ヒューマンエラー、手動の階調の欠如から生じる避けられないノイズとともに、複数のデバイスドメインにまたがるさまざまなデータ分散から生じる可能性がある。 さらに、医療アプリケーションはラベル付きデータの不足に苦しむだけでなく、HIPAA規制、患者のプライバシー、データの所有権の曖昧さ、異なるソースからデータを集める際の課題など、ラベル付きデータへのアクセスが制限されている。 これらの制限は、医療や臨床翻訳にディープラーニングアルゴリズムを適用する上で、さらなる課題をもたらす。 本稿では,転送学習環境において効果的に定式化された自己教師あり表現学習手法を用いて,限られたデータ可用性に対処した。 本実験は, 臨床現場への一般化に向け, 実世界の多様なデータの重要性を検証する。 本研究では,マルチドメイン実世界データセット上で転送学習を伴う自己教師ありアプローチを用いることで,教師付きベースライン上での標準データセットの相対的改善を16%達成できることを示す。

With promising results of machine learning based models in computer vision, applications on medical imaging data have been increasing exponentially. However, generalizations to complex real-world clinical data is a persistent problem. Deep learning models perform well when trained on standardized datasets from artificial settings, such as clinical trials. However, real-world data is different and translations are yielding varying results. The complexity of real-world applications in healthcare could emanate from a mixture of different data distributions across multiple device domains alongside the inevitable noise sourced from varying image resolutions, human errors, and the lack of manual gradings. In addition, healthcare applications not only suffer from the scarcity of labeled data, but also face limited access to unlabeled data due to HIPAA regulations, patient privacy, ambiguity in data ownership, and challenges in collecting data from different sources. These limitations pose additional challenges to applying deep learning algorithms in healthcare and clinical translations. In this paper, we utilize self-supervised representation learning methods, formulated effectively in transfer learning settings, to address limited data availability. Our experiments verify the importance of diverse real-world data for generalization to clinical settings. We show that by employing a self-supervised approach with transfer learning on a multi-domain real-world dataset, we can achieve 16% relative improvement on a standardized dataset over supervised baselines.
翻訳日:2022-11-07 06:57:56 公開日:2020-07-24
# 野生における動的3次元ヒト再建のための時空間束調整

Spatiotemporal Bundle Adjustment for Dynamic 3D Human Reconstruction in the Wild ( http://arxiv.org/abs/2007.12806v1 )

ライセンス: Link先を確認
Minh Vo, Yaser Sheikh, and Srinivasa G. Narasimhan(参考訳) バンドル調整は、カメラの内在と外在と3Dポイント三角測量を共同で最適化し、静的なシーンを再構築する。 しかし、三角測量の制約は複数の非同期ビデオでキャプチャされた移動ポイントでは無効であり、カメラ間の時間的アライメントを推定するためにバンドル調整は設計されていない。 本稿では,カメラ内在性および外在性の推定,静的3dポイントの三角測量,カメラ間のサブフレームの時間的アライメント,ダイナミックポイントの3次元トラジェクタの計算という,4つの結合サブプロブレムを共同で最適化する時空間バンドル調整フレームワークを提案する。 我々の共同最適化の鍵は、人間の大きなモーションキャプチャーのコーパスで検証された、リコンストラクションパイプライン内の物理ベースの動き優先事項を慎重に統合することである。 我々は,時空間バンドル調整時の動作を厳密に強制するために,漸進的再構成とアライメントアルゴリズムを考案する。 このアルゴリズムは、高い精度を維持しつつ分割と征服のスキームによってさらに効率的になる。 このアルゴリズムを用いて,野生の複数の非共振・非同期ビデオカメラで捉えた動的事象における人体の3次元運動軌跡を再構成する。 視覚的に理解しやすくするために,統計的な3次元人体モデルと非同期映像ストリームを対応付け,ベースラインと比較した。 ビデオはサブフレーム精度に一致しているため、入力ビデオよりも時間分解能の高い3Dモーションを再構成する。

Bundle adjustment jointly optimizes camera intrinsics and extrinsics and 3D point triangulation to reconstruct a static scene. The triangulation constraint, however, is invalid for moving points captured in multiple unsynchronized videos and bundle adjustment is not designed to estimate the temporal alignment between cameras. We present a spatiotemporal bundle adjustment framework that jointly optimizes four coupled sub-problems: estimating camera intrinsics and extrinsics, triangulating static 3D points, as well as sub-frame temporal alignment between cameras and computing 3D trajectories of dynamic points. Key to our joint optimization is the careful integration of physics-based motion priors within the reconstruction pipeline, validated on a large motion capture corpus of human subjects. We devise an incremental reconstruction and alignment algorithm to strictly enforce the motion prior during the spatiotemporal bundle adjustment. This algorithm is further made more efficient by a divide and conquer scheme while still maintaining high accuracy. We apply this algorithm to reconstruct 3D motion trajectories of human bodies in dynamic events captured by multiple uncalibrated and unsynchronized video cameras in the wild. To make the reconstruction visually more interpretable, we fit a statistical 3D human body model to the asynchronous video streams.Compared to the baseline, the fitting significantly benefits from the proposed spatiotemporal bundle adjustment procedure. Because the videos are aligned with sub-frame precision, we reconstruct 3D motion at much higher temporal resolution than the input videos.
翻訳日:2022-11-07 06:57:32 公開日:2020-07-24
# 深層学習を用いたソナー画像における魚とイルカの数え方

Counting Fish and Dolphins in Sonar Images Using Deep Learning ( http://arxiv.org/abs/2007.12808v1 )

ライセンス: Link先を確認
Stefan Schneider and Alex Zhuang(参考訳) 深層学習は、森林伐採の結果、アマゾン川の魚とイルカの生息量との関係を考慮し、矛盾する報告を改善する機会を提供する。 魚とイルカの量推定の現在の方法は、視覚的および捕獲・放出戦略を用いた現場サンプリングによって行われる。 本研究では,漁船の背部から採取したソナー画像から,魚とイルカの深層学習を用いた魚量推定手法を提案する。 本研究は,Amazonia Fundの調査グループが提供する0-34魚と0-3イルカの143枚の画像のデータセットについて考察する。 データ制限を克服するため、従来の15/85トレーニング/テストスプリットでデータ拡張機能をテストする。 20の訓練画像を用いて,訓練セットから採取した無作為な漁獲魚とイルカを用いて,最大25,000枚の画像の勾配をシミュレートした。 次に、DenseNet201、InceptionNetV2、Xception、MobileNetV2の4つのマルチタスクネットワークアーキテクチャをトレーニングし、魚とイルカの数を回帰と分類という2つの関数近似手法を用いて予測する。 回帰では、Densenet201は魚に、Xceptionはイルカに、平均二乗誤差は2.11と0.133である。 InceptionResNetV2は魚に、MobileNetV2はイルカに、平均誤差は2.07と0.245である。 123枚の実験画像から, 限られたソナーデータセットに対するデータシミュレーションが成功したことを示す。 densenet201は、約5000の訓練画像の後にイルカを識別できるのに対し、魚は全25,000人が必要でした。 本手法は, 魚やイルカの量のデータ分析を, 世界中のアマゾン川・河川システム上でリアルタイムに行うことを目的として, コスト削減に有効である。

Deep learning provides the opportunity to improve upon conflicting reports considering the relationship between the Amazon river's fish and dolphin abundance and reduced canopy cover as a result of deforestation. Current methods of fish and dolphin abundance estimates are performed by on-site sampling using visual and capture/release strategies. We propose a novel approach to calculating fish abundance using deep learning for fish and dolphin estimates from sonar images taken from the back of a trolling boat. We consider a data set of 143 images ranging from 0-34 fish, and 0-3 dolphins provided by the Fund Amazonia research group. To overcome the data limitation, we test the capabilities of data augmentation on an unconventional 15/85 training/testing split. Using 20 training images, we simulate a gradient of data up to 25,000 images using augmented backgrounds and randomly placed/rotation cropped fish and dolphin taken from the training set. We then train four multitask network architectures: DenseNet201, InceptionNetV2, Xception, and MobileNetV2 to predict fish and dolphin numbers using two function approximation methods: regression and classification. For regression, Densenet201 performed best for fish and Xception best for dolphin with mean squared errors of 2.11 and 0.133 respectively. For classification, InceptionResNetV2 performed best for fish and MobileNetV2 best for dolphins with a mean error of 2.07 and 0.245 respectively. Considering the 123 testing images, our results show the success of data simulation for limited sonar data sets. We find DenseNet201 is able to identify dolphins after approximately 5000 training images, while fish required the full 25,000. Our method can be used to lower costs and expedite the data analysis of fish and dolphin abundance to real-time along the Amazon river and river systems worldwide.
翻訳日:2022-11-07 06:57:05 公開日:2020-07-24
# IR-BERT:ニュース記事の背景リンクにおけるセマンティック検索のためのBERTの利用

IR-BERT: Leveraging BERT for Semantic Search in Background Linking for News Articles ( http://arxiv.org/abs/2007.12603v1 )

ライセンス: Link先を確認
Anup Anand Deshmukh and Udhav Sethi(参考訳) 本稿では,TREC 2020 News Trackの背景リンクタスクに対する2つのアプローチについて述べる。 本課題の主な目的は,クエリ項目のコンテキストを理解し,背景情報を取得するために,読者が参照すべき関連記事のリストを推薦することである。 最初のアプローチは、クエリ文書から抽出した重み付きキーワードを組み合わせ、BM25を検索に利用する、効果的な検索クエリの構築に焦点を当てる。 2つ目のアプローチは、SBERT(Nils Reimers et al.)の機能を利用して、クエリのコンテキスト表現を学習し、コーパス上でセマンティック検索を実行する。 経験的に、言語モデルを採用することは、クエリ記事の背景だけでなく、コンテキストを理解するための我々のアプローチに有益であることを示します。 提案手法は、TREC 2018 Washington Postデータセットで評価され、私たちの最良のモデルは、nDCG@5メートル法で2018年の最高スコアモデルとTRECの中央値よりも優れています。 さらに,多様な文書を検索する際の様々な手法の有効性を評価するための多様性尺度を提案する。 これは、研究者が推奨リストに多様性を導入する動機になる可能性がある。 私たちはgithubで実装をオープンソース化し、trec 2020でバックグラウンドリンクタスクの実行を提出する予定です。

This work describes our two approaches for the background linking task of TREC 2020 News Track. The main objective of this task is to recommend a list of relevant articles that the reader should refer to in order to understand the context and gain background information of the query article. Our first approach focuses on building an effective search query by combining weighted keywords extracted from the query document and uses BM25 for retrieval. The second approach leverages the capability of SBERT (Nils Reimers et al.) to learn contextual representations of the query in order to perform semantic search over the corpus. We empirically show that employing a language model benefits our approach in understanding the context as well as the background of the query article. The proposed approaches are evaluated on the TREC 2018 Washington Post dataset and our best model outperforms the TREC median as well as the highest scoring model of 2018 in terms of the nDCG@5 metric. We further propose a diversity measure to evaluate the effectiveness of the various approaches in retrieving a diverse set of documents. This would potentially motivate researchers to work on introducing diversity in their recommended list. We have open sourced our implementation on Github and plan to submit our runs for the background linking task in TREC 2020.
翻訳日:2022-11-07 06:56:35 公開日:2020-07-24
# マルチスケール畳み込みネットワークを用いた高解像度リモートセンシング画像における局所性を考慮した船舶回転検出

Locality-Aware Rotated Ship Detection in High-Resolution Remote Sensing Imagery Based on Multi-Scale Convolutional Network ( http://arxiv.org/abs/2007.12326v1 )

ライセンス: Link先を確認
Lingyi Liu, Yunpeng Bai, and Ying Li(参考訳) 船舶検出は10年間,リモートセンシング分野において活発かつ重要な課題であったが,大規模な変動,高アスペクト比,集中配置,背景乱れなど,依然として困難な課題である。 本稿では,これらの問題に対処するために,マルチスケール畳み込みニューラルネットワーク(CNN)に基づく局所性認識型回転船検出(LARSD)フレームワークを提案する。 提案フレームワークはUNetのようなマルチスケールCNNを用いて高解像度のセマンティック情報を持つマルチスケール特徴マップを生成する。 次に、回転アンカーに基づく回帰を行い、船舶の確率、エッジ距離、角度を直接予測する。 最後に,各サブネットの独立性に起因する分類結果と位置結果のミスマッチを解消するために,局所性認識スコアアライメントを提案する。 さらに、船舶検出のデータセットを拡大するために、新しい高解像度船舶検出(HRSD)データセットを構築し、2499の画像と9269のインスタンスを異なる解像度でGoogle Earthから収集した。 公開データセットHRSC2016とHRSDデータセットに基づく実験により,我々の検出手法が最先端の性能を達成することを示す。

Ship detection has been an active and vital topic in the field of remote sensing for a decade, but it is still a challenging problem due to the large scale variations, the high aspect ratios, the intensive arrangement, and the background clutter disturbance. In this letter, we propose a locality-aware rotated ship detection (LARSD) framework based on a multi-scale convolutional neural network (CNN) to tackle these issues. The proposed framework applies a UNet-like multi-scale CNN to generate multi-scale feature maps with high-level semantic information in high resolution. Then, a rotated anchor-based regression is applied for directly predicting the probability, the edge distances, and the angle of ships. Finally, a locality-aware score alignment is proposed to fix the mismatch between classification results and location results caused by the independence of each subnet. Furthermore, to enlarge the datasets of ship detection, we build a new high-resolution ship detection (HRSD) dataset, where 2499 images and 9269 instances were collected from Google Earth with different resolutions. Experiments based on public dataset HRSC2016 and our HRSD dataset demonstrate that our detection method achieves state-of-the-art performance.
翻訳日:2022-11-07 06:50:48 公開日:2020-07-24
# 開集合領域適応における画像回転の有効性について

On the Effectiveness of Image Rotation for Open Set Domain Adaptation ( http://arxiv.org/abs/2007.12360v1 )

ライセンス: Link先を確認
Silvia Bucci, Mohammad Reza Loghmani, Tatiana Tommasi(参考訳) Open Set Domain Adaptation (OSDA)は、ラベル付きソースドメインとラベルなしターゲットドメインの間のドメインギャップを埋めると同時に、ソースに存在しないターゲットクラスも拒否する。 負の転送を避けるために、osdaはまず既知の/未知のターゲットサンプルを分離し、次に既知のターゲットサンプルをソースデータにアライメントすることで対処できる。 回転認識の自己教師型タスクを用いて,これらの問題に対処する新しい手法を提案する。 さらに、既知のクラスを認識し、未知のサンプルを拒否する貢献を適切にバランスさせる新しいオープンセットメトリックを用いてパフォーマンスを評価する。 Office-31とOffice-Homeベンチマークの既存のOSDAメソッドとの比較実験は、次のように示している。 (i)我々の手法は競合他社よりも優れています。 (ii)この分野の再現性は、取り組む上で重要な問題である。 (iii)我々の計量は、公正な開集合評価を可能にする信頼できるツールを提供する。

Open Set Domain Adaptation (OSDA) bridges the domain gap between a labeled source domain and an unlabeled target domain, while also rejecting target classes that are not present in the source. To avoid negative transfer, OSDA can be tackled by first separating the known/unknown target samples and then aligning known target samples with the source data. We propose a novel method to addresses both these problems using the self-supervised task of rotation recognition. Moreover, we assess the performance with a new open set metric that properly balances the contribution of recognizing the known classes and rejecting the unknown samples. Comparative experiments with existing OSDA methods on the standard Office-31 and Office-Home benchmarks show that: (i) our method outperforms its competitors, (ii) reproducibility for this field is a crucial issue to tackle, (iii) our metric provides a reliable tool to allow fair open set evaluation.
翻訳日:2022-11-07 06:50:02 公開日:2020-07-24
# 低レベル照明下での顔認識のためのスパース画像ヒストグラムを用いた重み付き低位モデルの性能解析

Performance analysis of weighted low rank model with sparse image histograms for face recognition under lowlevel illumination and occlusion ( http://arxiv.org/abs/2007.12362v1 )

ライセンス: Link先を確認
K.V. Sridhar and Raghu vamshi Hemadri(参考訳) 幅広いコンピュータビジョン応用において、低ランク行列近似(LRMA)モデルの目的は、その劣化した観測から下位の低ランク行列を復元することである。 最新のLRMA法 - ロバスト主成分分析(RPCA)は、非凸ランク最小化の凸緩和として核ノルム最小化(NNM)を用いる。 しかし、NNMはランクコンポーネントをオーバーシンクし、異なるランクコンポーネントを等しく扱い、実用アプリケーションにおける柔軟性を制限する傾向にある。 より柔軟なモデル、すなわち重み付きシャッテン p-ノルム最小化(wsnm)を用いて、nnmを異なる特異値に割り当てられた重み付きシャッテン p-ノルム最小化に一般化する。 提案されたwsnmは、元の低ランク仮定よりもよい近似を与えるだけでなく、異なるランク成分の重要性も考慮している。 本稿では,2つのLRMAアルゴリズム(RPCAとWSNM)の低ランク回復性能の比較を行った。 この分析は、イェールデータベースと自身のデータベースの顔画像上で行われ、顔の表情、眼鏡、様々な照明が顔の閉塞の原因となる。 また,これらのアルゴリズムの適用による実験結果から得られた顕著な傾向についても論じる。 低位画像では顔の細部を適切に把握できない場合があるため、任意の画像内の人物を識別するために得られたスパース画像の画像ヒストグラムを用いる新しい方法を提案する。 広汎な実験結果から,WSNMは顔面閉塞を除去することにより, RPCAよりも効率良く, 高いPSNRとSSIMの低ランク画像が得られることがわかった。

In a broad range of computer vision applications, the purpose of Low-rank matrix approximation (LRMA) models is to recover the underlying low-rank matrix from its degraded observation. The latest LRMA methods - Robust Principal Component Analysis (RPCA) resort to using the nuclear norm minimization (NNM) as a convex relaxation of the non-convex rank minimization. However, NNM tends to over-shrink the rank components and treats the different rank components equally, limiting its flexibility in practical applications. We use a more flexible model, namely the Weighted Schatten p-Norm Minimization (WSNM), to generalize the NNM to the Schatten p-norm minimization with weights assigned to different singular values. The proposed WSNM not only gives a better approximation to the original low-rank assumption but also considers the importance of different rank components. In this paper, a comparison of the low-rank recovery performance of two LRMA algorithms- RPCA and WSNM is brought out on occluded human facial images. The analysis is performed on facial images from the Yale database and over own database , where different facial expressions, spectacles, varying illumination account for the facial occlusions. The paper also discusses the prominent trends observed from the experimental results performed through the application of these algorithms. As low-rank images sometimes might fail to capture the details of a face adequately, we further propose a novel method to use the image-histogram of the sparse images thus obtained to identify the individual in any given image. Extensive experimental results show, both qualitatively and quantitatively, that WSNM surpasses RPCA in its performance more effectively by removing facial occlusions, thus giving recovered low-rank images of higher PSNR and SSIM.
翻訳日:2022-11-07 06:49:48 公開日:2020-07-24
# 部分教師付きインスタンスセグメンテーションの形状と外観にまたがる共通性分離ネットワーク

Commonality-Parsing Network across Shape and Appearance for Partially Supervised Instance Segmentation ( http://arxiv.org/abs/2007.12387v1 )

ライセンス: Link先を確認
Qi Fan, Lei Ke, Wenjie Pei, Chi-Keung Tang, Yu-Wing Tai(参考訳) 部分的に教師付きインスタンスセグメンテーションは、限定されたマスクアノテートされたデータのカテゴリで学習することを目的としている。 学習されたモデルは、新しいカテゴリに一般化することが期待される。 既存の手法では、検出からセグメンテーションへの伝達関数を学習するか、新しいカテゴリをセグメンテーションするためのクラスタ形状事前を学習する。 マスク注釈付きカテゴリから新しいカテゴリに一般化できるクラス非依存な共通性を学ぶことを提案する。 具体的には2種類の共通点を解析します 1)インスタンス境界予測において教師付き学習を行うことで学習される形状共通性 2) 特徴マップの画素間のペアワイズ親和性をモデル化し、インスタンスと背景の分離性を最適化した外観共通性。 形状と外観の共通性が組み合わさったモデルでは,COCOデータセット上の部分教師付き設定と少数ショット設定の両方において,最先端の手法よりも優れていた。

Partially supervised instance segmentation aims to perform learning on limited mask-annotated categories of data thus eliminating expensive and exhaustive mask annotation. The learned models are expected to be generalizable to novel categories. Existing methods either learn a transfer function from detection to segmentation, or cluster shape priors for segmenting novel categories. We propose to learn the underlying class-agnostic commonalities that can be generalized from mask-annotated categories to novel categories. Specifically, we parse two types of commonalities: 1) shape commonalities which are learned by performing supervised learning on instance boundary prediction; and 2) appearance commonalities which are captured by modeling pairwise affinities among pixels of feature maps to optimize the separability between instance and the background. Incorporating both the shape and appearance commonalities, our model significantly outperforms the state-of-the-art methods on both partially supervised setting and few-shot setting for instance segmentation on COCO dataset.
翻訳日:2022-11-07 06:49:01 公開日:2020-07-24
# 連続手話認識のための完全畳み込みネットワーク

Fully Convolutional Networks for Continuous Sign Language Recognition ( http://arxiv.org/abs/2007.12402v1 )

ライセンス: Link先を確認
Ka Leong Cheng, Zhaoyang Yang, Qifeng Chen, Yu-Wing Tai(参考訳) 連続手話認識(SLR)は、署名フレームシーケンスの空間次元と時間次元の両方の学習を必要とする課題である。 最近の研究は、CNNとRNNのハイブリッドネットワークを使ってこれを達成している。 しかし、これらのネットワークのトレーニングは概して簡単ではなく、ほとんどは目に見えないシーケンスパターンの学習に失敗し、オンライン認識に不満足なパフォーマンスをもたらす。 本稿では,オンラインSLRのための完全畳み込みネットワーク(FCN)を提案する。 より優れたシーケンスアライメント学習を実現するため,GFE(Gloss Feature enhancement)モジュールが提案されている。 提案するネットワークは、事前トレーニングなしでエンドツーエンドでトレーニングできる。 2つの大規模SLRデータセットで実験を行う。 実験の結果, 連続SLR法はオンライン認識において有効であり, 有効であることがわかった。

Continuous sign language recognition (SLR) is a challenging task that requires learning on both spatial and temporal dimensions of signing frame sequences. Most recent work accomplishes this by using CNN and RNN hybrid networks. However, training these networks is generally non-trivial, and most of them fail in learning unseen sequence patterns, causing an unsatisfactory performance for online recognition. In this paper, we propose a fully convolutional network (FCN) for online SLR to concurrently learn spatial and temporal features from weakly annotated video sequences with only sentence-level annotations given. A gloss feature enhancement (GFE) module is introduced in the proposed network to enforce better sequence alignment learning. The proposed network is end-to-end trainable without any pre-training. We conduct experiments on two large scale SLR datasets. Experiments show that our method for continuous SLR is effective and performs well in online recognition.
翻訳日:2022-11-07 06:48:43 公開日:2020-07-24
# 論理リファインメントネットワークを用いたCrspエッジ検出器の学習

Learning Crisp Edge Detector Using Logical Refinement Network ( http://arxiv.org/abs/2007.12449v1 )

ライセンス: Link先を確認
Luyan Liu, Kai Ma, Yefeng Zheng(参考訳) エッジ検出は、異なるコンピュータビジョンタスクにおける根本的な問題である。 近年,エッジ検出アルゴリズムは深層学習に基づく改善を実現している。 たいていの評価スコアは良好だが、エッジを正確にローカライズできず、太くぼやけた境界を与えることが多い。 さらに、そのほとんどは2D画像に焦点を当てており、挑戦的な3Dエッジ検出はまだ未調査である。 本研究では,分割とエッジマップの論理関係を動機とし,2次元画像と3次元画像の両方に適用可能な,クリスプエッジ検出のための新しい論理改良ネットワークを提案する。 このネットワークは、結合オブジェクトとエッジ検出ネットワークと、より正確で、よりクリアで、より薄い高品質のバイナリエッジマップを後処理なしで予測するクリップエッジリファインメントネットワークで構成されている。 Kaggle 2018 Data Science Bowlの2D核画像とサルの脳のプライベート3D顕微鏡画像は、最先端の手法と比較して優れた性能を示している。

Edge detection is a fundamental problem in different computer vision tasks. Recently, edge detection algorithms achieve satisfying improvement built upon deep learning. Although most of them report favorable evaluation scores, they often fail to accurately localize edges and give thick and blurry boundaries. In addition, most of them focus on 2D images and the challenging 3D edge detection is still under-explored. In this work, we propose a novel logical refinement network for crisp edge detection, which is motivated by the logical relationship between segmentation and edge maps and can be applied to both 2D and 3D images. The network consists of a joint object and edge detection network and a crisp edge refinement network, which predicts more accurate, clearer and thinner high quality binary edge maps without any post-processing. Extensive experiments are conducted on the 2D nuclei images from Kaggle 2018 Data Science Bowl and a private 3D microscopy images of a monkey brain, which show outstanding performance compared with state-of-the-art methods.
翻訳日:2022-11-07 06:47:42 公開日:2020-07-24
# IDS at SemEval-2020 Task 10: 事前訓練された言語モデルは何を強調すべきかを知っているか?

IDS at SemEval-2020 Task 10: Does Pre-trained Language Model Know What to Emphasize? ( http://arxiv.org/abs/2007.12390v1 )

ライセンス: Link先を確認
Jaeyoul Shin, Taeuk Kim and Sang-goo Lee(参考訳) 本稿では,事前学習された言語モデル(PLM)の自己注意分布からのみの情報に頼って,視覚メディアのテキストから強調すべき単語を判定する手法を提案する。 広範な実験と分析によって 1)ゼロショットアプローチはTF-IDFとそれを用いた合理的ベースラインよりも優れている。 2) 強調選択に特化したPLMにはいくつかの注意点があり, PLMは文中の重要な単語を認識できることを確認した。

We propose a novel method that enables us to determine words that deserve to be emphasized from written text in visual media, relying only on the information from the self-attention distributions of pre-trained language models (PLMs). With extensive experiments and analyses, we show that 1) our zero-shot approach is superior to a reasonable baseline that adopts TF-IDF and that 2) there exist several attention heads in PLMs specialized for emphasis selection, confirming that PLMs are capable of recognizing important words in sentences.
翻訳日:2022-11-07 06:41:10 公開日:2020-07-24
# SemEval-2020 Task 3: Fine-tuning BERT for Lexical Meaning

MULTISEM at SemEval-2020 Task 3: Fine-tuning BERT for Lexical Meaning ( http://arxiv.org/abs/2007.12432v1 )

ライセンス: Link先を確認
Aina Gar\'i Soler, Marianna Apidianaki(参考訳) 本稿では,SemEval 2020 Task 3: Graded Word similarity in Context (GWSC) に提出された MultiSEM システムについて述べる。 我々は,GWSCに関連する語彙意味タスクの微調整により,事前学習したBERTモデルに意味知識を注入する実験を行った。 既存の意味的注釈付きデータセットを用いて,文脈における語彙代用を自動生成することで,類似性を近似することを提案する。 我々はGWSCサブタスクの両方に参加し、英語とフィンランド語という2つの言語に対処する。 私たちの最高の英語モデルは2つのサブタスクのランキングで3位と4位を占めています。 各サブタスクで中間ランクのフィンランドモデルのパフォーマンスは低く、微調整におけるデータ可用性の重要な役割を強調している。

We present the MULTISEM systems submitted to SemEval 2020 Task 3: Graded Word Similarity in Context (GWSC). We experiment with injecting semantic knowledge into pre-trained BERT models through fine-tuning on lexical semantic tasks related to GWSC. We use existing semantically annotated datasets and propose to approximate similarity through automatically generated lexical substitutes in context. We participate in both GWSC subtasks and address two languages, English and Finnish. Our best English models occupy the third and fourth positions in the ranking for the two subtasks. Performance is lower for the Finnish models which are mid-ranked in the respective subtasks, highlighting the important role of data availability for fine-tuning.
翻訳日:2022-11-07 06:41:00 公開日:2020-07-24
# IUST at SemEval-2020 Task 9: Sentiment Analysis for Code-Mixed Social Media Text using Deep Neural Networks and Linear Baselines (特集:情報ネットワーク)

IUST at SemEval-2020 Task 9: Sentiment Analysis for Code-Mixed Social Media Text using Deep Neural Networks and Linear Baselines ( http://arxiv.org/abs/2007.12733v1 )

ライセンス: Link先を確認
Soroush Javdan, Taha Shangipour ataei and Behrouz Minaei-Bidgoli(参考訳) 感情分析は自然言語処理のよく研究された分野である。 しかし、ソーシャルメディアの急速な成長とノイズの多いコンテンツは、この問題を確立された方法やツールで解決する上で大きな課題となっている。 これらの課題のひとつは、さまざまな言語を使ってソーシャルメディアのテキストに思考を伝える、code-mixingだ。 iust (username: taha) という名称のグループは、コード混合ソーシャルメディアテキストの感情分析に関する semeval-2020 shared task 9 に参加し、特定のコード混合ツイートの感情を予測するシステムの開発を試みた。 我々は,様々な前処理手法を用い,nbsvmからより複雑な深層ニューラルネットワークモデルへ異なる手法を適用することを提案した。 提案手法では,スペイン英語サブタスクでは0.751点,ヒンズー英語サブタスクでは0.706点を得る。

Sentiment Analysis is a well-studied field of Natural Language Processing. However, the rapid growth of social media and noisy content within them poses significant challenges in addressing this problem with well-established methods and tools. One of these challenges is code-mixing, which means using different languages to convey thoughts in social media texts. Our group, with the name of IUST(username: TAHA), participated at the SemEval-2020 shared task 9 on Sentiment Analysis for Code-Mixed Social Media Text, and we have attempted to develop a system to predict the sentiment of a given code-mixed tweet. We used different preprocessing techniques and proposed to use different methods that vary from NBSVM to more complicated deep neural network models. Our best performing method obtains an F1 score of 0.751 for the Spanish-English sub-task and 0.706 over the Hindi-English sub-task.
翻訳日:2022-11-07 06:39:38 公開日:2020-07-24
# 大規模グローバル最適化のための画像ベースベンチマークと可視化

Image-Based Benchmarking and Visualization for Large-Scale Global Optimization ( http://arxiv.org/abs/2007.12332v1 )

ライセンス: Link先を確認
Kyle Robert Harrison, Azam Asilian Bidgoli, Shahryar Rahnamayan, Kalyanmoy Deb(参考訳) 最適化の文脈では、可視化技術は最適化アルゴリズムの振る舞いを理解するのに役立ち、オプティマイザとのヒューマンインタラクションを容易にする手段を提供することもできる。 この目標を達成するために、次元を縮小しない画像ベース可視化フレームワークが提案され、大規模なグローバル最適化問題の解決策を可視化する。 提案フレームワークでは,画像全体が全体の解の質を表す一方で,画素が決定変数を視覚化する。 このフレームワークは、拡張スケーラビリティ(決定変数の数の観点から)、標準画像処理技術のファシリテート、ほぼ無限のベンチマークケースの提供、人間の知覚との明確な整合性など、既存の視覚化技術よりも多くの利点がある。 さらに、画像に基づく可視化を用いて、最適化プロセスをリアルタイムで視覚化することで、ユーザが進行中の検索プロセスの特徴を確認できる。 著者たちの知る限りでは、これは、意思決定空間と目的空間の間に固有の関係を埋め込んだ、次元保存でスケーラブルな可視化フレームワークの最初の実現である。 提案手法は,連続的,離散的,バイナリ的,組合せ的,制約付き,動的,多目的最適化を包含する画像再構成問題に対して,10種類の異なるマッピングスキームを用いる。 提案したフレームワークは、既知のオプティマによる任意のベンチマーク問題で実証される。 実験結果から,提案する可視化フレームワークを用いて,検索プロセスに関する情報がどの程度収集できるかを明らかにすることができた。

In the context of optimization, visualization techniques can be useful for understanding the behaviour of optimization algorithms and can even provide a means to facilitate human interaction with an optimizer. Towards this goal, an image-based visualization framework, without dimension reduction, that visualizes the solutions to large-scale global optimization problems as images is proposed. In the proposed framework, the pixels visualize decision variables while the entire image represents the overall solution quality. This framework affords a number of benefits over existing visualization techniques including enhanced scalability (in terms of the number of decision variables), facilitation of standard image processing techniques, providing nearly infinite benchmark cases, and explicit alignment with human perception. Furthermore, image-based visualization can be used to visualize the optimization process in real-time, thereby allowing the user to ascertain characteristics of the search process as it is progressing. To the best of the authors' knowledge, this is the first realization of a dimension-preserving, scalable visualization framework that embeds the inherent relationship between decision space and objective space. The proposed framework is utilized with 10 different mapping schemes on an image-reconstruction problem that encompass continuous, discrete, binary, combinatorial, constrained, dynamic, and multi-objective optimization. The proposed framework is then demonstrated on arbitrary benchmark problems with known optima. Experimental results elucidate the flexibility and demonstrate how valuable information about the search process can be gathered via the proposed visualization framework.
翻訳日:2022-11-07 06:39:01 公開日:2020-07-24
# na\"ive regressionは、複数の原因の共起を調整するための因子モデルよりも弱い仮定を必要とする

Na\"ive regression requires weaker assumptions than factor models to adjust for multiple cause confounding ( http://arxiv.org/abs/2007.12702v1 )

ライセンス: Link先を確認
Justin Grimmer, Dean Knox and Brandon M. Stewart(参考訳) 因子モデルを用いて共有され観測されていない共同設立者($\mathbf{Z}$)を複数の治療を施した観察環境で調整するという実証的な実践は、遺伝学、ネットワーク、医学、政治などの分野に広く浸透している。 wang and blei (2019, wb) はこれらの手順を定式化し、$\mathbf{a}$ の因子モデルを用いた因果推論法 "deconfounder" を開発し、"substitute confounders", $\hat{\mathbf{z}}$ を推定した後、$\hat{\mathbf{z}}$ を調整しながら$\mathbf{a}$ の一部として$\mathbf{y}$ を回帰して治療効果を推定する。 WBは、共同ファウンダーが一人もいない場合、共同ファウンダーは無バイアスであり、$\hat{\mathbf{Z}}$は「ピンポイント」であると主張している。 各共同創設者は無限に多くの治療に影響を及ぼす必要がある。 これらの仮定の下では、$\mathbf{Y}$ on $\mathbf{A}$は漸近的に非バイアスであることを示す。 したがって、この回帰をネストするデコンボリック変種は漸近的に偏りがないが、$\hat{\mathbf{z}}$ と原因のサブセットを使用する変種は、さらにテスト不能な仮定を必要とする。 利用可能なデータですべてのデコンファウンデーション分析を複製し、Na\\の回帰を一貫して上回らないことに気付きます。 推定では、コミック作家スタン・リーのカメオ出演は、マーベル映画の収入の大部分を占める155億ドルを因果的に寄与したと推測されている。 いずれのアプローチも,実世界のアプリケーションにおける注意深い研究設計の代替として有効なものではない,と結論付けている。

The empirical practice of using factor models to adjust for shared, unobserved confounders, $\mathbf{Z}$, in observational settings with multiple treatments, $\mathbf{A}$, is widespread in fields including genetics, networks, medicine, and politics. Wang and Blei (2019, WB) formalizes these procedures and develops the "deconfounder," a causal inference method using factor models of $\mathbf{A}$ to estimate "substitute confounders," $\hat{\mathbf{Z}}$, then estimating treatment effects by regressing the outcome, $\mathbf{Y}$, on part of $\mathbf{A}$ while adjusting for $\hat{\mathbf{Z}}$. WB claim the deconfounder is unbiased when there are no single-cause confounders and $\hat{\mathbf{Z}}$ is "pinpointed." We clarify pinpointing requires each confounder to affect infinitely many treatments. We prove under these assumptions, a na\"ive semiparametric regression of $\mathbf{Y}$ on $\mathbf{A}$ is asymptotically unbiased. Deconfounder variants nesting this regression are therefore also asymptotically unbiased, but variants using $\hat{\mathbf{Z}}$ and subsets of causes require further untestable assumptions. We replicate every deconfounder analysis with available data and find it fails to consistently outperform na\"ive regression. In practice, the deconfounder produces implausible estimates in WB's case study to movie earnings: estimates suggest comic author Stan Lee's cameo appearances causally contributed \$15.5 billion, most of Marvel movie revenue. We conclude neither approach is a viable substitute for careful research design in real-world applications.
翻訳日:2022-11-07 06:32:41 公開日:2020-07-24
# Tail-GNNを用いた階層的タンパク質機能予測

Hierarchical Protein Function Prediction with Tail-GNNs ( http://arxiv.org/abs/2007.12804v1 )

ライセンス: Link先を確認
Stefan Spalevi\'c, Petar Veli\v{c}kovi\'c, Jovana Kova\v{c}evi\'c, Mladen Nikoli\'c(参考訳) タンパク質関数の予測は、タンパク質関数の階層性を記述する有向非環状グラフの(特定の閉包特性を持つ)部分グラフの予測として表すことができる。 グラフニューラルネットワーク(GNN)は、リレーショナルデータに対する帰納バイアスを組み込んだもので、このタスクに自然に適している。 しかし、ほとんどのGNNアプリケーションとは対照的に、グラフは入力とは関係がなく、ラベル空間と関係がある。 そこで本研究では,複数タスク予測のためのニューラルネットワークの出力空間と自然に合成するニューラルネットワークであるtail-gnnsを提案する。 タンパク質機能予測には,タンパク質配列の表現を学習する拡張畳み込みネットワークと組み合わせ,F_1スコアを大幅に向上させ,ラベルの有用な表現を学習し,現実の問題解決に活用するTail-GNNの能力を実証する。

Protein function prediction may be framed as predicting subgraphs (with certain closure properties) of a directed acyclic graph describing the hierarchy of protein functions. Graph neural networks (GNNs), with their built-in inductive bias for relational data, are hence naturally suited for this task. However, in contrast with most GNN applications, the graph is not related to the input, but to the label space. Accordingly, we propose Tail-GNNs, neural networks which naturally compose with the output space of any neural network for multi-task prediction, to provide relationally-reinforced labels. For protein function prediction, we combine a Tail-GNN with a dilated convolutional network which learns representations of the protein sequence, making significant improvement in F_1 score and demonstrating the ability of Tail-GNNs to learn useful representations of labels and exploit them in real-world problem solving.
翻訳日:2022-11-07 06:31:40 公開日:2020-07-24
# LSTMによるLiDAR点雲の時間的3次元物体検出

An LSTM Approach to Temporal 3D Object Detection in LiDAR Point Clouds ( http://arxiv.org/abs/2007.12392v1 )

ライセンス: Link先を確認
Rui Huang, Wanyue Zhang, Abhijit Kundu, Caroline Pantofaru, David A Ross, Thomas Funkhouser, Alireza Fathi(参考訳) 3dlidarデータのオブジェクト検出は、自動運転やその他のロボットアプリケーションの中核技術である。 LiDARデータは時間とともに取得されるが、ほとんどの3Dオブジェクト検出アルゴリズムは、各フレームごとに独立してオブジェクト境界ボックスを提案し、時間領域で利用可能な有用な情報を無視する。 本稿では,LSTMを用いた多フレーム3dオブジェクト検出アルゴリズムを提案する。 我々はU-Netスタイルのスパース畳み込みネットワークを用いて各フレームのLiDAR点クラウドの特徴を抽出する。 これらの機能は、ラストフレームから隠されたメモリ機能とともにlstmモジュールに供給され、現在のフレーム内の3dオブジェクトや、次のフレームに渡される隠されたメモリ機能を予測する。 Waymo Open Datasetの実験では、我々のアルゴリズムは、フレーム当たりのメモリと計算を少なくしながら、7.5% mAP@0.7や他のマルチフレームアプローチよりも1.2%向上している。 我々の知る限りでは、これはスパース・ポイント・クラウドにおける3次元オブジェクト検出にLSTMを使った最初の研究である。

Detecting objects in 3D LiDAR data is a core technology for autonomous driving and other robotics applications. Although LiDAR data is acquired over time, most of the 3D object detection algorithms propose object bounding boxes independently for each frame and neglect the useful information available in the temporal domain. To address this problem, in this paper we propose a sparse LSTM-based multi-frame 3d object detection algorithm. We use a U-Net style 3D sparse convolution network to extract features for each frame's LiDAR point-cloud. These features are fed to the LSTM module together with the hidden and memory features from last frame to predict the 3d objects in the current frame as well as hidden and memory features that are passed to the next frame. Experiments on the Waymo Open Dataset show that our algorithm outperforms the traditional frame by frame approach by 7.5% mAP@0.7 and other multi-frame approaches by 1.2% while using less memory and computation per frame. To the best of our knowledge, this is the first work to use an LSTM for 3D object detection in sparse point clouds.
翻訳日:2022-11-07 06:30:51 公開日:2020-07-24
# 新型コロナウイルス感染症スクリーニングのための説明可能なAIを用いた深層学習アプローチの検討-CTスキャンと胸部X線画像データセットを用いて

Study of Different Deep Learning Approach with Explainable AI for Screening Patients with COVID-19 Symptoms: Using CT Scan and Chest X-ray Image Dataset ( http://arxiv.org/abs/2007.12525v1 )

ライセンス: Link先を確認
Md Manjurul Ahsan, Kishor Datta Gupta, Mohammad Maminur Islam, Sajib Sen, Md. Lutfar Rahman, Mohammad Shakhawat Hossain(参考訳) 新型コロナウイルスの感染拡大で米国だけでも10万人以上が死亡した。 新型コロナウイルス(COVID-19)の症状のある患者を初期スクリーニングし、感染拡大を抑える必要がある。 しかし, 患者数の増加に伴い, 利用可能な検査キットで検査を行おうとする動きが強まっている。 代替ソリューションとしてCTスキャンや胸部X線画像を提案する研究もある。 したがって、CTスキャンや胸部X線検査を同時に行う代わりに、利用可能なすべてのリソースを使用することが不可欠である。 その結果、ctスキャンと胸部x線画像データセットの両方で、より精度の高い新型コロナウイルス患者を検出できる深層学習に基づくモデルの開発が目的である。 本研究では,vgg16,inceptionresnetv2,resnet50, densenet201,vgg19,mobilenetv2,nasnetmobile,resnet15v2といった8種類のディープラーニングアプローチを,400ctスキャン画像を含む2つのデータセットでテストし,別のデータセットには400個の胸部x線画像が含まれている。 さらに、モデルの解釈可能性を説明するために、Local Interpretable Model-Agnostic Explanations (LIME) が使用される。 limeを使ったテストの結果、新型コロナウイルスの症状を持つ患者と他の患者を区別するための信頼aiフレームワークを構築するべきだった機能のトップを解釈できることが示されました。

The outbreak of COVID-19 disease caused more than 100,000 deaths so far in the USA alone. It is necessary to conduct an initial screening of patients with the symptoms of COVID-19 disease to control the spread of the disease. However, it is becoming laborious to conduct the tests with the available testing kits due to the growing number of patients. Some studies proposed CT scan or chest X-ray images as an alternative solution. Therefore, it is essential to use every available resource, instead of either a CT scan or chest X-ray to conduct a large number of tests simultaneously. As a result, this study aims to develop a deep learning-based model that can detect COVID-19 patients with better accuracy both on CT scan and chest X-ray image dataset. In this work, eight different deep learning approaches such as VGG16, InceptionResNetV2, ResNet50, DenseNet201, VGG19, MobilenetV2, NasNetMobile, and ResNet15V2 have been tested on two dataset-one dataset includes 400 CT scan images, and another dataset includes 400 chest X-ray images studied. Besides, Local Interpretable Model-agnostic Explanations (LIME) is used to explain the model's interpretability. Using LIME, test results demonstrate that it is conceivable to interpret top features that should have worked to build a trust AI framework to distinguish between patients with COVID-19 symptoms with other patients.
翻訳日:2022-11-07 06:30:30 公開日:2020-07-24
# 構造保存型生成学習による病理像のステンスタイル移動

Stain Style Transfer of Histopathology Images Via Structure-Preserved Generative Learning ( http://arxiv.org/abs/2007.12578v1 )

ライセンス: Link先を確認
Hanwen Liang, Konstantinos N. Plataniotis, Xingyu Li(参考訳) コンピュータによる疾患診断のために画像の分類や分類を行うコンピュータ組織像診断はますます普及し重要になっている。 病理学者はスライドの色の変化に苦慮しないが、計算解は通常この重大な問題に悩まされる。 本研究は,病理組織像の色変化の問題に対処するため,生成的逆ネットワークに基づく2種類の染色様式伝達モデルであるssim-ganとdscsi-ganを提案する。 学習における構造保存指標と補助診断網のフィードバックを協調することにより、画像テクスチャ、構造、クロマコントラスト特徴によって提示される医療関連情報を、カラー正規化画像に保存する。 特に,DSCSI-GANモデルにおける有色画像のスマートな処理は,組織学的物質共局在により染色が混在する画像領域において顕著な正規化改善を実現するのに役立つ。 一般の病理組織像に対する広範囲な実験により,本手法は,より染色性の高い画像の生成,画像の組織情報保存,学習効率の向上など,先行技術よりも優れていたことが示唆された。 私たちのpythonの実装はhttps://github.com/hanwen0529/DSCSI-GANで公開されています。

Computational histopathology image diagnosis becomes increasingly popular and important, where images are segmented or classified for disease diagnosis by computers. While pathologists do not struggle with color variations in slides, computational solutions usually suffer from this critical issue. To address the issue of color variations in histopathology images, this study proposes two stain style transfer models, SSIM-GAN and DSCSI-GAN, based on the generative adversarial networks. By cooperating structural preservation metrics and feedback of an auxiliary diagnosis net in learning, medical-relevant information presented by image texture, structure, and chroma-contrast features is preserved in color-normalized images. Particularly, the smart treat of chromatic image content in our DSCSI-GAN model helps to achieve noticeable normalization improvement in image regions where stains mix due to histological substances co-localization. Extensive experimentation on public histopathology image sets indicates that our methods outperform prior arts in terms of generating more stain-consistent images, better preserving histological information in images, and obtaining significantly higher learning efficiency. Our python implementation is published on https://github.com/hanwen0529/DSCSI-GAN.
翻訳日:2022-11-07 06:30:01 公開日:2020-07-24
# 最適化における解多様体の学習と運動計画への応用

Learning the Solution Manifold in Optimization and Its Application in Motion Planning ( http://arxiv.org/abs/2007.12397v1 )

ライセンス: Link先を確認
Takayuki Osa(参考訳) 最適化は広い分野における問題解決に不可欠な要素である。 理想的には、目的関数は解が一意であり、最適化問題は安定して解くことができるように設計されるべきである。 しかし、実用用途で用いられる客観的関数は通常非凸であり、時には無限の解集合を持つこともある。 この問題に対処するため,我々は解多様体の最適化を学ぶことを提案する。 我々は、モデルが無限の解の集合を表すように、潜在変数に条件付きモデルを訓練する。 提案手法では,重要度サンプリングを用いてこの問題を密度推定に還元し,変分下界を最大化することで解の潜在表現を学習する。 提案手法は,高次元パラメータの最適化を含むモーションプランニング問題に適用する。 実験結果は,提案アルゴリズムを用いて解多様体を学習できることを示し,学習モデルは運動計画問題のホモトピー解の無限集合を表す。

Optimization is an essential component for solving problems in wide-ranging fields. Ideally, the objective function should be designed such that the solution is unique and the optimization problem can be solved stably. However, the objective function used in a practical application is usually non-convex, and sometimes it even has an infinite set of solutions. To address this issue, we propose to learn the solution manifold in optimization. We train a model conditioned on the latent variable such that the model represents an infinite set of solutions. In our framework, we reduce this problem to density estimation by using importance sampling, and the latent representation of the solutions is learned by maximizing the variational lower bound. We apply the proposed algorithm to motion-planning problems, which involve the optimization of high-dimensional parameters. The experimental results indicate that the solution manifold can be learned with the proposed algorithm, and the trained model represents an infinite set of homotopic solutions for motion-planning problems.
翻訳日:2022-11-07 06:23:55 公開日:2020-07-24
# 決定木のアンサンブルに基づく非パラメトリック依存性試験

A Nonparametric Test of Dependence Based on Ensemble of Decision Trees ( http://arxiv.org/abs/2007.12325v1 )

ライセンス: Link先を確認
Rami Mahdi(参考訳) 本稿では,2つの確率変数間の統計的依存,あるいは相関の頑健な非パラメトリック測度について述べる。 提案した係数は、観測されたサンプル S_n : {(X_i , Y_i), i = 1 . . . n} が置換標本 ^S_nn : {(X_i , Y_j), i, j = 1 . n} とどの程度独立であるかを定量化する置換型統計量である。 識別可能性の程度は、置換されたサンプルを実体化せずに2つのサンプルを識別する決定木の集合を訓練し、交換可能な残留サンプルの予測を用いて決定される。 提案する係数は計算効率が高く, 解釈可能であり, 単調変換に不変であり, 独立性下では近似分布を持つ。 実験結果から,ノイズデータから複雑な関係を検出するための高出力な手法を提案する。

In this paper, a robust non-parametric measure of statistical dependence, or correlation, between two random variables is presented. The proposed coefficient is a permutation-like statistic that quantifies how much the observed sample S_n : {(X_i , Y_i), i = 1 . . . n} is discriminable from the permutated sample ^S_nn : {(X_i , Y_j), i, j = 1 . . . n}, where the two variables are independent. The extent of discriminability is determined using the predictions for the, interchangeable, leave-out sample from training an aggregate of decision trees to discriminate between the two samples without materializing the permutated sample. The proposed coefficient is computationally efficient, interpretable, invariant to monotonic transformations, and has a well-approximated distribution under independence. Empirical results show the proposed method to have a high power for detecting complex relationships from noisy data.
翻訳日:2022-11-07 06:22:48 公開日:2020-07-24
# 制御におけるオンライン学習の長期的効果予測

Anticipating the Long-Term Effect of Online Learning in Control ( http://arxiv.org/abs/2007.12377v1 )

ライセンス: Link先を確認
Alexandre Capone, Sandra Hirche(参考訳) オンラインに収集された測定データを用いて学習する制御スキームは、複雑で不確定なシステムの制御にますます期待されている。 しかし、この種のほとんどのアプローチでは、学習は、例えばシステムのダイナミクスのモデルを更新することで、受動的に制御性能を改善する副作用と見なされる。 制御合成において、学習による制御性能の向上を積極的に活用する方法については、まだオープンな研究課題である。 本稿では,不確定な動的環境における将来の学習の影響を明示的に考慮し,学習を想定した学習に基づく制御則の設計アルゴリズム antler を提案する。 antlerは非パラメトリック確率モデルを用いてシステムの不確かさを表現する。 制御性能を測定するコスト関数が与えられたとき、アントラーは閉ループシステムの期待コストをほぼ最小にする制御パラメータを選択する。 AntLer は確率 1 と任意に最適な解を近似することを示す。 さらに,非線形系に antler を適用することにより,学習が期待できない場合に比べ,より良い結果が得られる。

Control schemes that learn using measurement data collected online are increasingly promising for the control of complex and uncertain systems. However, in most approaches of this kind, learning is viewed as a side effect that passively improves control performance, e.g., by updating a model of the system dynamics. Determining how improvements in control performance due to learning can be actively exploited in the control synthesis is still an open research question. In this paper, we present AntLer, a design algorithm for learning-based control laws that anticipates learning, i.e., that takes the impact of future learning in uncertain dynamic settings explicitly into account. AntLer expresses system uncertainty using a non-parametric probabilistic model. Given a cost function that measures control performance, AntLer chooses the control parameters such that the expected cost of the closed-loop system is minimized approximately. We show that AntLer approximates an optimal solution arbitrarily accurately with probability one. Furthermore, we apply AntLer to a nonlinear system, which yields better results compared to the case where learning is not anticipated.
翻訳日:2022-11-07 06:21:29 公開日:2020-07-24
# 潜在表現の差分計算による脳MRIのスライスワイズ検出の改善

Improved Slice-wise Tumour Detection in Brain MRIs by Computing Dissimilarities between Latent Representations ( http://arxiv.org/abs/2007.12528v1 )

ライセンス: Link先を確認
Alexandra-Ioana Albu, Alina Enescu and Luigi Malag\`o(参考訳) 磁気共鳴画像(MRI)の異常検出は、健康な画像の分布を学習し、異常を外れ値として同定することにより、教師なしの方法で解決することができる。 例外を含むラベルなしデータの追加データセットが存在する場合、そのタスクは、負のラベルなしのサンプルポイントを持つ半教師付きタスクとしてフレーム化することができる。 最近,2020年albu et al.において,非ラベルデータに基づいて訓練された変分オートエンコーダの潜在空間における異種性関数の計算に基づく,スライスワイズ半教師付き腫瘍検出法が提案されている。 健全な画像のみに訓練された異なるオートエンコーダにより得られた画像の符号化と、その再構成の符号化との間に相違が計算される。 本稿では,HCPおよびBRATS-2018データセットのサブセット上で変分オートエンコーダを訓練し,残りの個人を対象に実験を行い,提案手法の新規かつ改良された結果を示す。 本研究は,高解像度画像上でのモデルトレーニングと再現の質の向上により,健康な個人にトレーニングされた単一のVAEを用いて,異なるベースラインに匹敵する結果が得られることを示す。 予想通り,本手法の性能は,異常の有無を判定するためのしきい値の大きさに比例して向上する。

Anomaly detection for Magnetic Resonance Images (MRIs) can be solved with unsupervised methods by learning the distribution of healthy images and identifying anomalies as outliers. In presence of an additional dataset of unlabelled data containing also anomalies, the task can be framed as a semi-supervised task with negative and unlabelled sample points. Recently, in Albu et al., 2020, we have proposed a slice-wise semi-supervised method for tumour detection based on the computation of a dissimilarity function in the latent space of a Variational AutoEncoder, trained on unlabelled data. The dissimilarity is computed between the encoding of the image and the encoding of its reconstruction obtained through a different autoencoder trained only on healthy images. In this paper we present novel and improved results for our method, obtained by training the Variational AutoEncoders on a subset of the HCP and BRATS-2018 datasets and testing on the remaining individuals. We show that by training the models on higher resolution images and by improving the quality of the reconstructions, we obtain results which are comparable with different baselines, which employ a single VAE trained on healthy individuals. As expected, the performance of our method increases with the size of the threshold used to determine the presence of an anomaly.
翻訳日:2022-11-07 06:21:14 公開日:2020-07-24
# 分散スケッチによるグラフクラスタリングのスケーリング

Scaling Graph Clustering with Distributed Sketches ( http://arxiv.org/abs/2007.12669v1 )

ライセンス: Link先を確認
Benjamin W. Priest, Alec Dunton, Geoffrey Sanders(参考訳) コミュニティ構造の教師なし学習、特にクラスタやコミュニティへの分割頂点は、探索グラフ解析における標準的かつよく研究された問題である。 しかし、ほとんどのグラフ分析と同様に、膨大なスケールの導入は従来の方法に困難をもたらす。 例えば、分散メモリにおけるスペクトルクラスタリングは、グラフ関連行列のいくつかの固有ベクトルへの頂点の埋め込みを計算するために数百の高価なバルク同期通信ラウンドを必要とする。 さらに、基礎となるグラフがエッジ更新の低い割合を変更する場合、計算全体を繰り返す必要がある。 スペクトルクラスタリングにインスパイアされた手法として,ランダムな次元還元プロジェクションから得られた行列スケッチを用いる。 高速なジョンソン-リンデンシュトラウス変換とカウントスケッチ変換の両方を用いて, 完全に動的確率的ブロックモデルストリームを与えられた性能的クラスタリング結果を得る埋め込みを生成する。 また,確率的ブロックモデルパラメータがその後の埋め込みの必要次元に与える影響についても論じ,ランダムなプロジェクションが分散メモリにおけるグラフクラスタリングの性能を著しく改善することを示す。

The unsupervised learning of community structure, in particular the partitioning vertices into clusters or communities, is a canonical and well-studied problem in exploratory graph analysis. However, like most graph analyses the introduction of immense scale presents challenges to traditional methods. Spectral clustering in distributed memory, for example, requires hundreds of expensive bulk-synchronous communication rounds to compute an embedding of vertices to a few eigenvectors of a graph associated matrix. Furthermore, the whole computation may need to be repeated if the underlying graph changes some low percentage of edge updates. We present a method inspired by spectral clustering where we instead use matrix sketches derived from random dimension-reducing projections. We show that our method produces embeddings that yield performant clustering results given a fully-dynamic stochastic block model stream using both the fast Johnson-Lindenstrauss and CountSketch transforms. We also discuss the effects of stochastic block model parameters upon the required dimensionality of the subsequent embeddings, and show how random projections could significantly improve the performance of graph clustering in distributed memory.
翻訳日:2022-11-07 06:15:04 公開日:2020-07-24
# PDEを解く深層生成モデル:大規模データフリーモデルのトレーニングのための分散コンピューティング

Deep Generative Models that Solve PDEs: Distributed Computing for Training Large Data-Free Models ( http://arxiv.org/abs/2007.12792v1 )

ライセンス: Link先を確認
Sergio Botelho, Ameya Joshi, Biswajit Khara, Soumik Sarkar, Chinmay Hegde, Santi Adavani, Baskar Ganapathysubramanian(参考訳) 科学機械学習(SciML)の最近の進歩は、複雑な偏微分方程式(PDE)を解く新しいニューラルネットワークアーキテクチャを訓練する可能性を開いた。 最近では、ディープフィードフォワードネットワーク、ジェネレーティブネットワーク、ディープエンコーダデコーダネットワークなど、PDEの解決に成功しているいくつかの(データフリーに近い)アプローチが報告されている。 しかしながら、これらのアプローチの実践的採用は、これらのモデルのトレーニングが困難であること、特に大規模な出力解像度での予測(\geq 1024 \times 1024$)によって制限される。 本稿では,このような大規模scimlモデルのトレーニングと,ストレージ要件の分散という2つの課題を解決する,データ並列分散ディープラーニングのためのソフトウェアフレームワークについて報告する。 私たちのフレームワークは、いくつかのアウトオブボックス機能を提供しています。 a) プロセス数に依存しない損失整合性 (b)同期バッチ正規化、及び (c)高階最適化法を分散した。 クラウドとHPCクラスタの両方において,このフレームワークの優れたスケーラビリティを示し,帯域幅,ネットワークトポロジ,ベアメタル対クラウドの相互作用について報告する。 提案手法は,ニューラルネットワーク型PDEソルバが実用的な応用に有効に訓練可能であることを示すため,実現不可能なサイズの生成モデルをトレーニングするために展開する。 また,分散高次最適化法は確率勾配法よりも2~3\times$高速であり,バッチサイズの高い最小収束ドリフトを提供することを示した。

Recent progress in scientific machine learning (SciML) has opened up the possibility of training novel neural network architectures that solve complex partial differential equations (PDEs). Several (nearly data free) approaches have been recently reported that successfully solve PDEs, with examples including deep feed forward networks, generative networks, and deep encoder-decoder networks. However, practical adoption of these approaches is limited by the difficulty in training these models, especially to make predictions at large output resolutions ($\geq 1024 \times 1024$). Here we report on a software framework for data parallel distributed deep learning that resolves the twin challenges of training these large SciML models - training in reasonable time as well as distributing the storage requirements. Our framework provides several out of the box functionality including (a) loss integrity independent of number of processes, (b) synchronized batch normalization, and (c) distributed higher-order optimization methods. We show excellent scalability of this framework on both cloud as well as HPC clusters, and report on the interplay between bandwidth, network topology and bare metal vs cloud. We deploy this approach to train generative models of sizes hitherto not possible, showing that neural PDE solvers can be viably trained for practical applications. We also demonstrate that distributed higher-order optimization methods are $2-3\times$ faster than stochastic gradient-based methods and provide minimal convergence drift with higher batch-size.
翻訳日:2022-11-07 06:14:45 公開日:2020-07-24
# グラフ分類のための多視点適応グラフ畳み込み

Multi-view adaptive graph convolutions for graph classification ( http://arxiv.org/abs/2007.12450v1 )

ライセンス: Link先を確認
Nikolas Adaloglou, Nicholas Vretos and Petros Daras(参考訳) 本稿では,グラフ型ニューラルネットワークのための新しいマルチビュー手法を提案する。 非ユークリッド多様体の文脈において、畳み込み、プーリング、マルチビューアーキテクチャといった古典的深層学習法の重要な概念の体系的および方法論的適応が開発された。 提案する研究の目的は,新しいマルチビューグラフ畳み込みレイヤと,次のような新しいビュープーリングレイヤを提供することである。 a) 特徴距離メートル法学習に基づいて調整される新しいハイブリッドラプラシアン ロ グラフの特徴行列の複数の訓練可能な表現であって、訓練可能な距離行列を用いて、グラフに対するビューの概念を適用すること。 c) 複数の生成されたビューから情報を合成するために、グラフビュープールと呼ばれる多視点グラフ集約スキーム。 上記の層は、グラフ分類のためのエンドツーエンドのグラフニューラルネットワークアーキテクチャで使われ、他の最先端の手法と競合する結果を示す。

In this paper, a novel multi-view methodology for graph-based neural networks is proposed. A systematic and methodological adaptation of the key concepts of classical deep learning methods such as convolution, pooling and multi-view architectures is developed for the context of non-Euclidean manifolds. The aim of the proposed work is to present a novel multi-view graph convolution layer, as well as a new view pooling layer making use of: a) a new hybrid Laplacian that is adjusted based on feature distance metric learning, b) multiple trainable representations of a feature matrix of a graph, using trainable distance matrices, adapting the notion of views to graphs and c) a multi-view graph aggregation scheme called graph view pooling, in order to synthesise information from the multiple generated views. The aforementioned layers are used in an end-to-end graph neural network architecture for graph classification and show competitive results to other state-of-the-art methods.
翻訳日:2022-11-07 06:14:07 公開日:2020-07-24
# HEU Emotion: 野生におけるマルチモーダル感情認識のための大規模データベース

HEU Emotion: A Large-scale Database for Multi-modal Emotion Recognition in the Wild ( http://arxiv.org/abs/2007.12519v1 )

ライセンス: Link先を確認
Jing Chen (1), Chenhui Wang (2), Kejun Wang (1), Chaoqun Yin (1), Cong Zhao (1), Tao Xu (1), Xinyi Zhang (1), Ziqiang Huang (1), Meichen Liu (1), Tao Yang (1) ((1) College of Intelligent Systems Science and Engineering, Harbin Engineering University, Harbin, China., (2) UCLA Department of Statistics, Los Angeles, CA.)(参考訳) 野生環境における情緒コンピューティングの研究はデータベースが基盤となっている。 実世界の環境における既存のマルチモーダル感情データベースは少ないが、主題は限られており、単一の言語で表現される。 この要件を満たすため、我々は、新しい自然状態ビデオデータベース(HEU Emotion)をリリースする準備をし、注釈を付けました。 HEU Emotionには19,004本のビデオクリップが含まれており、データソースによって2つの部分に分けられる。 最初の部分はTumblr、Google、Giphyからダウンロードされたビデオで、10の感情と2つのモダリティ(表情と身体姿勢)が含まれている。 第2部は、映画、テレビシリーズ、バラエティ番組から手作業で取ったコーパスを含み、10の感情と3つのモダリティ(表情、身体姿勢、感情スピーチ)から構成される。 HEU Emotionは、9,951人の被験者からなる最も広範なマルチモーダル感情データベースである。 感情認識のベンチマークを提供するために,HEU感情を評価するために,従来の機械学習やディープラーニング手法を用いた。 マルチモーダル特徴を適応的に融合するマルチモーダルアテンションモジュールを提案する。 マルチモーダル融合後,両部位の認識精度はそれぞれ2.19%,4.01%上昇した。

The study of affective computing in the wild setting is underpinned by databases. Existing multimodal emotion databases in the real-world conditions are few and small, with a limited number of subjects and expressed in a single language. To meet this requirement, we collected, annotated, and prepared to release a new natural state video database (called HEU Emotion). HEU Emotion contains a total of 19,004 video clips, which is divided into two parts according to the data source. The first part contains videos downloaded from Tumblr, Google, and Giphy, including 10 emotions and two modalities (facial expression and body posture). The second part includes corpus taken manually from movies, TV series, and variety shows, consisting of 10 emotions and three modalities (facial expression, body posture, and emotional speech). HEU Emotion is by far the most extensive multi-modal emotional database with 9,951 subjects. In order to provide a benchmark for emotion recognition, we used many conventional machine learning and deep learning methods to evaluate HEU Emotion. We proposed a Multi-modal Attention module to fuse multi-modal features adaptively. After multi-modal fusion, the recognition accuracies for the two parts increased by 2.19% and 4.01% respectively over those of single-modal facial expression recognition.
翻訳日:2022-11-07 06:13:54 公開日:2020-07-24
# タスク干渉のないインクリメンタルマルチタスク学習のための再パラメータ化畳み込み

Reparameterizing Convolutions for Incremental Multi-Task Learning without Task Interference ( http://arxiv.org/abs/2007.12540v1 )

ライセンス: Link先を確認
Menelaos Kanakis, David Bruggemann, Suman Saha, Stamatios Georgoulis, Anton Obukhov, Luc Van Gool(参考訳) マルチタスクネットワークは、多くの高度に専門化されたシングルタスクネットワークの必要性を軽減するために一般的に利用される。 しかし、マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。 第一に、モデルが本質的にインクリメンタルで、新しいタスクからの情報を継続的に取り入れられるようにすること(インクリメンタル学習)。 第二に、マルチタスク設定(タスク干渉)において、シングルタスクのパフォーマンスが著しく低下していることが示されている。 本稿では、標準ニューラルネットワークアーキテクチャの畳み込みを、トレーニング不能な共有部分(フィルタバンク)とタスク固有部分(変調器)に再パラメータ化し、各変調器がフィルタバンクパラメータのごく一部を持つようにすることで、両方を実現できることを示す。 これにより,既存のタスクの性能に悪影響を及ぼすことなく,新たなタスクを学習することができる。 アブレーション研究の結果は,提案する再パラメーターの有効性を検証できた。 さらに,本手法は,PASCAL-ContextとNYUDという2つの挑戦的マルチタスク学習ベンチマークの最先端化を実現し,競合相手に比べて優れた漸進学習能力を示す。

Multi-task networks are commonly utilized to alleviate the need for a large number of highly specialized single-task networks. However, two common challenges in developing multi-task models are often overlooked in literature. First, enabling the model to be inherently incremental, continuously incorporating information from new tasks without forgetting the previously learned ones (incremental learning). Second, eliminating adverse interactions amongst tasks, which has been shown to significantly degrade the single-task performance in a multi-task setup (task interference). In this paper, we show that both can be achieved simply by reparameterizing the convolutions of standard neural network architectures into a non-trainable shared part (filter bank) and task-specific parts (modulators), where each modulator has a fraction of the filter bank parameters. Thus, our reparameterization enables the model to learn new tasks without adversely affecting the performance of existing ones. The results of our ablation study attest the efficacy of the proposed reparameterization. Moreover, our method achieves state-of-the-art on two challenging multi-task learning benchmarks, PASCAL-Context and NYUD, and also demonstrates superior incremental learning capability as compared to its close competitors.
翻訳日:2022-11-07 06:13:34 公開日:2020-07-24
# 新型コロナウイルスの遠隔患者モニタリング:AIの社会的影響

COVID-19 Remote Patient Monitoring: Social Impact of AI ( http://arxiv.org/abs/2007.12312v1 )

ライセンス: Link先を確認
Ashlesha Nesarikar (University of Texas at Dallas and Plano Intelligence), Waqas Haque (UT Southwestern), Suchith Vuppala (UT Southwestern), Abhijit Nesarikar (Plano Intelligence)(参考訳) 新型コロナウイルスとの戦いが成功した主な要因は、医療インフラやサービス(CCIS)へのストレスを避けることである。 しかし、CCISは、持続的な群れ免疫が構築されるまでストレスが続く可能性が高い。 経済的損害の軽減、誤情報の拡散の抑制、モラルの向上、支配意識の維持、外交、貿易、旅行のための世界的な信頼の構築、日々の生活への信頼性と正常性の回復など、成功のための二次的な考慮もある。 テクノロジーは重要な役割を果たすと私たちは考えている。 本稿では,SARS-CoV-2との戦いにおける初等および二次的成功基準を改善するために,手軽に利用できる技術を有効に活用することに焦点を当てる。 多面的技術アプローチでは、新型コロナウイルスの遠隔患者モニタリング(RPM)に有効な技術を使い始める。 1. バイオセンサーの助けを借りて、患者バイタルの連続的リアルタイム遠隔監視に利用可能なテクノロジを大規模に展開する。 2. 救急サービスや救急病院の負担を軽減するため、新型コロナウイルスの入院の急増に対する緩衝策として、より効果的で安全な遠隔地における低重症患者の大規模医療 3.患者、家族、コミュニティのコントロール感とモラルの向上。 4. 緊急の技術的ニーズに対応するために、新型コロナウイルスの遠隔患者モニタリングの明確な技術と医療的定義、難解で狭く誤った情報に対処し、事例を提供し、出版者に開示を明確かつ完全なものにするよう促す。 5. コミュニティリーダや意思決定者を対象とした,クラウドベースの分散認知RPMプラットフォームを活用して,計画と資源管理,パンデミック研究,被害防止と封じ込めを実現し,戦略や実行に対するフィードバックを受け取る。

A primary indicator of success in the fight against COVID-19 is avoiding stress on critical care infrastructure and services (CCIS). However, CCIS will likely remain stressed until sustained herd immunity is built. There are also secondary considerations for success: mitigating economic damage; curbing the spread of misinformation, improving morale, and preserving a sense of control; building global trust for diplomacy, trade and travel; and restoring reliability and normalcy to day-to-day life, among others. We envision technology plays a pivotal role. Here, we focus on the effective use of readily available technology to improve the primary and secondary success criteria for the fight against SARS-CoV-2. In a multifaceted technology approach, we start with effective technology use for remote patient monitoring (RPM) of COVID-19 with the following objectives: 1. Deploy readily available technology for continuous real-time remote monitoring of patient vitals with the help of biosensors on a large scale. 2. Effective and safe remote large-scale communitywide care of low-severity cases as a buffer against surges in COVID-19 hospitalizations to reduce strain on critical care services and emergency hospitals. 3. Improve the patient, their family, and their community's sense of control and morale. 4. Propose a clear technology and medical definition of remote patient monitoring for COVID-19 to address an urgent technology need; address obfuscated, narrow, and erroneous information and provide examples; and urge publishers to be clear and complete in their disclosures. 5. Leverage the cloud-based distributed cognitive RPM platform for community leaders and decision makers to enable planning and resource management, pandemic research, damage prevention and containment, and receiving feedback on strategies and executions.
翻訳日:2022-11-07 06:12:13 公開日:2020-07-24
# espresso:異種センサデータを処理するためのエントロピーと形状を考慮した時系列セグメンテーション

ESPRESSO: Entropy and ShaPe awaRe timE-Series SegmentatiOn for processing heterogeneous sensor data ( http://arxiv.org/abs/2008.03230v1 )

ライセンス: Link先を確認
Shohreh Deldari, Daniel V. Smith, Amin Sadri, Flora D. Salim(参考訳) 高次元ウェアラブルセンサデータ、スマートデバイス、IoTデータから有意義な時間セグメントを抽出することは、ヒューマンアクティビティ認識(HAR)、軌道予測、ジェスチャー認識、ライフログといったアプリケーションにおいて、重要な前処理ステップである。 本稿では,時系列のエントロピーと時間的形状特性を利用した多次元時系列のハイブリッドセグメンテーションモデルであるespresso(entropy and shape aware time-series segmentation)を提案する。 ESPRESSOは、時系列の特定の統計的または時間的特性にのみ焦点をあてる既存の方法とは異なる。 モデル開発の一環として, 時系列の時間的表現である$WCAC$が, エントロピー計量に基づいてセグメントを推定する欲求探索手法とともに導入された。 ESPRESSOは、ウェアラブルとウェアラブルなしセンシングの7つのパブリックデータセットに対して、最先端の4つのメソッドよりも優れたパフォーマンスを提供することを示した。 さらに,これらのデータセットについて,ESPRESSOとその構成法が異なるデータセット特性に対してどのように機能するかを理解するために,より深く調査する。 最後に,ESPRESSOの適用が日常の行動ルーチンや人間の感情状態の推測にどのように役立つかを示す2つの興味深いケーススタディを提供する。

Extracting informative and meaningful temporal segments from high-dimensional wearable sensor data, smart devices, or IoT data is a vital preprocessing step in applications such as Human Activity Recognition (HAR), trajectory prediction, gesture recognition, and lifelogging. In this paper, we propose ESPRESSO (Entropy and ShaPe awaRe timE-Series SegmentatiOn), a hybrid segmentation model for multi-dimensional time-series that is formulated to exploit the entropy and temporal shape properties of time-series. ESPRESSO differs from existing methods that focus upon particular statistical or temporal properties of time-series exclusively. As part of model development, a novel temporal representation of time-series $WCAC$ was introduced along with a greedy search approach that estimate segments based upon the entropy metric. ESPRESSO was shown to offer superior performance to four state-of-the-art methods across seven public datasets of wearable and wear-free sensing. In addition, we undertake a deeper investigation of these datasets to understand how ESPRESSO and its constituent methods perform with respect to different dataset characteristics. Finally, we provide two interesting case-studies to show how applying ESPRESSO can assist in inferring daily activity routines and the emotional state of humans.
翻訳日:2022-11-07 06:06:18 公開日:2020-07-24
# 新型コロナウイルスの知識グラフ:科学文献の検索と発見を加速する

COVID-19 Knowledge Graph: Accelerating Information Retrieval and Discovery for Scientific Literature ( http://arxiv.org/abs/2007.12731v1 )

ライセンス: Link先を確認
Colby Wise, Vassilis N. Ioannidis, Miguel Romero Calvo, Xiang Song, George Price, Ninad Kulkarni, Ryan Brand, Parminder Bhatia, George Karypis(参考訳) 新型コロナウイルス(COVID-19)の感染者は35万人を超え、全世界で600万人以上が感染している。 新型コロナウイルス(COVID-19)で急速に成長しているコーパスから情報を見つけ出すための追加のツールを研究者に提供するために、いくつかの検索エンジンが浮上した。 これらのエンジンは、科学文献に固有の複雑な関係を抽出し解釈するために必要な抽出および可視化ツールを欠いている。 さらに,これらのエンジンはセマンティック情報に大きく依存しているため,文書間の複雑なグローバルな関係を捉える能力は限られており,類似性に基づくレコメンデーションの品質が低下する。 本研究では,covid-19科学論文間の複雑な関係を抽出・可視化するヘテロジニアスグラフであるckg(covid-19 knowledge graph)を提案する。 CKGは、類似した文書検索の適用のための意味情報と文書トポロジ情報を組み合わせる。 CKGは、データの潜在スキーマを使用して構築され、スケーラブルなAWS技術を使用して、記事の非構造化テキストから抽出されたバイオメディカルエンティティ情報により、グラフ内の関係を形成する。 最後に,ckgからの低次元グラフ埋め込みと,類似記事検索のための意味埋め込みを利用する文書類似性エンジンを提案する。 分析は、ckgにおける関係性の質を示し、covid-19科学論文に有意義な情報を明らかにするために使用できることを示している。 CKGはwww.cord19.awsの電源となり、公開されている。

The coronavirus disease (COVID-19) has claimed the lives of over 350,000 people and infected more than 6 million people worldwide. Several search engines have surfaced to provide researchers with additional tools to find and retrieve information from the rapidly growing corpora on COVID-19. These engines lack extraction and visualization tools necessary to retrieve and interpret complex relations inherent to scientific literature. Moreover, because these engines mainly rely upon semantic information, their ability to capture complex global relationships across documents is limited, which reduces the quality of similarity-based article recommendations for users. In this work, we present the COVID-19 Knowledge Graph (CKG), a heterogeneous graph for extracting and visualizing complex relationships between COVID-19 scientific articles. The CKG combines semantic information with document topological information for the application of similar document retrieval. The CKG is constructed using the latent schema of the data, and then enriched with biomedical entity information extracted from the unstructured text of articles using scalable AWS technologies to form relations in the graph. Finally, we propose a document similarity engine that leverages low-dimensional graph embeddings from the CKG with semantic embeddings for similar article retrieval. Analysis demonstrates the quality of relationships in the CKG and shows that it can be used to uncover meaningful information in COVID-19 scientific articles. The CKG helps power www.cord19.aws and is publicly available.
翻訳日:2022-11-07 06:05:55 公開日:2020-07-24
# 文脈対応型注意知識トレース

Context-Aware Attentive Knowledge Tracing ( http://arxiv.org/abs/2007.12324v1 )

ライセンス: Link先を確認
Aritra Ghosh, Neil Heffernan and Andrew S. Lan(参考訳) 知識追跡(KT)とは、教育アプリケーションにおける過去の成績から、将来の学習者のパフォーマンスを予測する問題を指す。 フレキシブルディープニューラルネットワークベースモデルを用いたKTの最近の開発は、このタスクで優れている。 しかし、これらのモデルはしばしば限定的な解釈可能性を提供しており、パーソナライズされた学習には不十分である。 本稿では、フレキシブルアテンションに基づくニューラルネットワークモデルと、認知モデルと心理メトリックモデルにインスパイアされた一連の新しい解釈可能なモデルコンポーネントを結合した注意知識追跡(AKT)を提案する。 AKTは、学習者の将来の反応を過去の反応に関連付ける新しい単調な注意機構を用いており、注意重みは、質問間の類似性に加えて、指数的減衰と文脈対応相対距離測定を用いて計算される。 さらに、raschモデルを用いて概念の定式化と質問埋め込みを行い、それらの埋め込みは過剰なパラメータを使わずに同じ概念の質問間の個々の違いを捉えることができる。 いくつかの実世界のベンチマークデータセットで実験を行い、AKTが将来の学習者の反応を予測する上で、既存のKTメソッド(AUCでは最大6.5%)より優れていることを示す。 また,いくつかのケーススタディを実施し,aktが優れた解釈性を示し,実世界の教育環境における自動フィードバックとパーソナライゼーションの可能性を示した。

Knowledge tracing (KT) refers to the problem of predicting future learner performance given their past performance in educational applications. Recent developments in KT using flexible deep neural network-based models excel at this task. However, these models often offer limited interpretability, thus making them insufficient for personalized learning, which requires using interpretable feedback and actionable recommendations to help learners achieve better learning outcomes. In this paper, we propose attentive knowledge tracing (AKT), which couples flexible attention-based neural network models with a series of novel, interpretable model components inspired by cognitive and psychometric models. AKT uses a novel monotonic attention mechanism that relates a learner's future responses to assessment questions to their past responses; attention weights are computed using exponential decay and a context-aware relative distance measure, in addition to the similarity between questions. Moreover, we use the Rasch model to regularize the concept and question embeddings; these embeddings are able to capture individual differences among questions on the same concept without using an excessive number of parameters. We conduct experiments on several real-world benchmark datasets and show that AKT outperforms existing KT methods (by up to $6\%$ in AUC in some cases) on predicting future learner responses. We also conduct several case studies and show that AKT exhibits excellent interpretability and thus has potential for automated feedback and personalization in real-world educational settings.
翻訳日:2022-11-07 06:05:30 公開日:2020-07-24
# 因果学習におけるサイクル

Cycles in Causal Learning ( http://arxiv.org/abs/2007.12335v1 )

ライセンス: Link先を確認
Katie Everett, Ian Fischer(参考訳) 因果学習では,介入の効果を正確に推測できるように,変数間の因果関係を学習したい。 循環構造と非循環構造の違いはただ一つの端に過ぎず、循環因果構造は介入中の質的に異なる振る舞いを持つ:サイクルは介入の下流効果がソース変数に伝播する際にフィードバックループを引き起こす。 自己回帰因子分解を伴う確率分布、すなわち周期でグラフィカルに表現できる分布に関する3つの理論的観測を行った。 まず、2変数の自己参照分布が実際に独立であることを証明する。 第二に、N変数の自己参照分布が相互情報ゼロであることを証明する。 最後に、サイクルで因果する自己回帰分布は、サイクルが反転したかのように因果化することも証明する。 これらの結果は,観測データから変数間の独立性が示唆される場合にも,循環因果依存性が存在することを示唆している。 相互情報、あるいは独立した因果メカニズムに基づくヒューリスティックを推定する手法は、周期的なカジュアル構造を学習できない傾向にある。 サイクルを慎重に検討する因果学習における今後の取り組みを奨励する。

In the causal learning setting, we wish to learn cause-and-effect relationships between variables such that we can correctly infer the effect of an intervention. While the difference between a cyclic structure and an acyclic structure may be just a single edge, cyclic causal structures have qualitatively different behavior under intervention: cycles cause feedback loops when the downstream effect of an intervention propagates back to the source variable. We present three theoretical observations about probability distributions with self-referential factorizations, i.e. distributions that could be graphically represented with a cycle. First, we prove that self-referential distributions in two variables are, in fact, independent. Second, we prove that self-referential distributions in N variables have zero mutual information. Lastly, we prove that self-referential distributions that factorize in a cycle, also factorize as though the cycle were reversed. These results suggest that cyclic causal dependence may exist even where observational data suggest independence among variables. Methods based on estimating mutual information, or heuristics based on independent causal mechanisms, are likely to fail to learn cyclic casual structures. We encourage future work in causal learning that carefully considers cycles.
翻訳日:2022-11-07 06:04:38 公開日:2020-07-24
# 伝達離散性:表現の差の定量化

Transferred Discrepancy: Quantifying the Difference Between Representations ( http://arxiv.org/abs/2007.12446v1 )

ライセンス: Link先を確認
Yunzhen Feng, Runtian Zhai, Di He, Liwei Wang, Bin Dong(参考訳) ニューラルネットワークがどのような情報をキャプチャするかを理解することは、ディープラーニングにおいて重要な問題であり、異なるモデルが同様の特徴をキャプチャするかどうかを研究することが、この目標を達成するための最初のステップである。 以前の作業では、2つのモデルの違いを測定するために、機能マトリックス上のメトリクスを定義しようとしていました。 しかし、異なる測度が矛盾する結論につながる場合もあり、どの測度が実際に使用するのに適したのかについては合意が得られていない。 本研究では,従来のアプローチを超越した新しい指標を提案する。 学習した表現を使用する最も実践的なシナリオの1つは、下流のタスクに適用することである。 我々は同様の原理に基づいて計量を設計すべきだと主張する。 そこで本研究では、下流タスクのパフォーマンスに基づいて、2つの表現間の差を定義する新しい尺度であるTransfer Disrepancy (TD)を導入する。 漸近分析を通じて,tdが下流タスクとどのように相関するか,タスクに依存したメトリクス定義の必要性を示す。 特に、特定の条件下では、TDメトリックは以前のメトリクスと密接に関連していることを示す。 実験の結果,tdは下流タスクの細かな情報を提供することができ,初期化の異なるモデルでは,学習された機能は下流タスクの予測では同じではないことがわかった。 また,TDは異なるトレーニング戦略の有効性を評価するためにも用いられる可能性がある。 例えば、一般化を改善する適切なデータ拡張で訓練されたモデルが、TDに関してより類似した特徴を捉えているのに対し、一般化を損なうデータ拡張ではそうはならないことを実証する。 これは、より堅牢な表現につながるトレーニング戦略と、より一般化したモデルのトレーニングを示唆する。

Understanding what information neural networks capture is an essential problem in deep learning, and studying whether different models capture similar features is an initial step to achieve this goal. Previous works sought to define metrics over the feature matrices to measure the difference between two models. However, different metrics sometimes lead to contradictory conclusions, and there has been no consensus on which metric is suitable to use in practice. In this work, we propose a novel metric that goes beyond previous approaches. Recall that one of the most practical scenarios of using the learned representations is to apply them to downstream tasks. We argue that we should design the metric based on a similar principle. For that, we introduce the transferred discrepancy (TD), a new metric that defines the difference between two representations based on their downstream-task performance. Through an asymptotic analysis, we show how TD correlates with downstream tasks and the necessity to define metrics in such a task-dependent fashion. In particular, we also show that under specific conditions, the TD metric is closely related to previous metrics. Our experiments show that TD can provide fine-grained information for varied downstream tasks, and for the models trained from different initializations, the learned features are not the same in terms of downstream-task predictions. We find that TD may also be used to evaluate the effectiveness of different training strategies. For example, we demonstrate that the models trained with proper data augmentations that improve the generalization capture more similar features in terms of TD, while those with data augmentations that hurt the generalization will not. This suggests a training strategy that leads to more robust representation also trains models that generalize better.
翻訳日:2022-11-07 06:03:27 公開日:2020-07-24
# 正規化政策最適化としてのモンテカルロ木探索

Monte-Carlo Tree Search as Regularized Policy Optimization ( http://arxiv.org/abs/2007.12509v1 )

ライセンス: Link先を確認
Jean-Bastien Grill, Florent Altch\'e, Yunhao Tang, Thomas Hubert, Michal Valko, Ioannis Antonoglou, R\'emi Munos(参考訳) モンテカルロ木探索(MCTS)と深い強化学習の組み合わせは、人工知能に大きな進歩をもたらした。 しかし、現在最先端のMCTSアルゴリズムであるAlphaZeroは、部分的にしか理解されていない手作りのヒューリスティックに依存している。 本稿では,AlphaZero の探索ヒューリスティックスと UCT などの一般的な手法が,特定の正規化ポリシ最適化問題の解の近似であることを示す。 そこで本研究では,このポリシ最適化問題に対する厳密な解を用いたAlphaZeroの変種を提案するとともに,元となるアルゴリズムを複数の領域で確実に上回っていることを示す。

The combination of Monte-Carlo tree search (MCTS) with deep reinforcement learning has led to significant advances in artificial intelligence. However, AlphaZero, the current state-of-the-art MCTS algorithm, still relies on handcrafted heuristics that are only partially understood. In this paper, we show that AlphaZero's search heuristics, along with other common ones such as UCT, are an approximation to the solution of a specific regularized policy optimization problem. With this insight, we propose a variant of AlphaZero which uses the exact solution to this policy optimization problem, and show experimentally that it reliably outperforms the original algorithm in multiple domains.
翻訳日:2022-11-07 06:03:01 公開日:2020-07-24
# クリニック・イン・ザ・ループ意思決定: ほぼ最適設定値ポリシーによる強化学習

Clinician-in-the-Loop Decision Making: Reinforcement Learning with Near-Optimal Set-Valued Policies ( http://arxiv.org/abs/2007.12678v1 )

ライセンス: Link先を確認
Shengpu Tang, Aditya Modi, Michael W. Sjoding, Jenna Wiens(参考訳) 標準強化学習(RL)は、各州に最適な行動を特定する最適な政策を見つけることを目的としている。 しかし、医療の分野では、多くの行動は報酬(例えば生存)についてほぼ同値である。 私たちは、同様の累積報酬につながるほぼ同値なアクションを捉えるために、セット価値ポリシーを学ぶという別の目的を考えています。 本稿では,時間差学習に基づくモデルフリーアルゴリズムと,行動選択のための近欲ヒューリスティックを提案する。 提案アルゴリズムの理論的特性を分析し,最適性保証を提供し,シミュレーション環境と実際の臨床課題に対するアプローチを実証する。 実験的に,提案アルゴリズムは優れた収束特性を示し,有意義なほぼ等価な作用を発見する。 本研究は, 臨床医(臨床医, 患者)が, ほぼ等価な行動を選択する際に, 付加的な知識(副作用, 患者嗜好など)を組み込むことのできる, 臨床医と人間によるループ内意思決定の基礎を提供する。

Standard reinforcement learning (RL) aims to find an optimal policy that identifies the best action for each state. However, in healthcare settings, many actions may be near-equivalent with respect to the reward (e.g., survival). We consider an alternative objective -- learning set-valued policies to capture near-equivalent actions that lead to similar cumulative rewards. We propose a model-free algorithm based on temporal difference learning and a near-greedy heuristic for action selection. We analyze the theoretical properties of the proposed algorithm, providing optimality guarantees and demonstrate our approach on simulated environments and a real clinical task. Empirically, the proposed algorithm exhibits good convergence properties and discovers meaningful near-equivalent actions. Our work provides theoretical, as well as practical, foundations for clinician/human-in-the-loop decision making, in which humans (e.g., clinicians, patients) can incorporate additional knowledge (e.g., side effects, patient preference) when selecting among near-equivalent actions.
翻訳日:2022-11-07 05:56:41 公開日:2020-07-24
# 空間的無限生成モデル解釈

Interpreting Spatially Infinite Generative Models ( http://arxiv.org/abs/2007.12411v1 )

ライセンス: Link先を確認
Chaochao Lu, Richard E. Turner, Yingzhen Li, Nate Kushman(参考訳) 画像やその他の空間的モダリティの伝統的な深い生成モデルは、固定サイズの出力しか生成できない。 生成された画像はトレーニング画像とまったく同じ解像度を持ち、基盤となるニューラルネットワークのレイヤ数によって決定される。 しかし、近年の研究では、空間ノイズベクトルを完全な畳み込みニューラルネットワークに供給することで、任意の解像度出力画像の生成と任意の解像度トレーニング画像のトレーニングが可能であることが示されている。 この研究は印象的な実験的な結果をもたらしたが、基礎となる生成過程を説明するために理論的な解釈はほとんど提供されなかった。 本稿では,空間的確率過程との接続を描き,無限の空間生成に対する強固な理論的解釈を提案する。 得られた直観を用いて、既存の空間的無限生成モデルを改善し、無限生成逆ネットワーク($\infty$-GAN)と呼ばれるモデルを通してより効率的なトレーニングを可能にする。 世界地図生成、パノラマ画像、テクスチャ合成の実験は、任意の大きさの画像を効率的に生成する$\infty$-GANの能力を検証する。

Traditional deep generative models of images and other spatial modalities can only generate fixed sized outputs. The generated images have exactly the same resolution as the training images, which is dictated by the number of layers in the underlying neural network. Recent work has shown, however, that feeding spatial noise vectors into a fully convolutional neural network enables both generation of arbitrary resolution output images as well as training on arbitrary resolution training images. While this work has provided impressive empirical results, little theoretical interpretation was provided to explain the underlying generative process. In this paper we provide a firm theoretical interpretation for infinite spatial generation, by drawing connections to spatial stochastic processes. We use the resulting intuition to improve upon existing spatially infinite generative models to enable more efficient training through a model that we call an infinite generative adversarial network, or $\infty$-GAN. Experiments on world map generation, panoramic images and texture synthesis verify the ability of $\infty$-GAN to efficiently generate images of arbitrary size.
翻訳日:2022-11-07 05:56:00 公開日:2020-07-24
# 正規化未説明変量(nUV)差分測定値の経時的定数近似に対するほぼ最適結合

Approximately Optimal Binning for the Piecewise Constant Approximation of the Normalized Unexplained Variance (nUV) Dissimilarity Measure ( http://arxiv.org/abs/2007.12463v1 )

ライセンス: Link先を確認
Attila Fazekas and Gy\"orgy Kov\'acs(参考訳) 最近導入されたMatching by Tone Mapping (MTM) の相似性測定により、スムーズな非線形歪みの下でのテンプレートマッチングが可能となり、数学的背景も確立された。 MTMはテンプレートをバッキングすることで動作するが、特定の問題に対する理想的なバニングはオープンな問題である。 本稿では,MTMとよく知られた相互情報(MI)の間に重要な類似点を指摘することによって,MTMの「正規化無説明分散(nUV)」という用語を導入し,その関連性,適用性を強調した。 次に,nUV測度に対する最適ビンニング手法に関する理論的結果を提供し,近似解を求めるアルゴリズムを提案する。 理論的な結果は数値実験によって裏付けられている。 提案手法を用いることで,統計的に有意なAUCスコアが4~13%増加し,本手法が実応用におけるnUV測定性能を向上させる可能性が示唆された。

The recently introduced Matching by Tone Mapping (MTM) dissimilarity measure enables template matching under smooth non-linear distortions and also has a well-established mathematical background. MTM operates by binning the template, but the ideal binning for a particular problem is an open question. By pointing out an important analogy between the well known mutual information (MI) and MTM, we introduce the term "normalized unexplained variance" (nUV) for MTM to emphasize its relevance and applicability beyond image processing. Then, we provide theoretical results on the optimal binning technique for the nUV measure and propose algorithms to find approximate solutions. The theoretical findings are supported by numerical experiments. Using the proposed techniques for binning shows 4-13% increase in terms of AUC scores with statistical significance, enabling us to conclude that the proposed binning techniques have the potential to improve the performance of the nUV measure in real applications.
翻訳日:2022-11-07 05:55:10 公開日:2020-07-24
# 対話データのないダイアログ:vqaデータからビジュアルダイアログエージェントを学ぶ

Dialog without Dialog Data: Learning Visual Dialog Agents from VQA Data ( http://arxiv.org/abs/2007.12750v1 )

ライセンス: Link先を確認
Michael Cogswell, Jiasen Lu, Rishabh Jain, Stefan Lee, Devi Parikh, Dhruv Batra(参考訳) 人との会話を忘れずに、新しいタスクに効率的に適応できる対話エージェントを開発できるだろうか? このようなエージェントは、さまざまな既存のデータを活用して新しいタスクに一般化し、高価なデータ収集とアノテーションを最小限にすることができる。 本研究では、エージェントが言語レベルでの監督なしに新しいタスクに適応できる視覚的な接地ダイアログモデルを開発することを要求する「ダイアログなしダイアログ」という設定について検討する。 意図と言語を因子づけすることで,新しいタスクの微調整後の言語ドリフトを最小限に抑える。 我々のモデルが新しいタスクに適応し、言語品質を維持することができることを示す定性的な結果、自動メトリクス、そして人間の研究を提示します。 ベースラインは新しいタスクでうまく機能しないか、言語ドリフトを経験しないかのどちらかで、人間には知性に欠ける。 コードはhttps://github.com/mcogswell/dialog_without_dialogで利用可能になった。

Can we develop visually grounded dialog agents that can efficiently adapt to new tasks without forgetting how to talk to people? Such agents could leverage a larger variety of existing data to generalize to new tasks, minimizing expensive data collection and annotation. In this work, we study a setting we call "Dialog without Dialog", which requires agents to develop visually grounded dialog models that can adapt to new tasks without language level supervision. By factorizing intention and language, our model minimizes linguistic drift after fine-tuning for new tasks. We present qualitative results, automated metrics, and human studies that all show our model can adapt to new tasks and maintain language quality. Baselines either fail to perform well at new tasks or experience language drift, becoming unintelligible to humans. Code has been made available at https://github.com/mcogswell/dialog_without_dialog
翻訳日:2022-11-07 05:46:38 公開日:2020-07-24
# ナレッジグラフ補完のためのグラフニューラルネットワークに関する調査

A Survey on Graph Neural Networks for Knowledge Graph Completion ( http://arxiv.org/abs/2007.12374v1 )

ライセンス: Link先を確認
Siddhant Arora(参考訳) 知識グラフは、質問回答や情報検索など、さまざまな下流タスクで人気が高まっている。 しかし、知識グラフはしばしば不完全であり、結果として性能が低下する。 結果として、知識ベースコンプリートというタスクに多くの関心が寄せられている。 最近では、グラフニューラルネットワークを使用して、これらの知識グラフに固有の構造情報をキャプチャし、さまざまなデータセット間でSOTAパフォーマンスを達成することが示されている。 本研究は,提案手法の諸強みと弱みを理解し,さらなる調査を必要とするこの分野における新たなエキサイティングな研究課題を見出そうとするものである。

Knowledge Graphs are increasingly becoming popular for a variety of downstream tasks like Question Answering and Information Retrieval. However, the Knowledge Graphs are often incomplete, thus leading to poor performance. As a result, there has been a lot of interest in the task of Knowledge Base Completion. More recently, Graph Neural Networks have been used to capture structural information inherently stored in these Knowledge Graphs and have been shown to achieve SOTA performance across a variety of datasets. In this survey, we understand the various strengths and weaknesses of the proposed methodology and try to find new exciting research problems in this area that require further investigation.
翻訳日:2022-11-07 05:46:21 公開日:2020-07-24
# バビライ1.1

BabyAI 1.1 ( http://arxiv.org/abs/2007.12770v1 )

ライセンス: Link先を確認
David Yu-Tung Hui, Maxime Chevalier-Boisvert, Dzmitry Bahdanau, Yoshua Bengio(参考訳) babyaiプラットフォームは、接地した言語指示に従うためにエージェントを訓練するサンプル効率を測定するために設計されている。 BabyAI 1.0は、深い模倣や強化学習によって訓練されたエージェントのベースライン結果を示す。 BabyAI 1.1はエージェントのアーキテクチャを3つの小さな方法で改善する。 これにより強化学習サンプル効率が最大3倍向上し、最も難しいレベルの模倣学習性能が77%から90.4%に向上する。 これらの改善により,BabyAI実験の計算効率が向上し,より優れたエージェントの設計が期待できる。

The BabyAI platform is designed to measure the sample efficiency of training an agent to follow grounded-language instructions. BabyAI 1.0 presents baseline results of an agent trained by deep imitation or reinforcement learning. BabyAI 1.1 improves the agent's architecture in three minor ways. This increases reinforcement learning sample efficiency by up to 3 times and improves imitation learning performance on the hardest level from 77 % to 90.4 %. We hope that these improvements increase the computational efficiency of BabyAI experiments and help users design better agents.
翻訳日:2022-11-07 05:46:12 公開日:2020-07-24
# 医療データの精度が学習結果に及ぼす影響

Impact of Medical Data Imprecision on Learning Results ( http://arxiv.org/abs/2007.12375v1 )

ライセンス: Link先を確認
Mei Wang, Jianwen Su, Haiqin Lu(参考訳) 医療機器によって測定されたテストデータは、しばしば真の値を含む不正確な範囲を含む。 後者は事実上全ての場合に入手できない。 しかし、ほとんどの学習アルゴリズムは、例えば予測などの学習モデルのモデルと応用を得るための学習プロセスの両方に不確実な影響を及ぼす算術計算を実行する。 本稿では,事前学習モデルを用いて甲状腺機能亢進症の将来予測を行う医療応用において,インプレシジョンが予測結果に及ぼす影響について検討する。 データ不整合のモデルを定式化する。 パラメータを用いてインプレクションの度合いを制御し、このモデルを用いて比較実験のための不正確なサンプルを生成することができる。 さらに、異なる影響を定量的に評価する尺度群を定義する。 より具体的には、患者ごとの不整合予測を測定する統計が定義される。 本研究では,Long-Short-term memory(LSTM)ネットワークを用いて,提案した精度モデルから生成されたデータと対応するデータに基づいて予測結果を比較する実験を行った。 現実の甲状腺機能亢進症データセットに対する結果は、小さなインプレクションによって予測される結果が広範囲に及ぼし、個々の患者に対して間違ったラベル付けや不適切な処置(治療または無治療)を引き起こす可能性があるという洞察を与える。

Test data measured by medical instruments often carry imprecise ranges that include the true values. The latter are not obtainable in virtually all cases. Most learning algorithms, however, carry out arithmetical calculations that are subject to uncertain influence in both the learning process to obtain models and applications of the learned models in, e.g. prediction. In this paper, we initiate a study on the impact of imprecision on prediction results in a healthcare application where a pre-trained model is used to predict future state of hyperthyroidism for patients. We formulate a model for data imprecisions. Using parameters to control the degree of imprecision, imprecise samples for comparison experiments can be generated using this model. Further, a group of measures are defined to evaluate the different impacts quantitatively. More specifically, the statistics to measure the inconsistent prediction for individual patients are defined. We perform experimental evaluations to compare prediction results based on the data from the original dataset and the corresponding ones generated from the proposed precision model using the long-short-term memories (LSTM) network. The results against a real world hyperthyroidism dataset provide insights into how small imprecisions can cause large ranges of predicted results, which could cause mis-labeling and inappropriate actions (treatments or no treatments) for individual patients.
翻訳日:2022-11-07 05:45:37 公開日:2020-07-24