このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200819となっている論文です。

PDF登録状況(公開日: 20200819)

TitleAuthorsAbstract論文公表日・翻訳日
# 順序データにおける潜在構造回復のためのスパースチョレスキー共分散パラメトリゼーション

Sparse Cholesky covariance parametrization for recovering latent structure in ordered data ( http://arxiv.org/abs/2006.01448v2 )

ライセンス: Link先を確認
Irene C\'ordoba and Concha Bielza and Pedro Larra\~naga and Gherardo Varando(参考訳) 逆共分散行列のスパースコレスキーパラメトリゼーションはガウスベイズネットワークと解釈できるが、その共分散コレスキー因子は、順序付き信号データの隠れ変数モデルとして自然に解釈されているにもかかわらず、ほとんど注目されていない。 このギャップを埋めるため,本論文では共分散行列のcholesky因子における任意のゼロパターンに着目した。 我々は,これらのモデルがガウス・ベイズネットワークと類似して,明らかな順序が存在しないデータにも拡張可能であることについて議論する。 順序付きシナリオでは,既存の回帰に基づく手法とは対照的に,行列損失ペナリゼーションに基づく新しい推定法を提案する。 コレスキー因子に対するこのスパースモデルの性能は、我々の新しい推定器とともに、変数間に自然な順序が現れる空間的・時間的実データと同様にシミュレーション設定で評価される。 実験結果に基づいて,どの手法が各設定に適しているかに関するガイドラインを提示する。

The sparse Cholesky parametrization of the inverse covariance matrix can be interpreted as a Gaussian Bayesian network; however its counterpart, the covariance Cholesky factor, has received, with few notable exceptions, little attention so far, despite having a natural interpretation as a hidden variable model for ordered signal data. To fill this gap, in this paper we focus on arbitrary zero patterns in the Cholesky factor of a covariance matrix. We discuss how these models can also be extended, in analogy with Gaussian Bayesian networks, to data where no apparent order is available. For the ordered scenario, we propose a novel estimation method that is based on matrix loss penalization, as opposed to the existing regression-based approaches. The performance of this sparse model for the Cholesky factor, together with our novel estimator, is assessed in a simulation setting, as well as over spatial and temporal real data where a natural ordering arises among the variables. We give guidelines, based on the empirical results, about which of the methods analysed is more appropriate for each setting.
翻訳日:2022-11-25 23:26:19 公開日:2020-08-19
# オフライン強化学習のための保守的Qラーニング

Conservative Q-Learning for Offline Reinforcement Learning ( http://arxiv.org/abs/2006.04779v3 )

ライセンス: Link先を確認
Aviral Kumar, Aurick Zhou, George Tucker, Sergey Levine(参考訳) 大規模で以前に収集されたデータセットを強化学習(RL)で効果的に活用することは、大規模な実世界のアプリケーションにとって重要な課題である。 オフラインのRLアルゴリズムは、事前コンパイルされた静的データセットから効果的なポリシーを、さらなるインタラクションなしで学習することを約束する。 しかし、実際にはオフラインRLは大きな課題であり、特に複雑なマルチモーダルデータ分散のトレーニングにおいて、データセットと学習ポリシーの間の分散シフトによって引き起こされる値の過大評価によって、標準的なオフポリティクスRLメソッドが失敗する可能性がある。 本稿では,保守的なQ-関数を学習することで,これらの制約に対処することを目的とした保守的なQ-ラーニング(CQL)を提案する。 理論的には、CQLは現在のポリシーの価値の低いバウンドを生成し、理論的な改善を保証する政策学習手順に組み込むことができることを示す。 実際には、cqlは標準的なベルマンエラーの目的を、既存の深いq-learningとアクタ-クリティックな実装の上に簡単に実装できる単純なq-value正規化で強化している。 離散制御ドメインと連続制御ドメインの両方において、CQLは既存のオフラインRLメソッドよりも大幅に優れており、特に複雑かつマルチモーダルなデータ分散から学ぶ場合、最終的なリターンの2~5倍に達するポリシーを学習することが多い。

Effectively leveraging large, previously collected datasets in reinforcement learning (RL) is a key challenge for large-scale real-world applications. Offline RL algorithms promise to learn effective policies from previously-collected, static datasets without further interaction. However, in practice, offline RL presents a major challenge, and standard off-policy RL methods can fail due to overestimation of values induced by the distributional shift between the dataset and the learned policy, especially when training on complex and multi-modal data distributions. In this paper, we propose conservative Q-learning (CQL), which aims to address these limitations by learning a conservative Q-function such that the expected value of a policy under this Q-function lower-bounds its true value. We theoretically show that CQL produces a lower bound on the value of the current policy and that it can be incorporated into a policy learning procedure with theoretical improvement guarantees. In practice, CQL augments the standard Bellman error objective with a simple Q-value regularizer which is straightforward to implement on top of existing deep Q-learning and actor-critic implementations. On both discrete and continuous control domains, we show that CQL substantially outperforms existing offline RL methods, often learning policies that attain 2-5 times higher final return, especially when learning from complex and multi-modal data distributions.
翻訳日:2022-11-24 01:01:11 公開日:2020-08-19
# 巡回線形因果モデルのための構造学習

Structure Learning for Cyclic Linear Causal Models ( http://arxiv.org/abs/2006.05978v2 )

ライセンス: Link先を確認
Carlos Am\'endola, Philipp Dettling, Mathias Drton, Federica Onori, Jun Wu(参考訳) 観測データに基づく線形因果モデルにおける構造学習の問題点を考察する。 循環型混成グラフによって与えられるモデルを扱うことで、フィードバックループと潜伏した共同設立者の影響を可能とします。 ボウフリー非巡回グラフに関する関連する研究を一般化し、基礎となるグラフは単純であると仮定する。 これは、2つの観測された変数を少なくとも1つの直接因果効果で関連付けることができ、構造方程式における誤り項間の(共起的)相関は直接因果効果がない場合にのみ起こることを意味する。 循環の場合の新たな微妙さにもかかわらず、単純な巡回モデルが期待される次元であり、従来は弓のない非循環グラフの分布同値性に対する基準が循環の場合に類似していることが示される。 モデル次元に関する我々の結果は、特にスコアに基づく線形ガウス混合グラフモデルの構造学習法を正当化する。

We consider the problem of structure learning for linear causal models based on observational data. We treat models given by possibly cyclic mixed graphs, which allow for feedback loops and effects of latent confounders. Generalizing related work on bow-free acyclic graphs, we assume that the underlying graph is simple. This entails that any two observed variables can be related through at most one direct causal effect and that (confounding-induced) correlation between error terms in structural equations occurs only in absence of direct causal effects. We show that, despite new subtleties in the cyclic case, the considered simple cyclic models are of expected dimension and that a previously considered criterion for distributional equivalence of bow-free acyclic graphs has an analogue in the cyclic case. Our result on model dimension justifies in particular score-based methods for structure learning of linear Gaussian mixed graph models, which we implement via greedy search.
翻訳日:2022-11-23 06:17:18 公開日:2020-08-19
# ヘテロジニアスデータセット上での通信効率の高いロバスト連合学習

Communication-Efficient Robust Federated Learning Over Heterogeneous Datasets ( http://arxiv.org/abs/2006.09992v3 )

ライセンス: Link先を確認
Yanjie Dong and Georgios B. Giannakis and Tianyi Chen and Julian Cheng and Md. Jahangir Hossain and Victor C. M. Leung(参考訳) 本研究は,データサンプルが不均一にワーカーに分散されている場合のフォールトレジリエントなフェデレーション学習を調査し,中央サーバに障害のあるワーカの数を未知数とする。 戦略的に不都合な労働者が存在する場合、交換されたローカルメッセージ(例えば、ローカル勾配および/またはローカルモデルパラメータ)は信頼できないため、バニラ確率勾配降下(sgd)アルゴリズムは収束することが保証されない。 近年,バニラSGDの収束速度を低下させるコストで,不良作業者に対して堅牢性を提供することによってアルゴリズムが改良されている。 この制限を解消するため,本研究では,nesterovの加速度法を応用したフォールトレジリエント近位勾配 (frpg) アルゴリズムを導入する。 FRPGの通信オーバヘッドを低減するため,サーバ間パラメータ交換が可能なローカル(L)FRPGアルゴリズムも開発された。 強凸損失関数に対して、frpg と lfrpg はベンチマークロバストな確率集約アルゴリズムよりも高速に収束する。 さらに、LFRPGは同じ通信ラウンドを使用しながらFRPGよりも早く収束する。 様々な実データセット上で実施された数値実験により、頑健な確率的集約ベンチマークと競合する代替手段に対するFRPGとLFRPGの加速収束が確認された。

This work investigates fault-resilient federated learning when the data samples are non-uniformly distributed across workers, and the number of faulty workers is unknown to the central server. In the presence of adversarially faulty workers who may strategically corrupt datasets, the local messages exchanged (e.g., local gradients and/or local model parameters) can be unreliable, and thus the vanilla stochastic gradient descent (SGD) algorithm is not guaranteed to converge. Recently developed algorithms improve upon vanilla SGD by providing robustness to faulty workers at the price of slowing down convergence. To remedy this limitation, the present work introduces a fault-resilient proximal gradient (FRPG) algorithm that relies on Nesterov's acceleration technique. To reduce the communication overhead of FRPG, a local (L) FRPG algorithm is also developed to allow for intermittent server-workers parameter exchanges. For strongly convex loss functions, FRPG and LFRPG have provably faster convergence rates than a benchmark robust stochastic aggregation algorithm. Moreover, LFRPG converges faster than FRPG while using the same communication rounds. Numerical tests performed on various real datasets confirm the accelerated convergence of FRPG and LFRPG over the robust stochastic aggregation benchmark and competing alternatives.
翻訳日:2022-11-19 19:42:26 公開日:2020-08-19
# 自動飛行画像を用いたコンクリート老化検出のための生成的損傷学習

Generative Damage Learning for Concrete Aging Detection using Auto-flight Images ( http://arxiv.org/abs/2006.15257v2 )

ライセンス: Link先を確認
Takato Yasuno, Akira Ishii, Junichiro Fujii, Masazumi Amakata, Yuta Takahashi(参考訳) 大規模インフラの状態を監視するため、自律飛行ドローンによる画像取得は、安定した角度と高品質の画像に効率的である。 教師あり学習は、画像と注釈ラベルからなる大きなデータセットを必要とする。 損傷した関心領域(ROI)を識別するなど、画像の蓄積には長い時間がかかる。 近年、異常検出アルゴリズムのためのgans(generative adversarial networks)のような教師なしディープラーニングアプローチが進められている。 損傷画像が発電機入力である場合には、損傷状態から健康状態生成画像に反転する傾向がある。 実際の損傷画像と生成したリバースエイジング健康状態フェイク画像との間の分布距離を用いて、教師なし学習から自動的にコンクリート損傷を検出することができる。 本稿では,損傷画像からの非ペア画像対画像変換マッピングを用いた異常検出法を提案する。 フィールド研究に本手法を適用し, コンクリート損傷の健康モニタリングにおける本手法の有用性について検討した。

In order to monitor the state of large-scale infrastructures, image acquisition by autonomous flight drones is efficient for stable angle and high-quality images. Supervised learning requires a large data set consisting of images and annotation labels. It takes a long time to accumulate images, including identifying the damaged regions of interest (ROIs). In recent years, unsupervised deep learning approaches such as generative adversarial networks (GANs) for anomaly detection algorithms have progressed. When a damaged image is a generator input, it tends to reverse from the damaged state to the healthy state generated image. Using the distance of distribution between the real damaged image and the generated reverse aging healthy state fake image, it is possible to detect the concrete damage automatically from unsupervised learning. This paper proposes an anomaly detection method using unpaired image-to-image translation mapping from damaged images to reverse aging fakes that approximates healthy conditions. We apply our method to field studies, and we examine the usefulness of our method for health monitoring of concrete damage.
翻訳日:2022-11-16 08:07:20 公開日:2020-08-19
# テキスト生成における品質多様性評価と配電目標の関係について

On the Relation between Quality-Diversity Evaluation and Distribution-Fitting Goal in Text Generation ( http://arxiv.org/abs/2007.01488v2 )

ライセンス: Link先を確認
Jianing Li, Yanyan Lan, Jiafeng Guo, Xueqi Cheng(参考訳) テキスト生成モデルの目標は、テキストの実際の確率分布に適合することである。 パフォーマンス評価には、通常品質と多様性のメトリクスが適用される。 しかし, 品質・多様性評価が分布適合目標を反映しているのかは, いまだ明らかでない。 本稿では,理論的アプローチでそのような関係を明らかにする。 ある条件下では、品質と多様性の線形結合は、生成した分布と実分布の間の分岐計量を構成する。 また,一般的に用いられるbleu/self-bleu計量対は発散計量と一致しないため,cr/nrrを品質/多様性計量対の代用として提案する。

The goal of text generation models is to fit the underlying real probability distribution of text. For performance evaluation, quality and diversity metrics are usually applied. However, it is still not clear to what extend can the quality-diversity evaluation reflect the distribution-fitting goal. In this paper, we try to reveal such relation in a theoretical approach. We prove that under certain conditions, a linear combination of quality and diversity constitutes a divergence metric between the generated distribution and the real distribution. We also show that the commonly used BLEU/Self-BLEU metric pair fails to match any divergence metric, thus propose CR/NRR as a substitute for quality/diversity metric pair.
翻訳日:2022-11-14 04:17:56 公開日:2020-08-19
# 大津法の一般化と最小誤差しきい値化

A Generalization of Otsu's Method and Minimum Error Thresholding ( http://arxiv.org/abs/2007.07350v3 )

ライセンス: Link先を確認
Jonathan T. Barron(参考訳) 単純かつ高速かつ効果的なヒストグラム画像しきい値取得技術である一般化ヒストグラム閾値法(GHT)を提案する。 GHT はガウスの混合と適切な先行を近似的に最大に推定することで機能する。 我々は,GHTが,大津法,最小誤差閾値(MET),重み付きパーセンタイルしきい値の3つの古典的しきい値法を特別な場合として仮定することを実証した。 これにより、3つのアルゴリズム間の連続的な補間が可能となり、しきい値の精度が大幅に向上する。 GHTはまた、閾値付け中にヒストグラムのビン幅を粗くする一般的な慣習を明確に解釈する。 GHTは、手書きの文書画像バイナライゼーション(ピクセル単位のバイナライゼーションを訓練したディープニューラルネットワークを含む)に対する最近の課題において、すべてのアルゴリズムの性能より優れているか、あるいは一致していることを示し、12行のコードで実装するか、あるいは大津の方法やMETの簡単な修正として実装可能である。

We present Generalized Histogram Thresholding (GHT), a simple, fast, and effective technique for histogram-based image thresholding. GHT works by performing approximate maximum a posteriori estimation of a mixture of Gaussians with appropriate priors. We demonstrate that GHT subsumes three classic thresholding techniques as special cases: Otsu's method, Minimum Error Thresholding (MET), and weighted percentile thresholding. GHT thereby enables the continuous interpolation between those three algorithms, which allows thresholding accuracy to be improved significantly. GHT also provides a clarifying interpretation of the common practice of coarsening a histogram's bin width during thresholding. We show that GHT outperforms or matches the performance of all algorithms on a recent challenge for handwritten document image binarization (including deep neural networks trained to produce per-pixel binarizations), and can be implemented in a dozen lines of code or as a trivial modification to Otsu's method or MET.
翻訳日:2022-11-10 15:10:23 公開日:2020-08-19
# 視覚言語ナビゲーションのためのアクティブビジュアル情報収集

Active Visual Information Gathering for Vision-Language Navigation ( http://arxiv.org/abs/2007.08037v3 )

ライセンス: Link先を確認
Hanqing Wang, Wenguan Wang, Tianmin Shu, Wei Liang and Jianbing Shen(参考訳) 視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。 VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。 現在のアプローチで訓練されたエージェントは通常、これに苦しむため、すべてのステップでランダムで非効率なアクションを避けるのに苦労する。 対照的に、人間がこのような課題に直面した場合でも、周囲を積極的に探索してより多くの情報を集め、より確実なナビゲーション決定を行うことで、堅牢なナビゲーションを維持することができる。 この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントな視覚言語ナビゲーションポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。 これを実現するために,探索政策を学習するためのエンドツーエンドフレームワークを提案する。 i) いつどこで探検するか 二 探査中に収集する価値のある情報、及び 三 探検後の航法決定の調整方法 実験の結果,訓練から有望な探索戦略が出現し,ナビゲーション性能が大幅に向上した。 R2Rチャレンジのリーダーボードでは、エージェントは3つのVLN設定、すなわちシングルラン、事前探索、ビームサーチすべてに対して有望な結果を得る。

Vision-language navigation (VLN) is the task of entailing an agent to carry out navigational instructions inside photo-realistic environments. One of the key challenges in VLN is how to conduct a robust navigation by mitigating the uncertainty caused by ambiguous instructions and insufficient observation of the environment. Agents trained by current approaches typically suffer from this and would consequently struggle to avoid random and inefficient actions at every step. In contrast, when humans face such a challenge, they can still maintain robust navigation by actively exploring the surroundings to gather more information and thus make more confident navigation decisions. This work draws inspiration from human navigation behavior and endows an agent with an active information gathering ability for a more intelligent vision-language navigation policy. To achieve this, we propose an end-to-end framework for learning an exploration policy that decides i) when and where to explore, ii) what information is worth gathering during exploration, and iii) how to adjust the navigation decision after the exploration. The experimental results show promising exploration strategies emerged from training, which leads to significant boost in navigation performance. On the R2R challenge leaderboard, our agent gets promising results all three VLN settings, i.e., single run, pre-exploration, and beam search.
翻訳日:2022-11-10 06:11:52 公開日:2020-08-19
# 多チャンネル筋電図データから手の動きを分類する時空間深部畳み込みニューラルネットワーク

A temporal-to-spatial deep convolutional neural network for classification of hand movements from multichannel electromyography data ( http://arxiv.org/abs/2007.10879v2 )

ライセンス: Link先を確認
Adam Hartwell, Visakan Kadirkamanathan, Sean R. Anderson(参考訳) 深層畳み込みニューラルネットワーク(CNN)は、表面筋電図(SEMG)データから手の動きを分類する目的で、原データから人固有の自動抽出を行う能力を持っている。 本稿では,マルチチャネルsEMGのための深部CNNにおける初期処理層の設計を提案し,評価する新手法を提案する。 具体的には、第1層が各sEMGチャネル上で個別に畳み込みを行い、時間的特徴を抽出する新しい時間空間CNNアーキテクチャを提案する。 これは、各チャネルのsEMG信号が1つまたは少数の筋肉のサブセットによって媒介されるという考えに動機付けられており、その時間的活性化パターンはジェスチャーの署名的特徴と関連している。 時間層は、各チャネルのこれらのシグネチャ特徴を別々にキャプチャし、その後、連続層に空間的に混合して特定のジェスチャーを認識する。 実用的な利点は、このアプローチがcnnを異なるサンプルレートで設計しやすくすることである。 我々は,NinaProデータベース1(被験者27名,運動52名,静止52名)を100Hzで,データベース2(被験者40名,運動40名,静止40名)を2kHzで,提案したCNN設計を評価する。 我々は,機能ベースサポートベクトルマシン(SVM)分類器,文献からの2つのCNN,CNNのさらなる標準設計に対してベンチマークを行った。 我々は,新しいtts cnn設計により,データベース1では66.6%,データベース2では67.8%の精度を達成し,2%の重要度で統計的仮説テストを用いて,他のすべての比較分類器を上回った。

Deep convolutional neural networks (CNNs) are appealing for the purpose of classification of hand movements from surface electromyography (sEMG) data because they have the ability to perform automated person-specific feature extraction from raw data. In this paper, we make the novel contribution of proposing and evaluating a design for the early processing layers in the deep CNN for multichannel sEMG. Specifically, we propose a novel temporal-to-spatial (TtS) CNN architecture, where the first layer performs convolution separately on each sEMG channel to extract temporal features. This is motivated by the idea that sEMG signals in each channel are mediated by one or a small subset of muscles, whose temporal activation patterns are associated with the signature features of a gesture. The temporal layer captures these signature features for each channel separately, which are then spatially mixed in successive layers to recognise a specific gesture. A practical advantage is that this approach also makes the CNN simple to design for different sample rates. We use NinaPro database 1 (27 subjects and 52 movements + rest), sampled at 100 Hz, and database 2 (40 subjects and 40 movements + rest), sampled at 2 kHz, to evaluate our proposed CNN design. We benchmark against a feature-based support vector machine (SVM) classifier, two CNNs from the literature, and an additional standard design of CNN. We find that our novel TtS CNN design achieves 66.6% per-class accuracy on database 1, and 67.8% on database 2, and that the TtS CNN outperforms all other compared classifiers using a statistical hypothesis test at the 2% significance level.
翻訳日:2022-11-10 00:08:43 公開日:2020-08-19
# データ管理と機械学習におけるスコアベース説明

Score-Based Explanations in Data Management and Machine Learning ( http://arxiv.org/abs/2007.12799v2 )

ライセンス: Link先を確認
Leopoldo Bertossi(参考訳) データ管理と機械学習における観察結果の説明に対するいくつかのアプローチについて述べる。 これらは事前に定義され、潜在的に関連する入力に対する数値スコアの割り当てに基づいている。 より具体的には、データベースのクエリ応答と分類モデルの結果についての説明を検討する。 記述されたアプローチは、主に因果的かつ反事実的性質である。 我々は、ドメインとセマンティックな知識を計算に取り入れる必要性を主張し、これを行ういくつかの方法を提案する。

We describe some approaches to explanations for observed outcomes in data management and machine learning. They are based on the assignment of numerical scores to predefined and potentially relevant inputs. More specifically, we consider explanations for query answers in databases, and for results from classification models. The described approaches are mostly of a causal and counterfactual nature. We argue for the need to bring domain and semantic knowledge into score computations; and suggest some ways to do this.
翻訳日:2022-11-07 06:23:29 公開日:2020-08-19
# ニューラルネットのための正規化フレキシブルアクティベーション関数の組み合わせ

Regularized Flexible Activation Function Combinations for Deep Neural Networks ( http://arxiv.org/abs/2007.13101v2 )

ライセンス: Link先を確認
Renlong Jie, Junbin Gao, Andrey Vasnev, Min-ngoc Tran(参考訳) ディープニューラルネットワークにおける活性化は、非線形マッピングの実現に不可欠である。 伝統的な研究は、主に特定の学習タスクやモデルアーキテクチャの一定のアクティベーションを見つけることに焦点を当てている。 フレキシブルアクティベーションに関する研究は、設計哲学とアプリケーションシナリオの両方において極めて限定的です。 本研究では, フレキシブルアクティベーション成分の選択に関する3つの原則を提案し, 汎用的なフレキシブルアクティベーション関数の構成法を提案する。 これに基づいて、LSTM細胞のシグモイドやタンを置換できる新規なフレキシブルアクティベーション機能ファミリーが実装され、ReLUとELUを組み合わせた新しいファミリーが導入された。 また、事前知識としての仮定に基づく2つの新しい正規化用語を導入する。 フレキシブルアクティベーションが提案されたLSTMモデルは時系列予測において大幅に改善され,P-E2-ReLUは畳み込みオートエンコーダを用いた画像圧縮タスクにおいて,より優れた,より安定した性能を実現している。 さらに,提案する正規化項により,モデルの収束性,性能,安定性が向上した。

Activation in deep neural networks is fundamental to achieving non-linear mappings. Traditional studies mainly focus on finding fixed activations for a particular set of learning tasks or model architectures. The research on flexible activation is quite limited in both designing philosophy and application scenarios. In this study, three principles of choosing flexible activation components are proposed and a general combined form of flexible activation functions is implemented. Based on this, a novel family of flexible activation functions that can replace sigmoid or tanh in LSTM cells are implemented, as well as a new family by combining ReLU and ELUs. Also, two new regularisation terms based on assumptions as prior knowledge are introduced. It has been shown that LSTM models with proposed flexible activations P-Sig-Ramp provide significant improvements in time series forecasting, while the proposed P-E2-ReLU achieves better and more stable performance on lossy image compression tasks with convolutional auto-encoders. In addition, the proposed regularization terms improve the convergence, performance and stability of the models with flexible activation functions.
翻訳日:2022-11-06 19:36:14 公開日:2020-08-19
# ベイズ後方予測に基づくグループテストにおけるアクティブプール設計

Active pooling design in group testing based on Bayesian posterior prediction ( http://arxiv.org/abs/2007.13323v2 )

ライセンス: Link先を確認
Ayaka Sakata(参考訳) 集団で感染した患者を特定する際、集団検査は検査数を減らし、検査ミスを修正する効果的な方法である。 グループテストでは、患者から採取した標本のプール上でテストが行われ、プールの数は患者よりも少ない。 グループテストのパフォーマンスは、感染した患者を検査結果から推測するために使用されるプールやアルゴリズムの設計に大きく依存する。 本稿では,ベイズ推定の枠組みにおいて,予測分布に基づくプールの適応設計法を提案する。 信念伝達アルゴリズムを用いて行った提案手法は,事前に決定されたランダムプール上で行ったグループテストと比較して,感染した患者をより正確に同定する。

In identifying infected patients in a population, group testing is an effective method to reduce the number of tests and correct the test errors. In the group testing procedure, tests are performed on pools of specimens collected from patients, where the number of pools is lower than that of patients. The performance of group testing heavily depends on the design of pools and algorithms that are used in inferring the infected patients from the test outcomes. In this paper, an adaptive design method of pools based on the predictive distribution is proposed in the framework of Bayesian inference. The proposed method executed using the belief propagation algorithm results in more accurate identification of the infected patients, as compared to the group testing performed on random pools determined in advance.
翻訳日:2022-11-06 08:10:52 公開日:2020-08-19
# 機械学習ベンチマークのデコード

Decoding machine learning benchmarks ( http://arxiv.org/abs/2007.14870v2 )

ライセンス: Link先を確認
Lucas F. F. Cardoso, Vitor C. A. Santos, Regiane S. K. Franc\^es, Ricardo B. C. Prud\^encio and Ronnie C. O. Alves(参考訳) ベンチマーク機械学習(ML)レポジトリ(UCI、OpenMLなど)が利用可能であるにもかかわらず、異なるMLアルゴリズムをテストするためのゴールドスタンダードとして機能するデータセットのどれが最適であるかを指摘できる標準評価戦略はまだ存在しない。 最近の研究で、項目応答理論(IRT)は、良いMLベンチマークであるべきものを解明するための新しいアプローチとして登場した。 この研究はIRTを用いてよく知られたOpenML-CC18ベンチマークを調べ、それが分類器の評価にどの程度適しているかを特定した。 古典からアンサンブルまで、いくつかの分類器をIRTモデルを用いて評価し、データセットの難易度と分類器の能力を同時に推定した。 Glicko-2の評価システムはIRTの上部に応用され、分類器の能力と適性を要約した。 OpenML-CC18のすべてのデータセットが、分類器を評価するのに本当に役立つわけではないことが観察された。 この研究で評価されたほとんどのデータセット(84%)は一般に簡単なインスタンスを含んでいる(例えば、難しいインスタンスの約10%)。 また、このベンチマークの半分のインスタンスの80%は非常に差別的であり、ペアのアルゴリズム比較に非常に役立ちますが、分類器の能力を押し上げるには役に立ちません。 本稿では IRT に基づく新しい評価手法と IRT の評価をML ベンチマーク上で導くツール deodIRT を提案する。

Despite the availability of benchmark machine learning (ML) repositories (e.g., UCI, OpenML), there is no standard evaluation strategy yet capable of pointing out which is the best set of datasets to serve as gold standard to test different ML algorithms. In recent studies, Item Response Theory (IRT) has emerged as a new approach to elucidate what should be a good ML benchmark. This work applied IRT to explore the well-known OpenML-CC18 benchmark to identify how suitable it is on the evaluation of classifiers. Several classifiers ranging from classical to ensembles ones were evaluated using IRT models, which could simultaneously estimate dataset difficulty and classifiers' ability. The Glicko-2 rating system was applied on the top of IRT to summarize the innate ability and aptitude of classifiers. It was observed that not all datasets from OpenML-CC18 are really useful to evaluate classifiers. Most datasets evaluated in this work (84%) contain easy instances in general (e.g., around 10% of difficult instances only). Also, 80% of the instances in half of this benchmark are very discriminating ones, which can be of great use for pairwise algorithm comparison, but not useful to push classifiers abilities. This paper presents this new evaluation methodology based on IRT as well as the tool decodIRT, developed to guide IRT estimation over ML benchmarks.
翻訳日:2022-11-05 19:43:05 公開日:2020-08-19
# 野生の単一画像からの3次元物体空間配置の知覚

Perceiving 3D Human-Object Spatial Arrangements from a Single Image in the Wild ( http://arxiv.org/abs/2007.15649v2 )

ライセンス: Link先を確認
Jason Y. Zhang and Sam Pepose and Hanbyul Joo and Deva Ramanan and Jitendra Malik and Angjoo Kanazawa(参考訳) 制御不能な環境下で撮影された単一の画像から、グローバルに一貫した3Dシーンにおける人間と物体の空間配置と形状を推定する手法を提案する。 特に,本手法はシーンレベルの3D監視を伴わないデータセットで動作する。 私たちの重要な洞察は、人間と物体を共同で考えると、曖昧さを解決するために使用できる「3d common sense」の制約が生じるということです。 特に,データから物体サイズの分布を学習するスケール損失,物体のポーズを最適化するためのオクルージョンアウェアシルエット再投影損失,人間の相互作用する物体の空間配置をキャプチャするヒューマン・オブジェクト間インタラクション損失について紹介する。 私たちの制約は、おそらく3d空間構成の空間を劇的に削減できることを実証的に検証します。 我々は、大型物体(自転車、オートバイ、サーフボードなど)やハンドヘルド物体(ラップトップ、テニスラケット、スケートボードなど)と対話する人間の挑戦的で、野生のイメージに対する我々のアプローチを実証する。 我々は、人間とオブジェクトのアレンジメントを回復するアプローチの能力を定量化し、この相対的な領域に残る課題を概説する。 プロジェクトのWebページはhttps://jasonyzhang.com/phosa.comにある。

We present a method that infers spatial arrangements and shapes of humans and objects in a globally consistent 3D scene, all from a single image in-the-wild captured in an uncontrolled environment. Notably, our method runs on datasets without any scene- or object-level 3D supervision. Our key insight is that considering humans and objects jointly gives rise to "3D common sense" constraints that can be used to resolve ambiguity. In particular, we introduce a scale loss that learns the distribution of object size from data; an occlusion-aware silhouette re-projection loss to optimize object pose; and a human-object interaction loss to capture the spatial layout of objects with which humans interact. We empirically validate that our constraints dramatically reduce the space of likely 3D spatial configurations. We demonstrate our approach on challenging, in-the-wild images of humans interacting with large objects (such as bicycles, motorcycles, and surfboards) and handheld objects (such as laptops, tennis rackets, and skateboards). We quantify the ability of our approach to recover human-object arrangements and outline remaining challenges in this relatively domain. The project webpage can be found at https://jasonyzhang.com/phosa.
翻訳日:2022-11-05 14:36:23 公開日:2020-08-19
# ウェアラブルから人間活動の深層的クラスタリングに向けて

Towards Deep Clustering of Human Activities from Wearables ( http://arxiv.org/abs/2008.01659v2 )

ライセンス: Link先を確認
Alireza Abedin, Farbod Motlagh, Qinfeng Shi, Seyed Hamid Rezatofighi, Damith Chinthana Ranasinghe(参考訳) 人間の行動および健康および健康における活動監視のアプリケーションに対する低コストなウェアラブルセンシングモダリティを活用する能力は、教師付き学習体制に依存している。 しかし、センサアクティビティデータセットの収集と注釈付けのコストのかかる作業は、労働集約的で、時間がかかり、大量のデータに対してスケーラビリティがない。 既存の教師なしのディープクラスタリングの修正は、静的イメージデータセット用に調整されたネットワークアーキテクチャと最適化目標を活用するが、深層アーキテクチャは、オンボディセンサーによってキャプチャされた生のシーケンスデータからクラスタ構造を明らかにする。 本稿では,ウェアラブル端末からのヒューマンアクティビティ認識(HAR)の基本問題に対する教師なしエンドツーエンド学習戦略を開発する。 既存の手法との比較を含む広範な実験を通して,センサデータの教師なし表現を共同学習し,異なる人間の活動に強い意味的対応を持つクラスタ代入を生成する手法の有効性を示す。

Our ability to exploit low-cost wearable sensing modalities for critical human behaviour and activity monitoring applications in health and wellness is reliant on supervised learning regimes; here, deep learning paradigms have proven extremely successful in learning activity representations from annotated data. However, the costly work of gathering and annotating sensory activity datasets is labor-intensive, time consuming and not scalable to large volumes of data. While existing unsupervised remedies of deep clustering leverage network architectures and optimization objectives that are tailored for static image datasets, deep architectures to uncover cluster structures from raw sequence data captured by on-body sensors remains largely unexplored. In this paper, we develop an unsupervised end-to-end learning strategy for the fundamental problem of human activity recognition (HAR) from wearables. Through extensive experiments, including comparisons with existing methods, we show the effectiveness of our approach to jointly learn unsupervised representations for sensory data and generate cluster assignments with strong semantic correspondence to distinct human activities.
翻訳日:2022-11-03 20:01:45 公開日:2020-08-19
# 公理に基づくGrad-CAM:CNNの正確な可視化と説明に向けて

Axiom-based Grad-CAM: Towards Accurate Visualization and Explanation of CNNs ( http://arxiv.org/abs/2008.02312v4 )

ライセンス: Link先を確認
Ruigang Fu, Qingyong Hu, Xiaohu Dong, Yulan Guo, Yinghui Gao, Biao Li(参考訳) 畳み込みニューラルネットワーク(CNN)をよりよく理解し利用するために、近年CNNの可視化と解釈が注目されている。 特に,CNNの決定と画像領域の関連性を明らかにするために,いくつかのクラス活性化マッピング法が提案されている。 合理的な視覚化にもかかわらず、明確で十分な理論的サポートがないことが、これらの方法の主な制限である。 本稿では,CAM手法の可視化パラダイムに2つの公理(保存と感性)を導入する。 一方、これらの公理をできるだけ満たすために、専用公理ベースのGrad-CAM(XGrad-CAM)が提案されている。 実験により、XGrad-CAMは保存と感度の観点からGrad-CAMの強化版であることが示された。 また、Grad-CAM++やAblation-CAMと比較して、クラス識別と実装が容易である。 コードはhttps://github.com/Fu0511/XGrad-CAMで入手できる。

To have a better understanding and usage of Convolution Neural Networks (CNNs), the visualization and interpretation of CNNs has attracted increasing attention in recent years. In particular, several Class Activation Mapping (CAM) methods have been proposed to discover the connection between CNN's decision and image regions. In spite of the reasonable visualization, lack of clear and sufficient theoretical support is the main limitation of these methods. In this paper, we introduce two axioms -- Conservation and Sensitivity -- to the visualization paradigm of the CAM methods. Meanwhile, a dedicated Axiom-based Grad-CAM (XGrad-CAM) is proposed to satisfy these axioms as much as possible. Experiments demonstrate that XGrad-CAM is an enhanced version of Grad-CAM in terms of conservation and sensitivity. It is able to achieve better visualization performance than Grad-CAM, while also be class-discriminative and easy-to-implement compared with Grad-CAM++ and Ablation-CAM. The code is available at https://github.com/Fu0511/XGrad-CAM.
翻訳日:2022-11-02 17:27:16 公開日:2020-08-19
# レコメンダシステムからコールドスタート検索検索へのゼロショット異種変換学習

Zero-Shot Heterogeneous Transfer Learning from Recommender Systems to Cold-Start Search Retrieval ( http://arxiv.org/abs/2008.02930v2 )

ライセンス: Link先を確認
Tao Wu, Ellie Ka-In Chio, Heng-Tze Cheng, Yu Du, Steffen Rendle, Dima Kuzmin, Ritesh Agarwal, Li Zhang, John Anderson, Sarvjeet Singh, Tushar Chandra, Ed H. Chi, Wen Li, Ankit Kumar, Xiang Ma, Alex Soares, Nitin Jindal, Pei Cao(参考訳) クエリが与えられたトップk項目を予測するニューラル情報検索モデルにおける最近の多くの進歩は、大きなトレーニングセット(クエリ、アイテム)から直接学習する。 しかし、以前は見つからなかった(クエリ、アイテム)組み合わせが多数あり、しばしばコールドスタート問題と呼ばれる場合、それらは不十分である。 さらに、検索システムは、'リッチ・ゲット・リッチ(rich get rich)'(フィードバックループ)問題として知られる、クエリに頻繁に表示される項目に対してバイアスを負うことができる。 これらの問題を踏まえて、オンラインコンテンツプラットフォームの多くは検索とレコメンデータシステムを備えており、不均一な入力空間を持つにもかかわらず、共通の出力項目空間と共有セマンティック表現を介して接続することができる。 本稿では,コンテンツプラットフォームの検索コンポーネントを改善するために,推薦システムコンポーネントから学習知識を伝達するZero-Shot Heterogeneous Transfer Learningフレームワークを提案する。 まず,推薦システムから得られた相関グラフを補助タスクとして予測することにより,項目とその自然言語の特徴の表現を学習する。 そして、学習した表現を転送して、対象検索検索タスクを解決し、(クエリ、項目)ペアをトレーニング中に見ずに、クエリーから項目への予測を行う。 弊社は、Googleから世界最大の検索とレコメンデーションシステムのひとつで、オンラインとオフラインで実験を行い、得られた結果と教訓を提示する。 提案手法は,オフライン検索検索タスクにおいて高い性能を達成でき,さらにオンライン実験において,高度に最適化された生産システムに対する関連性やユーザインタラクションを大幅に改善できることを示す。

Many recent advances in neural information retrieval models, which predict top-K items given a query, learn directly from a large training set of (query, item) pairs. However, they are often insufficient when there are many previously unseen (query, item) combinations, often referred to as the cold start problem. Furthermore, the search system can be biased towards items that are frequently shown to a query previously, also known as the 'rich get richer' (a.k.a. feedback loop) problem. In light of these problems, we observed that most online content platforms have both a search and a recommender system that, while having heterogeneous input spaces, can be connected through their common output item space and a shared semantic representation. In this paper, we propose a new Zero-Shot Heterogeneous Transfer Learning framework that transfers learned knowledge from the recommender system component to improve the search component of a content platform. First, it learns representations of items and their natural-language features by predicting (item, item) correlation graphs derived from the recommender system as an auxiliary task. Then, the learned representations are transferred to solve the target search retrieval task, performing query-to-item prediction without having seen any (query, item) pairs in training. We conduct online and offline experiments on one of the world's largest search and recommender systems from Google, and present the results and lessons learned. We demonstrate that the proposed approach can achieve high performance on offline search retrieval tasks, and more importantly, achieved significant improvements on relevance and user interactions over the highly-optimized production system in online experiments.
翻訳日:2022-11-02 01:03:35 公開日:2020-08-19
# 新型コロナウイルス流行予測のための可変量子回路と量子バックプロパゲーション多層パーセプトロンの比較研究

Comparative study of variational quantum circuit and quantum backpropagation multilayer perceptron for COVID-19 outbreak predictions ( http://arxiv.org/abs/2008.07617v2 )

ライセンス: Link先を確認
Pranav Kairon and Siddhartha Bhattacharyya(参考訳) 画像分類やパターン認識など,様々な問題に応用された量子ニューラルネットワークのモデルが数多く存在する。 最近では、NISQ時代において、ハイブリッド量子古典モデルは有望な結果を示している。 多機能回帰は古典的な機械学習において一般的な問題である。 そこで本研究では,連続可変量子ニューラルネットワーク(可変回路)と量子バックプロパゲーション多層パーセプトロン(QBMLP)の比較解析を行った。 インドと米国でのcovid-19感染者の増加を予測するという、現代の問題を選択した。 従来のニューラルネットワークよりも優れた性能を示す2つのモデル間の統計的比較を行った。

There are numerous models of quantum neural networks that have been applied to variegated problems such as image classification, pattern recognition etc.Quantum inspired algorithms have been relevant for quite awhile. More recently, in the NISQ era, hybrid quantum classical models have shown promising results. Multi-feature regression is common problem in classical machine learning. Hence we present a comparative analysis of continuous variable quantum neural networks (Variational circuits) and quantum backpropagating multi layer perceptron (QBMLP). We have chosen the contemporary problem of predicting rise in COVID-19 cases in India and USA. We provide a statistical comparison between two models , both of which perform better than the classical artificial neural networks.
翻訳日:2022-11-01 12:22:15 公開日:2020-08-19
# ファウショット学習領域におけるディープラーニングアーキテクチャの概要

An Overview of Deep Learning Architectures in Few-Shot Learning Domain ( http://arxiv.org/abs/2008.06365v3 )

ライセンス: Link先を確認
Shruti Jadon(参考訳) 2012年以降、ディープラーニングは人工知能に革命をもたらし、画像分類から音声生成まで、さまざまな分野で最先端の成果を上げてきた。 多くの可能性を秘めていますが、現在のアーキテクチャには大量のデータの前提条件があります。 Few-Shot Learning(ワンショットラーニング、Few-Shot Learning)は、機械学習のサブフィールドであり、人間の学習方法と同様、少ないデータで望ましい目的を学習できるようなモデルを作成することを目的としている。 本稿では,近距離学習への深層学習に基づくアプローチについて概説する。 我々は,最近の成果,課題,および,数少ない学習ベースのディープラーニングアーキテクチャの改善の可能性について論じた。 本論文の目的は3つある。 (i)コア参照へのポインタによる数ショット学習のためのディープラーニングアーキテクチャの簡単な紹介。 2)データ準備からモデルトレーニングに至るまで,低データ体制にディープラーニングがどのように適用されたかを示す。 そして (iii) 実験に興味のある人にとっては、有用なリソースやオープンソースコードを指摘して、おそらくは少数の学習の分野に貢献するための出発点となる。 私たちのコードはGithubで公開されている。

Since 2012, Deep learning has revolutionized Artificial Intelligence and has achieved state-of-the-art outcomes in different domains, ranging from Image Classification to Speech Generation. Though it has many potentials, our current architectures come with the pre-requisite of large amounts of data. Few-Shot Learning (also known as one-shot learning) is a sub-field of machine learning that aims to create such models that can learn the desired objective with less data, similar to how humans learn. In this paper, we have reviewed some of the well-known deep learning-based approaches towards few-shot learning. We have discussed the recent achievements, challenges, and possibilities of improvement of few-shot learning based deep learning architectures. Our aim for this paper is threefold: (i) Give a brief introduction to deep learning architectures for few-shot learning with pointers to core references. (ii) Indicate how deep learning has been applied to the low-data regime, from data preparation to model training. and, (iii) Provide a starting point for people interested in experimenting and perhaps contributing to the field of few-shot learning by pointing out some useful resources and open-source code. Our code is available at Github: https://github.com/shruti-jadon/Hands-on-One-Shot-Learning.
翻訳日:2022-10-31 04:55:11 公開日:2020-08-19
# deepslicing: ネットワークスライシングのための深層強化学習支援リソース割り当て

DeepSlicing: Deep Reinforcement Learning Assisted Resource Allocation for Network Slicing ( http://arxiv.org/abs/2008.07614v2 )

ライセンス: Link先を確認
Qiang Liu, Tao Han, Ning Zhang, Ye Wang(参考訳) ネットワークスライシングにより、同じ物理インフラストラクチャ上で複数の仮想ネットワークが動作し、5G以降のさまざまなユースケースをサポートすることができる。 しかし、これらのユースケースには、通信や計算、レイテンシやスループットといった様々なパフォーマンス指標など、非常に多様なネットワークリソース要求があります。 ネットワークリソースをスライスに効果的に割り当てるために,乗算器の交互方向法(ADMM)と深部強化学習(DRL)を統合したDeepSlicingを提案する。 DeepSlicingはネットワークスライシング問題をマスター問題といくつかのスレーブ問題に分解する。 主問題は凸最適化に基づいて解決され、スレーブ問題は最適資源配分ポリシーを学習するDRL法で処理される。 提案アルゴリズムの性能はネットワークシミュレーションによって検証される。

Network slicing enables multiple virtual networks run on the same physical infrastructure to support various use cases in 5G and beyond. These use cases, however, have very diverse network resource demands, e.g., communication and computation, and various performance metrics such as latency and throughput. To effectively allocate network resources to slices, we propose DeepSlicing that integrates the alternating direction method of multipliers (ADMM) and deep reinforcement learning (DRL). DeepSlicing decomposes the network slicing problem into a master problem and several slave problems. The master problem is solved based on convex optimization and the slave problem is handled by DRL method which learns the optimal resource allocation policy. The performance of the proposed algorithm is validated through network simulations.
翻訳日:2022-10-28 04:27:30 公開日:2020-08-19
# 解釈モデルと分子機械学習を用いたリチウム媒質アンモニア合成のためのプロトンドナーの閉ループ設計

Closed-Loop Design of Proton Donors for Lithium-Mediated Ammonia Synthesis with Interpretable Models and Molecular Machine Learning ( http://arxiv.org/abs/2008.08078v2 )

ライセンス: Link先を確認
Dilip Krishnamurthy and Nikifar Lazouski and Michal L. Gala and Karthish Manthiram and Venkatasubramanian Viswanathan(参考訳) 本研究では, テトラヒドロフラン系電解質のリチウムによる電気化学的窒素還元に対する数種類のプロトンドナーの有効性を実験的に検討した。 次に,可溶性カムレット・タフトパラメータを同定するデータ駆動型分類モデルを構築し,プロトン供与体と非活性プロトンを識別した。 Kamlet-Taftパラメータのデータセットをキュレートした後、我々はKamlet-Taftパラメータを予測するためにディープラーニングモデルを訓練した。 分類モデルとディープラーニングモデルの組み合わせは、与えられたプロトンドナーからアンモニアを生成する能力への予測マッピングを提供する。 この分類モデルとディープラーニングの組み合わせは、純粋に機械的あるいはデータ駆動の手法よりも精度と実験データ効率が優れていることを示す。

In this work, we experimentally determined the efficacy of several classes of proton donors for lithium-mediated electrochemical nitrogen reduction in a tetrahydrofuran-based electrolyte, an attractive alternative method for producing ammonia. We then built an interpretable data-driven classification model which identified solvatochromic Kamlet-Taft parameters as important for distinguishing between active and inactive proton donors. After curating a dataset for the Kamlet-Taft parameters, we trained a deep learning model to predict the Kamlet-Taft parameters. The combination of classification model and deep learning model provides a predictive mapping from a given proton donor to the ability to produce ammonia. We demonstrate that this combination of classification model with deep learning is superior to a purely mechanistic or data-driven approach in accuracy and experimental data efficiency.
翻訳日:2022-10-27 22:32:32 公開日:2020-08-19
# 可視性を考慮したマルチビューステレオネットワーク

Visibility-aware Multi-view Stereo Network ( http://arxiv.org/abs/2008.07928v2 )

ライセンス: Link先を確認
Jingyang Zhang, Yao Yao, Shiwei Li, Zixin Luo, Tian Fang(参考訳) 学習型マルチビューステレオ(MVS)手法は有望な結果を示した。 しかし、既存のネットワークではピクセル単位の可視性を考慮に入れていないため、無視されたピクセルからの誤ったコスト集約が生じる。 本稿では,MVSネットワークにおける画素単位のオクルージョン情報を一致不確実性推定により明示的に推測し,統合する。 対方向の不確実性マップは、対方向深度マップと共同で推測され、マルチビューコストボリューム融合の間、さらに重み付けガイダンスとして用いられる。 これにより、コスト融合において、オクルード画素の悪影響が抑制される。 提案するフレームワークであるVis-MVSNetは,シーンの深度精度を著しく向上させる。 DTU, BlendedMVS, Tanks and Temples のデータセットで大規模な実験を行い,提案フレームワークの有効性を正当化した。

Learning-based multi-view stereo (MVS) methods have demonstrated promising results. However, very few existing networks explicitly take the pixel-wise visibility into consideration, resulting in erroneous cost aggregation from occluded pixels. In this paper, we explicitly infer and integrate the pixel-wise occlusion information in the MVS network via the matching uncertainty estimation. The pair-wise uncertainty map is jointly inferred with the pair-wise depth map, which is further used as weighting guidance during the multi-view cost volume fusion. As such, the adverse influence of occluded pixels is suppressed in the cost fusion. The proposed framework Vis-MVSNet significantly improves depth accuracies in the scenes with severe occlusion. Extensive experiments are performed on DTU, BlendedMVS, and Tanks and Temples datasets to justify the effectiveness of the proposed framework.
翻訳日:2022-10-27 21:39:20 公開日:2020-08-19
# インターネット動画からのモーションキャプチャ

Motion Capture from Internet Videos ( http://arxiv.org/abs/2008.07931v2 )

ライセンス: Link先を確認
Junting Dong, Qing Shuai, Yuanqing Zhang, Xian Liu, Xiaowei Zhou, Hujun Bao(参考訳) 画像に基づく人間のポーズ推定の最近の進歩により、単一のrgbビデオから3d人間の動きをキャプチャできる。 しかし、単一の視点における内在的な奥行きあいまいさと自己完結性は、マルチビューの再構築と同じくらいの高品質な動きの回復を禁止している。 マルチビュービデオは一般的ではないが、特定のアクションを行う有名人のビデオはインターネット上で多く見られる。 これらのビデオが異なる時間帯に記録されたとしても、同じ動き特性を符号化する。 そこで本研究では,単一の動画を別々に使用するのではなく,これらインターネット動画を共同分析することで,人間の動きを捉えることを提案する。 しかし、この新たな課題は、ビデオが非同期化され、カメラの視点が不明であり、背景のシーンが異なり、人間の動きがビデオと全く同じではないため、既存の方法で対処できない多くの新しい課題をもたらす。 これらの課題に対処するために,新しい最適化ベースフレームワークを提案し,単眼モーションキャプチャ法と比較して,複数のビデオからより高精度で詳細な動きを復元する能力について実験的に実証する。

Recent advances in image-based human pose estimation make it possible to capture 3D human motion from a single RGB video. However, the inherent depth ambiguity and self-occlusion in a single view prohibit the recovery of as high-quality motion as multi-view reconstruction. While multi-view videos are not common, the videos of a celebrity performing a specific action are usually abundant on the Internet. Even if these videos were recorded at different time instances, they would encode the same motion characteristics of the person. Therefore, we propose to capture human motion by jointly analyzing these Internet videos instead of using single videos separately. However, this new task poses many new challenges that cannot be addressed by existing methods, as the videos are unsynchronized, the camera viewpoints are unknown, the background scenes are different, and the human motions are not exactly the same among videos. To address these challenges, we propose a novel optimization-based framework and experimentally demonstrate its ability to recover much more precise and detailed motion from multiple videos, compared against monocular motion capture methods.
翻訳日:2022-10-27 21:38:50 公開日:2020-08-19
# SoDA:ソフトデータアソシエーションによる多目的追跡

SoDA: Multi-Object Tracking with Soft Data Association ( http://arxiv.org/abs/2008.07725v2 )

ライセンス: Link先を確認
Wei-Chih Hung, Henrik Kretzschmar, Tsung-Yi Lin, Yuning Chai, Ruichi Yu, Ming-Hsuan Yang, Dragomir Anguelov(参考訳) ロバストマルチオブジェクトトラッキング(MOT)は、自動運転車の安全な配置の前提条件である。 しかし、追跡対象は依然として非常に困難な問題であり、特に物体が複雑な方法で互いに相互作用し、頻繁に閉塞されるような、乱雑な自動運転シーンではなおさらだ。 観測対象間の時空間依存性を符号化したトラック埋め込みの計算に注目するMOTに対する新しいアプローチを提案する。 この注意度測定エンコーディングは,ハードデータ関連を緩和し,再定義不能なエラーを発生させる可能性がある。 代わりに、我々のモデルはソフトデータアソシエーションを介してすべてのオブジェクト検出から情報を集約します。 得られた潜在空間表現は、包括的データ駆動方式で包括性について推論し、包括された場合でもオブジェクトのトラック推定を維持できる。 waymo opendatasetにおける実験結果から,我々のアプローチは現代の大規模データセットを活用し,視覚マルチオブジェクトトラッキングの最先端技術と比較して好適に機能することが示唆された。

Robust multi-object tracking (MOT) is a prerequisite fora safe deployment of self-driving cars. Tracking objects, however, remains a highly challenging problem, especially in cluttered autonomous driving scenes in which objects tend to interact with each other in complex ways and frequently get occluded. We propose a novel approach to MOT that uses attention to compute track embeddings that encode the spatiotemporal dependencies between observed objects. This attention measurement encoding allows our model to relax hard data associations, which may lead to unrecoverable errors. Instead, our model aggregates information from all object detections via soft data associations. The resulting latent space representation allows our model to learn to reason about occlusions in a holistic data-driven way and maintain track estimates for objects even when they are occluded. Our experimental results on the Waymo OpenDataset suggest that our approach leverages modern large-scale datasets and performs favorably compared to the state of the art in visual multi-object tracking.
翻訳日:2022-10-27 21:30:18 公開日:2020-08-19
# ベイズ型ニューラルネットワークと次元性低減

Bayesian neural networks and dimensionality reduction ( http://arxiv.org/abs/2008.08044v2 )

ライセンス: Link先を確認
Deborshee Sen and Theodore Papamarkou and David Dunson(参考訳) 非線型次元減少と特徴学習を行う際、データは下次元多様体の近くにあると仮定することが一般的である。 そのような問題に対するモデルベースアプローチのクラスには、未知の非線形回帰関数における潜在変数が含まれ、ガウス過程潜在変数モデルと変分オートエンコーダ(vaes)を特別なケースとして含む。 vaesは、計算を扱いやすくするために近似を用いる人工ニューラルネットワーク(anns)であるが、現在の実装では、パラメータ、予測密度、低次元部分空間の推定において十分な不確かさの定量化が欠如しており、不安定であり、実際には解釈可能性に欠ける可能性がある。 我々はマルコフ連鎖モンテカルロサンプリングアルゴリズム(MCMC)を,潜伏変数を持つANNモデルにおけるベイズ推定のために配置することで,これらの問題を解決する。 我々は、ANNパラメータに制約を課し、アンカーポイントを使用することにより、識別可能性の問題に対処する。 これはシミュレーションおよび実データ例で実証される。 現在のMCMCサンプリングスキームは、潜伏変数を含むニューラルネットワークの基本的な課題に直面し、新しい研究方向性を動機付けている。

In conducting non-linear dimensionality reduction and feature learning, it is common to suppose that the data lie near a lower-dimensional manifold. A class of model-based approaches for such problems includes latent variables in an unknown non-linear regression function; this includes Gaussian process latent variable models and variational auto-encoders (VAEs) as special cases. VAEs are artificial neural networks (ANNs) that employ approximations to make computation tractable; however, current implementations lack adequate uncertainty quantification in estimating the parameters, predictive densities, and lower-dimensional subspace, and can be unstable and lack interpretability in practice. We attempt to solve these problems by deploying Markov chain Monte Carlo sampling algorithms (MCMC) for Bayesian inference in ANN models with latent variables. We address issues of identifiability by imposing constraints on the ANN parameters as well as by using anchor points. This is demonstrated on simulated and real data examples. We find that current MCMC sampling schemes face fundamental challenges in neural networks involving latent variables, motivating new research directions.
翻訳日:2022-10-27 21:11:55 公開日:2020-08-19
# 生涯にわたるオープンドメイン対話学習の展開

Deploying Lifelong Open-Domain Dialogue Learning ( http://arxiv.org/abs/2008.08076v2 )

ライセンス: Link先を確認
Kurt Shuster, Jack Urbanek, Emily Dinan, Arthur Szlam, Jason Weston(参考訳) NLP研究の多くは、クラウドソーシングされた静的データセットとトレーニングの教師付き学習パラダイムに焦点を合わせ、テストパフォーマンスを評価してきた。 de vries et al. (2020)で論じられているように、クラウドソーシングされたデータは、自然性と現実世界のユースケースとの関連性の欠如の問題を持っているが、静的データセットパラダイムでは、言語を使った経験からモデルを学ぶことはできない(silver et al., 2013)。 対照的に、人と対話するときにより便利になる機械学習システムが期待できるかもしれない。 本研究では,オープンドメインのファンタジー世界に位置する学習エージェントと人間のプレイヤーが会話するロールプレイングゲームを構築し,展開する。 自動メトリクスとオンラインエンゲージメントスコアから,ゲーム中の人間との会話に関するモデルをトレーニングすることで,モデルを段階的に改善することを示す。 この学習は、実際のユーザとの会話に適用した場合のクラウドソースデータよりも効率的であり、収集コストもはるかに安い。

Much of NLP research has focused on crowdsourced static datasets and the supervised learning paradigm of training once and then evaluating test performance. As argued in de Vries et al. (2020), crowdsourced data has the issues of lack of naturalness and relevance to real-world use cases, while the static dataset paradigm does not allow for a model to learn from its experiences of using language (Silver et al., 2013). In contrast, one might hope for machine learning systems that become more useful as they interact with people. In this work, we build and deploy a role-playing game, whereby human players converse with learning agents situated in an open-domain fantasy world. We show that by training models on the conversations they have with humans in the game the models progressively improve, as measured by automatic metrics and online engagement scores. This learning is shown to be more efficient than crowdsourced data when applied to conversations with real users, as well as being far cheaper to collect.
翻訳日:2022-10-27 20:36:35 公開日:2020-08-19
# EASTER: 効率的でスケーラブルなテキスト認識装置

EASTER: Efficient and Scalable Text Recognizer ( http://arxiv.org/abs/2008.07839v2 )

ライセンス: Link先を確認
Kartik Chaudhary and Raghav Bali(参考訳) 近年のディープラーニングの進歩により,光学文字認識(OCR)システムの開発が著しく進んでいる。 ほとんどの研究は、リカレントネットワークと、ソリューション全体を複雑でスケールが難しい複雑なゲート層に関するものだ。 本稿では,機械印刷版と手書き版の両方で光学文字認識を行うためのEASTER(Efficient And Scalable TExt Recognizer)を提案する。 本モデルは1次元畳み込み層を再帰なく利用し,データ量を大幅に削減した並列トレーニングを実現する。 我々は、アーキテクチャの複数のバリエーションを実験し、RNNに基づく複雑な選択に対して、最小のバリエーション(パラメータの深さと数)の1つを比較検討した。 当社の20層モデルでは,IIIT-5kやSVTといったベンチマークデータセットに対して,RNNアーキテクチャよりも優れています。 オフライン手書きテキスト認識タスクの現在のベスト結果に対する改善点も紹介する。 また,手書きテキストと機械印刷テキストの合成データセットを生成するために,拡張セットアップを備えたデータ生成パイプラインを提案する。

Recent progress in deep learning has led to the development of Optical Character Recognition (OCR) systems which perform remarkably well. Most research has been around recurrent networks as well as complex gated layers which make the overall solution complex and difficult to scale. In this paper, we present an Efficient And Scalable TExt Recognizer (EASTER) to perform optical character recognition on both machine printed and handwritten text. Our model utilises 1-D convolutional layers without any recurrence which enables parallel training with considerably less volume of data. We experimented with multiple variations of our architecture and one of the smallest variant (depth and number of parameter wise) performs comparably to RNN based complex choices. Our 20-layered deepest variant outperforms RNN architectures with a good margin on benchmarking datasets like IIIT-5k and SVT. We also showcase improvements over the current best results on offline handwritten text recognition task. We also present data generation pipelines with augmentation setup to generate synthetic datasets for both handwritten and machine printed text.
翻訳日:2022-10-27 20:36:18 公開日:2020-08-19
# 連合学習ネットワークのスマートセキュリティ向上に向けて

Toward Smart Security Enhancement of Federated Learning Networks ( http://arxiv.org/abs/2008.08330v1 )

ライセンス: Link先を確認
Junjie Tan, Ying-Chang Liang, Nguyen Cong Luong, Dusit Niyato(参考訳) 従来の集中型学習ネットワーク(CLN)は、プライバシ保護、通信オーバーヘッド、スケーラビリティの面でますます課題に直面しているため、機械学習(ML)モデルのトレーニングをサポートするための有望な代替パラダイムとして、フェデレーション型学習ネットワーク(FLN)が提案されている。 CLNの中央集権的なデータストレージや処理とは対照的に、FLNはデータを保存するために複数のエッジデバイス(ED)を利用している。 このように、FLNのEDはデータをローカルに保持し、プライバシを保護し、通信オーバーヘッドを減らすことができる。 しかし、FLN内のモデルトレーニングは全てのEDの貢献に依存しているため、EDが不正または偽装されたトレーニング結果、すなわち中毒攻撃をアップロードした場合、トレーニングプロセスが中断される可能性がある。 本稿では,FLNの脆弱性について概説し,特に中毒攻撃と主流対策について概説する。 それでも、既存の対策は受動的保護しか提供できず、EDの寄付に対して支払われる訓練費用を考慮できないため、不必要に高い訓練コストがかかる。 そこで我々はFLNのためのスマートセキュリティ強化フレームワークを提案する。 特に、EDから非良性トレーニング結果を特定し、除去するために、検証前集約(VBA)手順が開発されている。 その後、深層強化学習(DRL)を用いて、EDの挙動パターンを学習し、良質なトレーニング結果を提供し、低いトレーニング料金を請求できるEDを積極的に選択する。 シミュレーションの結果,提案フレームワークはFLNを効果的かつ効率的に保護できることがわかった。

As traditional centralized learning networks (CLNs) are facing increasing challenges in terms of privacy preservation, communication overheads, and scalability, federated learning networks (FLNs) have been proposed as a promising alternative paradigm to support the training of machine learning (ML) models. In contrast to the centralized data storage and processing in CLNs, FLNs exploit a number of edge devices (EDs) to store data and perform training distributively. In this way, the EDs in FLNs can keep training data locally, which preserves privacy and reduces communication overheads. However, since the model training within FLNs relies on the contribution of all EDs, the training process can be disrupted if some of the EDs upload incorrect or falsified training results, i.e., poisoning attacks. In this paper, we review the vulnerabilities of FLNs, and particularly give an overview of poisoning attacks and mainstream countermeasures. Nevertheless, the existing countermeasures can only provide passive protection and fail to consider the training fees paid for the contributions of the EDs, resulting in a unnecessarily high training cost. Hence, we present a smart security enhancement framework for FLNs. In particular, a verify-before-aggregate (VBA) procedure is developed to identify and remove the non-benign training results from the EDs. Afterward, deep reinforcement learning (DRL) is applied to learn the behaving patterns of the EDs and to actively select the EDs that can provide benign training results and charge low training fees. Simulation results reveal that the proposed framework can protect FLNs effectively and efficiently.
翻訳日:2022-10-27 12:46:00 公開日:2020-08-19
# HpRNet : 変分パラメトリック合成器におけるビオリンの残留雑音モデルの導入

HpRNet : Incorporating Residual Noise Modeling for Violin in a Variational Parametric Synthesizer ( http://arxiv.org/abs/2008.08405v1 )

ライセンス: Link先を確認
Krishna Subramani, Preeti Rao(参考訳) 音声合成のための生成モデルはこの数年間で勢いを増している。 近年,音声信号のパラメトリック表現が組み込まれ,合成された出力の楽譜制御が容易になった。 本研究では,ヴァイオリン音のパラメトリックモデル,特に残弦音の生成モデルについて検討し,より自然な音質を実現する。 本分析の助けとなるために,特定のジェスチャー環境下で高音域の演奏スタイルにおいて,弓音が不可欠な部分である,カルナティックビオリン記録のデータセットを導入する。 持続する音のスペクトルエンベロープの変動符号化の過程から導かれる潜時空間の観測を通して、信号の高調波成分と残差成分、およびそれらの相互依存性についての知見を得る。

Generative Models for Audio Synthesis have been gaining momentum in the last few years. More recently, parametric representations of the audio signal have been incorporated to facilitate better musical control of the synthesized output. In this work, we investigate a parametric model for violin tones, in particular the generative modeling of the residual bow noise to make for more natural tone quality. To aid in our analysis, we introduce a dataset of Carnatic Violin Recordings where bow noise is an integral part of the playing style of higher pitched notes in specific gestural contexts. We obtain insights about each of the harmonic and residual components of the signal, as well as their interdependence, via observations on the latent space derived in the course of variational encoding of the spectral envelopes of the sustained sounds.
翻訳日:2022-10-27 12:45:32 公開日:2020-08-19
# カモフラージュ詐欺師に対するグラフニューラルネットワークに基づく不正検出の強化

Enhancing Graph Neural Network-based Fraud Detectors against Camouflaged Fraudsters ( http://arxiv.org/abs/2008.08692v1 )

ライセンス: Link先を確認
Yingtong Dou, Zhiwei Liu, Li Sun, Yutong Deng, Hao Peng, Philip S. Yu(参考訳) 近年,グラフニューラルネットワーク(GNN)は不正検出問題に広く適用されており,近隣情報を異なる関係で集約することで,ノードの疑似性を明らかにする。 しかし、詐欺師のカモフラージュ行動に気付いていない先行研究は、集約プロセス中にGNNベースの詐欺検知器の性能を阻害する可能性がある。 本稿では,最近の実証研究に基づく2種類のカモフラージュ,すなわち特徴カモフラージュと関係カモフラージュを紹介する。 既存のGNNはこれらの2つのカモフラージュに対処していない。 また,CARE-GNN(CAmouflage-Resistant GNN)と呼ばれる新しいモデルを提案する。 具体的には,まず,情報的隣接ノードを見つけるためのラベル認識類似度尺度を考案する。 次に、強化学習(RL)を活用して、選択すべき隣人の最適な量を求める。 最後に、異なる関係にまたがる選択された隣人を集約する。 2つの実世界の不正データセットに関する総合実験は、RLアルゴリズムの有効性を示す。 提案されたCARE-GNNは、最先端のGNNやGNNベースの不正検知器よりも優れている。 我々は、すべてのGNNベースの不正検知器をオープンソースツールボックスとして統合する。 CARE-GNNのコードとデータセットはhttps://github.com/YingtongDou/CARE-GNNで公開されている。

Graph Neural Networks (GNNs) have been widely applied to fraud detection problems in recent years, revealing the suspiciousness of nodes by aggregating their neighborhood information via different relations. However, few prior works have noticed the camouflage behavior of fraudsters, which could hamper the performance of GNN-based fraud detectors during the aggregation process. In this paper, we introduce two types of camouflages based on recent empirical studies, i.e., the feature camouflage and the relation camouflage. Existing GNNs have not addressed these two camouflages, which results in their poor performance in fraud detection problems. Alternatively, we propose a new model named CAmouflage-REsistant GNN (CARE-GNN), to enhance the GNN aggregation process with three unique modules against camouflages. Concretely, we first devise a label-aware similarity measure to find informative neighboring nodes. Then, we leverage reinforcement learning (RL) to find the optimal amounts of neighbors to be selected. Finally, the selected neighbors across different relations are aggregated together. Comprehensive experiments on two real-world fraud datasets demonstrate the effectiveness of the RL algorithm. The proposed CARE-GNN also outperforms state-of-the-art GNNs and GNN-based fraud detectors. We integrate all GNN-based fraud detectors as an opensource toolbox: https://github.com/safe-graph/DGFraud. The CARE-GNN code and datasets are available at https://github.com/YingtongDou/CARE-GNN.
翻訳日:2022-10-27 12:44:48 公開日:2020-08-19
# 畳み込みニューラルネットワークを用いた音声分類によるaedes aegyptiモスキートの検出

Detecting Aedes Aegypti Mosquitoes through Audio Classification with Convolutional Neural Networks ( http://arxiv.org/abs/2008.09024v1 )

ライセンス: Link先を確認
Marcelo Schreiber Fernandes, Weverton Cordeiro, Mariana Recamonde-Mendoza(参考訳) 蚊が媒介する病気の発生は、主に蚊の増殖に対する攻撃的な制御測定を行うリソースが不足しているため、未発達の地域で顕著である。 蚊の増殖に関するコミュニティの認識を高める潜在的戦略は、スマートフォンアプリとクラウドソーシングを使って蚊の発生率のライブマップを構築することだ。 本稿では,市販スマートフォンから取得した機械学習技術と音声分析を用いて,Aedes aegypti 蚊の同定の可能性を検討する。 要約すると、aedes aegyptiのウィングビート記録をサンプリングし、教師付き学習による畳み込みニューラルネットワーク(cnn)のトレーニングに使用した。 特徴として,記録スペクトログラムを用いて蚊の羽ばたき回数を視覚的に表現した。 我々は、バイナリ、マルチクラス、バイナリ分類器のアンサンブルの3つの分類器を訓練し比較した。 評価では,バイナリモデルとアンサンブルモデルはそれぞれ97.65% (\pm$ 0.55) と94.56% (\pm$ 0.77) の精度を達成し,マルチクラスでは78.12% (\pm$ 2.09) の精度を示した。 最良の感度はアンサンブルアプローチ (96.82% $\pm$ 1.62) で観測され、次いで aedes aegypti (90.23% $\pm$ 3.83) とバイナリ (88.49% $\pm$ 6.68) の場合にはマルチクラスが観測された。 バイナリ分類器とマルチクラス分類器は精度とリコールの最良のバランスを示し、F1尺度は90%近くであった。 アンサンブル分類器は最も精度の低いF1測定器(79.95%$\pm$2.13)を欠いたものの、我々のデータセットでAedes aegyptiを検出する最も強力な分類器であった。

The incidence of mosquito-borne diseases is significant in under-developed regions, mostly due to the lack of resources to implement aggressive control measurements against mosquito proliferation. A potential strategy to raise community awareness regarding mosquito proliferation is building a live map of mosquito incidences using smartphone apps and crowdsourcing. In this paper, we explore the possibility of identifying Aedes aegypti mosquitoes using machine learning techniques and audio analysis captured from commercially available smartphones. In summary, we downsampled Aedes aegypti wingbeat recordings and used them to train a convolutional neural network (CNN) through supervised learning. As a feature, we used the recording spectrogram to represent the mosquito wingbeat frequency over time visually. We trained and compared three classifiers: a binary, a multiclass, and an ensemble of binary classifiers. In our evaluation, the binary and ensemble models achieved accuracy of 97.65% ($\pm$ 0.55) and 94.56% ($\pm$ 0.77), respectively, whereas the multiclass had an accuracy of 78.12% ($\pm$ 2.09). The best sensitivity was observed in the ensemble approach (96.82% $\pm$ 1.62), followed by the multiclass for the particular case of Aedes aegypti (90.23% $\pm$ 3.83) and the binary (88.49% $\pm$ 6.68). The binary classifier and the multiclass classifier presented the best balance between precision and recall, with F1-measure close to 90%. Although the ensemble classifier achieved the lowest precision, thus impairing its F1-measure (79.95% $\pm$ 2.13), it was the most powerful classifier to detect Aedes aegypti in our dataset.
翻訳日:2022-10-27 12:44:26 公開日:2020-08-19
# Blur-Attention:非一様ぼかし画像修復のための促進機構

Blur-Attention: A boosting mechanism for non-uniform blurred image restoration ( http://arxiv.org/abs/2008.08526v1 )

ライセンス: Link先を確認
Xiaoguang Li, Feifan Yang, Kin Man Lam, Li Zhuo, Jiafeng Li(参考訳) 動的シーンのデブロアリングはコンピュータビジョンにおいて難しい問題である。 従来の方法で空間的に変化するぼかし核を正確に推定することは困難である。 データ駆動型手法は通常カーネルフリーのエンドツーエンドマッピング方式を採用しており、カーネル推定を見落としやすい。 この問題に対処するため,不均一な画像の空間的変化を動的に捉えるためのぼかしアテンションモジュールを提案する。 モジュールは、DenseBlockユニットとマルチプール機能融合を備えた空間注意ユニットから構成されており、空間的に変化する複雑な特徴を効果的に抽出することができる。 マルチレベル残差接続構造を設計し、複数のブラーアテンションモジュールを接続し、ブラーアテンションネットワークを形成する。 本研究では,Blur-Attention-GAN (Blur-Attention-GAN) を1つの画像に対して終端から終端までのブラインド動作除去法を提案する。 本手法は,空間的に変化するボケ特徴に応じて抽出された特徴の重みを適応的に選択し,画像を動的に復元する。 実験結果から,PSNR, SSIM, 主観的視覚的品質の両面において, 本手法の劣化性能は優れていた。 さらに、ぼかしアテンションモジュールによって抽出された特徴を可視化することにより、その効果について総合的な議論を行う。

Dynamic scene deblurring is a challenging problem in computer vision. It is difficult to accurately estimate the spatially varying blur kernel by traditional methods. Data-driven-based methods usually employ kernel-free end-to-end mapping schemes, which are apt to overlook the kernel estimation. To address this issue, we propose a blur-attention module to dynamically capture the spatially varying features of non-uniform blurred images. The module consists of a DenseBlock unit and a spatial attention unit with multi-pooling feature fusion, which can effectively extract complex spatially varying blur features. We design a multi-level residual connection structure to connect multiple blur-attention modules to form a blur-attention network. By introducing the blur-attention network into a conditional generation adversarial framework, we propose an end-to-end blind motion deblurring method, namely Blur-Attention-GAN (BAG), for a single image. Our method can adaptively select the weights of the extracted features according to the spatially varying blur features, and dynamically restore the images. Experimental results show that the deblurring capability of our method achieved outstanding objective performance in terms of PSNR, SSIM, and subjective visual quality. Furthermore, by visualizing the features extracted by the blur-attention module, comprehensive discussions are provided on its effectiveness.
翻訳日:2022-10-27 12:37:39 公開日:2020-08-19
# 特定説明によるコミュニティAIインタラクションの仲介--AI主導のモデレーションを事例として

Mediating Community-AI Interaction through Situated Explanation: The Case of AI-Led Moderation ( http://arxiv.org/abs/2008.08202v1 )

ライセンス: Link先を確認
Yubo Kou and Xinning Gui(参考訳) 人工知能(AI)は私たちの日常技術で普及し、個人とコミュニティの両方に影響を与える。 説明可能なAI(XAI)奨学金は、説明と技術的な説明の哲学的な性質を探求してきた。 さらに、既存のXAI研究は個々のレベルに焦点を当てる傾向にある。 人々がAIによる意思決定をコミュニティの文脈で理解し、説明する方法については、ほとんど知られていない。 基本的HCI理論であるXAIとアクティビティ理論を参考に,コミュニティの共有価値,規範,知識,実践における説明の位置づけと,コミュニティとAIの相互作用をいかに仲介するかを論じる。 次に、AI主導のモデレーションのケーススタディを示し、コミュニティメンバーがAI主導の意思決定の説明をまとめて作成する。 最後に,CSCW,HCI,XAIの交差点において,この枠組みがもたらす意味について論じる。

Artificial intelligence (AI) has become prevalent in our everyday technologies and impacts both individuals and communities. The explainable AI (XAI) scholarship has explored the philosophical nature of explanation and technical explanations, which are usually driven by experts in lab settings and can be challenging for laypersons to understand. In addition, existing XAI research tends to focus on the individual level. Little is known about how people understand and explain AI-led decisions in the community context. Drawing from XAI and activity theory, a foundational HCI theory, we theorize how explanation is situated in a community's shared values, norms, knowledge, and practices, and how situated explanation mediates community-AI interaction. We then present a case study of AI-led moderation, where community members collectively develop explanations of AI-led decisions, most of which are automated punishments. Lastly, we discuss the implications of this framework at the intersection of CSCW, HCI, and XAI.
翻訳日:2022-10-27 12:37:05 公開日:2020-08-19
# 衝突事故に対する線形最適輸送

Linearized Optimal Transport for Collider Events ( http://arxiv.org/abs/2008.08604v1 )

ライセンス: Link先を確認
Tianji Cai, Junyi Cheng, Katy Craig, Nathaniel Craig(参考訳) 本稿では,Linearized Optimal Transport (LOT) のツールを用いて,コライダーイベント間の距離を計算するための効率的なフレームワークを提案する。 これは、最近導入されたEnergy Mover's Distanceの利点の多くを保存し、ある事象を別の事象に並べ替えるために必要な「作業」を定量化し、計算コストを大幅に削減する。 また、単純な機械学習アルゴリズムや可視化技術に使えるユークリッド埋め込みも備えており、様々なジェットタグの例で示している。 LOT近似は、コライダー物理学への最適輸送の理論の様々な応用の閾値を下げる。

We introduce an efficient framework for computing the distance between collider events using the tools of Linearized Optimal Transport (LOT). This preserves many of the advantages of the recently-introduced Energy Mover's Distance, which quantifies the "work" required to rearrange one event into another, while significantly reducing the computational cost. It also furnishes a Euclidean embedding amenable to simple machine learning algorithms and visualization techniques, which we demonstrate in a variety of jet tagging examples. The LOT approximation lowers the threshold for diverse applications of the theory of optimal transport to collider physics.
翻訳日:2022-10-27 12:35:41 公開日:2020-08-19
# 深い制御可能なバックライトディミング

Deep Controllable Backlight Dimming ( http://arxiv.org/abs/2008.08352v1 )

ライセンス: Link先を確認
Lvyin Duan, Demetris Marnerides, Alan Chalmers, Zhichun Lei and Kurt Debattista(参考訳) デュアルパネルディスプレイは、高い忠実度と高いダイナミックレンジのコンテンツを再現するために、ローカルディミングアルゴリズムを必要とする。 本研究では,デュアルパネルHDRディスプレイ上でのHDR画像のレンダリングのために,深層学習に基づく局所ディミング手法を提案する。 この方法は畳み込みニューラルネットワークを用いてバックライトの値を予測し、表示すべきHDR画像として利用する。 このモデルは、ユーザが電力と品質のトレードオフを可能にする制御可能なパワーパラメータによって設計および訓練される。 提案手法は, 各種量的品質指標を用いて, 105個のHDR画像に対して他の6つの手法と比較した。 その結果,提案手法を用いた場合の表示品質の向上と消費電力の向上が得られた。

Dual-panel displays require local dimming algorithms in order to reproduce content with high fidelity and high dynamic range. In this work, a novel deep learning based local dimming method is proposed for rendering HDR images on dual-panel HDR displays. The method uses a Convolutional Neural Network to predict backlight values, using as input the HDR image that is to be displayed. The model is designed and trained via a controllable power parameter that allows a user to trade off between power and quality. The proposed method is evaluated against six other methods on a test set of 105 HDR images, using a variety of quantitative quality metrics. Results demonstrate improved display quality and better power consumption when using the proposed method compared to the best alternatives.
翻訳日:2022-10-27 12:34:52 公開日:2020-08-19
# 離散レンズによるインドモンスーンにおける降雨と対流雲の時空間関係

Spatio-temporal relationships between rainfall and convective clouds during Indian Monsoon through a discrete lens ( http://arxiv.org/abs/2008.08251v1 )

ライセンス: Link先を確認
Arjun Sharma, Adway Mitra, Vishal Vasan, Rama Govindarajan(参考訳) インドモンスーン(英語: Indian monsoon)は、毎年6月から9月にかけて大雨を引き起こす多変量プロセスであり、空間と時間において非常に異質である。 2004年から2010年の間,モンスーンにおける降雨と長波放射(OLR,対流雲カバー)の関係について検討した。 降雨とOLRの空間パターンを特定し,分類し,可視化するために,マルコフ確率場に基づく統計モデルを用いて作成したデータの離散的かつ時空間的コヒーレントな表現を用いる。 我々のアプローチは、降雨とOLRの類似した空間分布を持つ日々を少数の空間パターンにまとめる。 その結果,1日あたりの降雨量,降雨量,降雨量,降雨量はそれぞれ9割以上を占めることがわかった。 これらのパターンを通して,OLRは一般的に降水量と負の相関が強いが,空間的変動は大きい。 特に、半島インド(西海岸を除く)は、大半は対流雲に覆われているが、雨は降らない。 また、モンスーンの降雨の多くは低天雲と共存しているが、6月のインド東部と北西部の降雨は、おそらくは浅い雲から起こると考えられている。 両量の日々の変動を研究するために,観測から計算した時間勾配の空間パターンを同定した。 インド全土の対流雲活動の変化は, 南北方向のOLR勾配が1~2日間持続し, 対流雲被覆が光から深部へ, あるいはその逆へと変化するため, 一般的に発生する。 このような変化には降水の空間分布の変化も伴う。 本研究は, 複雑な空間パターンとその日々の変動について, 高精度に記述し, 今後の簡易な記述に有用なツールとなる可能性がある。

The Indian monsoon, a multi-variable process causing heavy rains during June-September every year, is very heterogeneous in space and time. We study the relationship between rainfall and Outgoing Longwave Radiation (OLR, convective cloud cover) for monsoon between 2004-2010. To identify, classify and visualize spatial patterns of rainfall and OLR we use a discrete and spatio-temporally coherent representation of the data, created using a statistical model based on Markov Random Field. Our approach clusters the days with similar spatial distributions of rainfall and OLR into a small number of spatial patterns. We find that eight daily spatial patterns each in rainfall and OLR, and seven joint patterns of rainfall and OLR, describe over 90\% of all days. Through these patterns, we find that OLR generally has a strong negative correlation with precipitation, but with significant spatial variations. In particular, peninsular India (except west coast) is under significant convective cloud cover over a majority of days but remains rainless. We also find that much of the monsoon rainfall co-occurs with low OLR, but some amount of rainfall in Eastern and North-western India in June occurs on OLR days, presumably from shallow clouds. To study day-to-day variations of both quantities, we identify spatial patterns in the temporal gradients computed from the observations. We find that changes in convective cloud activity across India most commonly occur due to the establishment of a north-south OLR gradient which persists for 1-2 days and shifts the convective cloud cover from light to deep or vice versa. Such changes are also accompanied by changes in the spatial distribution of precipitation. The present work thus provides a highly reduced description of the complex spatial patterns and their day-to-day variations, and could form a useful tool for future simplified descriptions of this process.
翻訳日:2022-10-27 12:34:39 公開日:2020-08-19
# lira: 未知の混合歪みによる生涯画像復元

LIRA: Lifelong Image Restoration from Unknown Blended Distortions ( http://arxiv.org/abs/2008.08242v1 )

ライセンス: Link先を確認
Jianzhao Liu, Jianxin Lin, Xin Li, Wei Zhou, Sen Liu, Zhibo Chen(参考訳) 既存の画像復元ネットワークの多くは使い捨ての方法で設計されており、新しい歪み除去タスクでトレーニングされたときの学習した歪みを破滅的に忘れている。 この問題を軽減するために,ブレンド歪みに対する長寿命画像復元問題を提起する。 まず,個々の歪み除去タスクを専門とする複数の事前訓練されたエキスパートモデルが協調的かつ適応的に混合歪みを処理するベースフォークジョインモデルの設計を行った。 人間の記憶系における成人神経新生にインスパイアされた新たな歪みによって入力が劣化すると、トレーニング済みのモデルが新たなエキスパートブランチを組み込んで、学習知識に干渉することなく新たな知識を継続的に蓄積する神経成長戦略を開発する。 実験の結果,提案手法はpsnr/ssimメトリクスの混合歪み除去タスクにおいて最先端の性能を達成できるだけでなく,新しい復元タスクを学習しながら古い専門知識を維持できることがわかった。

Most existing image restoration networks are designed in a disposable way and catastrophically forget previously learned distortions when trained on a new distortion removal task. To alleviate this problem, we raise the novel lifelong image restoration problem for blended distortions. We first design a base fork-join model in which multiple pre-trained expert models specializing in individual distortion removal task work cooperatively and adaptively to handle blended distortions. When the input is degraded by a new distortion, inspired by adult neurogenesis in human memory system, we develop a neural growing strategy where the previously trained model can incorporate a new expert branch and continually accumulate new knowledge without interfering with learned knowledge. Experimental results show that the proposed approach can not only achieve state-of-the-art performance on blended distortions removal tasks in both PSNR/SSIM metrics, but also maintain old expertise while learning new restoration tasks.
翻訳日:2022-10-27 12:27:28 公開日:2020-08-19
# ビデオにおける弱修正モーメント検索のための正規化2分岐提案ネットワーク

Regularized Two-Branch Proposal Networks for Weakly-Supervised Moment Retrieval in Videos ( http://arxiv.org/abs/2008.08257v1 )

ライセンス: Link先を確認
Zhu Zhang, Zhijie Lin, Zhou Zhao, Jieming Zhu and Xiuqiang He(参考訳) ビデオモーメント検索は、所定の文に従って、ビデオ中のターゲットモーメントをローカライズすることを目的としている。 弱い教師付き設定は、トレーニング中にビデオレベルの文アノテーションのみを提供する。 既存の弱監督手法の多くは、MILベースのフレームワークを用いてサンプル間対位法を開発するが、意味的に類似した内容を持つモーメント間のサンプル間対位法を無視する。 したがって、これらの手法は目標モーメントと可算負モーメントとを区別することができない。 本稿では,サンプル間の対立とサンプル内対立を同時に考慮する,新しい正規化2分岐提案ネットワークを提案する。 具体的には,まず言語対応フィルタを考案し,拡張されたビデオストリームと抑制されたビデオストリームを生成する。 次に,2分岐提案モジュールを設計し,拡張ストリームから肯定的な提案を生成するとともに,抑圧された提案から肯定的な否定的提案を生成する。 さらに,提案手法をトレーニングプロセスの安定化とモデル性能の向上に応用する。 実験により,本手法の有効性が示された。 私たちのコードはここでリリースされます。

Video moment retrieval aims to localize the target moment in an video according to the given sentence. The weak-supervised setting only provides the video-level sentence annotations during training. Most existing weak-supervised methods apply a MIL-based framework to develop inter-sample confrontment, but ignore the intra-sample confrontment between moments with semantically similar contents. Thus, these methods fail to distinguish the target moment from plausible negative moments. In this paper, we propose a novel Regularized Two-Branch Proposal Network to simultaneously consider the inter-sample and intra-sample confrontments. Concretely, we first devise a language-aware filter to generate an enhanced video stream and a suppressed video stream. We then design the sharable two-branch proposal module to generate positive proposals from the enhanced stream and plausible negative proposals from the suppressed one for sufficient confrontment. Further, we apply the proposal regularization to stabilize the training process and improve model performance. The extensive experiments show the effectiveness of our method. Our code is released at here.
翻訳日:2022-10-27 12:27:11 公開日:2020-08-19
# DONet:皮膚病変セグメンテーションのための二重目的ネットワーク

DONet: Dual Objective Networks for Skin Lesion Segmentation ( http://arxiv.org/abs/2008.08278v1 )

ライセンス: Link先を確認
Yaxiong Wang, Yunchao Wei, Xueming Qian, Li Zhu, and Yi Yang(参考訳) 皮膚病変のセグメンテーションは,皮膚内視鏡画像のコンピュータ診断における重要なステップである。 近年,深層学習に基づく意味的セグメンテーション法は皮膚病変セグメンテーションの結果を大幅に進歩させた。 しかし, 病変面積の多様さや病変部位と背景のあいまいさなどの難易度が原因で, 現状の成績は相変わらず不満足である。 本稿では,皮膚病変の分節を改善するために,dual objective networks (donet) という簡易かつ効果的な枠組みを提案する。 我々のDONetは2つの対称デコーダを採用し、異なる目標に近づくための異なる予測を生成する。 具体的には、2つの目的は実際には異なる損失関数によって定義される。 このようにして、2つのデコーダは、異なる最適化ターゲットにマッチする微分確率マップを作成することを奨励され、結果として相補的な予測が生成される。 これらの2つの目的から得られた補足的な情報をさらに集約して最終予測を行い、セグメンテーションマップに存在する不確かさを著しく緩和する。 また,皮膚内視鏡画像における多種多様な病変スケールと形状の課題に対処するために,皮膚病変間の複雑な相関をモデル化するrecurrent context encoding module (rcem)を提案する。 2つの人気のあるベンチマークに関する大規模な実験は、提案されたDONetの有効性をよく示している。 特に, isic 2018 の 0.881 と 0.931 dice はそれぞれ $\text{ph}^2$ を達成している。 コードは公開される予定だ。

Skin lesion segmentation is a crucial step in the computer-aided diagnosis of dermoscopic images. In the last few years, deep learning based semantic segmentation methods have significantly advanced the skin lesion segmentation results. However, the current performance is still unsatisfactory due to some challenging factors such as large variety of lesion scale and ambiguous difference between lesion region and background. In this paper, we propose a simple yet effective framework, named Dual Objective Networks (DONet), to improve the skin lesion segmentation. Our DONet adopts two symmetric decoders to produce different predictions for approaching different objectives. Concretely, the two objectives are actually defined by different loss functions. In this way, the two decoders are encouraged to produce differentiated probability maps to match different optimization targets, resulting in complementary predictions accordingly. The complementary information learned by these two objectives are further aggregated together to make the final prediction, by which the uncertainty existing in segmentation maps can be significantly alleviated. Besides, to address the challenge of large variety of lesion scales and shapes in dermoscopic images, we additionally propose a recurrent context encoding module (RCEM) to model the complex correlation among skin lesions, where the features with different scale contexts are efficiently integrated to form a more robust representation. Extensive experiments on two popular benchmarks well demonstrate the effectiveness of the proposed DONet. In particular, our DONet achieves 0.881 and 0.931 dice score on ISIC 2018 and $\text{PH}^2$, respectively. Code will be made public available.
翻訳日:2022-10-27 12:26:52 公開日:2020-08-19
# Query Twice:ビデオ要約のためのデュアルミックスアテンションメタ学習

Query Twice: Dual Mixture Attention Meta Learning for Video Summarization ( http://arxiv.org/abs/2008.08360v1 )

ライセンス: Link先を確認
Junyan Wang, Yang Bai, Yang Long, Bingzhang Hu, Zhenhua Chai, Yu Guan and Xiaolin Wei(参考訳) ビデオ要約は、高レベルの情報を保持するために代表フレームを選択することを目的としており、通常はソフトマックス関数を介してセグメントワイドの重要度を予測することによって解決される。 しかし、ソフトマックス関数は、ソフトマックスボトルネック問題として知られる複雑な視覚情報やシーケンシャル情報に対するハイランク表現を保持するのに苦しむ。 In this paper, we propose a novel framework named Dual Mixture Attention (DMASum) model with Meta Learning for video summarization that tackles the softmax bottleneck problem, where the Mixture of Attention layer (MoA) effectively increases the model capacity by employing twice self-query attention that can capture the second-order changes in addition to the initial query-key attention, and a novel Single Frame Meta Learning rule is then introduced to achieve more generalization to small datasets with limited training sources. さらに、DMASumは、局所的なキーフレームとグローバルな注意を蓄積的に接続する視覚的およびシーケンシャルな注意の両方を著しく活用する。 我々は2つの公開データセット、SumMeとTVSumに新しい評価プロトコルを採用する。 定性的かつ定量的な実験は、最先端の手法よりも著しく改善された。

Video summarization aims to select representative frames to retain high-level information, which is usually solved by predicting the segment-wise importance score via a softmax function. However, softmax function suffers in retaining high-rank representations for complex visual or sequential information, which is known as the Softmax Bottleneck problem. In this paper, we propose a novel framework named Dual Mixture Attention (DMASum) model with Meta Learning for video summarization that tackles the softmax bottleneck problem, where the Mixture of Attention layer (MoA) effectively increases the model capacity by employing twice self-query attention that can capture the second-order changes in addition to the initial query-key attention, and a novel Single Frame Meta Learning rule is then introduced to achieve more generalization to small datasets with limited training sources. Furthermore, the DMASum significantly exploits both visual and sequential attention that connects local key-frame and global attention in an accumulative way. We adopt the new evaluation protocol on two public datasets, SumMe, and TVSum. Both qualitative and quantitative experiments manifest significant improvements over the state-of-the-art methods.
翻訳日:2022-10-27 12:25:50 公開日:2020-08-19
# 顕微鏡用ブラインドスポットデニュージングの改良

Improving Blind Spot Denoising for Microscopy ( http://arxiv.org/abs/2008.08414v1 )

ライセンス: Link先を確認
Anna S. Goncharova, Alf Honigmann, Florian Jug, Alexander Krull(参考訳) 多くの顕微鏡応用は、使用可能な光の総量によって制限され、その結果得られた画像のノイズレベルに挑戦される。 この問題は、しばしば(教師あり)ディープラーニングベースの推論によって解決される。 近年,騒音統計の仮定により,自己監視手法が出現している。 このような方法は、識別すべき画像に基づいて直接訓練され、追加のペアトレーニングデータを必要としない。 優れた結果が得られる一方で、自己管理手法は高周波のアーティファクトを生成でき、教師付き手法と比較して劣る結果が得られる。 ここでは,自己監督型認知の質を向上させる新しい方法を提案する。 光顕微鏡画像は通常回折制限されているので,この知識を分別プロセスに含める。 我々は、クリーンな画像がポイントスプレッド関数(PSF)との畳み込みの結果であり、ニューラルネットワークの最後にこの操作を明示的に含んでいると仮定する。 その結果、従来の教師付き手法と非常に近い自己監督的な結果を得ることができ、高周波アーチファクトを排除できる。

Many microscopy applications are limited by the total amount of usable light and are consequently challenged by the resulting levels of noise in the acquired images. This problem is often addressed via (supervised) deep learning based denoising. Recently, by making assumptions about the noise statistics, self-supervised methods have emerged. Such methods are trained directly on the images that are to be denoised and do not require additional paired training data. While achieving remarkable results, self-supervised methods can produce high-frequency artifacts and achieve inferior results compared to supervised approaches. Here we present a novel way to improve the quality of self-supervised denoising. Considering that light microscopy images are usually diffraction-limited, we propose to include this knowledge in the denoising process. We assume the clean image to be the result of a convolution with a point spread function (PSF) and explicitly include this operation at the end of our neural network. As a consequence, we are able to eliminate high-frequency artifacts and achieve self-supervised results that are very close to the ones achieved with traditional supervised methods.
翻訳日:2022-10-27 12:25:32 公開日:2020-08-19
# 質的形状推論について:幾何学からトポロジーへの旅

On Qualitative Shape Inferences: a journey from geometry to topology ( http://arxiv.org/abs/2008.08622v1 )

ライセンス: Link先を確認
Steven W Zucker(参考訳) 形状推論は、(2D)画像領域から(3D)世界への写像を含むため、古典的には正しくない。 標準的アプローチは、ライティングとレンダリングに先立って仮定するか、ドメインを制限するか、微分方程式や最適化解を開発することによってこの問題を定式化する。 エレガントだが、このような状況で現れるソリューションは極めて脆弱である。 形状を定性的に推測する観察を活用し,個体間には定量的な差異がある。 その結果、臨界輪郭とモース=スモール複体に基づく位相的アプローチが導かれる。 本稿では,研究のさまざまな段階におけるモチベーションを強調し,その理論の発展的考察を行う。

Shape inference is classically ill-posed, because it involves a map from the (2D) image domain to the (3D) world. Standard approaches regularize this problem by either assuming a prior on lighting and rendering or restricting the domain, and develop differential equations or optimization solutions. While elegant, the solutions that emerge in these situations are remarkably fragile. We exploit the observation that people infer shape qualitatively; that there are quantitative differences between individuals. The consequence is a topological approach based on critical contours and the Morse-Smale complex. This paper provides a developmental review of that theory, emphasizing the motivation at different stages of the research.
翻訳日:2022-10-27 12:19:03 公開日:2020-08-19
# 隠れ足跡:3次元人間の足跡から文脈的歩行性を学ぶ

Hidden Footprints: Learning Contextual Walkability from 3D Human Trails ( http://arxiv.org/abs/2008.08701v1 )

ライセンス: Link先を確認
Jin Sun, Hadar Averbuch-Elor, Qianqian Wang, and Noah Snavely(参考訳) 自律運転システムや人間の行動分析など、多くのタスクにおいて、人々が現場を歩ける場所を予測することが重要である。 しかし、この目的のために計算モデルを学ぶことは、セマンティックな曖昧さとラベル付きデータの欠如のために難しい。 既存のデータセットからの情報を活用することでこの問題に対処する。 まず,画像間の人物観察を広めることで,有効な歩行可能領域の組を強化し,隠れ足跡と呼ばれるものを3d情報を用いて作成する。 しかし、この拡張データはまだ少ない。 このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。 この戦略を用いて、単一の画像から歩行可能性マップを予測するモデルを実証する。 WaymoとCityscapesのデータセットでモデルを評価し、ベースラインや最先端モデルと比較して優れたパフォーマンスを示す。

Predicting where people can walk in a scene is important for many tasks, including autonomous driving systems and human behavior analysis. Yet learning a computational model for this purpose is challenging due to semantic ambiguity and a lack of labeled data: current datasets only tell you where people are, not where they could be. We tackle this problem by leveraging information from existing datasets, without additional labeling. We first augment the set of valid, labeled walkable regions by propagating person observations between images, utilizing 3D information to create what we call hidden footprints. However, this augmented data is still sparse. We devise a training strategy designed for such sparse labels, combining a class-balanced classification loss with a contextual adversarial loss. Using this strategy, we demonstrate a model that learns to predict a walkability map from a single image. We evaluate our model on the Waymo and Cityscapes datasets, demonstrating superior performance compared to baselines and state-of-the-art models.
翻訳日:2022-10-27 12:18:52 公開日:2020-08-19
# エンティティの集合のカテゴリの生成

Generating Categories for Sets of Entities ( http://arxiv.org/abs/2008.08428v1 )

ライセンス: Link先を確認
Shuo Zhang and Krisztian Balog and Jamie Callan(参考訳) カテゴリーシステムは知識ベースの中心的な構成要素であり、意味論的に関連する概念と実体の階層的なグループ化を提供する。 それらはユニークで価値のあるリソースであり、幅広い情報アクセスタスクで利用されています。 本稿では,分類体系を拡大する手作業で知識編集者を支援するために,エンティティ集合のカテゴリを生成する手法を提案する。 まず,ニューラル抽象要約モデルを用いて候補カテゴリを生成する。 次に、各候補に対して階層内の位置を識別する。 最後に、構造、内容、階層に基づく特徴は、最も有望な特徴(特異性、階層、重要度の観点から測られる)によって候補をランク付けするために使用される。 ウィキペディアのカテゴリに基づいたテストコレクションを開発し,提案手法の有効性を実証する。

Category systems are central components of knowledge bases, as they provide a hierarchical grouping of semantically related concepts and entities. They are a unique and valuable resource that is utilized in a broad range of information access tasks. To aid knowledge editors in the manual process of expanding a category system, this paper presents a method of generating categories for sets of entities. First, we employ neural abstractive summarization models to generate candidate categories. Next, the location within the hierarchy is identified for each candidate. Finally, structure-, content-, and hierarchy-based features are used to rank candidates to identify by the most promising ones (measured in terms of specificity, hierarchy, and importance). We develop a test collection based on Wikipedia categories and demonstrate the effectiveness of the proposed approach.
翻訳日:2022-10-27 12:18:35 公開日:2020-08-19
# 次のベストアクションを推奨する規範的ビジネスプロセス監視

Prescriptive Business Process Monitoring for Recommending Next Best Actions ( http://arxiv.org/abs/2008.08693v1 )

ライセンス: Link先を確認
Sven Weinzierl and Sebastian Dunzer and Sandra Zilker and Martin Matzner(参考訳) 予測ビジネスプロセス監視(PBPM)技術は、過去のイベントログデータに基づく将来のプロセス挙動を予測し、運用ビジネスプロセスを改善する。 次のアクティビティ予測に関して、最近のpbpm技術は最先端のディープニューラルネットワーク(dnn)を使用して、実行中のプロセスインスタンスでより正確な予測を生成する予測モデルを学ぶ。 組織はキーパフォーマンス指標(KPI)によってプロセスのパフォーマンスを測定するが、DNNの学習手順は直接影響を受けない。 したがって、結果として得られる次の最も可能性の高い活動予測は、実際は利益が低い。 規範的ビジネスプロセス監視(PrBPM)は、プロセスパフォーマンス(典型的にはKPIによって測定される)への影響に関する予測を評価し、アラームを上げたり、アクションを推奨したりすることで、望ましくないプロセスアクティビティを防止する。 しかしながら、これらのアプローチのどれも、与えられたKPIに従って最適化されたアクションとして実際のプロセスアクティビティを推奨していない。 我々は、次に最も可能性が高いアクティビティを、与えられたKPIに関する次のベストアクションに変換するPrBPMテクニックを提案する。 これにより,提案手法はビジネスプロセスシミュレーションを用いて推奨動作の制御-フロー適合性を保証する。 2つの実生活イベントログによる評価に基づいて、我々のテクニックの次のベストアクションは、kpiの最適化と実際のプロセスインスタンスからの距離に関する次のアクティビティ予測よりも優れています。

Predictive business process monitoring (PBPM) techniques predict future process behaviour based on historical event log data to improve operational business processes. Concerning the next activity prediction, recent PBPM techniques use state-of-the-art deep neural networks (DNNs) to learn predictive models for producing more accurate predictions in running process instances. Even though organisations measure process performance by key performance indicators (KPIs), the DNN`s learning procedure is not directly affected by them. Therefore, the resulting next most likely activity predictions can be less beneficial in practice. Prescriptive business process monitoring (PrBPM) approaches assess predictions regarding their impact on the process performance (typically measured by KPIs) to prevent undesired process activities by raising alarms or recommending actions. However, none of these approaches recommends actual process activities as actions that are optimised according to a given KPI. We present a PrBPM technique that transforms the next most likely activities into the next best actions regarding a given KPI. Thereby, our technique uses business process simulation to ensure the control-flow conformance of the recommended actions. Based on our evaluation with two real-life event logs, we show that our technique`s next best actions can outperform next activity predictions regarding the optimisation of a KPI and the distance from the actual process instances.
翻訳日:2022-10-27 12:17:15 公開日:2020-08-19
# 認可され、認可されていない法律の実践:AI法推論の自律的レベルの役割

Authorized and Unauthorized Practices of Law: The Role of Autonomous Levels of AI Legal Reasoning ( http://arxiv.org/abs/2008.09507v1 )

ライセンス: Link先を確認
Lance Eliot(参考訳) 法的努力に応用されている人工知能(AI)と機械学習(ML)の進歩は、法律の実践に課される既存の制限に関する議論を巻き起こしている。 一般的には、法分野は、社会の利益のために均等に考案されるのではなく、しばしば非定型であり、一部の領域は有能で自己維持的であるにもかかわらず、APL対無認可の法律実践(UPL)を定義しようとしてきた。 これらの議論で欠落している要素は、AILR(Autonomous Legal Reasoning)の自律的なレベルを利用したフレームワークのレンズを通して、AIによる法的専門職の破壊がより堅牢に識別できることである。 本稿では,AILR自律レベルに適用されるAPLとUPLの根底にある重要な特徴を記述した,新たに考案された楽器グリッドについて検討し,これらの重要な実践と法的議論をさらに進めるための重要な洞察を提供する。

Advances in Artificial Intelligence (AI) and Machine Learning (ML) that are being applied to legal efforts have raised controversial questions about the existent restrictions imposed on the practice-of-law. Generally, the legal field has sought to define Authorized Practices of Law (APL) versus Unauthorized Practices of Law (UPL), though the boundaries are at times amorphous and some contend capricious and self-serving, rather than being devised holistically for the benefit of society all told. A missing ingredient in these arguments is the realization that impending legal profession disruptions due to AI can be more robustly discerned by examining the matter through the lens of a framework utilizing the autonomous levels of AI Legal Reasoning (AILR). This paper explores a newly derived instrumental grid depicting the key characteristics underlying APL and UPL as they apply to the AILR autonomous levels and offers key insights for the furtherance of these crucial practice-of-law debates.
翻訳日:2022-10-27 12:16:51 公開日:2020-08-19
# 運転試験から安全臨界システムを評価する:自律走行車に関する研究

Assessing Safety-Critical Systems from Operational Testing: A Study on Autonomous Vehicles ( http://arxiv.org/abs/2008.09510v1 )

ライセンス: Link先を確認
Xingyu Zhao, Kizito Salako, Lorenzo Strigini, Valentin Robu, David Flynn(参考訳) コンテキスト: 安全クリティカルシステム(SCS)の信頼性と安全性を示すことは、依然として難しい問題です。 特に、運用テストの結果と、設計と検証による他の証拠とは、厳密な方法で、さまざまな証拠を組み合わせる必要がある。 SCSにおける機械学習の利用の増加は、保証を得るために確立された最も確立された手法を先取りすることで、安全性と信頼性の主張をサポートするために運用テストがさらに重要になる。 目的: 自動運転車(avs)を現在の例に用いて、高い信頼性を示す問題を再検討しています。 avが公道でデビューする: avが十分に安全かどうかを評価する方法は緊急に必要である。 AVタイプを評価する際に生じる5つの質問にどのように答えるかを示す。 方法: ベイジアン推論(CBI)を拡張した新しい定理を適用し, ベイジアン手法の厳密さを生かし, ベイジアン推論に付随する不随意誤用のリスクを低減し, それらの手法をAVに適用するために必要な追加条件を定義する。 結果: AV設計が道路試験前の安全性を強く期待するならば,事前知識は大きなメリットをもたらす可能性がある。 また, 保守的評価の試みが過度な最適化につながること, 離脱傾向の補間が安全クレームに適さないこと, AVがストレスの少ない環境に移行した知識の利用, などを示す。 結論: 信頼性の目標のいくつかは、実際に検証するには高すぎるが、CBIは大きな疑問の源を排除している。 必要な信頼性と事前の信念の特定の範囲において、cbiは実現可能な健全な議論をサポートする。 有用な保守的主張は限定された事前知識から導かれる。

Context: Demonstrating high reliability and safety for safety-critical systems (SCSs) remains a hard problem. Diverse evidence needs to be combined in a rigorous way: in particular, results of operational testing with other evidence from design and verification. Growing use of machine learning in SCSs, by precluding most established methods for gaining assurance, makes operational testing even more important for supporting safety and reliability claims. Objective: We use Autonomous Vehicles (AVs) as a current example to revisit the problem of demonstrating high reliability. AVs are making their debut on public roads: methods for assessing whether an AV is safe enough are urgently needed. We demonstrate how to answer 5 questions that would arise in assessing an AV type, starting with those proposed by a highly-cited study. Method: We apply new theorems extending Conservative Bayesian Inference (CBI), which exploit the rigour of Bayesian methods while reducing the risk of involuntary misuse associated with now-common applications of Bayesian inference; we define additional conditions needed for applying these methods to AVs. Results: Prior knowledge can bring substantial advantages if the AV design allows strong expectations of safety before road testing. We also show how naive attempts at conservative assessment may lead to over-optimism instead; why extrapolating the trend of disengagements is not suitable for safety claims; use of knowledge that an AV has moved to a less stressful environment. Conclusion: While some reliability targets will remain too high to be practically verifiable, CBI removes a major source of doubt: it allows use of prior knowledge without inducing dangerously optimistic biases. For certain ranges of required reliability and prior beliefs, CBI thus supports feasible, sound arguments. Useful conservative claims can be derived from limited prior knowledge.
翻訳日:2022-10-27 12:16:32 公開日:2020-08-19
# segcodenet: ウェアラブルカメラからのアクティビティ検出のためのカラーコードセグメンテーションマスク

SegCodeNet: Color-Coded Segmentation Masks for Activity Detection from Wearable Cameras ( http://arxiv.org/abs/2008.08452v1 )

ライセンス: Link先を確認
Asif Shahriyar Sushmit, Partho Ghosh, Md.Abrar Istiak, Nayeeb Rashid, Ahsan Habib Akash, Taufiq Hasan(参考訳) ウェアラブルカメラで捉えたファーストパーソンビデオ(FPV)からのアクティビティ検出は、医療、法執行、リハビリテーションなど、多くの分野で応用される可能性のある、アクティブな研究分野である。 最先端の手法は、連続するフレームからの物体の動きに由来する特徴に依存する光フローベースのハイブリッド技術を用いる。 本研究では,RGBビデオストリームに加えて,関連オブジェクトのカラーコードセマンティックセマンティックセグメンテーションマスクを備えたビデオストリームを含むネットワークブランチを用いた2ストリームネットワーク「emph{SegCodeNet}」を開発した。 また,2つのストリーム間を優先するストリーム毎のアテンションゲーティングと,関連する機能を含むビデオフレームを優先するフレーム毎アテンションモジュールも備えています。 オフィス環境における18ドルのアクティビティクラスを含むFPVデータセットで実験を行う。 シングルストリームネットワークと比較して、提案手法は、平均F1スコアと精度でそれぞれ14.366\%と10.324\%の絶対的な改善を達成し、平均結果を3つの異なるフレームサイズで比較すると、24\times224$、12\times112$、64\times64$となる。 提案手法は, 入力次元が112\times112$と644\times64$に対して, 17\%$と26\%$を絶対的に改善した低解像度画像に対して, 顕著な性能向上を提供する。 最高性能は、フレームサイズが224\times224$であり、f1スコアと精度が90.176\%$と90.799\%$であり、それぞれ4.529\%$と2.419\%$という絶対マージンで最先端の3d convnet (i3d) \cite{carreira2017quo} 法を上回っている。

Activity detection from first-person videos (FPV) captured using a wearable camera is an active research field with potential applications in many sectors, including healthcare, law enforcement, and rehabilitation. State-of-the-art methods use optical flow-based hybrid techniques that rely on features derived from the motion of objects from consecutive frames. In this work, we developed a two-stream network, the \emph{SegCodeNet}, that uses a network branch containing video-streams with color-coded semantic segmentation masks of relevant objects in addition to the original RGB video-stream. We also include a stream-wise attention gating that prioritizes between the two streams and a frame-wise attention module that prioritizes the video frames that contain relevant features. Experiments are conducted on an FPV dataset containing $18$ activity classes in office environments. In comparison to a single-stream network, the proposed two-stream method achieves an absolute improvement of $14.366\%$ and $10.324\%$ for averaged F1 score and accuracy, respectively, when average results are compared for three different frame sizes $224\times224$, $112\times112$, and $64\times64$. The proposed method provides significant performance gains for lower-resolution images with absolute improvements of $17\%$ and $26\%$ in F1 score for input dimensions of $112\times112$ and $64\times64$, respectively. The best performance is achieved for a frame size of $224\times224$ yielding an F1 score and accuracy of $90.176\%$ and $90.799\%$ which outperforms the state-of-the-art Inflated 3D ConvNet (I3D) \cite{carreira2017quo} method by an absolute margin of $4.529\%$ and $2.419\%$, respectively.
翻訳日:2022-10-27 12:10:28 公開日:2020-08-19
# CosyPose: 一貫性のあるマルチビューマルチオブジェクト6Dポーズ推定

CosyPose: Consistent multi-view multi-object 6D pose estimation ( http://arxiv.org/abs/2008.08465v1 )

ライセンス: Link先を確認
Yann Labb\'e, Justin Carpentier, Mathieu Aubry, Josef Sivic(参考訳) カメラの視点が不明な入力画像の集合によって捉えられたシーンにおいて,複数の既知の物体の6次元ポーズを復元する手法を提案する。 まず, 単視点単体6次元ポーズ推定法を提案し, この手法を用いて6次元オブジェクトのポーズ推定を行う。 第2に、複数の入力画像にまたがる個々の6dオブジェクトのポーズを一致させるロバストな方法を開発し、カメラ視点と6dポーズを単一の一貫したシーンで共同で推定する。 提案手法は,オブジェクト対称性を明示的に処理し,深さ測定を必要とせず,不適切なオブジェクト仮説に対して頑健であり,シーン内のオブジェクト数を自動的に復元する。 第3に、複数のオブジェクト仮説とそれらの対応性を考慮したグローバルなシーン改善手法を開発した。 これは、すべてのビューにおける再投影誤差を最小限に抑えるために、カメラやオブジェクトのポーズを洗練するオブジェクトレベルのバンドル調整問題を解決することで達成される。 提案手法は,YCB-Video と T-LESS の2つのベンチマークにおいて,一視点および多視点の6Dオブジェクトに対して,現在最先端の結果よりも高い精度で推定できることを示す。 コードと事前トレーニングされたモデルは、プロジェクトwebページhttps://www.di.ens.fr/willow/research/cosypose/で入手できる。

We introduce an approach for recovering the 6D pose of multiple known objects in a scene captured by a set of input images with unknown camera viewpoints. First, we present a single-view single-object 6D pose estimation method, which we use to generate 6D object pose hypotheses. Second, we develop a robust method for matching individual 6D object pose hypotheses across different input images in order to jointly estimate camera viewpoints and 6D poses of all objects in a single consistent scene. Our approach explicitly handles object symmetries, does not require depth measurements, is robust to missing or incorrect object hypotheses, and automatically recovers the number of objects in the scene. Third, we develop a method for global scene refinement given multiple object hypotheses and their correspondences across views. This is achieved by solving an object-level bundle adjustment problem that refines the poses of cameras and objects to minimize the reprojection error in all views. We demonstrate that the proposed method, dubbed CosyPose, outperforms current state-of-the-art results for single-view and multi-view 6D object pose estimation by a large margin on two challenging benchmarks: the YCB-Video and T-LESS datasets. Code and pre-trained models are available on the project webpage https://www.di.ens.fr/willow/research/cosypose/.
翻訳日:2022-10-27 12:09:56 公開日:2020-08-19
# 熱可視顔認識のためのクロスドメイン同定

Cross-Domain Identification for Thermal-to-Visible Face Recognition ( http://arxiv.org/abs/2008.08473v1 )

ライセンス: Link先を確認
Cedric Nimpa Fondje, Shuowen Hu, Nathaniel J. Short, Benjamin S. Riggan(参考訳) ドメイン適応の最近の進歩、特にヘテロジニアス顔認識に適用されるものは、通常、2つの異なるドメイン(例えば可視および熱)の画像が共登録され、時間的に同期する場合に最適な制限付きユークリッド損失関数(例えば、$l_2$ norm)に依存する。 本稿では,修正されたネットワークアーキテクチャ(vgg16やresnet50など)に基づく,既存の深層特徴モデルと機能マッピングサブネットワークを組み合わせた新しいドメイン適応フレームワークを提案する。 このフレームワークは、熱可視顔認識のための新しいクロスドメインidとドメイン不分散損失関数を導入することで最適化される。 提案するドメイン適応フレームワークと最先端の特徴に基づくドメイン適応モデルを比較し,様々な範囲,ポーズ,表情で収集された顔画像を含む難解なデータセットを用いて,特徴と損失関数の両方を広範囲に分析する。 さらに,非正面熱可視顔認証などの課題に対して,提案手法の有効性を解析した。

Recent advances in domain adaptation, especially those applied to heterogeneous facial recognition, typically rely upon restrictive Euclidean loss functions (e.g., $L_2$ norm) which perform best when images from two different domains (e.g., visible and thermal) are co-registered and temporally synchronized. This paper proposes a novel domain adaptation framework that combines a new feature mapping sub-network with existing deep feature models, which are based on modified network architectures (e.g., VGG16 or Resnet50). This framework is optimized by introducing new cross-domain identity and domain invariance loss functions for thermal-to-visible face recognition, which alleviates the requirement for precisely co-registered and synchronized imagery. We provide extensive analysis of both features and loss functions used, and compare the proposed domain adaptation framework with state-of-the-art feature based domain adaptation models on a difficult dataset containing facial imagery collected at varying ranges, poses, and expressions. Moreover, we analyze the viability of the proposed framework for more challenging tasks, such as non-frontal thermal-to-visible face recognition.
翻訳日:2022-10-27 12:09:34 公開日:2020-08-19
# 学習したグラディエントDescentによる人体モデルフィッティング

Human Body Model Fitting by Learned Gradient Descent ( http://arxiv.org/abs/2008.08474v1 )

ライセンス: Link先を確認
Jie Song, Xu Chen, Otmar Hilliges(参考訳) 画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。 繰り返し勾配に基づく最適化手法の精度と改善能力と、深層ニューラルネットワークの堅牢性を組み合わせることで、ニューラルネットワークを利用して各イテレーションのパラメータ更新ルールを予測する勾配降下アルゴリズムを提案する。 このパラメータごとの更新と状態認識の更新は、最適化をいくつかのステップで良いソリューションへと導く。 トレーニング中、我々のアプローチはSMPLを介してパラメータ化された人間のポーズのMoCapデータのみを必要とする。 このデータからネットワークは、最適化がより効率的に実行される有効なポーズと形状のサブスペースを学習する。 このアプローチでは、画像から3D対応を取得するのが困難ではない。 テスト時には、さらなる事前条件や正規化条件を必要とせずに、2次元の関節再投射誤差を最適化するだけです。 このアルゴリズムは高速(約120ms収束)で、初期化とデータセットに頑健であり、挑戦的な3DPW in-theldベンチマーク(SMPLify 45%)や画像から3D対応を用いたアプローチを含む、公開評価データセットの最先端結果を得る。

We propose a novel algorithm for the fitting of 3D human shape to images. Combining the accuracy and refinement capabilities of iterative gradient-based optimization techniques with the robustness of deep neural networks, we propose a gradient descent algorithm that leverages a neural network to predict the parameter update rule for each iteration. This per-parameter and state-aware update guides the optimizer towards a good solution in very few steps, converging in typically few steps. During training our approach only requires MoCap data of human poses, parametrized via SMPL. From this data the network learns a subspace of valid poses and shapes in which optimization is performed much more efficiently. The approach does not require any hard to acquire image-to-3D correspondences. At test time we only optimize the 2D joint re-projection error without the need for any further priors or regularization terms. We show empirically that this algorithm is fast (avg. 120ms convergence), robust to initialization and dataset, and achieves state-of-the-art results on public evaluation datasets including the challenging 3DPW in-the-wild benchmark (improvement over SMPLify 45%) and also approaches using image-to-3D correspondences
翻訳日:2022-10-27 12:09:11 公開日:2020-08-19
# 全長映画におけるトレーラーモーメントの学習

Learning Trailer Moments in Full-Length Movies ( http://arxiv.org/abs/2008.08502v1 )

ライセンス: Link先を確認
Lezi Wang, Dong Liu, Rohit Puri, and Dimitris N. Metaxas(参考訳) 映画のキーモーメントは、観客の注意を引き、映画のブラウジングを効率的にするため、脚本から際立っている。 しかし、アノテーションがないため、既存のアプローチは映画のキーモーメント検出には適用できない。 人間のアノテーションを取り除くために、私たちは公開されたトレーラーを弱い監督として活用し、長編映画から重要な瞬間を検知するモデルを学びます。 映画とトレーラー間のコ・アテンションを利用してトレーニングペアを生成する新しいランキングネットワークを導入し、トレーラーで高度に補正されたモーメントは、非相関なモーメントよりも高いスコアが期待できる。 さらに、キーと非キーのモーメントの特徴間の比較コントラストが最大になるような特徴表現を強化するためのContrastive Attentionモジュールを提案する。 我々は,最初の映画トレーラデータセットを構築し,提案する協調支援ランキングネットワークは,教師付きアプローチよりも優れた性能を示す。 我々のContrastive Attentionモジュールの有効性は、公開ベンチマークの最先端よりもパフォーマンスが向上していることからも示される。

A movie's key moments stand out of the screenplay to grab an audience's attention and make movie browsing efficient. But a lack of annotations makes the existing approaches not applicable to movie key moment detection. To get rid of human annotations, we leverage the officially-released trailers as the weak supervision to learn a model that can detect the key moments from full-length movies. We introduce a novel ranking network that utilizes the Co-Attention between movies and trailers as guidance to generate the training pairs, where the moments highly corrected with trailers are expected to be scored higher than the uncorrelated moments. Additionally, we propose a Contrastive Attention module to enhance the feature representations such that the comparative contrast between features of the key and non-key moments are maximized. We construct the first movie-trailer dataset, and the proposed Co-Attention assisted ranking network shows superior performance even over the supervised approach. The effectiveness of our Contrastive Attention module is also demonstrated by the performance improvement over the state-of-the-art on the public benchmarks.
翻訳日:2022-10-27 12:08:50 公開日:2020-08-19
# 英語記事 star: sparse training articulated human body regressor)

STAR: Sparse Trained Articulated Human Body Regressor ( http://arxiv.org/abs/2008.08535v1 )

ライセンス: Link先を確認
Ahmed A. A. Osman, Timo Bolkart, Michael J. Black(参考訳) SMPLボディーモデルは3次元人間のポーズと形状の推定、合成、分析に広く利用されている。 SMPLにはいくつかの制限があり,SMPLよりも定量的に質的に優れているSTARが導入されている。 まず、smplは、グローバルブレンド形状を使用することによって生じる膨大なパラメータを持つ。 これらの密なポーズ補正オフセットは、メッシュ上のすべての頂点とキネマティックツリーの全ての関節を関連付け、散発的な長距離相関を捉えている。 これに対処するために,ジョイント毎のポーズ補正を定義し,各関節運動の影響を受けるメッシュ頂点のサブセットを学習する。 このスパース定式化はより現実的な変形をもたらし、モデルパラメータの数を SMPL の20% に大幅に減少させる。 SMPLと同じデータでトレーニングした場合、STARはパラメータが少ないにもかかわらず、より一般化される。 第二に、smpl因子は身体の形状に依存し、実際には異なる形状の人は異なる変形をする。 その結果,ボディポーズとBMIの両方に依存する形状依存型ポーズ補正ブレンド形状を学習した。 第3に,SMPLの形状空間はヒトの個体数の変動を捉えるのに十分でないことを示す。 私たちは、男性と女性の被験者を10,000スキャンし、トレーニングスターでこれに対処することで、より優れたモデル一般化をもたらすことを示します。 STARはコンパクトで、新しいボディをより一般化し、SMPLの代替品である。 STARは http://star.is.tue.mpg.de で研究目的で公開されている。

The SMPL body model is widely used for the estimation, synthesis, and analysis of 3D human pose and shape. While popular, we show that SMPL has several limitations and introduce STAR, which is quantitatively and qualitatively superior to SMPL. First, SMPL has a huge number of parameters resulting from its use of global blend shapes. These dense pose-corrective offsets relate every vertex on the mesh to all the joints in the kinematic tree, capturing spurious long-range correlations. To address this, we define per-joint pose correctives and learn the subset of mesh vertices that are influenced by each joint movement. This sparse formulation results in more realistic deformations and significantly reduces the number of model parameters to 20% of SMPL. When trained on the same data as SMPL, STAR generalizes better despite having many fewer parameters. Second, SMPL factors pose-dependent deformations from body shape while, in reality, people with different shapes deform differently. Consequently, we learn shape-dependent pose-corrective blend shapes that depend on both body pose and BMI. Third, we show that the shape space of SMPL is not rich enough to capture the variation in the human population. We address this by training STAR with an additional 10,000 scans of male and female subjects, and show that this results in better model generalization. STAR is compact, generalizes better to new bodies and is a drop-in replacement for SMPL. STAR is publicly available for research purposes at http://star.is.tue.mpg.de.
翻訳日:2022-10-27 12:08:32 公開日:2020-08-19
# あらゆるピクセル: ドメイン適応型オブジェクト検出のための中心認識機能アライメント

Every Pixel Matters: Center-aware Feature Alignment for Domain Adaptive Object Detector ( http://arxiv.org/abs/2008.08574v1 )

ライセンス: Link先を確認
Cheng-Chun Hsu, Yi-Hsuan Tsai, Yen-Yu Lin, Ming-Hsuan Yang(参考訳) ドメイン適応オブジェクト検出器は、オブジェクトの外観、視点、背景のバリエーションを含む可能性のある、見えないドメインに適応することを目的としている。 ほとんどの既存メソッドは、画像レベルまたはインスタンスレベルで機能アライメントを採用している。 しかし、グローバルな特徴に対する画像レベルのアライメントは、前景/バックグラウンドのピクセルを同時に絡め、インスタンスレベルのアライメントは背景ノイズに悩まされる可能性がある。 既存のソリューションとは違って,画素毎の客観性と中心性を予測することにより,各ピクセルを考慮に入れたドメイン適応フレームワークを提案する。 具体的には,前景画素に注意を払い,領域間の適応性を向上させることで,中心認識アライメントを実現する。 提案手法は,実験結果の広い多数の適応環境において実証し,既存の最先端アルゴリズムに対して良好な性能を示す。

A domain adaptive object detector aims to adapt itself to unseen domains that may contain variations of object appearance, viewpoints or backgrounds. Most existing methods adopt feature alignment either on the image level or instance level. However, image-level alignment on global features may tangle foreground/background pixels at the same time, while instance-level alignment using proposals may suffer from the background noise. Different from existing solutions, we propose a domain adaptation framework that accounts for each pixel via predicting pixel-wise objectness and centerness. Specifically, the proposed method carries out center-aware alignment by paying more attention to foreground pixels, hence achieving better adaptation across domains. We demonstrate our method on numerous adaptation settings with extensive experimental results and show favorable performance against existing state-of-the-art algorithms.
翻訳日:2022-10-27 12:07:20 公開日:2020-08-19
# トポロジカル視点から見たニューラルネットワークの接続性学習

Learning Connectivity of Neural Networks from a Topological Perspective ( http://arxiv.org/abs/2008.08261v1 )

ライセンス: Link先を確認
Kun Yuan, Quanquan Li, Jing Shao, Junjie Yan(参考訳) 効果的なニューラルネットワークを探すことは、ディープラーニングにおける批判的で実践的な分野である。 深度、畳み込みの種類、正規化、非線形性を設計するだけでなく、ニューラルネットワークのトポロジカル接続も重要である。 従来のルールベースのモジュラー設計の原則は、効率的なアーキテクチャを構築することの難しさを単純化するが、限られた空間で可能なトポロジを制約する。 本稿では,ニューラルネットワークにおけるコネクティビティの最適化を試みる。 本稿では,ノードが特徴の集約と変換を行い,エッジが情報の流れを決定する,解析のための完全なグラフにネットワークを表現するためのトポロジ的視点を提案する。 接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。 さらに,連結度分布に余剰空間制約を付加し,臨界接続に着目した学習トポロジを促進する。 この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。 実験の定量的結果は、学習された接続性は、ランダム、残留、完全といった従来の規則に基づくものよりも優れていることを反映している。 さらに、過剰な計算負荷を伴わずに画像分類と物体検出を大幅に改善する。

Seeking effective neural networks is a critical and practical field in deep learning. Besides designing the depth, type of convolution, normalization, and nonlinearities, the topological connectivity of neural networks is also important. Previous principles of rule-based modular design simplify the difficulty of building an effective architecture, but constrain the possible topologies in limited spaces. In this paper, we attempt to optimize the connectivity in neural networks. We propose a topological perspective to represent a network into a complete graph for analysis, where nodes carry out aggregation and transformation of features, and edges determine the flow of information. By assigning learnable parameters to the edges which reflect the magnitude of connections, the learning process can be performed in a differentiable manner. We further attach auxiliary sparsity constraint to the distribution of connectedness, which promotes the learned topology focus on critical connections. This learning process is compatible with existing networks and owns adaptability to larger search spaces and different tasks. Quantitative results of experiments reflect the learned connectivity is superior to traditional rule-based ones, such as random, residual, and complete. In addition, it obtains significant improvements in image classification and object detection without introducing excessive computation burden.
翻訳日:2022-10-27 12:00:56 公開日:2020-08-19
# CCA:対象検出における文脈カモフラージュ攻撃の可能性を探る

CCA: Exploring the Possibility of Contextual Camouflage Attack on Object Detection ( http://arxiv.org/abs/2008.08281v1 )

ライセンス: Link先を確認
Shengnan Hu, Yang Zhang, Sumit Laha, Ankit Sharma, Hassan Foroosh(参考訳) 深層ニューラルネットワークに基づくオブジェクト検出は、多くの現実世界アプリケーションの基礎となっている。 この成功に伴い、脆弱性を悪用する攻撃が懸念される。 この問題に関するさらなる知見を得るため,我々は,物体検出器の性能に影響を及ぼすコンテキスト・カモフラージュ・アタック(cca)アルゴリズムを提案する。 本稿では,多種多様な物体の位置,カメラのポーズ,照明条件において有効な迷彩パターンを,フォトリアリスティックシミュレートした環境と対話する,進化的探索戦略と敵対的機械学習を用いた。 提案されたカモフラージュは、最先端の物体検出器の多くに有効である。

Deep neural network based object detection hasbecome the cornerstone of many real-world applications. Alongwith this success comes concerns about its vulnerability tomalicious attacks. To gain more insight into this issue, we proposea contextual camouflage attack (CCA for short) algorithm to in-fluence the performance of object detectors. In this paper, we usean evolutionary search strategy and adversarial machine learningin interactions with a photo-realistic simulated environment tofind camouflage patterns that are effective over a huge varietyof object locations, camera poses, and lighting conditions. Theproposed camouflages are validated effective to most of the state-of-the-art object detectors.
翻訳日:2022-10-27 12:00:36 公開日:2020-08-19
# FrankMocap: 回帰と統合による高速モノクロ3Dハンドとボディモーションキャプチャ

FrankMocap: Fast Monocular 3D Hand and Body Motion Capture by Regression and Integration ( http://arxiv.org/abs/2008.08324v1 )

ライセンス: Link先を確認
Yu Rong, Takaaki Shiratori, Hanbyul Joo(参考訳) 人間の動作の本質的なニュアンスはしばしば、身体の動きと手の動きの組み合わせとして伝えられるが、既存のモノクラーモーションキャプチャーアプローチは主に、身体の動きを考慮せずに、手の部分を無視したり、手の動きを捉えることだけに焦点を当てている。 本稿では,従来よりも高速 (9.5 fps) で高精度な単眼入力から3次元手と体の動きを推定できるモーションキャプチャシステムfrankmocapを提案する。 本手法は, ほぼリアルタイム(9.5 fps)で動作し, 統一パラメトリックモデル構造として3次元体および手の動きキャプチャ出力を生成する。 本手法は3次元物体と手の動きを同時に撮影することを目的としている。 我々は,FrankMocapを構築するために,全身パラメトリックモデル(SMPL-X)のハンド部分を取り込むことで,最先端のモノクラー3Dモーションキャプチャー法を構築した。 本研究の3次元手の動きキャプチャ出力は, 単球体の動きキャプチャ出力と効率よく統合することができ, 全身の動きを統一したパロメトリーモデル構造で生成する。 我々は,手の動きキャプチャシステムの最先端のパフォーマンスを公開ベンチマークで実演し,実演シナリオを含む様々な挑戦的な実世界シーンにおいて,身体の動きキャプチャの結果の質を実演する。

Although the essential nuance of human motion is often conveyed as a combination of body movements and hand gestures, the existing monocular motion capture approaches mostly focus on either body motion capture only ignoring hand parts or hand motion capture only without considering body motion. In this paper, we present FrankMocap, a motion capture system that can estimate both 3D hand and body motion from in-the-wild monocular inputs with faster speed (9.5 fps) and better accuracy than previous work. Our method works in near real-time (9.5 fps) and produces 3D body and hand motion capture outputs as a unified parametric model structure. Our method aims to capture 3D body and hand motion simultaneously from challenging in-the-wild monocular videos. To construct FrankMocap, we build the state-of-the-art monocular 3D "hand" motion capture method by taking the hand part of the whole body parametric model (SMPL-X). Our 3D hand motion capture output can be efficiently integrated to monocular body motion capture output, producing whole body motion results in a unified parrametric model structure. We demonstrate the state-of-the-art performance of our hand motion capture system in public benchmarks, and show the high quality of our whole body motion capture result in various challenging real-world scenes, including a live demo scenario.
翻訳日:2022-10-27 12:00:09 公開日:2020-08-19
# CFAD:時空間的行動局在のための粗い行動検出装置

CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action Localization ( http://arxiv.org/abs/2008.08332v1 )

ライセンス: Link先を確認
Yuxi Li, Weiyao Lin, John See, Ning Xu, Shugong Xu, Ke Yan and Cong Yang(参考訳) 時空間動作ローカライゼーションのための現在のパイプラインのほとんどは、フレームワイズまたはクリップワイズ検出結果を接続してアクション提案を生成する。 本稿では,効率的な時空間的行動ローカライゼーションを実現するために,従来のエンドツーエンドトレーニング可能なフレームワークであるCFAD(Coarse-to-Fine Action Detector)を提案する。 CFADは、まずビデオストリームから粗い時空間のアクションチューブを推定し、キータイムスタンプに基づいてチューブの位置を洗練する新しいパラダイムを導入する。 この概念は、我々のフレームワークの粗いモジュールと細かなモジュールという2つの重要なコンポーネントによって実装されます。 リファインモジュールはキータイムスタンプの誘導の下で管位置を選択的に調整するが、粗いモジュールの長時間時間情報のパラメータ化モデリングは正確な初期管推定を得るのに役立つ。 他の手法に対して、提案されたCFADは、UCF101-24、UCFSports、JHMDB-21のアクション検出ベンチマークにおいて、最も近い競合より3.3倍速い推論速度で競合する結果を得る。

Most current pipelines for spatio-temporal action localization connect frame-wise or clip-wise detection results to generate action proposals, where only local information is exploited and the efficiency is hindered by dense per-frame localization. In this paper, we propose Coarse-to-Fine Action Detector (CFAD),an original end-to-end trainable framework for efficient spatio-temporal action localization. The CFAD introduces a new paradigm that first estimates coarse spatio-temporal action tubes from video streams, and then refines the tubes' location based on key timestamps. This concept is implemented by two key components, the Coarse and Refine Modules in our framework. The parameterized modeling of long temporal information in the Coarse Module helps obtain accurate initial tube estimation, while the Refine Module selectively adjusts the tube location under the guidance of key timestamps. Against other methods, theproposed CFAD achieves competitive results on action detection benchmarks of UCF101-24, UCFSports and JHMDB-21 with inference speed that is 3.3x faster than the nearest competitors.
翻訳日:2022-10-27 11:59:43 公開日:2020-08-19
# 教師なしビデオ領域適応改善のための特徴空間における仮想的対立訓練

Virtual Adversarial Training in Feature Space to Improve Unsupervised Video Domain Adaptation ( http://arxiv.org/abs/2008.08369v1 )

ライセンス: Link先を確認
Artjoms Gorpincenko, Geoffrey French, Michal Mackiewicz(参考訳) Virtual Adversarial Trainingは最近、半教師付き学習や教師なしのドメイン適応で多くの成功を収めている。 しかし,これまでは画素空間の入力サンプルとして使用されてきたが,特徴ベクトルに直接適用することを提案する。 また,ドメイン適応の教師を伴って,エントロピーの最小化と決定境界反復精錬訓練の不安定な振る舞いについても論じ,同様の振る舞いを実現する代替案を提案する。 前述のテクニックをアートモデルTA$3$Nの状態に追加することにより、複数の教師なしビデオドメイン適応タスクにおいて、競争結果を維持するか、先行技術より優れているかのどちらかを達成できる。

Virtual Adversarial Training has recently seen a lot of success in semi-supervised learning, as well as unsupervised Domain Adaptation. However, so far it has been used on input samples in the pixel space, whereas we propose to apply it directly to feature vectors. We also discuss the unstable behaviour of entropy minimization and Decision-Boundary Iterative Refinement Training With a Teacher in Domain Adaptation, and suggest substitutes that achieve similar behaviour. By adding the aforementioned techniques to the state of the art model TA$^3$N, we either maintain competitive results or outperform prior art in multiple unsupervised video Domain Adaptation tasks
翻訳日:2022-10-27 11:59:10 公開日:2020-08-19
# 実測アノテーションを伴わないロバストなRGBベースの6-DoFポーズ推定

Robust RGB-based 6-DoF Pose Estimation without Real Pose Annotations ( http://arxiv.org/abs/2008.08391v1 )

ライセンス: Link先を確認
Zhigang Li, Yinlin Hu, Mathieu Salzmann, and Xiangyang Ji(参考訳) 単一のRGB画像から6-DoFオブジェクトのポーズ推定に多くの進歩があったが、現在の主要なアプローチは実際のアノテーションデータに大きく依存している。 したがって、全ての可能な咬合を注釈付きデータでカバーすることは難易度が高いため、重症咬合に敏感である。 本稿では,実ポーズアノテーションを使わずに,難易度の高い条件下で6自由度姿勢をロバストかつ正確に推定する手法を提案する。 この目的のために,画像からネットワークによって予測されるポーズと,それに対して合成的に変化して咬合を模倣するポーズとの直観を両立させ,これを自己教師付き損失関数に変換する。 LINEMOD, Occluded-LINEMOD, YCB, および新しいランダム化LINEMODデータセットを用いた実験により, 本手法の堅牢性が確認された。 LINEMOD と OccludedLINEMOD を実地設定なしで実現し、Occluded-LINEMOD のトレーニング中に実際のアノテーションに依存する方法よりも優れています。

While much progress has been made in 6-DoF object pose estimation from a single RGB image, the current leading approaches heavily rely on real-annotation data. As such, they remain sensitive to severe occlusions, because covering all possible occlusions with annotated data is intractable. In this paper, we introduce an approach to robustly and accurately estimate the 6-DoF pose in challenging conditions and without using any real pose annotations. To this end, we leverage the intuition that the poses predicted by a network from an image and from its counterpart synthetically altered to mimic occlusion should be consistent, and translate this to a self-supervised loss function. Our experiments on LINEMOD, Occluded-LINEMOD, YCB and new Randomization LINEMOD dataset evidence the robustness of our approach. We achieve state of the art performance on LINEMOD, and OccludedLINEMOD in without real-pose setting, even outperforming methods that rely on real annotations during training on Occluded-LINEMOD.
翻訳日:2022-10-27 11:58:58 公開日:2020-08-19
# マルチラベル分類のためのインスタンスアウェアグラフ畳み込みネットワーク

Instance-Aware Graph Convolutional Network for Multi-Label Classification ( http://arxiv.org/abs/2008.08407v1 )

ライセンス: Link先を確認
Yun Wang, Tong Zhang, Zhen Cui, Chunyan Xu, Jian Yang(参考訳) グラフ畳み込みニューラルネットワーク(GCN)は、統計ラベル共起データに基づくラベル依存を導入することにより、マルチラベル画像認識タスクを効果的に強化した。 しかし、従来の方法では、ラベル相関はデータの統計情報に基づいて計算されるため、全てのサンプルで同じであり、多くの画像インスタンスの膨大な変動を扱うにはラベル上のグラフ推論が不十分である。 本稿では,マルチラベル分類のためのインスタンス対応グラフ畳み込みニューラルネットワーク(IA-GCN)フレームワークを提案する。 全体として、サブネットワークの2つの融合ブランチは、全体像をモデル化するグローバルブランチと、関心領域(ROI)間の依存関係を探索するリージョンベースのブランチである。 統計的ラベル相関のみを用いるのではなく、グラフ畳み込みにおけるインスタンス認識性のラベル拡散のために、画像依存ラベル相関行列(lcm)を構築し、各画像インスタンスの統計的lcmと個々の画像インスタンスの両方を融合して、ラベル上のグラフ推論を行い、モデルの学習した特徴にラベル認識の適応情報を注入する。 具体的には、検出されたroisに関するラベルのスコアに基づいてラベル依存性をマイニングして各画像の個々のlcmを得る。 本稿では,roisのマルチラベル分類への寄与の違いを考慮し,これらのroisの適応的スケーリング因子を複素分布から学習するために,変分推論を導入する。 最後に、MS-COCOおよびVOCデータセットに関する広範な実験により、提案手法が既存の最先端手法よりも優れていることを示す。

Graph convolutional neural network (GCN) has effectively boosted the multi-label image recognition task by introducing label dependencies based on statistical label co-occurrence of data. However, in previous methods, label correlation is computed based on statistical information of data and therefore the same for all samples, and this makes graph inference on labels insufficient to handle huge variations among numerous image instances. In this paper, we propose an instance-aware graph convolutional neural network (IA-GCN) framework for multi-label classification. As a whole, two fused branches of sub-networks are involved in the framework: a global branch modeling the whole image and a region-based branch exploring dependencies among regions of interests (ROIs). For label diffusion of instance-awareness in graph convolution, rather than using the statistical label correlation alone, an image-dependent label correlation matrix (LCM), fusing both the statistical LCM and an individual one of each image instance, is constructed for graph inference on labels to inject adaptive information of label-awareness into the learned features of the model. Specifically, the individual LCM of each image is obtained by mining the label dependencies based on the scores of labels about detected ROIs. In this process, considering the contribution differences of ROIs to multi-label classification, variational inference is introduced to learn adaptive scaling factors for those ROIs by considering their complex distribution. Finally, extensive experiments on MS-COCO and VOC datasets show that our proposed approach outperforms existing state-of-the-art methods.
翻訳日:2022-10-27 11:58:38 公開日:2020-08-19
# BabelEnconding at SemEval-2020 Task 3:Contextual similarity as a Combination of Multilingualism and Language Models (英語)

BabelEnconding at SemEval-2020 Task 3: Contextual Similarity as a Combination of Multilingualism and Language Models ( http://arxiv.org/abs/2008.08439v1 )

ライセンス: Link先を確認
Lucas R. C. Pessutto, Tiago de Melo, Viviane P. Moreira, Altigran da Silva(参考訳) 本稿では,semeval-2020タスク3に提案するシステム(babelenconding)について述べる。 本稿では,単語対間の文脈的類似性を計算するために,翻訳モデルと多言語モデルを用いた手法を提案する。 我々の仮説は、追加の言語からの証拠が人間の生成したスコアとの相関を活用できるというものです。 BabelEncondingはサブタスクにも適用され、タスク/言語の組み合わせ8つのうち上位3つにランクインした。

This paper describes the system submitted by our team (BabelEnconding) to SemEval-2020 Task 3: Predicting the Graded Effect of Context in Word Similarity. We propose an approach that relies on translation and multilingual language models in order to compute the contextual similarity between pairs of words. Our hypothesis is that evidence from additional languages can leverage the correlation with the human generated scores. BabelEnconding was applied to both subtasks and ranked among the top-3 in six out of eight task/language combinations and was the highest scoring system three times.
翻訳日:2022-10-27 11:52:13 公開日:2020-08-19
# UoB at SemEval-2020 Task 12: Boosting BERT with Corpus Level Information (英語)

UoB at SemEval-2020 Task 12: Boosting BERT with Corpus Level Information ( http://arxiv.org/abs/2008.08547v1 )

ライセンス: Link先を確認
Wah Meng Lim and Harish Tayyar Madabushi(参考訳) BERTのような事前訓練された言語モデルワード表現は、いくつかの自然言語処理タスクにおいて、最先端技術において著しく改善されている。 これは、文に含まれる意味的情報をよりよく捉える能力によって引き起こされる。 しかし、いくつかのタスクは、TF-IDF(Term Frequency-Inverse Document Frequency)のようなコーパスレベルで利用できる情報から恩恵を受けることができる。 本研究は,ソーシャルメディア上での虐待を識別するタスクにおいて,bertとこの情報を統合することの有効性を検証し,bertと統合することでパフォーマンスが著しく向上することを示す。 我々はサブタスクa(異常検出)に参加し、トップパフォーマンスチームの2ポイント以内にスコアを達成し、サブタスクb(ターゲット検出)では44チームのうち4位にランクします。

Pre-trained language model word representation, such as BERT, have been extremely successful in several Natural Language Processing tasks significantly improving on the state-of-the-art. This can largely be attributed to their ability to better capture semantic information contained within a sentence. Several tasks, however, can benefit from information available at a corpus level, such as Term Frequency-Inverse Document Frequency (TF-IDF). In this work we test the effectiveness of integrating this information with BERT on the task of identifying abuse on social media and show that integrating this information with BERT does indeed significantly improve performance. We participate in Sub-Task A (abuse detection) wherein we achieve a score within two points of the top performing team and in Sub-Task B (target detection) wherein we are ranked 4 of the 44 participating teams.
翻訳日:2022-10-27 11:51:59 公開日:2020-08-19
# 命題決定図におけるトラクタブル推論

Tractable Inference in Credal Sentential Decision Diagrams ( http://arxiv.org/abs/2008.08524v1 )

ライセンス: Link先を確認
Lilith Mattei, Alessandro Antonucci, Denis Deratani Mau\'a, Alessandro Facchini, Julissa Villanueva Llerena(参考訳) 確率感性決定図は、解離ゲートの入力が確率値によってアノテートされる論理回路である。 これらはブール変数の集合上で定義される合同確率質量関数のコンパクトな表現を可能にし、これは回路によって定義される論理的制約とも一致する。 そのようなモデルにおける確率は通常、一連の観測から学習される。 これはデータが乏しい、信頼できない、あるいは矛盾している場合に、自信過剰で事前依存的な推論につながる。 本研究では,局所確率を(いわゆる「クレダル」と呼ばれる)質量関数の集合に置き換えることができる確率関数の一般化である,クレダル感性決定図を開発する。 これらのモデルはブール変数の集合上の合同クレダル集合を誘導し、論理的な制約と矛盾する状態に対して確率ゼロを鋭く割り当てる。 これらのモデルに対して3つの推論アルゴリズムが導出され、計算が可能となる。 (i)任意の数の変数に対する観測の下位及び上位の確率 二 単一の変数が観察された状態に対する下限及び上限の確率 (iii)credal仕様に適合する確率的センテンシャル決定図が、他の変数の観察によって与えられた変数の集合について、同じ最も可能性の高い説明を持つか否か。 これらの推論は、回路サイズに関して多項式時間で解くことができるため、全ての3つのアルゴリズムは、解離ゲート上の局所線形プログラミングタスクによるボトムアップトラバーサルに基づいている。 まず,ノイズの多い7セグメント表示画像に基づく簡単なアプリケーションについて検討する。 クレダルモデルは、容易に検出し難いインスタンスを適切に区別し、論理的制約に対処できない他の生成モデルより優れている。

Probabilistic sentential decision diagrams are logic circuits where the inputs of disjunctive gates are annotated by probability values. They allow for a compact representation of joint probability mass functions defined over sets of Boolean variables, that are also consistent with the logical constraints defined by the circuit. The probabilities in such a model are usually learned from a set of observations. This leads to overconfident and prior-dependent inferences when data are scarce, unreliable or conflicting. In this work, we develop the credal sentential decision diagrams, a generalisation of their probabilistic counterpart that allows for replacing the local probabilities with (so-called credal) sets of mass functions. These models induce a joint credal set over the set of Boolean variables, that sharply assigns probability zero to states inconsistent with the logical constraints. Three inference algorithms are derived for these models, these allow to compute: (i) the lower and upper probabilities of an observation for an arbitrary number of variables; (ii) the lower and upper conditional probabilities for the state of a single variable given an observation; (iii) whether or not all the probabilistic sentential decision diagrams compatible with the credal specification have the same most probable explanation of a given set of variables given an observation of the other variables. These inferences are tractable, as all the three algorithms, based on bottom-up traversal with local linear programming tasks on the disjunctive gates, can be solved in polynomial time with respect to the circuit size. For a first empirical validation, we consider a simple application based on noisy seven-segment display images. The credal models are observed to properly distinguish between easy and hard-to-detect instances and outperform other generative models not able to cope with logical constraints.
翻訳日:2022-10-27 11:51:27 公開日:2020-08-19
# 政策プロセス分析のための組合せ多様性指標

Combinatorial diversity metrics for the analysis of policy processes ( http://arxiv.org/abs/2008.10401v1 )

ライセンス: Link先を確認
Mark Dukes, Anthony A. Casey(参考訳) 我々は,公共政策決定プロセスにおける問題解決能力の定量化のために,完全に一般的な多様性指標をいくつか提示する。 これは、線形時間論理の式によってモデル化された制約と合わせて、宣言的プロセスパラダイムを使用してポリシープロセスをモデル化する。 我々は、宣言的プロセスの異なる実行を表現するために、first-passage tracesと呼ばれるトレースクラスを導入する。 そのようなプロセスの多様性測度が満たすべき特性のヒューリスティックスは、これらのプロセスの2つの異なる指標を、第1のパストレースの集合の観点で導出するために用いられる。 これらの指標は、プロセスのトレースの集合上の2つの異なる確率変数のエントロピーの観点から定式化されている。 さらに, 所定の線形時間論理式を満たす場合, トレースを「良い」と呼ぶような「良さ」の尺度を導入する。 これにより、「善」という所定の概念に対する政策プロセスの比較が可能になる。

We present several completely general diversity metrics to quantify the problem-solving capacity of any public policy decision making process. This is performed by modelling the policy process using a declarative process paradigm in conjunction with constraints modelled by expressions in linear temporal logic. We introduce a class of traces, called first-passage traces, to represent the different executions of the declarative processes. Heuristics of what properties a diversity measure of such processes ought to satisfy are used to derive two different metrics for these processes in terms of the set of first-passage traces. These metrics turn out to have formulations in terms of the entropies of two different random variables on the set of traces of the processes. In addition, we introduce a measure of `goodness' whereby a trace is termed {\it good} if it satisfies some prescribed linear temporal logic expression. This allows for comparisons of policy processes with respect to the prescribed notion of `goodness'.
翻訳日:2022-10-27 11:50:48 公開日:2020-08-19
# DeepHandMesh:高忠実ハンドメッシュモデリングのための弱教師付きディープエンコーダデコーダフレームワーク

DeepHandMesh: A Weakly-supervised Deep Encoder-Decoder Framework for High-fidelity Hand Mesh Modeling ( http://arxiv.org/abs/2008.08213v1 )

ライセンス: Link先を確認
Gyeongsik Moon, Takaaki Shiratori, Kyoung Mu Lee(参考訳) 人間の手は、他の人や物体との対話において中心的な役割を果たす。 このような手の動きを現実的に再現するには、高忠実度ハンドメッシュを再構築する必要がある。 本研究では、まず、高忠実度ハンドメッシュモデリングのための弱教師付きディープエンコーダデコーダフレームワークDeepHandMeshを提案する。 エンド・ツー・エンドで弱い教師付きでトレーニングするシステムを設計するので、基盤となるメッシュは必要ありません。 代わりに、3dジョイント座標やマルチビュー深度マップといった弱い監督に依存しており、これは接地メッシュよりも入手が容易であり、メッシュトポロジーに依存しない。 提案されたDeepHandMeshは、弱い教師付き方法でトレーニングされているが、以前の完全に教師付きハンドモデルよりもはるかに現実的なハンドメッシュを提供する。 新たに導入した侵入回避損失は,ハンドパーツ間の物理的インタラクションを複製することにより,さらに結果を改善する。 最後に,本システムは一般画像からの3次元手メッシュ推定にも有効であることを示す。 ハンドモデル、データセット、コードはhttps://mks0601.github.io/deephandmesh/で公開されています。

Human hands play a central role in interacting with other people and objects. For realistic replication of such hand motions, high-fidelity hand meshes have to be reconstructed. In this study, we firstly propose DeepHandMesh, a weakly-supervised deep encoder-decoder framework for high-fidelity hand mesh modeling. We design our system to be trained in an end-to-end and weakly-supervised manner; therefore, it does not require groundtruth meshes. Instead, it relies on weaker supervisions such as 3D joint coordinates and multi-view depth maps, which are easier to get than groundtruth meshes and do not dependent on the mesh topology. Although the proposed DeepHandMesh is trained in a weakly-supervised way, it provides significantly more realistic hand mesh than previous fully-supervised hand models. Our newly introduced penetration avoidance loss further improves results by replicating physical interaction between hand parts. Finally, we demonstrate that our system can also be applied successfully to the 3D hand mesh estimation from general images. Our hand model, dataset, and codes are publicly available at https://mks0601.github.io/DeepHandMesh/.
翻訳日:2022-10-27 11:50:34 公開日:2020-08-19
# 提示検出によるオープンソースのアイリス認識ハードウェアとソフトウェア

Open Source Iris Recognition Hardware and Software with Presentation Attack Detection ( http://arxiv.org/abs/2008.08220v1 )

ライセンス: Link先を確認
Zhaoyuan Fang, Adam Czajka(参考訳) 本稿では,raspberry piボードと周辺機器を用いて,75usdで容易に組み立て可能なプレゼンテーションアタック検出(pad)を備えた,米国初のオープンソースハードウェアおよびソフトウェア虹彩認識システムを提案する。 本研究の主な目的は,スプーフ耐性虹彩認識のための低コストベースラインを提供することである。 (a)アイリスパッドの研究を刺激し、安全なアイリス認識システムのプロトタイピングを容易にする。 (b)より高度なシステムに代わる低コストで安全な虹彩認識を提供し、 (c)教育プラットフォームとして機能する。 本研究では,高速かつ高精度な虹彩分節化のための軽量画像複雑度誘導畳み込みネットワーク,ドメイン固有二元化統計的画像特徴(bsif)を提案し,虹彩テンプレートの構築と,パッドのための2d(虹彩テクスチャ)と3d(光量ステレオベース)機能を組み合わせる。 提案された虹彩認識は約3.2秒で、提案されたPADはRaspberry Pi 3B+で4.5秒で実行される。 この論文とともに、ハードウェア仕様とパイプライン全体のすべてのソースコードが利用可能になっている。

This paper proposes the first known to us open source hardware and software iris recognition system with presentation attack detection (PAD), which can be easily assembled for about 75 USD using Raspberry Pi board and a few peripherals. The primary goal of this work is to offer a low-cost baseline for spoof-resistant iris recognition, which may (a) stimulate research in iris PAD and allow for easy prototyping of secure iris recognition systems, (b) offer a low-cost secure iris recognition alternative to more sophisticated systems, and (c) serve as an educational platform. We propose a lightweight image complexity-guided convolutional network for fast and accurate iris segmentation, domain-specific human-inspired Binarized Statistical Image Features (BSIF) to build an iris template, and to combine 2D (iris texture) and 3D (photometric stereo-based) features for PAD. The proposed iris recognition runs in about 3.2 seconds and the proposed PAD runs in about 4.5 seconds on Raspberry Pi 3B+. The hardware specifications and all source codes of the entire pipeline are made available along with this paper.
翻訳日:2022-10-27 11:49:59 公開日:2020-08-19
# disentangled representation learningによる顔のアンチスプーフィング

Face Anti-Spoofing Via Disentangled Representation Learning ( http://arxiv.org/abs/2008.08250v1 )

ライセンス: Link先を確認
Ke-Yue Zhang, Taiping Yao, Jian Zhang, Ying Tai, Shouhong Ding, Jilin Li, Feiyue Huang, Haichuan Song, Lizhuang Ma(参考訳) 顔認識システムのセキュリティには顔認識対策が不可欠である。 従来のアプローチでは、画像から抽出された特徴に基づく差別モデルの開発に焦点が当てられていた。 本稿では, 画像から生意気な特徴や内容的特徴を遠ざけ, さらにその生意気な特徴を分類するために利用する顔反偽造の新たな視点を提案する。 また,畳み込み処理を施した畳み込みニューラルネットワーク(convolutional neural network, cnn)アーキテクチャを展開し,一般化能力を向上させるために低レベルと高レベルの組み合わせを行った。 提案手法を公開ベンチマークデータセット上で評価し,提案手法が最先端の競合相手に対して有効であることを示す。 最後に, 絡み合いの効果と利点を理解するために, 結果の可視化を行う。

Face anti-spoofing is crucial to security of face recognition systems. Previous approaches focus on developing discriminative models based on the features extracted from images, which may be still entangled between spoof patterns and real persons. In this paper, motivated by the disentangled representation learning, we propose a novel perspective of face anti-spoofing that disentangles the liveness features and content features from images, and the liveness features is further used for classification. We also put forward a Convolutional Neural Network (CNN) architecture with the process of disentanglement and combination of low-level and high-level supervision to improve the generalization capabilities. We evaluate our method on public benchmark datasets and extensive experimental results demonstrate the effectiveness of our method against the state-of-the-art competitors. Finally, we further visualize some results to help understand the effect and advantage of disentanglement.
翻訳日:2022-10-27 11:49:39 公開日:2020-08-19
# 非対向画像変換GANモデルによる無スライドMUSE顕微鏡とH&E組織学のモダリティ変換

Slide-free MUSE Microscopy to H&E Histology Modality Conversion via Unpaired Image-to-Image Translation GAN Models ( http://arxiv.org/abs/2008.08579v1 )

ライセンス: Link先を確認
Tanishq Abraham, Andrew Shaw, Daniel O'Connor, Austin Todd, Richard Levenson(参考訳) MUSEは、従来の組織学の代替として機能する組織の組織学的検査のための新しいスライドフリーイメージング技術である。 MUSEと従来の組織学のギャップを埋めるため,本研究では,MUSE画像をヘマトキシリンおよびエオシン染色(H&E)画像に類似させる。 我々は,非機械学習に基づくカラーマッピングツール,CycleGAN,DualGAN,GANILLAの4つのモデルを評価した。 CycleGANとGANILLAは、H&EスタイルとMUSEコンテンツを適切に転送する視覚的に魅力的な結果を提供した。 実画像および生成されたH&E画像に対する自動批評家のトレーニングに基づいて,CycleGANが最高の性能を示した。 また,MUSE色インバージョンがH&Eへの正確なモダリティ変換に必要なステップであることも見出した。 我々はMUSE-to-H&Eモデルが,MUSE画像と従来の組織学の知覚的ギャップを埋めることで,新しいスライドフリー手法の採用を促進することができると考えている。

MUSE is a novel slide-free imaging technique for histological examination of tissues that can serve as an alternative to traditional histology. In order to bridge the gap between MUSE and traditional histology, we aim to convert MUSE images to resemble authentic hematoxylin- and eosin-stained (H&E) images. We evaluated four models: a non-machine-learning-based color-mapping unmixing-based tool, CycleGAN, DualGAN, and GANILLA. CycleGAN and GANILLA provided visually compelling results that appropriately transferred H&E style and preserved MUSE content. Based on training an automated critic on real and generated H&E images, we determined that CycleGAN demonstrated the best performance. We have also found that MUSE color inversion may be a necessary step for accurate modality conversion to H&E. We believe that our MUSE-to-H&E model can help improve adoption of novel slide-free methods by bridging a perceptual gap between MUSE imaging and traditional histology.
翻訳日:2022-10-27 11:44:12 公開日:2020-08-19
# zonaによるヒト胚盤胞の画像分割

Image Segmentation of Zona-Ablated Human Blastocysts ( http://arxiv.org/abs/2008.08673v1 )

ライセンス: Link先を確認
Md Yousuf Harun, M Arifur Rahman, Joshua Mellinger, Willy Chang, Thomas Huang, Brienne Walker, Kristen Hori, and Aaron T. Ohta(参考訳) ヒト胚移植の自動化は、新しい定量的かつ客観的な胚品質測定を提供することにより、体外受精(IVF)による高い成功率をもたらす可能性がある。 現在のIVFプロシージャは、通常、定性的手動グレーディングのみを使用し、遺伝的に異常な胚の同定に制限される。 胚盤胞拡張の自動定量評価は、持続妊娠率を向上し、遺伝的異常のより正確な同定によって異常妊娠からの健康リスクを低減する可能性がある。 胚盤胞の増殖速度は発育する胚の質を決定する重要な形態学的特徴である。 本研究は,不規則な形状の胚盤胞を分割することの難易度を高めることを目的として,深層学習に基づくヒト胚盤胞画像分割法を提案する。 ここで評価される胚盤嚢胞の種類は、眼窩生検の前に必要となる帯状骨化症をレーザーアブレーションしたものである。 これは伸長した胚盤胞の大きさの手動測定を複雑にし、遺伝的異常との相関を示す。 実験の結果、セグメンテーションは拡張測定の精度を大幅に向上させ、99.4%の精度、98.1%の精度、98.8%のリコール、98.4%のサイコロ係数、96.9%のjaccard指数が得られた。

Automating human preimplantation embryo grading offers the potential for higher success rates with in vitro fertilization (IVF) by providing new quantitative and objective measures of embryo quality. Current IVF procedures typically use only qualitative manual grading, which is limited in the identification of genetically abnormal embryos. The automatic quantitative assessment of blastocyst expansion can potentially improve sustained pregnancy rates and reduce health risks from abnormal pregnancies through a more accurate identification of genetic abnormality. The expansion rate of a blastocyst is an important morphological feature to determine the quality of a developing embryo. In this work, a deep learning based human blastocyst image segmentation method is presented, with the goal of facilitating the challenging task of segmenting irregularly shaped blastocysts. The type of blastocysts evaluated here has undergone laser ablation of the zona pellucida, which is required prior to trophectoderm biopsy. This complicates the manual measurements of the expanded blastocyst's size, which shows a correlation with genetic abnormalities. The experimental results on the test set demonstrate segmentation greatly improves the accuracy of expansion measurements, resulting in up to 99.4% accuracy, 98.1% precision, 98.8% recall, a 98.4% Dice Coefficient, and a 96.9% Jaccard Index.
翻訳日:2022-10-27 11:43:55 公開日:2020-08-19
# ディープニューラルネットを用いたヒト胚盤胞画像における内細胞量とトロフェクトフェムセグメンテーション

Inner Cell Mass and Trophectoderm Segmentation in Human Blastocyst Images using Deep Neural Network ( http://arxiv.org/abs/2008.08676v1 )

ライセンス: Link先を確認
Md Yousuf Harun, Thomas Huang, and Aaron T. Ohta(参考訳) 体外受精(IVF)による妊娠率の向上には,形態的特性に基づく胚品質評価が重要である。 胚の内部細胞塊(ICM)とトロフェクトーデスム上皮(TE)の正確なセグメンテーションは、これらのパラメータが胚の生存可能性と生存可能性を予測するのに役立つため重要である。 しかし, ICM と TE のセグメンテーションは, テクスチャの形状や類似性が異なるため, 両者のセグメンテーションは困難である。 この問題に対処するため、ディープニューラルネットワーク(DNN)ベースのセグメンテーションアプローチを実装した。 DNNはICM領域を99.1%の精度、94.9%の精度、93.8%のリコール、94.3%のディス係数、89.3%のジャカード指数で識別できる。 TE領域を98.3%の精度、91.8%の精度、93.2%のリコール、92.5%のディス係数、85.3%のジャカード指数で抽出することができる。

Embryo quality assessment based on morphological attributes is important for achieving higher pregnancy rates from in vitro fertilization (IVF). The accurate segmentation of the embryo's inner cell mass (ICM) and trophectoderm epithelium (TE) is important, as these parameters can help to predict the embryo viability and live birth potential. However, segmentation of the ICM and TE is difficult due to variations in their shape and similarities in their textures, both with each other and with their surroundings. To tackle this problem, a deep neural network (DNN) based segmentation approach was implemented. The DNN can identify the ICM region with 99.1% accuracy, 94.9% precision, 93.8% recall, a 94.3% Dice Coefficient, and a 89.3% Jaccard Index. It can extract the TE region with 98.3% accuracy, 91.8% precision, 93.2% recall, a 92.5% Dice Coefficient, and a 85.3% Jaccard Index.
翻訳日:2022-10-27 11:43:30 公開日:2020-08-19
# MRI胎児脳画像合成のための自己監督超音波

Self-Supervised Ultrasound to MRI Fetal Brain Image Synthesis ( http://arxiv.org/abs/2008.08698v1 )

ライセンス: Link先を確認
Jianbo Jiao, Ana I.L. Namburete, Aris T. Papageorghiou, J. Alison Noble(参考訳) 胎児脳MRI(Fetal brain magnetic resonance imaging)は、発達する脳の精細な画像を提供するが、超音波(US)を用いた第2トリメスター異常スクリーニングには適さない。 超音波の専門家はus画像を読むのに長けているが、解剖学的画像によく似たmr画像は、非専門家にとって解釈がはるかに容易である。 そこで本稿では,臨床画像から直接MRライクな画像を生成することを提案する。 医用画像解析では、例えばUS-MRIの自動登録や核融合などにも有用である。 提案モデルはエンドツーエンドでトレーニング可能で,外部アノテーションを使わずに自己監視可能である。 具体的には、米国とMRIのデータが類似の解剖学的潜伏空間を共有しているという仮定に基づいて、まずネットワークを利用して共有潜伏特徴を抽出し、MRI合成に使用する。 ペア化されたデータは我々の研究では利用できないため、ピクセルレベルの制約は適用できない。 そこで我々は,画像領域と特徴空間の両方における逆学習により,統計的に区別不能な分布を強制することを提案する。 合成中のUSとMRIの解剖学的構造を正則化するために,逆構造制約を提案する。 マルチモーダル知識の融合と伝播を奨励し,非局所空間情報を活用する新しいクロスモーダル注意手法を提案する。 ボリュームデータから3d補助情報(例えば3d近傍と3dロケーションインデックス)が利用可能である場合を考えるアプローチを拡張し、画像合成が改善されることを示す。 提案手法は, 胎児mr画像や他の合成手法と比較して定量的, 定性的に評価され, リアルmr画像合成の可能性を示す。

Fetal brain magnetic resonance imaging (MRI) offers exquisite images of the developing brain but is not suitable for second-trimester anomaly screening, for which ultrasound (US) is employed. Although expert sonographers are adept at reading US images, MR images which closely resemble anatomical images are much easier for non-experts to interpret. Thus in this paper we propose to generate MR-like images directly from clinical US images. In medical image analysis such a capability is potentially useful as well, for instance for automatic US-MRI registration and fusion. The proposed model is end-to-end trainable and self-supervised without any external annotations. Specifically, based on an assumption that the US and MRI data share a similar anatomical latent space, we first utilise a network to extract the shared latent features, which are then used for MRI synthesis. Since paired data is unavailable for our study (and rare in practice), pixel-level constraints are infeasible to apply. We instead propose to enforce the distributions to be statistically indistinguishable, by adversarial learning in both the image domain and feature space. To regularise the anatomical structures between US and MRI during synthesis, we further propose an adversarial structural constraint. A new cross-modal attention technique is proposed to utilise non-local spatial information, by encouraging multi-modal knowledge fusion and propagation. We extend the approach to consider the case where 3D auxiliary information (e.g., 3D neighbours and a 3D location index) from volumetric data is also available, and show that this improves image synthesis. The proposed approach is evaluated quantitatively and qualitatively with comparison to real fetal MR images and other approaches to synthesis, demonstrating its feasibility of synthesising realistic MR images.
翻訳日:2022-10-27 11:43:09 公開日:2020-08-19
# FinChat: 日々の話題におけるフィンランド語チャットのコーパスと評価設定

FinChat: Corpus and evaluation setup for Finnish chat conversations on everyday topics ( http://arxiv.org/abs/2008.08315v1 )

ライセンス: Link先を確認
Katri Leino, Juho Leinonen, Mittul Singh, Sami Virpioja, Mikko Kurimo(参考訳) オープンドメインチャットボットを作成するには、大量の会話データと関連するベンチマークタスクが必要である。 標準化された評価タスクは、モデル開発のための自動評価メトリクスを作成するために不可欠である。 チャットボットの課題は最近、英語にこのようなリソースの多さを提供しているが、他の言語のリソースはまだ利用できない。 本研究では,フィンランドのオープンドメインチャットボット研究の出発点となる。 我々は,フィンランドのチャット会話コーパスであるfinchatを作成するための収集作業について述べる。 FinChatには、異なる年齢の人々の7つのトピックに関する説明されていない会話が含まれている。 このコーパスを用いて,フィンランドのチャットボット開発のための検索ベース評価タスクを構築する。 対話型コーパスでトレーニングされた既成のチャットボットモデルでは,自動測定値に基づいて適切な回答を選択するチャンスが得られず,人間がほぼ完全に同じタスクを実行できる。 同様に、人間による評価では、チャットボットによって生成された評価セットからの質問に対する応答は、主に非一貫性としてマークされる。 このようにFinChatは、フィンランドのチャットボット開発を促進するために、挑戦的な評価セットを提供する。

Creating open-domain chatbots requires large amounts of conversational data and related benchmark tasks to evaluate them. Standardized evaluation tasks are crucial for creating automatic evaluation metrics for model development; otherwise, comparing the models would require resource-expensive human evaluation. While chatbot challenges have recently managed to provide a plethora of such resources for English, resources in other languages are not yet available. In this work, we provide a starting point for Finnish open-domain chatbot research. We describe our collection efforts to create the Finnish chat conversation corpus FinChat, which is made available publicly. FinChat includes unscripted conversations on seven topics from people of different ages. Using this corpus, we also construct a retrieval-based evaluation task for Finnish chatbot development. We observe that off-the-shelf chatbot models trained on conversational corpora do not perform better than chance at choosing the right answer based on automatic metrics, while humans can do the same task almost perfectly. Similarly, in a human evaluation, responses to questions from the evaluation set generated by the chatbots are predominantly marked as incoherent. Thus, FinChat provides a challenging evaluation set, meant to encourage chatbot development in Finnish.
翻訳日:2022-10-27 11:40:49 公開日:2020-08-19
# グラフ同型ネットワークにおけるトレーニング感度

Training Sensitivity in Graph Isomorphism Network ( http://arxiv.org/abs/2008.09020v1 )

ライセンス: Link先を確認
Md. Khaledur Rahman(参考訳) グラフニューラルネットワーク(GNN)は、グラフの低次元表現を学習するための一般的なツールである。 ドメイン固有の機能を組み込むことで、グラフ上の機械学習タスクの適用性を高める。 基礎となる手順(最適化関数、アクティベーション関数など)については、GNNの実装で考慮できる様々な選択肢がある。 しかし、既存のツールのほとんどは、分析なしで1つのアプローチに限定されている。 したがって、この出現する分野は実世界のグラフの非常に不規則な構造を無視した堅牢な実装を欠いている。 本稿では,多様なベンチマークデータセットを用いて,各モジュールの様々な代替関数を探索することにより,このギャップを埋めようとしている。 実験結果から,一般的に使用される手法は,グラフの集合から全体構造を捉えるのに必ずしもうまく機能しないことが示唆された。

Graph neural network (GNN) is a popular tool to learn the lower-dimensional representation of a graph. It facilitates the applicability of machine learning tasks on graphs by incorporating domain-specific features. There are various options for underlying procedures (such as optimization functions, activation functions, etc.) that can be considered in the implementation of GNN. However, most of the existing tools are confined to one approach without any analysis. Thus, this emerging field lacks a robust implementation ignoring the highly irregular structure of the real-world graphs. In this paper, we attempt to fill this gap by studying various alternative functions for a respective module using a diverse set of benchmark datasets. Our empirical results suggest that the generally used underlying techniques do not always perform well to capture the overall structure from a set of graphs.
翻訳日:2022-10-27 09:18:20 公開日:2020-08-19
# Auto-Surprise:Parzens Estimator (TPE)最適化を備えた自動レコメンダシステム(AutoRecSys)ライブラリ

Auto-Surprise: An Automated Recommender-System (AutoRecSys) Library with Tree of Parzens Estimator (TPE) Optimization ( http://arxiv.org/abs/2008.13532v1 )

ライセンス: Link先を確認
Rohan Anand and Joeran Beel(参考訳) 本稿では,自動レコメンダシステムライブラリであるAuto-Surpriseを紹介する。 Auto-SurpriseはSurpriseレコメンデータシステムライブラリの拡張であり、アルゴリズムの選択と設定プロセスを容易にする。 アウトオブボックスのサプライズライブラリと比較して、Auto-SurpriseはMovieLens、Book Crossing、Jester Datasetsで評価するとパフォーマンスが向上する。 また、実行時間を大幅に削減したアルゴリズムを選択することも可能である。 サプライズによるグリッド検索と比較して、オートサーベイはrmseでも同様に良く、あるいは少し良い性能を示し、最適なハイパーパラメータを見つけるのに非常に高速である。

We introduce Auto-Surprise, an Automated Recommender System library. Auto-Surprise is an extension of the Surprise recommender system library and eases the algorithm selection and configuration process. Compared to out-of-the-box Surprise library, Auto-Surprise performs better when evaluated with MovieLens, Book Crossing and Jester Datasets. It may also result in the selection of an algorithm with significantly lower runtime. Compared to Surprise's grid search, Auto-Surprise performs equally well or slightly better in terms of RMSE, and is notably faster in finding the optimum hyperparameters.
翻訳日:2022-10-27 09:17:53 公開日:2020-08-19
# ニューラルアーキテクチャサーチによるMRI再構成網の強化

Enhanced MRI Reconstruction Network using Neural Architecture Search ( http://arxiv.org/abs/2008.08248v1 )

ライセンス: Link先を確認
Qiaoying Huang, Dong Yang, Yikun Xian, Pengxiang Wu, Jingru Yi, Hui Qu, Dimitris Metaxas(参考訳) 現代のディープラーニング技術を用いて、アンダーサンプル磁気共鳴イメージング(MRI)データの正確な再構成を行うには、複雑なニューラルネットワークアーキテクチャの設計に多大な努力が必要である。 MRI再構成のためのカスケードネットワークアーキテクチャは広く使われてきたが、ネットワークが深くなった際には「消滅勾配」の問題に悩まされている。 さらに、均質なアーキテクチャはネットワークの表現能力を低下させる。 本研究では,残差基本ブロックを用いたMRI再構成ネットワークを提案する。 基本ブロックの各セルに対して、微分可能なニューラルネットワークサーチ(NAS)技術を用いて、高密度ブロックの8つの変種間の最適操作を自動的に選択する。 このニューヘテロジニアスネットワークは2つの公開データセット上で評価され,提案手法の有効性を示す最先端手法を上回っている。

The accurate reconstruction of under-sampled magnetic resonance imaging (MRI) data using modern deep learning technology, requires significant effort to design the necessary complex neural network architectures. The cascaded network architecture for MRI reconstruction has been widely used, while it suffers from the "vanishing gradient" problem when the network becomes deep. In addition, homogeneous architecture degrades the representation capacity of the network. In this work, we present an enhanced MRI reconstruction network using a residual in residual basic block. For each cell in the basic block, we use the differentiable neural architecture search (NAS) technique to automatically choose the optimal operation among eight variants of the dense block. This new heterogeneous network is evaluated on two publicly available datasets and outperforms all current state-of-the-art methods, which demonstrates the effectiveness of our proposed method.
翻訳日:2022-10-27 09:17:16 公開日:2020-08-19
# 乳房超音波画像における重み検出のための弱視・能動学習の段階的適用

Gradually Applying Weakly Supervised and Active Learning for Mass Detection in Breast Ultrasound Images ( http://arxiv.org/abs/2008.08416v1 )

ライセンス: Link先を確認
JooYeol Yun, JungWoo Oh, and IlDong Yun(参考訳) 乳房超音波画像の物体検出タスクにおいて弱い注釈付き画像データを有効に活用する手法を提案する。 小さい、強い注釈付きデータセットと、境界ボックス情報のない大きな、弱い注釈付きデータセットが利用できる問題設定を考えると、オブジェクト検出モデルのトレーニングは非自明な問題となる。 2段階物体検出モデルにおいて,弱い注釈付き画像の効果を扱うための制御重みを提案する。 また、トレーニングされたモデルを使用して、弱い注釈付きイメージに強いアノテーションを安全に割り当てる、その後のアクティブラーニングスキームも提示します。 実験の結果, 正確な局所化と分類画像の比率である正位置化(CorLoc)は, 適切に制御された重みを割り当てることで24倍に増加した。 モデル訓練後のアクティブラーニングの実行は、CorLocをさらに増加させた。 提案手法をstanford dogデータセットで検証し,類似した結果を得るために強いアノテーションが不十分な一般的なケースに適用できることを確認した。 提案手法は,より少ないアノテーションで高い性能が得られることを示した。

We propose a method for effectively utilizing weakly annotated image data in an object detection tasks of breast ultrasound images. Given the problem setting where a small, strongly annotated dataset and a large, weakly annotated dataset with no bounding box information are available, training an object detection model becomes a non-trivial problem. We suggest a controlled weight for handling the effect of weakly annotated images in a two stage object detection model. We~also present a subsequent active learning scheme for safely assigning weakly annotated images a strong annotation using the trained model. Experimental results showed a 24\% point increase in correct localization (CorLoc) measure, which is the ratio of correctly localized and classified images, by assigning the properly controlled weight. Performing active learning after a model is trained showed an additional increase in CorLoc. We tested the proposed method on the Stanford Dog datasets to assure that it can be applied to general cases, where strong annotations are insufficient to obtain resembling results. The presented method showed that higher performance is achievable with lesser annotation effort.
翻訳日:2022-10-27 09:17:04 公開日:2020-08-19
# 選択アンカーによるシーンテキスト検出

Scene Text Detection with Selected Anchor ( http://arxiv.org/abs/2008.08523v1 )

ライセンス: Link先を確認
Anna Zhu, Hang Du, Shengwu Xiong(参考訳) シーンテキスト検出のための密アンカー方式を用いたオブジェクト提案手法を頻繁に適用し,高いリコールを実現する。 その結果、精度は大幅に向上するが、計算検索、回帰、分類に費やされる。 本稿では,高密度アンカーの代わりに有効なアンカーを用いたアンカー選択型領域提案ネットワーク(AS-RPN)を提案する。 アンカーの中心、スケール、アスペクト比、配向は固定の代わりに学習可能であり、高いリコールとアンカー数の大幅な削減につながる。 Faster RCNN のアンカーベース RPN を置き換えることで、AS-RPN ベースの Faster RCNN は、COCO-Text, ICDAR2013, ICDAR2015, MSRA-TD500 など、従来の最先端のテキスト検出アプローチと同等のパフォーマンスを達成できる。

Object proposal technique with dense anchoring scheme for scene text detection were applied frequently to achieve high recall. It results in the significant improvement in accuracy but waste of computational searching, regression and classification. In this paper, we propose an anchor selection-based region proposal network (AS-RPN) using effective selected anchors instead of dense anchors to extract text proposals. The center, scales, aspect ratios and orientations of anchors are learnable instead of fixing, which leads to high recall and greatly reduced numbers of anchors. By replacing the anchor-based RPN in Faster RCNN, the AS-RPN-based Faster RCNN can achieve comparable performance with previous state-of-the-art text detecting approaches on standard benchmarks, including COCO-Text, ICDAR2013, ICDAR2015 and MSRA-TD500 when using single-scale and single model (ResNet50) testing only.
翻訳日:2022-10-27 09:16:21 公開日:2020-08-19
# 「そのメーカーを名乗る。」 ディープラーニングモデルの訓練における画像取得バイアスとタスク複雑性の関係:頭部CT実験

"Name that manufacturer". Relating image acquisition bias with task complexity when training deep learning models: experiments on head CT ( http://arxiv.org/abs/2008.08525v1 )

ライセンス: Link先を確認
Giorgio Pietro Biondetti, Romane Gauriau, Christopher P. Bridge, Charles Lu, Katherine P. Andriole(参考訳) 医療画像に機械学習技術を適用することへの関心は急速に高まり続けており、臨床応用のためのモデルの開発や展開が始まっている。 臨床AIモデル開発ライフサイクル(Lu et al. [1])において、機械学習科学者と臨床医にとって重要なフェーズは、データコホートの設計と収集である。 このステップでは、データセット内のさまざまな形式のバイアスと分散シフトを認識する能力が重要である。 全ての潜在的なバイアス源を考慮に入れるのは難しいが、その影響を緩和するために特定のバイアスの種類を特定する技術が開発されている。 本研究では、データセット内のスキャナーメーカーの分布がディープラーニングモデルの全体的なバイアスにどのように寄与するかを分析する。 分類タスクとセグメンテーションタスクの両方において畳み込みニューラルネットワーク(CNN)を評価し,特に2つの最先端モデル – 分類のためのResNet [2]とセグメンテーションのためのU-Net[3] – を評価する。 cnnが撮像スキャナーメーカーを識別することを学び、このバイアスが分類とセグメンテーションタスクの両方のモデル性能に大きな影響を与えることを実証する。 多かれ少なかれ微妙な病変の存在を模倣した脳データのオリジナルの合成データセットを作成することで、このバイアスがタスクの難易度に関連していることが分かる。 このようなバイアスの認識は、実世界のデータ分布における臨床応用に不可欠な堅牢で一般化可能なモデルを開発するために重要である。

As interest in applying machine learning techniques for medical images continues to grow at a rapid pace, models are starting to be developed and deployed for clinical applications. In the clinical AI model development lifecycle (described by Lu et al. [1]), a crucial phase for machine learning scientists and clinicians is the proper design and collection of the data cohort. The ability to recognize various forms of biases and distribution shifts in the dataset is critical at this step. While it remains difficult to account for all potential sources of bias, techniques can be developed to identify specific types of bias in order to mitigate their impact. In this work we analyze how the distribution of scanner manufacturers in a dataset can contribute to the overall bias of deep learning models. We evaluate convolutional neural networks (CNN) for both classification and segmentation tasks, specifically two state-of-the-art models: ResNet [2] for classification and U-Net [3] for segmentation. We demonstrate that CNNs can learn to distinguish the imaging scanner manufacturer and that this bias can substantially impact model performance for both classification and segmentation tasks. By creating an original synthesis dataset of brain data mimicking the presence of more or less subtle lesions we also show that this bias is related to the difficulty of the task. Recognition of such bias is critical to develop robust, generalizable models that will be crucial for clinical applications in real-world data distributions.
翻訳日:2022-10-27 09:16:00 公開日:2020-08-19
# Black Re-ID: 人物再識別問題のためのヘッドショルダー記述子

Black Re-ID: A Head-shoulder Descriptor for the Challenging Problem of Person Re-Identification ( http://arxiv.org/abs/2008.08528v1 )

ライセンス: Link先を確認
Boqiang Xu, Lingxiao He, Xingyu Liao, Wu Liu, Zhenan Sun, Tao Mei(参考訳) 人物再識別(Re-ID)は、複数のカメラが捉えた一連の画像から入力された人物画像を取得することを目的としている。 近年のRe-ID法は大きな成功を収めているが、そのほとんどが衣服の特徴(例えば、色、テクスチャ)から特徴を抽出している。 しかし、暗い照明で黒衣を着たり、監視システムによって捕獲されることが一般的であり、その場合、衣服の属性が著しく欠落している。 この問題をBlack Re-ID問題と呼ぶ。 この問題を解決するために,衣服情報に頼るのではなく,人のRe-IDを支援するためにヘッドシャダー機能を活用することを提案する。 ヘッドショルダーアダプティブアダプティブアテンションネットワーク(HAA)はヘッドショルダーの特徴を学習するために提案され、モデルの一般化を促進するために革新的なアンサンブル法が設計されている。 入力された人物像からすると、アンサンブル法は、画像の内部の個人が黒い服を着ている場合、より大きな重量を割り当てることでヘッドショルダーの特徴に焦点を当てる。 Black Re-ID問題の研究に適したベンチマークデータセットがないため、トレーニングセットに1274のIDを含む最初のBlack-reIDデータセットも提供します。 Black-reID, Market1501 および DukeMTMC-reID データセットの広範囲な評価により,我々のモデルは,Black および従来の Re-ID 問題に対する最先端の Re-ID 手法と比較して,最高の結果が得られることが示された。 また,本手法は類似の衣服における人物Re-ID処理にも有効であることが証明された。 私たちのコードとデータセットはhttps://github.com/xbq1994/で評価可能です。

Person re-identification (Re-ID) aims at retrieving an input person image from a set of images captured by multiple cameras. Although recent Re-ID methods have made great success, most of them extract features in terms of the attributes of clothing (e.g., color, texture). However, it is common for people to wear black clothes or be captured by surveillance systems in low light illumination, in which cases the attributes of the clothing are severely missing. We call this problem the Black Re-ID problem. To solve this problem, rather than relying on the clothing information, we propose to exploit head-shoulder features to assist person Re-ID. The head-shoulder adaptive attention network (HAA) is proposed to learn the head-shoulder feature and an innovative ensemble method is designed to enhance the generalization of our model. Given the input person image, the ensemble method would focus on the head-shoulder feature by assigning a larger weight if the individual insides the image is in black clothing. Due to the lack of a suitable benchmark dataset for studying the Black Re-ID problem, we also contribute the first Black-reID dataset, which contains 1274 identities in training set. Extensive evaluations on the Black-reID, Market1501 and DukeMTMC-reID datasets show that our model achieves the best result compared with the state-of-the-art Re-ID methods on both Black and conventional Re-ID problems. Furthermore, our method is also proved to be effective in dealing with person Re-ID in similar clothing. Our code and dataset are avaliable on https://github.com/xbq1994/.
翻訳日:2022-10-27 09:15:34 公開日:2020-08-19
# タスク指向グラフクラスタリングによる平衡順序バッチ

Balanced Order Batching with Task-Oriented Graph Clustering ( http://arxiv.org/abs/2008.09018v1 )

ライセンス: Link先を確認
Lu Duan, Haoyuan Hu, Zili Wu, Guozheng Li, Xinhang Zhang, Yu Gong, Yinghui Xu(参考訳) バランスド・オーダー・バッチリング問題(BOBP)は、中国最大の物流プラットフォームであるカイニアオで倉庫を拾う過程から生じる。 ピッキングプロセスで注文をまとめて1つのピッキングルートを形成することで、旅行距離を減少させる。 その重要性は、注文のピッキングは労働集約的なプロセスであり、良いバッチ手法を用いることでかなりの節約が得られるためである。 BOBPはNP-ハードな組合せ最適化問題であり、準リアルタイムシステム応答要求の下で優れた問題固有のヒューリスティックを設計するのは非自明である。 本稿では、ヒューリスティックスを設計する代わりに、バランスド・タスク指向グラフクラスタリングネットワーク(BTOGCN)と呼ばれるエンドツーエンドの学習・最適化フレームワークを提案し、バランスド・グラフクラスタリング最適化問題に還元してBOBPを解決する。 BTOGCNでは、BOBPの目的に関するより優れたクラスタリング結果を求めるために、タイプアウェアな異種グラフクラスタリングネットワークを誘導するタスク指向推定器ネットワークが導入された。 シングルグラフとマルチグラフの包括的実験を通じて、以下のことが示される。 1) バランスの取れたタスク指向グラフクラスタリングネットワークは, ターゲット信号の誘導を直接活用し, 2段階の深層埋め込みおよび深層クラスタリング手法よりも優れている。 2) 本手法は, 単グラフおよび多グラフ集合上のエキスパート設計アルゴリズムよりも平均4.57m, 0.13mピッキング距離(mはメートル(長さのsiベース単位)を短縮し, 実用的なシナリオに適用可能な一般化能力を有する。

Balanced order batching problem (BOBP) arises from the process of warehouse picking in Cainiao, the largest logistics platform in China. Batching orders together in the picking process to form a single picking route, reduces travel distance. The reason for its importance is that order picking is a labor intensive process and, by using good batching methods, substantial savings can be obtained. The BOBP is a NP-hard combinational optimization problem and designing a good problem-specific heuristic under the quasi-real-time system response requirement is non-trivial. In this paper, rather than designing heuristics, we propose an end-to-end learning and optimization framework named Balanced Task-orientated Graph Clustering Network (BTOGCN) to solve the BOBP by reducing it to balanced graph clustering optimization problem. In BTOGCN, a task-oriented estimator network is introduced to guide the type-aware heterogeneous graph clustering networks to find a better clustering result related to the BOBP objective. Through comprehensive experiments on single-graph and multi-graphs, we show: 1) our balanced task-oriented graph clustering network can directly utilize the guidance of target signal and outperforms the two-stage deep embedding and deep clustering method; 2) our method obtains an average 4.57m and 0.13m picking distance ("m" is the abbreviation of the meter (the SI base unit of length)) reduction than the expert-designed algorithm on single and multi-graph set and has a good generalization ability to apply in practical scenario.
翻訳日:2022-10-27 09:10:16 公開日:2020-08-19
# 並列分散推論のための深部モデルの再構成, 刈り取り, 調整

Restructuring, Pruning, and Adjustment of Deep Models for Parallel Distributed Inference ( http://arxiv.org/abs/2008.08289v1 )

ライセンス: Link先を確認
Afshin Abdi, Saeed Rashidi, Faramarz Fekri, Tushar Krishna(参考訳) 複数のノードと並列コンピューティングアルゴリズムを使用することで、深層ニューラルネットワークのトレーニングと実行時間を改善すると同時に、センサネットワークにおける効果的な集団知性も向上する。 本稿では,複数の処理ノード(例えばワーカ)上ですでに訓練済みの深層モデルを並列に実装し,その深層モデルを複数の並列サブモデルに分割し,それぞれをワーカで実行する。 作業者の同期とデータ転送によるレイテンシは並列実装の性能に悪影響を及ぼすため、並列サブモデル間の最小相互依存性を持つことが望ましい。 この目的を達成するために、ニューラルネットワーク内のニューロンを再構成して分割し(ニューラルネットワークの一般的なトポロジを変更することなく)、労働者の計算や通信制約の下でサブモデル間の相互依存性を最小限に抑えることを提案する。 並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。 RePurposeを効率的に適用するために、$\ell_0$最適化とMunkres代入アルゴリズムに基づくアプローチを提案する。 既存の手法と比較して,並列実装による分散推論の効率が,通信量と計算量の両方において大幅に向上することを示す。

Using multiple nodes and parallel computing algorithms has become a principal tool to improve training and execution times of deep neural networks as well as effective collective intelligence in sensor networks. In this paper, we consider the parallel implementation of an already-trained deep model on multiple processing nodes (a.k.a. workers) where the deep model is divided into several parallel sub-models, each of which is executed by a worker. Since latency due to synchronization and data transfer among workers negatively impacts the performance of the parallel implementation, it is desirable to have minimum interdependency among parallel sub-models. To achieve this goal, we propose to rearrange the neurons in the neural network and partition them (without changing the general topology of the neural network), such that the interdependency among sub-models is minimized under the computations and communications constraints of the workers. We propose RePurpose, a layer-wise model restructuring and pruning technique that guarantees the performance of the overall parallelized model. To efficiently apply RePurpose, we propose an approach based on $\ell_0$ optimization and the Munkres assignment algorithm. We show that, compared to the existing methods, RePurpose significantly improves the efficiency of the distributed inference via parallel implementation, both in terms of communication and computational complexity.
翻訳日:2022-10-27 09:09:25 公開日:2020-08-19
# DECE:機械学習モデルのための非現実的説明付き決定エクスプローラー

DECE: Decision Explorer with Counterfactual Explanations for Machine Learning Models ( http://arxiv.org/abs/2008.08353v1 )

ライセンス: Link先を確認
Furui Cheng, Yao Ming, Huamin Qu(参考訳) 機械学習モデルがさまざまな意思決定シナリオにますます適用されていく中、人々は機械学習モデルをより透明で説明しやすいものにするために、ますます努力を重ねてきた。 さまざまな説明手法の中で、反ファクト的な説明には、人間フレンドリで行動しやすいという利点がある -- 反ファクト的な説明は、入力に最小限の変更を加えて、望ましい予測を得る方法を教えてくれる。 さらに、反事実的説明はモデルの判断に対する効率的なプローブとしても機能する。 本研究では,反事実的説明の可能性を活用し,機械学習モデルの振る舞いを理解し探索する。 我々は、個別のインスタンスやデータサブセットに関するモデルの判断を理解し、探索するのに役立つインタラクティブな可視化システムDECEを設計し、意思決定対象からモデル開発者まで幅広いユーザーをサポートする。 DECEは、インスタンスレベルとサブグループレベルの反実的説明の強みを組み合わせることで、モデル決定の探索的分析を支援する。 また、ユーザによる反事実説明の生成をカスタマイズして、ニーズに合致するアクション可能なものを見つけるための、一連のインタラクションも導入しています。 3つのユースケースと専門家インタビューを通じて、意思決定探索タスクと事例説明を支援する上でのDCEの有効性を実証する。

With machine learning models being increasingly applied to various decision-making scenarios, people have spent growing efforts to make machine learning models more transparent and explainable. Among various explanation techniques, counterfactual explanations have the advantages of being human-friendly and actionable -- a counterfactual explanation tells the user how to gain the desired prediction with minimal changes to the input. Besides, counterfactual explanations can also serve as efficient probes to the models' decisions. In this work, we exploit the potential of counterfactual explanations to understand and explore the behavior of machine learning models. We design DECE, an interactive visualization system that helps understand and explore a model's decisions on individual instances and data subsets, supporting users ranging from decision-subjects to model developers. DECE supports exploratory analysis of model decisions by combining the strengths of counterfactual explanations at instance- and subgroup-levels. We also introduce a set of interactions that enable users to customize the generation of counterfactual explanations to find more actionable ones that can suit their needs. Through three use cases and an expert interview, we demonstrate the effectiveness of DECE in supporting decision exploration tasks and instance explanations.
翻訳日:2022-10-27 09:08:29 公開日:2020-08-19
# 広帯域畳み込みニューラルネットワークの漸近

Asymptotics of Wide Convolutional Neural Networks ( http://arxiv.org/abs/2008.08675v1 )

ライセンス: Link先を確認
Anders Andreassen, Ethan Dyer(参考訳) 広いニューラルネットワークは、理論と実践の両方において、リッチなアーキテクチャクラスであることが証明されている。 有限幅畳み込みネットワークが無限幅ネットワークを上回るという観測に動機づけられ,スキップ接続を持つ広帯域cnnおよびネットワークのスケーリング則について検討した。 我々は(dyer & gur-ari, 2019) のアプローチに従って,多量の利害に対して漸近的な幅依存性を導出するための単純な図式的レシピを提案する。 これらのスケーリング関係は、広い畳み込みネットワークのトレーニングダイナミクスの解決可能な記述を提供する。 これらの関係を幅広いアーキテクチャでテストします。 特に,有限幅モデルと無限幅モデルのパフォーマンス差は,モデル幅に対して一定の速度で消失することがわかった。 にもかかわらず、この関係は有限幅モデルと一致し、その無限幅モデルよりも良いか悪いかのどちらかを一般化し、相対的な性能が最適化の詳細に依存する例を示す。

Wide neural networks have proven to be a rich class of architectures for both theory and practice. Motivated by the observation that finite width convolutional networks appear to outperform infinite width networks, we study scaling laws for wide CNNs and networks with skip connections. Following the approach of (Dyer & Gur-Ari, 2019), we present a simple diagrammatic recipe to derive the asymptotic width dependence for many quantities of interest. These scaling relationships provide a solvable description for the training dynamics of wide convolutional networks. We test these relations across a broad range of architectures. In particular, we find that the difference in performance between finite and infinite width models vanishes at a definite rate with respect to model width. Nonetheless, this relation is consistent with finite width models generalizing either better or worse than their infinite width counterparts, and we provide examples where the relative performance depends on the optimization details.
翻訳日:2022-10-27 09:07:11 公開日:2020-08-19
# 胸部X線による肺疾患検出のためのデータ効率のよい深層学習スマートフォンアプリケーション

A Data-Efficient Deep Learning Based Smartphone Application For Detection Of Pulmonary Diseases Using Chest X-rays ( http://arxiv.org/abs/2008.08912v1 )

ライセンス: Link先を確認
Hrithwik Shalu, Harikrishnan P, Akash Das, Megdut Mandal, Harshavardhan M Sali, Juned Kadiwala(参考訳) 本稿では,医療サービスの提供方法に革命をもたらす可能性のある,スマートフォンアプリケーションに基づく疾患診断のパラダイムを紹介する。 新型コロナウイルスの感染拡大で医療サービスに支障を来すのが主な目的だが、患者が幅広い範囲の肺疾患に罹患している正確な疾患を特定できるよう拡張することもできる。 モバイルアプリは、モバイルカメラから撮影したChest X-Rayイメージを入力し、クラウドプラットフォームのAIアーキテクチャに中継し、その病気を最先端の最先端で診断する。 スマートフォンの医師はこのアプリケーションを利用すれば、新型コロナウイルス(COVID-19)の診断に要する時間を大幅に節約できる。 学習データの不足とクラス不均衡の問題は,データ拡張生成支援ネットワーク(DAGAN)と,注意機構を備えた畳み込みシームズネットワークを基盤としたモデルアーキテクチャを用いて,我々のアプローチに効果的に対処した。 バックエンドモデルは、最小限のデータとノイズの多い2つの異なる分類シナリオ(Binary/Multiclass)の下で、公開データセットの堅牢性をテストするためにテストされた。 このモデルは2つのシナリオで99.30%と98.40%の精度を達成し、ユーザーにとって完全に信頼された。 それに加えて、半生のトレーニングシナリオが導入され、データが蓄積されるにつれて、時間の経過とともにアプリのパフォーマンスが向上する。 全体として、複雑なモデルとデータ非効率の汎用性の問題は、モデルアーキテクチャを通して取り組まれます。 半ライブトレーニングによるアプリベースの設定は、社会における信頼できる医療へのアクセスを容易にし、最小限のデータ環境で希少な疾患の研究を効果的に行うのに役立つ。

This paper introduces a paradigm of smartphone application based disease diagnostics that may completely revolutionise the way healthcare services are being provided. Although primarily aimed to assist the problems in rendering the healthcare services during the coronavirus pandemic, the model can also be extended to identify the exact disease that the patient is caught with from a broad spectrum of pulmonary diseases. The app inputs Chest X-Ray images captured from the mobile camera which is then relayed to the AI architecture in a cloud platform, and diagnoses the disease with state of the art accuracy. Doctors with a smartphone can leverage the application to save the considerable time that standard COVID-19 tests take for preliminary diagnosis. The scarcity of training data and class imbalance issues were effectively tackled in our approach by the use of Data Augmentation Generative Adversarial Network (DAGAN) and model architecture based as a Convolutional Siamese Network with attention mechanism. The backend model was tested for robustness us-ing publicly available datasets under two different classification scenarios(Binary/Multiclass) with minimal and noisy data. The model achieved pinnacle testing accuracy of 99.30% and 98.40% on the two respective scenarios, making it completely reliable for its users. On top of that a semi-live training scenario was introduced, which helps improve the app performance over time as data accumulates. Overall, the problems of generalisability of complex models and data inefficiency is tackled through the model architecture. The app based setting with semi live training helps in ease of access to reliable healthcare in the society, as well as help ineffective research of rare diseases in a minimal data setting.
翻訳日:2022-10-27 09:06:55 公開日:2020-08-19
# RFMモデルと教師なし機械学習による銀行顧客のセグメンテーション

Segmenting Bank Customers via RFM Model and Unsupervised Machine Learning ( http://arxiv.org/abs/2008.08662v1 )

ライセンス: Link先を確認
Musadig Aliyev, Elvin Ahmadov, Habil Gadirli, Arzu Mammadova and Emin Alasgarov(参考訳) 近年、金融機関にとって大きな課題の1つは、信頼性と収益性のある分節化の新しい手法を用いて顧客の維持である。 銀行業界では、すべてのサービスを既存のすべての顧客に同時に提供するというアプローチは、必ずしもうまくいきません。 しかし、何を売るか、いつ売るか、誰が売るかを知ることは、新しいサービスへの応答と新製品の購入に対する顧客のコンバージョン率に大きな差をもたらす。 本稿では,アゼルバイジャン最大の民間銀行の実際の顧客データに適用したRAM手法と各種クラスタリングアルゴリズムを用いた。

In recent years, one of the major challenges for financial institutions is the retention of their customers using new methodologies of reliable and profitable segmentation. In the field of banking, the approach of offering all of the services to all the existing customers at the same time does not always work. However, being aware of what to sell, when to sell and whom to sell makes a huge difference in the conversion rate of the customers responding to new services and buying new products. In this paper, we used RFM technique and various clustering algorithms applied to the real customer data of one of the largest private banks of Azerbaijan.
翻訳日:2022-10-27 09:00:29 公開日:2020-08-19
# 分類のための神経近傍符号化

Neural Neighborhood Encoding for Classification ( http://arxiv.org/abs/2008.08685v1 )

ライセンス: Link先を確認
Kaushik Sinha and Parikshit Ram(参考訳) フルーツフライ嗅覚回路にインスパイアされたfly bloomフィルタ(dasgupta et al., 2018)は、データを単一のパスで効率的に要約することができ、新規な検出に使用されている。 本研究では,クラスごとのFly Bloomフィルタを用いて,各クラスごとに異なる局所近傍を効果的に符号化する新しい分類器を提案する。 テストデータ上での推論には、効率的な {\tt flyhash} [dasgupta, et al., 2017] 操作と、クラス毎のブルームフィルタを備えた高次元の {\em sparse} ドット積が必要である。 学習は自明に並列化できる。 理論的には,任意のテスト例における提案する分類器の予測が,最も近い隣接分類器の予測と高い確率で一致する条件を定式化する。 我々は,提案手法を50ドルを超える多様なデータ次元のデータセットを用いて広範囲に評価し,提案する神経科学に基づく分類器の予測性能が最接近型分類器と他の単一パス分類器に匹敵することを示した。

Inspired by the fruit-fly olfactory circuit, the Fly Bloom Filter [Dasgupta et al., 2018] is able to efficiently summarize the data with a single pass and has been used for novelty detection. We propose a new classifier (for binary and multi-class classification) that effectively encodes the different local neighborhoods for each class with a per-class Fly Bloom Filter. The inference on test data requires an efficient {\tt FlyHash} [Dasgupta, et al., 2017] operation followed by a high-dimensional, but {\em sparse}, dot product with the per-class Bloom Filters. The learning is trivially parallelizable. On the theoretical side, we establish conditions under which the prediction of our proposed classifier on any test example agrees with the prediction of the nearest neighbor classifier with high probability. We extensively evaluate our proposed scheme with over $50$ data sets of varied data dimensionality to demonstrate that the predictive performance of our proposed neuroscience inspired classifier is competitive the the nearest-neighbor classifiers and other single-pass classifiers.
翻訳日:2022-10-27 09:00:20 公開日:2020-08-19
# LOCUS:一様間隔を有する低ランク構造を用いた脳ネットワーク接続行列の新しい分解法

LOCUS: A Novel Decomposition Method for Brain Network Connectivity Matrices using Low-rank Structure with Uniform Sparsity ( http://arxiv.org/abs/2008.08915v1 )

ライセンス: Link先を確認
Yikai Wang and Ying Guo(参考訳) ネットワーク指向の研究は多くの科学分野で人気が高まっている。 神経科学研究において、画像に基づくネットワーク接続は、個々の神経指紋として機能する可能性のある脳組織を理解するための鍵となっている。 接続行列の分析には、脳ネットワークの高次元性、観測された接続の基盤となる未知の潜在源、スプリアスな発見につながる脳接続の多さなど、大きな課題がある。 本稿では,ネットワーク計測のための完全データ駆動分解法として,低ランク構造と均一性(LOCUS)を備えた新しいブラインドソース分離法を提案する。 脳ネットワークトポロジーを無視する接続行列をベクトル化する既存の方法と比較して、locusは低ランク構造を用いた接続行列をより効率的で正確なソース分離を実現する。 低ランクテンソル法における従来のスペーシティ制御よりも優れた性能を示すアングルに基づく一様スペーシティ正規化を提案する。 LOCUS学習のための非凸最適化問題を解くために,目的関数のブロック多重凸性を利用した高効率反復ノード回転アルゴリズムを提案する。 広範囲なシミュレーション研究を通じてLOCUSの利点を説明する。 LOCUSのフィラデルフィア神経発達コホート神経イメージング研究への応用は、既存の方法では見つからない生物学的に洞察に富んだ接続特性を明らかにしている。

Network-oriented research has been increasingly popular in many scientific areas. In neuroscience research, imaging-based network connectivity measures have become the key for understanding brain organizations, potentially serving as individual neural fingerprints. There are major challenges in analyzing connectivity matrices including the high dimensionality of brain networks, unknown latent sources underlying the observed connectivity, and the large number of brain connections leading to spurious findings. In this paper, we propose a novel blind source separation method with low-rank structure and uniform sparsity (LOCUS) as a fully data-driven decomposition method for network measures. Compared with the existing method that vectorizes connectivity matrices ignoring brain network topology, LOCUS achieves more efficient and accurate source separation for connectivity matrices using low-rank structure. We propose a novel angle-based uniform sparsity regularization that demonstrates better performance than the existing sparsity controls for low-rank tensor methods. We propose a highly efficient iterative Node-Rotation algorithm that exploits the block multi-convexity of the objective function to solve the non-convex optimization problem for learning LOCUS. We illustrate the advantage of LOCUS through extensive simulation studies. Application of LOCUS to Philadelphia Neurodevelopmental Cohort neuroimaging study reveals biologically insightful connectivity traits which are not found using the existing method.
翻訳日:2022-10-27 08:59:57 公開日:2020-08-19
# チャネルワイド・ヘシアンによるニューラルネットワークのトレース重み付き量子化

Channel-wise Hessian Aware trace-Weighted Quantization of Neural Networks ( http://arxiv.org/abs/2008.08284v1 )

ライセンス: Link先を確認
Xu Qian, Victor Li, Crews Darren(参考訳) 2次情報は、ニューラルネットワークの重みとアクティベーションの冗長性を決定するのに非常に効果的であることが証明されている。 近年,重みとアクティベーションのヘシアントレースを混合精度量子化に利用し,最先端の結果を得る。 しかしながら、以前の作業では各レイヤのビット選択にのみフォーカスする一方で、レイヤ内の異なるチャネルの冗長性も大きく異なる。 これは、各チャネルのビットを決定する複雑さが元のメソッドでは高すぎるためである。 本稿ではCW-HAWQ(Channel-wise Hessian Aware trace-Weighted Quantization)を紹介する。 CW-HAWQはヘシアントレースを用いて、活性化と重みの異なるチャネルの相対感度順序を決定する。 さらに、CW-HAWQは、ディープ強化学習(DRL)のDeep Deterministic Policy Gradient(DDPG)ベースのエージェントを使用して、異なる量子化ビットの最適比を見つけ、ヘッセントレース順序に従ってチャネルにビットを割り当てることを提案する。 cw-hawqにおける状態の数は、量子化ビットの検索比率のみを必要とするため、従来のautomlベースの混合精度法に比べてはるかに少ない。 CW-HAWQと最先端技術を比較すると、複数のネットワークでより良い結果が得られることが分かる。

Second-order information has proven to be very effective in determining the redundancy of neural network weights and activations. Recent paper proposes to use Hessian traces of weights and activations for mixed-precision quantization and achieves state-of-the-art results. However, prior works only focus on selecting bits for each layer while the redundancy of different channels within a layer also differ a lot. This is mainly because the complexity of determining bits for each channel is too high for original methods. Here, we introduce Channel-wise Hessian Aware trace-Weighted Quantization (CW-HAWQ). CW-HAWQ uses Hessian trace to determine the relative sensitivity order of different channels of activations and weights. What's more, CW-HAWQ proposes to use deep Reinforcement learning (DRL) Deep Deterministic Policy Gradient (DDPG)-based agent to find the optimal ratios of different quantization bits and assign bits to channels according to the Hessian trace order. The number of states in CW-HAWQ is much smaller compared with traditional AutoML based mix-precision methods since we only need to search ratios for the quantization bits. Compare CW-HAWQ with state-of-the-art shows that we can achieve better results for multiple networks.
翻訳日:2022-10-27 08:59:13 公開日:2020-08-19
# 音響誤差サンプリングを用いたクロス発話言語モデル

Cross-Utterance Language Models with Acoustic Error Sampling ( http://arxiv.org/abs/2009.01008v1 )

ライセンス: Link先を確認
G. Sun, C. Zhang and P. C. Woodland(参考訳) 言語モデル(LM)におけるよりリッチな文脈情報の効果的な活用は、音声認識(ASR)における長年の研究課題である。 本論文では,過去と将来の発話から抽出した文脈ベクトルを用いて,標準長短期メモリ(LSTM)LMへの入力を増大させるクロス発話LM(CULM)を提案する。 抽出ネットワークは、LSTMの最終隠れ状態のプロジェクションまたはマルチヘッド自己認識層を用いて、周囲の発話をコンテキストベクトルに統合したベクトルに符号化するために、別のLSTMを使用する。 また,実験時間とトレーニング時間のミスマッチを低減するため,音響誤差サンプリング手法を提案する。 これは、モデルトレーニング手順に可能なASRエラーを考慮し、従って単語エラー率(WER)を改善することで達成される。 AMIデータセットとSwitchboardデータセットの両方で実施された実験では、CULMがLSTM LMベースラインWERより優れていることが示された。 特に、自己減衰層に基づく抽出ネットワークと音響誤差サンプリングを備えたCULMは、AMIの0.6%のWER削減、Switchboard部の0.3%のWER削減、Eval2000テストセットのCallhome部の0.9%のWER削減を実現している。

The effective exploitation of richer contextual information in language models (LMs) is a long-standing research problem for automatic speech recognition (ASR). A cross-utterance LM (CULM) is proposed in this paper, which augments the input to a standard long short-term memory (LSTM) LM with a context vector derived from past and future utterances using an extraction network. The extraction network uses another LSTM to encode surrounding utterances into vectors which are integrated into a context vector using either a projection of LSTM final hidden states, or a multi-head self-attentive layer. In addition, an acoustic error sampling technique is proposed to reduce the mismatch between training and test-time. This is achieved by considering possible ASR errors into the model training procedure, and can therefore improve the word error rate (WER). Experiments performed on both AMI and Switchboard datasets show that CULMs outperform the LSTM LM baseline WER. In particular, the CULM with a self-attentive layer-based extraction network and acoustic error sampling achieves 0.6% absolute WER reduction on AMI, 0.3% WER reduction on the Switchboard part and 0.9% WER reduction on the Callhome part of Eval2000 test set over the respective baselines.
翻訳日:2022-10-27 08:58:04 公開日:2020-08-19
# 強化学習を用いたHDFSのインテリジェントレプリケーション管理

Intelligent Replication Management for HDFS Using Reinforcement Learning ( http://arxiv.org/abs/2008.08665v1 )

ライセンス: Link先を確認
Hyunsung Lee(参考訳) クラウドコンピューティングのためのストレージシステムは、多数のコモディティコンピュータを単一の大きなストレージプールに統合する。 信頼性の低い動的ネットワーク上で、大規模なメインフレームを購入し維持するよりも低コストで高性能なストレージを提供する。 本稿では,システム領域問題に強化学習(RL)を適用することが可能かどうかを検討する。 実験の結果,RLモデルはブロック管理問題に対する他のヒューリスティックよりも優れていることがわかった。 しかし、我々の実験はスケーラビリティと忠実さの点で限られています。 私たちの定式化はそれほど実用的ではないが、システムドメインへの強化学習の適用は、既存のヒューリスティックに優れた選択肢を提供する可能性がある。

Storage systems for cloud computing merge a large number of commodity computers into a single large storage pool. It provides high-performance storage over an unreliable, and dynamic network at a lower cost than purchasing and maintaining large mainframe. In this paper, we examine whether it is feasible to apply Reinforcement Learning(RL) to system domain problems. Our experiments show that the RL model is comparable, even outperform other heuristics for block management problem. However, our experiments are limited in terms of scalability and fidelity. Even though our formulation is not very practical,applying Reinforcement Learning to system domain could offer good alternatives to existing heuristics.
翻訳日:2022-10-27 08:57:39 公開日:2020-08-19
# sentiq: 感情分析ツールの品質向上のための確率論的論理アプローチ

SentiQ: A Probabilistic Logic Approach to Enhance Sentiment Analysis Tool Quality ( http://arxiv.org/abs/2008.08919v1 )

ライセンス: Link先を確認
Wissam Maamar Kouadri, Salima Benbernou, Mourad Ouziri, Themis Palpanas, Iheb Ben Amor(参考訳) 様々なWebサイトやソーシャルメディアで述べられている意見は、いくつかの組織の意思決定プロセスに不可欠な貢献である。 既存の感情分析ツールは、これらの意見内容から極性(正、負、中性)を抽出することを目的としている。 この分野の研究の進展にもかかわらず、感情分析ツールはビジネス決定に有害な「textit{inconsistent}」極性を与える。 本稿では,ルールを通してツールに意味的次元を注入する教師なしマルコフ論理ネットワークベースのアプローチであるsentiqを提案する。 不整合を検出して解決し、ツールの全体的な精度を改善することができる。 予備実験の結果, sentiqの有用性が示された。

The opinion expressed in various Web sites and social-media is an essential contributor to the decision making process of several organizations. Existing sentiment analysis tools aim to extract the polarity (i.e., positive, negative, neutral) from these opinionated contents. Despite the advance of the research in the field, sentiment analysis tools give \textit{inconsistent} polarities, which is harmful to business decisions. In this paper, we propose SentiQ, an unsupervised Markov logic Network-based approach that injects the semantic dimension in the tools through rules. It allows to detect and solve inconsistencies and then improves the overall accuracy of the tools. Preliminary experimental results demonstrate the usefulness of SentiQ.
翻訳日:2022-10-27 08:57:29 公開日:2020-08-19
# ランダム重みを持つニューラルネットの近似下界について

On the Approximation Lower Bound for Neural Nets with Random Weights ( http://arxiv.org/abs/2008.08427v1 )

ライセンス: Link先を確認
Sho Sonoda, Ming Li, Feilong Cao, Changqin Huang, Yu Guang Wang(参考訳) ランダムネットは、隠れた層がランダムな割り当てで凍結され、出力層が凸最適化によって訓練される浅いニューラルネットワークである。 隠蔽層にランダムウェイトを用いることは、標準勾配降下学習における避けられない非凸性を避けるための有効な方法である。 近年、深層学習理論の研究に採用されている。 本稿ではランダムネットの表現力について検討する。 浅層ニューラルネットワークが普遍近似器であるというよく知られている事実にもかかわらず、ランダムネットは滑らかな関数であってもゼロ近似誤差を達成できない。 特に、滑らかな関数のクラスに対して、提案分布がコンパクトにサポートされた場合、下界が正であることを証明する。 この証明は、ニューラルネットワークのリッジレット解析と調和解析に基づいて、パラメータ分布の切り裂かれた尾に対するプランシェレルの定理と推定値を用いる。 様々なシミュレーション研究で理論的結果が一致し、一般的に2つの主なメッセージが提供されます。 (i)ランダムな重みを選択するための分布は、普遍的近似器を構築することができない。 (ii) 乱重みの適切な割り当ては存在するが、ある程度は対象関数の複雑さと関連している。

A random net is a shallow neural network where the hidden layer is frozen with random assignment and the output layer is trained by convex optimization. Using random weights for a hidden layer is an effective method to avoid the inevitable non-convexity in standard gradient descent learning. It has recently been adopted in the study of deep learning theory. Here, we investigate the expressive power of random nets. We show that, despite the well-known fact that a shallow neural network is a universal approximator, a random net cannot achieve zero approximation error even for smooth functions. In particular, we prove that for a class of smooth functions, if the proposal distribution is compactly supported, then a lower bound is positive. Based on the ridgelet analysis and harmonic analysis for neural networks, the proof uses the Plancherel theorem and an estimate for the truncated tail of the parameter distribution. We corroborate our theoretical results with various simulation studies, and generally two main take-home messages are offered: (i) Not any distribution for selecting random weights is feasible to build a universal approximator; (ii) A suitable assignment of random weights exists but to some degree is associated with the complexity of the target function.
翻訳日:2022-10-27 08:50:48 公開日:2020-08-19
# NASCaps: 畳み込みカプセルネットワークの正確性とハードウェア効率を最適化するニューラルネットワーク検索フレームワーク

NASCaps: A Framework for Neural Architecture Search to Optimize the Accuracy and Hardware Efficiency of Convolutional Capsule Networks ( http://arxiv.org/abs/2008.08476v1 )

ライセンス: Link先を確認
Alberto Marchisio, Andrea Massa, Vojtech Mrazek, Beatrice Bussolino, Maurizio Martina, Muhammad Shafique(参考訳) Deep Neural Networks(DNN)は、幅広い機械学習(ML)アプリケーションで使用されるために望ましい精度に到達するために、大幅に改善されている。 最近Google Brainのチームは、カプセルネットワーク(Capsule Networks, CapsNets)を使って、異なる入力特徴間の空間的相関を符号化し学習し、従来の(非カプセルベース)DNNと比較して優れた学習能力を得ることができることを示した。 しかし、従来の手法によるcapsnetの設計は退屈な作業であり、大きなトレーニング努力を要している。 近年の研究では、与えられたアプリケーションとトレーニングデータセットに対して最適なDNNモデル構成を自動的に選択する強力な手法が、ニューラルネットワーク探索(NAS)アルゴリズムに基づいていることが示されている。 さらに、その極端な計算とメモリ要件のため、DNNはIoT-Edge/CPSデバイスに特別なハードウェアアクセラレータを使用する。 本稿では,従来の畳み込みDNNとCapsNetの両方をカバーする,異なるタイプのDNNのハードウェア対応NASの自動フレームワークであるNASCapsを提案する。 本稿では,多目的遺伝的アルゴリズム(NSGA-IIアルゴリズム)の展開の有効性について検討する。 提案フレームワークは、DNN推論を実行するハードウェアアクセラレーションのエネルギ、メモリ、レイテンシの観点から、ネットワークの精度とそれに対応するハードウェア効率を協調的に最適化することができる。 従来のDNNレイヤのサポートに加えて、当社のフレームワークはNASフローの特別なカプセルレイヤと動的ルーティングをモデル化し、サポートする最初のフレームワークです。 我々は、異なるデータセット上でフレームワークを評価し、異なるネットワーク構成を生成し、異なる出力メトリクス間のトレードオフを示す。 我々はpareto-optimal architecturesの完全なフレームワークと構成をhttps://github.com/ehw-fit/nascapsでオープンソース化する。

Deep Neural Networks (DNNs) have made significant improvements to reach the desired accuracy to be employed in a wide variety of Machine Learning (ML) applications. Recently the Google Brain's team demonstrated the ability of Capsule Networks (CapsNets) to encode and learn spatial correlations between different input features, thereby obtaining superior learning capabilities compared to traditional (i.e., non-capsule based) DNNs. However, designing CapsNets using conventional methods is a tedious job and incurs significant training effort. Recent studies have shown that powerful methods to automatically select the best/optimal DNN model configuration for a given set of applications and a training dataset are based on the Neural Architecture Search (NAS) algorithms. Moreover, due to their extreme computational and memory requirements, DNNs are employed using the specialized hardware accelerators in IoT-Edge/CPS devices. In this paper, we propose NASCaps, an automated framework for the hardware-aware NAS of different types of DNNs, covering both traditional convolutional DNNs and CapsNets. We study the efficacy of deploying a multi-objective Genetic Algorithm (e.g., based on the NSGA-II algorithm). The proposed framework can jointly optimize the network accuracy and the corresponding hardware efficiency, expressed in terms of energy, memory, and latency of a given hardware accelerator executing the DNN inference. Besides supporting the traditional DNN layers, our framework is the first to model and supports the specialized capsule layers and dynamic routing in the NAS-flow. We evaluate our framework on different datasets, generating different network configurations, and demonstrate the tradeoffs between the different output metrics. We will open-source the complete framework and configurations of the Pareto-optimal architectures at https://github.com/ehw-fit/nascaps.
翻訳日:2022-10-27 08:50:29 公開日:2020-08-19
# 長期短期記憶ニューラルネットを用いた需要予測

Demand Forecasting using Long Short-Term Memory Neural Networks ( http://arxiv.org/abs/2008.08522v1 )

ライセンス: Link先を確認
Marta Go{\l}\k{a}bek, Robin Senge, and Rainer Neumann(参考訳) 本稿では,e-grocery 小売業における需要予測に長期記憶ニューラルネットワーク(LSTM)がどの程度適しているかを検討する。 この目的のために、マスターズ論文の文脈において、無変量および多変量lstmベースのモデルが開発され、100個の高速移動消費者製品に対してテストされた。 平均すると, 食品製品に対する評価は, 統計学と機械学習の両ファミリーの比較モデルよりも良好であった。 飲料の無作為な森林面積と線形回帰は, わずかに良好な結果を得た。 この結果から,LSTMは製品レベルでの需要予測に有効であることが示唆された。 ここで提示されるモデルの性能は現在の研究状況を超えており、残念ながら今日まで公開されていないデータセットに基づく評価から見ることができる。

In this paper we investigate to what extent long short-term memory neural networks (LSTMs) are suitable for demand forecasting in the e-grocery retail sector. For this purpose, univariate as well as multivariate LSTM-based models were developed and tested for 100 fast-moving consumer goods in the context of a master's thesis. On average, the developed models showed better results for food products than the comparative models from both statistical and machine learning families. Solely in the area of beverages random forest and linear regression achieved slightly better results. This outcome suggests that LSTMs can be used for demand forecasting at product level. The performance of the models presented here goes beyond the current state of research, as can be seen from the evaluations based on a data set that unfortunately has not been publicly available to date.
翻訳日:2022-10-27 08:49:47 公開日:2020-08-19
# 非パラメトリック回帰モデルによる医療保険報酬の時差推定

Estimating the time-lapse between medical insurance reimbursement with non-parametric regression models ( http://arxiv.org/abs/2008.08624v1 )

ライセンス: Link先を確認
Mary Akinyemi, Chika Yinka-Banjo, Ogban-Asuquo Ugot, Akwarandu Ugo Nwachuku(参考訳) 非パラメトリック教師付き学習アルゴリズムは、学習パラメータが高度に柔軟で、その値がトレーニングデータのサイズに直接依存する教師付き学習アルゴリズムの簡潔クラスを表す。 本稿では, 4つの非パラメトリックアルゴリズム, K-Nearest Neighbours (KNNs), Support Vector Machines (SVMs), Decision Tree, Random Forestsの特性について比較検討する。 教師付き学習課題は、医療保険返済の時間経過の回帰推定である。 本研究は,非パラメトリック回帰モデルがトレーニングデータにどの程度適合するかを正確に検討する。 R-二乗計量を用いて適合の良さを定量化する。 その結果、トレーニングデータのサイズ、特徴空間次元、ハイパーパラメータ最適化の影響に焦点を当てた結果が得られた。

Non-parametric supervised learning algorithms represent a succinct class of supervised learning algorithms where the learning parameters are highly flexible and whose values are directly dependent on the size of the training data. In this paper, we comparatively study the properties of four nonparametric algorithms, K-Nearest Neighbours (KNNs), Support Vector Machines (SVMs), Decision trees and Random forests. The supervised learning task is a regression estimate of the time-lapse in medical insurance reimbursement. Our study is concerned precisely with how well each of the nonparametric regression models fits the training data. We quantify the goodness of fit using the R-squared metric. The results are presented with a focus on the effect of the size of the training data, the feature space dimension and hyperparameter optimization.
翻訳日:2022-10-27 08:49:14 公開日:2020-08-19
# Top2Vec: トピックの分散表現

Top2Vec: Distributed Representations of Topics ( http://arxiv.org/abs/2008.09470v1 )

ライセンス: Link先を確認
Dimo Angelov(参考訳) トピックモデリングは、ドキュメントの大規模なコレクションにおいて、通常トピックと呼ばれる潜在意味構造を発見するために使用される。 最も広く使われている方法は、潜在ディリクレ割当と確率的潜在意味分析である。 人気にもかかわらず、いくつかの弱点がある。 最適な結果を得るためには、しばしば既知のトピックの数、カスタムのストップワードリスト、スリーミング、補題化が必要となる。 さらに、これらの手法は、単語の順序や意味を無視する文書のバガオブワード表現に依存している。 文書や単語の分散表現は、単語や文書のセマンティクスをキャプチャする能力によって人気を博している。 これはjoint documentとword semantic embeddedを利用して$\textit{topic vectors}$を見つける。 このモデルは、ストーミングや補題化などの停止語リストを必要とせず、自動的にトピックの数を見つける。 得られた話題ベクトルは、意味的類似性を表す文書と単語ベクトルとを結合して埋め込む。 実験の結果, 確率的生成モデルよりも, 学習したコーパスのより情報的, 代表的なトピックを$\texttt{top2vec}$で見つけることができた。

Topic modeling is used for discovering latent semantic structure, usually referred to as topics, in a large collection of documents. The most widely used methods are Latent Dirichlet Allocation and Probabilistic Latent Semantic Analysis. Despite their popularity they have several weaknesses. In order to achieve optimal results they often require the number of topics to be known, custom stop-word lists, stemming, and lemmatization. Additionally these methods rely on bag-of-words representation of documents which ignore the ordering and semantics of words. Distributed representations of documents and words have gained popularity due to their ability to capture semantics of words and documents. We present $\texttt{top2vec}$, which leverages joint document and word semantic embedding to find $\textit{topic vectors}$. This model does not require stop-word lists, stemming or lemmatization, and it automatically finds the number of topics. The resulting topic vectors are jointly embedded with the document and word vectors with distance between them representing semantic similarity. Our experiments demonstrate that $\texttt{top2vec}$ finds topics which are significantly more informative and representative of the corpus trained on than probabilistic generative models.
翻訳日:2022-10-27 08:42:21 公開日:2020-08-19
# HeteGCN:テキスト分類のための不均一グラフ畳み込みネットワーク

HeteGCN: Heterogeneous Graph Convolutional Networks for Text Classification ( http://arxiv.org/abs/2008.12842v1 )

ライセンス: Link先を確認
Rahul Ragesh, Sundararajan Sellamanickam, Arun Iyer, Ram Bairi, Vijay Lingam(参考訳) テキスト分類における効率性および帰納的グラフ畳み込みネットワークの課題について,多くの例と特徴を用いて考察する。 予測テキスト埋め込み(PTE)やTextGCNのような既存の最先端グラフ埋め込み方式は、予測性能、スケーラビリティ、インダクティブ能力の面で欠点がある。 これらの制約に対処するために、PTEとTextGCNの最良の側面を統一するヘテロジニアスグラフ畳み込みネットワーク(HeteGCN)モデリング手法を提案する。 主なアイデアは、機能埋め込みを学び、レイヤ間で異なるグラフを使用したHeteGCNアーキテクチャを使ってドキュメント埋め込みを導出することである。 テキストGCNを複数のHeteGCNモデルに分割することで単純化する。 (a)個々のモデルの有用性を研究するのに役立ち、 (b)異なるモデルから学習した埋め込みを活用できる柔軟性を提供する。 結果として、モデルパラメータの数は大幅に削減され、小さなラベル付きトレーニングセットシナリオにおいて、より高速なトレーニングとパフォーマンス向上が可能になる。 本研究は,提案手法の有効性を実証するものである。

We consider the problem of learning efficient and inductive graph convolutional networks for text classification with a large number of examples and features. Existing state-of-the-art graph embedding based methods such as predictive text embedding (PTE) and TextGCN have shortcomings in terms of predictive performance, scalability and inductive capability. To address these limitations, we propose a heterogeneous graph convolutional network (HeteGCN) modeling approach that unites the best aspects of PTE and TextGCN together. The main idea is to learn feature embeddings and derive document embeddings using a HeteGCN architecture with different graphs used across layers. We simplify TextGCN by dissecting into several HeteGCN models which (a) helps to study the usefulness of individual models and (b) offers flexibility in fusing learned embeddings from different models. In effect, the number of model parameters is reduced significantly, enabling faster training and improving performance in small labeled training set scenario. Our detailed experimental studies demonstrate the efficacy of the proposed approach.
翻訳日:2022-10-27 08:42:01 公開日:2020-08-19
# コアセットによるニューラルネットワークの非依存構造解析

Data-Independent Structured Pruning of Neural Networks via Coresets ( http://arxiv.org/abs/2008.08316v1 )

ライセンス: Link先を確認
Ben Mussay, Daniel Feldman, Samson Zhou, Vladimir Braverman, Margarita Osadchy(参考訳) モデル圧縮は、計算資源とメモリ資源が限られているデバイスにニューラルネットワークを配置するために重要である。 多くの異なる方法が圧縮モデルと類似の圧縮速度の同等の精度を示している。 しかし、ほとんどの圧縮方法はヒューリスティックスに基づいており、任意に新しいサンプルの圧縮率と近似誤差とのトレードオフに関する最悪の保証を提供していない。 本稿では, 圧縮率と将来の試験試料の近似誤差とのトレードオフが証明可能な最初の効率的な構造化プルーニングアルゴリズムを提案する。 本手法はcoresetフレームワークに基づき,前層におけるニューロン/フィルタのコアセットによるニューロン/フィルタ層の出力を近似し,残りを破棄する。 このフレームワークは、下層から上層まで、レイヤ毎の方法で適用します。 これまでの研究とは異なり、コアセットはデータ独立であり、すなわち、逆数を含む任意の入力$x\in \mathbb{R}^d$に対して関数の精度を確実に保証する。

Model compression is crucial for deployment of neural networks on devices with limited computational and memory resources. Many different methods show comparable accuracy of the compressed model and similar compression rates. However, the majority of the compression methods are based on heuristics and offer no worst-case guarantees on the trade-off between the compression rate and the approximation error for an arbitrarily new sample. We propose the first efficient structured pruning algorithm with a provable trade-off between its compression rate and the approximation error for any future test sample. Our method is based on the coreset framework and it approximates the output of a layer of neurons/filters by a coreset of neurons/filters in the previous layer and discards the rest. We apply this framework in a layer-by-layer fashion from the bottom to the top. Unlike previous works, our coreset is data independent, meaning that it provably guarantees the accuracy of the function for any input $x\in \mathbb{R}^d$, including an adversarial one.
翻訳日:2022-10-27 08:41:44 公開日:2020-08-19
# 惑星間ミッションの低推力軌道設計のための強化学習

Reinforcement Learning for Low-Thrust Trajectory Design of Interplanetary Missions ( http://arxiv.org/abs/2008.08501v1 )

ライセンス: Link先を確認
Alessandro Zavoli and Lorenzo Federici(参考訳) 本稿では,低推力な惑星間軌道の頑健な設計にReinforcement Learningを用い,ガウス加法プロセスノイズ,観測ノイズ,スラストの大きさと方向の制御動作誤差,さらには複数回のスラストイベントをモデル化した。 最適制御問題は時間離散マルコフ決定過程として再キャストされ、強化学習の標準定式化に適合する。 最先端のアルゴリズムであるプロキシポリシー最適化のオープンソース実装が採用され、(観測された)宇宙船状態を最適制御ポリシーにマッピングするために使用されるディープニューラルネットワークのトレーニングプロセスを実行する。 その結果得られた誘導制御ネットワークは、堅牢な名目軌道と関連する閉ループ誘導法の両方を提供する。 典型的な地球-火星ミッションでは数値的な結果が示される。 まず,提案手法を検証するために,(決定論的)非摂動シナリオにおける解を間接的手法による最適解と比較する。 得られた閉ループ誘導法則のロバスト性と最適性は,不確実性を考慮したモンテカルロのキャンペーンによって評価される。 これらの予備的な結果は、惑星間ミッションの堅牢な設計に強化学習を使用するための新しい地平を開く。

This paper investigates the use of Reinforcement Learning for the robust design of low-thrust interplanetary trajectories in presence of severe disturbances, modeled alternatively as Gaussian additive process noise, observation noise, control actuation errors on thrust magnitude and direction, and possibly multiple missed thrust events. The optimal control problem is recast as a time-discrete Markov Decision Process to comply with the standard formulation of reinforcement learning. An open-source implementation of the state-of-the-art algorithm Proximal Policy Optimization is adopted to carry out the training process of a deep neural network, used to map the spacecraft (observed) states to the optimal control policy. The resulting Guidance and Control Network provides both a robust nominal trajectory and the associated closed-loop guidance law. Numerical results are presented for a typical Earth-Mars mission. First, in order to validate the proposed approach, the solution found in a (deterministic) unperturbed scenario is compared with the optimal one provided by an indirect technique. Then, the robustness and optimality of the obtained closed-loop guidance laws is assessed by means of Monte Carlo campaigns performed in the considered uncertain scenarios. These preliminary results open up new horizons for the use of reinforcement learning in the robust design of interplanetary missions.
翻訳日:2022-10-27 08:41:27 公開日:2020-08-19
# 混成学習と目標ラベル学習によるニューラルネットワークロバストネスの対応

Addressing Neural Network Robustness with Mixup and Targeted Labeling Adversarial Training ( http://arxiv.org/abs/2008.08384v1 )

ライセンス: Link先を確認
Alfred Laugros, Alice Caplier, Matthieu Ospici(参考訳) その性能にもかかわらず、Artificial Neural Networksは、ほとんどの産業アプリケーションに十分な信頼性を持っていない。 ノイズ、回転、ぼやけ、敵対的な例に敏感である。 幅広い摂動に対して防御を構築する必要があり、最も伝統的な一般的な汚職や敵対的な例をカバーしている。 本稿では,M-TLATと呼ばれる新しいデータ拡張戦略を提案する。 提案手法は,Mixup拡張と,Targeted Labeling Adversarial Training (TLAT)と呼ばれる新たな逆トレーニングアルゴリズムを組み合わせたものである。 TLATの考え方は、敵のサンプルのターゲットラベルと接地トラスラベルを補間することである。 M-TLATは、画像分類器の堅牢性を19の共通汚職と5つの敵攻撃に対して向上させ、クリーンサンプルの精度を低下させることなく得ることを示した。

Despite their performance, Artificial Neural Networks are not reliable enough for most of industrial applications. They are sensitive to noises, rotations, blurs and adversarial examples. There is a need to build defenses that protect against a wide range of perturbations, covering the most traditional common corruptions and adversarial examples. We propose a new data augmentation strategy called M-TLAT and designed to address robustness in a broad sense. Our approach combines the Mixup augmentation and a new adversarial training algorithm called Targeted Labeling Adversarial Training (TLAT). The idea of TLAT is to interpolate the target labels of adversarial examples with the ground-truth labels. We show that M-TLAT can increase the robustness of image classifiers towards nineteen common corruptions and five adversarial attacks, without reducing the accuracy on clean samples.
翻訳日:2022-10-27 08:41:09 公開日:2020-08-19
# 距離メトリック誘導特徴アライメントによる教師なしクロスドメイン画像分類

Unsupervised Cross-domain Image Classification by Distance Metric Guided Feature Alignment ( http://arxiv.org/abs/2008.08433v1 )

ライセンス: Link先を確認
Qingjie Meng and Daniel Rueckert and Bernhard Kainz(参考訳) 異なるドメインにまたがって一般化可能なディープニューラルネットワークの学習は、ドメインシフトの問題のために依然として課題である。 教師なしドメイン適応は、ソースドメインからターゲットドメインへの知識を、ターゲットドメインのラベルを使わずに転送する有望な道である。 現代の技術は、ドメインの敵対的訓練を用いて、ドメイン不変の特徴を抽出することに焦点を当てている。 しかし、これらの手法は対象領域の潜在表現空間における判別クラス境界を学習することを怠り、適応性能が制限される。 この問題に対処するため,我々は,ソース領域とターゲット領域の両方における識別的特徴とドメイン不変特徴を抽出するための距離メトリック誘導特徴アライメント(metfa)を提案する。 提案手法は, ドメイン逆学習を使わずに, 潜在表現を明示的に直接学習する。 我々のモデルは、クラス分布アライメントを統合し、ソースドメインからターゲットドメインにセマンティック知識を転送します。 デバイス間画像分類のための胎児超音波データセットの評価を行った。 実験の結果,提案手法は最先端技術よりも優れており,モデル一般化が可能となった。

Learning deep neural networks that are generalizable across different domains remains a challenge due to the problem of domain shift. Unsupervised domain adaptation is a promising avenue which transfers knowledge from a source domain to a target domain without using any labels in the target domain. Contemporary techniques focus on extracting domain-invariant features using domain adversarial training. However, these techniques neglect to learn discriminative class boundaries in the latent representation space on a target domain and yield limited adaptation performance. To address this problem, we propose distance metric guided feature alignment (MetFA) to extract discriminative as well as domain-invariant features on both source and target domains. The proposed MetFA method explicitly and directly learns the latent representation without using domain adversarial training. Our model integrates class distribution alignment to transfer semantic knowledge from a source domain to a target domain. We evaluate the proposed method on fetal ultrasound datasets for cross-device image classification. Experimental results demonstrate that the proposed method outperforms the state-of-the-art and enables model generalization.
翻訳日:2022-10-27 08:40:54 公開日:2020-08-19
# 履歴対話データを活用した会話推薦システムの改善

Leveraging Historical Interaction Data for Improving Conversational Recommender System ( http://arxiv.org/abs/2008.08247v1 )

ライセンス: Link先を確認
Kun Zhou, Wayne Xin Zhao, Hui Wang, Sirui Wang, Fuzheng Zhang, Zhongyuan Wang and Ji-Rong Wen(参考訳) 近年,会話レコメンデーションシステム(CRS)が,新たな,実践的な研究課題となっている。 既存のcrs手法のほとんどは、会話データのみからユーザの効果的な選好表現を学習することに焦点を当てている。 一方,CRSの改善に歴史的なインタラクションデータを活用するために,新たな視点を採っている。 そこで本研究では,アイテムベースの嗜好シーケンス(履歴対話データから)と属性ベースの選好シーケンス(会話データから)を事前学習手法で統合する,新しい事前学習手法を提案する。 我々は2つの事前学習タスクを慎重に設計し、アイテムと属性に基づく嗜好間の情報融合を強化する。 学習性能を向上させるため,高品質な負のサンプルを生成できる効果的な負のサンプル生成装置を開発した。 実世界の2つのデータセットにおける実験結果から,crs改善へのアプローチの有効性が示された。

Recently, conversational recommender system (CRS) has become an emerging and practical research topic. Most of the existing CRS methods focus on learning effective preference representations for users from conversation data alone. While, we take a new perspective to leverage historical interaction data for improving CRS. For this purpose, we propose a novel pre-training approach to integrating both item-based preference sequence (from historical interaction data) and attribute-based preference sequence (from conversation data) via pre-training methods. We carefully design two pre-training tasks to enhance information fusion between item- and attribute-based preference. To improve the learning performance, we further develop an effective negative sample generator which can produce high-quality negative samples. Experiment results on two real-world datasets have demonstrated the effectiveness of our approach for improving CRS.
翻訳日:2022-10-27 08:40:07 公開日:2020-08-19
# 信頼性工学と安全アプリケーションのための機械学習:現状と今後の展望

Machine Learning for Reliability Engineering and Safety Applications: Review of Current Status and Future Opportunities ( http://arxiv.org/abs/2008.08221v1 )

ライセンス: Link先を確認
Zhaoyi Xu, Joseph Homer Saleh(参考訳) 機械学習(ml)は、多くの学術分野や産業にまたがっている。 その影響は深く、いくつかの分野は、例えば自律性とコンピュータビジョンによって根本的に変更されている。 mlには、信頼性と安全性のアプリケーションのための、大きくて断片化された文献がすでに存在しており、コヒーレントな全体へのナビゲートと統合は圧倒的です。 本研究では,この解析的景観の合成とロードマップを提供し,その主要なランドマークと経路を強調することで,この課題を促進させる。 まず、さまざまなmlカテゴリとサブカテゴリやタスクの概要を説明し、対応するモデルやアルゴリズムをいくつか紹介する。 次に、信頼性と安全性のアプリケーションにおけるMLの使用を振り返り、レビューします。 カテゴリ/サブカテゴリごとにいくつかの出版物を調査し,その人気と特徴的優位性を強調する深層学習の利用に関する簡単な議論を含む。 最後に,信頼性と安全性を向上する上で,MLを活用した将来有望ないくつかの機会について概説する。 全体として、mlは信頼性と安全性のアプリケーションにおいて重要な課題を解決するための新しい洞察と機会を提供することができると主張している。 また、従来の分析ツールよりも事故データセットからより正確な洞察を得ることができ、その結果、より情報に富んだ意思決定とより効果的な事故防止につながる可能性がある。

Machine learning (ML) pervades an increasing number of academic disciplines and industries. Its impact is profound, and several fields have been fundamentally altered by it, autonomy and computer vision for example; reliability engineering and safety will undoubtedly follow suit. There is already a large but fragmented literature on ML for reliability and safety applications, and it can be overwhelming to navigate and integrate into a coherent whole. In this work, we facilitate this task by providing a synthesis of, and a roadmap to this ever-expanding analytical landscape and highlighting its major landmarks and pathways. We first provide an overview of the different ML categories and sub-categories or tasks, and we note several of the corresponding models and algorithms. We then look back and review the use of ML in reliability and safety applications. We examine several publications in each category/sub-category, and we include a short discussion on the use of Deep Learning to highlight its growing popularity and distinctive advantages. Finally, we look ahead and outline several promising future opportunities for leveraging ML in service of advancing reliability and safety considerations. Overall, we argue that ML is capable of providing novel insights and opportunities to solve important challenges in reliability and safety applications. It is also capable of teasing out more accurate insights from accident datasets than with traditional analysis tools, and this in turn can lead to better informed decision-making and more effective accident prevention.
翻訳日:2022-10-27 08:39:53 公開日:2020-08-19