このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200715となっている論文です。

PDF登録状況(公開日: 20200715)

TitleAuthorsAbstract論文公表日・翻訳日
# 解離限界の相関パラドックス:量子情報の観点から

Correlation paradox of the dissociation limit: A quantum information perspective ( http://arxiv.org/abs/2001.04858v2 )

ライセンス: Link先を確認
Lexin Ding and Christian Schilling(参考訳) 分子系の電子相互作用と幾何学の間の相互作用は、かなりパラドックス的な状況を引き起こす。 第一の例は水素分子の解離限界であり、2つの核間の距離 r$ のかなりの増加は電子と電子の相互作用を辺化させるが、正確な基底状態は単一のスレーター行列式をとらない。 まず量子情報理論の概念をレビューし、その後に利用することで、このパラドックスとそのより複雑な系への定量的な一般化を解消する。 より具体的に言うと、有限(おそらく無限小)による熱雑音が、臨界分離距離である $r_{\mathrm{crit}}$($t$) を超える絡み合いを破壊することを証明し、証明する。 我々の分析は、粒子画像と軌道/モード画像の相関関係と絡み合いの両方を同時に議論するという意味で包括的である。 その結果, 熱雑音に対する相関の(非)ロバスト性に関連づけることで, 基底状態における静的および動的相関を概念的に新しい特徴付けることができた。

The interplay between electron interaction and geometry in a molecular system can lead to rather paradoxical situations. The prime example is the dissociation limit of the hydrogen molecule: While a significant increase of the distance $r$ between the two nuclei marginalizes the electron-electron interaction, the exact ground state does, however, not take the form of a single Slater determinant. By first reviewing and then employing concepts from quantum information theory, we resolve this paradox and its generalizations to more complex systems in a quantitative way. To be more specific, we illustrate and prove that thermal noise due to finite, possibly even just infinitesimally low, temperature $T$ will destroy the entanglement beyond a critical separation distance $r_{\mathrm{crit}}$($T$) entirely. Our analysis is comprehensive in the sense that we simultaneously discuss both total correlation and entanglement in the particle picture as well as in the orbital/mode picture. Our results reveal a conceptually new characterization of static and dynamical correlation in ground states by relating them to the (non)robustness of correlation with respect to thermal noise.
翻訳日:2023-01-11 13:09:45 公開日:2020-07-15
# ESRGAN+ : 超解像生成対向ネットワークのさらなる改善

ESRGAN+ : Further Improving Enhanced Super-Resolution Generative Adversarial Network ( http://arxiv.org/abs/2001.08073v2 )

ライセンス: Link先を確認
Nathana\"el Carraz Rakotonirina, Andry Rasoanaivo(参考訳) ESRGAN(Enhanced Super-Resolution Generative Adversarial Network)は、単一画像の超解像に対する知覚駆動型アプローチである。 これらの画像の視覚的な品質にもかかわらず、改善の余地はまだある。 この方法では、画像の知覚品質をさらに向上するためにモデルを拡張する。 私たちは、オリジナルのesrganで使われるものを置き換えるために、新しいブロックを設計しました。 さらに, 確率的変動を生かすために, 発生器ネットワークにノイズ入力を導入する。 その結果、より現実的なテクスチャが生まれる。 コードはhttps://github.com/ncarraz/ESRGANplusで公開されている。

Enhanced Super-Resolution Generative Adversarial Network (ESRGAN) is a perceptual-driven approach for single image super resolution that is able to produce photorealistic images. Despite the visual quality of these generated images, there is still room for improvement. In this fashion, the model is extended to further improve the perceptual quality of the images. We have designed a novel block to replace the one used by the original ESRGAN. Moreover, we introduce noise inputs to the generator network in order to exploit stochastic variation. The resulting images present more realistic textures. The code is available at https://github.com/ncarraz/ESRGANplus .
翻訳日:2023-01-08 00:39:08 公開日:2020-07-15
# 連続グルコースモニタリングデータに基づく短期血糖値予測

Short Term Blood Glucose Prediction based on Continuous Glucose Monitoring Data ( http://arxiv.org/abs/2002.02805v2 )

ライセンス: Link先を確認
Ali Mohebbi, Alexander R. Johansen, Nicklas Hansen, Peter E. Christensen, Jens M. Tarp, Morten L. Jensen, Henrik Bengtsson and Morten M{\o}rup(参考訳) 連続グルコースモニタリング(cgm)は糖尿病管理の重要な機会となった。 本研究では,デジタル意思決定支援ツールの入力としてのcgmデータの利用について検討する。 短時間の血糖値予測(stbg)にrecurrent neural network(rnn)をどのように利用できるかを検討し,自己回帰的統合移動平均(arima)を用いた従来の時系列予測と比較した。 未来への最大90分間の予測地平線について考察する。 この文脈では、人口ベースと患者固有のRNNの両方を評価し、それらを患者固有のARIMAモデルと対比し、将来の観測を最終観測として単純なベースラインで予測する。 人口ベースRNNモデルは患者固有のデータを必要としない予測地平線上での最高の性能モデルであることが判明した。 これは糖尿病患者におけるSTBG予測のためのRNNの可能性を示し、STBG、特に低血糖事象の重症事象を検出・緩和する。 しかし,STBG予測モデルの堅牢性と実用性については,さらなる研究が必要である。

Continuous Glucose Monitoring (CGM) has enabled important opportunities for diabetes management. This study explores the use of CGM data as input for digital decision support tools. We investigate how Recurrent Neural Networks (RNNs) can be used for Short Term Blood Glucose (STBG) prediction and compare the RNNs to conventional time-series forecasting using Autoregressive Integrated Moving Average (ARIMA). A prediction horizon up to 90 min into the future is considered. In this context, we evaluate both population-based and patient-specific RNNs and contrast them to patient-specific ARIMA models and a simple baseline predicting future observations as the last observed. We find that the population-based RNN model is the best performing model across the considered prediction horizons without the need of patient-specific data. This demonstrates the potential of RNNs for STBG prediction in diabetes patients towards detecting/mitigating severe events in the STBG, in particular hypoglycemic events. However, further studies are needed in regards to the robustness and practical use of the investigated STBG prediction models.
翻訳日:2023-01-03 12:39:34 公開日:2020-07-15
# 強化学習における保守的探索

Conservative Exploration in Reinforcement Learning ( http://arxiv.org/abs/2002.03218v2 )

ライセンス: Link先を確認
Evrard Garcelon, Mohammad Ghavamzadeh, Alessandro Lazaric, Matteo Pirotta(参考訳) 未知のマルコフ決定プロセス(MDP)で学習している間、エージェントは、MDPに関する新しい情報を見つけるために探索をオフにし、報酬を最大化するために現在の知識を活用すべきである。 エージェントは最終的に良いあるいは最適なポリシーを学ぶだろうが、中間ポリシーの品質は保証されない。 この制御の欠如は、最小限の要件が実行されたポリシーが少なくとも既存のベースラインと同様に実行されることを保証されている現実のアプリケーションでは望ましくない。 本稿では,平均報酬と有限地平線問題に対する保守的探索の概念を紹介する。 我々は、学習中に保守的な制約が決して違反されないことを保証する楽観的なアルゴリズムを2つ提示する。 我々は、保守的であることがこれらのアルゴリズムの学習能力を妨げないことを示す後悔の限界を導き出す。

While learning in an unknown Markov Decision Process (MDP), an agent should trade off exploration to discover new information about the MDP, and exploitation of the current knowledge to maximize the reward. Although the agent will eventually learn a good or optimal policy, there is no guarantee on the quality of the intermediate policies. This lack of control is undesired in real-world applications where a minimum requirement is that the executed policies are guaranteed to perform at least as well as an existing baseline. In this paper, we introduce the notion of conservative exploration for average reward and finite horizon problems. We present two optimistic algorithms that guarantee (w.h.p.) that the conservative constraint is never violated during learning. We derive regret bounds showing that being conservative does not hinder the learning ability of these algorithms.
翻訳日:2023-01-02 22:30:02 公開日:2020-07-15
# VQA-LOL:論理のレンズによる視覚的質問応答

VQA-LOL: Visual Question Answering under the Lens of Logic ( http://arxiv.org/abs/2002.08325v2 )

ライセンス: Link先を確認
Tejas Gokhale, Pratyay Banerjee, Chitta Baral, Yezhou Yang(参考訳) 論理接続とその自然言語文の意味への影響は、理解の基本的な側面である。 本稿では,視覚的質問応答システム(VQA)が,複数の質問の論理的構成に答えられるかどうかを検討する。 この textit{Lens of Logic} の下に置けば、最先端のVQAモデルはこれらの論理的に構成された疑問に正しく答えることが困難である。 本稿では,VQAデータセットをベンチマークとして,論理的構成や言語的変換(否定,解離,接続,アントロニム)を含む質問を行う。 本稿では,質問文の論理接続性を理解するために,質問文と論理文を併用した論理文(lol)モデルと,コンポーネント質問と合成質問の回答が推論された論理演算と一致することを保証する新しいfr\'echet-compatibility lossを提案する。 本モデルは,VQAの性能を維持しつつ,論理的構成の学習において大幅な改善を示す。 この研究は、論理接続を視覚理解に組み込むことで、堅牢性に向けた動きとして提案する。

Logical connectives and their implications on the meaning of a natural language sentence are a fundamental aspect of understanding. In this paper, we investigate whether visual question answering (VQA) systems trained to answer a question about an image, are able to answer the logical composition of multiple such questions. When put under this \textit{Lens of Logic}, state-of-the-art VQA models have difficulty in correctly answering these logically composed questions. We construct an augmentation of the VQA dataset as a benchmark, with questions containing logical compositions and linguistic transformations (negation, disjunction, conjunction, and antonyms). We propose our {Lens of Logic (LOL)} model which uses question-attention and logic-attention to understand logical connectives in the question, and a novel Fr\'echet-Compatibility Loss, which ensures that the answers of the component questions and the composed question are consistent with the inferred logical operation. Our model shows substantial improvement in learning logical compositions while retaining performance on VQA. We suggest this work as a move towards robustness by embedding logical connectives in visual understanding.
翻訳日:2022-12-30 12:59:59 公開日:2020-07-15
# 盲目の人が撮影したキャプション画像

Captioning Images Taken by People Who Are Blind ( http://arxiv.org/abs/2002.08565v2 )

ライセンス: Link先を確認
Danna Gurari, Yinan Zhao, Meng Zhang, Nilavra Bhattacharya(参考訳) ビジョンコミュニティで重要な問題は、イメージを自動的にキャプションできるアルゴリズムを設計することだが、実際のユーザの関心に直接対処するアルゴリズム開発用のデータセットは、ほとんどない。 視覚障害者が(人間ベースの)画像キャプションサービスを使って10年近くかけて撮影した画像について学んだことを観察し、この実際のユースケースを表す最初の画像キャプションデータセットを紹介します。 今回のデータセットはVizWiz-Captionsと呼ばれ、視覚障害者が5つのキャプションを合わせた3万9000枚以上の画像で構成されています。 このデータセットを解析して,(1)典型的なキャプションを特徴付ける,(2)画像中のコンテンツの多様性を特徴付ける,(3)一般的な8つのビジョンデータセットと比較する。 また、最新の画像キャプションアルゴリズムを分析し、この新たなデータセットが視覚コミュニティに挑戦する理由を特定する。 データセットを公開し、https://vizwiz.orgで課題命令をキャプションで共有します。

While an important problem in the vision community is to design algorithms that can automatically caption images, few publicly-available datasets for algorithm development directly address the interests of real users. Observing that people who are blind have relied on (human-based) image captioning services to learn about images they take for nearly a decade, we introduce the first image captioning dataset to represent this real use case. This new dataset, which we call VizWiz-Captions, consists of over 39,000 images originating from people who are blind that are each paired with five captions. We analyze this dataset to (1) characterize the typical captions, (2) characterize the diversity of content found in the images, and (3) compare its content to that found in eight popular vision datasets. We also analyze modern image captioning algorithms to identify what makes this new dataset challenging for the vision community. We publicly-share the dataset with captioning challenge instructions at https://vizwiz.org
翻訳日:2022-12-30 07:42:28 公開日:2020-07-15
# $\ell_p$-norm Maximizationによる完全辞書学習

Complete Dictionary Learning via $\ell_p$-norm Maximization ( http://arxiv.org/abs/2002.10043v3 )

ライセンス: Link先を確認
Yifei Shen, Ye Xue, Jun Zhang, Khaled B. Letaief, and Vincent Lau(参考訳) 辞書学習は、信号処理やデータ分析に広く応用されている古典的な表現学習手法である。 本稿では,完全辞書学習問題に対する最大化手法である$\ell_p$-norm (p>2,p \in \mathbb{n}$) の族を理論的およびアルゴリズム的側面から検討する。 具体的には、ガウス雑音が存在する場合でも、これらの定式化の大域的最大化は真の辞書に非常に近いことが証明される。 一般化パワー法(GPM)に基づいて、$\ell_p$-based の定式化のために効率的なアルゴリズムを開発する。 さらに,本アルゴリズムの有効性を示す。球面制約上の集団GPMアルゴリズムでは,まずグローバルな最大化器の近傍に入り,次にこの領域に線形に収束する。 大規模な実験により、$\ell_p$ベースのアプローチは従来の手法よりも高い計算効率とロバスト性を持ち、$p=3$が最高であることを示した。

Dictionary learning is a classic representation learning method that has been widely applied in signal processing and data analytics. In this paper, we investigate a family of $\ell_p$-norm ($p>2,p \in \mathbb{N}$) maximization approaches for the complete dictionary learning problem from theoretical and algorithmic aspects. Specifically, we prove that the global maximizers of these formulations are very close to the true dictionary with high probability, even when Gaussian noise is present. Based on the generalized power method (GPM), an efficient algorithm is then developed for the $\ell_p$-based formulations. We further show the efficacy of the developed algorithm: for the population GPM algorithm over the sphere constraint, it first quickly enters the neighborhood of a global maximizer, and then converges linearly in this region. Extensive experiments will demonstrate that the $\ell_p$-based approaches enjoy a higher computational efficiency and better robustness than conventional approaches and $p=3$ performs the best.
翻訳日:2022-12-29 03:47:11 公開日:2020-07-15
# fast and three-rious:tripletメソッドによる弱い監督のスピードアップ

Fast and Three-rious: Speeding Up Weak Supervision with Triplet Methods ( http://arxiv.org/abs/2002.11955v2 )

ライセンス: Link先を確認
Daniel Y. Fu, Mayee F. Chen, Frederic Sala, Sarah M. Hooper, Kayvon Fatahalian, Christopher R\'e(参考訳) 弱監督は、基底真理アノテーションに頼ることなく機械学習モデルを構築する一般的な方法である。 代わりに、複数のノイズラベル源(ヒューリスティックス、群衆労働者など)のアキュラシーを推定して確率的トレーニングラベルを生成する。 既存の手法では遅延変数推定を用いてノイズ源をモデル化するが、これらの手法は計算コストが高く、データ内で超直線的にスケーリングすることができる。 本研究では,弱監督に高度に適用可能な潜在変数モデルのクラスについて,確率勾配降下 (SGD) のような反復解の必要性を回避し,モデルパラメータに対する閉形式解を求めることができることを示す。 この洞察を使ってflyingsquidを構築しました。これは、以前の弱い監督アプローチよりも桁違いに高速に動作し、仮定を少なくする、弱い監督フレームワークです。 特に、潜在変数モデルが基礎となるデータ分布を正確にパラメータ化できると仮定することなく、一般化誤差の境界を証明できる。 実証的に,ベンチマークの弱い監督データセット上でflyingsquidを検証することで,sgd手順をチューニングすることなく,従来のアプローチと同等かそれ以上の品質を達成し,平均で170倍の速度でモデルパラメータを復元し,新たなビデオ解析やオンライン学習アプリケーションを可能にする。

Weak supervision is a popular method for building machine learning models without relying on ground truth annotations. Instead, it generates probabilistic training labels by estimating the accuracies of multiple noisy labeling sources (e.g., heuristics, crowd workers). Existing approaches use latent variable estimation to model the noisy sources, but these methods can be computationally expensive, scaling superlinearly in the data. In this work, we show that, for a class of latent variable models highly applicable to weak supervision, we can find a closed-form solution to model parameters, obviating the need for iterative solutions like stochastic gradient descent (SGD). We use this insight to build FlyingSquid, a weak supervision framework that runs orders of magnitude faster than previous weak supervision approaches and requires fewer assumptions. In particular, we prove bounds on generalization error without assuming that the latent variable model can exactly parameterize the underlying data distribution. Empirically, we validate FlyingSquid on benchmark weak supervision datasets and find that it achieves the same or higher quality compared to previous approaches without the need to tune an SGD procedure, recovers model parameters 170 times faster on average, and enables new video analysis and online learning applications.
翻訳日:2022-12-28 07:39:07 公開日:2020-07-15
# 高速ローカライズ:大規模環境における効率的なlidarベースのロボットローカライズ

Localising Faster: Efficient and precise lidar-based robot localisation in large-scale environments ( http://arxiv.org/abs/2003.01875v2 )

ライセンス: Link先を確認
Li Sun, Daniel Adolfsson, Martin Magnusson, Henrik Andreasson, Ingmar Posner, and Tom Duckett(参考訳) 本稿では,大規模環境における移動ロボットのグローバルローカライズのための新しい手法を提案する。 本手法は,学習に基づくローカライゼーションとフィルタリングに基づくローカライゼーションを活用し,モンテカルロ・ローカライゼーション(MCL)を深く学習した分布を用いて,ロボットを効率的に高精度にローカライズする。 特に、高速なローカライゼーションシステムは、深い確率モデル(深いカーネルを持つガウス過程回帰)を通して6-DOFのポーズを迅速に推定し、正確な再帰的推定器は幾何学的アライメントに応じて推定されたロボットのポーズを洗練する。 さらに重要なことに、ガウス法(すなわち深い確率的局所化)と非ガウス法(すなわちmcl)は重要サンプリングによって自然に統合することができる。 これにより、2つのシステムをシームレスに統合し、相互に利益を得ることができる。 提案手法を検証するために,3次元ライダーセンサを用いた大規模ローカライゼーションのケーススタディを提案する。 ミシガンncltの長期データセットを用いた実験により,提案手法は,約0.5km2の大規模環境において,平均1.94 s(0.8 s中)の精度0.75~mでロボットをローカライズできることを示した。

This paper proposes a novel approach for global localisation of mobile robots in large-scale environments. Our method leverages learning-based localisation and filtering-based localisation, to localise the robot efficiently and precisely through seeding Monte Carlo Localisation (MCL) with a deep-learned distribution. In particular, a fast localisation system rapidly estimates the 6-DOF pose through a deep-probabilistic model (Gaussian Process Regression with a deep kernel), then a precise recursive estimator refines the estimated robot pose according to the geometric alignment. More importantly, the Gaussian method (i.e. deep probabilistic localisation) and non-Gaussian method (i.e. MCL) can be integrated naturally via importance sampling. Consequently, the two systems can be integrated seamlessly and mutually benefit from each other. To verify the proposed framework, we provide a case study in large-scale localisation with a 3D lidar sensor. Our experiments on the Michigan NCLT long-term dataset show that the proposed method is able to localise the robot in 1.94 s on average (median of 0.8 s) with precision 0.75~m in a large-scale environment of approximately 0.5 km2.
翻訳日:2022-12-26 13:00:13 公開日:2020-07-15
# マルチパーソンポーズ推定のための局所的局所表現の学習

Learning Delicate Local Representations for Multi-Person Pose Estimation ( http://arxiv.org/abs/2003.04030v3 )

ライセンス: Link先を確認
Yuanhao Cai, Zhicheng Wang, Zhengxiong Luo, Binyi Yin, Angang Du, Haoqian Wang, Xiangyu Zhang, Xinyu Zhou, Erjin Zhou, Jian Sun(参考訳) 本稿では,Residual Steps Network (RSN) と呼ばれる新しい手法を提案する。 RSNは、同じ空間サイズ(イントラレベルの特徴)の機能を効率よく集約して、リッチな低レベル空間情報を保持し、正確なキーポイントの局所化をもたらす微妙な局所表現を得る。 さらに、最終的なパフォーマンスに異なる出力特性が寄与するのを観察する。 この問題に対処するため,出力特徴における局所的表現とグローバル的表現とのトレードオフを解消し,キーポイント位置を改良する,効率的な注意機構 - Pose Refine Machine (PRM) を提案する。 われわれのアプローチはCOCO Keypoint Challenge 2019で優勝し、余分なトレーニングデータや事前訓練されたモデルを用いることなく、COCOとMPIIのベンチマークで最先端の結果を得た。 単一モデルはcoco test-devで78.6、mpii test datasetで93.0を達成した。 組立モデルはCOCOテストデーブで79.2、COCOテストチャレンジデータセットで77.1を達成する。 ソースコードはhttps://github.com/caiyuanhao1998/RSN/で公開されている。

In this paper, we propose a novel method called Residual Steps Network (RSN). RSN aggregates features with the same spatial size (Intra-level features) efficiently to obtain delicate local representations, which retain rich low-level spatial information and result in precise keypoint localization. Additionally, we observe the output features contribute differently to final performance. To tackle this problem, we propose an efficient attention mechanism - Pose Refine Machine (PRM) to make a trade-off between local and global representations in output features and further refine the keypoint locations. Our approach won the 1st place of COCO Keypoint Challenge 2019 and achieves state-of-the-art results on both COCO and MPII benchmarks, without using extra training data and pretrained model. Our single model achieves 78.6 on COCO test-dev, 93.0 on MPII test dataset. Ensembled models achieve 79.2 on COCO test-dev, 77.1 on COCO test-challenge dataset. The source code is publicly available for further research at https://github.com/caiyuanhao1998/RSN/
翻訳日:2022-12-25 09:00:30 公開日:2020-07-15
# 深層学習による銀河団の質量推定 I: Sunyaev-Zel'dovich効果

Mass Estimation of Galaxy Clusters with Deep Learning I: Sunyaev-Zel'dovich Effect ( http://arxiv.org/abs/2003.06135v2 )

ライセンス: Link先を確認
Nikhel Gupta and Christian L. Reichardt(参考訳) 本稿では,マイクロ波空の画像から直接銀河団の質量を推定する深層学習の新たな応用を提案する。 効果的に、これはクラスタのSunyaev-Zel'dovich(SZ)効果信号と質量の間のスケーリング関係を決定するための新しいアプローチである。 mResUNetはフィードフォワード深層学習アルゴリズムで、残差学習、畳み込み層と異なるディレーションレート、画像回帰アクティベーション、U-Netフレームワークを広範囲に組み合わせている。 我々は、宇宙マイクロ波背景(CMB)、ほこりや電波銀河からの信号、計器ノイズ、クラスタ独自のSZ信号を含むマイクロ波空のシミュレーション画像を用いて、深層学習モデルを訓練し、テストする。 シミュレーションされたクラスタサンプルは、質量範囲 1$\times 10^{14}~\rm M_{\odot}$ $<M_{200\rm c}<$ 8$\times 10^{14}~\rm M_{\odot}$ at $z=0.7$ をカバーする。 訓練されたモデルは、SZ信号の入力散乱の20%と一致する1$\sigma$不確実性$\Delta M/M \leq 0.2$でクラスタ質量を推定する。 我々は, 磁気流体力学シミュレーションを用いて, 方位対称SZプロファイルを訓練しても, 現実的なSZプロファイルに対して有効であることを確認した。

We present a new application of deep learning to infer the masses of galaxy clusters directly from images of the microwave sky. Effectively, this is a novel approach to determining the scaling relation between a cluster's Sunyaev-Zel'dovich (SZ) effect signal and mass. The deep learning algorithm used is mResUNet, which is a modified feed-forward deep learning algorithm that broadly combines residual learning, convolution layers with different dilation rates, image regression activation and a U-Net framework. We train and test the deep learning model using simulated images of the microwave sky that include signals from the cosmic microwave background (CMB), dusty and radio galaxies, instrumental noise as well as the cluster's own SZ signal. The simulated cluster sample covers the mass range 1$\times 10^{14}~\rm M_{\odot}$ $<M_{200\rm c}<$ 8$\times 10^{14}~\rm M_{\odot}$ at $z=0.7$. The trained model estimates the cluster masses with a 1 $\sigma$ uncertainty $\Delta M/M \leq 0.2$, consistent with the input scatter on the SZ signal of 20%. We verify that the model works for realistic SZ profiles even when trained on azimuthally symmetric SZ profiles by using the Magneticum hydrodynamical simulations.
翻訳日:2022-12-24 02:16:33 公開日:2020-07-15
# 特徴予測損失による再構成のないプリトレーニング画像エンコーダ

Pretraining Image Encoders without Reconstruction via Feature Prediction Loss ( http://arxiv.org/abs/2003.07441v2 )

ライセンス: Link先を確認
Gustav Grund Pihlgren (1), Fredrik Sandin (1), Marcus Liwicki (1) ((1) Lule\r{a} University of Technology)(参考訳) 本研究は,イメージエンコーダの自己エンコーダに基づく事前学習のための損失を計算する3つの手法について検討する。 入力画像と再構成画像を比較することにより、ディープラーニングタスクのための標準オートエンコーダプリトレーニングを行う。 近年の研究では、画像オートエンコーダが生成する埋め込みに基づく予測は、知覚損失を伴うトレーニング、すなわちデコードステップ後に損失ネットワークを追加することで改善できることが示された。 これまでのところ、損失ネットワークで訓練されたオートエンコーダは、損失ネットワークを使用してオリジナルの画像と再構成された画像の明示的な比較を実装している。 しかし、そのような損失ネットワークを考えると、画像全体をデコードする時間を消費するタスクは不要であることを示している。 代わりに、損失ネットワークの特徴を復号化することを提案する。 本手法を評価するために,3つの標準公開データセット(LunarLander-v2,STL-10,SVHN)で実験を行い,画像エンコーダ(ピクセルワイド,知覚的類似性,特徴予測損失)のトレーニングを行う6つの異なる手順を比較した。 埋め込みベースの予測結果は,特徴予測損失で訓練されたエンコーダが,他の2つの損失で訓練されたエンコーダと同程度かそれ以上であることを示す。 さらに、エンコーダは、他の損失と比較して特徴予測損失を使用したトレーニングが大幅に高速である。 このプロジェクトで使われているメソッドの実装はオンラインで利用可能である。 https://github.com/guspih/perceptual-autoencoders

This work investigates three methods for calculating loss for autoencoder-based pretraining of image encoders: The commonly used reconstruction loss, the more recently introduced deep perceptual similarity loss, and a feature prediction loss proposed here; the latter turning out to be the most efficient choice. Standard auto-encoder pretraining for deep learning tasks is done by comparing the input image and the reconstructed image. Recent work shows that predictions based on embeddings generated by image autoencoders can be improved by training with perceptual loss, i.e., by adding a loss network after the decoding step. So far the autoencoders trained with loss networks implemented an explicit comparison of the original and reconstructed images using the loss network. However, given such a loss network we show that there is no need for the time-consuming task of decoding the entire image. Instead, we propose to decode the features of the loss network, hence the name "feature prediction loss". To evaluate this method we perform experiments on three standard publicly available datasets (LunarLander-v2, STL-10, and SVHN) and compare six different procedures for training image encoders (pixel-wise, perceptual similarity, and feature prediction losses; combined with two variations of image and feature encoding/decoding). The embedding-based prediction results show that encoders trained with feature prediction loss is as good or better than those trained with the other two losses. Additionally, the encoder is significantly faster to train using feature prediction loss in comparison to the other losses. The method implementation used in this work is available online: https://github.com/guspih/Perceptual-Autoencoders
翻訳日:2022-12-23 02:46:52 公開日:2020-07-15
# APPLD:デモから学習する適応型プランナーパラメータ

APPLD: Adaptive Planner Parameter Learning from Demonstration ( http://arxiv.org/abs/2004.00116v4 )

ライセンス: Link先を確認
Xuesu Xiao, Bo Liu, Garrett Warnell, Jonathan Fink, Peter Stone(参考訳) 既存の自律型ロボットナビゲーションシステムでは、ロボットは衝突のない方法である地点から別の地点へ移動することができる。 しかし、新しい環境に直面する場合、これらのシステムは一般的に、ナビゲーションシステムの内部動作を十分に理解した専門家ロボット工学者による再調整を必要とする。 対照的に、ロボットナビゲーションアルゴリズムの詳細を知らないユーザでさえ、遠隔操作によって新しい環境で望ましいナビゲーション行動を生成することができる。 本稿では,人間の遠隔操作による望ましいナビゲーションのデモンストレーションを前提に,既存のナビゲーションシステムを新しい複雑な環境に適用できるappld(adaptive planner parameter learning from demonstration)を提案する。 appldは異なる環境で異なるナビゲーションシステムを実行する2つのロボットで検証される。 実験結果から,APPLDはナビゲーションシステムよりも,デフォルトパラメータや専門家パラメータ,さらには人間実証者自体よりも優れていることが示された。

Existing autonomous robot navigation systems allow robots to move from one point to another in a collision-free manner. However, when facing new environments, these systems generally require re-tuning by expert roboticists with a good understanding of the inner workings of the navigation system. In contrast, even users who are unversed in the details of robot navigation algorithms can generate desirable navigation behavior in new environments via teleoperation. In this paper, we introduce APPLD, Adaptive Planner Parameter Learning from Demonstration, that allows existing navigation systems to be successfully applied to new complex environments, given only a human teleoperated demonstration of desirable navigation. APPLD is verified on two robots running different navigation systems in different environments. Experimental results show that APPLD can outperform navigation systems with the default and expert-tuned parameters, and even the human demonstrator themselves.
翻訳日:2022-12-18 02:01:28 公開日:2020-07-15
# 機能量子化はGANトレーニングを改善する

Feature Quantization Improves GAN Training ( http://arxiv.org/abs/2004.02088v2 )

ライセンス: Link先を確認
Yang Zhao, Chunyuan Li, Ping Yu, Jianfeng Gao, Changyou Chen(参考訳) GANトレーニングの不安定性は、驚くべき研究努力にもかかわらず、長年にわたる問題である。 不安定性問題は,固定された目標分布と漸進的に生成される分布との脆弱なバランスのために,ミニバッチ統計と機能マッチングが難しいことに起因する。 本研究では,実データと偽データの両方を共有離散空間に埋め込むために,識別器の特徴量化(FQ)を提案する。 FQの量子化値は、最近の分布履歴の特徴統計と一致する進化的辞書として構成される。 したがって、FQはコンパクト空間におけるロバストな特徴マッチングを可能にする。 本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドが少ない。 画像生成用BigGAN,顔合成用StyleGAN,教師なし画像-画像変換用U-GAT-ITの3つのベンチマークにFQを適用した。 実験の結果,FQ-GANは,様々なタスクに対する大きなマージンでベースライン手法のFIDスコアを向上し,新しい最先端性能を実現することができた。

The instability in GAN training has been a long-standing problem despite remarkable research efforts. We identify that instability issues stem from difficulties of performing feature matching with mini-batch statistics, due to a fragile balance between the fixed target distribution and the progressively generated distribution. In this work, we propose Feature Quantization (FQ) for the discriminator, to embed both true and fake data samples into a shared discrete space. The quantized values of FQ are constructed as an evolving dictionary, which is consistent with feature statistics of the recent distribution history. Hence, FQ implicitly enables robust feature matching in a compact space. Our method can be easily plugged into existing GAN models, with little computational overhead in training. We apply FQ to 3 representative GAN models on 9 benchmarks: BigGAN for image generation, StyleGAN for face synthesis, and U-GAT-IT for unsupervised image-to-image translation. Extensive experimental results show that the proposed FQ-GAN can improve the FID scores of baseline methods by a large margin on a variety of tasks, achieving new state-of-the-art performance.
翻訳日:2022-12-16 11:59:34 公開日:2020-07-15
# 相互情報の相互最大化による離散構造表現の学習

Learning Discrete Structured Representations by Adversarially Maximizing Mutual Information ( http://arxiv.org/abs/2004.03991v2 )

ライセンス: Link先を確認
Karl Stratos, Sam Wiseman(参考訳) 構造化潜在変数と対象変数の相互情報を最大化することにより、ラベルのないデータから離散的構造化表現を学習する。 この設定では相互情報の計算が困難である。 我々の重要な技術的貢献は、クロスエントロピー計算の実現可能性のみを前提として、相互情報を的確に見積もることができる敵の目的である。 我々はこの一般化の具体的実現を二進符号化上でマルコフ分布で実現する。 変動優先の選択など,目的の実用的側面に関する批判的かつ予期せぬ知見を報告する。 文書ハッシュに本モデルを適用し,離散およびベクトル量子化変分オートエンコーダに基づいて,現在の最良ベースラインよりも優れていることを示す。 また、非常に圧縮された解釈可能な表現をもたらす。

We propose learning discrete structured representations from unlabeled data by maximizing the mutual information between a structured latent variable and a target variable. Calculating mutual information is intractable in this setting. Our key technical contribution is an adversarial objective that can be used to tractably estimate mutual information assuming only the feasibility of cross entropy calculation. We develop a concrete realization of this general formulation with Markov distributions over binary encodings. We report critical and unexpected findings on practical aspects of the objective such as the choice of variational priors. We apply our model on document hashing and show that it outperforms current best baselines based on discrete and vector quantized variational autoencoders. It also yields highly compressed interpretable representations.
翻訳日:2022-12-15 08:28:10 公開日:2020-07-15
# 自己スーパービジョンによる意味セグメンテーションのための教師なしドメイン内適応

Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision ( http://arxiv.org/abs/2004.07703v4 )

ライセンス: Link先を確認
Fei Pan, Inkyu Shin, Francois Rameau, Seokju Lee, In So Kweon(参考訳) 畳み込みニューラルネットワークに基づくアプローチは、セマンティックセグメンテーションにおいて顕著な進歩を遂げた。 しかし、これらのアプローチは労働集約的な注釈付きデータに大きく依存している。 この制限に対処するために、グラフィックエンジンから生成された自動注釈データを使用してセグメンテーションモデルをトレーニングする。 しかし,合成データから学習したモデルは実画像への転送が困難である。 この問題に対処するため、以前の研究では、ソースデータからラベルなしのターゲットデータに直接モデルを適用することを検討した(ドメイン間ギャップを減らすため)。 それでもこれらの手法は、対象データ間の大きな分散ギャップ(ドメイン間ギャップ)を考慮しない。 本研究では,ドメイン間のギャップを最小化する2段階の自己教師付きドメイン適応手法を提案する。 まず、モデルのドメイン間適応を行い、この適応から、エントロピーに基づくランク関数を用いて、対象ドメインを簡単でハードな分割に分離する。 最後に,ドメイン内ギャップを減らすために,自己教師あり適応手法を容易からハードスプリットへ適用することを提案する。 多数のベンチマークデータセットの実験結果から,既存の最先端手法に対する提案手法の有効性が明らかになった。 ソースコードはhttps://github.com/feipan664/IntraDA.gitで入手できる。

Convolutional neural network-based approaches have achieved remarkable progress in semantic segmentation. However, these approaches heavily rely on annotated data which are labor intensive. To cope with this limitation, automatically annotated data generated from graphic engines are used to train segmentation models. However, the models trained from synthetic data are difficult to transfer to real images. To tackle this issue, previous works have considered directly adapting models from the source data to the unlabeled target data (to reduce the inter-domain gap). Nonetheless, these techniques do not consider the large distribution gap among the target data itself (intra-domain gap). In this work, we propose a two-step self-supervised domain adaptation approach to minimize the inter-domain and intra-domain gap together. First, we conduct the inter-domain adaptation of the model; from this adaptation, we separate the target domain into an easy and hard split using an entropy-based ranking function. Finally, to decrease the intra-domain gap, we propose to employ a self-supervised adaptation technique from the easy to the hard split. Experimental results on numerous benchmark datasets highlight the effectiveness of our method against existing state-of-the-art approaches. The source code is available at https://github.com/feipan664/IntraDA.git.
翻訳日:2022-12-12 21:28:49 公開日:2020-07-15
# 教師学習による単一/マルチソース多言語NER

Single-/Multi-Source Cross-Lingual NER via Teacher-Student Learning on Unlabeled Data in Target Language ( http://arxiv.org/abs/2004.12440v2 )

ライセンス: Link先を確認
Qianhui Wu, Zijia Lin, B\"orje F. Karlsson, Jian-Guang Lou, Biqing Huang(参考訳) ラベル付きデータが少ない言語における名前付きエンティティ認識(NER)問題に対処するために、言語間NERは、リッチラベル付きデータを持つソース言語から学んだ知識を効果的に活用する必要がある。 言語間NERに関する以前の研究は、主にペアテキストや直接モデル転送によるラベル投影に基づいている。 しかし、そのような方法は、ソース言語のラベル付きデータが使用できない場合や、対象言語に含まれるラベル付きデータに含まれる情報を利用しない場合は適用できない。 本稿では,その制約に対処する教師学習手法を提案する。そこでは,教材言語におけるNERモデルを教師として使用し,対象言語におけるラベルなしデータに基づいて学生モデルを訓練する。 提案手法はシングルソースとマルチソースのクロスランガルNERの両方で機能する。 後者では,教師モデルの違いによる教師の監督を向上する類似度測定手法を提案する。 ベンチマークデータセット上での3つのターゲット言語に対する大規模な実験は、我々の手法がシングルソースおよびマルチソースのクロスランガルNERに対して既存の最先端の手法よりも優れていることをよく示している。

To better tackle the named entity recognition (NER) problem on languages with little/no labeled data, cross-lingual NER must effectively leverage knowledge learned from source languages with rich labeled data. Previous works on cross-lingual NER are mostly based on label projection with pairwise texts or direct model transfer. However, such methods either are not applicable if the labeled data in the source languages is unavailable, or do not leverage information contained in unlabeled data in the target language. In this paper, we propose a teacher-student learning method to address such limitations, where NER models in the source languages are used as teachers to train a student model on unlabeled data in the target language. The proposed method works for both single-source and multi-source cross-lingual NER. For the latter, we further propose a similarity measuring method to better weight the supervision from different teacher models. Extensive experiments for 3 target languages on benchmark datasets well demonstrate that our method outperforms existing state-of-the-art methods for both single-source and multi-source cross-lingual NER.
翻訳日:2022-12-09 13:26:53 公開日:2020-07-15
# 安定保証制御のためのアクタ・クリティカル強化学習

Actor-Critic Reinforcement Learning for Control with Stability Guarantee ( http://arxiv.org/abs/2004.14288v3 )

ライセンス: Link先を確認
Minghao Han, Lixian Zhang, Jun Wang, Wei Pan(参考訳) 強化学習(rl)とそのディープラーニングとの統合は、動作計画やナビゲーションからエンドツーエンドの視覚操作に至るまで、さまざまなロボット制御タスクで印象的なパフォーマンスを達成している。 しかし、データのみを用いることで、モデルフリーなRLでは安定性は保証されない。 制御理論の観点からは、安定性はロボットシステムの安全性、堅牢性、信頼性に密接に関係しているため、制御システムにとって最も重要な特性である。 本稿では,古典的なリアプノフ法を制御理論に適用することにより,閉ループ安定性を保証できるアクタクリティカルな制御用RLフレームワークを提案する。 まず,マルコフ決定過程をモデルとした確率非線形システムに対して,データに基づく安定性定理を提案する。 そして,この安定性条件をアクタ批判的RLの批判者として活用して,コントローラ/政治を学ぶことを示す。 最後に, 3種類の物理シミュレーションプラットフォームにおいて, 3次元ロボット制御タスクと合成生物学遺伝子ネットワーク追跡タスクにおいて, 本手法の有効性が評価された。 安定性の利点に関する実証的な評価として,システムパラメトリックな変動や外乱などの不確実性に干渉された場合,学習したポリシが平衡点や経路点にある程度回復可能であることを示す。

Reinforcement Learning (RL) and its integration with deep learning have achieved impressive performance in various robotic control tasks, ranging from motion planning and navigation to end-to-end visual manipulation. However, stability is not guaranteed in model-free RL by solely using data. From a control-theoretic perspective, stability is the most important property for any control system, since it is closely related to safety, robustness, and reliability of robotic systems. In this paper, we propose an actor-critic RL framework for control which can guarantee closed-loop stability by employing the classic Lyapunov's method in control theory. First of all, a data-based stability theorem is proposed for stochastic nonlinear systems modeled by Markov decision process. Then we show that the stability condition could be exploited as the critic in the actor-critic RL to learn a controller/policy. At last, the effectiveness of our approach is evaluated on several well-known 3-dimensional robot control tasks and a synthetic biology gene network tracking task in three different popular physics simulation platforms. As an empirical evaluation on the advantage of stability, we show that the learned policies can enable the systems to recover to the equilibrium or way-points when interfered by uncertainties such as system parametric variations and external disturbances to a certain extent.
翻訳日:2022-12-08 14:46:21 公開日:2020-07-15
# 実践的な選択関数による推論

Inference with Choice Functions Made Practical ( http://arxiv.org/abs/2005.03098v3 )

ライセンス: Link先を確認
Arne Decadt, Jasper De Bock, Gert de Cooman(参考訳) 我々は、従来の選択から新しい選択を保守的に推測する方法を研究する。 このような推論を行うために、我々は選択関数の理論を用いる: 表現された決定に直接公理を課すことを可能にする保守的意思決定のための統一的な数学的枠組み。 ここでは、De Bock と De Cooman (2019) のコヒーレンス公理を採用する。 任意の選択アセスメントを、可能であればいつでもコヒーレントな選択関数に自然に拡張する方法を示し、この自然な拡張を使用して新しい選択を行う。 本稿では,この拡張性を計算するための実用的なアルゴリズムと,拡張性を改善するためのいくつかの手法を提案する。

We study how to infer new choices from previous choices in a conservative manner. To make such inferences, we use the theory of choice functions: a unifying mathematical framework for conservative decision making that allows one to impose axioms directly on the represented decisions. We here adopt the coherence axioms of De Bock and De Cooman (2019). We show how to naturally extend any given choice assessment to such a coherent choice function, whenever possible, and use this natural extension to make new choices. We present a practical algorithm to compute this natural extension and provide several methods that can be used to improve its scalability.
翻訳日:2022-12-05 23:23:55 公開日:2020-07-15
# 教師付き学習法を用いた共同信号検出と局所化タスクのための理想的観測者近似

Approximating the Ideal Observer for joint signal detection and localization tasks by use of supervised learning methods ( http://arxiv.org/abs/2006.00112v2 )

ライセンス: Link先を確認
Weimin Zhou, Hua Li, Mark A. Anastasio(参考訳) 医用画像システムは、画像品質客観的指標(iq)を用いて評価・最適化されることが多い。 イデアル・オブザーバ(io)のパフォーマンスは、イデアル・オブ・メリートが全てのオブザーバにおいて高い性能限界を設定するため、撮像システムの評価と最適化に使用されるように推奨されている。 共同信号検出および局所化タスクを考慮すると、修正された一般化確率比テストを用いたIOは、ローカライズ受信動作特性(LROC)曲線を特徴とするオブザーバ性能を最大化する。 可能性比の計算は、ほとんどの場合分析的に難解である。 そのため,マルコフ・チェイン・モンテカルロ法(MCMC)を用いたサンプリング法が開発され,確率比が近似された。 しかし、MCMC法の応用は比較的単純な対象モデルに限られている。 畳み込みニューラルネットワークを用いた教師付き学習に基づく手法が,バイナリ信号検出タスクのioを近似するために近年開発されている。 本稿では,共同信号検出と局所化タスクのためのioを近似する教師付き学習に基づく手法について検討する。 背景の既知および背景の既知の信号検出と局所化のタスクが考慮される。 対象モデルとしては、塊状物体モデルと群状塊状モデルがあり、観測ノイズモデルとしてはラプラシアンノイズ、ガウスノイズ、ポアソン・ガウシアンノイズが考えられる。 教師付き学習法により生成されたLROC曲線は,MCMC法や解析計算によって生成された曲線と比較できる。 画像システム性能を最適化するためのIQの客観的測度を計算するための提案手法の有用性について検討した。

Medical imaging systems are commonly assessed and optimized by use of objective measures of image quality (IQ). The Ideal Observer (IO) performance has been advocated to provide a figure-of-merit for use in assessing and optimizing imaging systems because the IO sets an upper performance limit among all observers. When joint signal detection and localization tasks are considered, the IO that employs a modified generalized likelihood ratio test maximizes observer performance as characterized by the localization receiver operating characteristic (LROC) curve. Computations of likelihood ratios are analytically intractable in the majority of cases. Therefore, sampling-based methods that employ Markov-Chain Monte Carlo (MCMC) techniques have been developed to approximate the likelihood ratios. However, the applications of MCMC methods have been limited to relatively simple object models. Supervised learning-based methods that employ convolutional neural networks have been recently developed to approximate the IO for binary signal detection tasks. In this paper, the ability of supervised learning-based methods to approximate the IO for joint signal detection and localization tasks is explored. Both background-known-exactly and background-known-statistically signal detection and localization tasks are considered. The considered object models include a lumpy object model and a clustered lumpy model, and the considered measurement noise models include Laplacian noise, Gaussian noise, and mixed Poisson-Gaussian noise. The LROC curves produced by the supervised learning-based method are compared to those produced by the MCMC approach or analytical computation when feasible. The potential utility of the proposed method for computing objective measures of IQ for optimizing imaging system performance is explored.
翻訳日:2022-11-26 22:36:30 公開日:2020-07-15
# まばたき検出のためのリアルタイム顔とランドマーク定位

Real-Time Face and Landmark Localization for Eyeblink Detection ( http://arxiv.org/abs/2006.00816v2 )

ライセンス: Link先を確認
Paul Bakker, Henk-Jan Boele, Zaid Al-Ars and Christos Strydis(参考訳) pavlovian eyeblink conditioningは、神経科学の分野において、日常生活における学習の多面的な側面を測定するために使用される強力な実験である。 実験中のまぶたの動きを追跡するために、研究者は従来、電位計や筋電図を用いてきた。 最近では、コンピュータビジョンと画像処理がこれらの技術の必要性を軽減する一方で、現在使われている手法は人間の介入を必要としており、リアルタイム処理を実現するには不十分である。 本研究では,視線追跡を完全自動化するために顔と目印検出アルゴリズムを慎重に組み合わせ,オンライン・クローズドループ実験に向けた最初の重要な一歩を踏み出すためにさらに加速した。 このような実験は今のところ行われておらず、神経疾患や精神疾患の働きに重要な洞察を与えるものと期待されている。 広範な文献検索に基づいて,顔検出とランドマーク検出のための様々なアルゴリズムを解析,評価した。 顔検出のためのHistogram-of-Oriented-Gradients (HOG)アルゴリズムとランドマーク検出のためのEnsemble-of-Regression-Trees (ERT)アルゴリズムである。 これらの2つのアルゴリズムはGPUとCPUで加速され、それぞれ1,753$\times$と11$\times$のスピードアップを達成した。 まばたき検出アルゴリズムの有用性を示すために, 研究仮説を定式化し, 確立した神経科学実験であるeyeblink detectionを用いた。 実験により,1フレームあたり0.533msのアプリケーションランタイムが,連続的な実装よりも1,101$\times$高速であり,人間のアイブリンク条件のリアルタイム要件,すなわち毎秒500フレーム以上であることがわかった。

Pavlovian eyeblink conditioning is a powerful experiment used in the field of neuroscience to measure multiple aspects of how we learn in our daily life. To track the movement of the eyelid during an experiment, researchers have traditionally made use of potentiometers or electromyography. More recently, the use of computer vision and image processing alleviated the need for these techniques but currently employed methods require human intervention and are not fast enough to enable real-time processing. In this work, a face- and landmark-detection algorithm have been carefully combined in order to provide fully automated eyelid tracking, and have further been accelerated to make the first crucial step towards online, closed-loop experiments. Such experiments have not been achieved so far and are expected to offer significant insights in the workings of neurological and psychiatric disorders. Based on an extensive literature search, various different algorithms for face detection and landmark detection have been analyzed and evaluated. Two algorithms were identified as most suitable for eyelid detection: the Histogram-of-Oriented-Gradients (HOG) algorithm for face detection and the Ensemble-of-Regression-Trees (ERT) algorithm for landmark detection. These two algorithms have been accelerated on GPU and CPU, achieving speedups of 1,753$\times$ and 11$\times$, respectively. To demonstrate the usefulness of our eyelid-detection algorithm, a research hypothesis was formed and a well-established neuroscientific experiment was employed: eyeblink detection. Our experimental evaluation reveals an overall application runtime of 0.533 ms per frame, which is 1,101$\times$ faster than the sequential implementation and well within the real-time requirements of eyeblink conditioning in humans, i.e. faster than 500 frames per second.
翻訳日:2022-11-26 07:33:55 公開日:2020-07-15
# 混合連続・離散変数を持つMDPの政策学習:マルコフジャンプシステムのモデルフリー制御を事例として

Policy Learning of MDPs with Mixed Continuous/Discrete Variables: A Case Study on Model-Free Control of Markovian Jump Systems ( http://arxiv.org/abs/2006.03116v2 )

ライセンス: Link先を確認
Joao Paulo Jansch-Porto, Bin Hu, Geir Dullerud(参考訳) マルコフジャンプ線形系(Markovian jump linear systems, MJLS)は、多くの制御応用において発生する力学系の重要なクラスである。 本稿では,マルコフ決定過程 (MDP) と連続/離散状態変数を混合したポリシーに基づく強化学習のための新しいベンチマークとして,未知(離散時間)のMJLSを制御する問題を紹介する。 従来の線形二次レギュレータ (lqr) と比較すると,提案する問題は(連続変数と離散変数を混合した)特別なハイブリッドmdpとなり,システムダイナミクスのモードを規定するマルコフジャンプパラメータの出現により,新たな課題が生じた。 具体的には、MJLSの状態はマルコフ連鎖を成さないので、MJLS制御問題を連続状態変数のみを持つMDPとして研究することはできない。 しかし、状態とジャンプパラメータを増大させ、混合連続/離散状態空間のMDPを得ることができる。 このようなハイブリッドMDPの政策パラメータ化に制御理論がどのように光を当てるかについて議論する。 次に,mjlsの最適状態フィードバック制御ポリシを直接学習するために,システムダイナミクスやスイッチングパラメータの遷移確率を識別することなく,広範に使用される自然政策勾配法を修正した。 異なるmjls例に対して(データ駆動)自然ポリシー勾配法を実装した。 シミュレーションの結果,自然勾配法は未知のダイナミクスを持つMJLSの最適制御を効率的に学習できることが示唆された。

Markovian jump linear systems (MJLS) are an important class of dynamical systems that arise in many control applications. In this paper, we introduce the problem of controlling unknown (discrete-time) MJLS as a new benchmark for policy-based reinforcement learning of Markov decision processes (MDPs) with mixed continuous/discrete state variables. Compared with the traditional linear quadratic regulator (LQR), our proposed problem leads to a special hybrid MDP (with mixed continuous and discrete variables) and poses significant new challenges due to the appearance of an underlying Markov jump parameter governing the mode of the system dynamics. Specifically, the state of a MJLS does not form a Markov chain and hence one cannot study the MJLS control problem as a MDP with solely continuous state variable. However, one can augment the state and the jump parameter to obtain a MDP with a mixed continuous/discrete state space. We discuss how control theory sheds light on the policy parameterization of such hybrid MDPs. Then we modify the widely used natural policy gradient method to directly learn the optimal state feedback control policy for MJLS without identifying either the system dynamics or the transition probability of the switching parameter. We implement the (data-driven) natural policy gradient method on different MJLS examples. Our simulation results suggest that the natural gradient method can efficiently learn the optimal controller for MJLS with unknown dynamics.
翻訳日:2022-11-25 12:51:53 公開日:2020-07-15
# FastReID: 一般的なインスタンス再識別のためのPytorchツールボックス

FastReID: A Pytorch Toolbox for General Instance Re-identification ( http://arxiv.org/abs/2006.02631v4 )

ライセンス: Link先を確認
Lingxiao He, Xingyu Liao, Wu Liu, Xinchen Liu, Peng Cheng and Tao Mei(参考訳) 一般インスタンス再識別はコンピュータビジョンにおいて非常に重要なタスクであり、人物/車両の再識別、顔認識、野生生物保護、商品追跡、スナップショップなど、多くの実用用途で広く利用することができる。 本稿では,JD AI 研究において,FastReID を広く利用されているソフトウェアシステムとして紹介する。 FastReIDでは、高度にモジュール化され拡張可能な設計により、研究者が新しい研究のアイデアを実現できる。 フレンドリーに管理可能なシステム構成とエンジニアリングデプロイメント機能により、実践者は迅速にモデルを本番環境にデプロイできる。 我々は、person re-id、partment re-id、cross-domain re-id、 vehicle re-idなど、最先端のプロジェクトをいくつか実装し、これらの事前トレーニングされたモデルを複数のベンチマークデータセットでリリースする予定です。 FastReIDは、単一のGPUサーバと複数のGPUサーバをサポートする最も汎用的で高性能なツールボックスであり、プロジェクトの結果を非常に簡単に再現することができ、使用を非常に歓迎しています。

General Instance Re-identification is a very important task in the computer vision, which can be widely used in many practical applications, such as person/vehicle re-identification, face recognition, wildlife protection, commodity tracing, and snapshop, etc.. To meet the increasing application demand for general instance re-identification, we present FastReID as a widely used software system in JD AI Research. In FastReID, highly modular and extensible design makes it easy for the researcher to achieve new research ideas. Friendly manageable system configuration and engineering deployment functions allow practitioners to quickly deploy models into productions. We have implemented some state-of-the-art projects, including person re-id, partial re-id, cross-domain re-id and vehicle re-id, and plan to release these pre-trained models on multiple benchmark datasets. FastReID is by far the most general and high-performance toolbox that supports single and multiple GPU servers, you can reproduce our project results very easily and are very welcome to use it, the code and models are available at https://github.com/JDAI-CV/fast-reid.
翻訳日:2022-11-25 09:59:04 公開日:2020-07-15
# データセットに適応するニューラルネットワーク:ネットワークサイズとトポロジーの学習

Neural networks adapting to datasets: learning network size and topology ( http://arxiv.org/abs/2006.12195v2 )

ライセンス: Link先を確認
Romuald A. Janik, Aleksandra Nowak(参考訳) ニューラルネットワークが標準勾配に基づくトレーニングの過程で、そのサイズとトポロジを学習できるようにするフレキシブルなセットアップを導入する。 得られたネットワークは、特定の学習タスクとデータセットに合わせたグラフの構造を持つ。 得られたネットワークはスクラッチからトレーニングすることもでき、ほぼ同じ性能が得られる。 ネットワークアーキテクチャの特性を,系統的な規則性の観察が困難であるさまざまなデータセットに対して検討する。 したがって、得られたグラフは特定の分類タスクの非自明な特性を符号化するものとして理解することができる。

We introduce a flexible setup allowing for a neural network to learn both its size and topology during the course of a standard gradient-based training. The resulting network has the structure of a graph tailored to the particular learning task and dataset. The obtained networks can also be trained from scratch and achieve virtually identical performance. We explore the properties of the network architectures for a number of datasets of varying difficulty observing systematic regularities. The obtained graphs can be therefore understood as encoding nontrivial characteristics of the particular classification tasks.
翻訳日:2022-11-18 04:25:57 公開日:2020-07-15
# 浅層ネットワークの1パスノルムの効率的な近位写像

Efficient Proximal Mapping of the 1-path-norm of Shallow Networks ( http://arxiv.org/abs/2007.01003v2 )

ライセンス: Link先を確認
Fabian Latorre, Paul Rolland, Nadav Hallak, Volkan Cevher(参考訳) 浅層ニューラルネットワークの1パスノルムの2つの新しい重要な特性を示す。 第一に、その非滑らかさと非凸性にもかかわらず、効率的に計算できる閉形式近位作用素を許容し、正規化された経験的リスク最小化のために確率的近位勾配型手法を使用できる。 第二に、活性化関数が微分可能であれば、ネットワークのリプシッツ定数の上界を与える。 このような境界は、リプシッツ定数の自明な階層的積よりも厳密であり、逆摂動に頑健なトレーニングネットワークへの使用を動機付けている。 実際の実験では、近位写像を用いる利点を説明し、1-パスノルム、l1-ノルム、およびリプシッツ定数(ばらつきネットワーク)の層間制約によって引き起こされるロバストネス・精度トレードオフを比較する。

We demonstrate two new important properties of the 1-path-norm of shallow neural networks. First, despite its non-smoothness and non-convexity it allows a closed form proximal operator which can be efficiently computed, allowing the use of stochastic proximal-gradient-type methods for regularized empirical risk minimization. Second, when the activation functions is differentiable, it provides an upper bound on the Lipschitz constant of the network. Such bound is tighter than the trivial layer-wise product of Lipschitz constants, motivating its use for training networks robust to adversarial perturbations. In practical experiments we illustrate the advantages of using the proximal mapping and we compare the robustness-accuracy trade-off induced by the 1-path-norm, L1-norm and layer-wise constraints on the Lipschitz constant (Parseval networks).
翻訳日:2022-11-14 13:42:11 公開日:2020-07-15
# リー群上の経路シグネチャ

Path Signatures on Lie Groups ( http://arxiv.org/abs/2007.06633v2 )

ライセンス: Link先を確認
Darrick Lee, Robert Ghrist(参考訳) パスシグネチャは時系列解析のための強力な非パラメトリックツールであり、ユークリッド値時系列データのための普遍的かつ特徴的特徴マップを形成する。 経路シグネチャの理論をリー群値時系列の設定に引き上げ、これらのツールを基礎となる幾何学的制約を持つ時系列に適応させる。 この一般化された経路シグネチャは普遍的で特徴的であることを示す。 計算機ビジョンにおける人間の行動認識問題を時系列のSO(3)$表現を用いて解析し、他の浅層学習手法に匹敵する性能を提供しながら、容易に解釈可能な特徴セットを提供する。 また,Lie群評価ランダムウォークに対する2サンプル仮説テストを行い,その特性を示す。 最後に、アルゴリズムとこれらのメソッドのJulia実装を提供します。

Path signatures are powerful nonparametric tools for time series analysis, shown to form a universal and characteristic feature map for Euclidean valued time series data. We lift the theory of path signatures to the setting of Lie group valued time series, adapting these tools for time series with underlying geometric constraints. We prove that this generalized path signature is universal and characteristic. To demonstrate universality, we analyze the human action recognition problem in computer vision, using $SO(3)$ representations for the time series, providing comparable performance to other shallow learning approaches, while offering an easily interpretable feature set. We also provide a two-sample hypothesis test for Lie group-valued random walks to illustrate its characteristic property. Finally we provide algorithms and a Julia implementation of these methods.
翻訳日:2022-11-14 13:08:50 公開日:2020-07-15
# セマンティックセグメンテーションのための文脈関係整合ドメイン適応

Contextual-Relation Consistent Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2007.02424v2 )

ライセンス: Link先を確認
Jiaxing Huang, Shijian Lu, Dayan Guan, and Xiaobing Zhang(参考訳) セマンティックセグメンテーションのための教師なしドメイン適応の最近の進歩は、高価なピクセル単位のアノテーションの需要を緩和する大きな可能性を示している。 しかし、既存のほとんどの研究は、2つのドメインのデータ分布をグローバルな画像レベルで整列させることによってドメインの矛盾に対処している。 本稿では,グローバルレベルのアライメントにおいて局所レベルのコンピテンシーを実現することを目的とした,革新的な局所的文脈相関整合ドメイン適応(CrCDA)手法を提案する。 そのアイデアは、地域ごとの特徴表現を詳しく見て、それらをローカルレベルの構成に合わせることだ。 具体的には、crcdaはラベル付きソースドメインの特徴空間において明示的に前型的局所文脈関係を学習し、強制し、バックプロパゲーションベースの敵学習を介してラベル付きターゲットドメインに転送する。 aadaptive entropy max-min adversarial learning schemeは、これらの数百の局所的文脈関係を、判別器や余分な計算オーバーヘッドを必要とせずに最適に整列するように設計されている。 提案するcrcdaは,2つの難解な領域適応セグメンテーションタスク(gta5,都市景観シンセサイス,都市景観シンセサイスなど)に対して広範囲に評価され,最新の手法と比較して優れたセグメンテーション性能が実証されている。

Recent advances in unsupervised domain adaptation for semantic segmentation have shown great potentials to relieve the demand of expensive per-pixel annotations. However, most existing works address the domain discrepancy by aligning the data distributions of two domains at a global image level whereas the local consistencies are largely neglected. This paper presents an innovative local contextual-relation consistent domain adaptation (CrCDA) technique that aims to achieve local-level consistencies during the global-level alignment. The idea is to take a closer look at region-wise feature representations and align them for local-level consistencies. Specifically, CrCDA learns and enforces the prototypical local contextual-relations explicitly in the feature space of a labelled source domain while transferring them to an unlabelled target domain via backpropagation-based adversarial learning. An adaptive entropy max-min adversarial learning scheme is designed to optimally align these hundreds of local contextual-relations across domain without requiring discriminator or extra computation overhead. The proposed CrCDA has been evaluated extensively over two challenging domain adaptive segmentation tasks (e.g., GTA5 to Cityscapes and SYNTHIA to Cityscapes), and experiments demonstrate its superior segmentation performance as compared with state-of-the-art methods.
翻訳日:2022-11-13 08:20:40 公開日:2020-07-15
# 教師なし特徴学習のためのプログレッシブクラスタ浄化

Progressive Cluster Purification for Unsupervised Feature Learning ( http://arxiv.org/abs/2007.02577v2 )

ライセンス: Link先を確認
Yifei Zhang, Chang Liu, Yu Zhou, Wei Wang, Weiping Wang and Qixiang Ye(参考訳) 教師なし特徴学習では、サンプル特異性に基づく手法はクラス間情報を無視し、表現モデルの識別能力が低下する。 クラスタリングに基づく手法は、各クラスタで避けられないクラス不整合サンプルのために、完全なクラス境界情報を探索するエラーを起こしやすい。 本研究では,クラスタ形成中にクラス一貫性のないサンプルを反復的に排除することにより,ノイズサンプルの影響を簡易に緩和するクラスタリングベース手法を提案する。 本手法はプログレッシブクラスタ浄化(pcp)と呼ばれ,トレーニング中のクラスタ数を徐々に削減し,クラスタのサイズはモデル表現能力の増大とともに継続的に拡大する。 適切に設計されたクラスタ浄化機構により、改良されたクラスタを擬似ラベルとして利用することにより、その後の特徴学習を容易にするノイズサンプルをフィルタリングすることでクラスタをさらに浄化する。 一般的なベンチマーク実験により,提案したPCPはベースライン法を著しく改善した。 私たちのコードはhttps://github.com/zhangyifei0115/pcpで利用可能です。

In unsupervised feature learning, sample specificity based methods ignore the inter-class information, which deteriorates the discriminative capability of representation models. Clustering based methods are error-prone to explore the complete class boundary information due to the inevitable class inconsistent samples in each cluster. In this work, we propose a novel clustering based method, which, by iteratively excluding class inconsistent samples during progressive cluster formation, alleviates the impact of noise samples in a simple-yet-effective manner. Our approach, referred to as Progressive Cluster Purification (PCP), implements progressive clustering by gradually reducing the number of clusters during training, while the sizes of clusters continuously expand consistently with the growth of model representation capability. With a well-designed cluster purification mechanism, it further purifies clusters by filtering noise samples which facilitate the subsequent feature learning by utilizing the refined clusters as pseudo-labels. Experiments on commonly used benchmarks demonstrate that the proposed PCP improves baseline method with significant margins. Our code will be available at https://github.com/zhangyifei0115/PCP.
翻訳日:2022-11-13 02:46:40 公開日:2020-07-15
# 定量的投資のための不確実性を考慮したルックアヘッド・ファクターモデル

Uncertainty-Aware Lookahead Factor Models for Quantitative Investing ( http://arxiv.org/abs/2007.04082v2 )

ライセンス: Link先を確認
Lakshay Chauhan, John Alberg, Zachary C. Lipton(参考訳) 定期的に、公的に取引された企業は、収益、収益、負債などを含む財務データの基本を報告している。 定量的ファイナンス研究は、歴史的に株式市場のパフォーマンスと相関する報告されたデータのいくつかの要素、機能を特定した。 本稿ではまず,将来のファンダメンタルズ(oracle経由)に基づいて計算された要因によって株式を選択できれば,ポートフォリオが標準ファクタモデルよりもはるかに優れることを示すシミュレーションを行った。 この洞察に動機づけられ、深層網を訓練し、5年続く歴史から将来の基礎を予測する。 我々は,これらの予測された将来の基礎を従来の要因につなげるルックアヘッド・ファクターモデルを提案する。 最後に,ニューラルヘテロシドスティック回帰とドロップアウトに基づくヒューリスティックの両方からの不確実性推定を取り込んで,ポートフォリオを調整してリスクを回避することにより,パフォーマンスを向上させる。 ふりかえり分析では,業界別ポートフォリオシミュレータ(backtester)を活用して,年次リターンとシャープ率の同時改善を示す。 具体的には、不確実性認識モデルの年次回帰は17.7%(標準因子モデルでは14.0%)、シャープ比は0.84(vs 0.52)である。

On a periodic basis, publicly traded companies report fundamentals, financial data including revenue, earnings, debt, among others. Quantitative finance research has identified several factors, functions of the reported data that historically correlate with stock market performance. In this paper, we first show through simulation that if we could select stocks via factors calculated on future fundamentals (via oracle), that our portfolios would far outperform standard factor models. Motivated by this insight, we train deep nets to forecast future fundamentals from a trailing 5-year history. We propose lookahead factor models which plug these predicted future fundamentals into traditional factors. Finally, we incorporate uncertainty estimates from both neural heteroscedastic regression and a dropout-based heuristic, improving performance by adjusting our portfolios to avert risk. In retrospective analysis, we leverage an industry-grade portfolio simulator (backtester) to show simultaneous improvement in annualized return and Sharpe ratio. Specifically, the simulated annualized return for the uncertainty-aware model is 17.7% (vs 14.0% for a standard factor model) and the Sharpe ratio is 0.84 (vs 0.52).
翻訳日:2022-11-12 18:39:06 公開日:2020-07-15
# DeepSinger:Webからのデータマイニングによる音声合成

DeepSinger: Singing Voice Synthesis with Data Mined From the Web ( http://arxiv.org/abs/2007.04590v2 )

ライセンス: Link先を確認
Yi Ren, Xu Tan, Tao Qin, Jian Luan, Zhou Zhao, Tie-Yan Liu(参考訳) 本稿では,音楽Webサイトから抽出した歌唱訓練データを用いて,スクラッチから構築した多言語多言語歌唱音声合成(SVS)システムであるDeepSingerを開発する。 DeepSingerのパイプラインは、データクローリング、歌唱と伴奏分離、歌詞と歌唱のアライメント、データフィルタリング、歌唱モデリングなど、いくつかのステップで構成されている。 具体的には,歌詞中の各音素の持続時間を自動的に抽出する歌詞間アライメントモデルを設計し,さらに,フィードフォワード変換器をベースとした多言語多言語歌唱モデルを設計し,歌詞から線形スペクトルを直接生成し,Griffin-Limを用いて音声を合成する。 DeepSingerは以前のSVSシステムよりもいくつかの利点がある。 1)私たちの知る限りでは、音楽ウェブサイトから直接トレーニングデータをマイニングする最初のSVSシステムである。 2)歌詞合成アライメントモデルは,アライメントラベリングに対する人間の努力をさらに回避し,ラベリングコストを大幅に削減する。 3) フィードフォワード変換器に基づく歌唱モデルは、パラメトリック合成における複雑な音響特徴モデリングを除去し、参照エンコーダを利用して、うるさい歌唱データから歌手の音色を捉え、シンプルかつ効率的である。 4)複数の言語と複数の歌手で歌声を合成することができる。 3つの言語(中国語、カント語、英語)の89人の歌手から約92時間のデータからなる、マイニングした歌唱データセットについてdeepsingerを評価した。 その結果,Webから純粋に抽出された歌唱データにより,DeepSingerはピッチ精度と音声自然性の両方の観点から高品質な歌唱音声を合成できることがわかった(フットノート: 音声サンプルはhttps://speechresearch.github.io/deepsinger/)。

In this paper, we develop DeepSinger, a multi-lingual multi-singer singing voice synthesis (SVS) system, which is built from scratch using singing training data mined from music websites. The pipeline of DeepSinger consists of several steps, including data crawling, singing and accompaniment separation, lyrics-to-singing alignment, data filtration, and singing modeling. Specifically, we design a lyrics-to-singing alignment model to automatically extract the duration of each phoneme in lyrics starting from coarse-grained sentence level to fine-grained phoneme level, and further design a multi-lingual multi-singer singing model based on a feed-forward Transformer to directly generate linear-spectrograms from lyrics, and synthesize voices using Griffin-Lim. DeepSinger has several advantages over previous SVS systems: 1) to the best of our knowledge, it is the first SVS system that directly mines training data from music websites, 2) the lyrics-to-singing alignment model further avoids any human efforts for alignment labeling and greatly reduces labeling cost, 3) the singing model based on a feed-forward Transformer is simple and efficient, by removing the complicated acoustic feature modeling in parametric synthesis and leveraging a reference encoder to capture the timbre of a singer from noisy singing data, and 4) it can synthesize singing voices in multiple languages and multiple singers. We evaluate DeepSinger on our mined singing dataset that consists of about 92 hours data from 89 singers on three languages (Chinese, Cantonese and English). The results demonstrate that with the singing data purely mined from the Web, DeepSinger can synthesize high-quality singing voices in terms of both pitch accuracy and voice naturalness (footnote: Our audio samples are shown in https://speechresearch.github.io/deepsinger/.)
翻訳日:2022-11-12 05:00:06 公開日:2020-07-15
# 不完全データセットクラスタリングのための修正可能性ファジィC平均アルゴリズム

Modified Possibilistic Fuzzy C-Means Algorithm for Clustering Incomplete Data Sets ( http://arxiv.org/abs/2007.04908v2 )

ライセンス: Link先を確認
Rustam and Koredianto Usman and Mudyawati Kamaruddin and Dina Chamidah and Nopendri and Khaerudin Saleh and Yulinda Eliskar and Ismail Marzuki(参考訳) PFCM(Possibilistic fuzzy c-means)アルゴリズムは、クラスタリングやファジィc-means(FCM)とPCM(Possibilistic c-means)の2つの一般的なアルゴリズムの弱点に対処する信頼性の高いアルゴリズムである。 PFCMアルゴリズムは、一致クラスタの場合のノイズ感度とPCMの弱点を扱うFCMの弱点を扱う。 しかし、pfcmアルゴリズムはクラスタ完全データセットにのみ適用することができる。 そこで本研究では,不完全データセットクラスタリングに適用可能なPFCMアルゴリズムの修正を提案する。 我々は PFCM アルゴリズムを OCSPFCM と NPSPFCM アルゴリズムに修正し, 3 つの性能を計測した。 1) 正確性, 正確性 2) 終了までのイテレーションの回数,及び 3)セントロイドエラー。 その結果から、両アルゴリズムは不完全なデータセットをクラスタリングする可能性を持っている。 しかし、NPSPFCMアルゴリズムの性能は、不完全なデータセットをクラスタリングするOCSPFCMアルゴリズムよりも優れている。

Possibilistic fuzzy c-means (PFCM) algorithm is a reliable algorithm has been proposed to deal the weakness of two popular algorithms for clustering, fuzzy c-means (FCM) and possibilistic c-means (PCM). PFCM algorithm deals with the weaknesses of FCM in handling noise sensitivity and the weaknesses of PCM in the case of coincidence clusters. However, the PFCM algorithm can be only applied to cluster complete data sets. Therefore, in this study, we propose a modification of the PFCM algorithm that can be applied to incomplete data sets clustering. We modified the PFCM algorithm to OCSPFCM and NPSPFCM algorithms and measured performance on three things: 1) accuracy percentage, 2) a number of iterations to termination, and 3) centroid errors. Based on the results that both algorithms have the potential for clustering incomplete data sets. However, the performance of the NPSPFCM algorithm is better than the OCSPFCM algorithm for clustering incomplete data sets.
翻訳日:2022-11-12 04:25:23 公開日:2020-07-15
# プロシージャコンテンツジェネレータとしてのテーブルトップロールプレイングゲーム

Tabletop Roleplaying Games as Procedural Content Generators ( http://arxiv.org/abs/2007.06108v2 )

ライセンス: Link先を確認
Matthew Guzdial, Devi Acharya, Max Kreminski, Michael Cook, Mirjam Eladhari, Antonios Liapis and Anne Sullivan(参考訳) テーブルトップロールプレイングゲーム(TTRPG)とプロシージャコンテンツジェネレータはどちらも、コンテンツを生成するためのルールシステムとして理解することができる。 本稿では,TTRPG設計をプロシージャコンテンツジェネレータ設計として有用とみなすことができることを論じる。 我々は,PCG研究の重要概念(可能性空間,表現範囲解析,生成パイプラインなど)をTTRPG設計の重要概念にリンクするケーススタディをいくつか提示する。 次に,これらの関係の意義を議論し,ttrpgsとpcgにおける今後の作業統合研究の方向性を提案する。

Tabletop roleplaying games (TTRPGs) and procedural content generators can both be understood as systems of rules for producing content. In this paper, we argue that TTRPG design can usefully be viewed as procedural content generator design. We present several case studies linking key concepts from PCG research -- including possibility spaces, expressive range analysis, and generative pipelines -- to key concepts in TTRPG design. We then discuss the implications of these relationships and suggest directions for future work uniting research in TTRPGs and PCG.
翻訳日:2022-11-11 05:46:06 公開日:2020-07-15
# 逆の例とメトリクス

Adversarial Examples and Metrics ( http://arxiv.org/abs/2007.06993v2 )

ライセンス: Link先を確認
Nico D\"ottling, Kathrin Grosse, Michael Backes, Ian Molloy(参考訳) 逆の例は、入力の誤分類を引き起こす機械学習(ML)システムに対する攻撃の一種である。 現実の世界でMLを適用するためには、敵の例に対する堅牢性を達成することが不可欠である。 敵の例に関するほとんどの先行研究は経験的だが、最近の研究は暗号のハードネスに基づくロバスト分類の基本的な制限を確立している。 しかし、この分野におけるほとんどの正と負の結果は、敵を制約する固定された目標計量が存在すると仮定し、これはしばしば非現実的な仮定であると主張する。 本研究では,対象計量が不確かである場合のロバスト分類の限界について検討する。 具体的には、モデルが訓練された時点でターゲットメトリックが分かっている場合、小さな分類器によるロバスト分類を許容する分類問題を構築するが、ターゲットメトリックが事実の後に選択された場合、小さな分類器ではロバスト分類は不可能である。 この過程で,ロバスト分類の硬さと有界記憶モデル暗号との新たな関連性を検討する。

Adversarial examples are a type of attack on machine learning (ML) systems which cause misclassification of inputs. Achieving robustness against adversarial examples is crucial to apply ML in the real world. While most prior work on adversarial examples is empirical, a recent line of work establishes fundamental limitations of robust classification based on cryptographic hardness. Most positive and negative results in this field however assume that there is a fixed target metric which constrains the adversary, and we argue that this is often an unrealistic assumption. In this work we study the limitations of robust classification if the target metric is uncertain. Concretely, we construct a classification problem, which admits robust classification by a small classifier if the target metric is known at the time the model is trained, but for which robust classification is impossible for small classifiers if the target metric is chosen after the fact. In the process, we explore a novel connection between hardness of robust classification and bounded storage model cryptography.
翻訳日:2022-11-10 15:25:32 公開日:2020-07-15
# 野人におけるラベルなし顔のクラスタリングによる顔認識の改善

Improving Face Recognition by Clustering Unlabeled Faces in the Wild ( http://arxiv.org/abs/2007.06995v2 )

ライセンス: Link先を確認
Aruni RoyChowdhury, Xiang Yu, Kihyuk Sohn, Erik Learned-Miller, Manmohan Chandraker(参考訳) 深部顔認識は大規模ラベル付きデータから大きな恩恵を受けてきたが、現在の研究はラベル付きデータを利用してさらなる性能向上と人的アノテーションのコスト削減に重点を置いている。 以前は、ラベル付きデータセットとラベルなしデータセットは、構成によって重複したIDを持たない、制御された設定がほとんどであった。 これは大規模な顔認識では現実的ではなく、そのような重複と競合する必要があるため、データの量によって周波数が増加する。 アイデンティティの重複を無視すると、同一IDからのデータが複数のクラスタに分割されるため、大きなラベル付けノイズが発生する。 そこで本研究では,極限値理論に基づく新しい同一性分離法を提案する。 分布外検出アルゴリズムとして定式化され、重なり合うラベルノイズに起因する問題を著しく低減する。 クラスタ割り当てを擬似ラベルとして考えると、クラスタリングエラーからのラベル付けノイズも克服する必要がある。 本研究では,変調重みがクラスタリングの不確かさの推定値に対応するコサイン損失の変調を提案する。 IJB-A検証の11.6%の改善など、制御および実環境における広範囲な実験により、教師付きベースラインよりも一貫した改善が示された。

While deep face recognition has benefited significantly from large-scale labeled data, current research is focused on leveraging unlabeled data to further boost performance, reducing the cost of human annotation. Prior work has mostly been in controlled settings, where the labeled and unlabeled data sets have no overlapping identities by construction. This is not realistic in large-scale face recognition, where one must contend with such overlaps, the frequency of which increases with the volume of data. Ignoring identity overlap leads to significant labeling noise, as data from the same identity is split into multiple clusters. To address this, we propose a novel identity separation method based on extreme value theory. It is formulated as an out-of-distribution detection algorithm, and greatly reduces the problems caused by overlapping-identity label noise. Considering cluster assignments as pseudo-labels, we must also overcome the labeling noise from clustering errors. We propose a modulation of the cosine loss, where the modulation weights correspond to an estimate of clustering uncertainty. Extensive experiments on both controlled and real settings demonstrate our method's consistent improvements over supervised baselines, e.g., 11.6% improvement on IJB-A verification.
翻訳日:2022-11-10 14:50:42 公開日:2020-07-15
# ロバストかつリアルタイムなRGB-Dサルエント物体検出のための単一ストリームネットワーク

A Single Stream Network for Robust and Real-time RGB-D Salient Object Detection ( http://arxiv.org/abs/2007.06811v2 )

ライセンス: Link先を確認
Xiaoqi Zhao, Lihe Zhang, Youwei Pang, Huchuan Lu, Lei Zhang(参考訳) 既存の RGB-D salient Object Detection (SOD) アプローチは、RGBストリームと深度ストリームとの相互融合に集中している。 彼らは深度マップ自体の効果を深く掘り下げていない。 本研究では,RGBと深度間の早期融合と中核融合を誘導するために,深度マップを直接使用する単一ストリームネットワークを設計し,深度ストリームの特徴エンコーダを節約し,軽量かつリアルタイムなモデルを実現する。 1) モダリティ間の大きな差に起因する非互換性問題を克服し, 1 つのストリームエンコーダを構築して初期融合を実現し,imagenet の事前学習したバックボーンモデルを最大限活用し,リッチで判別的な特徴を抽出する。 2) 深度強調二重注意モジュール (DEDA) を設計し, 空間的にフィルタされた特徴を持つ前/後ろの分岐を効率よく提供し, 復号器の中間核融合を最適に行えるようにした。 さらに,異なるスケールのオブジェクトを正確にローカライズするために,ピラミッド型特徴抽出モジュール(PAFE)を作成した。 広範囲な実験により,提案手法は評価基準の異なるほとんどの最先端手法に対して好適に機能することが示された。 さらに、このモデルは現在の最も軽量なモデルよりも55.5\%軽く、32 FPSのリアルタイム速度で384 \times 384$画像を処理する。

Existing RGB-D salient object detection (SOD) approaches concentrate on the cross-modal fusion between the RGB stream and the depth stream. They do not deeply explore the effect of the depth map itself. In this work, we design a single stream network to directly use the depth map to guide early fusion and middle fusion between RGB and depth, which saves the feature encoder of the depth stream and achieves a lightweight and real-time model. We tactfully utilize depth information from two perspectives: (1) Overcoming the incompatibility problem caused by the great difference between modalities, we build a single stream encoder to achieve the early fusion, which can take full advantage of ImageNet pre-trained backbone model to extract rich and discriminative features. (2) We design a novel depth-enhanced dual attention module (DEDA) to efficiently provide the fore-/back-ground branches with the spatially filtered features, which enables the decoder to optimally perform the middle fusion. Besides, we put forward a pyramidally attended feature extraction module (PAFE) to accurately localize the objects of different scales. Extensive experiments demonstrate that the proposed model performs favorably against most state-of-the-art methods under different evaluation metrics. Furthermore, this model is 55.5\% lighter than the current lightest model and runs at a real-time speed of 32 FPS when processing a $384 \times 384$ image.
翻訳日:2022-11-10 14:43:07 公開日:2020-07-15
# 代理エネルギーモデル緩和を用いた原子構造学習アルゴリズム

Atomistic Structure Learning Algorithm with surrogate energy model relaxation ( http://arxiv.org/abs/2007.07523v1 )

ライセンス: Link先を確認
Henrik Lund Mortensen, S{\o}ren Ager Meldgaard, Malthe Kj{\ae}r Bisbo, Mads-Peter V. Christiansen, and Bj{\o}rk Hammer(参考訳) 最近提案されたAtomistic Structure Learning Algorithm (ASLA)は、ニューラルネットワークを利用して画像認識と強化学習を可能にする。 密度汎関数理論(dft)プログラムのような第一原理全エネルギー計算機と組み合わせて使用する場合、完全に自律的な構造決定を可能にする。 計算要件を省くため、aslaはdftレベルの力情報に応じて構造候補を緩和させることなく、一点モードでdftプログラムを利用する。 本研究では,ASLAを拡張して,構造探索と同時に代理エネルギーモデルを確立する。 これにより、計算コストのかかるDFTプログラムによる単一点エネルギー評価の前に、構造候補を近似的ではあるが安価に緩和することができる。 ベンゼン造成におけるASLAの性能は, 代理エネルギー景観を利用して著しく向上した。 さらに、Ag(111)表面酸化物のc(4x8)相の徹底的な研究にこのモデル強化ASLAを適用した。 ASLAは、以前は走査型トンネル顕微鏡画像に基づいて推測されていた表面再構成を成功裏に同定した。

The recently proposed Atomistic Structure Learning Algorithm (ASLA) builds on neural network enabled image recognition and reinforcement learning. It enables fully autonomous structure determination when used in combination with a first-principles total energy calculator, e.g. a density functional theory (DFT) program. To save on the computational requirements, ASLA utilizes the DFT program in a single-point mode, i.e. without allowing for relaxation of the structural candidates according to the force information at the DFT level. In this work, we augment ASLA to establish a surrogate energy model concurrently with its structure search. This enables approximative but computationally cheap relaxation of the structural candidates before the single-point energy evaluation with the computationally expensive DFT program. We demonstrate a significantly increased performance of ASLA for building benzene while utilizing a surrogate energy landscape. Further we apply this model-enhanced ASLA in a thorough investigation of the c(4x8) phase of the Ag(111) surface oxide. ASLA successfully identifies a surface reconstruction which has previously only been guessed on the basis of scanning tunnelling microscopy images.
翻訳日:2022-11-10 06:49:44 公開日:2020-07-15
# ディープラーニングによる5G-NR通信の復号化

Decoding 5G-NR Communications via Deep Learning ( http://arxiv.org/abs/2007.07644v1 )

ライセンス: Link先を確認
Pol Henarejos and Miguel \'Angel V\'azquez(参考訳) 今後のコミュニケーションは5G仕様に基づいており、新しい垂直産業向けのソリューションを提供することを目指している。 物理層の主な変更の1つは、チャネル符号化に低密度パリティ・チェック(LDPC)コードを使用することである。 LDPC符号は、旧世代のTurbo符号と比べ、計算の複雑さが増すが、複雑性ビット誤り率(BER)の点で、LDPC符号は妥当なトレードオフをもたらす。 これと並行して、Deep Learningアルゴリズムは、画像とビデオ処理に特化して、新しい革命を経験している。 この文脈では、無線通信で活用できるいくつかのアプローチがある。 本稿では,Deep Neural Network(DNN)と共同で自動符号化ニューラルネットワーク(ANN)を用いて,デマッピングとデコードのための自動符号化ディープニューラルネットワーク(ADNN)を構築することを提案する。 その結果、特定のBERターゲットに対して、AWGN(Additive White Gaussian Noise)チャネルにおいて、SNR(Signal to Noise Ratio)の$3$dBが要求されることが明らかになった。

Upcoming modern communications are based on 5G specifications and aim at providing solutions for novel vertical industries. One of the major changes of the physical layer is the use of Low-Density Parity-Check (LDPC) code for channel coding. Although LDPC codes introduce additional computational complexity compared with the previous generation, where Turbocodes where used, LDPC codes provide a reasonable trade-off in terms of complexity-Bit Error Rate (BER). In parallel to this, Deep Learning algorithms are experiencing a new revolution, specially to image and video processing. In this context, there are some approaches that can be exploited in radio communications. In this paper we propose to use Autoencoding Neural Networks (ANN) jointly with a Deep Neural Network (DNN) to construct Autoencoding Deep Neural Networks (ADNN) for demapping and decoding. The results will unveil that, for a particular BER target, $3$ dB less of Signal to Noise Ratio (SNR) is required, in Additive White Gaussian Noise (AWGN) channels.
翻訳日:2022-11-10 06:49:06 公開日:2020-07-15
# 平面に一致するrmsに対する$\tilde{o}(n^{5/4})$ time $\varepsilon$近似アルゴリズム

An $\tilde{O}(n^{5/4})$ Time $\varepsilon$-Approximation Algorithm for RMS Matching in a Plane ( http://arxiv.org/abs/2007.07720v1 )

ライセンス: Link先を確認
Nathaniel Lahn, Sharath Raghvendra(参考訳) 2-wasserstein距離(またはrms距離)は、機械学習にエキサイティングな応用をもたらす確率分布の類似性の有用な尺度である。 離散分布に対して、この距離を計算する問題は、2つの点の多重集合 $a,b \subset \mathbb{r}^2$, with $|a|=|b|=n$ によって与えられる完全二部グラフ上の最小コストの完全マッチングを見つけるという観点で表現できる。 地上距離がユークリッド(英語版)(Sharathkumar and Agarwal, JACM 2020)である場合、ほぼ直線時間で$\varepsilon$-approximationアルゴリズムがあるが、既存のRMS距離に対する$\varepsilon$-approximationアルゴリズムは$\Omega(n^{3/2})$timeである。 これは主にユークリッド距離とは異なり、平方ユークリッド距離が計量ではないためである。 本稿では、RMS距離に対して、$O(n^{5/4}\mathrm{poly}\{\log n,1/\varepsilon\})$timeで実行される新しい$\varepsilon$-approximationアルゴリズムを提案する。 我々のアルゴリズムは、二部平面グラフにおける最小コスト完全マッチングを求める最近のアプローチに触発されている(asathulla et al., talg 2020)。 それらのアルゴリズムは、平面性を必要とする最短経路データ構造と同様に、サブ線形サイズの頂点分離器の存在に大きく依存する。 意外なことに、平面から遠く、頂点分離器を持たない完全幾何グラフに対して、同様のアルゴリズムを設計することができる。 アルゴリズムの中心的な構成要素は、正方形ユークリッド距離を近似するクワッドツリーに基づく距離と、ハンガリー語検索と亜線形時間の拡張の両方をサポートするデータ構造である。

The 2-Wasserstein distance (or RMS distance) is a useful measure of similarity between probability distributions that has exciting applications in machine learning. For discrete distributions, the problem of computing this distance can be expressed in terms of finding a minimum-cost perfect matching on a complete bipartite graph given by two multisets of points $A,B \subset \mathbb{R}^2$, with $|A|=|B|=n$, where the ground distance between any two points is the squared Euclidean distance between them. Although there is a near-linear time relative $\varepsilon$-approximation algorithm for the case where the ground distance is Euclidean (Sharathkumar and Agarwal, JACM 2020), all existing relative $\varepsilon$-approximation algorithms for the RMS distance take $\Omega(n^{3/2})$ time. This is primarily because, unlike Euclidean distance, squared Euclidean distance is not a metric. In this paper, for the RMS distance, we present a new $\varepsilon$-approximation algorithm that runs in $O(n^{5/4}\mathrm{poly}\{\log n,1/\varepsilon\})$ time. Our algorithm is inspired by a recent approach for finding a minimum-cost perfect matching in bipartite planar graphs (Asathulla et al., TALG 2020). Their algorithm depends heavily on the existence of sub-linear sized vertex separators as well as shortest path data structures that require planarity. Surprisingly, we are able to design a similar algorithm for a complete geometric graph that is far from planar and does not have any vertex separators. Central components of our algorithm include a quadtree-based distance that approximates the squared Euclidean distance and a data structure that supports both Hungarian search and augmentation in sub-linear time.
翻訳日:2022-11-10 06:48:47 公開日:2020-07-15
# 協調エッジインテリジェンスのためのマルチユーザDNN分割と計算資源配分

Joint Multi-User DNN Partitioning and Computational Resource Allocation for Collaborative Edge Intelligence ( http://arxiv.org/abs/2007.09072v1 )

ライセンス: Link先を確認
Xin Tang and Xu Chen and Liekang Zeng and Shuai Yu and Lin Chen(参考訳) モバイルエッジコンピューティング(MEC)は、ネットワークエッジにさまざまなリソースを提供する有望なサポートアーキテクチャとして登場した。これにより、巨大なモバイルとIoT(Internet of Things)デバイスにAI機能を備えたエッジインテリジェンスサービスの有効化手段として機能する。 エッジサーバの助けを借りて、ユーザ機器(UE)はディープニューラルネットワーク(DNN)ベースのAIアプリケーションを実行することができる。 しかし、各エッジサーバのリソースは通常制限されている。 したがって、エッジサーバを含むリソース最適化は、本質的にリソース制約付き最適化の問題であり、そのような現実的な状況で取り組む必要がある。 本研究の目的は,DNNパーティショニング(新たなDNNオフロード方式)の現実的なマルチユーザリソース制約条件における最適化問題について考察することである。 非常に大きな解空間にもかかわらず、マルチue dnn分割と計算資源割当という、この特定の最適化問題のいくつかの性質を明らかにした。 本稿では,最適解を多項式時間で実現できるIAO (Iterative Alternating Optimization) アルゴリズムを提案する。 さらに,現実的な推定誤差下での時間複雑性と性能の観点から,アルゴリズムの厳密な理論解析を行う。 さらに,このフレームワークを実装し,実効性と効率性を示す現実的なdnnモデルを用いて広範な実験を行うプロトタイプを構築した。

Mobile Edge Computing (MEC) has emerged as a promising supporting architecture providing a variety of resources to the network edge, thus acting as an enabler for edge intelligence services empowering massive mobile and Internet of Things (IoT) devices with AI capability. With the assistance of edge servers, user equipments (UEs) are able to run deep neural network (DNN) based AI applications, which are generally resource-hungry and compute-intensive, such that an individual UE can hardly afford by itself in real time. However the resources in each individual edge server are typically limited. Therefore, any resource optimization involving edge servers is by nature a resource-constrained optimization problem and needs to be tackled in such realistic context. Motivated by this observation, we investigate the optimization problem of DNN partitioning (an emerging DNN offloading scheme) in a realistic multi-user resource-constrained condition that rarely considered in previous works. Despite the extremely large solution space, we reveal several properties of this specific optimization problem of joint multi-UE DNN partitioning and computational resource allocation. We propose an algorithm called Iterative Alternating Optimization (IAO) that can achieve the optimal solution in polynomial time. In addition, we present rigorous theoretic analysis of our algorithm in terms of time complexity and performance under realistic estimation error. Moreover, we build a prototype that implements our framework and conduct extensive experiments using realistic DNN models, whose results demonstrate its effectiveness and efficiency.
翻訳日:2022-11-10 06:47:29 公開日:2020-07-15
# ディープニューラルネットワークを用いた周期関数の表現と厳密な周期境界条件の強制法

A Method for Representing Periodic Functions and Enforcing Exactly Periodic Boundary Conditions with Deep Neural Networks ( http://arxiv.org/abs/2007.07442v1 )

ライセンス: Link先を確認
Suchuan Dong, Naxian Ni(参考訳) 本稿では,Deep Neural Network (DNN) を用いた微分方程式の解法として,周期関数の簡易かつ効率的な表現法を提案する。 この方法は周期関数を含む関数合成に関するいくつかの単純な性質に由来する。 本質的には、調整可能な(訓練)パラメータを持つ独立周期関数の集合を持つdnnで表現された任意の関数を構成する。 我々は、函数とその微分に周期性要件を与えるもの(無限次)と、函数とその微分に周期性を与えるもの(k$$$k\geqslant 0$)の2つのタイプの周期条件を区別する。 前者は$C^{\infty}$周期条件、後者は$C^{k}$周期条件と呼ばれる。 我々は、$c^{\infty}$周期層および$c^k$周期層を構成する演算を定義する(任意の$k\geqslant 0$)。 c^{\infty}$(または$c^k$)周期層を第2層として自動的に組み込んだディープニューラルネットワークは、$c^{\infty}$(または$c^k$)周期条件を満たす。 C^{\infty}$と$C^k$の周期境界条件を持つ常微分方程式と偏微分方程式に関する広範な数値実験を行い、提案手法が真に機械的精度、DNN解とその導関数の周期性に有効であることを示す。

We present a simple and effective method for representing periodic functions and enforcing exactly the periodic boundary conditions for solving differential equations with deep neural networks (DNN). The method stems from some simple properties about function compositions involving periodic functions. It essentially composes a DNN-represented arbitrary function with a set of independent periodic functions with adjustable (training) parameters. We distinguish two types of periodic conditions: those imposing the periodicity requirement on the function and all its derivatives (to infinite order), and those imposing periodicity on the function and its derivatives up to a finite order $k$ ($k\geqslant 0$). The former will be referred to as $C^{\infty}$ periodic conditions, and the latter $C^{k}$ periodic conditions. We define operations that constitute a $C^{\infty}$ periodic layer and a $C^k$ periodic layer (for any $k\geqslant 0$). A deep neural network with a $C^{\infty}$ (or $C^k$) periodic layer incorporated as the second layer automatically and exactly satisfies the $C^{\infty}$ (or $C^k$) periodic conditions. We present extensive numerical experiments on ordinary and partial differential equations with $C^{\infty}$ and $C^k$ periodic boundary conditions to verify and demonstrate that the proposed method indeed enforces exactly, to the machine accuracy, the periodicity for the DNN solution and its derivatives.
翻訳日:2022-11-10 06:47:05 公開日:2020-07-15
# 非線形コヒーレント状態に基づくカーネル法

Kernel Method based on Non-Linear Coherent State ( http://arxiv.org/abs/2007.07887v1 )

ライセンス: Link先を確認
Prayag Tiwari, Shahram Dehdashti, Abdul Karim Obeid, Massimo Melucci, Peter Bruza(参考訳) 本稿では、データセットを非線形コヒーレント状態の集合にマッピングすることにより、量子状態における入力を非線形特徴マップとして符号化する過程を再解釈する。 この結果、データがコヒーレント状態によって表現される複素ヒルベルト状態へマッピングされたときに放射基底関数が回復されるため、非線形コヒーレント状態は関連する核の自然な一般化と見なすことができる。 可変質量の量子発振器の非線形コヒーレント状態を考慮することにより、一般化された超幾何関数に基づくカーネル関数を直交多項式関数として提案する。 提案されたカーネルは、よく知られた2つのデータセット(メークサークルと衛星)にサポートベクターマシンで実装され、高ノイズの存在下でもベースラインを上回っている。 さらに,非線型コヒーレント状態から得られる特徴空間の幾何学的性質がSVM分類課題に与える影響を,関連するコヒーレント状態のフビニ・スタディ計量を用いて検討した。

In this paper, by mapping datasets to a set of non-linear coherent states, the process of encoding inputs in quantum states as a non-linear feature map is re-interpreted. As a result of this fact that the Radial Basis Function is recovered when data is mapped to a complex Hilbert state represented by coherent states, non-linear coherent states can be considered as natural generalisation of associated kernels. By considering the non-linear coherent states of a quantum oscillator with variable mass, we propose a kernel function based on generalized hypergeometric functions, as orthogonal polynomial functions. The suggested kernel is implemented with support vector machine on two well known datasets (make circles, and make moons) and outperforms the baselines, even in the presence of high noise. In addition, we study impact of geometrical properties of feature space, obtaining by non-linear coherent states, on the SVM classification task, by using considering the Fubini-Study metric of associated coherent states.
翻訳日:2022-11-10 06:40:08 公開日:2020-07-15
# beyond 5gネットワークにおける計算オフロード:分散学習フレームワークとその応用

Computation Offloading in Beyond 5G Networks: A Distributed Learning Framework and Applications ( http://arxiv.org/abs/2007.08001v1 )

ライセンス: Link先を確認
Xianfu Chen and Celimuge Wu and Zhi Liu and Ning Zhang and Yusheng Ji(参考訳) 無線通信とマルチアクセスエッジコンピューティング(mec)を融合するトレンドに直面し,第5世代ネットワークにおける計算オフロードについて検討する。 分散学習フレームワークを提案するマルチエージェントマルコフ決定プロセスとして,MECシステムにおける不確実性と限られた資源の共有に起因する技術的課題に対処するため,計算オフロード問題を定式化する。 本稿では,計算オフロードにおける資源オーケストレーションを事例として,提案手法に基づいて開発したオンライン分散強化学習アルゴリズムの可能性を示す。 実験の結果,我々の学習アルゴリズムはベンチマークリソースオーケストレーションアルゴリズムよりも優れていた。 さらに,提案する分散学習フレームワークの実装を阻害する主な課題の一つとして,時間コストを最小限に抑えるために,深く調査する価値のある研究の方向性について概説する。

Facing the trend of merging wireless communications and multi-access edge computing (MEC), this article studies computation offloading in the beyond fifth-generation networks. To address the technical challenges originating from the uncertainties and the sharing of limited resource in an MEC system, we formulate the computation offloading problem as a multi-agent Markov decision process, for which a distributed learning framework is proposed. We present a case study on resource orchestration in computation offloading to showcase the potentials of an online distributed reinforcement learning algorithm developed under the proposed framework. Experimental results demonstrate that our learning algorithm outperforms the benchmark resource orchestration algorithms. Furthermore, we outline the research directions worth in-depth investigation to minimize the time cost, which is one of the main practical issues that prevent the implementation of the proposed distributed learning framework.
翻訳日:2022-11-10 06:39:28 公開日:2020-07-15
# モバイルエッジコンピューティングにおける連合学習: 5gを超えるエッジ学習の視点

Federated Learning in Mobile Edge Computing: An Edge-Learning Perspective for Beyond 5G ( http://arxiv.org/abs/2007.08030v1 )

ライセンス: Link先を確認
Shashank Jere, Qiang Fan, Bodong Shang, Lianjun Li and Lingjia Liu(参考訳) 現在運用されている膨大な数のiotデバイスからの大量のセンシングデータのために、このようなデータで動作する集中型機械学習アルゴリズムは耐え難いトレーニング時間をもたらし、遅延に敏感な推論アプリケーションの要件を満たすことができない。 ネットワークエッジにコンピューティングリソースをプロビジョニングすることで、Mobile Edge Computing(MEC)は、分散IoTデバイスと連携して、フェデレート学習を容易にし、リアルタイムトレーニングを実現する、有望な技術になった。 しかし,エッジサーバやiotデバイスの大量のセンシングデータと限られたリソースを考慮すると,遅延センシティブなトレーニングタスクのトレーニング効率と精度を確保することが困難である。 そこで本稿では,IoTデバイスとエッジサーバ間の通信制約と,トレーニング精度に対する各種IoTデバイスの影響を考慮した,エッジコンピューティング支援型フェデレーション学習フレームワークを設計する。 一方,我々は,IoTデバイスとエッジサーバ間のインタラクションを高速化するため,リアルタイムに通信資源を動的に設定する機械学習手法を採用し,フェデレート学習の訓練効率を向上させる。 一方、各種IoTデバイスは、エッジサーバで派生したグローバルモデルの精度に様々な影響を与える異なるトレーニングデータセットを持つため、エッジサーバのリソース制約下でのトレーニング精度を改善するために、IoTデバイス選択スキームが設計されている。 エッジコンピューティング支援フェデレーション学習フレームワークの性能を示すため,大規模なシミュレーションが行われた。

Owing to the large volume of sensed data from the enormous number of IoT devices in operation today, centralized machine learning algorithms operating on such data incur an unbearable training time, and thus cannot satisfy the requirements of delay-sensitive inference applications. By provisioning computing resources at the network edge, Mobile Edge Computing (MEC) has become a promising technology capable of collaborating with distributed IoT devices to facilitate federated learning, and thus realize real-time training. However, considering the large volume of sensed data and the limited resources of both edge servers and IoT devices, it is challenging to ensure the training efficiency and accuracy of delay-sensitive training tasks. Thus, in this paper, we design a novel edge computing-assisted federated learning framework, in which the communication constraints between IoT devices and edge servers and the effect of various IoT devices on the training accuracy are taken into account. On one hand, we employ machine learning methods to dynamically configure the communication resources in real-time to accelerate the interactions between IoT devices and edge servers, thus improving the training efficiency of federated learning. On the other hand, as various IoT devices have different training datasets which have varying influence on the accuracy of the global model derived at the edge server, an IoT device selection scheme is designed to improve the training accuracy under the resource constraints at edge servers. Extensive simulations have been conducted to demonstrate the performance of the introduced edge computing-assisted federated learning framework.
翻訳日:2022-11-10 06:38:55 公開日:2020-07-15
# 衛星通信におけるAIの利用について

On the Use of AI for Satellite Communications ( http://arxiv.org/abs/2007.10110v1 )

ライセンス: Link先を確認
Miguel \'Angel V\'azquez, Pol Henarejos, Ana I. P\'erez-Neira, Elena Grechi, Andreas Voight, Juan Carlos Gil, Irene Pappalardo, Federico Di Credico, Rocco Michele Lancellotti(参考訳) 本論文は,衛星通信(SatCom)システムにおける人工知能(AI)機構の調査と開発に対する最初のアプローチを示す。 まず、人間の介入に強く依存する現在のSatComオペレーションを紹介します。 これらのユースケースに加えて、これらのタスクを自動化するための最初の方法を示し、これらの課題に対処できる重要なAIツールを示します。 最後に、SatComセクターにおける長期的なAI開発について論じる。

This document presents an initial approach to the investigation and development of artificial intelligence (AI) mechanisms in satellite communication (SatCom) systems. We first introduce the nowadays SatCom operations which are strongly dependent on the human intervention. Along with those use cases, we present an initial way of automatizing some of those tasks and we show the key AI tools capable of dealing with those challenges. Finally, the long term AI developments in the SatCom sector is discussed.
翻訳日:2022-11-10 06:38:31 公開日:2020-07-15
# VidCEP:ビデオストリームの時空間パターンを検出する複合イベント処理フレームワーク

VidCEP: Complex Event Processing Framework to Detect Spatiotemporal Patterns in Video Streams ( http://arxiv.org/abs/2007.07817v1 )

ライセンス: Link先を確認
Piyush Yadav, Edward Curry(参考訳) ビデオデータは表現力が高く、伝統的に機械が解釈するのが非常に困難だった。 ビデオストリームからのイベントパターンのクエリは、非構造化表現のため難しい。 複合イベント処理(CEP)のようなミドルウェアシステムは、データストリームからパターンを抽出し、タイムリーな方法でユーザに通知を送信する。 現在のCEPシステムは、構造化されていないデータモデルと表現力のあるクエリ言語がないため、ビデオストリームのクエリに固有の制限がある。 本研究では,ビデオ上で高レベルな表現型クエリを定義可能なCEPフレームワークに着目し,時空間のイベントパターンを検知する。 この文脈で提案します i) VidCEP(インメモリ,オンザフライ,ほぼリアルタイム,ビデオストリームのための複合イベントマッチングフレームワーク)。 このシステムは、ディープニューラルネットワークモデルのカスケードを用いて、ビデオから高レベルなセマンティック概念を検出することができる、ビデオストリームのためのグラフベースのイベント表現を使用する。 ii)CEPにおけるビデオストリームのハイレベルなユーザクエリを表現するビデオイベントクエリ言語(VEQL) 三 ビデオデータ上で表現豊かなユーザクエリをマッチングすることにより、時空間ビデオイベントパターンを検出する複雑なイベントマッチング装置。 提案手法はFスコア0.66から0.89の範囲で時空間ビデオイベントパターンを検出する。 VidCEPは、秒単位のレイテンシで5つの並列ビデオに対して、平均スループットが70フレーム/秒で、ほぼリアルタイムのパフォーマンスを維持している。

Video data is highly expressive and has traditionally been very difficult for a machine to interpret. Querying event patterns from video streams is challenging due to its unstructured representation. Middleware systems such as Complex Event Processing (CEP) mine patterns from data streams and send notifications to users in a timely fashion. Current CEP systems have inherent limitations to query video streams due to their unstructured data model and lack of expressive query language. In this work, we focus on a CEP framework where users can define high-level expressive queries over videos to detect a range of spatiotemporal event patterns. In this context, we propose: i) VidCEP, an in-memory, on the fly, near real-time complex event matching framework for video streams. The system uses a graph-based event representation for video streams which enables the detection of high-level semantic concepts from video using cascades of Deep Neural Network models, ii) a Video Event Query language (VEQL) to express high-level user queries for video streams in CEP, iii) a complex event matcher to detect spatiotemporal video event patterns by matching expressive user queries over video data. The proposed approach detects spatiotemporal video event patterns with an F-score ranging from 0.66 to 0.89. VidCEP maintains near real-time performance with an average throughput of 70 frames per second for 5 parallel videos with sub-second matching latency.
翻訳日:2022-11-10 06:38:06 公開日:2020-07-15
# 畳み込みニューラルネットワークを用いた視覚クレーター検出のための月面相対航法

Lunar Terrain Relative Navigation Using a Convolutional Neural Network for Visual Crater Detection ( http://arxiv.org/abs/2007.07702v1 )

ライセンス: Link先を確認
Lena M. Downes, Ted J. Steiner, Jonathan P. How(参考訳) テランの相対航法は、慣性航法システムにおけるドリフトの補正のために補助的な測定を行うグローバルな特徴を検出することによって、宇宙船の位置推定の精度を向上させることができる。 本稿では、畳み込みニューラルネットワーク(CNN)と画像処理を用いて、拡張カルマンフィルタ(EKF)を用いて、シミュレーションされた宇宙船の位置を追跡するシステムを提案する。 CNNはLunaNetと呼ばれ、シミュレートされたカメラフレームのクレーターを視覚的に検出し、これらの検出は現在の推定された宇宙船の位置にある既知の月のクレーターと一致している。 これらの一致したクレーターは、EKFを用いて追跡される特徴として扱われる。 lunanetは、画像の明るさの変化に対するロバスト性が高く、軌道全体を通してフレームからフレームへのクレーター検出が繰り返し可能であるため、シミュレートされた軌道上でより信頼性の高い位置追跡を可能にする。 EKFと組み合わせたLunaNetは、標準輝度の画像を用いた軌跡試験において、EKFと比較して平均最終位置推定誤差の60%の低下と平均最終速度推定誤差の25%の低下を生じる。

Terrain relative navigation can improve the precision of a spacecraft's position estimate by detecting global features that act as supplementary measurements to correct for drift in the inertial navigation system. This paper presents a system that uses a convolutional neural network (CNN) and image processing methods to track the location of a simulated spacecraft with an extended Kalman filter (EKF). The CNN, called LunaNet, visually detects craters in the simulated camera frame and those detections are matched to known lunar craters in the region of the current estimated spacecraft position. These matched craters are treated as features that are tracked using the EKF. LunaNet enables more reliable position tracking over a simulated trajectory due to its greater robustness to changes in image brightness and more repeatable crater detections from frame to frame throughout a trajectory. LunaNet combined with an EKF produces a decrease of 60% in the average final position estimation error and a decrease of 25% in average final velocity estimation error compared to an EKF using an image processing-based crater detection method when tested on trajectories using images of standard brightness.
翻訳日:2022-11-10 06:37:44 公開日:2020-07-15
# 既知の$\mathrm{se}(3)$不変量を持つ校正カメラの相対ポーズ推定

Relative Pose Estimation of Calibrated Cameras with Known $\mathrm{SE}(3)$ Invariants ( http://arxiv.org/abs/2007.07686v1 )

ライセンス: Link先を確認
Bo Li, Evgeniy Martyushev, Gim Hee Lee(参考訳) ポーズの$\mathrm{se}(3)$不変量には、回転角とスクリュー変換が含まれる。 本稿では、既知の$\mathrm{SE}(3)$不変量で制約されたキャリブレーションカメラの相対ポーズ推定問題について、総じて5つの最小問題を含む完全な総合的研究を行う。 これらの問題は、相対的なポーズ推定のための最小の点対数を減らし、推定効率とロバスト性を向上させる。 $\mathrm{SE}(3)$不変制約は、余分なセンサーの測定や動きの仮定から得られる。 余分な制約を伴う従来の相対的なポーズ推定とは異なり、制約をカメラフレームに変換するために余分なキャリブレーションは不要である。 この利点は、厳密な体上の異なる座標系を横断する$\mathrm{SE}(3)$不変量の不変性から来ており、より便利で実用的な応用において柔軟である。 相対ポーズ推定の概念を$\mathrm{SE}(3)$不変量で制約するだけでなく、既存の多項式定式化の包括的研究を行い、それらの関係を明らかにする。 提案された各問題に対して異なる定式化を慎重に選択し、最適な効率を達成する。 合成データと実データを用いた実験では,従来の相対ポーズ推定法と比較して性能が向上した。

The $\mathrm{SE}(3)$ invariants of a pose include its rotation angle and screw translation. In this paper, we present a complete comprehensive study of the relative pose estimation problem for a calibrated camera constrained by known $\mathrm{SE}(3)$ invariant, which involves 5 minimal problems in total. These problems reduces the minimal number of point pairs for relative pose estimation and improves the estimation efficiency and robustness. The $\mathrm{SE}(3)$ invariant constraints can come from extra sensor measurements or motion assumption. Different from conventional relative pose estimation with extra constraints, no extrinsic calibration is required to transform the constraints to the camera frame. This advantage comes from the invariance of $\mathrm{SE}(3)$ invariants cross different coordinate systems on a rigid body and makes the solvers more convenient and flexible in practical applications. Besides proposing the concept of relative pose estimation constrained by $\mathrm{SE}(3)$ invariants, we present a comprehensive study of existing polynomial formulations for relative pose estimation and discover their relationship. Different formulations are carefully chosen for each proposed problems to achieve best efficiency. Experiments on synthetic and real data shows performance improvement compared to conventional relative pose estimation methods.
翻訳日:2022-11-10 06:31:16 公開日:2020-07-15
# Haystackのノート - CNNによる文書処理におけるクラス不均衡の対処

The Notary in the Haystack -- Countering Class Imbalance in Document Processing with CNNs ( http://arxiv.org/abs/2007.07943v1 )

ライセンス: Link先を確認
Martin Leipert, Georg Vogeler, Mathias Seuret, Andreas Maier, Vincent Christlein(参考訳) ノートル楽器は文書のカテゴリである。 表記器は、証明書の顕著な記号である表記記号によって他の文書と区別することができ、文書の発行者を特定することもできる。 当然、他の文書に関しては、表記器が過小評価される。 これは、トレーニングデータのクラス不均衡が畳み込みニューラルネットワークの性能を悪化させるため、分類が困難になる。 本研究では,この問題に対するさまざまな対策を評価する。 これらは、中世文書の集合における二項分類と分割作業に適用される。 分類において、記入器は他の文書と区別され、記入記号は分別タスクの証明書から分離される。 我々は、データ強化、アンダーサンプリング、オーバーサンプリング、焦点損失の正規化など、さまざまな手法を評価する。 ランダムなマイノリティオーバーサンプリングとデータ拡張の組み合わせは、最高のパフォーマンスをもたらす。 セグメンテーションでは,3つの損失関数とそれらの組み合わせを評価し,クラス重み付きサイコロのみを十分分割することができた。

Notarial instruments are a category of documents. A notarial instrument can be distinguished from other documents by its notary sign, a prominent symbol in the certificate, which also allows to identify the document's issuer. Naturally, notarial instruments are underrepresented in regard to other documents. This makes a classification difficult because class imbalance in training data worsens the performance of Convolutional Neural Networks. In this work, we evaluate different countermeasures for this problem. They are applied to a binary classification and a segmentation task on a collection of medieval documents. In classification, notarial instruments are distinguished from other documents, while the notary sign is separated from the certificate in the segmentation task. We evaluate different techniques, such as data augmentation, under- and oversampling, as well as regularizing with focal loss. The combination of random minority oversampling and data augmentation leads to the best performance. In segmentation, we evaluate three loss-functions and their combinations, where only class-weighted dice loss was able to segment the notary sign sufficiently.
翻訳日:2022-11-10 06:30:39 公開日:2020-07-15
# 深部画像圧縮のためのチャネルレベル可変量子化ネットワーク

Channel-Level Variable Quantization Network for Deep Image Compression ( http://arxiv.org/abs/2007.12619v1 )

ライセンス: Link先を確認
Zhisheng Zhong, Hiroaki Akutsu and Kiyoharu Aizawa(参考訳) ディープイメージ圧縮システムは主にエンコーダ、量子化器、エントロピーモデル、デコーダの4つのコンポーネントを含む。 これら4つのコンポーネントを最適化するために、ジョイントレート歪みフレームワークが提案され、多くのディープニューラルネットワークベースの手法が画像圧縮において大きな成功を収めた。 しかしながら、畳み込みニューラルネットワークに基づく手法のほとんどすべてが、チャネル毎の特徴マップを等しく扱い、異なる種類の情報を扱う柔軟性を低下させる。 本稿では,重要なチャネルのビットレートを動的に割り当て,無視可能なチャネルのビットレートを下げるチャネルレベル可変量子化ネットワークを提案する。 具体的には,可変量子化コントローラを提案する。 トレーニング中のチャネルの重要性を動的に学習するチャンネル重要モジュールと、異なるチャネルに対して異なるビットレートを割り当てる分割マージモジュールの2つの重要なコンポーネントで構成されている。 また,量子化器をガウス混合モデルに定式化する。 定量的・定性的な実験により,提案手法の有効性を検証し,優れた性能を実現し,より優れた視覚再構成を実現することを実証した。

Deep image compression systems mainly contain four components: encoder, quantizer, entropy model, and decoder. To optimize these four components, a joint rate-distortion framework was proposed, and many deep neural network-based methods achieved great success in image compression. However, almost all convolutional neural network-based methods treat channel-wise feature maps equally, reducing the flexibility in handling different types of information. In this paper, we propose a channel-level variable quantization network to dynamically allocate more bitrates for significant channels and withdraw bitrates for negligible channels. Specifically, we propose a variable quantization controller. It consists of two key components: the channel importance module, which can dynamically learn the importance of channels during training, and the splitting-merging module, which can allocate different bitrates for different channels. We also formulate the quantizer into a Gaussian mixture model manner. Quantitative and qualitative experiments verify the effectiveness of the proposed model and demonstrate that our method achieves superior performance and can produce much better visual reconstructions.
翻訳日:2022-11-10 06:30:22 公開日:2020-07-15
# 構造テクスチュアデミキシングネットワークを用いた網膜画像分割

Retinal Image Segmentation with a Structure-Texture Demixing Network ( http://arxiv.org/abs/2008.00817v1 )

ライセンス: Link先を確認
Shihao Zhang, Huazhu Fu, Yanwu Xu, Yanxia Liu, Mingkui Tan(参考訳) 網膜イメージセグメンテーションは自動疾患診断において重要な役割を担っている。 この課題は、複雑な構造とテクスチャ情報が網膜画像に混ざり合っており、情報の識別が難しいため、非常に困難である。 既存の手法はテクスチャと構造を共同で扱うため、偏りのあるモデルをテクスチャ認識に導くことができ、結果としてセグメンテーション性能は低下する。 そこで本研究では,構造とテクスチャコンポーネントの分離と性能向上を目的としたセグメント化戦略を提案する。 そこで我々は,構造とテクスチャを異様に処理できるstd-net (structure-texture demixing network) を設計した。 2つの網膜画像分割タスク(血管分割、光ディスク、カップ分割)の広範囲にわたる実験により、提案手法の有効性が示された。

Retinal image segmentation plays an important role in automatic disease diagnosis. This task is very challenging because the complex structure and texture information are mixed in a retinal image, and distinguishing the information is difficult. Existing methods handle texture and structure jointly, which may lead biased models toward recognizing textures and thus results in inferior segmentation performance. To address it, we propose a segmentation strategy that seeks to separate structure and texture components and significantly improve the performance. To this end, we design a structure-texture demixing network (STD-Net) that can process structures and textures differently and better. Extensive experiments on two retinal image segmentation tasks (i.e., blood vessel segmentation, optic disc and cup segmentation) demonstrate the effectiveness of the proposed method.
翻訳日:2022-11-10 06:30:04 公開日:2020-07-15
# ロボットによるインクリメンタルなオブジェクト学習

Tell me what this is: Few-Shot Incremental Object Learning by a Robot ( http://arxiv.org/abs/2008.00819v1 )

ライセンス: Link先を確認
Ali Ayub, Alan R. Wagner(参考訳) 多くのアプリケーションでは、アプリケーションに必要な特定のオブジェクトを認識するためにロボットを段階的に訓練する必要があります。 本稿では,人間によって提供される視覚的事例の小さなセットのみを用いて,ロボットが異なる対象カテゴリーを認識できるように漸進的に訓練する実践的システムを提案する。 論文は、最近開発された最先端の手法を用いて、オブジェクトを数発インクリメンタルに学習する。 オブジェクトクラスを段階的に学習した後、ロボットは、人間が指定したカテゴリにオブジェクトを整理するテーブルクリーニングタスクを実行する。 また,オブジェクトの配置を学習し,オブジェクトの欠落や不正確な配置を予測できるシステムの能力を示す。 実験により,本手法は,理論上界を構成する全ての実例で一度に訓練したシステムとほぼ同等の性能(バッチトレーニング)を達成できた。

For many applications, robots will need to be incrementally trained to recognize the specific objects needed for an application. This paper presents a practical system for incrementally training a robot to recognize different object categories using only a small set of visual examples provided by a human. The paper uses a recently developed state-of-the-art method for few-shot incremental learning of objects. After learning the object classes incrementally, the robot performs a table cleaning task organizing objects into categories specified by the human. We also demonstrate the system's ability to learn arrangements of objects and predict missing or incorrectly placed objects. Experimental evaluations demonstrate that our approach achieves nearly the same performance as a system trained with all examples at one time (batch training), which constitutes a theoretical upper bound.
翻訳日:2022-11-10 06:29:51 公開日:2020-07-15
# 勾配降下に対する適応と運動量再開を伴うq-learningの解析

Analysis of Q-learning with Adaptation and Momentum Restart for Gradient Descent ( http://arxiv.org/abs/2007.07422v1 )

ライセンス: Link先を確認
Bowen Weng, Huaqing Xiong, Yingbin Liang, Wei Zhang(参考訳) 既存のQ-ラーニングの収束分析は、主にバニラ確率勾配降下(SGD)タイプの更新に焦点を当てている。 アダプティブモーメント推定(adam)は実用的なq-learningアルゴリズムで一般的に使用されているが、この種の更新を伴うq-learningに提供される収束保証はない。 本稿では,AMSGrad更新を用いたQ-ラーニングアルゴリズムであるQ-AMSGradの収束率を特徴付ける。 性能向上のために,Q-AMSGradに運動量再起動方式を導入し,Q-AMSGradRアルゴリズムを提案する。 Q-AMSGradRの収束速度も確立される。 線形二次レギュレータ問題に対する実験により,提案する2つのq学習アルゴリズムが,sgd更新によるバニラq学習よりも優れていることが示された。 この2つのアルゴリズムは、Atari 2600ゲームよりも、DQN学習法よりもはるかに優れた性能を示す。

Existing convergence analyses of Q-learning mostly focus on the vanilla stochastic gradient descent (SGD) type of updates. Despite the Adaptive Moment Estimation (Adam) has been commonly used for practical Q-learning algorithms, there has not been any convergence guarantee provided for Q-learning with such type of updates. In this paper, we first characterize the convergence rate for Q-AMSGrad, which is the Q-learning algorithm with AMSGrad update (a commonly adopted alternative of Adam for theoretical analysis). To further improve the performance, we propose to incorporate the momentum restart scheme to Q-AMSGrad, resulting in the so-called Q-AMSGradR algorithm. The convergence rate of Q-AMSGradR is also established. Our experiments on a linear quadratic regulator problem show that the two proposed Q-learning algorithms outperform the vanilla Q-learning with SGD updates. The two algorithms also exhibit significantly better performance than the DQN learning method over a batch of Atari 2600 games.
翻訳日:2022-11-10 06:29:38 公開日:2020-07-15
# Bot-Match:再帰的近傍検索によるソーシャルボット検出

Bot-Match: Social Bot Detection with Recursive Nearest Neighbors Search ( http://arxiv.org/abs/2007.07636v1 )

ライセンス: Link先を確認
David M. Beskow and Kathleen M. Carley(参考訳) ソーシャルボットはこの10年で出現し、最初は迷惑をかけたが、最近ではジャーナリストを威圧し、選挙イベントを妨害し、既存のソーシャル・ファイジャーを悪化させた。 この社会的脅威はボット検出アルゴリズムの競争を引き起こし、ボット検出アルゴリズムはますます洗練されたボットアカウントに追いつくために進化した。 この猫とマウスのサイクルは、教師付き機械学習アルゴリズムの限界を照らし、研究者たちは昨日のデータを使って明日のボットを予測する。 このギャップは、研究者、ジャーナリスト、アナリストが、最先端のボット検出アルゴリズムによって検出されない悪意のあるボットアカウントを毎日特定することを意味する。 これらのアナリストは、しばしば、コンテンツ、ネットワーク位置、あるいは両方で類似性を定義できる新しいモデルのラベル付けやトレーニングなしに、類似したボットアカウントを探したがる。 類似性に基づくアルゴリズムは、既存の教師なしおよび教師なしの手法を補完し、このギャップを埋めることができる。 そこで本研究では,半教師ありの近親者探索を可能とし,シードアカウントを1つ以上有する新たな社会サイバーセキュリティの脅威をマップする,ソーシャルメディア埋め込みを評価するボットマッチング手法を提案する。

Social bots have emerged over the last decade, initially creating a nuisance while more recently used to intimidate journalists, sway electoral events, and aggravate existing social fissures. This social threat has spawned a bot detection algorithms race in which detection algorithms evolve in an attempt to keep up with increasingly sophisticated bot accounts. This cat and mouse cycle has illuminated the limitations of supervised machine learning algorithms, where researchers attempt to use yesterday's data to predict tomorrow's bots. This gap means that researchers, journalists, and analysts daily identify malicious bot accounts that are undetected by state of the art supervised bot detection algorithms. These analysts often desire to find similar bot accounts without labeling/training a new model, where similarity can be defined by content, network position, or both. A similarity based algorithm could complement existing supervised and unsupervised methods and fill this gap. To this end, we present the Bot-Match methodology in which we evaluate social media embeddings that enable a semi-supervised recursive nearest neighbors search to map an emerging social cybersecurity threat given one or more seed accounts.
翻訳日:2022-11-10 06:28:53 公開日:2020-07-15
# 単視点食事評価のための部分教師付きマルチタスクネットワーク

Partially Supervised Multi-Task Network for Single-View Dietary Assessment ( http://arxiv.org/abs/2008.00818v1 )

ライセンス: Link先を確認
Ya Lu and Thomai Stathopoulou and Stavroula Mougiakakou(参考訳) 食品量の推定は食事アセスメントのパイプラインにおいて不可欠なステップであり、食品表面とテーブル面の正確な深さ推定を要求する。 コンピュータビジョンに基づく既存の手法では、マルチイメージ入力または追加の深度マップが必要である。 単一画像からの教師なし深度推定の最近の進歩にもかかわらず、大きなテクスチャレス領域における達成された性能を改善する必要がある。 本稿では,1つの食品画像に対して幾何学的理解(奥行き予測と3次元平面推定)と意味的予測を共同で行うネットワークアーキテクチャを提案し,対象平面のテクスチャ特性によらず,ロバストで正確な食品容積推定を可能にする。 ネットワークのトレーニングには,意味的接地真理を持つ単眼ビデオのみが必要であるが,深度マップと3次元平面的接地真理はもはや不要である。 2つの食品画像データベースにおける実験結果から,本手法はテクスチャレスシナリオにおいてロバストに動作し,非教師付きネットワークやモーションベースアプローチによる構造よりも優れていることが示された。

Food volume estimation is an essential step in the pipeline of dietary assessment and demands the precise depth estimation of the food surface and table plane. Existing methods based on computer vision require either multi-image input or additional depth maps, reducing convenience of implementation and practical significance. Despite the recent advances in unsupervised depth estimation from a single image, the achieved performance in the case of large texture-less areas needs to be improved. In this paper, we propose a network architecture that jointly performs geometric understanding (i.e., depth prediction and 3D plane estimation) and semantic prediction on a single food image, enabling a robust and accurate food volume estimation regardless of the texture characteristics of the target plane. For the training of the network, only monocular videos with semantic ground truth are required, while the depth map and 3D plane ground truth are no longer needed. Experimental results on two separate food image databases demonstrate that our method performs robustly on texture-less scenarios and is superior to unsupervised networks and structure from motion based approaches, while it achieves comparable performance to fully-supervised methods.
翻訳日:2022-11-10 06:22:43 公開日:2020-07-15
# Sinhala Language CorporaとSri Lankan Facebookの10年を振り返る

Sinhala Language Corpora and Stopwords from a Decade of Sri Lankan Facebook ( http://arxiv.org/abs/2007.07884v1 )

ライセンス: Link先を確認
Yudhanjaya Wijeratne, Nisansa de Silva(参考訳) 本稿では,LIRNEasiaのデータ・分析・政策チームの言語活動から得られた2つの言語コーパスと,アルゴリズムによって派生した停止語のリストを示す。 2つのコーパスのうち大きなものは2010年から2020年にかけて、政治、メディア、著名人、その他のカテゴリーを含む533のsri lankan facebookページが投稿した多言語テキストの28,825,820から29,549,672語を含む。 どちらのコーパスも、作成日、原産地ページ、コンテンツタイプを示すマーカーを持っている。

This paper presents two colloquial Sinhala language corpora from the language efforts of the Data, Analysis and Policy team of LIRNEasia, as well as a list of algorithmically derived stopwords. The larger of the two corpora spans 2010 to 2020 and contains 28,825,820 to 29,549,672 words of multilingual text posted by 533 Sri Lankan Facebook pages, including politics, media, celebrities, and other categories; the smaller corpus amounts to 5,402,76 words of only Sinhala text extracted from the larger. Both corpora have markers for their date of creation, page of origin, and content type.
翻訳日:2022-11-10 06:21:57 公開日:2020-07-15
# 製鉄業における多変量時系列リカレントモデル解釈可能性の注意機構

Attention Mechanism for Multivariate Time Series Recurrent Model Interpretability Applied to the Ironmaking Industry ( http://arxiv.org/abs/2007.12617v1 )

ライセンス: Link先を確認
Cedric Schockaert, Reinhard Leperlier, Assaad Moawad(参考訳) データ駆動型モデル解釈可能性(Data-driven model interpretability)は、製鉄業界における産業プロセスを制御するデータ駆動型モデルの予測に依存するプロセスエンジニアの受け入れを得るための要件である。 本稿では,高炉で発生する高温金属の温度に対する深層学習アーキテクチャを予測可能な多変量時系列モデルの開発に焦点をあてる。 注意機構とガイド付きバックプロパゲーションにより強化されたLong Short-Term Memory (LSTM) ベースのアーキテクチャを提案する。 その結果,高炉データに適用できる可能性が高く,内在的な高炉プロセスによって引き起こされる真の複素変数関係を正しく反映し,再帰型深層学習アーキテクチャと比較して予測誤差を低減できることがわかった。

Data-driven model interpretability is a requirement to gain the acceptance of process engineers to rely on the prediction of a data-driven model to regulate industrial processes in the ironmaking industry. In the research presented in this paper, we focus on the development of an interpretable multivariate time series forecasting deep learning architecture for the temperature of the hot metal produced by a blast furnace. A Long Short-Term Memory (LSTM) based architecture enhanced with attention mechanism and guided backpropagation is proposed to accommodate the prediction with a local temporal interpretability for each input. Results are showing high potential for this architecture applied to blast furnace data and providing interpretability correctly reflecting the true complex variables relations dictated by the inherent blast furnace process, and with reduced prediction error compared to a recurrent-based deep learning architecture.
翻訳日:2022-11-10 06:21:43 公開日:2020-07-15
# Rational ClosureによるRDFSのデフォルト化

Defeasible RDFS via Rational Closure ( http://arxiv.org/abs/2007.07573v1 )

ライセンス: Link先を確認
Giovanni Casini, Umberto Straccia(参考訳) 非単調論理の分野では、Rational Closure(RC)の概念が顕著なアプローチとして認められている。 近年、RCは、クラスや役割を主とするセマンティックWeb標準オントロジー言語OWL 2の基盤となるロジックである記述論理(DL)の文脈でさらに人気が高まっている。 本稿では,三重言語rdfsにrcを組み込む方法について述べる。owl2とともに,semantic web ontologyの2つの主要な標準言語である。 そのために、RDFSの背後にあるロジックである$\rho df$から始まり、それを$\rho df_\bot$に拡張します。 最終的に、典型的なRC構成によるデファシブル$\rho df_\bot$を提案する。 私たちのアプローチの主な特徴は (i)単調rdf上に余分な非単調規則層を追加する他のほとんどのアプローチとは異なり、defeasible $\rho df_\bot$は構文的には三重言語であり、特定の意味を持つ新しい述語記号を導入することで$\rho df_\bot$の単純な拡張である。 特に、RDFSの推論/ストアは、新しい述語記号の余分な意味を考慮したくない場合は、それらを通常の用語として扱うことができる。 (ii)defeasible $\rho df_\bot$ entailment 決定手続きは、$\rho df_\bot$ entailment 決定手順の上に構築されており、これは、潜在的な実装を支持するいくつかの追加の推論ルールを介して$\rho df$ の拡張である。 (iii) defeasible $\rho df_\bot$ entailment は多項式時間で決定できる。

In the field of non-monotonic logics, the notion of Rational Closure (RC) is acknowledged as a prominent approach. In recent years, RC has gained even more popularity in the context of Description Logics (DLs), the logic underpinning the semantic web standard ontology language OWL 2, whose main ingredients are classes and roles. In this work, we show how to integrate RC within the triple language RDFS, which together with OWL2 are the two major standard semantic web ontology languages. To do so, we start from $\rho df$, which is the logic behind RDFS, and then extend it to $\rho df_\bot$, allowing to state that two entities are incompatible. Eventually, we propose defeasible $\rho df_\bot$ via a typical RC construction. The main features of our approach are: (i) unlike most other approaches that add an extra non-monotone rule layer on top of monotone RDFS, defeasible $\rho df_\bot$ remains syntactically a triple language and is a simple extension of $\rho df_\bot$ by introducing some new predicate symbols with specific semantics. In particular, any RDFS reasoner/store may handle them as ordinary terms if it does not want to take account for the extra semantics of the new predicate symbols; (ii) the defeasible $\rho df_\bot$ entailment decision procedure is build on top of the $\rho df_\bot$ entailment decision procedure, which in turn is an extension of the one for $\rho df$ via some additional inference rules favouring an potential implementation; and (iii) defeasible $\rho df_\bot$ entailment can be decided in polynomial time.
翻訳日:2022-11-10 06:21:28 公開日:2020-07-15
# 偶発的思考の失敗

Failures of Contingent Thinking ( http://arxiv.org/abs/2007.07703v1 )

ライセンス: Link先を確認
Evan Piermont and Peio Zuazo-Garin(参考訳) 本稿では,実際に直面する意思決定問題を誤解・誤解するエージェントを分析・分析するための理論的枠組みを提案する。 本枠組みでは, 様々な利害関係の論理的関係を適切に考慮し, 意味を認識できないような, 実験的な環境下で観察される幅広い行動について考察する。 我々は,いくつかの論理的洗練度指標に対応する行動特性を提示し,エージェントが知覚できない要因を識別する方法を示す。 したがって,本フレームワークは,エージェントの随伴思考レベルを評価する方法論と,完全合理性がないという信念を識別するための戦略の両方を提供する。

In this paper, we provide a theoretical framework to analyze an agent who misinterprets or misperceives the true decision problem she faces. Within this framework, we show that a wide range of behavior observed in experimental settings manifest as failures to perceive implications, in other words, to properly account for the logical relationships between various payoff relevant contingencies. We present behavioral characterizations corresponding to several benchmarks of logical sophistication and show how it is possible to identify which implications the agent fails to perceive. Thus, our framework delivers both a methodology for assessing an agent's level of contingent thinking and a strategy for identifying her beliefs in the absence full rationality.
翻訳日:2022-11-10 06:20:54 公開日:2020-07-15
# SchNarcを用いた紫外吸収スペクトルの深層学習 : 化合物空間における透過性への第一歩

Deep Learning for UV Absorption Spectra with SchNarc: First Steps Towards Transferability in Chemical Compound Space ( http://arxiv.org/abs/2007.07684v1 )

ライセンス: Link先を確認
Julia Westermayr, Philipp Marquetand(参考訳) 機械学習(ml)は量子化学の研究分野をほぼあらゆる方向に前進させることを示しており、分子の多面光化学を研究するために最近励起状態に入った。 本稿では2つの目標を追求する。 i)電子基底状態の永久双極子モーメントベクトルのために当初提案された[chem. sci., 2017, 8, 6924-6935]の電荷モデルを適用することで,励起状態と遷移双極子モーメントに対する永久双極子モーメントのモデル化にmlをいかに利用できるかを示す。 二 化学空間における励起状態MLモデルの伝達可能性、すなわち、MLモデルがトレーニングしたことのない分子の性質を予測できるかどうか、二つの分子の異なる励起状態を同時に学習できるかどうかを考察する。 この目的のために、これまでに報告したSchNarcアプローチを励起状態MLに適用し、拡張する。 永久双極子モーメントベクトルのMLモデルを用いて、励起状態エネルギーと遷移双極子モーメントの紫外線吸収スペクトルと、潜在電荷の静電ポテンシャルを計算した。 我々は、ch$_2$nh$_2^+$とc$_2$h$_4$でmlモデルを訓練する一方で、これらの分子およびchnh$_2$、ch$_2$nh、c$_2$h$_5^+$について予測を行う。 その結果, 励起状態の移動性が示唆された。

Machine learning (ML) has shown to advance the research field of quantum chemistry in almost any possible direction and has recently also entered the excited states to investigate the multifaceted photochemistry of molecules. In this paper, we pursue two goals: i) We show how ML can be used to model permanent dipole moments for excited states and transition dipole moments by adapting the charge model of [Chem. Sci., 2017, 8, 6924-6935], which was originally proposed for the permanent dipole moment vector of the electronic ground state. ii) We investigate the transferability of our excited-state ML models in chemical space, i.e., whether an ML model can predict properties of molecules that it has never been trained on and whether it can learn the different excited states of two molecules simultaneously. To this aim, we employ and extend our previously reported SchNarc approach for excited-state ML. We calculate UV absorption spectra from excited-state energies and transition dipole moments as well as electrostatic potentials from latent charges inferred by the ML model of the permanent dipole moment vectors. We train our ML models on CH$_2$NH$_2^+$ and C$_2$H$_4$, while predictions are carried out for these molecules and additionally for CHNH$_2$, CH$_2$NH, and C$_2$H$_5^+$. The results indicate that transferability is possible for the excited states.
翻訳日:2022-11-10 06:20:41 公開日:2020-07-15
# 3次元点雲から部分境界を学ぶ

Learning Part Boundaries from 3D Point Clouds ( http://arxiv.org/abs/2007.07563v1 )

ライセンス: Link先を確認
Marios Loizou, Melinos Averkiou, Evangelos Kalogerakis(参考訳) 点雲として表される3次元形状の部品の境界を検出する手法を提案する。 本手法は,2つ以上の部分を3次元形状に分離した領域に存在する点の確率を出力するグラフ畳み込みネットワークアーキテクチャに基づいている。 我々の境界検出器は非常に汎用的であり、セマンティック部分や幾何学的プリミティブの境界を3Dモデリングでよく使われるように訓練することができる。 実験により,本手法は代替法と比較して,より正確な境界を抽出できることを実証した。 また,細粒度セマンティックな形状のセグメンテーションへのネットワークの適用を実演し,パートラベリング性能の向上を示す。

We present a method that detects boundaries of parts in 3D shapes represented as point clouds. Our method is based on a graph convolutional network architecture that outputs a probability for a point to lie in an area that separates two or more parts in a 3D shape. Our boundary detector is quite generic: it can be trained to localize boundaries of semantic parts or geometric primitives commonly used in 3D modeling. Our experiments demonstrate that our method can extract more accurate boundaries that are closer to ground-truth ones compared to alternatives. We also demonstrate an application of our network to fine-grained semantic shape segmentation, where we also show improvements in terms of part labeling performance.
翻訳日:2022-11-10 06:19:38 公開日:2020-07-15
# データ強化, 声帯損失, アンサンブルを用いた画像分類のためのデータ効率のよい深層学習法

Data-Efficient Deep Learning Method for Image Classification Using Data Augmentation, Focal Cosine Loss, and Ensemble ( http://arxiv.org/abs/2007.07805v1 )

ライセンス: Link先を確認
Byeongjo Kim, Chanran Kim, Jaehoon Lee, Jein Song, Gyoungsoo Park(参考訳) 一般に、ディープラーニングモデルの性能と一般化に十分なデータが不可欠である。 しかし、データ収集の多くの制限(コスト、リソースなど)は、ほとんどの領域で十分なデータ不足をもたらします。 さらに、各データソースとライセンスのさまざまなドメインも、十分なデータの収集を困難にしている。 この状況は、事前訓練されたモデルだけでなく、外部の知識も利用しにくくなります。 したがって、より優れたパフォーマンスを達成するために、小さなデータセットを効果的に活用することが重要です。 データ,損失関数,予測という3つの側面から,少ないデータでスクラッチからトレーニングを可能にする手法を適用した。 これらの手法により,1クラスあたり50画像のみからなるimagenetデータを活用することで,高い精度が得られる。 さらに,データ効率の良いコンピュータビジョンチャレンジでは,視覚インダクティブプリンタでは4位である。

In general, sufficient data is essential for the better performance and generalization of deep-learning models. However, lots of limitations(cost, resources, etc.) of data collection leads to lack of enough data in most of the areas. In addition, various domains of each data sources and licenses also lead to difficulties in collection of sufficient data. This situation makes us hard to utilize not only the pre-trained model, but also the external knowledge. Therefore, it is important to leverage small dataset effectively for achieving the better performance. We applied some techniques in three aspects: data, loss function, and prediction to enable training from scratch with less data. With these methods, we obtain high accuracy by leveraging ImageNet data which consist of only 50 images per class. Furthermore, our model is ranked 4th in Visual Inductive Printers for Data-Effective Computer Vision Challenge.
翻訳日:2022-11-10 06:13:15 公開日:2020-07-15
# 変換一貫性の規則化-画像から画像への変換のための半監督パラダイム

Transformation Consistency Regularization- A Semi-Supervised Paradigm for Image-to-Image Translation ( http://arxiv.org/abs/2007.07867v1 )

ライセンス: Link先を確認
Aamir Mustafa and Rafal K. Mantiuk(参考訳) ラベル付きデータの不足は、ラベル付きデータの大部分がラベル付きサンプルとともに学習される半教師付き学習手法の開発を動機付けた。 異なる入力摂動下でのモデルの予測間の一貫性の規則化は、特に半教師付きフレームワークにおける最先端の成果を提供することを示した。 しかし、これらの手法のほとんどは分類と分割の応用に限られている。 半教師付きアルゴリズムで探索されていない画像と画像の変換を,より困難に設定した変換一貫性規則化を提案する。 この方法は幾何変換の多種多様な集合を導入し、これらの変換に不変なラベルのないデータに対するモデルの予測を強制する。 我々は,画像の着色,分解,超解像の3つの異なる応用に対して,アルゴリズムの有効性を評価する。 提案手法はデータ効率が著しく向上し,画像再構成を行うにはラベル付きサンプルの約10~20%しか必要としない。 さらに,映像処理アプリケーションにおいて,映像の他の部分の品質向上のために,いくつかのフレームからの知識を活用できる手法の有効性を示す。

Scarcity of labeled data has motivated the development of semi-supervised learning methods, which learn from large portions of unlabeled data alongside a few labeled samples. Consistency Regularization between model's predictions under different input perturbations, particularly has shown to provide state-of-the art results in a semi-supervised framework. However, most of these method have been limited to classification and segmentation applications. We propose Transformation Consistency Regularization, which delves into a more challenging setting of image-to-image translation, which remains unexplored by semi-supervised algorithms. The method introduces a diverse set of geometric transformations and enforces the model's predictions for unlabeled data to be invariant to those transformations. We evaluate the efficacy of our algorithm on three different applications: image colorization, denoising and super-resolution. Our method is significantly data efficient, requiring only around 10 - 20% of labeled samples to achieve similar image reconstructions to its fully-supervised counterpart. Furthermore, we show the effectiveness of our method in video processing applications, where knowledge from a few frames can be leveraged to enhance the quality of the rest of the movie.
翻訳日:2022-11-10 06:13:04 公開日:2020-07-15
# オブジェクト検出のためのboxに深く潜り込む

Dive Deeper Into Box for Object Detection ( http://arxiv.org/abs/2007.14350v1 )

ライセンス: Link先を確認
Ran Chen, Yong Liu, Mengdan Zhang, Shu Liu, Bei Yu, and Yu-Wing Tai(参考訳) アンカーフリーメソッドは最先端のオブジェクト検出研究の新しいフロンティアを定義しており、正確なバウンディングボックス推定がこれらの手法の成功の鍵となっている。 しかし、バウンディングボックスの信頼性スコアが最も高いとしても、ローカライゼーションでは完璧には程遠い。 そこで本研究では,より正確な位置推定を行うために,ボックス内を深く掘り下げることができるボックス再構成手法(DDBNet)を提案する。 最初のステップでは、これらのボックスのコンテンツがターゲットセマンティクスと矛盾するため、ドリフトボックスをフィルタリングする。 次に、選択されたボックスを境界に分割し、適切に整列されたバウンダリを検索し、より正確にインスタンスを締め付けるための、ある種の最適なボックスにグループ化する。 実験の結果,提案手法はオブジェクト検出に最先端の性能をもたらす有効性が示された。

Anchor free methods have defined the new frontier in state-of-the-art object detection researches where accurate bounding box estimation is the key to the success of these methods. However, even the bounding box has the highest confidence score, it is still far from perfect at localization. To this end, we propose a box reorganization method(DDBNet), which can dive deeper into the box for more accurate localization. At the first step, drifted boxes are filtered out because the contents in these boxes are inconsistent with target semantics. Next, the selected boxes are broken into boundaries, and the well-aligned boundaries are searched and grouped into a sort of optimal boxes toward tightening instances more precisely. Experimental results show that our method is effective which leads to state-of-the-art performance for object detection.
翻訳日:2022-11-10 06:11:00 公開日:2020-07-15
# ファウショット学習のための拡張バイパスネットワーク

Augmented Bi-path Network for Few-shot Learning ( http://arxiv.org/abs/2007.07614v1 )

ライセンス: Link先を確認
Baoming Yan, Chen Zhou, Bo Zhao, Kan Guo, Jiang Yang, Xiaobo Li, Ming Zhang, Yizhou Wang(参考訳) ラベル付きトレーニングデータから学ぶことを目的としたFew-shot Learning (FSL)は、多くの現実世界アプリケーションにおいて高価なラベル付けコストのため、人気のある研究トピックになりつつある。 ひとつの成功例は、2つの画像の特徴を単純に結合してニューラルネットワークに入力することで、テスト(クエリ)イメージとトレーニング(サポート)イメージを比較することだ。 しかし、各クラスにラベル付きデータが少ないため、ニューラルネットワークは2つの画像の局所的な特徴を学習または比較することが困難である。 このような単純な画像レベルの比較は重大な誤分類を引き起こす可能性がある。 この問題を解決するために,マルチスケールでグローバル機能とローカル機能を比較するためのAugmented Bi-path Network (ABNet)を提案する。 具体的には、saientパッチを抽出して、各画像のローカルな特徴として埋め込む。 そして、モデルが機能を強化し、堅牢性を向上させることを学ぶ。 最後に、モデルは、類似性をマージする前に、グローバル特徴とローカル特徴、すなわち2つの経路で別々に比較することを学ぶ。 広範な実験により、abnetは最先端の手法よりも優れていることが示された。 定量的および視覚的アブレーション研究は、提案したモジュールがより正確な比較結果をもたらすことを示すために提供される。

Few-shot Learning (FSL) which aims to learn from few labeled training data is becoming a popular research topic, due to the expensive labeling cost in many real-world applications. One kind of successful FSL method learns to compare the testing (query) image and training (support) image by simply concatenating the features of two images and feeding it into the neural network. However, with few labeled data in each class, the neural network has difficulty in learning or comparing the local features of two images. Such simple image-level comparison may cause serious mis-classification. To solve this problem, we propose Augmented Bi-path Network (ABNet) for learning to compare both global and local features on multi-scales. Specifically, the salient patches are extracted and embedded as the local features for every image. Then, the model learns to augment the features for better robustness. Finally, the model learns to compare global and local features separately, i.e., in two paths, before merging the similarities. Extensive experiments show that the proposed ABNet outperforms the state-of-the-art methods. Both quantitative and visual ablation studies are provided to verify that the proposed modules lead to more precise comparison results.
翻訳日:2022-11-10 06:04:43 公開日:2020-07-15
# 行動認識のための時間固有表現学習

Temporal Distinct Representation Learning for Action Recognition ( http://arxiv.org/abs/2007.07626v1 )

ライセンス: Link先を確認
Junwu Weng and Donghao Luo and Yabiao Wang and Ying Tai and Chengjie Wang and Jilin Li and Feiyue Huang and Xudong Jiang and Junsong Yuan(参考訳) 画像認識における2次元畳み込みニューラルネットワーク(2D CNN)の成功に触発されて、研究者たちはビデオのキャラクタリゼーションに利用しようと努力した。 しかし、ビデオ解析に2D CNNを適用することの1つの制限は、ビデオの異なるフレームが同じ2D CNNカーネルを共有することである。 本稿では,この問題を2つの方法で解決しようとする。 1) プログレッシブ・エンハンスメント・モジュール(PEM)と呼ばれるシーケンシャルチャネルフィルタリング機構を設計し, 異なるフレームからの特徴の識別チャネルを段階的に励起し, 繰り返し情報抽出を回避する。 2) 時間的多様性損失(TD損失)を作成し, カーネルに類似した画像領域ではなく, フレーム間の変動を集中させ, 捉えさせる。 本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。 さらに、大規模なデータセット上の2D-CNNベースの最先端のKineeticsのパフォーマンスも改善されている。

Motivated by the previous success of Two-Dimensional Convolutional Neural Network (2D CNN) on image recognition, researchers endeavor to leverage it to characterize videos. However, one limitation of applying 2D CNN to analyze videos is that different frames of a video share the same 2D CNN kernels, which may result in repeated and redundant information utilization, especially in the spatial semantics extraction process, hence neglecting the critical variations among frames. In this paper, we attempt to tackle this issue through two ways. 1) Design a sequential channel filtering mechanism, i.e., Progressive Enhancement Module (PEM), to excite the discriminative channels of features from different frames step by step, and thus avoid repeated information extraction. 2) Create a Temporal Diversity Loss (TD Loss) to force the kernels to concentrate on and capture the variations among frames rather than the image regions with similar appearance. Our method is evaluated on benchmark temporal reasoning datasets Something-Something V1 and V2, and it achieves visible improvements over the best competitor by 2.4% and 1.3%, respectively. Besides, performance improvements over the 2D-CNN-based state-of-the-arts on the large-scale dataset Kinetics are also witnessed.
翻訳日:2022-11-10 06:04:25 公開日:2020-07-15
# ドメイン一般化のための変分情報ボトルネックによる学習

Learning to Learn with Variational Information Bottleneck for Domain Generalization ( http://arxiv.org/abs/2007.07645v1 )

ライセンス: Link先を確認
Yingjun Du, Jun Xu, Huan Xiong, Qiang Qiu, Xiantong Zhen, Cees G. M. Snoek, Ling Shao(参考訳) ドメイン一般化モデルは、これまで見つからなかった領域に一般化することを学ぶが、予測の不確実性とドメインシフトに悩まされる。 本稿では,両問題に対処する。 ドメイン一般化のための確率論的メタラーニングモデルを導入し、ドメイン間で共有される分類器パラメータを分布としてモデル化する。 これにより、未知の領域における予測の不確実性をよりうまく処理できる。 ドメインシフトに対処するため、メタ変動情報ボトルネックという提案原則を用いてドメイン不変表現を学び、メタVIBと呼ぶ。 MetaVIBは、ドメイン一般化のメタラーニング設定を活用することによって、相互情報の新たなバリエーション境界から派生する。 エピソードトレーニングを通じて、MetaVIBはドメインギャップを徐々に狭め、ドメイン不変表現を確立し、同時に予測精度を最大化する。 クロスドメイン視覚認識のための3つのベンチマーク実験を行った。 包括的アブレーション研究は、メタVIBのドメイン一般化の利点を検証する。 比較の結果,本手法は従来手法に匹敵する効果を示した。

Domain generalization models learn to generalize to previously unseen domains, but suffer from prediction uncertainty and domain shift. In this paper, we address both problems. We introduce a probabilistic meta-learning model for domain generalization, in which classifier parameters shared across domains are modeled as distributions. This enables better handling of prediction uncertainty on unseen domains. To deal with domain shift, we learn domain-invariant representations by the proposed principle of meta variational information bottleneck, we call MetaVIB. MetaVIB is derived from novel variational bounds of mutual information, by leveraging the meta-learning setting of domain generalization. Through episodic training, MetaVIB learns to gradually narrow domain gaps to establish domain-invariant representations, while simultaneously maximizing prediction accuracy. We conduct experiments on three benchmarks for cross-domain visual recognition. Comprehensive ablation studies validate the benefits of MetaVIB for domain generalization. The comparison results demonstrate our method outperforms previous approaches consistently.
翻訳日:2022-11-10 06:04:02 公開日:2020-07-15
# 欠陥検出のための2段階ニューラルネットワークのエンドツーエンドトレーニング

End-to-end training of a two-stage neural network for defect detection ( http://arxiv.org/abs/2007.07676v1 )

ライセンス: Link先を確認
Jakob Bo\v{z}i\v{c}, Domen Tabernik and Danijel Sko\v{c}aj(参考訳) セグメンテーションに基づく2段階のニューラルネットワークは、表面欠陥検出に優れた結果を示し、比較的少数のサンプルからネットワークを学ぶことができる。 本研究では,2段階ネットワークのエンドツーエンドトレーニングと,トレーニングプロセスへのいくつかの拡張を導入し,トレーニング時間を短縮し,表面欠陥検出タスクにおける結果を改善する。 エンドツーエンドのトレーニングを可能にするために、学習を通じてセグメンテーションと分類損失の両方の貢献を慎重にバランスさせます。 我々は,不安定な特徴が学習を損なうのを防ぐために,分類からセグメンテーションネットワークへの勾配流を調整する。 学習のさらなる拡張として,画像のオーバーサンプリングやアンダーサンプリングの問題に対処するために,負サンプルの頻度・オブ・ユースサンプリングスキームを提案する。一方,領域ベースのセグメンテーションマスクにおける距離変換アルゴリズムを正画素の重みとして採用し,詳細な注釈を必要とせず,欠陥の存在確率の高い領域を重要視する。 DAGM, KolektorSDD, Severstal Steel欠陥データセットという3つの欠陥検出データセットに対して, エンドツーエンドのトレーニングスキームと, 提案した拡張性能を示す。 DAGMとKolektorSDDでは100\%の検出率を示し、したがってデータセットを完全に解決する。 3つのデータセットで行った追加のアブレーション研究は、提案した拡張のそれぞれに対する全体的な改善への貢献を定量的に示す。

Segmentation-based, two-stage neural network has shown excellent results in the surface defect detection, enabling the network to learn from a relatively small number of samples. In this work, we introduce end-to-end training of the two-stage network together with several extensions to the training process, which reduce the amount of training time and improve the results on the surface defect detection tasks. To enable end-to-end training we carefully balance the contributions of both the segmentation and the classification loss throughout the learning. We adjust the gradient flow from the classification into the segmentation network in order to prevent the unstable features from corrupting the learning. As an additional extension to the learning, we propose frequency-of-use sampling scheme of negative samples to address the issue of over- and under-sampling of images during the training, while we employ the distance transform algorithm on the region-based segmentation masks as weights for positive pixels, giving greater importance to areas with higher probability of presence of defect without requiring a detailed annotation. We demonstrate the performance of the end-to-end training scheme and the proposed extensions on three defect detection datasets - DAGM, KolektorSDD and Severstal Steel defect dataset - where we show state-of-the-art results. On the DAGM and the KolektorSDD we demonstrate 100\% detection rate, therefore completely solving the datasets. Additional ablation study performed on all three datasets quantitatively demonstrates the contribution to the overall result improvements for each of the proposed extensions.
翻訳日:2022-11-10 06:03:47 公開日:2020-07-15
# P$^{2}$Net: 教師なし屋内深度推定のためのパッチマッチと平面正規化

P$^{2}$Net: Patch-match and Plane-regularization for Unsupervised Indoor Depth Estimation ( http://arxiv.org/abs/2007.07696v1 )

ライセンス: Link先を確認
Zehao Yu, Lei Jin, and Shenghua Gao(参考訳) 本稿では屋内環境における教師なし深度推定課題に取り組む。 これらのシーンでは、非テクスチャ領域が広大なため、この作業は非常に難しい。 これらの領域は、屋外環境向けに提案された非教師なし深度推定フレームワークにおいて最適化プロセスに圧倒される可能性がある。 しかし、これらの領域が隠されている場合でも、その性能は満足できない。 本稿では,性能の低下は非差別的ポイントベースマッチングに苦しむと主張する。 この目的のために、P$^2$Netを提案する。 まず,局所勾配が大きい点を抽出し,各点を中心とするパッチを表現として採用する。 マルチビュー一貫性損失はパッチ上で定義される。 この操作はネットワークトレーニングの堅牢性を大幅に向上させる。 また, 室内シーンのテクスチャレス領域(壁, 床, 屋根, \etcなど)は, 通常は平面領域に対応するため, 先行した平面としてスーパーピクセルを活用することを提案する。 予測深度を各スーパーピクセル内の平面によく適合するように強制する。 NYUv2とScanNetの大規模な実験は、我々のP$^2$Netが既存のアプローチよりも大きなマージンで優れていることを示している。 コードは \url{https://github.com/svip-lab/indoor-sfmlearner} で入手できる。

This paper tackles the unsupervised depth estimation task in indoor environments. The task is extremely challenging because of the vast areas of non-texture regions in these scenes. These areas could overwhelm the optimization process in the commonly used unsupervised depth estimation framework proposed for outdoor environments. However, even when those regions are masked out, the performance is still unsatisfactory. In this paper, we argue that the poor performance suffers from the non-discriminative point-based matching. To this end, we propose P$^2$Net. We first extract points with large local gradients and adopt patches centered at each point as its representation. Multiview consistency loss is then defined over patches. This operation significantly improves the robustness of the network training. Furthermore, because those textureless regions in indoor scenes (e.g., wall, floor, roof, \etc) usually correspond to planar regions, we propose to leverage superpixels as a plane prior. We enforce the predicted depth to be well fitted by a plane within each superpixel. Extensive experiments on NYUv2 and ScanNet show that our P$^2$Net outperforms existing approaches by a large margin. Code is available at \url{https://github.com/svip-lab/Indoor-SfMLearner}.
翻訳日:2022-11-10 06:03:06 公開日:2020-07-15
# pvsnet: ピクセルワイズ可視性を考慮したマルチビューステレオネットワーク

PVSNet: Pixelwise Visibility-Aware Multi-View Stereo Network ( http://arxiv.org/abs/2007.07714v1 )

ライセンス: Link先を確認
Qingshan Xu and Wenbing Tao(参考訳) 近年,学習に基づく多視点ステレオ手法が有望な成果を上げている。 しかし、それぞれ異なるビュー間の可視性の違いを見落としており、それは無差別なマルチビュー類似性定義をもたらし、強い視点変化を持つデータセット上でのパフォーマンスを大幅に制限する。 本稿では,高密度3次元再構成のために,Pixelwise Visibility-aware multi-view Stereo Network (PVSNet)を提案する。 我々は、多視点類似性を計算する前に、隣接する様々な画像の可視性情報を学ぶための画素ワイズ可視ネットワークを提案し、その可視性情報を用いた適応重み付きコストボリュームを構築する。 さらに,モデルトレーニング中に不規則な視点を導入するアンチノイズトレーニング戦略を提案し,非関連ビューに対するピクセルワイズ視認性ネットワークの識別性を高めた。 私たちの知る限りでは、PVSNetは、近隣のさまざまなビューの可視性情報をキャプチャできる最初のディープラーニングフレームワークです。 このようにして、我々の手法は異なる種類のデータセット、特に強い視点変化を持つETH3Dハイレゾベンチマークによく当てはまる。 大規模な実験により、PVSNetは異なるデータセット上で最先端のパフォーマンスを達成することが示された。

Recently, learning-based multi-view stereo methods have achieved promising results. However, they all overlook the visibility difference among different views, which leads to an indiscriminate multi-view similarity definition and greatly limits their performance on datasets with strong viewpoint variations. In this paper, a Pixelwise Visibility-aware multi-view Stereo Network (PVSNet) is proposed for robust dense 3D reconstruction. We present a pixelwise visibility network to learn the visibility information for different neighboring images before computing the multi-view similarity, and then construct an adaptive weighted cost volume with the visibility information. Moreover, we present an anti-noise training strategy that introduces disturbing views during model training to make the pixelwise visibility network more distinguishable to unrelated views, which is different with the existing learning methods that only use two best neighboring views for training. To the best of our knowledge, PVSNet is the first deep learning framework that is able to capture the visibility information of different neighboring views. In this way, our method can be generalized well to different types of datasets, especially the ETH3D high-res benchmark with strong viewpoint variations. Extensive experiments show that PVSNet achieves the state-of-the-art performance on different datasets.
翻訳日:2022-11-10 06:02:47 公開日:2020-07-15
# ContourRend: レンダリングによる輪郭改善のためのセグメンテーション手法

ContourRend: A Segmentation Method for Improving Contours by Rendering ( http://arxiv.org/abs/2007.07437v1 )

ライセンス: Link先を確認
Junwen Chen, Yi Lu, Yaran Chen, Dongbin Zhao, and Zhonghua Pang(参考訳) 良いオブジェクトセグメンテーションは明確な輪郭と完全な領域を含むべきである。 しかし、マスクベースのセグメンテーションは粗い予測格子上の輪郭特徴をうまく扱えないため、ぼやけたエッジの問題を引き起こす。 輪郭ベースのセグメンテーションは輪郭を直接提供するが、輪郭の詳細を見逃す。 細かな輪郭を得るために,輪郭レンダラーを用いて分節輪郭を洗練させるContourRendというセグメンテーション手法を提案する。 また,本手法をグラフ畳み込みネットワーク(gcn)に基づくセグメンテーションモデルに実装する。 都市景観データセット上の単一オブジェクトセグメンテーションタスクでは、GCNベースのセグメンテーションコントラルが単一のオブジェクトの輪郭を生成するために使用され、輪郭レンダラーは輪郭周辺のピクセルに焦点を合わせ、そのカテゴリを高解像度で予測する。 輪郭結果のレンダリングにより, 平均和和(IoU)が72.41%に達し, ベースラインのポリゴンGCNを1.22%超えた。

A good object segmentation should contain clear contours and complete regions. However, mask-based segmentation can not handle contour features well on a coarse prediction grid, thus causing problems of blurry edges. While contour-based segmentation provides contours directly, but misses contours' details. In order to obtain fine contours, we propose a segmentation method named ContourRend which adopts a contour renderer to refine segmentation contours. And we implement our method on a segmentation model based on graph convolutional network (GCN). For the single object segmentation task on cityscapes dataset, the GCN-based segmentation con-tour is used to generate a contour of a single object, then our contour renderer focuses on the pixels around the contour and predicts the category at high resolution. By rendering the contour result, our method reaches 72.41% mean intersection over union (IoU) and surpasses baseline Polygon-GCN by 1.22%.
翻訳日:2022-11-10 05:56:26 公開日:2020-07-15
# 教師学習型GANモデルに基づくRGB-IRクロスモダリティ人物ReID

RGB-IR Cross-modality Person ReID based on Teacher-Student GAN Model ( http://arxiv.org/abs/2007.07452v1 )

ライセンス: Link先を確認
Ziyue Zhang, Shuai Jiang, Congzhentao Huang, Yang Li and Richard Yi Da Xu(参考訳) RGB-赤外線(RGB-IR)パーソナライゼーション(ReID)とは、光が利用できないときにビデオの異なる部分に現れる同一人物を自動的に識別する技術である。 この課題の重要な課題は、異なるモダリティ下の特徴の相互モダリティギャップである。 この課題を解決するために、我々は異なるドメインを採用し、ReIDバックボーンをガイドし、より良いReID情報を学ぶためのTeacher-Student GANモデル(TS-GAN)を提案した。 1)対応するRGB-IR画像ペアを得るために,RGB-IR生成適応ネットワーク(GAN)を用いてIR画像を生成する。 2) アイデンティティのトレーニングを開始するために, IRモダリティ人物画像に基づいてReID 教師モジュールを訓練し, 学生のトレーニング指導に利用した。 (3) 同様に, 異なる領域の特徴に適応し, モデルReID性能を向上させるために, 教師・学生損失関数を3つ使用した。 他のGANベースモデルとは異なり、提案されたモデルはテスト段階ではバックボーンモジュールのみを必要とするため、より効率的でリソースを節約できる。 モデルの性能を示すため、新たにリリースされたSYSU-MM01 RGB-IR Re-IDベンチマークで広範な実験を行い、49.8%のRan-1と47.4%のmAPで最先端の性能を達成した。

RGB-Infrared (RGB-IR) person re-identification (ReID) is a technology where the system can automatically identify the same person appearing at different parts of a video when light is unavailable. The critical challenge of this task is the cross-modality gap of features under different modalities. To solve this challenge, we proposed a Teacher-Student GAN model (TS-GAN) to adopt different domains and guide the ReID backbone to learn better ReID information. (1) In order to get corresponding RGB-IR image pairs, the RGB-IR Generative Adversarial Network (GAN) was used to generate IR images. (2) To kick-start the training of identities, a ReID Teacher module was trained under IR modality person images, which is then used to guide its Student counterpart in training. (3) Likewise, to better adapt different domain features and enhance model ReID performance, three Teacher-Student loss functions were used. Unlike other GAN based models, the proposed model only needs the backbone module at the test stage, making it more efficient and resource-saving. To showcase our model's capability, we did extensive experiments on the newly-released SYSU-MM01 RGB-IR Re-ID benchmark and achieved superior performance to the state-of-the-art with 49.8% Rank-1 and 47.4% mAP.
翻訳日:2022-11-10 05:56:08 公開日:2020-07-15
# カオスマップを用いた局所像の再構成 : テクスチャ認識への応用

Reorganizing local image features with chaotic maps: an application to texture recognition ( http://arxiv.org/abs/2007.07456v1 )

ライセンス: Link先を確認
Joao Florindo(参考訳) テクスチャ認識における畳み込みニューラルネットワークの成功にもかかわらず、特にトレーニングのために大量の注釈付きデータにアクセスできず、モデルの解釈が重要な問題である場合、モデルベースの記述子は依然として競争力がある。 モデルに基づくアプローチの中で、フラクタル幾何は特に生物学的応用において最も人気のあるものの一つである。 それでもフラクタルは、カオス理論で研究されている非線形作用素である、より広範なモデル群の一部である。 本稿では,テクスチャ認識のためのカオスに基づく局所記述子を提案する。 より具体的には、像を3次元ユークリッド空間にマッピングし、この3次元構造上のカオス写像を反復し、元の像に戻す。 このようなカオス変換画像から各イテレーションでローカルディスクリプタ(ここではローカルバイナリパッターを使用します)を収集し、それらのディスクリプタがテクスチャの特徴表現を構成します。 本手法の性能は, ベンチマークデータベースの分類と, 葉面のテクスチャに基づくブラジルの植物種の同定によって検証された。 その結果,文学における学習に基づく現代的アプローチと比較しても,競争的パフォーマンスへの期待が示された。

Despite the recent success of convolutional neural networks in texture recognition, model-based descriptors are still competitive, especially when we do not have access to large amounts of annotated data for training and the interpretation of the model is an important issue. Among the model-based approaches, fractal geometry has been one of the most popular, especially in biological applications. Nevertheless, fractals are part of a much broader family of models, which are the non-linear operators, studied in chaos theory. In this context, we propose here a chaos-based local descriptor for texture recognition. More specifically, we map the image into the three-dimensional Euclidean space, iterate a chaotic map over this three-dimensional structure and convert it back to the original image. From such chaos-transformed image at each iteration we collect local descriptors (here we use local binary patters) and those descriptors compose the feature representation of the texture. The performance of our method was verified on the classification of benchmark databases and in the identification of Brazilian plant species based on the texture of the leaf surface. The achieved results confirmed our expectation of a competitive performance, even when compared with some learning-based modern approaches in the literature.
翻訳日:2022-11-10 05:55:30 公開日:2020-07-15
# テクスチャ認識のための局所パターンへのセルオートマトンアプローチ

A cellular automata approach to local patterns for texture recognition ( http://arxiv.org/abs/2007.07462v1 )

ライセンス: Link先を確認
Joao Florindo, Konradin Metze(参考訳) テクスチャ認識はコンピュータビジョンにおいて最も重要なタスクの1つであり、最近の学習ベースのアプローチの成功にもかかわらず、モデルベースのソリューションが必要である。 これは特に、トレーニングで利用できるデータの量が十分に大きくない場合、いくつかの適用領域でよくある状況、あるいは計算資源が限られている場合である。 本稿では, セルオートマトンによる複雑な物体の表現力と, テクスチャ解析における局所記述子の既知の有効性を組み合わせたテクスチャ記述子の手法を提案する。 この方法は、ローカルバイナリ記述子にインスパイアされたオートマトンの新しい遷移関数を定式化する。 これは各セルの新しい状態と以前の状態とを両立させ、「決定論的カオスを制御する」という概念を導入する。 ディスクリプタは、細胞状態の分布から得られる。 提案する記述子は,葉面のテクスチャに基づいて植物種を識別する,ベンチマークデータセットと実世界の問題の両方に基づいてテクスチャ画像の分類に適用する。 提案手法は他の古典的・最先端的アプローチ,特に実世界の問題よりも優れており,テクスチャ認識を含む多くの実践的タスクに応用できる可能性を明らかにした。

Texture recognition is one of the most important tasks in computer vision and, despite the recent success of learning-based approaches, there is still need for model-based solutions. This is especially the case when the amount of data available for training is not sufficiently large, a common situation in several applied areas, or when computational resources are limited. In this context, here we propose a method for texture descriptors that combines the representation power of complex objects by cellular automata with the known effectiveness of local descriptors in texture analysis. The method formulates a new transition function for the automaton inspired on local binary descriptors. It counterbalances the new state of each cell with the previous state, in this way introducing an idea of "controlled deterministic chaos". The descriptors are obtained from the distribution of cell states. The proposed descriptors are applied to the classification of texture images both on benchmark data sets and a real-world problem, i.e., that of identifying plant species based on the texture of their leaf surfaces. Our proposal outperforms other classical and state-of-the-art approaches, especially in the real-world problem, thus revealing its potential to be applied in numerous practical tasks involving texture recognition at some stage.
翻訳日:2022-11-10 05:54:56 公開日:2020-07-15
# 比較による視覚コンテキストの学習

Learning Visual Context by Comparison ( http://arxiv.org/abs/2007.07506v1 )

ライセンス: Link先を確認
Minchul Kim, Jongchan Park, Seil Na, Chang Min Park, Donggeun Yoo(参考訳) X線画像から病気を見つけることは重要であるが、非常に難しい課題である。 この問題を解決する現在の方法は胸部x線画像の様々な特徴を活用しているが、最も重要な特徴の1つは、画像内の関連領域の比較の必要性である。 本稿では、関心対象とそれに対応するコンテキストの差を捉えるためのACM(Attend-and-Compare Module)を提案する。 遠方位置の直接比較を必要とするタスクにおいて,明示的な差分モデリングが有用であることを示す。 このモジュールは既存のディープラーニングモデルにプラグインできる。 評価のために,我々のモジュールを胸部X線認識タスクとCOCOオブジェクト検出・セグメンテーションタスクに適用し,タスク間の一貫した改善を観察する。 コードはhttps://github.com/mk-minchul/attend-and-compareで入手できる。

Finding diseases from an X-ray image is an important yet highly challenging task. Current methods for solving this task exploit various characteristics of the chest X-ray image, but one of the most important characteristics is still missing: the necessity of comparison between related regions in an image. In this paper, we present Attend-and-Compare Module (ACM) for capturing the difference between an object of interest and its corresponding context. We show that explicit difference modeling can be very helpful in tasks that require direct comparison between locations from afar. This module can be plugged into existing deep learning models. For evaluation, we apply our module to three chest X-ray recognition tasks and COCO object detection & segmentation tasks and observe consistent improvements across tasks. The code is available at https://github.com/mk-minchul/attend-and-compare.
翻訳日:2022-11-10 05:54:27 公開日:2020-07-15
# 効率的な画像超解像のための特権情報を用いた学習

Learning with Privileged Information for Efficient Image Super-Resolution ( http://arxiv.org/abs/2007.07524v1 )

ライセンス: Link先を確認
Wonkyung Lee, Junghyup Lee, Dohyung Kim, Bumsub Ham(参考訳) 畳み込みニューラルネットワーク(cnns)は、過去10年間でシングルイメージ・スーパーレゾリューション(sisr)の著しい進歩をもたらした。 cnnに基づくほとんどのsrメソッドは、従来のアプローチよりも、psnrやssimといった品質指標によるパフォーマンス向上に重点を置いている。 それらは通常、大量のメモリと計算ユニットを必要とする。 FSRCNNは、少数の畳み込み層で構成されており、非常に少数のネットワークパラメータを使用しながら、有望な結果を示している。 本稿では,FSRCNNの性能を大幅に向上させる,教員ネットワークと学生ネットワークからなる新しい蒸留フレームワークについて紹介する。 そこで本研究では,高分解能画像(HR)を特権情報として用いることを提案する。 教師のエンコーダは、模倣損失を用いて、hr画像のサブサンプリングによる劣化過程を学習する。 FSRCNNと同じネットワークアーキテクチャを持つ教師の生徒とデコーダは、HR画像の再構築を試みる。 生徒が学べる手頃な価格のデコーダの中間機能は、特徴蒸留を通じて学生に移管される。 標準ベンチマークによる実験結果から,FSRCNNと他のSR手法の性能を大幅に向上させるフレームワークの有効性と一般化能力が示された。 私たちのコードとモデルはオンラインで利用可能です。

Convolutional neural networks (CNNs) have allowed remarkable advances in single image super-resolution (SISR) over the last decade. Most SR methods based on CNNs have focused on achieving performance gains in terms of quality metrics, such as PSNR and SSIM, over classical approaches. They typically require a large amount of memory and computational units. FSRCNN, consisting of few numbers of convolutional layers, has shown promising results, while using an extremely small number of network parameters. We introduce in this paper a novel distillation framework, consisting of teacher and student networks, that allows to boost the performance of FSRCNN drastically. To this end, we propose to use ground-truth high-resolution (HR) images as privileged information. The encoder in the teacher learns the degradation process, subsampling of HR images, using an imitation loss. The student and the decoder in the teacher, having the same network architecture as FSRCNN, try to reconstruct HR images. Intermediate features in the decoder, affordable for the student to learn, are transferred to the student through feature distillation. Experimental results on standard benchmarks demonstrate the effectiveness and the generalization ability of our framework, which significantly boosts the performance of FSRCNN as well as other SR methods. Our code and model are available online: https://cvlab.yonsei.ac.kr/projects/PISR.
翻訳日:2022-11-10 05:54:14 公開日:2020-07-15
# マンメイド環境の画像におけるParse Wireframeの学習

Learning to Parse Wireframes in Images of Man-Made Environments ( http://arxiv.org/abs/2007.07527v1 )

ライセンス: Link先を確認
Kun Huang, Yifan Wang, Zihan Zhou, Tianjiao Ding, Shenghua Gao, Yi Ma(参考訳) 本稿では,人為的環境における画像の「ワイヤフレーム」表現を自動的に抽出するタスクに対する学習に基づくアプローチを提案する。 ワイヤーフレーム(図1参照)は、効率的かつ正確に大規模形状と物体形状をエンコードするシーンのすべてのサリエント直線とその接合を含む。 この目的のために、私たちは5000以上の画像からなる非常に大きなデータセットを構築しました。 我々は,空間支援の大きい接合点と線を抽出するのに適した2つの畳み込みニューラルネットワークを提案する。 我々のデータセットでトレーニングされたネットワークは、接合検出と線分検出の最先端手法よりも大幅に性能が向上した。 提案手法により得られたワイヤフレームを定量的かつ定性的に評価するための広範囲な実験を行い,人為的環境の画像に対するワイヤフレームの効果的かつ効率的な解析が到達可能な目標であることを実証した。 このようなワイヤーフレームは、特徴対応、3D再構成、視覚ベースのマッピング、ローカライゼーション、ナビゲーションなど、多くの重要な視覚的タスクに役立てることができる。 データとソースコードはhttps://github.com/huangkuns/wireframe.comで入手できる。

In this paper, we propose a learning-based approach to the task of automatically extracting a "wireframe" representation for images of cluttered man-made environments. The wireframe (see Fig. 1) contains all salient straight lines and their junctions of the scene that encode efficiently and accurately large-scale geometry and object shapes. To this end, we have built a very large new dataset of over 5,000 images with wireframes thoroughly labelled by humans. We have proposed two convolutional neural networks that are suitable for extracting junctions and lines with large spatial support, respectively. The networks trained on our dataset have achieved significantly better performance than state-of-the-art methods for junction detection and line segment detection, respectively. We have conducted extensive experiments to evaluate quantitatively and qualitatively the wireframes obtained by our method, and have convincingly shown that effectively and efficiently parsing wireframes for images of man-made environments is a feasible goal within reach. Such wireframes could benefit many important visual tasks such as feature correspondence, 3D reconstruction, vision-based mapping, localization, and navigation. The data and source code are available at https://github.com/huangkuns/wireframe.
翻訳日:2022-11-10 05:53:54 公開日:2020-07-15
# P2D:ポラリメトリからの深度推定のための自己教師的手法

P2D: a self-supervised method for depth estimation from polarimetry ( http://arxiv.org/abs/2007.07567v1 )

ライセンス: Link先を確認
Marc Blanchon, D\'esir\'e Sidib\'e, Olivier Morel, Ralph Seulin, Daniel Braun and Fabrice Meriaudeau(参考訳) 単眼深度推定は、コンピュータビジョンの分野における繰り返し主題である。 深度マップを通じてシーンを記述する能力は、視点幾何学の定式化に関連する制約を減らしながら、その使用を好む傾向がある。 しかし、アルゴリズムの絶え間ない改良にもかかわらず、ほとんどの手法は測色情報のみを利用する。 したがって、モジュラリティが仕様性や透明性に敏感でないイベントに対する堅牢性は無視される。 この現象に対応して、自己教師付き単深ネットワークの入力として偏光法を提案する。 そこで本研究では,シーンの正確な再構築を促進するために,偏光手法の活用を提案する。 さらに,データに特有の利点を生かすために,最先端法に対する偏光正規化(polarimetric regularization)という用語も含む。 本手法は,新しい情報と拡張損失関数の寄与が,特に鏡面領域における深さ推定結果を改善することを定性的かつ定量的に評価する。

Monocular depth estimation is a recurring subject in the field of computer vision. Its ability to describe scenes via a depth map while reducing the constraints related to the formulation of perspective geometry tends to favor its use. However, despite the constant improvement of algorithms, most methods exploit only colorimetric information. Consequently, robustness to events to which the modality is not sensitive to, like specularity or transparency, is neglected. In response to this phenomenon, we propose using polarimetry as an input for a self-supervised monodepth network. Therefore, we propose exploiting polarization cues to encourage accurate reconstruction of scenes. Furthermore, we include a term of polarimetric regularization to state-of-the-art method to take specific advantage of the data. Our method is evaluated both qualitatively and quantitatively demonstrating that the contribution of this new information as well as an enhanced loss function improves depth estimation results, especially for specular areas.
翻訳日:2022-11-10 05:53:05 公開日:2020-07-15
# Align then Summarize: Summarization Corpus Creationのための自動アライメント手法

Align then Summarize: Automatic Alignment Methods for Summarization Corpus Creation ( http://arxiv.org/abs/2007.07841v1 )

ライセンス: Link先を確認
Paul Tardy, David Janiszek, Yannick Est\`eve, Vincent Nguyen(参考訳) テキストの要約は簡単な作業ではありません。 テキストの要約を考える前に、どんな要約が期待されているかを判断する必要がある。 情報をどれくらい圧縮すべきか? 要約は元の言い回しに固執すべきだろうか。 自動テキスト要約の最先端は、主にニュース記事を中心に展開する。 我々は,より幅広いタスクを考慮すれば,一般化と堅牢性の観点から,この分野の改善につながることを示唆する。 我々は会議要約について考察する: 自動転写からレポートを生成する。 我々の研究は、ニューラル・サマリゼーションに適したデータセットを得るために、レポートに関するセグメンテーションとコーディネートから構成される。 ブートストラップアプローチを用いて,人間のアノテーションによって修正される事前調整を行い,自動モデルの評価を行う検証セットを作成する。 これは、反復的により良い事前調整を提供し、自動アライメントモデルからのアノテーションを使用してコーパスサイズを最大化することで、アノテーション作成者の努力を一貫して削減します。 評価は、協調した公開会議の新しいコーパスである \publicmeetings 上で行われる。 本稿では,このコーパス上での自動アライメントと要約性能を報告し,データアノテーションに自動アライメントが関連していることを示す。

Summarizing texts is not a straightforward task. Before even considering text summarization, one should determine what kind of summary is expected. How much should the information be compressed? Is it relevant to reformulate or should the summary stick to the original phrasing? State-of-the-art on automatic text summarization mostly revolves around news articles. We suggest that considering a wider variety of tasks would lead to an improvement in the field, in terms of generalization and robustness. We explore meeting summarization: generating reports from automatic transcriptions. Our work consists in segmenting and aligning transcriptions with respect to reports, to get a suitable dataset for neural summarization. Using a bootstrapping approach, we provide pre-alignments that are corrected by human annotators, making a validation set against which we evaluate automatic models. This consistently reduces annotators' efforts by providing iteratively better pre-alignment and maximizes the corpus size by using annotations from our automatic alignment models. Evaluation is conducted on \publicmeetings, a novel corpus of aligned public meetings. We report automatic alignment and summarization performances on this corpus and show that automatic alignment is relevant for data annotation since it leads to large improvement of almost +4 on all ROUGE scores on the summarization task.
翻訳日:2022-11-10 05:45:38 公開日:2020-07-15
# 準曲面の放射パターン予測:ニューラルネットワークによるアプローチ

Radiation pattern prediction for Metasurfaces: A Neural Network based approach ( http://arxiv.org/abs/2007.08035v1 )

ライセンス: Link先を確認
Hamidreza Taghvaee, Akshay Jain, Xavier Timoneda, Christos Liaskos, Sergi Abadal, Eduard Alarc\'on and Albert Cabellos-Aparicio(参考訳) 5Gネットワークの現在の標準化が完成に近づいているため、6G無線ネットワークの潜在的な技術を理解するための作業はすでに進行中である。 6Gネットワークの潜在的な技術の一つは、再構成可能なインテリジェントサーフェス(RIS)である。 無線チャネルのエンジニアリングには前例のない自由度、すなわち、必要なときにいつでもチャンネルの特性を変更できる能力を提供する。 しかしながら、このような性質は、関連する準曲面(MSF)の応答が、あらゆる可能な操作条件下で十分に理解されていることを要求している。 放射パターン特性の理解は、解析モデルまたはフルウェーブシミュレーションによって得ることができるが、それぞれ特定の条件下での不正確さと非常に高い計算複雑性に悩まされている。 そこで本稿では,MSF応答の高速かつ正確な評価を可能にする,ニューラルネットワークに基づく新しい手法を提案する。 複数のシナリオを分析し,提案手法の有効性と有用性を実証する。 具体的には,全波シミュレーション(98.8%-99.8%)の精度と解析モデルの時間と計算複雑性を用いて,反射波放射パターンを規定するパラメータを学習し,予測することができることを示す。 上記の結果と方法論は、6Gネットワーク環境にデプロイされる数千のRISの設計、フォールトトレランス、メンテナンスにおいて特に重要である。

As the current standardization for the 5G networks nears completion, work towards understanding the potential technologies for the 6G wireless networks is already underway. One of these potential technologies for the 6G networks are Reconfigurable Intelligent Surfaces (RISs). They offer unprecedented degrees of freedom towards engineering the wireless channel, i.e., the ability to modify the characteristics of the channel whenever and however required. Nevertheless, such properties demand that the response of the associated metasurface (MSF) is well understood under all possible operational conditions. While an understanding of the radiation pattern characteristics can be obtained through either analytical models or full wave simulations, they suffer from inaccuracy under certain conditions and extremely high computational complexity, respectively. Hence, in this paper we propose a novel neural networks based approach that enables a fast and accurate characterization of the MSF response. We analyze multiple scenarios and demonstrate the capabilities and utility of the proposed methodology. Concretely, we show that this method is able to learn and predict the parameters governing the reflected wave radiation pattern with an accuracy of a full wave simulation (98.8%-99.8%) and the time and computational complexity of an analytical model. The aforementioned result and methodology will be of specific importance for the design, fault tolerance and maintenance of the thousands of RISs that will be deployed in the 6G network environment.
翻訳日:2022-11-10 05:44:49 公開日:2020-07-15
# 対向ネットワークを用いた単眼網膜奥行き推定と視神経乳頭およびカップセグメンテーション

Monocular Retinal Depth Estimation and Joint Optic Disc and Cup Segmentation using Adversarial Networks ( http://arxiv.org/abs/2007.07502v1 )

ライセンス: Link先を確認
Sharath M Shankaranarayana and Keerthi Ram and Kaushik Mitra and Mohanasankar Sivaprakasam(参考訳) 緑内障評価の重要なパラメータの1つは視神経頭(ONH)評価であり、通常は深度推定とその後の視神経円板とカップ境界抽出を伴う。 深さは通常、光学コヒーレンストモグラフィ(OCT)のような画像モダリティから明らかに得られ、単一のRGB画像から深さを推定することが非常に困難である。 そこで本研究では,1つの画像から深度マップを予測するために,対角ネットワークを用いた新しい手法を提案する。 提案手法は,INSPIREステレオデータセットから個々の網膜画像を用いて評価し,評価する。 高い平均相関係数の0.92を5倍のクロス検証で取得し,精度を向上した。 次に,光ディスクとカップセグメンテーションのプロキシタスクとして深度推定プロセスを利用する。

One of the important parameters for the assessment of glaucoma is optic nerve head (ONH) evaluation, which usually involves depth estimation and subsequent optic disc and cup boundary extraction. Depth is usually obtained explicitly from imaging modalities like optical coherence tomography (OCT) and is very challenging to estimate depth from a single RGB image. To this end, we propose a novel method using adversarial network to predict depth map from a single image. The proposed depth estimation technique is trained and evaluated using individual retinal images from INSPIRE-stereo dataset. We obtain a very high average correlation coefficient of 0.92 upon five fold cross validation outperforming the state of the art. We then use the depth estimation process as a proxy task for joint optic disc and cup segmentation.
翻訳日:2022-11-10 05:38:49 公開日:2020-07-15
# 視覚慣性オドメトリーのためのベイズニューラルネットワークとの乗法相互作用の学習

Learning Multiplicative Interactions with Bayesian Neural Networks for Visual-Inertial Odometry ( http://arxiv.org/abs/2007.07630v1 )

ライセンス: Link先を確認
Kashmira Shinde, Jongseok Lee, Matthias Humt, Aydin Sezgin, Rudolph Triebel(参考訳) 本稿では,センサ劣化シナリオの光におけるセンサの相補性を活用することを目的とした,単眼視覚慣性オドメトリー(VIO)のエンドツーエンドマルチモーダル学習手法を提案する。 提案するネットワークは,複数の情報ストリーム間の乗法的相互作用を学習するマルチヘッド自己認識機構を利用する。 提案手法のもうひとつの設計特徴は,スケーラブルなラプラス近似を用いたモデル不確実性の導入である。 提案手法の性能を,KITTIデータセットのエンドツーエンドの最先端手法と比較することにより評価し,優れた性能が得られることを示す。 重要なことは、我々の研究は、乗法的相互作用の学習が、センサーの故障に対する堅牢性を高める強力な誘導バイアスをもたらすという実証的な証拠を提供する。

This paper presents an end-to-end multi-modal learning approach for monocular Visual-Inertial Odometry (VIO), which is specifically designed to exploit sensor complementarity in the light of sensor degradation scenarios. The proposed network makes use of a multi-head self-attention mechanism that learns multiplicative interactions between multiple streams of information. Another design feature of our approach is the incorporation of the model uncertainty using scalable Laplace Approximation. We evaluate the performance of the proposed approach by comparing it against the end-to-end state-of-the-art methods on the KITTI dataset and show that it achieves superior performance. Importantly, our work thereby provides an empirical evidence that learning multiplicative interactions can result in a powerful inductive bias for increased robustness to sensor failures.
翻訳日:2022-11-10 05:38:35 公開日:2020-07-15
# 写真間のフィルタスタイル転送

Filter Style Transfer between Photos ( http://arxiv.org/abs/2007.07925v1 )

ライセンス: Link先を確認
Jonghwa Yim, Jisung Yoo, Won-joon Do, Beomsu Kim, Jihwan Choe(参考訳) 過去数年間、イメージ・ツー・イメージのスタイルの転送は、ニューラル画像処理のフロンティアに上昇してきた。 従来の方法は、画像間の色やテクスチャの転送といった様々なタスクでうまくいったが、instagramのようなさまざまなプラットフォームを通じてユーザーが適用するカスタムフィルタ効果では、効果的に機能することはなかった。 本稿では,新しいスタイルトランスファーの概念であるフィルタスタイルトランスファー(fst)を提案する。 従来のスタイル転送とは異なり、fstはフィルターされたスタイルイメージからコンテンツイメージにカスタムフィルタスタイルを抽出・転送することができる。 FSTは、まず、画像から画像への変換によってフィルタされた参照から元の画像を推論する。 そして、それらの差からフィルタパラメータを推定する。 基準画像から原画像を再構成する不適切な性質を解決するために,画像の各ピクセル色をクラス平均と偏差に表現する。 また,クラス内色変化に対処するために,原画像復元のための不確実性に基づく重み付き最小二乗法を提案する。 我々の知る限り、FSTは、モバイル端末上で2ms以下のFHD画像間のカスタムフィルタ効果をテキスト・コンテキスト・ロスなく転送できる最初のスタイル転送方式である。

Over the past few years, image-to-image style transfer has risen to the frontiers of neural image processing. While conventional methods were successful in various tasks such as color and texture transfer between images, none could effectively work with the custom filter effects that are applied by users through various platforms like Instagram. In this paper, we introduce a new concept of style transfer, Filter Style Transfer (FST). Unlike conventional style transfer, new technique FST can extract and transfer custom filter style from a filtered style image to a content image. FST first infers the original image from a filtered reference via image-to-image translation. Then it estimates filter parameters from the difference between them. To resolve the ill-posed nature of reconstructing the original image from the reference, we represent each pixel color of an image to class mean and deviation. Besides, to handle the intra-class color variation, we propose an uncertainty based weighted least square method for restoring an original image. To the best of our knowledge, FST is the first style transfer method that can transfer custom filter effects between FHD image under 2ms on a mobile device without any textual context loss.
翻訳日:2022-11-10 05:38:19 公開日:2020-07-15
# deepfakeビデオの検出:3つのテクニックの分析

Detecting Deepfake Videos: An Analysis of Three Techniques ( http://arxiv.org/abs/2007.08517v1 )

ライセンス: Link先を確認
Armaan Pishori, Brittany Rollins, Nicolas van Houten, Nisha Chatwani, Omar Uraimov(参考訳) ディープフェイク生成アルゴリズムの最近の進歩は、プライバシー、セキュリティ、大量通信に危険な影響を与えている。 この問題に対処する努力は、ディープフェイクを検出するためのコンペティションや研究資金の形で盛り上がっています。 本稿では,Deepfake Detection Challengeに参加する際に,畳み込みLSTM,目まき検出,グレースケールヒストグラムの3つの手法とアルゴリズムを提案する。 ディープフェイクビデオ,より厳格な操作されたメディア,および従来の手法に関する現在の知識を評価し,グレースケールのヒストグラム手法に他よりも関連性を見いだした。 提案手法の有効性を考察し,得られた結果を改善するためのさらなるステップを提供した。

Recent advances in deepfake generating algorithms that produce manipulated media have had dangerous implications in privacy, security and mass communication. Efforts to combat this issue have risen in the form of competitions and funding for research to detect deepfakes. This paper presents three techniques and algorithms: convolutional LSTM, eye blink detection and grayscale histograms-pursued while participating in the Deepfake Detection Challenge. We assessed the current knowledge about deepfake videos, a more severe version of manipulated media, and previous methods used, and found relevance in the grayscale histogram technique over others. We discussed the implications of each method developed and provided further steps to improve the given findings.
翻訳日:2022-11-10 05:37:35 公開日:2020-07-15
# 推力ベクトルロータを有するクワッドコプターuavの制御方針の発達的強化学習

Developmental Reinforcement Learning of Control Policy of a Quadcopter UAV with Thrust Vectoring Rotors ( http://arxiv.org/abs/2007.07793v1 )

ライセンス: Link先を確認
Aditya M. Deshpande and Rumit Kumar and Ali A. Minai and Manish Kumar(参考訳) 本稿では,推力ベクトル機能を有するクワッドコプターのための新しい発達的強化学習ベースコントローラを提案する。 このマルチロータUAV設計は傾動可能なローターを備えている。 飛行中に所望の状態を達成するためにローターの力の大きさと方向を利用する。 このロボットの制御方針は、クワッドコプターの学習されたコントローラー(推力ベクトルのない単純なuav設計)からのポリシー転送を用いて学習される。 このアプローチにより、複数の入力と複数の出力を持つシステムの制御ポリシーを学ぶことができる。 学習方針の性能は、ホバリングとウェイポイントナビゲーションのタスクの物理シミュレーションにより評価される。 飛行シミュレーションは、追加のPIDコンポーネントを使わずに強化学習に基づく飛行制御装置を利用する。 その結果、従来のクワッドコプターの修正、すなわち、より多くの自由度(従来のクワッドコプターにおける4-アクティベーターとティルトロータークワッドコプターにおける8-アクティベーター)の追加によって作成された新しいuav設計の制御ポリシーをスクラッチから学習するよりも、提示されたアプローチでより早く学習できることが示されている。 本研究では, 様々な非定常初期条件からのシミュレーションにおいて, 傾きロータプラットフォームの回復を示すことで, 学習方針の堅牢性を実証する。 また, 傾動翼UAVの開発方針は, スクラッチから学んだ政策に比べ, 優れた耐故障性を示した。 その結果、より単純なシステム(より低次元のアクション空間)からより複雑なロボット(比較的高次元のアクション空間)へ学習行動のブートストラップを行い、より高速なパフォーマンスを実現することができることを示した。

In this paper, we present a novel developmental reinforcement learning-based controller for a quadcopter with thrust vectoring capabilities. This multirotor UAV design has tilt-enabled rotors. It utilizes the rotor force magnitude and direction to achieve the desired state during flight. The control policy of this robot is learned using the policy transfer from the learned controller of the quadcopter (comparatively simple UAV design without thrust vectoring). This approach allows learning a control policy for systems with multiple inputs and multiple outputs. The performance of the learned policy is evaluated by physics-based simulations for the tasks of hovering and way-point navigation. The flight simulations utilize a flight controller based on reinforcement learning without any additional PID components. The results show faster learning with the presented approach as opposed to learning the control policy from scratch for this new UAV design created by modifications in a conventional quadcopter, i.e., the addition of more degrees of freedom (4-actuators in conventional quadcopter to 8-actuators in tilt-rotor quadcopter). We demonstrate the robustness of our learned policy by showing the recovery of the tilt-rotor platform in the simulation from various non-static initial conditions in order to reach a desired state. The developmental policy for the tilt-rotor UAV also showed superior fault tolerance when compared with the policy learned from the scratch. The results show the ability of the presented approach to bootstrap the learned behavior from a simpler system (lower-dimensional action-space) to a more complex robot (comparatively higher-dimensional action-space) and reach better performance faster.
翻訳日:2022-11-10 05:37:23 公開日:2020-07-15
# UniTrans: ラベルなしデータを用いた言語間名前付きエンティティ認識のためのモデル転送とデータ転送

UniTrans: Unifying Model Transfer and Data Transfer for Cross-Lingual Named Entity Recognition with Unlabeled Data ( http://arxiv.org/abs/2007.07683v1 )

ライセンス: Link先を確認
Qianhui Wu and Zijia Lin and B\"orje F. Karlsson and Biqing Huang and Jian-Guang Lou(参考訳) ラベル付きデータなしの言語間名前付きエンティティ認識(NER)における先行研究は、モデル転送ベースとデータ転送ベースメソッドの2つの主要なカテゴリに分類される。 本稿では,2つの手法が互いに補完しあうことを見出し,前者は言語に依存しない特徴によって文脈情報を活用できるが,対象言語にはタスク固有の情報がない,後者は翻訳によって擬似的対象言語訓練データを生成するが,その文脈情報の活用は不正確な翻訳によって弱められている。 さらに、事前の作業では、対象言語にラベルのないデータを活用することは滅多にありません。 そこで本研究では,クロスリンガル・ナーのモデルとデータ転送を統一し,さらに知識蒸留によりラベル付されていない対象言語データから利用可能な情報を活用するために,unitransという新しい手法を提案する。 ベンチマークデータセット上で提案する4つのターゲット言語に対するunitransの評価を行った。 実験結果から,既存の最先端手法を著しく上回る結果が得られた。

Prior works in cross-lingual named entity recognition (NER) with no/little labeled data fall into two primary categories: model transfer based and data transfer based methods. In this paper we find that both method types can complement each other, in the sense that, the former can exploit context information via language-independent features but sees no task-specific information in the target language; while the latter generally generates pseudo target-language training data via translation but its exploitation of context information is weakened by inaccurate translations. Moreover, prior works rarely leverage unlabeled data in the target language, which can be effortlessly collected and potentially contains valuable information for improved results. To handle both problems, we propose a novel approach termed UniTrans to Unify both model and data Transfer for cross-lingual NER, and furthermore, to leverage the available information from unlabeled target-language data via enhanced knowledge distillation. We evaluate our proposed UniTrans over 4 target languages on benchmark datasets. Our experimental results show that it substantially outperforms the existing state-of-the-art methods.
翻訳日:2022-11-10 05:35:37 公開日:2020-07-15
# インド言語のための多言語並列コーパス収集の試み

A Multilingual Parallel Corpora Collection Effort for Indian Languages ( http://arxiv.org/abs/2007.07691v1 )

ライセンス: Link先を確認
Shashank Siripragada, Jerin Philip, Vinay P. Namboodiri, C V Jawahar(参考訳) 本稿では,インド語のシンディ語,テルグ語,タミル語,マラヤラム語,グジャラート語,ウルドゥ語,ベンガル語,オリヤ語,マラティ語,パンジャビ語,英語の10言語にまたがる並列コーパスについて述べる。 corporaは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。 提示されたコーパスは、十分に大きくない、または特定のドメイン(健康など)に制限された現在のリソースを著しく拡張する。 また、独立したオンラインソースからコンパイルされた独立したテストコーパスも提供しています。 また,近年の機械翻訳や深層ニューラルネットワークを用いた言語間検索の進歩により実現されたツールを用いてコーパスを構築する手法について報告する。

We present sentence aligned parallel corpora across 10 Indian Languages - Hindi, Telugu, Tamil, Malayalam, Gujarati, Urdu, Bengali, Oriya, Marathi, Punjabi, and English - many of which are categorized as low resource. The corpora are compiled from online sources which have content shared across languages. The corpora presented significantly extends present resources that are either not large enough or are restricted to a specific domain (such as health). We also provide a separate test corpus compiled from an independent online source that can be independently used for validating the performance in 10 Indian languages. Alongside, we report on the methods of constructing such corpora using tools enabled by recent advances in machine translation and cross-lingual retrieval using deep neural network based methods.
翻訳日:2022-11-10 05:35:18 公開日:2020-07-15
# 深層学習のための確率的近似勾配法の一家系

A General Family of Stochastic Proximal Gradient Methods for Deep Learning ( http://arxiv.org/abs/2007.07484v1 )

ライセンス: Link先を確認
Jihun Yun, Aurelie C. Lozano, Eunho Yang(参考訳) 我々は正規化ニューラルネットワークのトレーニングについて検討し、正規化器は非滑らかで非凸であることを示す。 本稿では,任意の正の事前条件と半連続正則化器を許容する確率的近位勾配降下のための統一的フレームワークProxGenを提案する。 本フレームワークは, プレコンディショナーを含まない標準的な確率的近位勾配法を特例とし, 様々な場面で広く研究されている。 それだけでなく、私たちのアプローチの副産物として、よく知られた標準メソッド以外の2つの重要な更新ルールを提示します。 (i)適応確率勾配法に対する$\ell_q$正則化(0 \leq q \leq 1$)の最初の閉形式近位写像、および (ii) 量子化特化正規化器に対する元のアプローチの注意点を修正するProxQuantの改訂版。 本稿では, ProxGenの収束を解析し, プレコンディショナーを使わずに確率的近位勾配降下と同じ収束率を持つことを示す。 また, 広範囲な実験により, 漸進的アプローチと比較して, 近似手法の優位性を実証的に示す。 その結果,非凸正則化器を用いた近位法の方が凸正則化器よりも有効であることが示唆された。

We study the training of regularized neural networks where the regularizer can be non-smooth and non-convex. We propose a unified framework for stochastic proximal gradient descent, which we term ProxGen, that allows for arbitrary positive preconditioners and lower semi-continuous regularizers. Our framework encompasses standard stochastic proximal gradient methods without preconditioners as special cases, which have been extensively studied in various settings. Not only that, we present two important update rules beyond the well-known standard methods as a byproduct of our approach: (i) the first closed-form proximal mappings of $\ell_q$ regularization ($0 \leq q \leq 1$) for adaptive stochastic gradient methods, and (ii) a revised version of ProxQuant that fixes a caveat of the original approach for quantization-specific regularizers. We analyze the convergence of ProxGen and show that the whole family of ProxGen enjoys the same convergence rate as stochastic proximal gradient descent without preconditioners. We also empirically show the superiority of proximal methods compared to subgradient-based approaches via extensive experiments. Interestingly, our results indicate that proximal methods with non-convex regularizers are more effective than those with convex regularizers.
翻訳日:2022-11-10 05:29:36 公開日:2020-07-15
# 測定誤差モデル:非パラメトリック手法からディープニューラルネットワークへ

Measurement error models: from nonparametric methods to deep neural networks ( http://arxiv.org/abs/2007.07498v1 )

ライセンス: Link先を確認
Zhirui Hu, Zheng Tracy Ke, Jun S Liu(参考訳) ディープラーニングの成功は、統計推論にニューラルネットワークを適用することに対する最近の関心に影響を与えた。 本稿では,測定誤差を伴う非パラメトリック回帰に対するディープニューラルネットワークの利用について検討する。 本研究では,回帰関数 $f(x)$ を近似する完全連結フィードフォワードニューラルネットワーク (fnn) と,事前分布を近似する正規化フローと,x$ の後方分布を近似する推論ネットワークを用いた,計測誤差モデル推定のための効率的なニューラルネットワーク設計を提案する。 本手法は,重み付きオートエンコーダ,二重再パラメータ化勾配推定器,非線形独立成分推定など,ディープニューラルネットワークの変分推論の最近の進歩を活用している。 ニューラルネットワークアプローチを古典的非パラメトリック手法と比較し、回帰関数の異なるクラスを調節する上で、ニューラルネットワークアプローチがより柔軟であり、ほぼすべての設定で最も優れた、あるいは同等の手法を実行することを観察する。

The success of deep learning has inspired recent interests in applying neural networks in statistical inference. In this paper, we investigate the use of deep neural networks for nonparametric regression with measurement errors. We propose an efficient neural network design for estimating measurement error models, in which we use a fully connected feed-forward neural network (FNN) to approximate the regression function $f(x)$, a normalizing flow to approximate the prior distribution of $X$, and an inference network to approximate the posterior distribution of $X$. Our method utilizes recent advances in variational inference for deep neural networks, such as the importance weight autoencoder, doubly reparametrized gradient estimator, and non-linear independent components estimation. We conduct an extensive numerical study to compare the neural network approach with classical nonparametric methods and observe that the neural network approach is more flexible in accommodating different classes of regression functions and performs superior or comparable to the best available method in nearly all settings.
翻訳日:2022-11-10 05:29:15 公開日:2020-07-15
# 機械学習による実行ファイルの静的解析

Static analysis of executable files by machine learning methods ( http://arxiv.org/abs/2007.07501v1 )

ライセンス: Link先を確認
Nikolay Prudkovskiy(参考訳) 本稿では,バイナリコンテンツの静的解析に基づいて,悪意のある実行ファイルを検出する方法について述べる。 実行可能ファイルの異なる領域から抽出された前処理およびクリーニングデータのステージを分析する。 バイナリ実行ファイルのサンプルを効果的に表現するために、特徴フィールド次元を削減し特徴特徴を選択する方法として、実行ファイルのカテゴリ属性を符号化する方法が検討されている。 各分類器からの予測を集約するためにアンサンブルトレーニングアプローチが適用され、無絶縁環境で悪意のあるファイルを検出するシステムを開発するために、実行ファイル属性のさまざまな特徴群の分類器のアンサンブルが作成された。

The paper describes how to detect malicious executable files based on static analysis of their binary content. The stages of pre-processing and cleaning data extracted from different areas of executable files are analyzed. Methods of encoding categorical attributes of executable files are considered, as are ways to reduce the feature field dimension and select characteristic features in order to effectively represent samples of binary executable files for further training classifiers. An ensemble training approach was applied in order to aggregate forecasts from each classifier, and an ensemble of classifiers of various feature groups of executable file attributes was created in order to subsequently develop a system for detecting malicious files in an uninsulated environment.
翻訳日:2022-11-10 05:28:55 公開日:2020-07-15
# 条件付き正規化流を伴う逆問題の高速不確かさ定量化

Faster Uncertainty Quantification for Inverse Problems with Conditional Normalizing Flows ( http://arxiv.org/abs/2007.07985v1 )

ライセンス: Link先を確認
Ali Siahkoohi, Gabrio Rizzuti, Philipp A. Witte, Felix J. Herrmann(参考訳) 逆問題では、ペア化されたサンプル$(x,y)\sim p_{X,Y}(x,y)$で、$y$は物理系の部分的な観測であり、$x$は問題の未知の部分を表す。 このような状況下では、教師付きトレーニングを使用して、x$とその観測結果から不確実性を学ぶことができる。 我々はこの問題を「監督された」ケースと呼ぶ。 しかし、ある時点で収集されたデータ $y\sim p_{y}(y)$ は、現在の問題の集合に関連する観測値 $y'\sim p_{y}'(y')$ とは異なる分散が可能である。 ベイズ推定の文脈では、正規化フローとジョイントデータを用いて条件付き生成器$q_{\theta}(x|y)$を訓練し、目標後方密度$p_{x|y}(x|y)$を近似する二段階スキームを提案する。 さらに、この予備位相は密度関数 $q_{\theta}(x|y)$ を提供するが、これは「教師なし」問題の先行として再キャストできる(例えば、観測値 $y'\sim p_{Y}'(y')$, 可能性モデル $y'|x$, および$x'$ が知られている場合)。 次に、出力密度$q'_{\phi}(x|y')$、特に$y'$で別の可逆生成器を訓練し、後続の$p_{X|Y}'(x|y')$からサンプリングすることができる。 トレーニング済みのネットワークである$q_{\theta}(x|y')$を、ゼロから学習する代わりに、p_{X|Y}'(x|y')$を近似するためのウォームスタートやプレコンディショニングとして使用する際に、かなりのトレーニングスピードアップを示す合成結果を示す。 このトレーニングモダリティは、転校学習の例として解釈することができる。 この結果は、高価な数値シミュレーションを用いる大規模逆問題に特に関係している。

In inverse problems, we often have access to data consisting of paired samples $(x,y)\sim p_{X,Y}(x,y)$ where $y$ are partial observations of a physical system, and $x$ represents the unknowns of the problem. Under these circumstances, we can employ supervised training to learn a solution $x$ and its uncertainty from the observations $y$. We refer to this problem as the "supervised" case. However, the data $y\sim p_{Y}(y)$ collected at one point could be distributed differently than observations $y'\sim p_{Y}'(y')$, relevant for a current set of problems. In the context of Bayesian inference, we propose a two-step scheme, which makes use of normalizing flows and joint data to train a conditional generator $q_{\theta}(x|y)$ to approximate the target posterior density $p_{X|Y}(x|y)$. Additionally, this preliminary phase provides a density function $q_{\theta}(x|y)$, which can be recast as a prior for the "unsupervised" problem, e.g.~when only the observations $y'\sim p_{Y}'(y')$, a likelihood model $y'|x$, and a prior on $x'$ are known. We then train another invertible generator with output density $q'_{\phi}(x|y')$ specifically for $y'$, allowing us to sample from the posterior $p_{X|Y}'(x|y')$. We present some synthetic results that demonstrate considerable training speedup when reusing the pretrained network $q_{\theta}(x|y')$ as a warm start or preconditioning for approximating $p_{X|Y}'(x|y')$, instead of learning from scratch. This training modality can be interpreted as an instance of transfer learning. This result is particularly relevant for large-scale inverse problems that employ expensive numerical simulations.
翻訳日:2022-11-10 05:28:02 公開日:2020-07-15
# 無限大のニューラルネットワークによるスパース補間の凸化:原子ノルムアプローチ

Convexifying Sparse Interpolation with Infinitely Wide Neural Networks: An Atomic Norm Approach ( http://arxiv.org/abs/2007.08009v1 )

ライセンス: Link先を確認
Akshay Kumar and Jarvis Haupt(参考訳) 本研究では,スパルス(ニューロン数)による正確なデータ補間の問題について検討する。 Chandrasekaran et al., 2012) の原子ノルムの枠組みを用いて、この問題に対する対応する原子集合の凸殻の簡易な特徴づけを、ネットワークの重みとバイアスに関するいくつかの異なる制約の下で導き、これらの問題に対して等価な凸公式を得る。 提案フレームワークのバイナリ分類問題への控えめな拡張も提示した。 得られた定式化の有効性を実験的に検討し,勾配降下による学習ネットワークと比較した。

This work examines the problem of exact data interpolation via sparse (neuron count), infinitely wide, single hidden layer neural networks with leaky rectified linear unit activations. Using the atomic norm framework of [Chandrasekaran et al., 2012], we derive simple characterizations of the convex hulls of the corresponding atomic sets for this problem under several different constraints on the weights and biases of the network, thus obtaining equivalent convex formulations for these problems. A modest extension of our proposed framework to a binary classification problem is also presented. We explore the efficacy of the resulting formulations experimentally, and compare with networks trained via gradient descent.
翻訳日:2022-11-10 05:27:22 公開日:2020-07-15
# 非負行列因子化による癌マイクロアレイとDNAメチル化データの予測

Prediction of Cancer Microarray and DNA Methylation Data using Non-negative Matrix Factorization ( http://arxiv.org/abs/2007.08652v1 )

ライセンス: Link先を確認
Parth Patel, Kalpdrum Passi, Chakresh Kumar Jain(参考訳) 過去数年間、マイクロアレイ技術は多くの生物学的パターン、特に白血病、前立腺、大腸癌などのがん疾患に関連するものにおいてかなりの普及を遂げてきた。 このようなデータセットの適切な理解において1つの経験が持つ主なボトルネックは、その次元性であり、効率的かつ効果的な研究手段であるためには、その次元を広範囲に縮小する必要があると考えられる。 本研究は,マイクロアレイデータセットの次元性低減のための,異なるアルゴリズムと手法を提案する試みである。 本研究は, マイクロアレイデータの行列構造を利用して, 非負行列分解(Non-Negative Matrix Factorization, NMF)と呼ばれる一般的な手法を用いて, 主に生体データ分野における次元の減少を図る。 分類精度はこれらのアルゴリズムで比較される。 精度は98%。

Over the past few years, there has been a considerable spread of microarray technology in many biological patterns, particularly in those pertaining to cancer diseases like leukemia, prostate, colon cancer, etc. The primary bottleneck that one experiences in the proper understanding of such datasets lies in their dimensionality, and thus for an efficient and effective means of studying the same, a reduction in their dimension to a large extent is deemed necessary. This study is a bid to suggesting different algorithms and approaches for the reduction of dimensionality of such microarray datasets. This study exploits the matrix-like structure of such microarray data and uses a popular technique called Non-Negative Matrix Factorization (NMF) to reduce the dimensionality, primarily in the field of biological data. Classification accuracies are then compared for these algorithms. This technique gives an accuracy of 98%.
翻訳日:2022-11-10 05:27:09 公開日:2020-07-15
# 航空地上統合エッジコンピューティングシステムにおける情報フレッシュネス対応タスクオフロード

Information Freshness-Aware Task Offloading in Air-Ground Integrated Edge Computing Systems ( http://arxiv.org/abs/2007.10129v1 )

ライセンス: Link先を確認
Xianfu Chen and Celimuge Wu and Tao Chen and Zhi Liu and Honggang Zhang and Mehdi Bennis and Hang Liu and Yusheng Ji(参考訳) 本稿では,インフラプロバイダ(InP)が展開する地上統合マルチアクセスエッジコンピューティングシステムにおいて,情報更新性を考慮したタスクオフロードの問題について検討する。 サードパーティのリアルタイムアプリケーションサービスプロバイダは、長期のビジネス契約に基づいて、InPからの限られた通信と計算リソースで、加入したモバイルユーザ(MU)にコンピューティングサービスを提供する。 動的特性のため、muse間の相互作用は非協力的な確率ゲームによってモデル化され、制御ポリシーが結合され、各mmuは、自身の期待された長期的な報酬を自発的に最大化することを目指している。 ナッシュ均衡問題に対処するために,確率ゲームが単一エージェントマルコフ決定プロセスに変換されるような局所的なシステム状態と予想に従って各muが振る舞うことを提案する。 さらに、各MUに2つの個別の二重深度Q-networksを導入し、Q-factorと後Q-factorを近似するオンライン深度学習(RL)手法を考案した。 提案したディープRLスキームを用いて、システム内の各MUは、力学の統計的知識を優先せずに決定することができる。 数値実験により,情報量とエネルギー消費のバランスをとるための提案手法の可能性を検証した。

This paper studies the problem of information freshness-aware task offloading in an air-ground integrated multi-access edge computing system, which is deployed by an infrastructure provider (InP). A third-party real-time application service provider provides computing services to the subscribed mobile users (MUs) with the limited communication and computation resources from the InP based on a long-term business agreement. Due to the dynamic characteristics, the interactions among the MUs are modelled by a non-cooperative stochastic game, in which the control policies are coupled and each MU aims to selfishly maximize its own expected long-term payoff. To address the Nash equilibrium solutions, we propose that each MU behaves in accordance with the local system states and conjectures, based on which the stochastic game is transformed into a single-agent Markov decision process. Moreover, we derive a novel online deep reinforcement learning (RL) scheme that adopts two separate double deep Q-networks for each MU to approximate the Q-factor and the post-decision Q-factor. Using the proposed deep RL scheme, each MU in the system is able to make decisions without a priori statistical knowledge of dynamics. Numerical experiments examine the potentials of the proposed scheme in balancing the age of information and the energy consumption.
翻訳日:2022-11-10 05:26:54 公開日:2020-07-15
# アンサンブル学習とグラフ埋め込みを併用したレコメンダシステムのプレゼンテーション:MovieLensを事例として

Presentation of a Recommender System with Ensemble Learning and Graph Embedding: A Case on MovieLens ( http://arxiv.org/abs/2008.01192v1 )

ライセンス: Link先を確認
Saman Forouzandeh, Mehrdad Rostami, Kamal Berahmand(参考訳) 情報技術は広く普及しており、非常に大量のデータがユーザからアクセス可能になっているため、ユーザのニーズに応じてデータを選択することが困難になっている。 上記の問題の解決のために、レコメンダシステムが登場し、ユーザーは意思決定と関連するデータの選択のプロセスを通して多くの手助けをする。 レコメンダシステムは、ユーザの行動が自分の関心やニーズを検知できると予測し、この目的で分類技術を使用することが多い。 個々の分類を用いるのに十分正確でない場合もあり、すべてのケースを検査できるわけではないため、特定の問題に不適当である。 本研究では,グループ分類とアンサンブル学習技術を用いて,推薦システムにおける予測精度を向上した。 ここで提起されるもうひとつの問題は、ユーザ分析に関するものだ。 データのサイズと多数のユーザの数を考えると、ユーザのプロセスは分析と予測(ほとんどの場合、ユーザと選択したアイテムの関係を表すグラフを使用する)を必要としており、レコメンデーションシステムでは複雑で面倒である。 グラフ埋め込みもこの問題の解決のために提案され、ユーザ行動の全てまたは一部が複数のベクトルの生成によってシミュレートされ、高い効率を維持しながらユーザ行動解析の問題を広範囲に解決する。 本研究では,対象ユーザと最もよく似た個人をアンサンブル学習,ファジィルール,決定木を用いて分類し,各ユーザに対してヘテロジニアスな知識グラフと埋め込みベクタを用いた適切な推薦を行った。 本研究はmovielensデータセット上で実施し,提案手法の高効率性を示した。

Information technology has spread widely, and extraordinarily large amounts of data have been made accessible to users, which has made it challenging to select data that are in accordance with user needs. For the resolution of the above issue, recommender systems have emerged, which much help users go through the process of decision-making and selecting relevant data. A recommender system predicts users behavior to be capable of detecting their interests and needs, and it often uses the classification technique for this purpose. It may not be sufficiently accurate to employ individual classification, where not all cases can be examined, which makes the method inappropriate to specific problems. In this research, group classification and the ensemble learning technique were used for increasing prediction accuracy in recommender systems. Another issue that is raised here concerns user analysis. Given the large size of the data and a large number of users, the process of user needs analysis and prediction (using a graph in most cases, representing the relations between users and their selected items) is complicated and cumbersome in recommender systems. Graph embedding was also proposed for resolution of this issue, where all or part of user behavior can be simulated through the generation of several vectors, resolving the problem of user behavior analysis to a large extent while maintaining high efficiency. In this research, individuals most similar to the target user were classified using ensemble learning, fuzzy rules, and the decision tree, and relevant recommendations were then made to each user with a heterogeneous knowledge graph and embedding vectors. This study was performed on the MovieLens datasets, and the obtained results indicated the high efficiency of the presented method.
翻訳日:2022-11-10 05:26:32 公開日:2020-07-15
# プログレッシブ・ナレッジ・トランスファーによる弱教師付き物体検出の促進

Boosting Weakly Supervised Object Detection with Progressive Knowledge Transfer ( http://arxiv.org/abs/2007.07986v1 )

ライセンス: Link先を確認
Yuanyi Zhong, Jianfeng Wang, Jian Peng, Lei Zhang(参考訳) 本稿では,カテゴリが対象ドメインと重複しない外部の完全注釈付きソースデータセットの助けを借りて,弱教師付きオブジェクト検出精度を高めるための効果的な知識伝達フレームワークを提案する。 この設定は、多くのオフセット検出データセットが存在するため、非常に実用的です。 ソースデータセットをより効果的に利用するために,情報源領域から知識を1クラスユニバーサル検出器で反復的に転送し,対象領域検出器を学習する。 各イテレーションでターゲットドメイン検出器によって検出されたボックスレベルの擬似基底真理は、一級ユニバーサル検出器を効果的に改善する。 したがって、ソースデータセットの知識はより徹底的に活用され、活用される。 pascal voc 2007 を対象とする弱アノテートデータセットとして,coco/imagenet を完全アノテートデータセットとして広範な実験を行った。 提案手法を用いて,VOCテストセットで59.7\%のmAPと60.2\%のmAPのmAPを,完全教師付きFaster RCNNをマイニングされた擬似基底真理で再訓練した後,達成した。 これは、これまでのどの文献よりもはるかに優れており、知識伝達設定の下で弱教師付き物体検出の最先端を新たに設定する。 コード: \url{https://github.com/mikuhatsune/wsod_transfer}。

In this paper, we propose an effective knowledge transfer framework to boost the weakly supervised object detection accuracy with the help of an external fully-annotated source dataset, whose categories may not overlap with the target domain. This setting is of great practical value due to the existence of many off-the-shelf detection datasets. To more effectively utilize the source dataset, we propose to iteratively transfer the knowledge from the source domain by a one-class universal detector and learn the target-domain detector. The box-level pseudo ground truths mined by the target-domain detector in each iteration effectively improve the one-class universal detector. Therefore, the knowledge in the source dataset is more thoroughly exploited and leveraged. Extensive experiments are conducted with Pascal VOC 2007 as the target weakly-annotated dataset and COCO/ImageNet as the source fully-annotated dataset. With the proposed solution, we achieved an mAP of $59.7\%$ detection performance on the VOC test set and an mAP of $60.2\%$ after retraining a fully supervised Faster RCNN with the mined pseudo ground truths. This is significantly better than any previously known results in related literature and sets a new state-of-the-art of weakly supervised object detection under the knowledge transfer setting. Code: \url{https://github.com/mikuhatsune/wsod_transfer}.
翻訳日:2022-11-10 05:19:49 公開日:2020-07-15
# ジョイント予測可能性向上によるタスク予測器の組み合わせ

Combining Task Predictors via Enhancing Joint Predictability ( http://arxiv.org/abs/2007.08012v1 )

ライセンス: Link先を確認
Kwang In Kim, Christian Richardt, Hyung Jin Chang(参考訳) 予測子の組み合わせは、個々の予測子の内部にアクセスすることなく、関連するタスクの(参照)予測子に基づいて学習タスクの(ターゲット)予測子を改善することを目的としている。 ターゲットを改良する新しい予測器の組み合わせアルゴリズムを提案する。 一 目標の予測能力に基づく参考文献の関連度を測定すること。 二 このような推定関連性を強化すること。 対象と参照間のペア関係のみを利用して参照間の潜在的に有用な依存を無視する既存の予測器の組み合わせアプローチとは異なり,本アルゴリズムはベイズフレームワークを用いて,すべての参照の関連性を共同で評価する。 また、関連する参照のみを自動的に選択する厳格な方法も提供する。 視覚属性ランキングとマルチクラス分類シナリオから得られた実世界の7つのデータセットの実験に基づいて,本アルゴリズムが性能向上に寄与し,既存の予測器の組み合わせアプローチの適用範囲を広くすることを示した。

Predictor combination aims to improve a (target) predictor of a learning task based on the (reference) predictors of potentially relevant tasks, without having access to the internals of individual predictors. We present a new predictor combination algorithm that improves the target by i) measuring the relevance of references based on their capabilities in predicting the target, and ii) strengthening such estimated relevance. Unlike existing predictor combination approaches that only exploit pairwise relationships between the target and each reference, and thereby ignore potentially useful dependence among references, our algorithm jointly assesses the relevance of all references by adopting a Bayesian framework. This also offers a rigorous way to automatically select only relevant references. Based on experiments on seven real-world datasets from visual attribute ranking and multi-class classification scenarios, we demonstrate that our algorithm offers a significant performance gain and broadens the application range of existing predictor combination approaches.
翻訳日:2022-11-10 05:19:28 公開日:2020-07-15
# 注意に基づく問合せ拡張学習

Attention-Based Query Expansion Learning ( http://arxiv.org/abs/2007.08019v1 )

ライセンス: Link先を確認
Albert Gordo and Filip Radenovic and Tamara Berg(参考訳) クエリ拡張(Query expansion)は、元のクエリから高度にランク付けされたイメージを拡張されたクエリに組み合わせた画像検索で広く用いられるテクニックで、一般的にリコールと精度の向上につながる。 クエリ拡張の重要な側面は、画像を新しいクエリに統合する適切な方法を選択することだ。 興味深いことに、クエリ拡張の実証的な成功にもかかわらず、異なる注意書きを持つアドホックなメソッドがランドスケープを支配しており、クエリ拡張の方法を学ぶための研究はあまり行われていない。 本稿では,画像の集約法を学習し,拡張されたクエリを生成するモデルとして,より原則的なクエリ拡張フレームワークを提案する。 本フレームワークでは,自己認識機構を活用して,異なる画像間の情報伝達を効果的に学習し,アグリゲーションするモデルを提案する。 提案手法は,従来のベンチマーク手法よりも精度が高い。 さらに重要なのは、既存の手法の欠点を克服しながら、異なる体制下で常に高い精度を示すアプローチは、我々のアプローチだけです。

Query expansion is a technique widely used in image search consisting in combining highly ranked images from an original query into an expanded query that is then reissued, generally leading to increased recall and precision. An important aspect of query expansion is choosing an appropriate way to combine the images into a new query. Interestingly, despite the undeniable empirical success of query expansion, ad-hoc methods with different caveats have dominated the landscape, and not a lot of research has been done on learning how to do query expansion. In this paper we propose a more principled framework to query expansion, where one trains, in a discriminative manner, a model that learns how images should be aggregated to form the expanded query. Within this framework, we propose a model that leverages a self-attention mechanism to effectively learn how to transfer information between the different images before aggregating them. Our approach obtains higher accuracy than existing approaches on standard benchmarks. More importantly, our approach is the only one that consistently shows high accuracy under different regimes, overcoming caveats of existing methods.
翻訳日:2022-11-10 05:19:11 公開日:2020-07-15
# CheckThatの概観! 2020年:ソーシャルメディアにおけるクレームの自動識別と検証

Overview of CheckThat! 2020: Automatic Identification and Verification of Claims in Social Media ( http://arxiv.org/abs/2007.07997v1 )

ライセンス: Link先を確認
Alberto Barron-Cedeno, Tamer Elsayed, Preslav Nakov, Giovanni Da San Martino, Maram Hasanain, Reem Suwaileh, Fatima Haouari, Nikolay Babulkov, Bayan Hamdan, Alex Nikolov, Shaden Shaar, and Zien Sheikh Ali(参考訳) 以下は、CheckThatの第3版の概要である。 CLEF 2020に参加。 研究室は英語とアラビア語の2つの異なる言語で5つのタスクを扱った。 最初の4つのタスクは、ソーシャルメディアにおけるクレーム検証の完全なパイプラインを構成する: チェック値推定のタスク1、以前に確認したクレームを検索するタスク2、証拠検索のタスク3、クレーム検証のタスク4。 ラボは、政治討論や演説におけるチェック評価に関するタスク5で完了する。 ラボに参加するために登録された合計67チーム(CLEF 2019の47チームから)、23チームが実際に実行を提出した(CLEF 2019の14チームまで)。 ほとんどのチームはBERT、LSTM、CNNをベースとしたディープニューラルネットワークを使用しており、すべてのタスクのベースラインを大きく改善した。 本稿では,課題の設定,評価結果,参加者が使用するアプローチの概要について述べ,そこから得られた教訓について考察する。 最後に、我々は研究室のすべてのデータセットと評価スクリプトを研究コミュニティにリリースし、チェックの安全性評価と自動クレーム検証の重要なタスクについてさらなる研究を可能にする。

We present an overview of the third edition of the CheckThat! Lab at CLEF 2020. The lab featured five tasks in two different languages: English and Arabic. The first four tasks compose the full pipeline of claim verification in social media: Task 1 on check-worthiness estimation, Task 2 on retrieving previously fact-checked claims, Task 3 on evidence retrieval, and Task 4 on claim verification. The lab is completed with Task 5 on check-worthiness estimation in political debates and speeches. A total of 67 teams registered to participate in the lab (up from 47 at CLEF 2019), and 23 of them actually submitted runs (compared to 14 at CLEF 2019). Most teams used deep neural networks based on BERT, LSTMs, or CNNs, and achieved sizable improvements over the baselines on all tasks. Here we describe the tasks setup, the evaluation results, and a summary of the approaches used by the participants, and we discuss some lessons learned. Last but not least, we release to the research community all datasets from the lab as well as the evaluation scripts, which should enable further research in the important tasks of check-worthiness estimation and automatic claim verification.
翻訳日:2022-11-10 05:18:12 公開日:2020-07-15
# 計算プロパガンダ検出に関する調査研究

A Survey on Computational Propaganda Detection ( http://arxiv.org/abs/2007.08024v1 )

ライセンス: Link先を確認
Giovanni Da San Martino, Stefano Cresci, Alberto Barron-Cedeno, Seunghak Yu, Roberto Di Pietro, Preslav Nakov(参考訳) プロパガンダキャンペーンは、特定の議題を進める目的で人々のマインドセットに影響を与えることを目的としている。 彼らは、インターネットの匿名性、ソーシャルネットワークのマイクロプロファイリング能力、アカウントの協調ネットワークの自動作成と管理の容易さを活用し、個々のユーザが敏感なトピックをターゲットとした、説得力のあるメッセージで何百万ものソーシャルネットワークユーザーにリーチし、最終的にはターゲットとする問題に対して結果に影響を与える。 本稿では,自然言語処理とネットワーク分析の観点から計算プロパガンダ検出技術の現状を概観し,これらのコミュニティ間の連携の必要性について考察する。 今後の課題と今後の研究方向性についても論じる。

Propaganda campaigns aim at influencing people's mindset with the purpose of advancing a specific agenda. They exploit the anonymity of the Internet, the micro-profiling ability of social networks, and the ease of automatically creating and managing coordinated networks of accounts, to reach millions of social network users with persuasive messages, specifically targeted to topics each individual user is sensitive to, and ultimately influencing the outcome on a targeted issue. In this survey, we review the state of the art on computational propaganda detection from the perspective of Natural Language Processing and Network Analysis, arguing about the need for combined efforts between these communities. We further discuss current challenges and future research directions.
翻訳日:2022-11-10 05:17:51 公開日:2020-07-15
# 不均一フェデレーション最適化における目的的不整合問題への対処

Tackling the Objective Inconsistency Problem in Heterogeneous Federated Optimization ( http://arxiv.org/abs/2007.07481v1 )

ライセンス: Link先を確認
Jianyu Wang, Qinghua Liu, Hao Liang, Gauri Joshi, H. Vincent Poor(参考訳) フェデレーション最適化では、クライアントのローカルデータセットにおける不均一性と計算速度は、各通信ラウンドにおいて各クライアントが実行するローカル更新数に大きな変動をもたらす。 そのようなモデルの単純重み付け集約は、客観的な矛盾、すなわち、大域的モデルは、真の目的と任意に異なる不一致目的関数の定常点に収束する。 本稿では,フェデレーション不均質最適化アルゴリズムの収束を解析するための汎用フレームワークを提案する。 従来提案されていたFedAvgやFedProxといった手法を仮定し、ソリューションバイアスと客観的不整合による収束速度低下の第一原理的理解を提供する。 この分析から得られた知見を用いて、高速なエラー収束を保ちながら客観的な矛盾を解消する正規化平均化手法であるFedNovaを提案する。

In federated optimization, heterogeneity in the clients' local datasets and computation speeds results in large variations in the number of local updates performed by each client in each communication round. Naive weighted aggregation of such models causes objective inconsistency, that is, the global model converges to a stationary point of a mismatched objective function which can be arbitrarily different from the true objective. This paper provides a general framework to analyze the convergence of federated heterogeneous optimization algorithms. It subsumes previously proposed methods such as FedAvg and FedProx and provides the first principled understanding of the solution bias and the convergence slowdown due to objective inconsistency. Using insights from this analysis, we propose FedNova, a normalized averaging method that eliminates objective inconsistency while preserving fast error convergence.
翻訳日:2022-11-10 05:17:26 公開日:2020-07-15
# graphcl:グラフ表現のコントラスト的自己教師付き学習

GraphCL: Contrastive Self-Supervised Learning of Graph Representations ( http://arxiv.org/abs/2007.08025v1 )

ライセンス: Link先を確認
Hakim Hafidi, Mounir Ghogho, Philippe Ciblat and Ananthram Swami(参考訳) 本稿では,ノード表現を自己教師付きで学習するための一般的なフレームワークであるGraph Contrastive Learning (GraphCL)を提案する。 GraphCLは、2つの固有特徴のランダムな摂動バージョンの表現と、同じノードの局所部分グラフのリンク構造との類似性を最大化することでノード埋め込みを学習する。 グラフニューラルネットワークを用いて、同じノードの2つの表現を生成し、対照的な学習損失を利用して両者の一致を最大化する。 帰納的学習と帰納的学習の両方において,本手法がノード分類ベンチマークにおいて教師なし学習の最先端性を大幅に上回ることを示す。

We propose Graph Contrastive Learning (GraphCL), a general framework for learning node representations in a self supervised manner. GraphCL learns node embeddings by maximizing the similarity between the representations of two randomly perturbed versions of the intrinsic features and link structure of the same node's local subgraph. We use graph neural networks to produce two representations of the same node and leverage a contrastive learning loss to maximize agreement between them. In both transductive and inductive learning setups, we demonstrate that our approach significantly outperforms the state-of-the-art in unsupervised learning on a number of node classification benchmarks.
翻訳日:2022-11-10 05:10:51 公開日:2020-07-15
# クラスタ結果の評価と検証

Evaluating and Validating Cluster Results ( http://arxiv.org/abs/2007.08034v1 )

ライセンス: Link先を確認
Anupriya Vysala and Dr. Joseph Gomes(参考訳) クラスタリングはその特性に応じてデータを分割するテクニックである。 本質的に類似したデータは、同じクラスタ [1] に属する。 クラスタリングの品質を評価するための評価方法は2種類ある。 1つは、データセット内の真理ラベルが事前に知られている外部評価であり、もう1つは、真のラベルなしでデータセット自身で評価を行う内部評価である。 本稿では、IRISデータセットのクラスタ結果に対して、外部評価と内部評価の両方を行う。 外部評価均質性の場合、データセットに対して正確性およびv測定スコアを算出する。 内部性能測定には、Silhouette IndexとSum of Square Errorsが使用される。 これらの内部パフォーマンス測定とデンドログラム(階層クラスタリングの図式ツール)は、まずクラスタ数を検証するために使用される。 最後に、統計的ツールとして、クラスタリング結果と元のデータ内の観測結果の分布の視覚的表現を比較するために、周波数分布法を用いた。

Clustering is the technique to partition data according to their characteristics. Data that are similar in nature belong to the same cluster [1]. There are two types of evaluation methods to evaluate clustering quality. One is an external evaluation where the truth labels in the data sets are known in advance and the other is internal evaluation in which the evaluation is done with data set itself without true labels. In this paper, both external evaluation and internal evaluation are performed on the cluster results of the IRIS dataset. In the case of external evaluation Homogeneity, Correctness and V-measure scores are calculated for the dataset. For internal performance measures, the Silhouette Index and Sum of Square Errors are used. These internal performance measures along with the dendrogram (graphical tool from hierarchical Clustering) are used first to validate the number of clusters. Finally, as a statistical tool, we used the frequency distribution method to compare and provide a visual representation of the distribution of observations within a clustering result and the original data.
翻訳日:2022-11-10 05:10:42 公開日:2020-07-15
# 可視化を用いたCNNに基づくオブジェクト分類器のデコード

Decoding CNN based Object Classifier Using Visualization ( http://arxiv.org/abs/2007.07482v1 )

ライセンス: Link先を確認
Abhishek Mukhopadhyay, Imon Mukherjee, Pradipta Biswas(参考訳) 本稿では、自動運転車の機械認識の文脈における可視化を通して、CNN(Convolutional Neural Network)の動作をいかに説明できるかを検討する。 我々は、CNNの異なる畳み込み層でどのような特徴が抽出されるのかを可視化し、CNNが各層の空間情報をどのように徐々に増加させるかを理解するのに役立つ。 したがって、すべての変革における関心領域に集中する。 活性化の熱マップの可視化は、CNNが画像内の異なるオブジェクトを分類し、ローカライズする方法を理解するのに役立つ。 この研究は、モデルの低い精度の裏でオブジェクト検出モジュールの信頼性を高めるのにも役立ちます。

This paper investigates how working of Convolutional Neural Network (CNN) can be explained through visualization in the context of machine perception of autonomous vehicles. We visualize what type of features are extracted in different convolution layers of CNN that helps to understand how CNN gradually increases spatial information in every layer. Thus, it concentrates on region of interests in every transformation. Visualizing heat map of activation helps us to understand how CNN classifies and localizes different objects in image. This study also helps us to reason behind low accuracy of a model helps to increase trust on object detection module.
翻訳日:2022-11-10 05:10:14 公開日:2020-07-15
# 文書ストリーム上でのニューラルネットワーク分類システムの評価

Evaluation of Neural Network Classification Systems on Document Stream ( http://arxiv.org/abs/2007.07547v1 )

ライセンス: Link先を確認
Joris Voerman, Aurelie Joseph, Mickael Coustaty, Vincent Poulain d Andecy and Jean-Marc Ogier(参考訳) 文書分類目的のための芸術ニューラルネットワーク(NN)ベースのアプローチの最大の欠点は、効率的な分類を得るのに必要な多くのトレーニングサンプルである。 最低要件数は各クラスに対して約1000の注釈付き文書である。 多くの場合、実際の工業プロセスでこの数のサンプルを集めることは不可能ではないとしても、非常に難しい。 本稿では,企業文書ストリームの状況に基づいて,下位最適学習事例におけるnnベースの文書分類システムの有効性について分析する。 画像コンテンツに基づく3つのアプローチと、テキストコンテンツに基づく2つのアプローチを評価した。 評価は4つの部分に分けられた: ラボにおけるシステムの性能を評価するための参照ケース、ドキュメントストリーム処理に関連付けられた特定の難易度をシミュレートする2つのケース、そしてこれらすべての難しさを結合した現実的なケース。 この現実的なケースは、NNベースの文書分類システムの効率が著しく低下しているという事実を強調した。 適切に表現されたクラスには効率が良いが(それらのクラスにはシステムの過度な適合性がある)、適切に表現されていないクラスを扱うことは不可能である。 NNベースの文書分類システムは、企業文書ストリームで使用するために考慮される前に、これらの2つの問題を解決するために適応する必要がある。

One major drawback of state of the art Neural Networks (NN)-based approaches for document classification purposes is the large number of training samples required to obtain an efficient classification. The minimum required number is around one thousand annotated documents for each class. In many cases it is very difficult, if not impossible, to gather this number of samples in real industrial processes. In this paper, we analyse the efficiency of NN-based document classification systems in a sub-optimal training case, based on the situation of a company document stream. We evaluated three different approaches, one based on image content and two on textual content. The evaluation was divided into four parts: a reference case, to assess the performance of the system in the lab; two cases that each simulate a specific difficulty linked to document stream processing; and a realistic case that combined all of these difficulties. The realistic case highlighted the fact that there is a significant drop in the efficiency of NN-Based document classification systems. Although they remain efficient for well represented classes (with an over-fitting of the system for those classes), it is impossible for them to handle appropriately less well represented classes. NN-Based document classification systems need to be adapted to resolve these two problems before they can be considered for use in a company document stream.
翻訳日:2022-11-10 05:10:02 公開日:2020-07-15
# CycAs: 再確認可能な記述を学習するための自己指導型サイクルアソシエーション

CycAs: Self-supervised Cycle Association for Learning Re-identifiable Descriptions ( http://arxiv.org/abs/2007.07577v1 )

ライセンス: Link先を確認
Zhongdao Wang, Jingwei Zhang, Liang Zheng, Yixuan Liu, Yifan Sun, Yali Li, Shengjin Wang(参考訳) 本稿では,既存の教師なし手法がビデオトラックレットやクラスタリングなどの擬似ラベルに依存する人物再同定(re-id)問題に対する自己教師付き学習手法を提案する。 擬似ラベルを使うことの潜在的な欠点は、エラーが蓄積され、擬似IDの数を見積もることは困難である。 疑似ラベルを使わずに、生のビデオから歩行者の埋め込みを学習できる別の教師なし手法を導入する。 目標は、人物の再識別目標にマッチする自己教師付きプリテキストタスクを構築することだ。 マルチオブジェクト追跡における \emph{data association} の概念に着想を得て,一対のビデオフレーム間のデータアソシエーションを前後に実行した後,歩行者インスタンスを自身に関連付けるという, \textbf{Cyc}le \textbf{As}sociation (\textbf{CycAs}) タスクを提案する。 この目標を達成するために、モデルはフレームペアのインスタンス間の対応を適切に記述できる意味のある表現を学ばなければならない。 我々は、エンドツーエンドのトレーニングが実現できるように、個別のアソシエーションプロセスを差別化可能な形式に適応する。 まず,提案手法と既存の教師なし再識別法を7つのベンチマークで比較し,cycasの優れていることを示す。 次に,現実のアプリケーションにおけるCycAsの実用的価値をさらに検証するために,自己コンパイルビデオのトレーニングを行い,標準テストセットで有望な性能を報告する。

This paper proposes a self-supervised learning method for the person re-identification (re-ID) problem, where existing unsupervised methods usually rely on pseudo labels, such as those from video tracklets or clustering. A potential drawback of using pseudo labels is that errors may accumulate and it is challenging to estimate the number of pseudo IDs. We introduce a different unsupervised method that allows us to learn pedestrian embeddings from raw videos, without resorting to pseudo labels. The goal is to construct a self-supervised pretext task that matches the person re-ID objective. Inspired by the \emph{data association} concept in multi-object tracking, we propose the \textbf{Cyc}le \textbf{As}sociation (\textbf{CycAs}) task: after performing data association between a pair of video frames forward and then backward, a pedestrian instance is supposed to be associated to itself. To fulfill this goal, the model must learn a meaningful representation that can well describe correspondences between instances in frame pairs. We adapt the discrete association process to a differentiable form, such that end-to-end training becomes feasible. Experiments are conducted in two aspects: We first compare our method with existing unsupervised re-ID methods on seven benchmarks and demonstrate CycAs' superiority. Then, to further validate the practical value of CycAs in real-world applications, we perform training on self-collected videos and report promising performance on standard test sets.
翻訳日:2022-11-10 05:09:43 公開日:2020-07-15
# 伝達学習の可視化

Visualizing Transfer Learning ( http://arxiv.org/abs/2007.07628v1 )

ライセンス: Link先を確認
R\'obert Szab\'o, D\'aniel Katona, M\'arton Csillag, Adri\'an Csisz\'arik, D\'aniel Varga(参考訳) 転送学習の時間的過程において,深層画像認識ネットワークの個々のニューロンを可視化する。 これらの可視化は、適応の速度と特性、ニューロンの再利用、表現された画像の特徴の空間的スケール、小さなデータへの転送学習の振る舞いに関する、転送学習プロセスの様々な新しい特性を定性的に示している。 この分析のために作成した大規模なデータセットを公開しています。

We provide visualizations of individual neurons of a deep image recognition network during the temporal process of transfer learning. These visualizations qualitatively demonstrate various novel properties of the transfer learning process regarding the speed and characteristics of adaptation, neuron reuse, spatial scale of the represented image features, and behavior of transfer learning to small data. We publish the large-scale dataset that we have created for the purposes of this analysis.
翻訳日:2022-11-10 05:09:14 公開日:2020-07-15
# シーン適応型異常検出

Few-shot Scene-adaptive Anomaly Detection ( http://arxiv.org/abs/2007.07843v1 )

ライセンス: Link先を確認
Yiwei Lu, Frank Yu, Mahesh Kumar Krishna Reddy and Yang Wang(参考訳) ビデオにおける異常検出の問題に対処する。 目標は、通常のビデオからのみ学習することで、異常な振る舞いを自動的に識別することだ。 既存のアプローチの多くはデータハングリーであり、一般化能力は限られている。 それらは通常、ターゲットシーンからの大量のビデオで訓練され、そのシーンで良い結果を得る必要がある。 本稿では,従来のアプローチの限界に対処するため,新しいシーン適応型異常検出問題を提案する。 私たちの目標は、わずか数フレームで未発見のシーンで異常を検出することを学ぶことです。 この新しい問題の信頼できるソリューションは、ターゲットシーンごとに大量のデータを収集するコストがかかるため、現実世界のアプリケーションにおいて大きな可能性を秘めている。 本稿では,この問題を解決するメタラーニングに基づくアプローチを提案し,提案手法の有効性を実験的に検証した。

We address the problem of anomaly detection in videos. The goal is to identify unusual behaviours automatically by learning exclusively from normal videos. Most existing approaches are usually data-hungry and have limited generalization abilities. They usually need to be trained on a large number of videos from a target scene to achieve good results in that scene. In this paper, we propose a novel few-shot scene-adaptive anomaly detection problem to address the limitations of previous approaches. Our goal is to learn to detect anomalies in a previously unseen scene with only a few frames. A reliable solution for this new problem will have huge potential in real-world applications since it is expensive to collect a massive amount of data for each target scene. We propose a meta-learning based approach for solving this new problem; extensive experimental results demonstrate the effectiveness of our proposed method.
翻訳日:2022-11-10 05:08:42 公開日:2020-07-15
# 糖尿病足部潰瘍検出のための深層学習手法

A Refined Deep Learning Architecture for Diabetic Foot Ulcers Detection ( http://arxiv.org/abs/2007.07922v1 )

ライセンス: Link先を確認
Manu Goyal and Saeed Hassanpour(参考訳) 下肢に影響を及ぼす糖尿病性下腿潰瘍(DFU)は糖尿病の大きな合併症である。 毎年、100万人以上の糖尿病患者がdfuを認識できずに切断を受け、臨床医から適切な治療を受ける。 DFUの検出にはCADシステムを使う必要がある。 本稿では,4500枚のDFU画像からなるDFUC2020チャレンジデータセットにおいて,DFU検出のためのディープラーニング手法(EfficientDet Architectures)を提案する。 我々はさらに,false negative と false positive の予測を避けるために efficientdet アーキテクチャを洗練した。 このメソッドのコードはhttps://github.com/manugoyal12345/yet-another- efficientdet-pytorchで入手できる。

Diabetic Foot Ulcers (DFU) that affect the lower extremities are a major complication of diabetes. Each year, more than 1 million diabetic patients undergo amputation due to failure to recognize DFU and get the proper treatment from clinicians. There is an urgent need to use a CAD system for the detection of DFU. In this paper, we propose using deep learning methods (EfficientDet Architectures) for the detection of DFU in the DFUC2020 challenge dataset, which consists of 4,500 DFU images. We further refined the EfficientDet architecture to avoid false negative and false positive predictions. The code for this method is available at https://github.com/Manugoyal12345/Yet-Another-EfficientDet-Pytorch.
翻訳日:2022-11-10 05:08:31 公開日:2020-07-15
# 拡張アンカーを用いたラベル伝搬:教師なしドメイン適応のための半教師付き学習ベースライン

Label Propagation with Augmented Anchors: A Simple Semi-Supervised Learning baseline for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2007.07695v1 )

ライセンス: Link先を確認
Yabin Zhang, Bin Deng, Kui Jia and Lei Zhang(参考訳) 教師なしドメイン適応(UDA)と半教師付き学習(SSL)の問題点に触発された多くの最先端UDAメソッドは、SSL原則(例えばクラスタ仮定)を学習要素として採用している。 しかし、彼らは UDA のドメインシフトの性質を無視する傾向があります。 本研究では,UDAのためのSSL技術の適切な拡張について検討する。 ラベル伝播のアルゴリズム(lp)を例として,lpをudaに適用することの課題を分析し,理論的にアフィニティグラフ/マトリックス構成の条件を解析し,ラベルなしインスタンスへの真のラベルの伝播を改善する。 このアルゴリズムは, ラベル付き仮想インスタンス(すなわち, アンカー)を高信頼なラベル予測で生成することで, LPを改善する可能性がある。 提案したA$^2$LPをUDAに役立てるために,このような仮想インスタンスを生成する経験的スキームを提案する。 提案手法は、A$^2$LPによる擬似ラベリングとドメイン不変の特徴学習を交互に組み合わせることで、UDAのドメインシフト問題にも対処する。 実験により、このような単純なSSL拡張は、ドメイン不変の機能学習のUDAメソッドよりも改善され、UDAデータセットのベンチマークで2つの最先端メソッドが強化されることが示された。 以上の結果から, UDA問題に対するSSL手法のさらなる検討の価値が示唆された。

Motivated by the problem relatedness between unsupervised domain adaptation (UDA) and semi-supervised learning (SSL), many state-of-the-art UDA methods adopt SSL principles (e.g., the cluster assumption) as their learning ingredients. However, they tend to overlook the very domain-shift nature of UDA. In this work, we take a step further to study the proper extensions of SSL techniques for UDA. Taking the algorithm of label propagation (LP) as an example, we analyze the challenges of adopting LP to UDA and theoretically analyze the conditions of affinity graph/matrix construction in order to achieve better propagation of true labels to unlabeled instances. Our analysis suggests a new algorithm of Label Propagation with Augmented Anchors (A$^2$LP), which could potentially improve LP via generation of unlabeled virtual instances (i.e., the augmented anchors) with high-confidence label predictions. To make the proposed A$^2$LP useful for UDA, we propose empirical schemes to generate such virtual instances. The proposed schemes also tackle the domain-shift challenge of UDA by alternating between pseudo labeling via A$^2$LP and domain-invariant feature learning. Experiments show that such a simple SSL extension improves over representative UDA methods of domain-invariant feature learning, and could empower two state-of-the-art methods on benchmark UDA datasets. Our results show the value of further investigation on SSL techniques for UDA problems.
翻訳日:2022-11-10 05:02:13 公開日:2020-07-15
# グラフにおける双曲表現は等しくなるか?

Are Hyperbolic Representations in Graphs Created Equal? ( http://arxiv.org/abs/2007.07698v1 )

ライセンス: Link先を確認
Max Kochurov, Sergey Ivanov, Eugeny Burnaev(参考訳) 近年、非ユークリッド幾何学におけるグラフニューラルネットワークの応用への関心が高まっているが、非ユークリッド表現はグラフ学習タスクに常に有用か? ノード分類やリンク予測のような様々な問題に対して双曲的埋め込みを計算し、大域的予測の一貫性を必要とするタスクでは非ユークリッド埋め込みを使うのが有用であり、他のタスクではユークリッドモデルの方が優れていると結論づける。 そのため、私たちはまず、ゼロ曲率で最適化プロセスに関連する既存のモデルの問題を修正します。 現在の双曲的モデルは、非効率であり、数値的な不安定を生じさせる、アドホックな方法の起源の勾配を扱う。 ゼロ曲率の場合のKappa-Stereographicモデルの不安定性を解き、グラフ表現学習タスクにおけるグラフの多様体への埋め込みのアプローチを評価する。

Recently there was an increasing interest in applications of graph neural networks in non-Euclidean geometry; however, are non-Euclidean representations always useful for graph learning tasks? For different problems such as node classification and link prediction we compute hyperbolic embeddings and conclude that for tasks that require global prediction consistency it might be useful to use non-Euclidean embeddings, while for other tasks Euclidean models are superior. To do so we first fix an issue of the existing models associated with the optimization process at zero curvature. Current hyperbolic models deal with gradients at the origin in ad-hoc manner, which is inefficient and can lead to numerical instabilities. We solve the instabilities of kappa-Stereographic model at zero curvature cases and evaluate the approach of embedding graphs into the manifold in several graph representation learning tasks.
翻訳日:2022-11-10 05:01:44 公開日:2020-07-15
# 交通シナリオの深層表現学習とクラスタリング

Deep Representation Learning and Clustering of Traffic Scenarios ( http://arxiv.org/abs/2007.07740v1 )

ライセンス: Link先を確認
Nick Harmening, Marin Bilo\v{s}, Stephan G\"unnemann(参考訳) 交通シナリオ空間の決定は、自動運転機能のホモログ化とカバレッジ評価において大きな課題である。 シナリオベースで専門知識に依存する現在のアプローチとは対照的に,トラヒックシーンの潜在表現を学習する2つのデータ駆動オートエンコーディングモデルを導入する。 まず、CNNベースの時空間モデルで、交通参加者の位置のグリッドを自動エンコードする。 第2に,集合列を自動符号化する純粋時間的RNNモデルを開発する。 非順序集合データを扱うためには、置換不変性を組み込む必要がある。 最後に、遅延シナリオの埋め込みがトラフィックシナリオのクラスタリングや類似性検索にどのように使用できるかを示す。

Determining the traffic scenario space is a major challenge for the homologation and coverage assessment of automated driving functions. In contrast to current approaches that are mainly scenario-based and rely on expert knowledge, we introduce two data driven autoencoding models that learn a latent representation of traffic scenes. First is a CNN based spatio-temporal model that autoencodes a grid of traffic participants' positions. Secondly, we develop a pure temporal RNN based model that auto-encodes a sequence of sets. To handle the unordered set data, we had to incorporate the permutation invariance property. Finally, we show how the latent scenario embeddings can be used for clustering traffic scenarios and similarity retrieval.
翻訳日:2022-11-10 05:01:12 公開日:2020-07-15
# サバイバルスーパービジョンを用いたニューラルトピックモデル:時系列結果の予測と臨床像の関連性学習

Neural Topic Models with Survival Supervision: Jointly Predicting Time-to-Event Outcomes and Learning How Clinical Features Relate ( http://arxiv.org/abs/2007.07796v1 )

ライセンス: Link先を確認
Linhong Li, Ren Zuo, Amanda Coston, Jeremy C. Weiss, George H. Chen(参考訳) 時間-事象予測問題において、解釈可能なモデルを推定するための標準的なアプローチは、ラッソ正則化やステップワイズ回帰に基づいて特徴を選択できるcox比例ハザードを使用することである。 しかし、これらのCoxベースのモデルは、異なる機能がどのように関連しているかを学ばない。 代替として、トピックモデルの観点から機能がどのように関連しているかを同時に学習しながら、生存率モデルを共同学習するための解釈可能なニューラルネットワークアプローチを提案する。 特に、各被験者を「トピック」の分布としてモデル化し、臨床的特徴から学習し、時間と結果の予測に役立てる。 技術的観点から、既存のニューラルトピックモデリングアプローチを拡張し、生存分析損失関数を最小化する。 本研究は,7つの医療データセットによる死までの予測と入院期間の予測について検討し,ニューラルサバイバルによるトピックモデルが既存のアプローチと競合する精度を達成し,機能的関係を説明する「トピック」が得られた。

In time-to-event prediction problems, a standard approach to estimating an interpretable model is to use Cox proportional hazards, where features are selected based on lasso regularization or stepwise regression. However, these Cox-based models do not learn how different features relate. As an alternative, we present an interpretable neural network approach to jointly learn a survival model to predict time-to-event outcomes while simultaneously learning how features relate in terms of a topic model. In particular, we model each subject as a distribution over "topics", which are learned from clinical features as to help predict a time-to-event outcome. From a technical standpoint, we extend existing neural topic modeling approaches to also minimize a survival analysis loss function. We study the effectiveness of this approach on seven healthcare datasets on predicting time until death as well as hospital ICU length of stay, where we find that neural survival-supervised topic models achieves competitive accuracy with existing approaches while yielding interpretable clinical "topics" that explain feature relationships.
翻訳日:2022-11-10 05:01:01 公開日:2020-07-15
# 勾配学習者からの逆強化学習

Inverse Reinforcement Learning from a Gradient-based Learner ( http://arxiv.org/abs/2007.07812v1 )

ライセンス: Link先を確認
Giorgia Ramponi and Gianluca Drappo and Marcello Restelli(参考訳) 逆強化学習は、実演から専門家の報酬関数を推測する問題に対処する。 しかし、多くのアプリケーションでは、専門家の最適に近い行動にアクセスするだけでなく、学習プロセスの一部も観察しています。 本稿では,学習中に生成する一連のポリシーを与えられた場合,エージェントが最適化する報酬関数を回復することを目的とした,この設定のための新しいアルゴリズムを提案する。 提案手法は,対象エージェントが勾配方向に沿ってポリシーパラメータを更新しているという仮定に基づいている。 そして,学習軌跡のデータセットにのみアクセス可能な,より現実的なシナリオに対処する手法を拡張した。 どちらの設定でも、アルゴリズムのパフォーマンスに関する理論的洞察を提供する。 最後に、シミュレーションされたグリッドワールド環境とmujoco環境におけるアプローチを評価し、最先端のベースラインと比較する。

Inverse Reinforcement Learning addresses the problem of inferring an expert's reward function from demonstrations. However, in many applications, we not only have access to the expert's near-optimal behavior, but we also observe part of her learning process. In this paper, we propose a new algorithm for this setting, in which the goal is to recover the reward function being optimized by an agent, given a sequence of policies produced during learning. Our approach is based on the assumption that the observed agent is updating her policy parameters along the gradient direction. Then we extend our method to deal with the more realistic scenario where we only have access to a dataset of learning trajectories. For both settings, we provide theoretical insights into our algorithms' performance. Finally, we evaluate the approach in a simulated GridWorld environment and on the MuJoCo environments, comparing it with the state-of-the-art baseline.
翻訳日:2022-11-10 05:00:22 公開日:2020-07-15
# オーバーラップとアンバランスのモルフォロジーに基づくデータ複雑度メトリクスの再検討:スナップショット,ボールの新たなオーバーラップ数,特異問題

Revisiting Data Complexity Metrics Based on Morphology for Overlap and Imbalance: Snapshot, New Overlap Number of Balls Metrics and Singular Problems Prospect ( http://arxiv.org/abs/2007.07935v1 )

ライセンス: Link先を確認
Jos\'e Daniel Pascual-Triana, David Charte, Marta Andr\'es Arroyo, Alberto Fern\'andez and Francisco Herrera(参考訳) データサイエンスと機械学習は企業や研究機関の基本的な資産になっている。 その分野のひとつとして、教師付き分類は、与えられたトレーニングデータから学習した新しいサンプルのクラス予測を可能にする。 しかし、いくつかのプロパティはデータセットの分類に問題を引き起こす可能性がある。 データセットを事前評価するために、データ複雑性メトリクスが広く使われている。 それらはデータの異なる本質的特性に関する情報を提供し、分類器の互換性を評価するのに役立つ。 しかし、ほとんどの複雑性メトリクスはデータの1つの特性だけに焦点を当てており、分類器のパフォーマンスに向けてデータセットを適切に評価するには不十分である。 実際、クラス重複は分類プロセスにとって非常に有害な特徴であり(特にクラスラベルの不均衡が存在する場合)、評価が難しい。 本研究は,データ形態に基づく複雑性メトリクスの再検討に焦点をあてる。 その性質に応じて、クラスオーバーラップに対する優れた推定と、分類性能との大きな相関の両方を提供するという前提がある。 そのため、新しいメトリクスのファミリーが開発された。 クラスによってボールのカバレッジに基づいており、ボールの重複数にちなんで名づけられる。 最後に, 単数(より複雑な)問題に対して, 前者メトリクス群が適応する可能性について考察する。

Data Science and Machine Learning have become fundamental assets for companies and research institutions alike. As one of its fields, supervised classification allows for class prediction of new samples, learning from given training data. However, some properties can cause datasets to be problematic to classify. In order to evaluate a dataset a priori, data complexity metrics have been used extensively. They provide information regarding different intrinsic characteristics of the data, which serve to evaluate classifier compatibility and a course of action that improves performance. However, most complexity metrics focus on just one characteristic of the data, which can be insufficient to properly evaluate the dataset towards the classifiers' performance. In fact, class overlap, a very detrimental feature for the classification process (especially when imbalance among class labels is also present) is hard to assess. This research work focuses on revisiting complexity metrics based on data morphology. In accordance to their nature, the premise is that they provide both good estimates for class overlap, and great correlations with the classification performance. For that purpose, a novel family of metrics have been developed. Being based on ball coverage by classes, they are named after Overlap Number of Balls. Finally, some prospects for the adaptation of the former family of metrics to singular (more complex) problems are discussed.
翻訳日:2022-11-10 05:00:09 公開日:2020-07-15
# 機械学習における差分レプリケーション

Differential Replication in Machine Learning ( http://arxiv.org/abs/2007.07981v1 )

ライセンス: Link先を確認
Irene Unceta, Jordi Nin and Oriol Pujol(参考訳) ワイルドにデプロイされる場合、マシンラーニングモデルは、通常、生成分布の変化や、モデルが動作する環境が外部制約によって変化するため、常に変化するデータや要件に直面します。 このようなエコシステムで生き残るためには、機械学習モデルは時間とともに進化して新しい状況に適応する必要がある。 モデル適応性の概念は異なる視点から研究されてきた。 本稿では,すでにデプロイされている機械学習モデルが獲得した知識を再利用し,次世代の学習に活用する手法を提案する。 これは機械学習モデルの差分複製の背景にある考え方である。

When deployed in the wild, machine learning models are usually confronted with data and requirements that constantly vary, either because of changes in the generating distribution or because external constraints change the environment where the model operates. To survive in such an ecosystem, machine learning models need to adapt to new conditions by evolving over time. The idea of model adaptability has been studied from different perspectives. In this paper, we propose a solution based on reusing the knowledge acquired by the already deployed machine learning models and leveraging it to train future generations. This is the idea behind differential replication of machine learning models.
翻訳日:2022-11-10 04:59:34 公開日:2020-07-15
# MTS-CycleGAN:多変量時系列ドメイン適応のための逆対応型深層マッピング学習ネットワーク

MTS-CycleGAN: An Adversarial-based Deep Mapping Learning Network for Multivariate Time Series Domain Adaptation Applied to the Ironmaking Industry ( http://arxiv.org/abs/2007.07518v1 )

ライセンス: Link先を確認
Cedric Schockaert, Henri Hoyez(参考訳) 現在の時代には、産業プロセスの自動化のために機械学習モデルが増えています。 そのため、機械学習モデルは、各資産の履歴データを用いてトレーニングされ、資産ベースのモデルの開発につながる。 機械学習モデルをより高いレベルの学習能力に高めるために、ドメイン適応は複数の資産から関連するパターンをまとめて抽出する扉を開いた。 本研究では、特定のアセットに基づく履歴データ(ソースドメイン)を1つの参照アセット(ターゲットドメイン)に対応するデータに変換することに焦点を当て、ドメイン不変汎用機械学習モデルのトレーニングに必要なマルチアセットのグローバルデータセットを作成する。 本研究は, 製鉄産業へのドメイン適応, 特に異なる高炉からのデータ収集によるドメイン不変データセットの作成に適用するために行われた。 ブラスト炉データは多変量時系列により特徴付けられる。 多変量時系列データのドメイン適応は文献で広く取り上げられていない。 本稿では,CycleGAN に基づく多変量時系列データのアルゴリズム MTS-CycleGAN を提案する。 私たちの知る限りでは、多変量時系列データにcycleganを適用するのはこれが初めてです。 我々の貢献は、Long Short-Term Memory (LSTM)-based AutoEncoder (AE) for the generator and a stacked LSTM-based discriminatorのCycleGANアーキテクチャと、専用の拡張機能抽出機構の統合である。 MTS-CycleGANは, 爆発炉過程を反映する変数間の複雑な時間的関係を埋め込んだ2つの人工データセットを用いて検証した。 mts-cycleganは、人工多変量時系列データセットのマッピングをうまく学習し、ソースからターゲットの人工高炉データセットへの効率的な変換を可能にしている。

In the current era, an increasing number of machine learning models is generated for the automation of industrial processes. To that end, machine learning models are trained using historical data of each single asset leading to the development of asset-based models. To elevate machine learning models to a higher level of learning capability, domain adaptation has opened the door for extracting relevant patterns from several assets combined together. In this research we are focusing on translating the specific asset-based historical data (source domain) into data corresponding to one reference asset (target domain), leading to the creation of a multi-assets global dataset required for training domain invariant generic machine learning models. This research is conducted to apply domain adaptation to the ironmaking industry, and particularly for the creation of a domain invariant dataset by gathering data from different blast furnaces. The blast furnace data is characterized by multivariate time series. Domain adaptation for multivariate time series data hasn't been covered extensively in the literature. We propose MTS-CycleGAN, an algorithm for Multivariate Time Series data based on CycleGAN. To the best of our knowledge, this is the first time CycleGAN is applied on multivariate time series data. Our contribution is the integration in the CycleGAN architecture of a Long Short-Term Memory (LSTM)-based AutoEncoder (AE) for the generator and a stacked LSTM-based discriminator, together with dedicated extended features extraction mechanisms. MTS-CycleGAN is validated using two artificial datasets embedding the complex temporal relations between variables reflecting the blast furnace process. MTS-CycleGAN is successfully learning the mapping between both artificial multivariate time series datasets, allowing an efficient translation from a source to a target artificial blast furnace dataset.
翻訳日:2022-11-10 04:53:11 公開日:2020-07-15
# Qgraph-bounded Q-learning: モデルなしオフポリティ深い強化学習の安定化

Qgraph-bounded Q-learning: Stabilizing Model-Free Off-Policy Deep Reinforcement Learning ( http://arxiv.org/abs/2007.07582v1 )

ライセンス: Link先を確認
Sabrina Hoppe and Marc Toussaint(参考訳) アートモデルフリーのオフポリシー深層強化学習では、過去の経験を記憶し、すべてのネットワーク更新を導出するためにリプレイメモリが使用される。 状態空間と動作空間の両方が連続であっても、リプレイメモリは有限個の遷移しか保持しない。 データグラフでこれらの遷移を表現し、その構造をソフトな分散にリンクする。 有利な構造を持つ部分グラフを選択することで、より多くのデータが入ってくるにつれて正確なQ値が効率的に計算できる簡易マルコフ決定プロセスを構築する。 部分グラフとその関連Q値はQGraphとして表現できる。 単純化された MDP における各遷移に対する Q-値が、元の連続 Q-ラーニング問題における同じ遷移に対する Q-値の低い境界であることを示す。 時間差学習におけるこれらの下限を用いることで, qg-ddpg法は軟発散性が低下し, ハイパーパラメータに頑健なサンプル効率が向上する。 QGraphは、すでにリプレイメモリに上書きされているトランジションの情報を保持するため、リプレイメモリ容量に対するアルゴリズムの感度が低下する可能性がある。

In state of the art model-free off-policy deep reinforcement learning, a replay memory is used to store past experience and derive all network updates. Even if both state and action spaces are continuous, the replay memory only holds a finite number of transitions. We represent these transitions in a data graph and link its structure to soft divergence. By selecting a subgraph with a favorable structure, we construct a simplified Markov Decision Process for which exact Q-values can be computed efficiently as more data comes in. The subgraph and its associated Q-values can be represented as a QGraph. We show that the Q-value for each transition in the simplified MDP is a lower bound of the Q-value for the same transition in the original continuous Q-learning problem. By using these lower bounds in temporal difference learning, our method QG-DDPG is less prone to soft divergence and exhibits increased sample efficiency while being more robust to hyperparameters. QGraphs also retain information from transitions that have already been overwritten in the replay memory, which can decrease the algorithm's sensitivity to the replay memory capacity.
翻訳日:2022-11-10 04:52:25 公開日:2020-07-15
# モデル解釈可能性の定量的側面について

On quantitative aspects of model interpretability ( http://arxiv.org/abs/2007.07584v1 )

ライセンス: Link先を確認
An-phi Nguyen, Mar\'ia Rodr\'iguez Mart\'inez(参考訳) 解釈可能な機械学習における作業の活発化にもかかわらず、定性的な評価やユーザスタディに頼ることなく、異なる説明可能性手法をどのように評価するかは、いまだ不明である。 解釈性は本質的に主観的な問題であるが、認知科学や認識論における以前の研究は、良い説明は誠実さや広さなど、客観的に判断できる側面を持っていることを示している。 本稿では,これらの次元に沿った解釈可能性手法をプログラム的に評価する指標セットを提案する。 特に,これらの次元に沿った手法の性能は,2つの概念的部分,すなわち特徴抽出器と実際の説明可能性法に直交的に説明できると主張している。 異なるベンチマークタスクのメトリクスを実験的に検証し、そのタスクに最も適したメソッドの選択において、実践者の指導にどのように使用できるかを示す。

Despite the growing body of work in interpretable machine learning, it remains unclear how to evaluate different explainability methods without resorting to qualitative assessment and user-studies. While interpretability is an inherently subjective matter, previous works in cognitive science and epistemology have shown that good explanations do possess aspects that can be objectively judged apart from fidelity), such assimplicity and broadness. In this paper we propose a set of metrics to programmatically evaluate interpretability methods along these dimensions. In particular, we argue that the performance of methods along these dimensions can be orthogonally imputed to two conceptual parts, namely the feature extractor and the actual explainability method. We experimentally validate our metrics on different benchmark tasks and show how they can be used to guide a practitioner in the selection of the most appropriate method for the task at hand.
翻訳日:2022-11-10 04:52:07 公開日:2020-07-15
# 機械学習アルゴリズムのハイパーパラメータチューニングの重要性

Importance of Tuning Hyperparameters of Machine Learning Algorithms ( http://arxiv.org/abs/2007.07588v1 )

ライセンス: Link先を確認
Hilde J.P. Weerts, Andreas C. Mueller, Joaquin Vanschoren(参考訳) 多くの機械学習アルゴリズムのパフォーマンスは、ハイパーパラメータ設定に依存する。 本研究の目的は,ハイパーパラメータのチューニングが重要であるか,あるいはデフォルト値に安全に設定できるかどうかを判断することである。 ハイパーパラメータがチューニングされていない場合に発生するパフォーマンス損失をデフォルト値に設定し,非不確実性テストとチューニングリスクに基づいてハイパーパラメータをチューニングすることの重要性を判定する手法を提案する。 我々のメソッドはデフォルトパラメータの概念を必要とするので、合理的なデフォルトパラメータを決定するのに使える簡単な手順を提示します。 提案手法をOpenMLの59データセットを用いたベンチマーク研究に適用する。 以上の結果から,特定のハイパーパラメータをデフォルト値にしておくことは,これらのハイパーパラメータのチューニングには不都合であることが示唆された。 場合によっては、ハイパーパラメータをデフォルト値にしておくことで、限られたイテレーション数で検索手順でチューニングする回数を上回っている場合もある。

The performance of many machine learning algorithms depends on their hyperparameter settings. The goal of this study is to determine whether it is important to tune a hyperparameter or whether it can be safely set to a default value. We present a methodology to determine the importance of tuning a hyperparameter based on a non-inferiority test and tuning risk: the performance loss that is incurred when a hyperparameter is not tuned, but set to a default value. Because our methods require the notion of a default parameter, we present a simple procedure that can be used to determine reasonable default parameters. We apply our methods in a benchmark study using 59 datasets from OpenML. Our results show that leaving particular hyperparameters at their default value is non-inferior to tuning these hyperparameters. In some cases, leaving the hyperparameter at its default value even outperforms tuning it using a search procedure with a limited number of iterations.
翻訳日:2022-11-10 04:51:51 公開日:2020-07-15
# 教師付きVAEを用いた解釈可能性の学習不変性

Learning Invariances for Interpretability using Supervised VAE ( http://arxiv.org/abs/2007.07591v1 )

ライセンス: Link先を確認
An-phi Nguyen, Mar\'ia Rodr\'iguez Mart\'inez(参考訳) モデル解釈の手段としてモデル不変性を学ぶことを提案する。 これはリバースエンジニアリングの原則が動機です。 問題が理解できれば、不変の形でモデルに帰納バイアスを導入することができる。 逆に、複素教師付きモデル解釈では、その不変性を研究して、そのモデルがどのように問題を解くかを理解することができる。 そこで本研究では,変分自動エンコーダ(VAE)の制御形式を提案する。 重要なことに、潜在空間の次元のサブセットだけが教師付きタスクに寄与し、残りの次元はニュアンスパラメータとして振舞うことができる。 ニュアサンス次元のみをサンプリングすることで、分類を変更せずに変換を行うサンプルを生成し、モデルの不変性を明らかにすることができる。 実験の結果, 提案モデルの分類と不変変換試料の生成の両面で, 性能が示された。 最後に,モデルと機能帰属手法を組み合わせることで,モデルの意思決定プロセスに関するより詳細な理解が得られることを示す。

We propose to learn model invariances as a means of interpreting a model. This is motivated by a reverse engineering principle. If we understand a problem, we may introduce inductive biases in our model in the form of invariances. Conversely, when interpreting a complex supervised model, we can study its invariances to understand how that model solves a problem. To this end we propose a supervised form of variational auto-encoders (VAEs). Crucially, only a subset of the dimensions in the latent space contributes to the supervised task, allowing the remaining dimensions to act as nuisance parameters. By sampling solely the nuisance dimensions, we are able to generate samples that have undergone transformations that leave the classification unchanged, revealing the invariances of the model. Our experimental results show the capability of our proposed model both in terms of classification, and generation of invariantly transformed samples. Finally we show how combining our model with feature attribution methods it is possible to reach a more fine-grained understanding about the decision process of the model.
翻訳日:2022-11-10 04:51:38 公開日:2020-07-15
# timeXplain -- 時系列分類器の予測を説明するフレームワーク

timeXplain -- A Framework for Explaining the Predictions of Time Series Classifiers ( http://arxiv.org/abs/2007.07606v1 )

ライセンス: Link先を確認
Felix Mujkanovic, Vanja Dosko\v{c}, Martin Schirneck, Patrick Sch\"afer, Tobias Friedrich(参考訳) 現代の時系列分類器は印象的な予測能力を示すが、その決定過程はユーザにとってブラックボックスのままである。 同時に、最近提案されたSHAPのようなモデルに依存しない説明者は、十分に設計されたドメインマッピングがあれば、機械学習モデルの予測を解釈できるようにする。 両世界をタイムXplainフレームワークにまとめて、説明可能な人工知能の範囲を時系列の分類と価値予測にまで広げる。 時系列統計だけでなく,時間領域と周波数領域の新たな領域マッピングを提案し,その拡張力とその限界を解析した。 我々はtimexplainを用いて,最先端の時系列分類器の大規模比較を行い,残留ニューラルネットワークや弾性アンサンブルなど,一見異なる分類概念の類似性を見出した。

Modern time series classifiers display impressive predictive capabilities, yet their decision-making processes mostly remain black boxes to the user. At the same time, model-agnostic explainers, such as the recently proposed SHAP, promise to make the predictions of machine learning models interpretable, provided there are well-designed domain mappings. We bring both worlds together in our timeXplain framework, extending the reach of explainable artificial intelligence to time series classification and value prediction. We present novel domain mappings for the time and the frequency domain as well as series statistics and analyze their explicative power as well as their limits. We employ timeXplain in a large-scale experimental comparison of several state-of-the-art time series classifiers and discover similarities between seemingly distinct classification concepts such as residual neural networks and elastic ensembles.
翻訳日:2022-11-10 04:51:23 公開日:2020-07-15
# 微分可能なクリッピング対応正規化と再スケーリング

Fast Differentiable Clipping-Aware Normalization and Rescaling ( http://arxiv.org/abs/2007.07677v1 )

ライセンス: Link先を確認
Jonas Rauber, Matthias Bethge(参考訳) ベクトル $\vec{\delta} \in \mathbb{R}^n$ を所望の長さに再スケーリングすることは、データサイエンスや機械学習など、多くの分野で一般的な操作である。 再スケールされた摂動 $\eta \vec{\delta}$ が開始点 $\vec{x} \in D$ ($D$ はデータ領域、例えば $D = [0, 1]^n$) に追加されるとき、結果として得られるベクトル $\vec{v} = \vec{x} + \eta \vec{\delta}$ は一般に$D$に含まれない。 摂動ベクトル $v$ が $d$ であるようにするために、$\vec{v}$ の値は $d$ にクリップできる。 しかし、後続の要素単位でデータ領域へのクリッピングは、効果的な摂動サイズを減少させ、従って$\vec{\delta}$の再スケーリングを妨げる。 クリッピング後の所望のノルムによる摂動を得るための最適な再スケーリング$\eta$ は、二項探索を用いて反復的に近似することができる。 しかし、そのような反復的なアプローチは遅く、微分不可能である。 ここでは,高速かつ微分可能なアルゴリズムを用いて,最適再スケーリングが解析的に見出されることを示す。 このアルゴリズムは任意のpノルムで動作し、正規化摂動を持つ入力でニューラルネットワークを訓練するのに使うことができる。 eagerpyをベースにpytorch、tensorflow、jax、numpyのネイティブ実装を提供しています。

Rescaling a vector $\vec{\delta} \in \mathbb{R}^n$ to a desired length is a common operation in many areas such as data science and machine learning. When the rescaled perturbation $\eta \vec{\delta}$ is added to a starting point $\vec{x} \in D$ (where $D$ is the data domain, e.g. $D = [0, 1]^n$), the resulting vector $\vec{v} = \vec{x} + \eta \vec{\delta}$ will in general not be in $D$. To enforce that the perturbed vector $v$ is in $D$, the values of $\vec{v}$ can be clipped to $D$. This subsequent element-wise clipping to the data domain does however reduce the effective perturbation size and thus interferes with the rescaling of $\vec{\delta}$. The optimal rescaling $\eta$ to obtain a perturbation with the desired norm after the clipping can be iteratively approximated using a binary search. However, such an iterative approach is slow and non-differentiable. Here we show that the optimal rescaling can be found analytically using a fast and differentiable algorithm. Our algorithm works for any p-norm and can be used to train neural networks on inputs with normalized perturbations. We provide native implementations for PyTorch, TensorFlow, JAX, and NumPy based on EagerPy.
翻訳日:2022-11-10 04:51:08 公開日:2020-07-15
# 顔認識: 公的受容, プライバシ, 差別に関する全国横断調査

Facial Recognition: A cross-national Survey on Public Acceptance, Privacy, and Discrimination ( http://arxiv.org/abs/2008.07275v1 )

ライセンス: Link先を確認
L\'ea Steinacker, Miriam Meckel, Genia Kostka, Damian Borth(参考訳) 機械学習(ML)の急速な進歩により、この技術の多くは、私たちと私たちの環境と対話する現実世界にデプロイされています。 MLの最も広く応用されている応用の1つは、数百万台のデバイスで動作する顔認識である。 一部の人々にとって有用である一方で、公共機関が使用する脅威として認識する者もいる。 この不一致と政策の欠如は、顔認識研究と開発の将来的な方向性に関するMLコミュニティの不確実性を高める。 本稿では,顔認識技術(FRT)の公的な受容,プライバシ,差別に関する全国横断調査の結果を紹介する。 本研究は、中国、ドイツ、イギリス(イギリス)、米国(米国)からのFRTに対する見解を洞察し、政策立案者や法規制機関のインプットとして機能する。

With rapid advances in machine learning (ML), more of this technology is being deployed into the real world interacting with us and our environment. One of the most widely applied application of ML is facial recognition as it is running on millions of devices. While being useful for some people, others perceive it as a threat when used by public authorities. This discrepancy and the lack of policy increases the uncertainty in the ML community about the future direction of facial recognition research and development. In this paper we present results from a cross-national survey about public acceptance, privacy, and discrimination of the use of facial recognition technology (FRT) in the public. This study provides insights about the opinion towards FRT from China, Germany, the United Kingdom (UK), and the United States (US), which can serve as input for policy makers and legal regulators.
翻訳日:2022-11-10 04:43:57 公開日:2020-07-15
# 解釈可能なテキスト類似性のための論理制約ポインタネットワーク

Logic Constrained Pointer Networks for Interpretable Textual Similarity ( http://arxiv.org/abs/2007.07670v1 )

ライセンス: Link先を確認
Subhadeep Maji, Rohan Kumar, Manish Bansal, Kalyani Roy and Pawan Goyal(参考訳) テキストにおける意味的関係を体系的に発見することは自然言語処理において重要かつ広範囲に研究された分野であり、包含や意味的類似性など様々なタスクがある。 サブシーケンスアライメントによる文レベルのスコアの分解性は、モデルをより解釈可能なものにする方法として提案されている。 意味的テクストの類似性に関する解釈可能なモデルにつながる文の構成要素の整合の問題について検討する。 本稿では,sentinel gating関数を用いた,bertを用いて表現される構成チャンクを整列する新しいポインタネットワークモデルを提案する。 両文の誤用を均等に罰するために損失関数を用いてこのベースモデルを改善し,アライメントが双方向であることを保証する。 最後に,ネットワークを構造化外部知識に導くために,概念ネットと構文知識に基づく一階論理制約を導入する。 このモデルは、チャンクアライメントタスクのためのベンチマークsemevalデータセットで97.73と96.32のf1スコアを達成し、既存のソリューションを大きく改善した。 ソースコードはhttps://github.com/manishb89/interpretable_sentence_similarityで入手できる。

Systematically discovering semantic relationships in text is an important and extensively studied area in Natural Language Processing, with various tasks such as entailment, semantic similarity, etc. Decomposability of sentence-level scores via subsequence alignments has been proposed as a way to make models more interpretable. We study the problem of aligning components of sentences leading to an interpretable model for semantic textual similarity. In this paper, we introduce a novel pointer network based model with a sentinel gating function to align constituent chunks, which are represented using BERT. We improve this base model with a loss function to equally penalize misalignments in both sentences, ensuring the alignments are bidirectional. Finally, to guide the network with structured external knowledge, we introduce first-order logic constraints based on ConceptNet and syntactic knowledge. The model achieves an F1 score of 97.73 and 96.32 on the benchmark SemEval datasets for the chunk alignment task, showing large improvements over the existing solutions. Source code is available at https://github.com/manishb89/interpretable_sentence_similarity
翻訳日:2022-11-10 04:43:19 公開日:2020-07-15
# 高次元点過程のネットワークに対する統計的推論

Statistical Inference for Networks of High-Dimensional Point Processes ( http://arxiv.org/abs/2007.07448v1 )

ライセンス: Link先を確認
Xu Wang, Mladen Kolar and Ali Shojaie(参考訳) 神経科学の最近の応用により、多変量ホークスプロセスは高次元の点プロセスデータ間の相互作用のネットワークをモデル化するための一般的なツールとなっている。 ネットワーク推定の不確実性の評価は科学的応用において重要であるが、既存の方法論的および理論的研究は、主に推定を扱っている。 このギャップを埋めるため,本稿では高次元ホークス過程に対する新しい統計的推論手法を開発した。 この推論手順の重要な要素は、統合確率過程に対する一階および二階統計上の新しい濃度不等式であり、その過程の全履歴を要約している。 マルティンゲール中心極限理論の最近の結果と新しい濃度不等式を組み合わせることで、テスト統計の収束率を特徴づける。 広範シミュレーションによる推論ツールの有限標本妥当性を検証し,ニューロンスパイクトレインデータセットに適用することにより,それらの有用性を実証する。

Fueled in part by recent applications in neuroscience, the multivariate Hawkes process has become a popular tool for modeling the network of interactions among high-dimensional point process data. While evaluating the uncertainty of the network estimates is critical in scientific applications, existing methodological and theoretical work has primarily addressed estimation. To bridge this gap, this paper develops a new statistical inference procedure for high-dimensional Hawkes processes. The key ingredient for this inference procedure is a new concentration inequality on the first- and second-order statistics for integrated stochastic processes, which summarize the entire history of the process. Combining recent results on martingale central limit theory with the new concentration inequality, we then characterize the convergence rate of the test statistics. We illustrate finite sample validity of our inferential tools via extensive simulations and demonstrate their utility by applying them to a neuron spike train data set.
翻訳日:2022-11-10 04:42:27 公開日:2020-07-15
# 混合複雑性と段階的クラスタリング変化検出への応用

Mixture Complexity and Its Application to Gradual Clustering Change Detection ( http://arxiv.org/abs/2007.07467v1 )

ライセンス: Link先を確認
Shunki Kyoya and Kenji Yamanishi(参考訳) 有限混合モデルを用いたモデルベースクラスタリングでは、クラスタ数(クラスタサイズ)を決定することが重要な課題である。 かつては混合成分の数(混合サイズ)に等しいものであったが、重なり合いや重みバイアスが存在する場合には有効ではない。 本研究では,混合複雑性(MC)と呼ばれる新しい概念を用いて,混合モデルのクラスタサイズを連続的に測定することを提案する。 情報理論の観点で正式に定義されており、重なりや重みバイアスを考慮したクラスターサイズの自然な拡張と見なすことができる。 その後,段階的クラスタリング変化検出の問題にmcを適用する。 従来、クラスタリングの変化は、混合サイズやクラスタサイズの変化によって、突然であると考えられてきた。 一方、クラスタ化の変化はmcの観点で徐々に変化し、早期に変化を見つけ、重要かつ重要でない変化を識別するメリットがあると考えています。 さらに,混合モデルの階層構造に従ってmcを分解できることを実証し,部分構造の詳細を分析するのに有用であることを示した。

In model-based clustering using finite mixture models, it is a significant challenge to determine the number of clusters (cluster size). It used to be equal to the number of mixture components (mixture size); however, this may not be valid in the presence of overlaps or weight biases. In this study, we propose to continuously measure the cluster size in a mixture model by a new concept called mixture complexity (MC). It is formally defined from the viewpoint of information theory and can be seen as a natural extension of the cluster size considering overlap and weight bias. Subsequently, we apply MC to the issue of gradual clustering change detection. Conventionally, clustering changes has been considered to be abrupt, induced by the changes in the mixture size or cluster size. Meanwhile, we consider the clustering changes to be gradual in terms of MC; it has the benefits of finding the changes earlier and discerning the significant and insignificant changes. We further demonstrate that the MC can be decomposed according to the hierarchical structures of the mixture models; it helps us to analyze the detail of substructures.
翻訳日:2022-11-10 04:41:47 公開日:2020-07-15
# Bathymetry Editing の実験設計

Experimental Design for Bathymetry Editing ( http://arxiv.org/abs/2007.07495v1 )

ライセンス: Link先を確認
Julaiti Alafate, Yoav Freund, David T. Sandwell, Brook Tozer(参考訳) 実世界のコンピュータによるラベリングタスクへの機械学習の適用について述べる。 実験の結果,機械学習でよく用いられるIID仮定とは大きく異なっていた。 これらの結果は、すべてのデータをトレーニングとテストにランダムに分割することで、しばしばパフォーマンスが低下することを示唆している。

We describe an application of machine learning to a real-world computer assisted labeling task. Our experimental results expose significant deviations from the IID assumption commonly used in machine learning. These results suggest that the common random split of all data into training and testing can often lead to poor performance.
翻訳日:2022-11-10 04:41:31 公開日:2020-07-15
# 深層ニューラルネットワークの圧縮戦略と空間意識表現

Compression strategies and space-conscious representations for deep neural networks ( http://arxiv.org/abs/2007.07967v1 )

ライセンス: Link先を確認
Giosu\`e Cataldo Marin\`o, Gregorio Ghidoli, Marco Frasca and Dario Malchiodi(参考訳) ディープラーニングの最近の進歩により、いくつかの実世界のアプリケーションで最先端のパフォーマンスを持つ大規模で強力な畳み込みニューラルネットワーク(cnn)が利用可能になった。 残念ながら、これらの大規模モデルは数百万のパラメータを持ち、リソース制限されたプラットフォーム(例えばRAMが限られている)にデプロイできない。 これにより、CNNの圧縮はメモリ効率が良く、より高速なモデル表現を実現するために重要な問題となる。 本稿では,cnnの重み追及と量子化による損失圧縮の影響と,ソース符号化に基づくロスレス重み行列表現について検討する。 これらの手法を4つのベンチマークデータセットで組み合わせて分類と回帰問題をテストし、モデル性能を維持したり改善したりしながら圧縮レートを最大165ドルまで達成した。

Recent advances in deep learning have made available large, powerful convolutional neural networks (CNN) with state-of-the-art performance in several real-world applications. Unfortunately, these large-sized models have millions of parameters, thus they are not deployable on resource-limited platforms (e.g. where RAM is limited). Compression of CNNs thereby becomes a critical problem to achieve memory-efficient and possibly computationally faster model representations. In this paper, we investigate the impact of lossy compression of CNNs by weight pruning and quantization, and lossless weight matrix representations based on source coding. We tested several combinations of these techniques on four benchmark datasets for classification and regression problems, achieving compression rates up to $165$ times, while preserving or improving the model performance.
翻訳日:2022-11-10 04:35:38 公開日:2020-07-15
# まだいるのか? EUPEGをベンチマークプラットフォームとした最先端ニューラルネットワークを用いたジオパーサの評価

Are We There Yet? Evaluating State-of-the-Art Neural Network based Geoparsers Using EUPEG as a Benchmarking Platform ( http://arxiv.org/abs/2007.07455v1 )

ライセンス: Link先を確認
Jimin Wang, Yingjie Hu(参考訳) ジオパーシングは地理情報検索において重要な課題である。 ジオパーサーとして知られるジオパーシングシステムは、入力としてテキストを取り、認識された場所の参照とその位置座標を出力する。 2019年6月、SemEval 2019タスクの1つとしてジオパーシングコンペティション「Toponym Resolution in Scientific Papers」が開催された。 優勝チームはニューラルネットワークベースのジオパーサを開発し、優れたパフォーマンス(90%以上の精度、リコール、f1スコア)を達成した。 このエキサイティングな結果から、“まだあるのか?”という疑問が生まれます。つまり、ジオペアリングの問題が解決できるくらい高いパフォーマンスを達成できたのでしょうか? この競争の1つの制限は、開発されたジオパーサーが特定の生物医学領域から収集された45の研究論文からなる1つのデータセットでのみテストされたことである。 同じジオパーサーは異なるデータセット上で非常に異なるパフォーマンスを持つことが知られている。 そこで本研究では,8つの注釈付きデータセット,9つのベースラインジオパーサ,8つのパフォーマンス指標を備えた,最近開発されたベンチマークプラットフォームであるEUPEGを用いて,最先端のジオパーサを体系的に評価する。 評価結果は、これらの新しいジオパーザは、いくつかの課題はあるものの、複数のデータセット上でのジオパーシングのパフォーマンスを確実に改善していることを示唆している。

Geoparsing is an important task in geographic information retrieval. A geoparsing system, known as a geoparser, takes some texts as the input and outputs the recognized place mentions and their location coordinates. In June 2019, a geoparsing competition, Toponym Resolution in Scientific Papers, was held as one of the SemEval 2019 tasks. The winning teams developed neural network based geoparsers that achieved outstanding performances (over 90% precision, recall, and F1 score for toponym recognition). This exciting result brings the question "are we there yet?", namely have we achieved high enough performances to possibly consider the problem of geoparsing as solved? One limitation of this competition is that the developed geoparsers were tested on only one dataset which has 45 research articles collected from the particular domain of Bio-medicine. It is known that the same geoparser can have very different performances on different datasets. Thus, this work performs a systematic evaluation of these state-of-the-art geoparsers using our recently developed benchmarking platform EUPEG that has eight annotated datasets, nine baseline geoparsers, and eight performance metrics. The evaluation result suggests that these new geoparsers indeed improve the performances of geoparsing on multiple datasets although some challenges remain.
翻訳日:2022-11-10 04:35:25 公開日:2020-07-15
# BERT-based Neural Networks を用いた電子カルテ患者の臨床診断予測

Predicting Clinical Diagnosis from Patients Electronic Health Records Using BERT-based Neural Networks ( http://arxiv.org/abs/2007.07562v1 )

ライセンス: Link先を確認
Pavel Blinov, Manvel Avetisian, Vladimir Kokh, Dmitry Umerenkov, Alexander Tuzhilin(参考訳) 本稿では,テキスト電子健康記録(EHR)データから臨床診断を予測する問題について検討する。 本研究は,医療コミュニティにおけるこの問題の重要性を示し,問題点の包括的歴史的考察と提案手法を提案する。 主要な科学的貢献として、完全連結(fc)層構成の新しい方法とドメインデータのみに事前学習されたbertモデルを実装したシーケンス分類のためのトランスフォーマー(bert)モデルからの双方向エンコーダ表現の修正を提案する。 我々のモデルを実証的に検証するために、約400万人のユニークな患者訪問からなる大規模なロシアのEHRデータセットを使用します。 これはロシア語で最大の研究であり、世界でも最大規模の研究である。 ICD-10の265疾患サブセットに対する多クラス分類の課題について,他のテキスト表現モデルとの比較実験を行った。 実験では,ロシア語 BERT (RuBERT) 変種を含む他のベースラインと比較して,モデルの性能が向上した。 また、経験豊富な医療専門家のパネルで、モデルの同等のパフォーマンスを示す。 これにより,本システムの実装による誤診の低減が期待できる。

In this paper we study the problem of predicting clinical diagnoses from textual Electronic Health Records (EHR) data. We show the importance of this problem in medical community and present comprehensive historical review of the problem and proposed methods. As the main scientific contributions we present a modification of Bidirectional Encoder Representations from Transformers (BERT) model for sequence classification that implements a novel way of Fully-Connected (FC) layer composition and a BERT model pretrained only on domain data. To empirically validate our model, we use a large-scale Russian EHR dataset consisting of about 4 million unique patient visits. This is the largest such study for the Russian language and one of the largest globally. We performed a number of comparative experiments with other text representation models on the task of multiclass classification for 265 disease subset of ICD-10. The experiments demonstrate improved performance of our models compared to other baselines, including a fine-tuned Russian BERT (RuBERT) variant. We also show comparable performance of our model with a panel of experienced medical experts. This allows us to hope that implementation of this system will reduce misdiagnosis.
翻訳日:2022-11-10 04:34:58 公開日:2020-07-15
# プログレッシブ好奇心を用いたアクティブワールドモデル学習

Active World Model Learning with Progress Curiosity ( http://arxiv.org/abs/2007.07853v1 )

ライセンス: Link先を確認
Kuno Kim, Megumi Sano, Julian De Freitas, Nick Haber, Daniel Yamins(参考訳) 世界モデルは、世界がどのように進化するかを自己監視した予測モデルである。 人間は、自分の環境を探り、高帯域の感覚入力のコンパクトな抽象化、長期の時間的地平線を越えて計画する能力、そして他のエージェントの行動パターンを理解することによって、世界モデルを学ぶ。 本研究では,このような好奇心駆動型アクティブワールドモデル学習(AWML)システムの設計方法について検討する。 そこで我々は,代表的現実世界エージェントの蒸留に富んだ3次元物理環境を視覚的に探索しながら,世界モデルを構築する興味深いエージェントを構築する。 我々は,スケーラブルで効果的な学習プログレッシブ信号である\gamma$-progress を駆動する awml システムを提案する。 我々は自然に$\gamma$-Progressが、複雑だが学習可能な力学にバランスよく注意を向ける探索政策を生み出し、「ホワイトノイズ問題」を克服することを示した。 その結果,我々の$\gamma$-Progress-driven controllerは,ランダムネットワーク蒸留やモデル分解といった最先端の探索戦略を備えたベースラインコントローラよりもはるかに高いAWML性能を実現する。

World models are self-supervised predictive models of how the world evolves. Humans learn world models by curiously exploring their environment, in the process acquiring compact abstractions of high bandwidth sensory inputs, the ability to plan across long temporal horizons, and an understanding of the behavioral patterns of other agents. In this work, we study how to design such a curiosity-driven Active World Model Learning (AWML) system. To do so, we construct a curious agent building world models while visually exploring a 3D physical environment rich with distillations of representative real-world agents. We propose an AWML system driven by $\gamma$-Progress: a scalable and effective learning progress-based curiosity signal. We show that $\gamma$-Progress naturally gives rise to an exploration policy that directs attention to complex but learnable dynamics in a balanced manner, thus overcoming the "white noise problem". As a result, our $\gamma$-Progress-driven controller achieves significantly higher AWML performance than baseline controllers equipped with state-of-the-art exploration strategies such as Random Network Distillation and Model Disagreement.
翻訳日:2022-11-10 04:34:40 公開日:2020-07-15
# VAE-LIME:局所データ駆動型モデル解釈のための深部生成モデルに基づく製鉄業への適用

VAE-LIME: Deep Generative Model Based Approach for Local Data-Driven Model Interpretability Applied to the Ironmaking Industry ( http://arxiv.org/abs/2007.10256v1 )

ライセンス: Link先を確認
Cedric Schockaert, Vadim Macher, Alexander Schmitz(参考訳) データ駆動モデルの生成に応用された機械学習は、透明性の欠如により、プロセスエンジニアは、自身の産業プロセスの最適化にモデル予測に依存する自信を失う。 データ駆動モデルを使って、業界内のプロセスを一定のレベルの自律性に導くことは、そのモデルの最初のユーザーとして特に困難であり、しばしば数十年の経験を持つプロセスのエキスパートである。 モデル予測だけでなく、その解釈可能性も同時に、プロセスエンジニアに公開する必要がある。 そのために、文献にいくつかのアプローチが提案されている。 近年,LIME(Local Interpretable Model-Agnostic Explanations)法が研究コミュニティから多くの関心を集めている。 本手法の原理は,無作為なデータポイントを局所的に生成することにより,ブラックボックスモデルを局所的に近似する線形モデルを訓練することである。 limeに基づくモデル非依存な局所解釈可能性ソリューションが最近登場し、元の方法を改善している。 本稿では,高炉で発生する熱金属の温度を予測できるデータ駆動モデルの局所的解釈のための新しい手法であるvae-limeを提案する。 このような製鉄工程データは、高炉の炉底過程を表す高い相関関係を有する多変量時系列によって特徴づけられる。 我々の貢献は, 変分オートエンコーダ(vae)を用いてデータから複雑な高炉プロセス特性を学習することである。 VAEは、ブラックボックスモデルによって処理された入力サンプルの近傍のブラックボックスモデルを表現するために、ローカルの解釈可能なモデルをトレーニングするために最適な人工サンプルを生成することを目指している。 LIMEと比較して、VAE-LIMEは局所的解釈可能な線形モデルの局所的忠実度をブラックボックスモデルで改善し、頑健なモデル解釈可能性を示している。

Machine learning applied to generate data-driven models are lacking of transparency leading the process engineer to lose confidence in relying on the model predictions to optimize his industrial process. Bringing processes in the industry to a certain level of autonomy using data-driven models is particularly challenging as the first user of those models, is the expert in the process with often decades of experience. It is necessary to expose to the process engineer, not solely the model predictions, but also their interpretability. To that end, several approaches have been proposed in the literature. The Local Interpretable Model-agnostic Explanations (LIME) method has gained a lot of interest from the research community recently. The principle of this method is to train a linear model that is locally approximating the black-box model, by generating randomly artificial data points locally. Model-agnostic local interpretability solutions based on LIME have recently emerged to improve the original method. We present in this paper a novel approach, VAE-LIME, for local interpretability of data-driven models forecasting the temperature of the hot metal produced by a blast furnace. Such ironmaking process data is characterized by multivariate time series with high inter-correlation representing the underlying process in a blast furnace. Our contribution is to use a Variational Autoencoder (VAE) to learn the complex blast furnace process characteristics from the data. The VAE is aiming at generating optimal artificial samples to train a local interpretable model better representing the black-box model in the neighborhood of the input sample processed by the black-box model to make a prediction. In comparison with LIME, VAE-LIME is showing a significantly improved local fidelity of the local interpretable linear model with the black-box model resulting in robust model interpretability.
翻訳日:2022-11-10 04:34:09 公開日:2020-07-15
# 焦点と拡張:入力特徴の経時的操作による指導指導

Focus-and-Expand: Training Guidance Through Gradual Manipulation of Input Features ( http://arxiv.org/abs/2007.07723v1 )

ライセンス: Link先を確認
Moab Arar, Noa Fish, Dani Daniel, Evgeny Tenetov, Ariel Shamir, Amit Bermano(参考訳) 本稿では,ニューラルネットワークのトレーニングプロセスを特定の解へ導くための,シンプルで直感的なFocus-and-eXpand(\fax)手法を提案する。 ニューラルネットワークの最適化は、非常に非凸な問題である。 典型的には、解空間は大きいが、多くの可能な局所ミニマを持ち、特定の最小値に達することは多くの因子に依存する。 しかし多くの場合、入力の特定の側面や特徴を考慮に入れたソリューションが望まれる。 例えば、バイアスが存在する場合、バイアスのある特徴を無視したソリューションはより堅牢で正確なものである。 パラメータ継続法からインスピレーションを得て,入力領域の段階的な変化を通じて,入力の特定の特徴を他よりも考慮し,学習プロセスを操ることを提案する。 \faxは各入力データポイントから機能のサブセットを抽出し、学習者をまずこれらの機能に公開し、ソリューションにフォーカスする。 次に、混合/混合パラメータ$\alpha$を使用することで、学習プロセスを徐々にeXpandし、入力のすべての機能を含める。 このプロセスは、他のものよりも望ましい機能の考慮を促します。 この分野に限らず、様々なコンピュータビジョンタスクにおけるアプローチの有効性を定量的に評価し、最先端のバイアス除去、確立された拡張法の改善、画像分類タスクの改善の2つの例を示す。 これらのいくつかの例を通じて、このアプローチが、ソリューションの状況を理解することで得られる、さまざまな問題をもたらす可能性があることを実証します。

We present a simple and intuitive Focus-and-eXpand (\fax) method to guide the training process of a neural network towards a specific solution. Optimizing a neural network is a highly non-convex problem. Typically, the space of solutions is large, with numerous possible local minima, where reaching a specific minimum depends on many factors. In many cases, however, a solution which considers specific aspects, or features, of the input is desired. For example, in the presence of bias, a solution that disregards the biased feature is a more robust and accurate one. Drawing inspiration from Parameter Continuation methods, we propose steering the training process to consider specific features in the input more than others, through gradual shifts in the input domain. \fax extracts a subset of features from each input data-point, and exposes the learner to these features first, Focusing the solution on them. Then, by using a blending/mixing parameter $\alpha$ it gradually eXpands the learning process to include all features of the input. This process encourages the consideration of the desired features more than others. Though not restricted to this field, we quantitatively evaluate the effectiveness of our approach on various Computer Vision tasks, and achieve state-of-the-art bias removal, improvements to an established augmentation method, and two examples of improvements to image classification tasks. Through these few examples we demonstrate the impact this approach potentially carries for a wide variety of problems, which stand to gain from understanding the solution landscape.
翻訳日:2022-11-10 04:32:51 公開日:2020-07-15