このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200406となっている論文です。

PDF登録状況(公開日: 20200406)

TitleAuthorsAbstract論文公表日・翻訳日
# 完全ベイズガウス過程回帰に対する近似推論

Approximate Inference for Fully Bayesian Gaussian Process Regression ( http://arxiv.org/abs/1912.13440v2 )

ライセンス: Link先を確認
Vidhi Lalchand and Carl Edward Rasmussen(参考訳) ガウス過程モデルの学習は平均と共分散関数のハイパーパラメータの適応を通じて行われる。 古典的アプローチは、固定点推定( \textit{Type II max maximum} または ML-II と呼ばれるアプローチ)をもたらす限界確率を最大化する。 もう一つの学習手順は、GPの階層的な仕様である「textit{Fully Bayesian Gaussian Process Regression} (GPR)」において、ハイパーパラメータの後方を推論することである。 この研究は、難解なハイパーパラメーター後部に対する2つの近似スキームについて考察する。 1)ハミルトニアン・モンテカルロ(HMC)のサンプリングに基づく近似と近似 2) ハイパーパラメータ間の相関関係を因数化ガウス的(平均場)またはフルランクガウス的(フルランクガウス的)に近似した変分推論(VI)。 ベンチマークデータセットを用いてベイズGPRの予測性能を解析する。

Learning in Gaussian Process models occurs through the adaptation of hyperparameters of the mean and the covariance function. The classical approach entails maximizing the marginal likelihood yielding fixed point estimates (an approach called \textit{Type II maximum likelihood} or ML-II). An alternative learning procedure is to infer the posterior over hyperparameters in a hierarchical specification of GPs we call \textit{Fully Bayesian Gaussian Process Regression} (GPR). This work considers two approximation schemes for the intractable hyperparameter posterior: 1) Hamiltonian Monte Carlo (HMC) yielding a sampling-based approximation and 2) Variational Inference (VI) where the posterior over hyperparameters is approximated by a factorized Gaussian (mean-field) or a full-rank Gaussian accounting for correlations between hyperparameters. We analyze the predictive performance for fully Bayesian GPR on a range of benchmark data sets.
翻訳日:2023-01-16 20:25:08 公開日:2020-04-06
# AIと医療のギャップを埋める--臨床関連AIを用いた診断システムの開発に向けて

Bridging the gap between AI and Healthcare sides: towards developing clinically relevant AI-powered diagnosis systems ( http://arxiv.org/abs/2001.03923v2 )

ライセンス: Link先を確認
Changhee Han, Leonardo Rundo, Kohei Murao, Takafumi Nemoto, Hideki Nakayama(参考訳) 畳み込みニューラルネットワークを用いたコンピュータ支援診断研究の成功にもかかわらず、臨床応用は依然として困難である。 したがって、医療人工知能(AI)を臨床環境に適合させるには、AIとヘルスケアのギャップを特定・ブリッジする必要がある。 画像診断における最大の問題点は, データのポーシティにあるため, 画像強調診断の臨床的妥当性の確認が不可欠である。 そこで我々は,医療・情報学の医療画像専門家,医師,ジェネラリストを対象に,臨床的に価値のあるAI研究ワークショップを開催した。 そこで, 医師を対象としたアンケート調査により, データ拡張と医師養成の観点から, GANに基づく画像拡張プロジェクトの評価を行った。 ワークショップでは、AI/ヘルスケア側とソリューション(臨床的意義/解釈)とハウ(データ取得、商用デプロイメント、安全/フィーリングセーフ)の本質的なギャップを明らかにしている。 本分析は,臨床診断支援システムと非専門医訓練ツールとしてのGANsの臨床的関連性を確認した。 本研究は,医学的文脈や病理学的GANに限らず,学際研究と臨床応用を結びつける上で重要な役割を担う。

Despite the success of Convolutional Neural Network-based Computer-Aided Diagnosis research, its clinical applications remain challenging. Accordingly, developing medical Artificial Intelligence (AI) fitting into a clinical environment requires identifying/bridging the gap between AI and Healthcare sides. Since the biggest problem in Medical Imaging lies in data paucity, confirming the clinical relevance for diagnosis of research-proven image augmentation techniques is essential. Therefore, we hold a clinically valuable AI-envisioning workshop among Japanese Medical Imaging experts, physicians, and generalists in Healthcare/Informatics. Then, a questionnaire survey for physicians evaluates our pathology-aware Generative Adversarial Network (GAN)-based image augmentation projects in terms of Data Augmentation and physician training. The workshop reveals the intrinsic gap between AI/Healthcare sides and solutions on Why (i.e., clinical significance/interpretation) and How (i.e., data acquisition, commercial deployment, and safety/feeling safe). This analysis confirms our pathology-aware GANs' clinical relevance as a clinical decision support system and non-expert physician training tool. Our findings would play a key role in connecting inter-disciplinary research and clinical applications, not limited to the Japanese medical context and pathology-aware GANs.
翻訳日:2023-01-12 04:41:42 公開日:2020-04-06
# 量子ウォークとドレッシング光子

Quantum Walk and Dressed Photon ( http://arxiv.org/abs/2001.05064v4 )

ライセンス: Link先を確認
Misa Hamano (Nagahama Institute of Bio-Science and Technology), Hayato Saigo (Nagahama Institute of Bio-Science and Technology)(参考訳) ナノ粒子中の光子と電子の励起の複合系である着衣光子と呼ばれる物理モデルは、近接場光学の領域で効果的に使用される。 服を着た光子の多くの興味深い振る舞い、特に急速エネルギー移動と特異点への蓄積、例えば強い散逸点が知られている。 量子ウォーク,特にクラゲグラフと呼ばれる半無限グラフ上のグローバーウォークをモデルとし,強い散逸を伴う点周辺に普遍的な蓄積現象を示す。

A physical model called dressed photons, a composite system of photons and excitation of electrons in the nano-particles, is effectively used in the realm of near-field optics. Many interesting behaviors of dressed photons are known, especially the rapid energy transfer and the accumulation to singular points, e.g., points with strong dissipation. We propose a new modelling of dressed photons based on quantum walks, especially Grover walks on semi-infinite graphs which we call jellyfish graphs, and show a universal accumulation phenomena around the point with strong dissipation.
翻訳日:2023-01-11 14:04:35 公開日:2020-04-06
# 顔画像の劣化に対する爆発的セマンティックス

Exploiting Semantics for Face Image Deblurring ( http://arxiv.org/abs/2001.06822v2 )

ライセンス: Link先を確認
Ziyi Shen, Wei-Sheng Lai, Tingfa Xu, Jan Kautz, and Ming-Hsuan Yang(参考訳) 本稿では, 深層畳み込みニューラルネットワークによる意味的手がかりを利用した, 効果的かつ効率的なフェースデブロアリングアルゴリズムを提案する。 人間の顔は高度に構造化され、統合された顔成分(例えば、目と口)を共有しているため、このような意味情報は回復の強い前兆となる。 顔意味ラベルを入力優先として組み込んで,エンドツーエンドの深層畳み込みニューラルネットワーク内で顔局所構造を規則化する適応的構造損失を提案する。 具体的には、まず粗いデブロアリングネットワークを用いて、入力された顔画像の運動ぼやけを低減する。 次に,粗い画像から意味的特徴を抽出する解析ネットワークを採用する。 そして、その意味情報を利用して鮮明な顔画像の復元を行う。 我々は、知覚的および敵対的損失を伴うネットワークを訓練し、フォトリアリスティックな結果を生成する。 提案手法はシャープな画像をより正確な顔特徴と詳細で復元する。 定量的および定性的な評価により,提案手法は修復品質,顔認識,実行速度の観点から,最先端の手法に対して良好に動作することが示された。

In this paper, we propose an effective and efficient face deblurring algorithm by exploiting semantic cues via deep convolutional neural networks. As the human faces are highly structured and share unified facial components (e.g., eyes and mouths), such semantic information provides a strong prior for restoration. We incorporate face semantic labels as input priors and propose an adaptive structural loss to regularize facial local structures within an end-to-end deep convolutional neural network. Specifically, we first use a coarse deblurring network to reduce the motion blur on the input face image. We then adopt a parsing network to extract the semantic features from the coarse deblurred image. Finally, the fine deblurring network utilizes the semantic information to restore a clear face image. We train the network with perceptual and adversarial losses to generate photo-realistic results. The proposed method restores sharp images with more accurate facial features and details. Quantitative and qualitative evaluations demonstrate that the proposed face deblurring algorithm performs favorably against the state-of-the-art methods in terms of restoration quality, face recognition and execution speed.
翻訳日:2023-01-08 12:37:27 公開日:2020-04-06
# 制約付き深層学習のためのラグランジュ双対性

Lagrangian Duality for Constrained Deep Learning ( http://arxiv.org/abs/2001.09394v2 )

ライセンス: Link先を確認
Ferdinando Fioretto, Pascal Van Hentenryck, Terrence WK Mak, Cuong Tran, Federico Baldo, Michele Lombardi(参考訳) 本稿では,複雑な制約を持つ学習アプリケーションに対するラグランジュ双対性の可能性について検討する。 このような制約は、多くの科学および工学領域で発生し、タスクは、繰り返し解決され、ハードな物理的および運用上の制約を含む最適化問題の学習に相当します。 また,学習課題が予測器自体に制約を課さなければならないのは,学習する関数の自然な性質であるか,社会的立場から学習を強制することが望ましいかのどちらかである。 本稿では,ラグランジュ双対性がこれらの応用に大きな利点をもたらすことを実験的に示す。 エネルギー領域において、ラグランジアン双対性とディープラーニングの組み合わせは、ガスネットワークにおける最適電力フロー、エネルギーシステム、最適圧縮機設定を予測するための最先端の結果を得るために用いられる。 ラグランジアン双対性は、精度を犠牲にすることなく予測子に単調性制約を課すことができる。 最後に、ラグランジアン双対性は、予測子に公正性制約を課し、異なる処理を最小化する際に、最先端の結果を得るのに利用できる。

This paper explores the potential of Lagrangian duality for learning applications that feature complex constraints. Such constraints arise in many science and engineering domains, where the task amounts to learning optimization problems which must be solved repeatedly and include hard physical and operational constraints. The paper also considers applications where the learning task must enforce constraints on the predictor itself, either because they are natural properties of the function to learn or because it is desirable from a societal standpoint to impose them. This paper demonstrates experimentally that Lagrangian duality brings significant benefits for these applications. In energy domains, the combination of Lagrangian duality and deep learning can be used to obtain state-of-the-art results to predict optimal power flows, in energy systems, and optimal compressor settings, in gas networks. In transprecision computing, Lagrangian duality can complement deep learning to impose monotonicity constraints on the predictor without sacrificing accuracy. Finally, Lagrangian duality can be used to enforce fairness constraints on a predictor and obtain state-of-the-art results when minimizing disparate treatments.
翻訳日:2023-01-06 19:17:23 公開日:2020-04-06
# 機械学習を用いた量子近似最適化アルゴリズムの高速化

Accelerating Quantum Approximate Optimization Algorithm using Machine Learning ( http://arxiv.org/abs/2002.01089v2 )

ライセンス: Link先を確認
Mahabubul Alam, Abdullah Ash-Saki, Swaroop Ghosh(参考訳) 量子超越性(quantum supremacy)を証明する量子古典ハイブリッドアルゴリズムとして,量子近似最適化アルゴリズム(qaoa)の実装を高速化する機械学習手法を提案する。 QAOAでは、パラメトリック量子回路と古典オプティマイザが閉ループで反復してハード組合せ最適化の問題を解く。 QAOAの性能は量子回路のステージ数(深さ)の増加とともに向上する。 しかし、最適化ループの反復数を増やす古典的なオプティマイザのために、各ステージに2つの新しいパラメータが導入された。 本稿では,より深度の高いQAOA実装のパラメータ間の相関について述べるとともに,最適値に近いゲートパラメータを予測する機械学習モデルを開発した。 その結果、最適化ループはより少ないイテレーション数で収束する。 グラフMaxCut問題をQAOAを用いて解くためのプロトタイプとして選択する。 我々は,100の異なるQAOAインスタンスを用いて特徴抽出ルーチンを実行し,13,860の最適パラメータを持つトレーニングデータセットを開発する。 本稿では,回帰モデルの4つのフレーバーと古典オプティマイザの4つのフレーバーの分析を行う。 最後に,提案手法は264種類のグラフを用いて行った解析から,平均44.9%(最大65.7%)の最適化反復数を削減可能であることを示す。

We propose a machine learning based approach to accelerate quantum approximate optimization algorithm (QAOA) implementation which is a promising quantum-classical hybrid algorithm to prove the so-called quantum supremacy. In QAOA, a parametric quantum circuit and a classical optimizer iterates in a closed loop to solve hard combinatorial optimization problems. The performance of QAOA improves with increasing number of stages (depth) in the quantum circuit. However, two new parameters are introduced with each added stage for the classical optimizer increasing the number of optimization loop iterations. We note a correlation among parameters of the lower-depth and the higher-depth QAOA implementations and, exploit it by developing a machine learning model to predict the gate parameters close to the optimal values. As a result, the optimization loop converges in a fewer number of iterations. We choose graph MaxCut problem as a prototype to solve using QAOA. We perform a feature extraction routine using 100 different QAOA instances and develop a training data-set with 13,860 optimal parameters. We present our analysis for 4 flavors of regression models and 4 flavors of classical optimizers. Finally, we show that the proposed approach can curtail the number of optimization iterations by on average 44.9% (up to 65.7%) from an analysis performed with 264 flavors of graphs.
翻訳日:2023-01-04 03:36:39 公開日:2020-04-06
# トレーニングデータのジェンダーバランスは顔認識精度にどのように影響するか?

How Does Gender Balance In Training Data Affect Face Recognition Accuracy? ( http://arxiv.org/abs/2002.02934v2 )

ライセンス: Link先を確認
V\'itor Albiero, Kai Zhang, and Kevin W. Bowyer(参考訳) ディープ・ラーニングの手法は顔認識の精度を大幅に向上させたが、古い問題は今も続いている。 女性に対する低い精度は、トレーニングデータの低表現によって引き起こされると推測されることが多い。 本研究は,女子のトレーニングデータにおける表現不足が,テストデータにおける女性の精度低下の原因であることを示す。 最先端の深層CNN、3つの損失関数、2つのトレーニングデータセットを使用して、私たちはそれぞれ異なる男性/女性比率の7つのサブセットでトレーニングし、合計40のトレーニングを3つの異なるデータセットでテストします。 その結果,(1)訓練データのジェンダーバランスは,テスト精度では性別バランスに変換されず,(2)テスト精度の「ジェンダーギャップ」は,性別バランストレーニングセットによっては最小化されず,女性画像よりも男性画像が多いトレーニングセットにより,(3)精度ギャップを最小化するためのトレーニングは,女性,男性,平均精度を最大にしないことがわかった。

Deep learning methods have greatly increased the accuracy of face recognition, but an old problem still persists: accuracy is usually higher for men than women. It is often speculated that lower accuracy for women is caused by under-representation in the training data. This work investigates female under-representation in the training data is truly the cause of lower accuracy for females on test data. Using a state-of-the-art deep CNN, three different loss functions, and two training datasets, we train each on seven subsets with different male/female ratios, totaling forty two trainings, that are tested on three different datasets. Results show that (1) gender balance in the training data does not translate into gender balance in the test accuracy, (2) the "gender gap" in test accuracy is not minimized by a gender-balanced training set, but by a training set with more male images than female images, and (3) training to minimize the accuracy gap does not result in highest female, male or average accuracy
翻訳日:2023-01-03 05:03:54 公開日:2020-04-06
# Graph Prolongation Convolutional Networks: グラフによるマルチスケール機械学習とサイト骨格モデリングへの応用

Graph Prolongation Convolutional Networks: Explicitly Multiscale Machine Learning on Graphs with Applications to Modeling of Cytoskeleton ( http://arxiv.org/abs/2002.05842v2 )

ライセンス: Link先を確認
C.B. Scott and Eric Mjolsness(参考訳) 我々は新しいタイプのアンサンブルグラフ畳み込みネットワーク(GCN)モデルを定義する。 グラフの空間スケール間のマッピングに最適化された線形射影演算子を用いて、このアンサンブルモデルは、最終的な予測のために各スケールからの情報を集約することを学ぶ。 これらの線形射影作用素を、各gcnで使用される構造行列に関連する対象関数のインフィマとして計算する。 これらのプロジェクションを組み込んだモデル(グラフ長畳み込み畳み込みネットワーク)は、微小管曲げの粗粒度メカノケミカルシミュレーションにおいて、モノマーサブユニットのポテンシャルエネルギーを予測するために、他のGCNアンサンブルモデルより優れている。 本研究では,各モデルのトレーニングに費やしたFLOPの推定値と,ウォールクロック時間を測定することで,これらの性能向上を実証する。 我々のモデルは複数のスケールで学習するため、所定の粗いスケジュールと細かい訓練のスケジュールに従って各スケールで訓練することが可能である。 代数的マルチグリッド (amg) の文献から適応したこれらのスケジュールをいくつか検討し, それぞれの計算上の便益を定量化する。 また、このモデルと入力グラフの最適化された粗化を特徴とする別のモデルを比較する。 最後に,その出力に関するネットワークモデルの入力に対するバックプロパゲーションルールを導出し,その手法を非常に大きなグラフに拡張する方法について議論する。

We define a novel type of ensemble Graph Convolutional Network (GCN) model. Using optimized linear projection operators to map between spatial scales of graph, this ensemble model learns to aggregate information from each scale for its final prediction. We calculate these linear projection operators as the infima of an objective function relating the structure matrices used for each GCN. Equipped with these projections, our model (a Graph Prolongation-Convolutional Network) outperforms other GCN ensemble models at predicting the potential energy of monomer subunits in a coarse-grained mechanochemical simulation of microtubule bending. We demonstrate these performance gains by measuring an estimate of the FLOPs spent to train each model, as well as wall-clock time. Because our model learns at multiple scales, it is possible to train at each scale according to a predetermined schedule of coarse vs. fine training. We examine several such schedules adapted from the Algebraic Multigrid (AMG) literature, and quantify the computational benefit of each. We also compare this model to another model which features an optimized coarsening of the input graph. Finally, we derive backpropagation rules for the input of our network model with respect to its output, and discuss how our method may be extended to very large graphs.
翻訳日:2023-01-01 04:05:26 公開日:2020-04-06
# ESG投資:フィルタリングと機械学習のアプローチ

ESG investments: Filtering versus machine learning approaches ( http://arxiv.org/abs/2002.07477v2 )

ライセンス: Link先を確認
Carmine de Franco, Christophe Geissler, Vincent Margot, Bruno Monnier(参考訳) 大規模な投資分野における企業のesgプロファイルと財務パフォーマンスのパターンを識別する機械学習アルゴリズムを設計した。 このアルゴリズムは、領域を高次元のESG特徴空間にマッピングし、過剰な回帰予測を行う規則を定期的に更新する。 最終的な集計予測はスコアに変換され、ポジティブなスコアを持つ株式の投資宇宙を映し出すシンプルな戦略をデザインできます。 ESG機能と財務パフォーマンスを非直線的に結びつけることで、私たちの機械学習アルゴリズムに基づく戦略は効率的なストックピックツールであることがわかりました。 本稿では、ESGの行動と経済の関係を調査する金融学の分野に新たなアイデアをもたらす。 企業のESGプロファイルには明らかに何らかのアルファ版が存在するが、このアルファ版は機械学習のような強力な非線形技術でのみアクセス可能であることを示す。

We designed a machine learning algorithm that identifies patterns between ESG profiles and financial performances for companies in a large investment universe. The algorithm consists of regularly updated sets of rules that map regions into the high-dimensional space of ESG features to excess return predictions. The final aggregated predictions are transformed into scores which allow us to design simple strategies that screen the investment universe for stocks with positive scores. By linking the ESG features with financial performances in a non-linear way, our strategy based upon our machine learning algorithm turns out to be an efficient stock picking tool, which outperforms classic strategies that screen stocks according to their ESG ratings, as the popular best-in-class approach. Our paper brings new ideas in the growing field of financial literature that investigates the links between ESG behavior and the economy. We show indeed that there is clearly some form of alpha in the ESG profile of a company, but that this alpha can be accessed only with powerful, non-linear techniques such as machine learning.
翻訳日:2022-12-30 20:36:14 公開日:2020-04-06
# 視覚的注意の知覚的増強は自然主義的設定におけるタスク依存である

The perceptual boost of visual attention is task-dependent in naturalistic settings ( http://arxiv.org/abs/2003.00882v2 )

ライセンス: Link先を確認
Freddie Bickford Smith, Xiaoliang Luo, Brett D. Roads, Bradley C. Love(参考訳) トップダウンの注意は、タスクに関連するビジュアル情報に集中できる。 その結果、自然主義的な設定でタスクに依存しているか? 我々はこれを大規模計算実験で答えることを目指している。 まず、選択したタスクセット(ImageNetカテゴリのサブセット)から画像を分類する視覚的タスクの集合を設計する。 タスクの性質は、どのカテゴリがタスクセットに含まれるかによって決定される。 次に、各タスクで注意喚起されたニューラルネットワークをトレーニングし、その精度をベースラインネットワークと比較します。 タスクセットの難易度が高まり,タスクセットのサイズが大きくなると弱くなり,タスクセット内の知覚的類似度が高まるほど注意の知覚が強くなることが示された。

Top-down attention allows people to focus on task-relevant visual information. Is the resulting perceptual boost task-dependent in naturalistic settings? We aim to answer this with a large-scale computational experiment. First, we design a collection of visual tasks, each consisting of classifying images from a chosen task set (subset of ImageNet categories). The nature of a task is determined by which categories are included in the task set. Second, on each task we train an attention-augmented neural network and then compare its accuracy to that of a baseline network. We show that the perceptual boost of attention is stronger with increasing task-set difficulty, weaker with increasing task-set size and weaker with increasing perceptual similarity within a task set.
翻訳日:2022-12-29 18:44:11 公開日:2020-04-06
# MiniLM:プレトレーニング変圧器のタスク非依存圧縮のための深部自己注意蒸留

MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers ( http://arxiv.org/abs/2002.10957v2 )

ライセンス: Link先を確認
Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, Ming Zhou(参考訳) 事前訓練された言語モデル(例えばBERT (Devlin et al., 2018)とその変種)は、様々なNLPタスクで顕著な成功を収めた。 しかしながら、これらのモデルは一般的に数億のパラメータで構成されており、レイテンシとキャパシティの制約により、リアルタイムアプリケーションで微調整やオンラインサービスを行う上での課題をもたらす。 そこで本研究では,大形変圧器(vaswani et al., 2017)を基礎とした,深層自己着脱蒸留という,簡易かつ効果的なモデルを提案する。 小さなモデル(学生)は、大きなモデル(教師)のトランスフォーマーネットワークにおいて重要な役割を果たす自己注意モジュールを深く模倣することで訓練される。 具体的には,教師の最後のトランスフォーマー層のセルフアテンションモジュールを蒸留することを提案する。 さらに,既存の研究で使用されている注目分布(クエリとキーのスケールドドット積)に加えて,自己注意モジュールの値間のスケールドドット積を,新たな深い自己注意知識として導入する。 さらに,教師助手(Mirzadeh et al., 2019)の導入は,大規模な事前学習トランスフォーマーモデルの蒸留にも有効であることを示す。 実験の結果, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れていた。 特に、教師モデルのTransformerパラメータと計算の50%を使用して、SQuAD 2.0とGLUEベンチマークタスクの99%以上の精度を維持している。 また,多言語事前学習モデルに適用した深部自己注意蒸留の競争結果を得た。

Pre-trained language models (e.g., BERT (Devlin et al., 2018) and its variants) have achieved remarkable success in varieties of NLP tasks. However, these models usually consist of hundreds of millions of parameters which brings challenges for fine-tuning and online serving in real-life applications due to latency and capacity constraints. In this work, we present a simple and effective approach to compress large Transformer (Vaswani et al., 2017) based pre-trained models, termed as deep self-attention distillation. The small model (student) is trained by deeply mimicking the self-attention module, which plays a vital role in Transformer networks, of the large model (teacher). Specifically, we propose distilling the self-attention module of the last Transformer layer of the teacher, which is effective and flexible for the student. Furthermore, we introduce the scaled dot-product between values in the self-attention module as the new deep self-attention knowledge, in addition to the attention distributions (i.e., the scaled dot-product of queries and keys) that have been used in existing works. Moreover, we show that introducing a teacher assistant (Mirzadeh et al., 2019) also helps the distillation of large pre-trained Transformer models. Experimental results demonstrate that our monolingual model outperforms state-of-the-art baselines in different parameter size of student models. In particular, it retains more than 99% accuracy on SQuAD 2.0 and several GLUE benchmark tasks using 50% of the Transformer parameters and computations of the teacher model. We also obtain competitive results in applying deep self-attention distillation to multilingual pre-trained models.
翻訳日:2022-12-28 21:38:19 公開日:2020-04-06
# 深層学習のための3次元脳動脈瘤内データセット

IntrA: 3D Intracranial Aneurysm Dataset for Deep Learning ( http://arxiv.org/abs/2003.02920v2 )

ライセンス: Link先を確認
Xi Yang, Ding Xia, Taichi Kin, Takeo Igarashi(参考訳) 医学はディープラーニングモデルにとって重要な応用分野である。 この分野の研究は、医学の専門知識とデータサイエンスの知識の組み合わせである。 本稿では,2次元医用画像の代わりに,ポイントベースおよびメッシュベースの分類とセグメンテーションモデルの利用を可能にするオープンアクセス型3次元脳動脈瘤内データセットintraを提案する。 本データセットは頭蓋内動脈瘤の診断や,正常推定や表面再構成などの深層学習領域におけるクリッピング手術の首の抽出に有用である。 最先端ネットワークをテストすることにより,分類と部分分割の大規模ベンチマークを提供する。 また、各手法の性能についても検討し、データセットの課題を実証する。 公開されたデータセットは、以下にアクセスできる。

Medicine is an important application area for deep learning models. Research in this field is a combination of medical expertise and data science knowledge. In this paper, instead of 2D medical images, we introduce an open-access 3D intracranial aneurysm dataset, IntrA, that makes the application of points-based and mesh-based classification and segmentation models available. Our dataset can be used to diagnose intracranial aneurysms and to extract the neck for a clipping operation in medicine and other areas of deep learning, such as normal estimation and surface reconstruction. We provide a large-scale benchmark of classification and part segmentation by testing state-of-the-art networks. We also discuss the performance of each method and demonstrate the challenges of our dataset. The published dataset can be accessed here: https://github.com/intra3d2019/IntrA.
翻訳日:2022-12-27 04:04:11 公開日:2020-04-06
# 生成対立ネットワーク評価のためのニューロAIインタフェース

A Neuro-AI Interface for Evaluating Generative Adversarial Networks ( http://arxiv.org/abs/2003.03193v2 )

ライセンス: Link先を確認
Zhengwei Wang, Qi She, Alan F. Smeaton, Tomas E. Ward, Graham Healy(参考訳) generative adversarial networks (gans) はコンピュータビジョン、自然言語処理、音声合成などの分野において注目を集めている。 しかし、GANの性能評価は依然としてオープンで困難な問題である。 既存の評価指標は、主に自動統計手法を用いて実画像と生成画像の相違度を測定する。 評価には、しばしば大きなサンプルサイズが必要であり、人間の画質の知覚を直接反映しない。 本研究では,脳信号の活用による心理知覚画像の質をより直接的に反映するganの性能評価のための評価指標neuroscoreを提案する。 以上の結果から,ニューロスコアは,(1)人間の判断と一貫性が強く,(2)評価プロセスではより少ないサンプル数が必要であり,(3)ganベースで画像の質をランク付けできるという,現在の評価基準よりも優れた性能を示している。 畳み込みニューラルネットワーク(CNN)を用いたニューロAIインタフェースを提案し,ニューロスコアをGAN生成画像から直接予測する。 さらに,ネットワークのトレーニング段階での神経応答を含めると,提案モデルの予測能力が著しく向上することを示す。 コードとデータは以下のリンクで参照できる。

Generative adversarial networks (GANs) are increasingly attracting attention in the computer vision, natural language processing, speech synthesis and similar domains. However, evaluating the performance of GANs is still an open and challenging problem. Existing evaluation metrics primarily measure the dissimilarity between real and generated images using automated statistical methods. They often require large sample sizes for evaluation and do not directly reflect human perception of image quality. In this work, we introduce an evaluation metric called Neuroscore, for evaluating the performance of GANs, that more directly reflects psychoperceptual image quality through the utilization of brain signals. Our results show that Neuroscore has superior performance to the current evaluation metrics in that: (1) It is more consistent with human judgment; (2) The evaluation process needs much smaller numbers of samples; and (3) It is able to rank the quality of images on a per GAN basis. A convolutional neural network (CNN) based neuro-AI interface is proposed to predict Neuroscore from GAN-generated images directly without the need for neural responses. Importantly, we show that including neural responses during the training phase of the network can significantly improve the prediction capability of the proposed model. Codes and data can be referred at this link: https://github.com/villawang/Neuro-AI-Interface.
翻訳日:2022-12-26 06:59:03 公開日:2020-04-06
# 中国語TED講演における浅層談話アノテーション

Shallow Discourse Annotation for Chinese TED Talks ( http://arxiv.org/abs/2003.04032v2 )

ライセンス: Link先を確認
Wanqiu Long, Xinyi Cai, James E. M. Reid, Bonnie Webber, Deyi Xiong(参考訳) 言語関連プロパティを付加したテキストコーパスは,言語工学の発展に重要な資源である。 現在の研究は、中国語技術と中国語と英語の翻訳に新たな資源を提供しており、英語にはない中国語のテキストの特性に適応した、ペン・ディスコース・ツリーバンク(penn discourse treebank)のスタイルで談話関係に注釈が付された一連のtedトーク(一部は英語で、一部は中国語で与えられる)の形式である。 このリソースは、現在、テキストではなく、計画された話し言葉によるモノローグの談話レベルの特性を注釈する点でユニークである。 アノテーション間合意研究では、アノテーションスキームが信頼性の高い結果が得られることを示す。

Text corpora annotated with language-related properties are an important resource for the development of Language Technology. The current work contributes a new resource for Chinese Language Technology and for Chinese-English translation, in the form of a set of TED talks (some originally given in English, some in Chinese) that have been annotated with discourse relations in the style of the Penn Discourse TreeBank, adapted to properties of Chinese text that are not present in English. The resource is currently unique in annotating discourse-level properties of planned spoken monologues rather than of written text. An inter-annotator agreement study demonstrates that the annotation scheme is able to achieve highly reliable results.
翻訳日:2022-12-25 08:41:40 公開日:2020-04-06
# AQPDCITYデータセット:大都市の都市部における画像に基づくPMモニタリング

AQPDCITY Dataset: Picture-Based PM Monitoring in the Urban Area of Big Cities ( http://arxiv.org/abs/2003.09784v2 )

ライセンス: Link先を確認
Yonghui Zhang (1-4), Ke Gu (1-4) ((1) Engineering Research Center of Intelligent Perception and Autonomous Control, AMinistry of Education, (2) Beijing Key Laboratory of Computational Intelligence and Intelligent System, (3) Beijing Key Laboratory of Computational Intelligence and Intelligent System, (4) Faculty of Information Technology, Beijing University of Technology, China)(参考訳) 粒子状物質(PM)は人々の生活と健康に密接に関連しているため、世界中の大気質モニタリングの最も重要な指標となっている。 しかし、PMモニタリングのための既存のセンサベースの手法には、低密度監視局や高要求監視条件など、顕著な欠点がある。 下記の空気品質管理のために、任意の場所でpm濃度を得ることができる方法を考案することが非常に望まれている。 先行研究は,pm濃度をユビキタス写真を用いて監視できることを示した。 この問題をさらに調査するため、大都市で1500枚の写真を収集し、新しいAQPDCITYデータセットを構築した。 このデータセットで9つの最先端メソッドをチェックする実験は、上記のメソッドのパフォーマンスがaqpdcityデータセットでは良くないことを示している。

Since Particulate Matters (PMs) are closely related to people's living and health, it has become one of the most important indicator of air quality monitoring around the world. But the existing sensor-based methods for PM monitoring have remarkable disadvantages, such as low-density monitoring stations and high-requirement monitoring conditions. It is highly desired to devise a method that can obtain the PM concentration at any location for the following air quality control in time. The prior works indicate that the PM concentration can be monitored by using ubiquitous photos. To further investigate such issue, we gathered 1,500 photos in big cities to establish a new AQPDCITY dataset. Experiments conducted to check nine state-of-the-art methods on this dataset show that the performance of those above methods perform poorly in the AQPDCITY dataset.
翻訳日:2022-12-21 05:49:59 公開日:2020-04-06
# GraphChallenge.orgのスパースニューラルネットワーク性能

GraphChallenge.org Sparse Deep Neural Network Performance ( http://arxiv.org/abs/2004.01181v2 )

ライセンス: Link先を確認
Jeremy Kepner, Simon Alford, Vijay Gadepally, Michael Jones, Lauren Milechin, Albert Reuther, Ryan Robinett, Sid Samsi(参考訳) MIT/IEEE/Amazon GraphChallenge.orgは、グラフとスパースデータを分析するための新しいソリューションを開発するためのコミュニティアプローチを奨励している。 スパースAI分析には、ユニークなスケーラビリティの難しさがある。 スパースディープニューラルネットワーク(DNN)チャレンジは、マシンラーニングやハイパフォーマンスコンピューティング、ビジュアル分析といった、先進的なスパースAIシステムに反映した課題を生み出すために、それまでの課題に基づいている。 スパースDNNチャレンジは、数学的に明確に定義されたDNN推論計算に基づいており、任意のプログラミング環境で実装できる。 2019年、さまざまな著者や組織から、いくつかのまばらなDNNチャレンジが受理された。 本稿では,これらの作品のベストパフォーマーのパフォーマンス分析を行う。 これらの提案は、最先端のスパースDNN実行時間である$T_{\rm DNN}$が、実行されたDNN操作の数、$N_{\rm op}$の強い関数であることを示している。 スパースDNNチャレンジは、現在のスパースDNNシステムの明確なイメージを提供し、非常に大きなスパースDNNで高いパフォーマンスを達成するための新しいイノベーションの必要性を浮き彫りにしている。

The MIT/IEEE/Amazon GraphChallenge.org encourages community approaches to developing new solutions for analyzing graphs and sparse data. Sparse AI analytics present unique scalability difficulties. The Sparse Deep Neural Network (DNN) Challenge draws upon prior challenges from machine learning, high performance computing, and visual analytics to create a challenge that is reflective of emerging sparse AI systems. The sparse DNN challenge is based on a mathematically well-defined DNN inference computation and can be implemented in any programming environment. In 2019 several sparse DNN challenge submissions were received from a wide range of authors and organizations. This paper presents a performance analysis of the best performers of these submissions. These submissions show that their state-of-the-art sparse DNN execution time, $T_{\rm DNN}$, is a strong function of the number of DNN operations performed, $N_{\rm op}$. The sparse DNN challenge provides a clear picture of current sparse DNN systems and underscores the need for new innovations to achieve high performance on very large sparse DNNs.
翻訳日:2022-12-20 02:32:20 公開日:2020-04-06
# 成人データセットにおける統計的パリティのプリズムによる機械学習のバイアス調査

A survey of bias in Machine Learning through the prism of Statistical Parity for the Adult Data Set ( http://arxiv.org/abs/2003.14263v2 )

ライセンス: Link先を確認
Philippe Besse, Eustasio del Barrio, Paula Gordaliza, Jean-Michel Loubes and Laurent Risser(参考訳) 機械学習モデルに基づくアプリケーションは、日々の生活とプロフェッショナルの世界で欠かせない部分になっている。 アルゴリズムによる決定は、特定の集団や少数民族に対するあらゆる種類の差別を伝達しますか? 本稿では,偏見を自動決定にどのように導入できるかを理解することの重要性を示す。 まず、公正学習問題、特に二項分類設定における数学的枠組みについて述べる。 そこで本研究では,実および知名度の高い成人所得データセットに対する標準差影響指数を用いてバイアスの存在を定量化することを提案する。 最後に,バイナリ分類結果のバイアス低減を目的とした,さまざまなアプローチのパフォーマンスを確認する。 重要なことは、直感的な方法が効果がないことである。 これは、トレーニング観察がバイアスを含んでいる場合、機械学習モデルを公平にしようとすることが特に難しい課題であるという事実を浮き彫りにしている。

Applications based on Machine Learning models have now become an indispensable part of the everyday life and the professional world. A critical question then recently arised among the population: Do algorithmic decisions convey any type of discrimination against specific groups of population or minorities? In this paper, we show the importance of understanding how a bias can be introduced into automatic decisions. We first present a mathematical framework for the fair learning problem, specifically in the binary classification setting. We then propose to quantify the presence of bias by using the standard Disparate Impact index on the real and well-known Adult income data set. Finally, we check the performance of different approaches aiming to reduce the bias in binary classification outcomes. Importantly, we show that some intuitive methods are ineffective. This sheds light on the fact trying to make fair machine learning models may be a particularly challenging task, in particular when the training observations contain a bias.
翻訳日:2022-12-18 00:29:48 公開日:2020-04-06
# 資源制約に基づくレコメンデーションのための階層的適応的コンテキスト帯域

Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation ( http://arxiv.org/abs/2004.01136v2 )

ライセンス: Link先を確認
Mengyue Yang, Qingyang Li, Zhiwei Qin, Jieping Ye(参考訳) コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。 しかし、レコメンデーションシステムやオンライン広告といった現実世界のシナリオにおいては、探索の資源消費を考えることが不可欠である。 実際には、通常、環境においてレコメンデーション(arm)の実行に関連するコストはゼロではありません。 NPハード問題であり、バンディットアルゴリズムの探索とエクスプロイトのトレードオフを著しく複雑化するため、グローバルな最適政策を直接学習することは困難である。 既存のアプローチは、期待される報酬とコストを見積もる欲求政策を採用し、探査資源が枯渇するまで、各アームの予測報酬/コスト比に基づいて欲求選択を用いることに焦点を当てている。 しかし、学習プロセスはリソースがなければ終了するので、既存の手法は無限の時間水平線にまで拡張するのは難しい。 本稿では,予算制約を伴うコンテキストバンディットのポリシー学習を行うための階層的適応型コンテキストバンディット法(hatch)を提案する。 HATCHは、残りのリソース/時間と異なるユーザコンテキスト間の報酬分布の推定に基づいて、探索リソースを割り当てる適応的手法を採用する。 さらに,コンテキスト情報に満ちた特徴情報を用いて,最適なパーソナライズレコメンデーションを求める。 最後に、理論的な保証を証明するために、後悔束縛解析を示し、HATCH が$O(\sqrt{T})$ 以下の後悔束を得たことを証明する。 実験結果は,合成データセットと実世界のアプリケーションの両方における提案手法の有効性と有効性を示す。

Contextual multi-armed bandit (MAB) achieves cutting-edge performance on a variety of problems. When it comes to real-world scenarios such as recommendation system and online advertising, however, it is essential to consider the resource consumption of exploration. In practice, there is typically non-zero cost associated with executing a recommendation (arm) in the environment, and hence, the policy should be learned with a fixed exploration cost constraint. It is challenging to learn a global optimal policy directly, since it is a NP-hard problem and significantly complicates the exploration and exploitation trade-off of bandit algorithms. Existing approaches focus on solving the problems by adopting the greedy policy which estimates the expected rewards and costs and uses a greedy selection based on each arm's expected reward/cost ratio using historical observation until the exploration resource is exhausted. However, existing methods are hard to extend to infinite time horizon, since the learning process will be terminated when there is no more resource. In this paper, we propose a hierarchical adaptive contextual bandit method (HATCH) to conduct the policy learning of contextual bandits with a budget constraint. HATCH adopts an adaptive method to allocate the exploration resource based on the remaining resource/time and the estimation of reward distribution among different user contexts. In addition, we utilize full of contextual feature information to find the best personalized recommendation. Finally, in order to prove the theoretical guarantee, we present a regret bound analysis and prove that HATCH achieves a regret bound as low as $O(\sqrt{T})$. The experimental results demonstrate the effectiveness and efficiency of the proposed method on both synthetic data sets and the real-world applications.
翻訳日:2022-12-17 09:36:16 公開日:2020-04-06
# トポロジカルオートエンコーダを用いたCOVID-19感染動態の類似マップ作成

Generating Similarity Map for COVID-19 Transmission Dynamics with Topological Autoencoder ( http://arxiv.org/abs/2004.01481v2 )

ライセンス: Link先を確認
Pitoyo Hartono(参考訳) 2020年の初めには、中国でsars-cov2ウイルスによって引き起こされた病気であるcovid-19が世界で初めて発生した。 世界保健機関(WHO)は2020年3月11日にこの病気をパンデミックと宣言した。 この病気が世界中に広がるにつれて、地理的、人口学的、戦略的側面が異なるため、すべての国でこの病気の伝染動態を追跡することは困難になる。 本論では,類似するダイナミクスを持つ国が隣接してマッピングされる一方で,異なるダイナミクスを持つ国が互いに遠く離れているような,これらのダイナミクスに対してグローバルトポロジカルマップを生成するために,ニューラルネットワークのタイプの活用を提案する。 著者らは、この種のトポロジカルマップは、病気のダイナミクスとこの世界的危機を直感的に緩和するための戦略との相関をさらに分析し、比較するのに有用であると信じている。 本報告では,240か国以上の患者の時系列データを用いた初期実験について解説する。

At the beginning of 2020 the world has seen the initial outbreak of COVID-19, a disease caused by SARS-CoV2 virus in China. The World Health Organization (WHO) declared this disease as a pandemic on March 11 2020. As the disease spread globally, it becomes difficult to tract the transmission dynamics of this disease in all countries, as they may differ in geographical, demographic and strategical aspects. In this short note, the author proposes the utilization of a type of neural network to generate a global topological map for these dynamics, in which countries that share similar dynamics are mapped adjacently, while countries with significantly different dynamics are mapped far from each other. The author believes that this kind of topological map can be useful for further analyzing and comparing the correlation between the diseases dynamics with strategies to mitigate this global crisis in an intuitive manner. Some initial experiments with with time series of patients numbers in more than 240 countries are explained in this note.
翻訳日:2022-12-17 04:27:56 公開日:2020-04-06
# nilbs:ニューラルネットワークの逆線形ブレンドスキン

NiLBS: Neural Inverse Linear Blend Skinning ( http://arxiv.org/abs/2004.05980v1 )

ライセンス: Link先を確認
Timothy Jeruzalski, David I.W. Levin, Alec Jacobson, Paul Lalonde, Mohammad Norouzi, Andrea Tagliasacchi(参考訳) 本技術報告では,コンピュータビジョンやグラフィックスにおいて重要な課題である,関節オブジェクト(例えば人体)の効率的な表現について検討する。 調音幾何学を変形するために、既存のアプローチはオブジェクトをメッシュとして表現し、それらを「スキニング」技法で変形させる。 スキニング操作により、少数の制御パラメータで幅広い変形を達成することができる。 本稿では,ポーズによってパラメータ化されたニューラルネットワークを用いて,従来のスキン技術を用いて変形を反転させる手法を提案する。 これらの変形を反転させることで、静止姿勢で値(距離関数、符号付き距離関数、占有率)を事前に計算し、文字が変形した場合に効率的に照会することができる。 我々は将来の仕事にアプローチを実証的に評価する。

In this technical report, we investigate efficient representations of articulated objects (e.g. human bodies), which is an important problem in computer vision and graphics. To deform articulated geometry, existing approaches represent objects as meshes and deform them using "skinning" techniques. The skinning operation allows a wide range of deformations to be achieved with a small number of control parameters. This paper introduces a method to invert the deformations undergone via traditional skinning techniques via a neural network parameterized by pose. The ability to invert these deformations allows values (e.g., distance function, signed distance function, occupancy) to be pre-computed at rest pose, and then efficiently queried when the character is deformed. We leave empirical evaluation of our approach to future work.
翻訳日:2022-12-16 07:41:21 公開日:2020-04-06
# 肺CT画像を用いたコロナウイルス(COVID-19)検出のためのハーモニーサーチと大津ベースシステム

Harmony-Search and Otsu based System for Coronavirus Disease (COVID-19) Detection using Lung CT Scan Images ( http://arxiv.org/abs/2004.03431v1 )

ライセンス: Link先を確認
V. Rajinikanth, Nilanjan Dey, Alex Noel Joseph Raj, Aboul Ella Hassanien, K.C. Santosh, N. Sri Madhava Raja(参考訳) 肺炎は最前線の肺疾患の一つであり、未治療の肺炎はすべての年齢層に深刻な脅威をもたらす。 この研究は、CTスキャンを用いて、肺の肺炎感染に起因するコロナウイルス(COVID-19)を抽出し、評価することを目的としている。 肺CT(coronal view)から新型コロナウイルス感染部位を抽出する画像支援システムを提案する。 以下の手順がある。 一 可能なアーティファクトを除去して肺領域を抽出するための閾値フィルタ (ii)harmony-search-optimization と otsu thresholding を用いた画像強調 (iii)感染領域を抽出するための画像分割、及び (4)2値画像から重度計算レベルまでの関心領域(ROI)抽出(機能)。 次に、ROIから抽出された特徴を用いて、肺と感染部位の画素比を特定し、重症度の感染レベルを特定する。 このツールの主な目的は、肺科医が検出するだけでなく、計画的な治療プロセスを支援することである。 その結果、マススクリーニング処理では、診断の負担を防ぐのに役立つ。

Pneumonia is one of the foremost lung diseases and untreated pneumonia will lead to serious threats for all age groups. The proposed work aims to extract and evaluate the Coronavirus disease (COVID-19) caused pneumonia infection in lung using CT scans. We propose an image-assisted system to extract COVID-19 infected sections from lung CT scans (coronal view). It includes following steps: (i) Threshold filter to extract the lung region by eliminating possible artifacts; (ii) Image enhancement using Harmony-Search-Optimization and Otsu thresholding; (iii) Image segmentation to extract infected region(s); and (iv) Region-of-interest (ROI) extraction (features) from binary image to compute level of severity. The features that are extracted from ROI are then employed to identify the pixel ratio between the lung and infection sections to identify infection level of severity. The primary objective of the tool is to assist the pulmonologist not only to detect but also to help plan treatment process. As a consequence, for mass screening processing, it will help prevent diagnostic burden.
翻訳日:2022-12-16 07:40:43 公開日:2020-04-06
# ウイルス検査のためのノイズプール型pcr

Noisy Pooled PCR for Virus Testing ( http://arxiv.org/abs/2004.02689v1 )

ライセンス: Link先を確認
Junan Zhu, Kristina Rivera, Dror Baron(参考訳) ファーストテストは、新型コロナウイルス(COVID-19)パンデミックの緩和に役立つ。 単一のサンプル分析の正確さにもかかわらず、RT-PCRのような感染症診断ツールは、大量の集団をテストするためにかなりの資源を必要とする。 我々は,プール患者サンプルのウイルス状態を決定するためのスケーラブルな手法を開発した。 提案手法は群検定を線形逆問題に変換し, 偽陽性と陰性はノイズのある通信チャネルによって生成されると解釈し, メッセージパッシングアルゴリズムにより患者の病状を推定する。 以上の結果から,既存の雑音群検定法よりもプール計測が少ない患者疾患を推定できることがわかった。 我々のアプローチは、偽陰性の最小化を含む様々なアプリケーションに容易に拡張できる。 最後に、ユートピアの世界ではrt-pcrの専門家と協力し、パンデミック時にそのようなつながりを作るのは難しい。 新しい協力者を歓迎して、この作業の改善を支援します!

Fast testing can help mitigate the coronavirus disease 2019 (COVID-19) pandemic. Despite their accuracy for single sample analysis, infectious diseases diagnostic tools, like RT-PCR, require substantial resources to test large populations. We develop a scalable approach for determining the viral status of pooled patient samples. Our approach converts group testing to a linear inverse problem, where false positives and negatives are interpreted as generated by a noisy communication channel, and a message passing algorithm estimates the illness status of patients. Numerical results reveal that our approach estimates patient illness using fewer pooled measurements than existing noisy group testing algorithms. Our approach can easily be extended to various applications, including where false negatives must be minimized. Finally, in a Utopian world we would have collaborated with RT-PCR experts; it is difficult to form such connections during a pandemic. We welcome new collaborators to reach out and help improve this work!
翻訳日:2022-12-16 07:40:28 公開日:2020-04-06
# 深部埋め込み特徴を用いた同時脱雑音化と残響除去

Simultaneous Denoising and Dereverberation Using Deep Embedding Features ( http://arxiv.org/abs/2004.02420v1 )

ライセンス: Link先を確認
Cunhang Fan and Jianhua Tao and Bin Liu and Jiangyan Yi and Zhengqi Wen(参考訳) モナラ音声の除去は空間的手がかりを使用できないため、非常に困難な作業である。 加算ノイズが存在すると、この課題はより困難になる。 本稿では,深層クラスタリング(deep clustering:dc)に基づく深層埋め込み特徴を用いた同時発声と残響の同時学習手法を提案する。 DCは、組込み学習とK平均クラスタリングを含む、音声分離のための最先端の手法である。 提案手法は, 脱臭と脱脂の2段階を含む。 ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋め込み特徴を抽出する。 これらの埋め込み特徴は、無響音声と残響信号から生成される。 それらは、識別的特徴である所望の信号のスペクトルマスキングパターンを推定することができる。 除去段階では、教師なしK平均クラスタリングアルゴリズムの代わりに、他の教師付きニューラルネットワークを用いて、これらの深い埋め込み特徴から無響音声を推定する。 最後に, 調音段階と脱水段階をジョイントトレーニング法により最適化する。 実験の結果,提案手法は低SNR条件下でのWPEおよびBLSTMベースラインよりも優れていた。

Monaural speech dereverberation is a very challenging task because no spatial cues can be used. When the additive noises exist, this task becomes more challenging. In this paper, we propose a joint training method for simultaneous speech denoising and dereverberation using deep embedding features, which is based on the deep clustering (DC). DC is a state-of-the-art method for speech separation that includes embedding learning and K-means clustering. As for our proposed method, it contains two stages: denoising and dereverberation. At the denoising stage, the DC network is leveraged to extract noise-free deep embedding features. These embedding features are generated from the anechoic speech and residual reverberation signals. They can represent the inferred spectral masking patterns of the desired signals, which are discriminative features. At the dereverberation stage, instead of using the unsupervised K-means clustering algorithm, another supervised neural network is utilized to estimate the anechoic speech from these deep embedding features. Finally, the denoising stage and dereverberation stage are optimized by the joint training method. Experimental results show that the proposed method outperforms the WPE and BLSTM baselines, especially in the low SNR condition.
翻訳日:2022-12-16 07:40:13 公開日:2020-04-06
# 拡張ランダム探索を用いたテンセグリティホッパーの学習安定化制御ポリシー

Learning Stabilizing Control Policies for a Tensegrity Hopper with Augmented Random Search ( http://arxiv.org/abs/2004.02641v1 )

ライセンス: Link先を確認
Vladislav Kurenkov, Hany Hamed, Sergei Savin(参考訳) 本稿では,ホップで移動できる新しいテンセグリティロボットであるtensegrity hopperについて考察する。 本稿では,Augmented Random Search法を用いて得られた安定化制御ポリシーの設計に焦点をあてる。 特に,ジャンプを1回行った後,ホッパーが垂直安定性を維持するための制御ポリシーを探索する。 ホッパーは, 異なる初期条件と制御周波数率の変化により, 垂直配置を維持できることが実証された。 特に,1000Hzから500Hzまでの制御周波数の低下は,バランスタスクの成功率に影響を与えなかった。

In this paper, we consider tensegrity hopper - a novel tensegrity-based robot, capable of moving by hopping. The paper focuses on the design of the stabilizing control policies, which are obtained with Augmented Random Search method. In particular, we search for control policies which allow the hopper to maintain vertical stability after performing a single jump. It is demonstrated, that the hopper can maintain a vertical configuration, subject to the different initial conditions and with changing control frequency rates. In particular, lowering control frequency from 1000Hz in training to 500Hz in execution did not affect the success rate of the balancing task.
翻訳日:2022-12-16 07:39:32 公開日:2020-04-06
# フェデレーション学習アルゴリズムにおけるコミュニケーション効率の評価

Evaluating the Communication Efficiency in Federated Learning Algorithms ( http://arxiv.org/abs/2004.02738v1 )

ライセンス: Link先を確認
Muhammad Asad, Ahmed Moustafa, Takayuki Ito and Muhammad Aslam(参考訳) 先進技術の時代には、モバイルデバイスには過剰な量のデータを集めるコンピューティングとセンシング機能が備わっている。 これらの量のデータは、異なる学習モデルのトレーニングに適している。 ディープラーニング(DL)の進歩と協調して、これらの学習モデルは、画像処理、音声認識、医療、車載ネットワークなど、多くの有用な応用を可能にする。 従来、機械学習(ML)アプローチでは、データをクラウドベースのデータ中心に集中する必要がある。 しかし、このデータは量が多く、プライバシーに敏感であり、学習モデルのトレーニングのためにこれらのデータ中心にログインすることを防ぐ。 これにより、高いレイテンシと通信効率の重大な問題が発生する。 近年,多くの国で新たなプライバシー法が制定され,フェデレートラーニング(FL)の概念が導入されている。 flでは、モバイルユーザーはプライバシーに敏感なデータを共有せずに、ローカルモデルを集約することでグローバルモデルを学ぶことができる。 通常、これらのモバイルユーザーは、グローバルモデルを維持するデータ中心へのネットワーク接続が遅い。 さらに、複雑な大規模ネットワークでは、様々なエネルギー制約のある異種デバイスが関与している。 これにより、FLを大規模に実装する際の通信コストの課題が生じる。 この目的のために,本研究ではFLの基礎から始め,最近のFLアルゴリズムを強調し,その通信効率を詳細な比較で評価する。 さらに,通信の観点からもプライバシの観点からも,既存のFL問題を緩和するための一連のソリューションを提案する。

In the era of advanced technologies, mobile devices are equipped with computing and sensing capabilities that gather excessive amounts of data. These amounts of data are suitable for training different learning models. Cooperated with advancements in Deep Learning (DL), these learning models empower numerous useful applications, e.g., image processing, speech recognition, healthcare, vehicular network and many more. Traditionally, Machine Learning (ML) approaches require data to be centralised in cloud-based data-centres. However, this data is often large in quantity and privacy-sensitive which prevents logging into these data-centres for training the learning models. In turn, this results in critical issues of high latency and communication inefficiency. Recently, in light of new privacy legislations in many countries, the concept of Federated Learning (FL) has been introduced. In FL, mobile users are empowered to learn a global model by aggregating their local models, without sharing the privacy-sensitive data. Usually, these mobile users have slow network connections to the data-centre where the global model is maintained. Moreover, in a complex and large scale network, heterogeneous devices that have various energy constraints are involved. This raises the challenge of communication cost when implementing FL at large scale. To this end, in this research, we begin with the fundamentals of FL, and then, we highlight the recent FL algorithms and evaluate their communication efficiency with detailed comparisons. Furthermore, we propose a set of solutions to alleviate the existing FL problems both from communication perspective and privacy perspective.
翻訳日:2022-12-16 07:39:21 公開日:2020-04-06
# logicnets:extreme-throughputアプリケーションのためのニューラルネットワークと回路

LogicNets: Co-Designed Neural Networks and Circuits for Extreme-Throughput Applications ( http://arxiv.org/abs/2004.03021v1 )

ライセンス: Link先を確認
Yaman Umuroglu, Yash Akhauri, Nicholas J. Fraser, Michaela Blott(参考訳) 非常に高いスループットや非常に低レイテンシを必要とするアプリケーションのためのディープニューラルネットワークのデプロイは、厳しい計算上の課題であり、計算をハードウェアにマッピングする非効率性によってさらに悪化する。 本稿では,高効率FPGA実装に直接マップするニューラルネットワークトポロジを設計する新しい手法を提案する。 量子化された入力/出力と真理表による人工ニューロンの等価性を利用して、真理表のネットリストに直接変換できる量子化されたニューラルネットワークを訓練し、その後、高パイプ化可能で大規模に並列なFPGA回路として展開する。 しかし、真理表のハードウェアコストはニューロンのファンインとともに指数関数的に増加するため、ニューラルネットワークトポロジーは慎重に考慮する必要がある。 単一FPGA上にネットリスト全体を配置・縮小可能な小型ネットワークを実現するため,トポロジー設計をガイドするファンインハードウェアコストモデルを構築し,低ビットアクティベーション量子化と高空間を結合してニューロンのファンインを制限する。 我々は,高エネルギー物理とネットワーク侵入検出において,非常に高いスループット要求を持つ2つのタスクに対するアプローチを評価した。 低ビットのアクティベーション量子化とスパーシティの組み合わせは、ロジックの深さが小さく、lutコストが低い高速回路となり、毎秒数億回の推論で15 ns未満の推論レイテンシとスループットで競合精度を発揮できることを示した。

Deployment of deep neural networks for applications that require very high throughput or extremely low latency is a severe computational challenge, further exacerbated by inefficiencies in mapping the computation to hardware. We present a novel method for designing neural network topologies that directly map to a highly efficient FPGA implementation. By exploiting the equivalence of artificial neurons with quantized inputs/outputs and truth tables, we can train quantized neural networks that can be directly converted to a netlist of truth tables, and subsequently deployed as a highly pipelinable, massively parallel FPGA circuit. However, the neural network topology requires careful consideration since the hardware cost of truth tables grows exponentially with neuron fan-in. To obtain smaller networks where the whole netlist can be placed-and-routed onto a single FPGA, we derive a fan-in driven hardware cost model to guide topology design, and combine high sparsity with low-bit activation quantization to limit the neuron fan-in. We evaluate our approach on two tasks with very high intrinsic throughput requirements in high-energy physics and network intrusion detection. We show that the combination of sparsity and low-bit activation quantization results in high-speed circuits with small logic depth and low LUT cost, demonstrating competitive accuracy with less than 15 ns of inference latency and throughput in the hundreds of millions of inferences per second.
翻訳日:2022-12-16 07:38:48 公開日:2020-04-06
# 深層学習による胸部CTのコロナウイルス検出と解析

Coronavirus Detection and Analysis on Chest CT with Deep Learning ( http://arxiv.org/abs/2004.02640v1 )

ライセンス: Link先を確認
Ophir Gozes, Maayan Frid-Adar, Nimrod Sagie, Huangqi Zhang, Wenbin Ji, and Hayit Greenspan(参考訳) 新型コロナウイルスの感染拡大は、私たちの日常生活に深刻な影響を与えている。 この論文の執筆時点で、約197,188件が確認されており、そのうち80,881件が「中国本土」で7,949人が死亡し、死亡率は3.4%である。 この圧倒的な課題で放射線科医を支援するために,我々は胸部ctスキャンから新型コロナウイルスの重症度を検出,局所化,定量化できる深層学習ベースのアルゴリズムを開発した。 このアルゴリズムは、肺分画、2Dスライス分類、微粒化を含む画像処理アルゴリズムのパイプラインで構成されている。 疾患の症状をより深く理解するために,異常スライスの教師なしクラスタリングを行う。 本研究は、中国江江省で確認された110人の患者を対象に行った。

The outbreak of the novel coronavirus, officially declared a global pandemic, has a severe impact on our daily lives. As of this writing there are approximately 197,188 confirmed cases of which 80,881 are in "Mainland China" with 7,949 deaths, a mortality rate of 3.4%. In order to support radiologists in this overwhelming challenge, we develop a deep learning based algorithm that can detect, localize and quantify severity of COVID-19 manifestation from chest CT scans. The algorithm is comprised of a pipeline of image processing algorithms which includes lung segmentation, 2D slice classification and fine grain localization. In order to further understand the manifestations of the disease, we perform unsupervised clustering of abnormal slices. We present our results on a dataset comprised of 110 confirmed COVID-19 patients from Zhejiang province, China.
翻訳日:2022-12-16 07:31:34 公開日:2020-04-06
# 空間適応正規化の再考

Rethinking Spatially-Adaptive Normalization ( http://arxiv.org/abs/2004.02867v1 )

ライセンス: Link先を確認
Zhentao Tan, Dongdong Chen, Qi Chu, Menglei Chai, Jing Liao, Mingming He, Lu Yuan, Nenghai Yu(参考訳) 空間適応型正規化は,意味的レイアウトから学習した空間的変化による正規化活性化を変調し,意味情報を洗い流すのを防ぐ条件付き意味画像合成において,近年顕著に成功している。 その印象的な性能にもかかわらず、これらの新しい構造によってもたらされる重要な計算量とパラメーターのオーバーヘッドを減らすために、ボックス内の真の利点をより深く理解することが依然として非常に要求されている。 本稿では,再投資の観点から,spadeの有効性を深く分析し,その利点は主に空間適応性ではなく,その意味認識性にあることを確かめる。 そこで我々は,空間的位置やレイアウトに適応しない軽量な変種であるクラス適応正規化(CLADE)を提案する。 この設計に適合したCLADEは、生成時に意味情報を保存しながら計算コストを大幅に削減する。 複数の挑戦的なデータセットに対する大規模な実験は、結果の忠実度がSPADEと同等である一方で、そのオーバーヘッドがSPADEよりもはるかに低いことを示している。 ADE20kデータセットのジェネレータを例にとると、CLADEが導入した余剰パラメータと計算コストは4.57%と0.07%であり、SPADEのジェネレータはそれぞれ39.21%と234.73%である。

Spatially-adaptive normalization is remarkably successful recently in conditional semantic image synthesis, which modulates the normalized activation with spatially-varying transformations learned from semantic layouts, to preserve the semantic information from being washed away. Despite its impressive performance, a more thorough understanding of the true advantages inside the box is still highly demanded, to help reduce the significant computation and parameter overheads introduced by these new structures. In this paper, from a return-on-investment point of view, we present a deep analysis of the effectiveness of SPADE and observe that its advantages actually come mainly from its semantic-awareness rather than the spatial-adaptiveness. Inspired by this point, we propose class-adaptive normalization (CLADE), a lightweight variant that is not adaptive to spatial positions or layouts. Benefited from this design, CLADE greatly reduces the computation cost while still being able to preserve the semantic information during the generation. Extensive experiments on multiple challenging datasets demonstrate that while the resulting fidelity is on par with SPADE, its overhead is much cheaper than SPADE. Take the generator for ADE20k dataset as an example, the extra parameter and computation cost introduced by CLADE are only 4.57% and 0.07% while that of SPADE are 39.21% and 234.73% respectively.
翻訳日:2022-12-16 07:30:38 公開日:2020-04-06
# 深層学習のための画像ラベルツールと農業データセット

An Image Labeling Tool and Agricultural Dataset for Deep Learning ( http://arxiv.org/abs/2004.03351v1 )

ライセンス: Link先を確認
Patrick Wspanialy, Justin Brooks, Medhat Moussa(参考訳) 農業におけるコンピュータビジョン研究の促進を目的としたラベル付けツールとデータセットを提案する。 このアノテーションツールは、マニュアル、セミオートマチック、フルオートマチックツールのさまざまなラベリングのための新しいメソッドを導入している。 データセットには、商用の温室から集めたオリジナルイメージ、PlantVillageの画像、Google Imagesの画像が含まれている。 画像には, 前庭葉, 果実, 茎, 病状葉面積のセグメンテーションが付与された。 レーベルはCOCOフォーマットを拡張した。 合計で10kのトマト,7kの葉,2kの茎,2kの病気の葉の注釈が含まれていた。

We introduce a labeling tool and dataset aimed to facilitate computer vision research in agriculture. The annotation tool introduces novel methods for labeling with a variety of manual, semi-automatic, and fully-automatic tools. The dataset includes original images collected from commercial greenhouses, images from PlantVillage, and images from Google Images. Images were annotated with segmentations for foreground leaf, fruit, and stem instances, and diseased leaf area. Labels were in an extended COCO format. In total the dataset contained 10k tomatoes, 7k leaves, 2k stems, and 2k diseased leaf annotations.
翻訳日:2022-12-16 07:29:47 公開日:2020-04-06
# 新型コロナウイルス関連研究論文の関連性発見

Discovering associations in COVID-19 related research papers ( http://arxiv.org/abs/2004.03397v1 )

ライセンス: Link先を確認
Iztok Fister Jr., Karin Fister, Iztok Fister(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、すでに世界的な課題であることが証明されている。 人類がいかに脆弱であるかを証明する。 同社はまた、この致命的な病気に対処する方法を探るため、さまざまな科学や各国の研究者を動員した。 そこで本研究では,covid-19関連論文の要約を,関連規則テキストマイニング(association rule text mining)を用いて分析した。 そして,膨大な関連ルールから構造化知識を抽出するために,情報地図法という手法を適用した。 本研究の目的は,歴史を通じて同様の流行やパンデミックの状況において研究者がどのように対応してきたかを示すことである。

A COVID-19 pandemic has already proven itself to be a global challenge. It proves how vulnerable humanity can be. It has also mobilized researchers from different sciences and different countries in the search for a way to fight this potentially fatal disease. In line with this, our study analyses the abstracts of papers related to COVID-19 and coronavirus-related-research using association rule text mining in order to find the most interestingness words, on the one hand, and relationships between them on the other. Then, a method, called information cartography, was applied for extracting structured knowledge from a huge amount of association rules. On the basis of these methods, the purpose of our study was to show how researchers have responded in similar epidemic/pandemic situations throughout history.
翻訳日:2022-12-16 07:29:05 公開日:2020-04-06
# 信頼に基づくマルチエージェントコンセンサスまたは重み付け集約

Trust-based Multiagent Consensus or Weightings Aggregation ( http://arxiv.org/abs/2004.02490v1 )

ライセンス: Link先を確認
Bruno Yun and Madalina Croitoru(参考訳) 信頼ネットワークを介して通信する複数のエージェント間のコンセンサスに到達するための枠組みを,環境に関する矛盾する情報に基づいて導入する。 我々は,そのアプローチを形式化し,その特性について経験的かつ理論的に分析する。

We introduce a framework for reaching a consensus amongst several agents communicating via a trust network on conflicting information about their environment. We formalise our approach and provide an empirical and theoretical analysis of its properties.
翻訳日:2022-12-16 07:22:45 公開日:2020-04-06
# 可変シフトSDD: より簡潔な意味決定図

Variable Shift SDD: A More Succinct Sentential Decision Diagram ( http://arxiv.org/abs/2004.02502v1 )

ライセンス: Link先を確認
Kengo Nakamura, Shuhei Denzumi, Masaaki Nishino(参考訳) Sentential Decision Diagram (SDD) はブール関数の抽出可能な表現であり、有名な順序付き二項決定図(OBDD)を厳密な部分集合として仮定する。 SDDは、OBDDよりも簡潔で、標準形式を持ち、モデルカウントやApply操作といった多くの有用なクエリや変換をサポートするため、多くの注目を集めています。 本稿では,VS-SDD (Variable Shift SDD) と呼ばれるSDDのより簡潔なバリエーションを提案する。 重要なアイデアは、特定の変数置換の下で等価であるブール関数のユニークな表現を作ることである。 我々は,VS-SDDがSDDよりも大きくなることはなく,VS-SDDのサイズがSDDよりも指数関数的に小さいケースがあることを示した。 また,その簡潔さにも拘わらず,VS-SDDでポリ時間にサポートされた基本操作が,VS-SDDでサポートされた。 実験により、VS-SDDは、固有の対称性が存在する古典的な計画例に適用した場合、SDDよりもはるかに簡潔であることが確認された。

The Sentential Decision Diagram (SDD) is a tractable representation of Boolean functions that subsumes the famous Ordered Binary Decision Diagram (OBDD) as a strict subset. SDDs are attracting much attention because they are more succinct than OBDDs, as well as having canonical forms and supporting many useful queries and transformations such as model counting and Apply operation. In this paper, we propose a more succinct variant of SDD named Variable Shift SDD (VS-SDD). The key idea is to create a unique representation for Boolean functions that are equivalent under a specific variable substitution. We show that VS-SDDs are never larger than SDDs and there are cases in which the size of a VS-SDD is exponentially smaller than that of an SDD. Moreover, despite such succinctness, we show that numerous basic operations that are supported in polytime with SDD are also supported in polytime with VS-SDD. Experiments confirm that VS-SDDs are significantly more succinct than SDDs when applied to classical planning instances, where inherent symmetry exists.
翻訳日:2022-12-16 07:22:40 公開日:2020-04-06
# 規範的masのための規範的創発枠組み --位置論文-

A Norm Emergence Framework for Normative MAS -- Position Paper ( http://arxiv.org/abs/2004.02575v1 )

ライセンス: Link先を確認
Andreasa Morris-Martin and Marina De Vos and Julian Padget(参考訳) ノルムの出現は一般的に、ノルムが暗黙的であるマルチエージェントシステム(MAS)の文脈で研究され、参加エージェントは単純化された意思決定機構を使用する。 これらの暗黙の規範は通常無意識に共有され、エージェントの相互作用によって採用される。 基準は、しきい値または所定の割合のエージェントが「ノルム」に従うときに生じたと考えられている。 逆に、規範的MASでは、規範は一般的に明示的であり、エージェントはコミュニケーションを通じて故意に規範を共有したり、権威によって規範について知らされる。 エージェントによる規範の採用の決定は、認識後、または適用可能な状況が生じた直後に起こり得る。 本稿では,エージェントのパーセンテージがノルムを採用すると,同様にノルムがノルム的masに現れることを仮定する。 さらに、エージェント自体がノルム合成に関与し、従って、オストロムの8つの原則に従ってMASを統括する規範に影響を及ぼすべきであると仮定する。 そこで,本論文では,規範的masにおける規範の出現のための枠組みを策定し,目的のシンセサイザーエージェントがこれらの要求に応じて新しい規範や修正を定式化しつつ,参加エージェントが規範的システムの変更を提案/要求できるようにする。 シンセサイザーは、新しい規範または規範の修正が進むべきことを集合的に合意し、最終的に「オラクル」によって承認されなければならない。 その後、標準系はノルムを組み込むように修正される。

Norm emergence is typically studied in the context of multiagent systems (MAS) where norms are implicit, and participating agents use simplistic decision-making mechanisms. These implicit norms are usually unconsciously shared and adopted through agent interaction. A norm is deemed to have emerged when a threshold or predetermined percentage of agents follow the "norm". Conversely, in normative MAS, norms are typically explicit and agents deliberately share norms through communication or are informed about norms by an authority, following which an agent decides whether to adopt the norm or not. The decision to adopt a norm by the agent can happen immediately after recognition or when an applicable situation arises. In this paper, we make the case that, similarly, a norm has emerged in a normative MAS when a percentage of agents adopt the norm. Furthermore, we posit that agents themselves can and should be involved in norm synthesis, and hence influence the norms governing the MAS, in line with Ostrom's eight principles. Consequently, we put forward a framework for the emergence of norms within a normative MAS, that allows participating agents to propose/request changes to the normative system, while special-purpose synthesizer agents formulate new norms or revisions in response to these requests. Synthesizers must collectively agree that the new norm or norm revision should proceed, and then finally be approved by an "Oracle". The normative system is then modified to incorporate the norm.
翻訳日:2022-12-16 07:22:20 公開日:2020-04-06
# ロバストな3D自画像

Robust 3D Self-portraits in Seconds ( http://arxiv.org/abs/2004.02460v1 )

ライセンス: Link先を確認
Zhe Li, Tao Yu, Chuanyu Pan, Zerong Zheng, Yebin Liu(参考訳) 本稿では,単一のrgbdカメラを用いたロバストな3次元自己撮影手法を提案する。 提案手法は,PIFusionと軽量バンドル調整アルゴリズムを応用して,詳細な3次元自画像を数秒で生成し,極めてゆるい服を着ている被写体を扱えることを示す。 高効率で頑健な再構築を実現するために,学習に基づく3次元回復と容積的非剛性融合を組み合わせたPIFusionを提案する。 さらに,非剛性体積変形法を提案し,学習した形状を連続的に改良する。 最後に、全ての部分スキャンが相互に"ループ"できるだけでなく、選択したライブキー観測と整合性を保つために、軽量なバンドル調整アルゴリズムが提案されている。 その結果,提案手法は最先端手法と比較して,より堅牢で効率的な3次元自己画像化を実現することがわかった。

In this paper, we propose an efficient method for robust 3D self-portraits using a single RGBD camera. Benefiting from the proposed PIFusion and lightweight bundle adjustment algorithm, our method can generate detailed 3D self-portraits in seconds and shows the ability to handle subjects wearing extremely loose clothes. To achieve highly efficient and robust reconstruction, we propose PIFusion, which combines learning-based 3D recovery with volumetric non-rigid fusion to generate accurate sparse partial scans of the subject. Moreover, a non-rigid volumetric deformation method is proposed to continuously refine the learned shape prior. Finally, a lightweight bundle adjustment algorithm is proposed to guarantee that all the partial scans can not only "loop" with each other but also remain consistent with the selected live key observations. The results and experiments show that the proposed method achieves more robust and efficient 3D self-portraits compared with state-of-the-art methods.
翻訳日:2022-12-16 07:21:12 公開日:2020-04-06
# 多様なイネ(Oryza Sativa L.)遺伝子群のイメージベース表現型

Image-based phenotyping of diverse Rice (Oryza Sativa L.) Genotypes ( http://arxiv.org/abs/2004.02498v1 )

ライセンス: Link先を確認
Mukesh Kumar Vishal, Dipesh Tamboli, Abhijeet Patil, Rohit Saluja, Biplab Banerjee, Amit Sethi, Dhandapani Raju, Sudhir Kumar, R N Sahoo, Viswanathan Chinnusamy, J Adinarayana(参考訳) イネ(Oryza sativa L.)の耐乾燥性・耐乾燥性品種の開発は、特に気候変動の文脈で高い収量を達成するために、世界中の重要な課題である。 高収量米品種の必要性は、インド、中国、および米が主要な主食であるアジア・アフリカ諸国などの発展途上国にとって大きな懸念事項である。 本研究は,干ばつ耐性および感受性遺伝子型を判別するためのものである。 インド農業研究インド農業研究所(ニューデリー)のナジ・デシュムフ植物ゲノムセンター(Nanaji Deshmukh Plant Phenomics Centre)において,制御条件下で150種の遺伝子型が育成された。 現在の調査では、10の遺伝子型のサブセットが150から取り除かれている。 遺伝型を判別するために,葉の先端を接合して形成される植物凸殻の葉数,凸殻および凸殻面積,植物の単位凸殻当たりの葉数,キャノピー拡散-垂直展開,植物の水平拡散などの特徴を検討した。 葉先検出のための深層学習アルゴリズムYOLO(You Only Look Once)を訓練し,イネの葉数を推定した。 提案フレームワークでは,選択した形質に基づいて遺伝子型をスクリーニングした。 これらの遺伝子型は、ウォードクラスタリング法を用いて、耐乾性および耐乾性遺伝子型の異なるグループにさらに分類された。

Development of either drought-resistant or drought-tolerant varieties in rice (Oryza sativa L.), especially for high yield in the context of climate change, is a crucial task across the world. The need for high yielding rice varieties is a prime concern for developing nations like India, China, and other Asian-African countries where rice is a primary staple food. The present investigation is carried out for discriminating drought tolerant, and susceptible genotypes. A total of 150 genotypes were grown under controlled conditions to evaluate at High Throughput Plant Phenomics facility, Nanaji Deshmukh Plant Phenomics Centre, Indian Council of Agricultural Research-Indian Agricultural Research Institute, New Delhi. A subset of 10 genotypes is taken out of 150 for the current investigation. To discriminate against the genotypes, we considered features such as the number of leaves per plant, the convex hull and convex hull area of a plant-convex hull formed by joining the tips of the leaves, the number of leaves per unit convex hull of a plant, canopy spread - vertical spread, and horizontal spread of a plant. We trained You Only Look Once (YOLO) deep learning algorithm for leaves tips detection and to estimate the number of leaves in a rice plant. With this proposed framework, we screened the genotypes based on selected traits. These genotypes were further grouped among different groupings of drought-tolerant and drought susceptible genotypes using the Ward method of clustering.
翻訳日:2022-12-16 07:20:33 公開日:2020-04-06
# LaNet: 加速度センサデータによる道路表面特性の学習によるリアルタイムレーン識別

LaNet: Real-time Lane Identification by Learning Road SurfaceCharacteristics from Accelerometer Data ( http://arxiv.org/abs/2004.02822v1 )

ライセンス: Link先を確認
Madhumitha Harishankar, Jun Han, Sai Vineeth Kalluru Srinivas, Faisal Alqarni, Shi Su, Shijia Pan, Hae Young Noh, Pei Zhang, Marco Gruteser, Patrick Tague(参考訳) GPSの解像度は、特に都市部では、車両の車線を特定するには不十分である。 本研究では,車両がリアルタイムで走行中に収集した加速度計のサンプルを定期的に分類し,車線車両の走行を判断するディープlstmニューラルネットワークモデル lanetを開発した。 我々の重要な発見は、隣接する道路面のパッチでさえ、レーンの区別に十分な特徴、すなわち本質的に異なるバンプ、クラック、ポットホール、表面の凹凸を示す特徴を含むことである。 車は、車に搭載され、CANバスを介してアクセス可能な、安価で簡単に装着できる加速度計を使って、この道路表面情報をキャプチャすることができる。 我々は60kmの走行データを収集し、変動駆動速度、車両サスペンション、加速度センサノイズなどの要因を捕捉するデータに基づいてさらに合成する。 開発したlstmベースのディープラーニングモデルである lanet は,道路表面イベント(バンプ,クラックなど)のレーン固有シーケンスを学習し,200mの駆動データで100%レーン識別精度を生み出し,わずか100mで90%以上を達成した(約1分程度)。 我々は,LaNetモデルをリアルタイム車線分類において実用的に設計し,スムーズな道路,大規模多車線道路,頻繁な車線変更を伴うドライブでも高い分類精度が得られることを示す。 異なる道路表面は固有特性やエントロピーが異なるため、ニューラルネットワークモデルを発掘し、モデルを1回だけトレーニングすることで、様々な走行距離にわたる道路における達成可能な分類精度を容易に特徴付けるメカニズムを見出した。 我々は、LaNetを低コストで、容易にデプロイでき、高精度で、きめ細かいレーン識別を実現する方法として提示する。

The resolution of GPS measurements, especially in urban areas, is insufficient for identifying a vehicle's lane. In this work, we develop a deep LSTM neural network model LaNet that determines the lane vehicles are on by periodically classifying accelerometer samples collected by vehicles as they drive in real time. Our key finding is that even adjacent patches of road surfaces contain characteristics that are sufficiently unique to differentiate between lanes, i.e., roads inherently exhibit differing bumps, cracks, potholes, and surface unevenness. Cars can capture this road surface information as they drive using inexpensive, easy-to-install accelerometers that increasingly come fitted in cars and can be accessed via the CAN-bus. We collect an aggregate of 60 km driving data and synthesize more based on this that capture factors such as variable driving speed, vehicle suspensions, and accelerometer noise. Our formulated LSTM-based deep learning model, LaNet, learns lane-specific sequences of road surface events (bumps, cracks etc.) and yields 100% lane classification accuracy with 200 meters of driving data, achieving over 90% with just 100 m (correspondingly to roughly one minute of driving). We design the LaNet model to be practical for use in real-time lane classification and show with extensive experiments that LaNet yields high classification accuracy even on smooth roads, on large multi-lane roads, and on drives with frequent lane changes. Since different road surfaces have different inherent characteristics or entropy, we excavate our neural network model and discover a mechanism to easily characterize the achievable classification accuracies in a road over various driving distances by training the model just once. We present LaNet as a low-cost, easily deployable and highly accurate way to achieve fine-grained lane identification.
翻訳日:2022-12-16 07:13:46 公開日:2020-04-06
# ここで再び、バックバックする - バックプロパゲーション・サリエンシ・メソッドを再考する

There and Back Again: Revisiting Backpropagation Saliency Methods ( http://arxiv.org/abs/2004.02866v1 )

ライセンス: Link先を確認
Sylvestre-Alvise Rebuffi, Ruth Fong, Xu Ji, Andrea Vedaldi(参考訳) 正当性法は,各入力サンプルの重要度マップを作成することによって,モデルの予測を説明する。 このような手法の一般的なクラスは、信号のバックプロパゲートと結果の勾配の分析に基づいている。 このような手法に関する多くの研究にもかかわらず、これらの手法とこれらの手法のデシラタの違いを明らかにするための研究は比較的少ない。 したがって、異なるメソッド間の関係とそれらの失敗モードを厳密に理解する必要がある。 本研究では,バックプロパゲーションに基づくサリエンシ手法の徹底的な解析を行い,そのような手法を統一できる単一の枠組みを提案する。 研究の結果、さらに3つの貢献がなされました。 まず、我々のフレームワークを用いて、畳み込み重みの勾配の空間的寄与に基づく新しいサリエンシ手法であるNormGradを提案する。 第2に,異なる層におけるサリエンシーマップを組み合わせることで,異なるネットワークレベルでの補完的情報を抽出するサリエンシー手法(例: 空間分解能と識別性)のテストを行い,特定の層においていくつかの手法が失敗する理由を説明する(例: grad-cam は最終畳み込み層以外のどこにでもある)。 第3に、クラス感度の指標とメタラーニングにインスパイアされたパラダイムを導入し、説明対象の出力クラスの感度を向上させる。

Saliency methods seek to explain the predictions of a model by producing an importance map across each input sample. A popular class of such methods is based on backpropagating a signal and analyzing the resulting gradient. Despite much research on such methods, relatively little work has been done to clarify the differences between such methods as well as the desiderata of these techniques. Thus, there is a need for rigorously understanding the relationships between different methods as well as their failure modes. In this work, we conduct a thorough analysis of backpropagation-based saliency methods and propose a single framework under which several such methods can be unified. As a result of our study, we make three additional contributions. First, we use our framework to propose NormGrad, a novel saliency method based on the spatial contribution of gradients of convolutional weights. Second, we combine saliency maps at different layers to test the ability of saliency methods to extract complementary information at different network levels (e.g.~trading off spatial resolution and distinctiveness) and we explain why some methods fail at specific layers (e.g., Grad-CAM anywhere besides the last convolutional layer). Third, we introduce a class-sensitivity metric and a meta-learning inspired paradigm applicable to any saliency method for improving sensitivity to the output class being explained.
翻訳日:2022-12-16 07:13:14 公開日:2020-04-06
# 指紋提示アタック検出 : センサと材料非依存アプローチ

Fingerprint Presentation Attack Detection: A Sensor and Material Agnostic Approach ( http://arxiv.org/abs/2004.02941v1 )

ライセンス: Link先を確認
Steven A. Grosz, Tarang Chugh, Anil K. Jain(参考訳) プレゼンテーションアタック(pa)に対する自動指紋認証システムの脆弱性、すなわちspoofや変更された指に対する脆弱性は、正確かつ効率的なプレゼンテーションアタック検出(pad)法の開発を保証し、ますます懸念されている。 しかし、既存のPADソリューションの1つの大きな制限は、トレーニングに使用されない新しいPA材料や指紋センサーへの一般化が不十分であることである。 本研究では,クロスマテリアルとクロスセンサの一般化を改良した堅牢なPADソリューションを提案する。 具体的には,指紋スプーフ検出のために訓練されたCNNベースのアーキテクチャと,スタイル転送ネットワークラッパーを用いたクロスマテリアルスプーフ一般化を併用して構築する。 また,DNN(Deep Neural Network)にARL(Adversarial Expression Learning)を組み込んで,PADのセンサおよび材料不変表現を学習する。 LivDet 2015と2017のパブリックドメインデータセットの実験結果は、提案されたアプローチの有効性を示している。

The vulnerability of automated fingerprint recognition systems to presentation attacks (PA), i.e., spoof or altered fingers, has been a growing concern, warranting the development of accurate and efficient presentation attack detection (PAD) methods. However, one major limitation of the existing PAD solutions is their poor generalization to new PA materials and fingerprint sensors, not used in training. In this study, we propose a robust PAD solution with improved cross-material and cross-sensor generalization. Specifically, we build on top of any CNN-based architecture trained for fingerprint spoof detection combined with cross-material spoof generalization using a style transfer network wrapper. We also incorporate adversarial representation learning (ARL) in deep neural networks (DNN) to learn sensor and material invariant representations for PAD. Experimental results on LivDet 2015 and 2017 public domain datasets exhibit the effectiveness of the proposed approach.
翻訳日:2022-12-16 07:12:52 公開日:2020-04-06
# 画像審美評価のための適応分数拡張畳み込みネットワーク

Adaptive Fractional Dilated Convolution Network for Image Aesthetics Assessment ( http://arxiv.org/abs/2004.03015v1 )

ライセンス: Link先を確認
Qiuyu Chen, Wei Zhang, Ning Zhou, Peng Lei, Yi Xu, Yu Zheng, Jianping Fan(参考訳) 画像美学評価にディープラーニングを活用するためには、画像アスペクト比の情報をシームレスに組み込んで、より堅牢なモデルを学ぶ方法が重要だが未解決の課題である。 本稿では,aspect-ratio-embedded, composition-preserving, parameter-freeである適応分数拡張畳み込み(afdc)を開発し,畳み込みカーネルレベルでこの問題をネイティブに解決する。 具体的には、画像アスペクト比に応じて分数拡張カーネルを適応的に構築し、最寄りの2つの整数拡張カーネルの補間を用いて分数サンプリングの誤りに対処する。 さらに,ミニバッチトレーニングのための簡潔な定式化とグループ化戦略を用いて計算オーバーヘッドを削減する。 その結果、一般的なディープラーニングライブラリで容易に実装でき、計算効率のよい方法で一般的なCNNアーキテクチャにプラグインできる。 提案手法は,AVAデータセットを用いた画像美学評価における最先端性能を実現する。

To leverage deep learning for image aesthetics assessment, one critical but unsolved issue is how to seamlessly incorporate the information of image aspect ratios to learn more robust models. In this paper, an adaptive fractional dilated convolution (AFDC), which is aspect-ratio-embedded, composition-preserving and parameter-free, is developed to tackle this issue natively in convolutional kernel level. Specifically, the fractional dilated kernel is adaptively constructed according to the image aspect ratios, where the interpolation of nearest two integers dilated kernels is used to cope with the misalignment of fractional sampling. Moreover, we provide a concise formulation for mini-batch training and utilize a grouping strategy to reduce computational overhead. As a result, it can be easily implemented by common deep learning libraries and plugged into popular CNN architectures in a computation-efficient manner. Our experimental results demonstrate that our proposed method achieves state-of-the-art performance on image aesthetics assessment over the AVA dataset.
翻訳日:2022-12-16 07:12:19 公開日:2020-04-06
# k近縁種を用いたフィールドレベル作物型分類:新ケニア小都市データセットのベースライン

Field-Level Crop Type Classification with k Nearest Neighbors: A Baseline for a New Kenya Smallholder Dataset ( http://arxiv.org/abs/2004.03023v1 )

ライセンス: Link先を確認
Hannah Kerner, Catherine Nakalembe, Inbal Becker-Reshef(参考訳) 正確な作物型地図は食料安全保障の確保に重要な情報を提供するが、特に食料安全保障のリスクが高いサハラ以南のアフリカにおいて、小作農のための作物型分類に関する研究は限られている。 ケニア(radiant mlhub)で新たに発表された作物種別トレーニングデータセットなどの公開データでは、この研究が触媒されているが、分類性能の評価やメソッド間のベンチマークなどにおいて、これらのデータセットがいつ、どこで、どのように得られたのかを理解することが重要である。 本論文では,非定型な2019年主生育期に収集されたケニア西部のデータセットについてコンテキストを提供し,その分類精度を最大64%,近縁種を用いたキャッサバで最大70%,高速で解釈可能でスケーラブルな手法で将来の作業のベースラインとして機能することを示す。

Accurate crop type maps provide critical information for ensuring food security, yet there has been limited research on crop type classification for smallholder agriculture, particularly in sub-Saharan Africa where risk of food insecurity is highest. Publicly-available ground-truth data such as the newly-released training dataset of crop types in Kenya (Radiant MLHub) are catalyzing this research, but it is important to understand the context of when, where, and how these datasets were obtained when evaluating classification performance and using them as a benchmark across methods. In this paper, we provide context for the new western Kenya dataset which was collected during an atypical 2019 main growing season and demonstrate classification accuracy up to 64% for maize and 70% for cassava using k Nearest Neighbors--a fast, interpretable, and scalable method that can serve as a baseline for future work.
翻訳日:2022-12-16 07:12:00 公開日:2020-04-06
# いつ、どこで、そして何? 運転映像における異常検出のための新しいデータセット

When, Where, and What? A New Dataset for Anomaly Detection in Driving Videos ( http://arxiv.org/abs/2004.03044v1 )

ライセンス: Link先を確認
Yu Yao, Xizi Wang, Mingze Xu, Zelin Pu, Ella Atkins, David Crandall(参考訳) ビデオ異常検出(VAD)は広く研究されている。 しかし、ダイナミックなシーンを持つエゴセントリックなトラフィックビデオの研究には、大規模なベンチマークデータセットや効果的な評価指標が欠けている。 本稿では,エゴセントリックビデオからの異常イベントの検出,ローカライズ,認識を行うための,\textit{when-where-what}パイプラインを用いたトラヒック異常検出を提案する。 本研究では,時間的,空間的,カテゴリー的アノテーションを備えた4,677本のビデオを含む,交通異常検出(DoTA)と呼ばれる新しいデータセットを提案する。 曲線下の新しい時空間面積(STAUC)評価指標を提案し,DoTAと併用した。 実験結果から, STAUCは有効なVAD指標であることが示された。 我々の知る限り、DoTAは今までで最大のトラフィック異常データセットであり、何の観点からも初めてのトラフィック異常研究をサポートする。 私たちのコードとデータセットは、https://github.com/MoonBlvd/Detection-of-Traffic-Anomalyで参照できます。

Video anomaly detection (VAD) has been extensively studied. However, research on egocentric traffic videos with dynamic scenes lacks large-scale benchmark datasets as well as effective evaluation metrics. This paper proposes traffic anomaly detection with a \textit{when-where-what} pipeline to detect, localize, and recognize anomalous events from egocentric videos. We introduce a new dataset called Detection of Traffic Anomaly (DoTA) containing 4,677 videos with temporal, spatial, and categorical annotations. A new spatial-temporal area under curve (STAUC) evaluation metric is proposed and used with DoTA. State-of-the-art methods are benchmarked for two VAD-related tasks.Experimental results show STAUC is an effective VAD metric. To our knowledge, DoTA is the largest traffic anomaly dataset to-date and is the first supporting traffic anomaly studies across when-where-what perspectives. Our code and dataset can be found in: https://github.com/MoonBlvd/Detection-of-Traffic-Anomaly
翻訳日:2022-12-16 07:11:42 公開日:2020-04-06
# グレースケール医用画像からのマルチノイズ除去のための並列ハイブリッド手法

A Parallel Hybrid Technique for Multi-Noise Removal from Grayscale Medical Images ( http://arxiv.org/abs/2005.05371v1 )

ライセンス: Link先を確認
Nora Youssef, Abeer M. Mahmoud and El-Sayed M. El-Horbaty(参考訳) 医用イメージングは、臨床目的のために人体やその一部の画像を作成するために用いられる技術である。 医用画像はサイズが大きめで、単一のノイズタイプや複数のノイズタイプが同時に破損することが多いが、様々な理由から、この2つの理由は、画像脱ノイズ手法の代替品を見つけるために並列画像処理へ移行するトリガーである。 本稿では,グレースケール医用画像デノージングのための並列ハイブリッドフィルタの実装を提案する。 このハイブリダイゼーションはadaptive medianとwiener filterの中間である。 適応型中央値フィルタに並列化を実装し,MateLab 2013a を用いた暗黙的並列化を実現する。 2.5MBの画像を2,4,8分割に分割し,提案実装と逐次実装の比較を行った。 したがって、各ケースは、そのパーティションの数に等しいスレッドの数に割り当てられる最適な時間を持つ。 さらに,アルゴリズムの高速化と効率を計算し,測定された拡張性を示す。

Medical imaging is the technique used to create images of the human body or parts of it for clinical purposes. Medical images always have large sizes and they are commonly corrupted by single or multiple noise type at the same time, due to various reasons, these two reasons are the triggers for moving toward parallel image processing to find alternatives of image de-noising techniques. This paper presents a parallel hybrid filter implementation for gray scale medical image de-noising. The hybridization is between adaptive median and wiener filters. Parallelization is implemented on the adaptive median filter to overcome the latency of neighborhood operation, parfor implicit parallelism powered by MatLab 2013a is used. The implementation is tested on an image of 2.5 MB size, which is divided into 2, 4 and 8 partitions; a comparison between the proposed implementation and sequential implementation is given, in terms of time. Thus, each case has the best time when assigned to number of threads equal to the number of its partitions. Moreover, Speed up and efficiency are calculated for the algorithm and they show a measured enhancement.
翻訳日:2022-12-16 07:11:26 公開日:2020-04-06
# 実画像からの高速媒質軸抽出のための出現衝撃文法

Appearance Shock Grammar for Fast Medial Axis Extraction from Real Images ( http://arxiv.org/abs/2004.02677v1 )

ライセンス: Link先を確認
Charles-Olivier Dufresne Camaro, Morteza Rezanejad, Stavros Tsogkas, Kaleem Siddiqi, Sven Dickinson(参考訳) 本研究では, ショックグラフ理論のアイデアを, 複雑な自然シーンから中間軸抽出のための最近の外観ベース手法と組み合わせることにより, 効率と性能の観点から, 現在最良な教師なし手法を改善した。 具体的な貢献は次のとおりです。 一 ショックグラフ表現を実画像の領域に拡張し、局所的、外観的基準を用いて衝撃型定義を一般化する。 ii) we then use the rules of a Shock Grammar to guide our search for medial points, drastically reducing run time when compared to other methods, which exhaustively consider all points in the input image;iii) we remove the need for typical post-processing steps including thinning, non-maximum suppression, and grouping, by adhering to the Shock Grammar rules while deriving the medial axis solution; iv) finally, we raise some fundamental concerns with the evaluation scheme used in previous work and propose a more appropriate alternative for assessing the performance of medial axis extraction from scenes. BMAX500およびSK-LARGEデータセットを用いた実験により,本手法の有効性が示された。 我々は現在の最先端を上回り、特に高精度なシステムでは優れているが、桁違いに高速に動作し、後処理を必要としない。

We combine ideas from shock graph theory with more recent appearance-based methods for medial axis extraction from complex natural scenes, improving upon the present best unsupervised method, in terms of efficiency and performance. We make the following specific contributions: i) we extend the shock graph representation to the domain of real images, by generalizing the shock type definitions using local, appearance-based criteria; ii) we then use the rules of a Shock Grammar to guide our search for medial points, drastically reducing run time when compared to other methods, which exhaustively consider all points in the input image;iii) we remove the need for typical post-processing steps including thinning, non-maximum suppression, and grouping, by adhering to the Shock Grammar rules while deriving the medial axis solution; iv) finally, we raise some fundamental concerns with the evaluation scheme used in previous work and propose a more appropriate alternative for assessing the performance of medial axis extraction from scenes. Our experiments on the BMAX500 and SK-LARGE datasets demonstrate the effectiveness of our approach. We outperform the present state-of-the-art, excelling particularly in the high-precision regime, while running an order of magnitude faster and requiring no post-processing.
翻訳日:2022-12-16 07:05:48 公開日:2020-04-06
# ネットワーク調整:FLOPs利用率によるチャンネル検索

Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio ( http://arxiv.org/abs/2004.02767v1 )

ライセンス: Link先を確認
Zhengsu Chen, Jianwei Niu, Lingxi Xie, Xuefeng Liu, Longhui Wei, Qi Tian(参考訳) 近年,計算効率の高いニューラルネットワークの自動設計が注目されている。 既存のアプローチではネットワークプルーニングを利用するか、ネットワークアーキテクチャの検索手法を利用する。 本稿では,ネットワークの精度をFLOPの関数として考慮し,各レイヤのFLOPs利用率(FUR)を推定し,それを用いて,各レイヤ上のチャネル数を増大または減少させるかを決定する,ネットワーク調整という新しいフレームワークを提案する。 非線型関数の勾配のように、FURは現在のネットワークの小さな近傍でのみ正確である。 したがって、初期ネットワークが複数のステップを踏むように反復的な機構を設計し、それぞれがネットワークの変更を制御するための「調整率」を小さくする。 検索プロセス全体の計算オーバーヘッドは合理的であり、つまり、最終的なモデルをスクラッチから再トレーニングするのと同等である。 標準画像分類データセットと広い範囲のベースネットワークを用いた実験により,提案手法の有効性が実証された。 コードはhttps://github.com/danczs/networkadjustmentで入手できる。

Automatic designing computationally efficient neural networks has received much attention in recent years. Existing approaches either utilize network pruning or leverage the network architecture search methods. This paper presents a new framework named network adjustment, which considers network accuracy as a function of FLOPs, so that under each network configuration, one can estimate the FLOPs utilization ratio (FUR) for each layer and use it to determine whether to increase or decrease the number of channels on the layer. Note that FUR, like the gradient of a non-linear function, is accurate only in a small neighborhood of the current network. Hence, we design an iterative mechanism so that the initial network undergoes a number of steps, each of which has a small `adjusting rate' to control the changes to the network. The computational overhead of the entire search process is reasonable, i.e., comparable to that of re-training the final model from scratch. Experiments on standard image classification datasets and a wide range of base networks demonstrate the effectiveness of our approach, which consistently outperforms the pruning counterpart. The code is available at https://github.com/danczs/NetworkAdjustment.
翻訳日:2022-12-16 07:04:03 公開日:2020-04-06
# SSN:ポイントクラウドからの複数クラス物体検出のための形状署名ネットワーク

SSN: Shape Signature Networks for Multi-class Object Detection from Point Clouds ( http://arxiv.org/abs/2004.02774v1 )

ライセンス: Link先を確認
Xinge Zhu, Yuexin Ma, Tai Wang, Yan Xu, Jianping Shi, Dahua Lin(参考訳) マルチクラス3Dオブジェクト検出は、ポイントクラウドから複数のカテゴリのオブジェクトをローカライズし分類することを目的としている。 点雲の性質、すなわち、非構造化、スパース、ノイズのため、形状情報など、マルチクラスの識別に有利な特徴が不足している。 本稿では,点雲からの形状情報を探索する新しい3次元形状シグネチャを提案する。 対称, 凸船体, チェビシェフフィッティングの操作を取り入れることで, 提案した形状のシグ・ナチュアはコンパクトで有効であるだけでなく, 音にも頑健であり, マルチクラスの識別能力を向上させるためのソフト制約として機能する。 提案した形状シグネチャに基づいて、ピラミッド特徴符号化部、形状認識型グループ化ヘッド、明示的形状符号化目的からなる3次元物体検出のための形状シグネチャネットワーク(SSN)を開発した。 実験により,提案手法は2つの大規模データセットの既存手法よりも著しく優れた性能を示した。 さらに、形状シグネチャはプラグアンドプレイコンポーネントとして機能し、アブレーション研究は、その有効性と優れたスケーラビリティを示す。

Multi-class 3D object detection aims to localize and classify objects of multiple categories from point clouds. Due to the nature of point clouds, i.e. unstructured, sparse and noisy, some features benefit-ting multi-class discrimination are underexploited, such as shape information. In this paper, we propose a novel 3D shape signature to explore the shape information from point clouds. By incorporating operations of symmetry, convex hull and chebyshev fitting, the proposed shape sig-nature is not only compact and effective but also robust to the noise, which serves as a soft constraint to improve the feature capability of multi-class discrimination. Based on the proposed shape signature, we develop the shape signature networks (SSN) for 3D object detection, which consist of pyramid feature encoding part, shape-aware grouping heads and explicit shape encoding objective. Experiments show that the proposed method performs remarkably better than existing methods on two large-scale datasets. Furthermore, our shape signature can act as a plug-and-play component and ablation study shows its effectiveness and good scalability
翻訳日:2022-12-16 07:03:46 公開日:2020-04-06
# P-DESTRE: 歩行者検出・追跡・再同定・航空機器からの検索のための完全注釈付きデータセット

The P-DESTRE: A Fully Annotated Dataset for Pedestrian Detection, Tracking, Re-Identification and Search from Aerial Devices ( http://arxiv.org/abs/2004.02782v1 )

ライセンス: Link先を確認
S.V. Aruna Kumar, Ehsan Yaghoubi, Abhijit Das, B.S. Harish and Hugo Proen\c{c}a(参考訳) 過去数十年間、世界は都市空間におけるセキュリティに対する脅威の増大を目の当たりにしてきた。 特に無人航空機(UAV)は、データ収集の安価な方法を提供し、大規模で扱いにくい地域をカバーし、人員の需要を減らし、この種の分析のための潜在的なツールである。 この文脈では、利用可能なすべてのデータセットは歩行者再識別問題にのみ適しており、IDごとのマルチカメラビューを1日ずつ撮影し、識別目的に衣服の外観特徴を使用することができる。 したがって、この論文の主な貢献は2つある。 1)UAVベースのP-DESTREデータセットは,複数日にわたって一貫したIDアノテーションを提供することで,衣類情報を確実に使用できないという極めて困難な人検索問題に適合する。 この機能とは別に、P-DESTREアノテーションは、UAVに基づく歩行者検出、追跡、再識別、ソフトバイオメトリックソリューションの研究を可能にする。 2) 身近な歩行者検出,追跡,再同定,探索技術により得られた結果と,P-DESTREデータにおける同様の手法による有効性を比較した。 このような比較により、タスクごとにUAVベースのデータの最も問題のあるデータ劣化要因を特定でき、この種の技術のその後の進歩のベースラインとして使用できる。 データセットと実施した経験的評価の詳細については、http://p-destre.di.ubi.pt/で自由に利用できる。

Over the last decades, the world has been witnessing growing threats to the security in urban spaces, which has augmented the relevance given to visual surveillance solutions able to detect, track and identify persons of interest in crowds. In particular, unmanned aerial vehicles (UAVs) are a potential tool for this kind of analysis, as they provide a cheap way for data collection, cover large and difficult-to-reach areas, while reducing human staff demands. In this context, all the available datasets are exclusively suitable for the pedestrian re-identification problem, in which the multi-camera views per ID are taken on a single day, and allows the use of clothing appearance features for identification purposes. Accordingly, the main contributions of this paper are two-fold: 1) we announce the UAV-based P-DESTRE dataset, which is the first of its kind to provide consistent ID annotations across multiple days, making it suitable for the extremely challenging problem of person search, i.e., where no clothing information can be reliably used. Apart this feature, the P-DESTRE annotations enable the research on UAV-based pedestrian detection, tracking, re-identification and soft biometric solutions; and 2) we compare the results attained by state-of-the-art pedestrian detection, tracking, reidentification and search techniques in well-known surveillance datasets, to the effectiveness obtained by the same techniques in the P-DESTRE data. Such comparison enables to identify the most problematic data degradation factors of UAV-based data for each task, and can be used as baselines for subsequent advances in this kind of technology. The dataset and the full details of the empirical evaluation carried out are freely available at http://p-destre.di.ubi.pt/.
翻訳日:2022-12-16 07:03:24 公開日:2020-04-06
# 自己監督シーンの閉鎖

Self-Supervised Scene De-occlusion ( http://arxiv.org/abs/2004.02788v1 )

ライセンス: Link先を確認
Xiaohang Zhan, Xingang Pan, Bo Dai, Ziwei Liu, Dahua Lin, Chen Change Loy(参考訳) 自然の風景理解は、特に部分的に遮蔽された複数の物体の画像に遭遇する場合、難しい課題である。 この障害は、オブジェクトの順序や位置を変えることで生じる。 既存のシーン理解パラダイムは、可視部分のみを解析することができ、不完全で非構造的なシーン解釈をもたらす。 そこで本研究では, 咬合順序を回復し, 咬合対象の目に見えない部分を完備することを目的とした, 閉鎖シーンの課題について検討する。 オーダリングやアモーダルアノテーションをスーパーバイザとして使わずに隠れたシーン構造を復元する、新しく統一されたフレームワークを通じて、この問題に対処する最初の試みを行ないます。 これはPCNet (Partial Completion Network)-mask (M) と-content (C) によって実現され、オブジェクトマスクとコンテンツの分画を自己管理的に復元する。 そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デクルージョンを実現する新しい推論手法を提案する。 実世界のシーンでの広範囲な実験は、他の選択肢に対する我々のアプローチの優れたパフォーマンスを示しています。 驚くべきことに、自己監督的な方法で訓練された我々のアプローチは、完全に監督された方法と同等の結果を得る。 提案したシーン除去フレームワークは,高品質で制御可能な画像操作やシーン再構成など,多数のアプリケーションに有効である(図1参照)。

Natural scene understanding is a challenging task, particularly when encountering images of multiple objects that are partially occluded. This obstacle is given rise by varying object ordering and positioning. Existing scene understanding paradigms are able to parse only the visible parts, resulting in incomplete and unstructured scene interpretation. In this paper, we investigate the problem of scene de-occlusion, which aims to recover the underlying occlusion ordering and complete the invisible parts of occluded objects. We make the first attempt to address the problem through a novel and unified framework that recovers hidden scene structures without ordering and amodal annotations as supervisions. This is achieved via Partial Completion Network (PCNet)-mask (M) and -content (C), that learn to recover fractions of object masks and contents, respectively, in a self-supervised manner. Based on PCNet-M and PCNet-C, we devise a novel inference scheme to accomplish scene de-occlusion, via progressive ordering recovery, amodal completion and content completion. Extensive experiments on real-world scenes demonstrate the superior performance of our approach to other alternatives. Remarkably, our approach that is trained in a self-supervised manner achieves comparable results to fully-supervised methods. The proposed scene de-occlusion framework benefits many applications, including high-quality and controllable image manipulation and scene recomposition (see Fig. 1), as well as the conversion of existing modal mask annotations to amodal mask annotations.
翻訳日:2022-12-16 07:02:34 公開日:2020-04-06
# 漸進被覆への方向的アプローチ:連続ケース

Directional approach to gradual cover: the continuous case ( http://arxiv.org/abs/2004.03035v1 )

ライセンス: Link先を確認
Tammy Drezner, Zvi Drezner and Pawel Kalczynski(参考訳) カバー位置モデルの目的は、所定の距離内の施設の需要をカバーすることである。 段階的な(または部分的な)カバーは、段階的なカバーの減少を定義することにより、完全なカバーから非カバーへの突然の落下を置き換える。 本稿では,近年提案されている需要点のジョイントカバーを「方向漸進カバー」と呼ばれる複数の施設で算出するルールについて述べる。 全ての段階的なカバーモデルとは対照的に、ジョイントカバーは施設の方向に依存する。 ジョイントカバーを計算するために、既存のモデルでは、各施設が方向を無視して部分カバーを適用する。 我々は, 施設立地問題を解決する遺伝的アルゴリズムを開発し, また, 平面内のどこにでも配置できる施設の問題を解く。 提案された修正は、カリフォルニア州オレンジ郡をカバーするケーススタディで広範囲にテストされた。

The objective of the cover location models is covering demand by facilities within a given distance. The gradual (or partial) cover replaces abrupt drop from full cover to no cover by defining gradual decline in cover. In this paper we use a recently proposed rule for calculating the joint cover of a demand point by several facilities termed "directional gradual cover". Contrary to all gradual cover models, the joint cover depends on the facilities' directions. In order to calculate the joint cover, existing models apply the partial cover by each facility disregarding their direction. We develop a genetic algorithm to solve the facilities location problem and also solve the problem for facilities that can be located anywhere in the plane. The proposed modifications were extensively tested on a case study of covering Orange County, California.
翻訳日:2022-12-16 06:56:02 公開日:2020-04-06
# 改良された内部探索アルゴリズムと多層フィードフォワードニューラルネットワークによるcovid-19予測

COVID-19 forecasting based on an improved interior search algorithm and multi-layer feed forward neural network ( http://arxiv.org/abs/2004.05960v1 )

ライセンス: Link先を確認
Rizk M. Rizk-Allah and Aboul Ella Hassanien (Scientific Research Group in Egypt)(参考訳) 新型コロナウイルス(covid-19)は、2019年12月に中国武漢で発生した新型コロナウイルスである。 世界のすべての地域で深刻なダイナミック・アウトブレイクの危機が続く中、予測地図と確認された症例の分析は重要な変革課題となっている。 本研究では,2020年1月22日以降の報告データに基づいて,今後数日にわたって,新型コロナウイルスのCSを分析し,予測する新たな予測モデルを提案する。 提案した予測モデルであるISACL-MFNNは、カオス学習(CL)戦略に基づく改良された内部探索アルゴリズム(ISA)を多層フィードフォワードニューラルネットワーク(MFNN)に統合する。 ISACL は CL 戦略を取り入れ、ISA の性能を高め、局所的な最適化におけるトラップを避ける。 この手法により、パラメータを最適値に調整してニューラルネットワークをトレーニングし、予測された結果に関する高精度なレベルを達成する。 ISACL-MFNNモデルは、WHO(世界保健機関)が報告した新型コロナウイルスの公式データに基づいて、今後数日で確認された症例を分析する。 平均絶対誤差(MAE)、ルート平均二乗誤差(RMSE)、平均絶対パーセンテージ誤差(MAPE)などの指標を導入して、提案した予測モデルの性能を検証するとともに、他の最適化アルゴリズムとの比較を行った。 提案されたモデルは最も影響の大きい国(アメリカ、イタリア、スペイン)で調査されている。 実験により,提案したISACL-MFNNは他のアルゴリズムよりも有望な性能を示し,候補国に対するタスクを予測した。

COVID-19 is a novel coronavirus that was emerged in December 2019 within Wuhan, China. As the crisis of its serious increasing dynamic outbreak in all parts of the globe, the forecast maps and analysis of confirmed cases (CS) becomes a vital great changeling task. In this study, a new forecasting model is presented to analyze and forecast the CS of COVID-19 for the coming days based on the reported data since 22 Jan 2020. The proposed forecasting model, named ISACL-MFNN, integrates an improved interior search algorithm (ISA) based on chaotic learning (CL) strategy into a multi-layer feed-forward neural network (MFNN). The ISACL incorporates the CL strategy to enhance the performance of ISA and avoid the trapping in the local optima. By this methodology, it is intended to train the neural network by tuning its parameters to optimal values and thus achieving high-accuracy level regarding forecasted results. The ISACL-MFNN model is investigated on the official data of the COVID-19 reported by the World Health Organization (WHO) to analyze the confirmed cases for the upcoming days. The performance regarding the proposed forecasting model is validated and assessed by introducing some indices including the mean absolute error (MAE), root mean square error (RMSE) and mean absolute percentage error (MAPE) and the comparisons with other optimization algorithms are presented. The proposed model is investigated in the most affected countries (i.e., USA, Italy, and Spain). The experimental simulations illustrate that the proposed ISACL-MFNN provides promising performance rather than the other algorithms while forecasting task for the candidate countries.
翻訳日:2022-12-16 06:55:52 公開日:2020-04-06
# 証拠理論における一般化基本確率代入生成の新しいアプローチ

A new approach for generation of generalized basic probability assignment in the evidence theory ( http://arxiv.org/abs/2004.02746v1 )

ライセンス: Link先を確認
Dongdong Wu and Zijing Liu and Yongchuan Tang(参考訳) 情報融合のプロセスは、多元性、異質性、不正確性、信頼性、不完全性といった多くの不確実な情報を扱う必要がある。 実用工学の応用において、デンプスター・シェーファーエビデンス理論は、データ融合の有効性のため、多ソース情報融合において広く用いられている。 情報ソースは、複雑で不安定で不確実で不完全な特性を持つ環境でのマルチソース情報融合に重要な影響を与える。 本稿では,多元情報融合問題に対処するために,閉じた世界から開放世界への不確定な情報モデリングの現状を考察し,不完全な情報を含む基本確率割当(bpa)の生成について考察する。 本稿では,オープンワールド仮定の下での三角ファジィ数モデルに基づいて,一般化基本確率代入(GBPA)を生成する新しい手法を提案する。 提案手法は,異なる複雑な環境において簡易かつ柔軟に使用できるだけでなく,情報処理における情報損失も少ない。 最後に、UCIデータセットに基づく一連の総合実験を用いて、提案手法の合理性と優越性を検証した。

The process of information fusion needs to deal with a large number of uncertain information with multi-source, heterogeneity, inaccuracy, unreliability, and incompleteness. In practical engineering applications, Dempster-Shafer evidence theory is widely used in multi-source information fusion owing to its effectiveness in data fusion. Information sources have an important impact on multi-source information fusion in an environment of complex, unstable, uncertain, and incomplete characteristics. To address multi-source information fusion problem, this paper considers the situation of uncertain information modeling from the closed world to the open world assumption and studies the generation of basic probability assignment (BPA) with incomplete information. In this paper, a new method is proposed to generate generalized basic probability assignment (GBPA) based on the triangular fuzzy number model under the open world assumption. The proposed method can not only be used in different complex environments simply and flexibly, but also have less information loss in information processing. Finally, a series of comprehensive experiments basing on the UCI data sets are used to verify the rationality and superiority of the proposed method.
翻訳日:2022-12-16 06:55:23 公開日:2020-04-06
# autotoon:顔漫画生成のための自動幾何ワーピング

AutoToon: Automatic Geometric Warping for Face Cartoon Generation ( http://arxiv.org/abs/2004.02377v1 )

ライセンス: Link先を確認
Julia Gong (1), Yannick Hold-Geoffroy (2), Jingwan Lu (2) ((1) Stanford University, (2) Adobe Research)(参考訳) 誇張された芸術的な肖像画の一種である似顔絵は、人間の顔の特徴的な、しかし微妙な特徴を増幅する。 この課題は、自動手法で被験者のユニークな特徴をうまく捉えることが困難であることから、一般的にはアーティストに委ねられている。 近年のディープエンド・ツー・エンド法の開発は、スタイルやハイレベルな誇張を捉えて有望な成果を上げている。 しかし、似顔絵の重要な部分である顔の反りは、これらのシステムにとって依然として困難である。 本研究では,絵画のワープ成分に高品質なワープを付与する初の教師付き深層学習手法であるAutoToonを提案する。 スタイルから完全に切り離されているため、あらゆるスタイル化手法と組み合わせて多様な似顔絵を作ることができる。 先行技術とは対照的に,senetおよびspatial transformerモジュールを活用し,アーティストウォーピングフィールド上で直接トレーニングを行い,ウォーピング前後に損失を与える。 ユーザ調査で示されたように、顔の細部を保ちながら顔の特徴の識別を増幅する魅力ある誇張を実現する。

Caricature, a type of exaggerated artistic portrait, amplifies the distinctive, yet nuanced traits of human faces. This task is typically left to artists, as it has proven difficult to capture subjects' unique characteristics well using automated methods. Recent development of deep end-to-end methods has achieved promising results in capturing style and higher-level exaggerations. However, a key part of caricatures, face warping, has remained challenging for these systems. In this work, we propose AutoToon, the first supervised deep learning method that yields high-quality warps for the warping component of caricatures. Completely disentangled from style, it can be paired with any stylization method to create diverse caricatures. In contrast to prior art, we leverage an SENet and spatial transformer module and train directly on artist warping fields, applying losses both prior to and after warping. As shown by our user studies, we achieve appealing exaggerations that amplify distinguishing features of the face while preserving facial detail.
翻訳日:2022-12-16 06:55:06 公開日:2020-04-06
# 消滅点誘導自然画像縫合

Vanishing Point Guided Natural Image Stitching ( http://arxiv.org/abs/2004.02478v1 )

ライセンス: Link先を確認
Kai Chen, Jian Yao, Jingmin Tu, Yahui Liu, Yinxuan Li and Li Li(参考訳) 近年,縫合画像の自然性向上に向けた研究がますます注目されている。 従来の方法は、特に関与する画像の数が大きい場合や、非常に広い視野を覆っている場合、重度の投影歪や不自然な回転の失敗に苦しむ。 本稿では, 上記の故障に対処するための点の除去指導を考慮に入れた, 新たな自然な画像縫合法を提案する。 マンハッタンの世界における相互直交的消滅点が本当に有用な向きの手がかりを与えるという重要な観測にインスパイアされた我々は、画像の類似性に先立って効果的に推定するスキームを設計する。 このようなグローバル類似性制約を前提として,メッシュ変形フレームワークに入力することで,自然な縫い付け性能を実現する。 本手法は,APAP,SPHP,AANAP,GSPなどの既存手法と比較して,自然画像の縫合に関する定量的および定性的実験において,最先端の性能を実現する。

Recently, works on improving the naturalness of stitching images gain more and more extensive attention. Previous methods suffer the failures of severe projective distortion and unnatural rotation, especially when the number of involved images is large or images cover a very wide field of view. In this paper, we propose a novel natural image stitching method, which takes into account the guidance of vanishing points to tackle the mentioned failures. Inspired by a vital observation that mutually orthogonal vanishing points in Manhattan world can provide really useful orientation clues, we design a scheme to effectively estimate prior of image similarity. Given such estimated prior as global similarity constraints, we feed it into a popular mesh deformation framework to achieve impressive natural stitching performances. Compared with other existing methods, including APAP, SPHP, AANAP, and GSP, our method achieves state-of-the-art performance in both quantitative and qualitative experiments on natural image stitching.
翻訳日:2022-12-16 06:53:50 公開日:2020-04-06
# テンポラルシャープネスを用いた奥行き映像のキャッケード化

Cascaded Deep Video Deblurring Using Temporal Sharpness Prior ( http://arxiv.org/abs/2004.02501v1 )

ライセンス: Link先を確認
Jinshan Pan, Haoran Bai, Jinhui Tang(参考訳) ビデオデブロアリングのためのシンプルで効果的な深層畳み込みニューラルネットワーク(CNN)モデルを提案する。 提案アルゴリズムは主に,中間潜水フレームと潜水フレームの復元ステップから光フローを推定する。 まず、中間の潜在フレームから光フローを推定し、推定された光フローに基づいて潜在フレームを復元するディープcnnモデルを開発した。 映像からの時間的情報をよりよく探索するため,潜伏フレーム復元を支援するため,深部CNNモデルを制約する前に時間的シャープネスを開発する。 我々は,効果的なケースケードトレーニング手法を開発し,提案したCNNモデルをエンドツーエンドで共同で訓練する。 ビデオデブロアリングのドメイン知識を探索することで、深層CNNモデルをよりコンパクトかつ効率的にすることができることを示す。 広範な実験結果から,本アルゴリズムは実世界の映像だけでなく,ベンチマークデータセットの最先端手法に対して好適に動作することがわかった。

We present a simple and effective deep convolutional neural network (CNN) model for video deblurring. The proposed algorithm mainly consists of optical flow estimation from intermediate latent frames and latent frame restoration steps. It first develops a deep CNN model to estimate optical flow from intermediate latent frames and then restores the latent frames based on the estimated optical flow. To better explore the temporal information from videos, we develop a temporal sharpness prior to constrain the deep CNN model to help the latent frame restoration. We develop an effective cascaded training approach and jointly train the proposed CNN model in an end-to-end manner. We show that exploring the domain knowledge of video deblurring is able to make the deep CNN model more compact and efficient. Extensive experimental results show that the proposed algorithm performs favorably against state-of-the-art methods on the benchmark datasets as well as real-world videos.
翻訳日:2022-12-16 06:53:32 公開日:2020-04-06
# 短距離NMT適応のためのメタラーニング

Meta-Learning for Few-Shot NMT Adaptation ( http://arxiv.org/abs/2004.02745v1 )

ライセンス: Link先を確認
Amr Sharaf, Hany Hassan, Hal Daum\'e III(参考訳) 本稿では,ニューラルマシン翻訳(nmt)システムを短時間で適応させるためのメタラーニング手法であるmeta-mtを提案する。 META-MTは、NMTモデルを最小限のドメインデータで多くのターゲットドメインに適応させる新しいアプローチを提供する。 我々は、NMTシステムの適応をメタ学習問題とみなし、シミュレーションされたオフラインメタ学習ドメイン適応タスクに基づいて、新しい未知のドメインに適応することを学ぶ。 大規模NMTシステムを用いた10領域におけるメタ学習戦略の評価を行った。 我々は,META-MTが,ドメイン内例が少ない場合に,従来のドメイン適応を著しく上回ることを示す。 実験の結果, META-MT は4, 000 の翻訳語 (300 パラレル文) で, 2.5 BLEU 点以上の古典的微調整を達成できた。

We present META-MT, a meta-learning approach to adapt Neural Machine Translation (NMT) systems in a few-shot setting. META-MT provides a new approach to make NMT models easily adaptable to many target domains with the minimal amount of in-domain data. We frame the adaptation of NMT systems as a meta-learning problem, where we learn to adapt to new unseen domains based on simulated offline meta-training domain adaptation tasks. We evaluate the proposed meta-learning strategy on ten domains with general large scale NMT systems. We show that META-MT significantly outperforms classical domain adaptation when very few in-domain examples are available. Our experiments shows that META-MT can outperform classical fine-tuning by up to 2.5 BLEU points after seeing only 4, 000 translated words (300 parallel sentences).
翻訳日:2022-12-16 06:46:58 公開日:2020-04-06
# スペインの新聞の見出しで、新しい英語の注釈付きコーパス

An Annotated Corpus of Emerging Anglicisms in Spanish Newspaper Headlines ( http://arxiv.org/abs/2004.02929v1 )

ライセンス: Link先を確認
Elena \'Alvarez-Mellado(参考訳) アングリシズム(英語からの語彙借用)の抽出は、語彙的目的とNLP下流タスクの両方に関係している。 欧州のスペイン語新聞の見出しにアングリシズムを付記したコーパスと、アングリシズム抽出のベースラインモデルを紹介する。 本稿では,(1)スペインで書かれた21,570の新聞見出しのコーパスと(2)アングリシズム抽出のための手作り特徴を持つ条件付きランダムフィールドベースラインモデルについて述べる。 本稿では, 新聞の見出しコーパスを紹介し, 注釈タグセットとガイドラインを記述し, アングリシズム検出タスクのベースラインとして機能するCRFモデルを提案する。 この論文は、スペイン語ニュースワイヤのためのアングリシズム抽出器の作成に向けた第一歩である。

The extraction of anglicisms (lexical borrowings from English) is relevant both for lexicographic purposes and for NLP downstream tasks. We introduce a corpus of European Spanish newspaper headlines annotated with anglicisms and a baseline model for anglicism extraction. In this paper we present: (1) a corpus of 21,570 newspaper headlines written in European Spanish annotated with emergent anglicisms and (2) a conditional random field baseline model with handcrafted features for anglicism extraction. We present the newspaper headlines corpus, describe the annotation tagset and guidelines and introduce a CRF model that can serve as baseline for the task of detecting anglicisms. The presented work is a first step towards the creation of an anglicism extractor for Spanish newswire.
翻訳日:2022-12-16 06:46:42 公開日:2020-04-06
# 文レベルセマンティックスを用いたテキストアドベンチャーゲームのゼロショット学習

Zero-Shot Learning of Text Adventure Games with Sentence-Level Semantics ( http://arxiv.org/abs/2004.02986v1 )

ライセンス: Link先を確認
Xusen Yin and Jonathan May(参考訳) q-learningのような強化学習アルゴリズムは、与えられたシステム状態、すなわちタスク指向の対話やゲームのような探索的または敵対的な性質を持つアプリケーションにおいて、最適なアクションを学ぶための訓練モデルにおいて大きな期待を示してきた。 しかし、その状態に直接アクセスできないモデルは訓練が困難であり、唯一の状態アクセスが言語媒体経由である場合、これは特に発音される可能性がある。 本稿では,言語チャネル上での近似からシステム状態をよりよく表現するために,SiameseニューラルネットワークアーキテクチャとQ値関数の新たなリファクタリングを取り入れた,深層Q学習に適した新しいモデルを提案する。 ゼロショットテキストベースのアドベンチャーゲーム学習の文脈でモデルを評価する。 極端に、我々のモデルは、そのイテレーションの15%しか必要としないベースラインの収束性能点に達し、ベースラインよりも15%高い収束性能点に達し、微調整なしで、目に見えない無関係のゲームをすることができる。 新しいモデルの表現空間を調査して,本質的に異なる言語調停を同一の状態に適切にクラスタリングすることによるものであると判断した。

Reinforcement learning algorithms such as Q-learning have shown great promise in training models to learn the optimal action to take for a given system state; a goal in applications with an exploratory or adversarial nature such as task-oriented dialogues or games. However, models that do not have direct access to their state are harder to train; when the only state access is via the medium of language, this can be particularly pronounced. We introduce a new model amenable to deep Q-learning that incorporates a Siamese neural network architecture and a novel refactoring of the Q-value function in order to better represent system state given its approximation over a language channel. We evaluate the model in the context of zero-shot text-based adventure game learning. Extrinsically, our model reaches the baseline's convergence performance point needing only 15% of its iterations, reaches a convergence performance point 15% higher than the baseline's, and is able to play unseen, unrelated games with no fine-tuning. We probe our new model's representation space to determine that intrinsically, this is due to the appropriate clustering of different linguistic mediation into the same state.
翻訳日:2022-12-16 06:46:27 公開日:2020-04-06
# ドメイン特化コモンセンスによるレビューの強化

Enhancing Review Comprehension with Domain-Specific Commonsense ( http://arxiv.org/abs/2004.03020v1 )

ライセンス: Link先を確認
Aaron Traylor, Chen Chen, Behzad Golshan, Xiaolan Wang, Yuliang Li, Yoshihiko Suhara, Jinfeng Li, Cagatay Demiralp and Wang-Chiew Tan(参考訳) レビュー理解は、オンラインサービスや製品の品質向上にますます重要な役割を担い、コモンセンス知識はレビュー理解をさらに強化する。 しかし、既存の汎用コモンセンス知識ベースには、ドメイン固有のレビューの理解を深めるための十分なカバレッジと精度が欠けている。 本稿では,ドメイン特化コモンセンス知識ベース(xsense kbs)を用いたレビュー理解のための効果的なシステムであるxsenseを提案する。 我々は,xSense KBを安価に構築できることを示すとともに,様々なレビュー理解タスクの性能を高めるために,BERTとともにxSense KBを使用できる知識蒸留法を提案する。 アスペクト抽出,アスペクト感情分類,質問応答の3つのタスクについて,xSenseを評価した。 最初の2つのタスクにおいて、xSenseは最先端モデルよりも優れ、ベースラインBERT QAモデルを大幅に改善し、コモンセンスをレビュー理解パイプラインに組み込むことの有用性を示す。 今後の研究とアプリケーションを促進するために,我々は3つのドメイン固有の知識ベースと,ドメイン固有の質問応答ベンチマークを公表する。

Review comprehension has played an increasingly important role in improving the quality of online services and products and commonsense knowledge can further enhance review comprehension. However, existing general-purpose commonsense knowledge bases lack sufficient coverage and precision to meaningfully improve the comprehension of domain-specific reviews. In this paper, we introduce xSense, an effective system for review comprehension using domain-specific commonsense knowledge bases (xSense KBs). We show that xSense KBs can be constructed inexpensively and present a knowledge distillation method that enables us to use xSense KBs along with BERT to boost the performance of various review comprehension tasks. We evaluate xSense over three review comprehension tasks: aspect extraction, aspect sentiment classification, and question answering. We find that xSense outperforms the state-of-the-art models for the first two tasks and improves the baseline BERT QA model significantly, demonstrating the usefulness of incorporating commonsense into review comprehension pipelines. To facilitate future research and applications, we publicly release three domain-specific knowledge bases and a domain-specific question answering benchmark along with this paper.
翻訳日:2022-12-16 06:45:29 公開日:2020-04-06
# 多言語用bertモデルにおける形態素内容の系統的解析

A Systematic Analysis of Morphological Content in BERT Models for Multiple Languages ( http://arxiv.org/abs/2004.03032v1 )

ライセンス: Link先を確認
Daniel Edmiston(参考訳) 本研究は、形態学的内容に対するBERTスタイルモデルの隠れ表現を探索する実験について述べる。 目的は、形態的特徴と特徴値の形で、個別の言語構造が5つのヨーロッパ言語に対する事前学習された言語モデルのベクトル表現と注意分布にどの程度存在するかを検討することである。 ここでの実験は、 (i)変圧器建築は,その埋蔵空間を,形態的特徴量と高い相関を持つ凸部分領域に分割する。 (ii) トランスフォーマー埋め込みの文脈的性質により、多くのケースであいまいな形態的形態を区別することができる。 (iii)特に注目される頭部と層の組み合わせは、主語と動詞の合意に基づいているようにみえる。

This work describes experiments which probe the hidden representations of several BERT-style models for morphological content. The goal is to examine the extent to which discrete linguistic structure, in the form of morphological features and feature values, presents itself in the vector representations and attention distributions of pre-trained language models for five European languages. The experiments contained herein show that (i) Transformer architectures largely partition their embedding space into convex sub-regions highly correlated with morphological feature value, (ii) the contextualized nature of transformer embeddings allows models to distinguish ambiguous morphological forms in many, but not all cases, and (iii) very specific attention head/layer combinations appear to hone in on subject-verb agreement.
翻訳日:2022-12-16 06:45:05 公開日:2020-04-06
# 言論的影響決定における実践的・言論的文脈の役割

The Role of Pragmatic and Discourse Context in Determining Argument Impact ( http://arxiv.org/abs/2004.03034v1 )

ライセンス: Link先を確認
Esin Durmus, Faisal Ladhak, Claire Cardie(参考訳) 社会科学と心理学の研究は、議論の説得力は、使用する言語だけでなく、ソース/コミュニティの属性、聴衆、議論の実用的・談話的文脈に基づく議論の主張の適切さと強さにも依存していることを示した。 これらの説得的議論の特徴のうち、nlpにおける先行研究は、議論の品質を決定する際の実用的および談話的文脈の影響を明示的には調査していない。 本稿では,議論の様相を研究するための新たなデータセットを提示する。論争のトピック741を対象とし,47,000以上のクレームを含む,多様な議論の集合からなる。 さらに,議論的クレームの実用的・談話的文脈を組み込んだ予測モデルを提案し,個々のクレームが特定の主張ライン内で知覚される影響を予測するために,クレーム固有の言語特徴のみに依存するモデルよりも優れていることを示す。

Research in the social sciences and psychology has shown that the persuasiveness of an argument depends not only the language employed, but also on attributes of the source/communicator, the audience, and the appropriateness and strength of the argument's claims given the pragmatic and discourse context of the argument. Among these characteristics of persuasive arguments, prior work in NLP does not explicitly investigate the effect of the pragmatic and discourse context when determining argument quality. This paper presents a new dataset to initiate the study of this aspect of argumentation: it consists of a diverse collection of arguments covering 741 controversial topics and comprising over 47,000 claims. We further propose predictive models that incorporate the pragmatic and discourse context of argumentative claims and show that they outperform models that rely only on claim-specific linguistic features for predicting the perceived impact of individual claims within a particular line of argument.
翻訳日:2022-12-16 06:44:50 公開日:2020-04-06
# 画像分類のための大規模時空間フォトニックリザーバコンピュータ

Large-scale spatiotemporal photonic reservoir computer for image classification ( http://arxiv.org/abs/2004.02542v1 )

ライセンス: Link先を確認
Piotr Antonik, Nicolas Marsal, Damien Rontani(参考訳) 本稿では,MNISTデータベースから手書き桁の分類を行うために,フィードフォワードとリカレントニューラルネットワークを実装するためのスケーラブルなフォトニックアーキテクチャを提案する。 本実験では,市販の光学部品と電子部品を用いて,現在16,384ノードのネットワークサイズを実現する。 どちらのネットワークタイプもランダムに重み付けされた入力層と隠れ層を持つリザーバコンピューティングパラダイム内で設計されている。 様々な特徴抽出手法(例えば、配向勾配のヒストグラム、ゾンニング、ガボルフィルタ)と線形回帰と全ての決定戦略からなる単純な訓練手法を用いて、フィードフォワードネットワークが1%の分類誤り率を許容し、これは実験的な実装の最先端であり、より先進的なアルゴリズムアプローチと競合し続けていることを数値的および実験的に証明する。 また,時間ダイナミクスを明示的に活性化し,数値シミュレーションにおける再帰ネットワークを調査し,フィードフォワード構成による性能改善を予測した。

We propose a scalable photonic architecture for implementation of feedforward and recurrent neural networks to perform the classification of handwritten digits from the MNIST database. Our experiment exploits off-the-shelf optical and electronic components to currently achieve a network size of 16,384 nodes. Both network types are designed within the the reservoir computing paradigm with randomly weighted input and hidden layers. Using various feature extraction techniques (e.g. histograms of oriented gradients, zoning, Gabor filters) and a simple training procedure consisting of linear regression and winner-takes-all decision strategy, we demonstrate numerically and experimentally that a feedforward network allows for classification error rate of 1%, which is at the state-of-the-art for experimental implementations and remains competitive with more advanced algorithmic approaches. We also investigate recurrent networks in numerical simulations by explicitly activating the temporal dynamics, and predict a performance improvement over the feedforward configuration.
翻訳日:2022-12-16 06:44:33 公開日:2020-04-06
# pone:オープンドメイン生成対話システムのための新しい自動評価指標

PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative Dialogue Systems ( http://arxiv.org/abs/2004.02399v1 )

ライセンス: Link先を確認
Tian Lan, Xian-Ling Mao, Wei Wei, Xiaoyan Gao, Heyan Huang(参考訳) オープンドメイン生成対話システムはここ数年で注目されている。 現在、それらを自動的に評価する方法は、依然として大きな問題です。 私たちが知る限り、オープンドメイン生成対話システムの評価には、(1)ワードオーバーラップベースのメトリクス、(2)埋め込みベースのメトリクス、(3)学習ベースのメトリクスの3種類がある。 体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。 本稿では,まず,同じ実験環境における全ての自動評価指標を系統的に測定し,どの指標が最適かを確認する。 広範にわたる実験を通して、学習に基づくメトリクスは、オープンドメイン生成対話システムにおいて最も効果的な評価指標であることを示した。 さらに,学習に基づく指標のほとんどすべてが負のサンプリング機構に依存しており,スコアモデルをトレーニングするために,非常に不均衡で低品質なデータセットを得る。 そこで本研究では,ヒトの判断と有意な相関関係を呈し,有意な正のサンプルと有意な負のサンプルを用いて有意に改善できる,新しい学習ベース指標を提案する。 広範な実験により,提案手法が最先端の学習に基づく評価手法を有意に上回り,平均相関率が13.18%となった。 また,提案手法と最先端のベースラインのコードも公開している。

Open-domain generative dialogue systems have attracted considerable attention over the past few years. Currently, how to automatically evaluate them, is still a big challenge problem. As far as we know, there are three kinds of automatic methods to evaluate the open-domain generative dialogue systems: (1) Word-overlap-based metrics; (2) Embedding-based metrics; (3) Learning-based metrics. Due to the lack of systematic comparison, it is not clear which kind of metrics are more effective. In this paper, we will first measure systematically all kinds of automatic evaluation metrics over the same experimental setting to check which kind is best. Through extensive experiments, the learning-based metrics are demonstrated that they are the most effective evaluation metrics for open-domain generative dialogue systems. Moreover, we observe that nearly all learning-based metrics depend on the negative sampling mechanism, which obtains an extremely imbalanced and low-quality dataset to train a score model. In order to address this issue, we propose a novel and feasible learning-based metric that can significantly improve the correlation with human judgments by using augmented POsitive samples and valuable NEgative samples, called PONE. Extensive experiments demonstrate that our proposed evaluation method significantly outperforms the state-of-the-art learning-based evaluation methods, with an average correlation improvement of 13.18%. In addition, we have publicly released the codes of our proposed method and state-of-the-art baselines.
翻訳日:2022-12-16 06:38:00 公開日:2020-04-06
# 医用エンティティ認識のためのノルウェーの語彙資源の構築

Building a Norwegian Lexical Resource for Medical Entity Recognition ( http://arxiv.org/abs/2004.02509v1 )

ライセンス: Link先を確認
Ildik\'o Pil\'an and P{\aa}l H. Brekke and Lilja {\O}vrelid(参考訳) 我々は、分類された医学用語の大規模なノルウェーの語彙資源を提示する。 このリソースは、巨大な医療データベースからの情報をマージし、ノルウェーの医学辞書から自動的に地図化された用語を含む77,000以上のユニークなエントリを含む。 本稿では,キーワードと接尾辞に基づく自動辞書エントリマッピングの手法について述べるとともに,ドメインエキスパートによるサブセット上で手作業による評価の結果についても述べる。 評価の結果はCAであった。 80%が正解であった。

We present a large Norwegian lexical resource of categorized medical terms. The resource merges information from large medical databases, and contains over 77,000 unique entries, including automatically mapped terms from a Norwegian medical dictionary. We describe the methodology behind this automatic dictionary entry mapping based on keywords and suffixes and further present the results of a manual evaluation performed on a subset by a domain expert. The evaluation indicated that ca. 80% of the mappings were correct.
翻訳日:2022-12-16 06:36:53 公開日:2020-04-06
# クロスドメインニューラルマシン翻訳のための辞書に基づくデータ拡張

Dictionary-based Data Augmentation for Cross-Domain Neural Machine Translation ( http://arxiv.org/abs/2004.02577v1 )

ライセンス: Link先を確認
Wei Peng, Chongxuan Huang, Tianhao Li, Yun Chen, and Qun Liu(参考訳) ニューラルマシン翻訳(nmt)のための既存のデータ拡張アプローチは、主にind(back-translating in-domain)単言語コーパスに依存している。 これらの手法はドメイン情報ギャップに関連する問題に悩まされ、低頻度および語彙外用語の翻訳誤りを引き起こす。 本稿では,ドメイン間NMTのための辞書ベースデータ拡張(DDA)手法を提案する。 DDAはドメイン固有の辞書を一般的なドメインコーパスで合成し、大規模な擬似IND並列コーパスを自動的に生成する。 生成された擬似INDデータは、一般的なドメインで訓練されたベースラインを強化するために使用できる。 実験の結果、DDAで強化されたNMTモデルは、ベースラインモデルよりも3.75-11.53 BLEUを上回り、一貫した顕著な改善を示した。 また, 提案手法により, バックトランスレーションモデルとIND微細化NMTモデルの性能をさらに向上させることができる。 この改善は、ddaによって生成されたドメインカバレッジの強化に関連している。

Existing data augmentation approaches for neural machine translation (NMT) have predominantly relied on back-translating in-domain (IND) monolingual corpora. These methods suffer from issues associated with a domain information gap, which leads to translation errors for low frequency and out-of-vocabulary terminology. This paper proposes a dictionary-based data augmentation (DDA) method for cross-domain NMT. DDA synthesizes a domain-specific dictionary with general domain corpora to automatically generate a large-scale pseudo-IND parallel corpus. The generated pseudo-IND data can be used to enhance a general domain trained baseline. The experiments show that the DDA-enhanced NMT models demonstrate consistent significant improvements, outperforming the baseline models by 3.75-11.53 BLEU. The proposed method is also able to further improve the performance of the back-translation based and IND-finetuned NMT models. The improvement is associated with the enhanced domain coverage produced by DDA.
翻訳日:2022-12-16 06:36:46 公開日:2020-04-06
# パスを要約する学習:ウィキペディアの改訂史からパスメージ・サマリ・ペアをマイニング

Learning to Summarize Passages: Mining Passage-Summary Pairs from Wikipedia Revision Histories ( http://arxiv.org/abs/2004.02592v1 )

ライセンス: Link先を確認
Qingyu Zhou, Furu Wei, Ming Zhou(参考訳) 本稿では,wikipediaのページリビジョン履歴をマイニングして要約データを自動的に構築する手法を提案する。 特に、本手法では、ページに追加される本体の通路と導入文を同時にマイニングする。 構築されたデータセットは、1万以上のパスサマリーペアを含む。 品質分析は、データセットがパス要約のトレーニングと検証セットとして使用できることを約束していることを示している。 提案するデータセット上での各種要約システムの性能を検証・解析する。 データセットはhttps://res.qyzhou.me.com/で入手できる。

In this paper, we propose a method for automatically constructing a passage-to-summary dataset by mining the Wikipedia page revision histories. In particular, the method mines the main body passages and the introduction sentences which are added to the pages simultaneously. The constructed dataset contains more than one hundred thousand passage-summary pairs. The quality analysis shows that it is promising that the dataset can be used as a training and validation set for passage summarization. We validate and analyze the performance of various summarization systems on the proposed dataset. The dataset will be available online at https://res.qyzhou.me.
翻訳日:2022-12-16 06:36:13 公開日:2020-04-06
# 超解像によるロスレス画像圧縮

Lossless Image Compression through Super-Resolution ( http://arxiv.org/abs/2004.02872v1 )

ライセンス: Link先を確認
Sheng Cao, Chao-Yuan Wu, Philipp Kr\"ahenb\"uhl(参考訳) 単純で効率的なロスレス画像圧縮アルゴリズムを提案する。 画像の低解像度バージョンを生のピクセルとして保存し、その後数回のロスレス超解像度を繰り返す。 ロスレス超解像の場合、低分解能入力に条件付き高分解能画像の確率を予測し、エントロピー符号化を用いて超解像演算子を圧縮する。 Super-Resolution based Compression (SReC)は、大規模なデータセット上で実用的なランタイムで最先端の圧縮速度を達成することができる。 コードはhttps://github.com/caoscott/srec.comで入手できる。

We introduce a simple and efficient lossless image compression algorithm. We store a low resolution version of an image as raw pixels, followed by several iterations of lossless super-resolution. For lossless super-resolution, we predict the probability of a high-resolution image, conditioned on the low-resolution input, and use entropy coding to compress this super-resolution operator. Super-Resolution based Compression (SReC) is able to achieve state-of-the-art compression rates with practical runtimes on large datasets. Code is available online at https://github.com/caoscott/SReC.
翻訳日:2022-12-16 06:30:08 公開日:2020-04-06
# 分析合成ネットワークペアを用いたデブロアリング

Deblurring using Analysis-Synthesis Networks Pair ( http://arxiv.org/abs/2004.02956v1 )

ライセンス: Link先を確認
Adam Kaufman and Raanan Fattal(参考訳) ブラインド画像の劣化は、現代のニューラルネットワークにとって難しい問題である。 他の画像復元問題とは異なり、デブロワーリングネットワークは、一様および3次元のぼかしモデルの場合、既存のデブロワーリングアルゴリズムの性能の裏で失敗する。 これは、未知のぼけカーネルがデブラリング作用素に与えた多様で深い影響から導かれる。 本稿では,画像のぼかしを推定する解析ネットワークと,このカーネルを用いて画像のぼかしを推定する合成ネットワークにデブラリングネットワークを分割する新しいアーキテクチャを提案する。 既存のデブラリングネットワークとは異なり、この設計によりネットワークのトレーニングにぼけカーネルを明示的に組み込むことができます。 さらに, 新たな相互相関層を導入し, より良いボケ推定を可能にするとともに, ボケ推定により合成遅延動作の動作を制御できる特異な成分も導入する。 確立されたベンチマークデータセットに対する新しいアプローチの評価は、さまざまなテストで最先端のデブラリング精度を達成し、実行時の大幅な高速化を提供する能力を示している。

Blind image deblurring remains a challenging problem for modern artificial neural networks. Unlike other image restoration problems, deblurring networks fail behind the performance of existing deblurring algorithms in case of uniform and 3D blur models. This follows from the diverse and profound effect that the unknown blur-kernel has on the deblurring operator. We propose a new architecture which breaks the deblurring network into an analysis network which estimates the blur, and a synthesis network that uses this kernel to deblur the image. Unlike existing deblurring networks, this design allows us to explicitly incorporate the blur-kernel in the network's training. In addition, we introduce new cross-correlation layers that allow better blur estimations, as well as unique components that allow the estimate blur to control the action of the synthesis deblurring action. Evaluating the new approach over established benchmark datasets shows its ability to achieve state-of-the-art deblurring accuracy on various tests, as well as offer a major speedup in runtime.
翻訳日:2022-12-16 06:29:07 公開日:2020-04-06
# LUVLi Face Alignment: ランドマークの位置、不確かさ、そして可視性を推定する

LUVLi Face Alignment: Estimating Landmarks' Location, Uncertainty, and Visibility Likelihood ( http://arxiv.org/abs/2004.02980v1 )

ライセンス: Link先を確認
Abhinav Kumar, Tim K. Marks, Wenxuan Mou, Ye Wang, Michael Jones, Anoop Cherian, Toshiaki Koike-Akino, Xiaoming Liu, Chen Feng(参考訳) 現代の顔アライメント法は、顔のランドマークの位置を予測するのにかなり正確になっているが、予測された位置の不確実性を推定したり、ランドマークが見えるかどうかを予測したりしない。 本稿では,ランドマーク位置の同時予測,これらの予測位置の不確実性,およびランドマークの可視性について述べる。 我々はこれらを混合確率変数としてモデル化し,提案する位置・不確実性・可視性(luvli)損失を訓練した深層ネットワークを用いて推定する。 さらに,顔画像が19,000枚を超える大きな顔アライメントデータセットの完全な新しいラベルを,全幅の頭部ポーズでリリースする。 それぞれの顔には68のランドマークの地味な位置と手動でラベル付けされ、それぞれのランドマークが(極端な頭部のポーズのため)隠されたり、自己隠蔽されたり、あるいは外部隠蔽されたりするかどうかの情報が付加されている。 我々の共同推定は、予測されたランドマーク位置の不確実性を正確に推定するだけでなく、複数の標準フェイスアライメントデータセット上のランドマーク位置自体の最先端の推定も得る。 提案手法では,予測されたランドマーク位置の不確かさを推定し,顔のアライメントが失敗する入力画像を自動的に識別することができる。

Modern face alignment methods have become quite accurate at predicting the locations of facial landmarks, but they do not typically estimate the uncertainty of their predicted locations nor predict whether landmarks are visible. In this paper, we present a novel framework for jointly predicting landmark locations, associated uncertainties of these predicted locations, and landmark visibilities. We model these as mixed random variables and estimate them using a deep network trained with our proposed Location, Uncertainty, and Visibility Likelihood (LUVLi) loss. In addition, we release an entirely new labeling of a large face alignment dataset with over 19,000 face images in a full range of head poses. Each face is manually labeled with the ground-truth locations of 68 landmarks, with the additional information of whether each landmark is unoccluded, self-occluded (due to extreme head poses), or externally occluded. Not only does our joint estimation yield accurate estimates of the uncertainty of predicted landmark locations, but it also yields state-of-the-art estimates for the landmark locations themselves on multiple standard face alignment datasets. Our method's estimates of the uncertainty of predicted landmark locations could be used to automatically identify input images on which face alignment fails, which can be critical for downstream tasks.
翻訳日:2022-12-16 06:28:49 公開日:2020-04-06
# 形状ハンドの生成モデル学習

Learning Generative Models of Shape Handles ( http://arxiv.org/abs/2004.03028v1 )

ライセンス: Link先を確認
Matheus Gadelha, Giorgio Gori, Duygu Ceylan, Radomir Mech, Nathan Carr, Tamy Boubekeur, Rui Wang, Subhransu Maji(参考訳) 本稿では,インタラクティブな編集,形状解析,コンパクトな3次元表現構築への応用を目的とした,ハンドルの集合として3次元形状を合成する生成モデルを提案する。 我々のモデルは、濃度と異なる種類のハンドルを持つハンドルセットを生成できる(図1)。 我々のアプローチの鍵となるのは、形状ハンドルのパラメータと存在の両方を予測する深いアーキテクチャと、キュービドやスフィアミーシュなど、さまざまなタイプのハンドルを容易に扱える新しい類似度尺度です。 近年のセマンティック3Dアノテーションの進歩と自動形状要約技術を活用し,そのアプローチを監督している。 得られた形状表現は直感的であり,従来よりも優れた品質が得られることを示す。 最後に,対話型形状編集,補完,補間などのアプリケーションにおいて,これらのタスクを導くために,モデルが学習した潜在空間を活用する方法を紹介する。 プロジェクトページ: http://mgadelha.me/shapehandles。

We present a generative model to synthesize 3D shapes as sets of handles -- lightweight proxies that approximate the original 3D shape -- for applications in interactive editing, shape parsing, and building compact 3D representations. Our model can generate handle sets with varying cardinality and different types of handles (Figure 1). Key to our approach is a deep architecture that predicts both the parameters and existence of shape handles, and a novel similarity measure that can easily accommodate different types of handles, such as cuboids or sphere-meshes. We leverage the recent advances in semantic 3D annotation as well as automatic shape summarizing techniques to supervise our approach. We show that the resulting shape representations are intuitive and achieve superior quality than previous state-of-the-art. Finally, we demonstrate how our method can be used in applications such as interactive shape editing, completion, and interpolation, leveraging the latent space learned by our model to guide these tasks. Project page: http://mgadelha.me/shapehandles.
翻訳日:2022-12-16 06:28:23 公開日:2020-04-06
# 低階行列のベーテとシンクホーンの永久数とプロファイル最大度との関係

The Bethe and Sinkhorn Permanents of Low Rank Matrices and Implications for Profile Maximum Likelihood ( http://arxiv.org/abs/2004.02425v1 )

ライセンス: Link先を確認
Nima Anari, Moses Charikar, Kirankumar Shiragur, Aaron Sidford(参考訳) 本稿では、離散分布のプロファイルの確率、すなわち、要素周波数の多重集合を観測する確率を計算し、プロファイル最大確率(pml)分布、すなわち、最大プロファイルの確率の分布を計算する問題を考察する。 それぞれの問題に対して、多項式時間アルゴリズムは、離散分布から$n$ i.d.\サンプルを与え、$\exp\left(-O(\sqrt{n} \log n) \right)$の近似係数を達成し、多項式時間$\exp(-O(n^{2/3} \log n))$ (Charikar, Shiragur and Sidford, 2019) の多項式時間で達成可能な以前の最もよく知られた境界を改良する。 Acharya, Das, Orlitsky and Suresh (2016) の業績により、これはより広い範囲の誤差パラメータにおける離散分布の対称性に対する多項式時間普遍推定器を意味する。 我々は bethe and sinkhorn permanents (vontobel, 2012 and 2014) の近似のクオリティに関する新たな境界を提供することにより,これらの結果を達成する。 これらはそれぞれ$\exp(o(k \log(n/k)))$近似であり、非負のランクの行列は最大$k$であり、従来知られていた$\exp(o(n))$である。 PML 上の結果を得るためには、PML の目的が、ある Vandermonde 行列に $\sqrt{n}$ の異なる列、すなわち、非負のランクが $\sqrt{n}$ の値に比例するという事実を利用する。 我々の研究の副産物として、先行作業における凸緩和(css19)とよく研究されたベーテとシンクホーン近似との間に驚くべき関係が確立される。

In this paper we consider the problem of computing the likelihood of the profile of a discrete distribution, i.e., the probability of observing the multiset of element frequencies, and computing a profile maximum likelihood (PML) distribution, i.e., a distribution with the maximum profile likelihood. For each problem we provide polynomial time algorithms that given $n$ i.i.d.\ samples from a discrete distribution, achieve an approximation factor of $\exp\left(-O(\sqrt{n} \log n) \right)$, improving upon the previous best-known bound achievable in polynomial time of $\exp(-O(n^{2/3} \log n))$ (Charikar, Shiragur and Sidford, 2019). Through the work of Acharya, Das, Orlitsky and Suresh (2016), this implies a polynomial time universal estimator for symmetric properties of discrete distributions in a broader range of error parameter. We achieve these results by providing new bounds on the quality of approximation of the Bethe and Sinkhorn permanents (Vontobel, 2012 and 2014). We show that each of these are $\exp(O(k \log(N/k)))$ approximations to the permanent of $N \times N$ matrices with non-negative rank at most $k$, improving upon the previous known bounds of $\exp(O(N))$. To obtain our results on PML, we exploit the fact that the PML objective is proportional to the permanent of a certain Vandermonde matrix with $\sqrt{n}$ distinct columns, i.e. with non-negative rank at most $\sqrt{n}$. As a by-product of our work we establish a surprising connection between the convex relaxation in prior work (CSS19) and the well-studied Bethe and Sinkhorn approximations.
翻訳日:2022-12-16 06:27:23 公開日:2020-04-06
# 協調ゲームによるマルチホップ質問応答のための推論連鎖の復元

Learning to Recover Reasoning Chains for Multi-Hop Question Answering via Cooperative Games ( http://arxiv.org/abs/2004.02393v1 )

ライセンス: Link先を確認
Yufei Feng, Mo Yu, Wenhan Xiong, Xiaoxiao Guo, Junjie Huang, Shiyu Chang, Murray Campbell, Michael Greenspan and Xiaodan Zhu(参考訳) 本稿では,弱教師付き信号,すなわち質問応答対から推論連鎖を回復する学習の新たな問題を提案する。 本稿では,この問題に対処する協調ゲーム手法を提案する。エビデンス・パスの選択方法と,選択したパスの接続方法は,多数の候補から最も自信あるチェーンを選択するために協力する2つのモデルによって処理される。 評価のために、HotpotQAとMedHopの2つのマルチホップQAデータセットと、後者のハンドラベル推論チェーンに基づくベンチマークを作成しました。 実験の結果,提案手法の有効性が示された。

We propose the new problem of learning to recover reasoning chains from weakly supervised signals, i.e., the question-answer pairs. We propose a cooperative game approach to deal with this problem, in which how the evidence passages are selected and how the selected passages are connected are handled by two models that cooperate to select the most confident chains from a large set of candidates (from distant supervision). For evaluation, we created benchmarks based on two multi-hop QA datasets, HotpotQA and MedHop; and hand-labeled reasoning chains for the latter. The experimental results demonstrate the effectiveness of our proposed approach.
翻訳日:2022-12-16 06:26:33 公開日:2020-04-06
# 欠落値をもつ多変量不規則サンプル時系列の予測

Forecasting in multivariate irregularly sampled time series with missing values ( http://arxiv.org/abs/2004.03398v1 )

ライセンス: Link先を確認
Shivam Srivastava, Prithviraj Sen, Berthold Reinwald(参考訳) ばらばらで不規則にサンプリングされた多変量時系列は、臨床、気候、金融、その他多くの領域で一般的である。 最近のアプローチでは、分類、回帰、予測タスクに重点を置いている。 予測では、適切な値を予測するだけでなく、不規則な時系列でその値がいつ発生するかを予測する必要がある。 本研究では,値だけでなく,その発生時期を予測するためのアプローチを提案する。

Sparse and irregularly sampled multivariate time series are common in clinical, climate, financial and many other domains. Most recent approaches focus on classification, regression or forecasting tasks on such data. In forecasting, it is necessary to not only forecast the right value but also to forecast when that value will occur in the irregular time series. In this work, we present an approach to forecast not only the values but also the time at which they are expected to occur.
翻訳日:2022-12-16 06:20:19 公開日:2020-04-06
# 正方形クラスタリング問題の最小和における良質な出発解の重要性

The Importance of Good Starting Solutions in the Minimum Sum of Squares Clustering Problem ( http://arxiv.org/abs/2004.04593v1 )

ライセンス: Link先を確認
Pawel Kalczynski, Jack Brimberg and Zvi Drezner(参考訳) クラスタリング問題は、機械学習、オペレーション研究、統計学に多くの応用がある。 本稿では,改良アルゴリズムの開始解を作成するための3つのアルゴリズムを提案する。 本論文では,72件の事例を対象としたアルゴリズムを検証した。 そのうちの4つは比較的解決が容易で、最もよく知られたソリューションを何度となく見つけました。 20のmediumとlarge sizeインスタンスはもっと難しい。 5つの新しい最もよく知られたソリューションを見つけ、残りの19のインスタンスのうち18の最もよく知られたソリューションにマッチした。

The clustering problem has many applications in Machine Learning, Operations Research, and Statistics. We propose three algorithms to create starting solutions for improvement algorithms for this problem. We test the algorithms on 72 instances that were investigated in the literature. Forty eight of them are relatively easy to solve and we found the best known solution many times for all of them. Twenty four medium and large size instances are more challenging. We found five new best known solutions and matched the best known solution for 18 of the remaining 19 instances.
翻訳日:2022-12-16 06:19:20 公開日:2020-04-06
# 不完全データから悪意事象を予測する上での課題

Challenges in Forecasting Malicious Events from Incomplete Data ( http://arxiv.org/abs/2004.04597v1 )

ライセンス: Link先を確認
Nazgol Tavabi, Andr\'es Abeliuk, Negar Mokhberian, Jeremy Abramson, Kristina Lerman(参考訳) サイバー攻撃を正確に予測できる能力により、組織は拡大する脅威を軽減し、彼らが引き起こす金銭的損失や混乱を回避できる。 しかし、サイバー攻撃はどの程度予測可能か? 研究者たちは、脆弱性開示からTwitterやダークウェブでの議論まで、外部データを機械学習アルゴリズムと組み合わせて、サイバー攻撃の差し迫った指標を学習しようと試みている。 しかし、成功したサイバー攻撃は、攻撃未遂のごく一部を表しており、大多数は停止されるか、ターゲットに配備されたセキュリティ機器によってフィルタリングされる。 本稿では,サイバー攻撃の予測可能性を低減するため,フィルタリングのプロセスについて述べる。 ターゲットの防御に侵入する少数の攻撃は、予測モデルを学ぶのがはるかに困難であるデータ全体と比較して、異なる生成過程を辿る。 これは、元の時系列が依存するすべての異なる要因に加えて、結果の時系列がフィルタリングプロセスにも依存しているという事実によって引き起こされる可能性がある。 2つの組織による実世界データを用いたフィルタリングによる予測可能性の損失を実証的に定量化する。 我々の研究は、高度にフィルタリングされたデータからサイバー攻撃を予測する限界を特定する。

The ability to accurately predict cyber-attacks would enable organizations to mitigate their growing threat and avert the financial losses and disruptions they cause. But how predictable are cyber-attacks? Researchers have attempted to combine external data -- ranging from vulnerability disclosures to discussions on Twitter and the darkweb -- with machine learning algorithms to learn indicators of impending cyber-attacks. However, successful cyber-attacks represent a tiny fraction of all attempted attacks: the vast majority are stopped, or filtered by the security appliances deployed at the target. As we show in this paper, the process of filtering reduces the predictability of cyber-attacks. The small number of attacks that do penetrate the target's defenses follow a different generative process compared to the whole data which is much harder to learn for predictive models. This could be caused by the fact that the resulting time series also depends on the filtering process in addition to all the different factors that the original time series depended on. We empirically quantify the loss of predictability due to filtering using real-world data from two organizations. Our work identifies the limits to forecasting cyber-attacks from highly filtered data.
翻訳日:2022-12-16 06:19:14 公開日:2020-04-06
# 機械学習のための分析のレベル

Levels of Analysis for Machine Learning ( http://arxiv.org/abs/2004.05107v1 )

ライセンス: Link先を確認
Jessica Hamrick and Shakir Mohamed(参考訳) 機械学習は現在、これまで見た中でもっとも活発な議論に関わっている。 このような議論はしばしば輪になって行き来し、結論も結論も出ない。 機械学習の研究者たちが、まったく異なる参照の枠組みでこれらの議論をし、視点を整合させ、共通の根拠を見つけることが困難であることを考えると、これは当然のことだ。 このジレンマの治療法として、研究を理解し、分析し、議論するために使用できる共通の概念的枠組みの採用を提唱する。 認知科学や神経科学で広く普及しているフレームワークを1つ紹介し,機械学習にも大きなメリットがあると考えている。 一連のケーススタディを通じて、このレベルが機械学習からのいくつかの方法の理解と分離をいかに促進するかを実証する。 研究者は、自身の研究に分析のレベルを取り入れることで、我々の分野の進歩を促進するために必要な議論に積極的に取り組むことができると論じる。

Machine learning is currently involved in some of the most vigorous debates it has ever seen. Such debates often seem to go around in circles, reaching no conclusion or resolution. This is perhaps unsurprising given that researchers in machine learning come to these discussions with very different frames of reference, making it challenging for them to align perspectives and find common ground. As a remedy for this dilemma, we advocate for the adoption of a common conceptual framework which can be used to understand, analyze, and discuss research. We present one such framework which is popular in cognitive science and neuroscience and which we believe has great utility in machine learning as well: Marr's levels of analysis. Through a series of case studies, we demonstrate how the levels facilitate an understanding and dissection of several methods from machine learning. By adopting the levels of analysis in one's own work, we argue that researchers can be better equipped to engage in the debates necessary to drive forward progress in our field.
翻訳日:2022-12-16 06:18:59 公開日:2020-04-06
# Typilus: 神経型ヒント

Typilus: Neural Type Hints ( http://arxiv.org/abs/2004.10657v1 )

ライセンス: Link先を確認
Miltiadis Allamanis, Earl T. Barr, Soline Ducousso, and Zheng Gao(参考訳) 動的型付け言語における部分的コンテキストに対する型推論は困難である。 本研究では,プログラムの構造,名称,パターンを確率論的に推論することで,型を予測するグラフニューラルネットワークモデルを提案する。 このネットワークは、TypeSpace(型の離散空間の連続的な緩和)とシンボルの型プロパティ(識別子)を組み込む方法を学ぶために、深い類似性学習を使用している。 重要なことに,我々のモデルは,レアおよびユーザ定義型を含む,オープンなタイプの語彙を予測するために,ワンショット学習を利用することができる。 TypeSpaceとオプションの型チェッカーを組み合わせたPython用のTypilusで、私たちのアプローチを実現しています。 typilusは型を正確に予測する。 typilusは、すべてのアノテーション可能なシンボルの70%の型を自信を持って予測する。 typilusはまた、間違った型アノテーションを見つけることができる。2つの重要で人気のあるオープンソースライブラリ、fairseqとallennlpは、typilusが発見したアノテーションエラーを修正するプルリクエストを受け入れました。

Type inference over partial contexts in dynamically typed languages is challenging. In this work, we present a graph neural network model that predicts types by probabilistically reasoning over a program's structure, names, and patterns. The network uses deep similarity learning to learn a TypeSpace -- a continuous relaxation of the discrete space of types -- and how to embed the type properties of a symbol (i.e. identifier) into it. Importantly, our model can employ one-shot learning to predict an open vocabulary of types, including rare and user-defined ones. We realise our approach in Typilus for Python that combines the TypeSpace with an optional type checker. We show that Typilus accurately predicts types. Typilus confidently predicts types for 70% of all annotatable symbols; when it predicts a type, that type optionally type checks 95% of the time. Typilus can also find incorrect type annotations; two important and popular open source libraries, fairseq and allennlp, accepted our pull requests that fixed the annotation errors Typilus discovered.
翻訳日:2022-12-16 06:18:43 公開日:2020-04-06
# 放射状基底関数ネットワークの勾配に基づくトレーニングとpruning : 材料物理への応用

Gradient-Based Training and Pruning of Radial Basis Function Networks with an Application in Materials Physics ( http://arxiv.org/abs/2004.02569v1 )

ライセンス: Link先を確認
Jussi M\"a\"att\"a, Viacheslav Bazaliy, Jyri Kimari, Flyura Djurabekova, Kai Nordlund, Teemu Roos(参考訳) 多くの応用、特に物理学や他の科学において、容易に解釈可能で堅牢な機械学習技術が求められている。 高速かつスケーラブルなオープンソース実装による放射状基底関数ネットワークのトレーニングのための,完全な勾配に基づく手法を提案する。 実世界の物質物理問題で生じる連立データとともに,連続的なモデル解析のための新しい閉形式最適化基準を導出する。 プルーンドモデルは、データ分布に関する情報的仮定に基づいて、より大きなモデルのコンパクトで解釈可能なバージョンを提供するように最適化されている。 これらの結果は、機械学習アルゴリズムで使用するより適切な記述子を設計するための将来の研究に役立てることができるかもしれない。

Many applications, especially in physics and other sciences, call for easily interpretable and robust machine learning techniques. We propose a fully gradient-based technique for training radial basis function networks with an efficient and scalable open-source implementation. We derive novel closed-form optimization criteria for pruning the models for continuous as well as binary data which arise in a challenging real-world material physics problem. The pruned models are optimized to provide compact and interpretable versions of larger models based on informed assumptions about the data distribution. Visualizations of the pruned models provide insight into the atomic configurations that determine atom-level migration processes in solid matter; these results may inform future research on designing more suitable descriptors for use with machine learning algorithms.
翻訳日:2022-12-16 06:11:20 公開日:2020-04-06
# on-policy reinforcement learning を用いた線形化システムの適応制御

Technical Report: Adaptive Control for Linearizable Systems Using On-Policy Reinforcement Learning ( http://arxiv.org/abs/2004.02766v1 )

ライセンス: Link先を確認
Tyler Westenbroek, Eric Mazumdar, David Fridovich-Keil, Valmik Prabhu, Claire J. Tomlin and S. Shankar Sastry(参考訳) 本稿では,離散時間モデルフリーなポリシグレードパラメータ更新ルールを用いて,未知システムに対するフィードバック線形化に基づくトラッキング制御を適応的に学習するためのフレームワークを提案する。 標準モデル参照適応制御技術よりもこのスキームの第一の利点は、学習された逆モデルが常に可逆である必要はないことである。 これにより、一般関数近似器を用いて特異点を気にすることなく、システムの線形化コントローラを近似することができる。 しかし、これらのアルゴリズムの離散時間および確率的性質は、適応制御文献からの標準機械の直接的適用を妨げ、システムの決定論的安定性証明を提供する。 しかし,これらの手法を確率近似のツールと併用することにより,ある励振条件の持続性を満たす場合,追跡誤差とパラメータ誤差が0付近に集中することを示す。 二重振り子の模擬例は、提案された理論の有用性を示している。 1

This paper proposes a framework for adaptively learning a feedback linearization-based tracking controller for an unknown system using discrete-time model-free policy-gradient parameter update rules. The primary advantage of the scheme over standard model-reference adaptive control techniques is that it does not require the learned inverse model to be invertible at all instances of time. This enables the use of general function approximators to approximate the linearizing controller for the system without having to worry about singularities. However, the discrete-time and stochastic nature of these algorithms precludes the direct application of standard machinery from the adaptive control literature to provide deterministic stability proofs for the system. Nevertheless, we leverage these techniques alongside tools from the stochastic approximation literature to demonstrate that with high probability the tracking and parameter errors concentrate near zero when a certain persistence of excitation condition is satisfied. A simulated example of a double pendulum demonstrates the utility of the proposed theory. 1
翻訳日:2022-12-16 06:10:38 公開日:2020-04-06
# 近位パラメータ更新でインターリーブされたオンラインハイパーパラメータ検索

Online Hyperparameter Search Interleaved with Proximal Parameter Updates ( http://arxiv.org/abs/2004.02769v1 )

ライセンス: Link先を確認
Luis Miguel Lopez-Ramos, Baltasar Beferull-Lozano(参考訳) 一般に用いられている探索手法(N-fold cross-validation を用いたグリッドサーチなど)は非効率で近似的であるため、統計学習スキームのためにハイパーパラメータをチューニングするための効率的なアルゴリズムの必要性は明らかである。 従来、コスト関数の滑らかさに依存するハイパーパラメータを効率的に探索するアルゴリズムは、ラッソ回帰のような問題には適用できない。 本研究では,近似勾配法の構造に依存し,スムーズなコスト関数を必要としないハイパーパラメータ最適化法を開発した。 そのような手法がLeave-one-out (LOO)-validated Lasso と Group Lasso に適用され、効率的でデータ駆動のハイパーパラメータ最適化アルゴリズムが得られる。 数値実験により提案手法の収束度を, LOO検証誤差曲線の局所的最適度と近似の効率を相関させる。

There is a clear need for efficient algorithms to tune hyperparameters for statistical learning schemes, since the commonly applied search methods (such as grid search with N-fold cross-validation) are inefficient and/or approximate. Previously existing algorithms that efficiently search for hyperparameters relying on the smoothness of the cost function cannot be applied in problems such as Lasso regression. In this contribution, we develop a hyperparameter optimization method that relies on the structure of proximal gradient methods and does not require a smooth cost function. Such a method is applied to Leave-one-out (LOO)-validated Lasso and Group Lasso to yield efficient, data-driven, hyperparameter optimization algorithms. Numerical experiments corroborate the convergence of the proposed method to a local optimum of the LOO validation error curve, and the efficiency of its approximations.
翻訳日:2022-12-16 06:10:25 公開日:2020-04-06
# Code2vecでJavaクラスを埋め込む - 可変難読化による改善

Embedding Java Classes with code2vec: Improvements from Variable Obfuscation ( http://arxiv.org/abs/2004.02942v1 )

ライセンス: Link先を確認
Rhys Compton, Eibe Frank, Panos Patros, Abigail Koay(参考訳) コードセキュリティなどのソフトウェアエンジニアリングの重要な領域におけるソースコードの自動解析は、機械学習(ML)の恩恵を受けることができる。 しかし、多くの標準mlアプローチではデータの数値表現が必要であり、ソースコードに直接適用することはできない。 したがって、MLを有効にするためには、可能な限りコードのセマンティクスを維持しながら、ソースコードを数値的な特徴ベクトルに埋め込む必要がある。 code2vecは先日リリースされた組み込みアプローチで、メソッド名予測のプロキシタスクを使用して、javaメソッドを機能ベクタにマッピングする。 しかし、code2vecを使った実験では、変数名を予測に頼ることを学び、タイプミスや敵攻撃によって簡単に騙されることが示されている。 さらに、個々のjavaメソッドのみを組み込むことができ、典型的なjavaクラスに存在するメソッドのようなメソッドのコレクション全体を組み込むことができないため、クラスレベルでの予測の実行が困難である(例えば、悪意のあるjavaクラスの識別など)。 どちらの欠点も,本論文で示された研究に対処する。 code2vecモデルのトレーニング中に変数名を難読化することにより、特定の名前ではなくコード構造に頼らざるを得なくなり、メソッド埋め込みの集合を集約してクラスレベルの埋め込みを作成するための簡単なアプローチを考える。 提案手法は,変数名の省略によって,変数の命名に支障をきたすような組込みモデルが生成され,コードのセマンティクスをより正確に反映できることを示す。 データセット、モデル、コードは、ソースコードに関するさらなるML研究のために共有される。

Automatic source code analysis in key areas of software engineering, such as code security, can benefit from Machine Learning (ML). However, many standard ML approaches require a numeric representation of data and cannot be applied directly to source code. Thus, to enable ML, we need to embed source code into numeric feature vectors while maintaining the semantics of the code as much as possible. code2vec is a recently released embedding approach that uses the proxy task of method name prediction to map Java methods to feature vectors. However, experimentation with code2vec shows that it learns to rely on variable names for prediction, causing it to be easily fooled by typos or adversarial attacks. Moreover, it is only able to embed individual Java methods and cannot embed an entire collection of methods such as those present in a typical Java class, making it difficult to perform predictions at the class level (e.g., for the identification of malicious Java classes). Both shortcomings are addressed in the research presented in this paper. We investigate the effect of obfuscating variable names during the training of a code2vec model to force it to rely on the structure of the code rather than specific names and consider a simple approach to creating class-level embeddings by aggregating sets of method embeddings. Our results, obtained on a challenging new collection of source-code classification problems, indicate that obfuscating variable names produces an embedding model that is both impervious to variable naming and more accurately reflects code semantics. The datasets, models, and code are shared for further ML research on source code.
翻訳日:2022-12-16 06:09:41 公開日:2020-04-06
# 遠隔監視によるクエリ集中型マルチドキュメント要約

Query Focused Multi-Document Summarization with Distant Supervision ( http://arxiv.org/abs/2004.03027v1 )

ライセンス: Link先を確認
Yumo Xu and Mirella Lapata(参考訳) 本稿では,クエリ中心のマルチドキュメント要約(QFS)を容易にするために,クエリクラスタ間相互作用をモデル化する問題を考える。 トレーニングデータがないため、既存の作業はクエリとテキストセグメントの関係を推定する検索スタイルの手法に大きく依存している。 本研究では,クエリとドキュメントの関係をより明確に把握するために,質問応答から遠方からの監視を活用する。 本稿では,問合せに関連があるか,回答を含む可能性が高いか,中央値を含むかを推定するモジュールを分離して導入する,粗粒度モデリングフレームワークを提案する。 この枠組みの下で、訓練されたエビデンス推定者は、検索されたセグメントが要約の最後の選択のためにクエリに答えるかもしれないかどうかをさらに識別する。 我々のフレームワークは、標準QFSベンチマークにおいて強力な比較システムより優れていることを示す。

We consider the problem of better modeling query-cluster interactions to facilitate query focused multi-document summarization (QFS). Due to the lack of training data, existing work relies heavily on retrieval-style methods for estimating the relevance between queries and text segments. In this work, we leverage distant supervision from question answering where various resources are available to more explicitly capture the relationship between queries and documents. We propose a coarse-to-fine modeling framework which introduces separate modules for estimating whether segments are relevant to the query, likely to contain an answer, and central. Under this framework, a trained evidence estimator further discerns which retrieved segments might answer the query for final selection in the summary. We demonstrate that our framework outperforms strong comparison systems on standard QFS benchmarks.
翻訳日:2022-12-16 06:02:37 公開日:2020-04-06
# 大規模フォトニック貯水池コンピュータのベイズ最適化

Bayesian optimisation of large-scale photonic reservoir computers ( http://arxiv.org/abs/2004.02535v1 )

ライセンス: Link先を確認
Piotr Antonik, Nicolas Marsal, Daniel Brunner, Damien Rontani(参考訳) はじめに。 Reservoirコンピューティングは、リカレントニューラルネットワークの簡易トレーニングのパラダイムとして成長し、ハードウェア実装に高い可能性を秘めている。 光学とエレクトロニクスに関する数多くの実験は、デジタル最先端アルゴリズムに匹敵する性能をもたらす。 この分野の最近の作品の多くは、数万の物理ノードと任意の相互接続を持つ大規模フォトニックシステムに焦点を当てている。 この傾向はフォトニック貯水池コンピューティングの潜在的な応用を著しく拡大する一方で、システムの多数のハイパーパラメータの最適化も複雑にしている。 メソッド。 本研究では,ベイズ最適化を用いた極小反復数でのハイパーパラメータ空間の効率的な探索を提案する。 結果だ この手法を,従来報告した大規模実験システムでテストし,一般的なグリッド探索と比較し,ハイパーパラメータの最適化に必要な性能改善と実験イテレーション数を報告した。 結論だ したがってベイズ最適化は、フォトニックリザーバコンピューティングにおけるハイパーパラメータのチューニングの標準となる可能性を持っている。

Introduction. Reservoir computing is a growing paradigm for simplified training of recurrent neural networks, with a high potential for hardware implementations. Numerous experiments in optics and electronics yield comparable performance to digital state-of-the-art algorithms. Many of the most recent works in the field focus on large-scale photonic systems, with tens of thousands of physical nodes and arbitrary interconnections. While this trend significantly expands the potential applications of photonic reservoir computing, it also complicates the optimisation of the high number of hyper-parameters of the system. Methods. In this work, we propose the use of Bayesian optimisation for efficient exploration of the hyper-parameter space in a minimum number of iteration. Results. We test this approach on a previously reported large-scale experimental system, compare it to the commonly used grid search, and report notable improvements in performance and the number of experimental iterations required to optimise the hyper-parameters. Conclusion. Bayesian optimisation thus has the potential to become the standard method for tuning the hyper-parameters in photonic reservoir computing.
翻訳日:2022-12-16 06:02:11 公開日:2020-04-06
# 大規模脳誘発フォトニックコンピュータによる人間の行動認識

Human action recognition with a large-scale brain-inspired photonic computer ( http://arxiv.org/abs/2004.02545v1 )

ライセンス: Link先を確認
Piotr Antonik, Nicolas Marsal, Daniel Brunner, Damien Rontani(参考訳) ビデオストリームにおける人間の行動の認識はコンピュータビジョンにおいて難しい課題であり、脳とコンピュータのインターフェースや監視などの基本的な応用がある。 ディープラーニングは最近、顕著な結果を示しているが、トレーニングには大規模なデータセットと特別な目的のエネルギー消費ハードウェアが必要であるため、実際に使用するのが難しい。 そこで本研究では,リザーバコンピューティングパラダイムに基づくスケーラブルなフォトニックニューロインスパイアドアーキテクチャを提案する。 我々の実験的な光学装置は、既製の部品で構成されており、訓練が容易で数十万のノードにスケールできる大規模な並列リカレントニューラルネットワークを実装しています。 この研究は、リアルタイムビデオ処理のための再構成可能でエネルギー効率の良いフォトニック情報処理システムへの道を開いた。

The recognition of human actions in video streams is a challenging task in computer vision, with cardinal applications in e.g. brain-computer interface and surveillance. Deep learning has shown remarkable results recently, but can be found hard to use in practice, as its training requires large datasets and special purpose, energy-consuming hardware. In this work, we propose a scalable photonic neuro-inspired architecture based on the reservoir computing paradigm, capable of recognising video-based human actions with state-of-the-art accuracy. Our experimental optical setup comprises off-the-shelf components, and implements a large parallel recurrent neural network that is easy to train and can be scaled up to hundreds of thousands of nodes. This work paves the way towards simply reconfigurable and energy-efficient photonic information processing systems for real-time video processing.
翻訳日:2022-12-16 06:01:53 公開日:2020-04-06
# ルールベース分類システムの品質評価について

On Evaluating the Quality of Rule-Based Classification Systems ( http://arxiv.org/abs/2004.02671v1 )

ライセンス: Link先を確認
Nassim Dehouche(参考訳) 2つの指標は、古典的にルールベースの分類システムの品質を評価するために用いられる: 予測精度、すなわち、学習データとカバレッジをうまく再現するシステムの能力、すなわち、システムを構成する論理規則が適用される可能性の比率である。 本研究では,これら2つの指標は不十分であり,さらなる品質指標の開発が必要であると主張している。 理論的には,「良い」予測精度とカバレッジを示す分類システムは,その一方ではささやかに改善され,この提案を例で示すことができる。

Two indicators are classically used to evaluate the quality of rule-based classification systems: predictive accuracy, i.e. the system's ability to successfully reproduce learning data and coverage, i.e. the proportion of possible cases for which the logical rules constituting the system apply. In this work, we claim that these two indicators may be insufficient, and additional measures of quality may need to be developed. We theoretically show that classification systems presenting "good" predictive accuracy and coverage can, nonetheless, be trivially improved and illustrate this proposition with examples.
翻訳日:2022-12-16 06:01:24 公開日:2020-04-06
# ネットワーク全体のトラフィック状態を複数ステップ予測する:動的非局所空間相関と非定常時間依存性を考慮したディープラーニングアプローチ

Forecast Network-Wide Traffic States for Multiple Steps Ahead: A Deep Learning Approach Considering Dynamic Non-Local Spatial Correlation and Non-Stationary Temporal Dependency ( http://arxiv.org/abs/2004.02391v1 )

ライセンス: Link先を確認
Xinglei Wang, Xuefeng Guan, Jun Cao, Na Zhang, Huayi Wu(参考訳) トラフィック管理および制御アプリケーションにおいて、トラフィックネットワークの全リンクの将来のトラフィックフローに関する正確な情報を取得することは、非常に重要である。 本研究では,(1)トラヒックリンク間の動的・非局所的空間的相関を把握し,(2)正確な複数ステップ先行予測のための時間依存のダイナミクスをモデル化する。 これらの課題に対処するため,STSeq2Seq(Spatial-Temporal Sequence to Sequence Model)というディープラーニングフレームワークを提案する。 このモデルはsequence to sequence (seq2seq)アーキテクチャに基づいて構築され、時間的特徴をキャプチャし、空間情報を集約するためのグラフ畳み込みに依存する。 さらに、STSeq2Seqは、最近のトラフィックリンクにおける交通パターンのペアワイドな類似性に基づいてパターン認識隣接行列(PAM)を定義し、グラフ畳み込み操作に統合する。 また、畳み込みエンコーダと再帰デコーダを結合した新しいseq2sesqアーキテクチャをデプロイし、異なる時間ステップ間の長距離依存性の動的モデリングのための注意機構を提供する。 2つの公開可能な大規模トラフィックデータセットを用いて広範な実験を行い、STSeq2Seqを他のベースラインモデルと比較する。 数値計算により,提案モデルが種々の誤差測定値を用いて最先端予測性能を実現することを示す。 アブレーション研究は,pamsが動的非局所的空間相関を捉えることの有効性を検証し,提案するseq2seqアーキテクチャが複数ステップの予測に対する非定常時間依存性をモデル化する上で優れていることを検証した。 さらに, PAMとモデル解釈の注意重みについて定性解析を行った。

Obtaining accurate information about future traffic flows of all links in a traffic network is of great importance for traffic management and control applications. This research studies two particular problems in traffic forecasting: (1) capture the dynamic and non-local spatial correlation between traffic links and (2) model the dynamics of temporal dependency for accurate multiple steps ahead predictions. To address these issues, we propose a deep learning framework named Spatial-Temporal Sequence to Sequence model (STSeq2Seq). This model builds on sequence to sequence (seq2seq) architecture to capture temporal feature and relies on graph convolution for aggregating spatial information. Moreover, STSeq2Seq defines and constructs pattern-aware adjacency matrices (PAMs) based on pair-wise similarity of the recent traffic patterns on traffic links and integrate it into graph convolution operation. It also deploys a novel seq2sesq architecture which couples a convolutional encoder and a recurrent decoder with attention mechanism for dynamic modeling of long-range dependence between different time steps. We conduct extensive experiments using two publicly-available large-scale traffic datasets and compare STSeq2Seq with other baseline models. The numerical results demonstrate that the proposed model achieves state-of-the-art forecasting performance in terms of various error measures. The ablation study verifies the effectiveness of PAMs in capturing dynamic non-local spatial correlation and the superiority of proposed seq2seq architecture in modeling non-stationary temporal dependency for multiple steps ahead prediction. Furthermore, qualitative analysis is conducted on PAMs as well as the attention weights for model interpretation.
翻訳日:2022-12-16 06:00:46 公開日:2020-04-06
# nビット量子化ニューラルネットワークのFPGAへの学習フレームワーク

A Learning Framework for n-bit Quantized Neural Networks toward FPGAs ( http://arxiv.org/abs/2004.02396v1 )

ライセンス: Link先を確認
Jun Chen, Liang Liu, Yong Liu, Xianfang Zeng(参考訳) 量子化ニューラルネットワーク(QNN)は、ネットワーク圧縮の効率的なアプローチであり、FPGAの実装で広く利用することができる。 本稿では、重みが2のパワーに制約されるnビットqnnのための新しい学習フレームワークを提案する。 勾配消失問題を解決するために,予測損失の近似勾配を推定するのではなく,直接実勾配を得ることのできるバックプロパゲーションアルゴリズムにおけるqnnの再構成勾配関数を提案する。 また、n-bq-nn という新しいqnn構造を提案する。これはシフト演算を用いて乗算演算を置き換え、fpgaの推論により適している。 さらに,FPGA上での畳み込み操作において,全16ビット乗算を ShiFT 演算に置き換えるシフトベクトル処理素子(SVPE)を設計する。 フレームワークを評価するための比較実験も行っています。 実験の結果,学習フレームワークを通じてResNet,DenseNet,AlexNetの量子化モデルは,元の完全精度モデルとほぼ同じ精度で実現できることがわかった。 さらに,学習フレームワークを用いてN-BQ-NNをゼロからトレーニングすると,従来の低精度QNNと比較して最先端の結果が得られる。 Xilinx ZCU102 プラットフォーム上での実験では,SVPE を用いた n-BQ-NN がベクトル処理素子 (VPE) の推論よりも2.9 倍高速に実行可能であることが示された。 SVPEアレイのShift操作はFPGA上のデジタル信号処理(DSP)リソースを消費しないため、SVPEアレイを使用した場合、平均消費電力は16ビットのVPEアレイの68.7%に減少する。

The quantized neural network (QNN) is an efficient approach for network compression and can be widely used in the implementation of FPGAs. This paper proposes a novel learning framework for n-bit QNNs, whose weights are constrained to the power of two. To solve the gradient vanishing problem, we propose a reconstructed gradient function for QNNs in back-propagation algorithm that can directly get the real gradient rather than estimating an approximate gradient of the expected loss. We also propose a novel QNN structure named n-BQ-NN, which uses shift operation to replace the multiply operation and is more suitable for the inference on FPGAs. Furthermore, we also design a shift vector processing element (SVPE) array to replace all 16-bit multiplications with SHIFT operations in convolution operation on FPGAs. We also carry out comparable experiments to evaluate our framework. The experimental results show that the quantized models of ResNet, DenseNet and AlexNet through our learning framework can achieve almost the same accuracies with the original full-precision models. Moreover, when using our learning framework to train our n-BQ-NN from scratch, it can achieve state-of-the-art results compared with typical low-precision QNNs. Experiments on Xilinx ZCU102 platform show that our n-BQ-NN with our SVPE can execute 2.9 times faster than with the vector processing element (VPE) in inference. As the SHIFT operation in our SVPE array will not consume Digital Signal Processings (DSPs) resources on FPGAs, the experiments have shown that the use of SVPE array also reduces average energy consumption to 68.7% of the VPE array with 16-bit.
翻訳日:2022-12-16 06:00:14 公開日:2020-04-06
# コメント:動的治療レジームのためのエントロピー学習

Comment: Entropy Learning for Dynamic Treatment Regimes ( http://arxiv.org/abs/2004.02778v1 )

ライセンス: Link先を確認
Nathan Kallus(参考訳) 教授を祝福します。 Binyan Jiang, Rui Song, Jialiang Li, Donglin Zeng (JSLZ) は, エントロピー損失をサロゲートとして用いた経験的リスク最小化を通じて学習した最適動的治療体制(DTR)を推定するエキサイティングな開発を行った。 JSLZのアプローチは、逆確率重み付け(IPW)に基づく決定規則の値の拒絶と重要度サンプリングの見積もりと、その解釈を重み付き(またはコスト感受性)の分類として活用する。 滑らかな分類サーロゲートを用いることで、漸近分布の解析に慎重なアプローチが可能になる。 しかし、評価の目的であっても、IPWの推定値が問題となるのは、データの大半を破棄し、残余に対して非常に変動する重みが生じるためである。 本稿では、DTRの評価やいくつかの接続のレビュー、今後の方向性の提案など、最適化に基づく代替案について論じる。 これは、Kallus (2018a) の均衡政策評価アプローチを、縦方向の設定にまで拡張する。

I congratulate Profs. Binyan Jiang, Rui Song, Jialiang Li, and Donglin Zeng (JSLZ) for an exciting development in conducting inferences on optimal dynamic treatment regimes (DTRs) learned via empirical risk minimization using the entropy loss as a surrogate. JSLZ's approach leverages a rejection-and-importance-sampling estimate of the value of a given decision rule based on inverse probability weighting (IPW) and its interpretation as a weighted (or cost-sensitive) classification. Their use of smooth classification surrogates enables their careful approach to analyzing asymptotic distributions. However, even for evaluation purposes, the IPW estimate is problematic as it leads to weights that discard most of the data and are extremely variable on whatever remains. In this comment, I discuss an optimization-based alternative to evaluating DTRs, review several connections, and suggest directions forward. This extends the balanced policy evaluation approach of Kallus (2018a) to the longitudinal setting.
翻訳日:2022-12-16 05:53:55 公開日:2020-04-06
# 連続ヒストグラム損失:神経類似性を超えて

Continuous Histogram Loss: Beyond Neural Similarity ( http://arxiv.org/abs/2004.02830v1 )

ライセンス: Link先を確認
Artem Zholus and Evgeny Putin(参考訳) 近年、類似性学習は研究から多くの注目を集め、多くの成功したアプローチが最近提案されている。 しかし、最先端の類似性学習手法の大半は、バイナリ類似性のみを考慮している。 本稿では,最近提案された複数値の類似性に対するヒストグラム損失を一般化した連続ヒストグラム損失(chl)と呼ばれる新しい損失関数を提案する。 この新たな損失関数は、2次元ヒストグラムに相似性や相似性を微分可能に集約し、相似性が増すにつれて相似性が低下しない条件の確率を計算することで計算される。 この新たな損失は、類似性学習、表現学習、データ視覚化を含む幅広いタスクを解くことができる。

Similarity learning has gained a lot of attention from researches in recent years and tons of successful approaches have been recently proposed. However, the majority of the state-of-the-art similarity learning methods consider only a binary similarity. In this paper we introduce a new loss function called Continuous Histogram Loss (CHL) which generalizes recently proposed Histogram loss to multiple-valued similarities, i.e. allowing the acceptable values of similarity to be continuously distributed within some range. The novel loss function is computed by aggregating pairwise distances and similarities into 2D histograms in a differentiable manner and then computing the probability of condition that pairwise distances will not decrease as the similarities increase. The novel loss is capable of solving a wider range of tasks including similarity learning, representation learning and data visualization.
翻訳日:2022-12-16 05:53:32 公開日:2020-04-06
# 不均一なマルチリレーショナルネットワークにおけるコミュニティ検出:メッセージパッシングに基づくアプローチ

Detecting Communities in Heterogeneous Multi-Relational Networks:A Message Passing based Approach ( http://arxiv.org/abs/2004.02842v1 )

ライセンス: Link先を確認
Maoying Qiao, Jun Yu, Wei Bian, Dacheng Tao(参考訳) コミュニティは、ソーシャルネットワーク、生物ネットワーク、コンピュータ、情報ネットワークなど、いくつかのネットワークに共通する特徴である。 コミュニティ検出は、これらのネットワークデータを探索し分析するための基本的なステップである。 通常、同種ネットワークは1つのタイプのオブジェクトとそれらを結ぶ1つのタイプのリンクからなるネットワークの一種である。 モデルとアルゴリズムは、その上のコミュニティを検出するために、大きく発展してきた。 しかし、実世界のネットワークは自然に複数の種類のオブジェクトとして現れる異質な特性を示す。 これらの異種情報は、その構成する同種ネットワークのコミュニティ検出を促進することができるが、完全には探索されていない。 本稿ではヘテロジニアス・マルチリレーショナル・ネットワーク(HMRNet)を活用し,同種ネットワークのコミュニティを同時に検出するための効率的なメッセージパッシングに基づくアルゴリズムを提案する。 具体的には、hmrnetは均質ネットワークをレイヤとして階層構造に再構成され、それらを接続するヘテロジニアスリンクが形成される。 このようなHMRNetのコミュニティを検出するために、この問題は因子グラフ上の最大後部(MAP)として定式化される。 最後に、MAP問題の最適解を見つけるために、メッセージパッシングに基づくアルゴリズムを導出する。 合成ネットワークと実世界のネットワークの両方で評価を行い,提案手法の有効性を確認した。

Community is a common characteristic of networks including social networks, biological networks, computer and information networks, to name a few. Community detection is a basic step for exploring and analysing these network data. Typically, homogenous network is a type of networks which consists of only one type of objects with one type of links connecting them. There has been a large body of developments in models and algorithms to detect communities over it. However, real-world networks naturally exhibit heterogeneous qualities appearing as multiple types of objects with multi-relational links connecting them. Those heterogeneous information could facilitate the community detection for its constituent homogeneous networks, but has not been fully explored. In this paper, we exploit heterogeneous multi-relational networks (HMRNet) and propose an efficient message passing based algorithm to simultaneously detect communities for all homogeneous networks. Specifically, an HMRNet is reorganized into a hierarchical structure with homogeneous networks as its layers and heterogeneous links connecting them. To detect communities in such an HMRNet, the problem is formulated as a maximum a posterior (MAP) over a factor graph. Finally a message passing based algorithm is derived to find a best solution of the MAP problem. Evaluation on both synthetic and real-world networks confirms the effectiveness of the proposed method.
翻訳日:2022-12-16 05:53:16 公開日:2020-04-06
# グラフニューラルネットワークにおける幾何原理接続

Geometrically Principled Connections in Graph Neural Networks ( http://arxiv.org/abs/2004.02658v1 )

ライセンス: Link先を確認
Shunwang Gong, Mehdi Bahri, Michael M. Bronstein, Stefanos Zafeiriou(参考訳) グラフ畳み込み演算子は、これまで手が届かなかったさまざまなグラフおよびメッシュ処理タスクにディープラーニングの利点をもたらす。 彼らの継続的な成功により、しばしば既存のディープラーニング技術を非ユークリッドデータに適用することによって、より強力なアーキテクチャを設計したいという願望がもたらされる。 本稿では,幾何学的深層学習の新たな分野におけるイノベーションの原動力は幾何学であるべきだと論じる。 本稿では,グラフニューラルネットワークとコンピュータグラフィックスとデータ近似モデル,放射基底関数(RBF)について述べる。 RBFと同様に、グラフ畳み込み層は、強力な畳み込みカーネルに単純な関数を追加することで恩恵を受けると推測する。 完全連結層と任意のグラフ畳み込み演算子を組み合わせることで形成される新しいビルディングブロックであるアフィンスキップ接続を紹介する。 提案手法の有効性を実験的に実証し,その性能改善がパラメータの増加以上の結果であることを示す。 アフィンスキップ接続を備えたオペレータは、評価したタスク、すなわち形状再構成、密な形状対応、グラフ分類において、基本性能を著しく上回る。 私たちのシンプルで効果的なアプローチが、強固なベースラインとして役立ち、グラフニューラルネットワークの将来的な研究を容易にすることを願っています。

Graph convolution operators bring the advantages of deep learning to a variety of graph and mesh processing tasks previously deemed out of reach. With their continued success comes the desire to design more powerful architectures, often by adapting existing deep learning techniques to non-Euclidean data. In this paper, we argue geometry should remain the primary driving force behind innovation in the emerging field of geometric deep learning. We relate graph neural networks to widely successful computer graphics and data approximation models: radial basis functions (RBFs). We conjecture that, like RBFs, graph convolution layers would benefit from the addition of simple functions to the powerful convolution kernels. We introduce affine skip connections, a novel building block formed by combining a fully connected layer with any graph convolution operator. We experimentally demonstrate the effectiveness of our technique and show the improved performance is the consequence of more than the increased number of parameters. Operators equipped with the affine skip connection markedly outperform their base performance on every task we evaluated, i.e., shape reconstruction, dense shape correspondence, and graph classification. We hope our simple and effective approach will serve as a solid baseline and help ease future research in graph neural networks.
翻訳日:2022-12-16 05:52:03 公開日:2020-04-06
# 深層学習における光フロー推定

Optical Flow Estimation in the Deep Learning Age ( http://arxiv.org/abs/2004.02853v1 )

ライセンス: Link先を確認
Junhwa Hur, Stefan Roth(参考訳) コンピュータビジョンの多くのサブエリアと同様に、ディープラーニングの最近の進歩も光学フローに関する文献に大きな影響を与えている。 これまでこの文献は、エネルギー最小化問題として光学フロー推定を定式化した古典的エネルギーベースモデルに支配されていた。 しかし,従来のコンピュータビジョンなどにおいて,従来の手法に対する畳み込みニューラルネットワーク(CNN)の実用的メリットが明らかになってきており,動き推定の文脈において,CNNアプローチによって現在の技術状態が設定された時点への採用が増加している。 まず,光フロー推定のための初期研究からcnnの現況への展開とともに,この変遷を概観する。 技術的な詳細についても議論し、どの技術的貢献が最も重要な精度向上につながったかを再定義するために比較します。 そこで,本研究では,学習パラダイム(例えば,教師なし・半教師付き手法)に基づく学習や,さらに精度を向上できる多フレームケースの拡張など,深層学習時代に導入された様々な光学フローアプローチの概要について述べる。

Akin to many subareas of computer vision, the recent advances in deep learning have also significantly influenced the literature on optical flow. Previously, the literature had been dominated by classical energy-based models, which formulate optical flow estimation as an energy minimization problem. However, as the practical benefits of Convolutional Neural Networks (CNNs) over conventional methods have become apparent in numerous areas of computer vision and beyond, they have also seen increased adoption in the context of motion estimation to the point where the current state of the art in terms of accuracy is set by CNN approaches. We first review this transition as well as the developments from early work to the current state of CNNs for optical flow estimation. Alongside, we discuss some of their technical details and compare them to recapitulate which technical contribution led to the most significant accuracy improvements. Then we provide an overview of the various optical flow approaches introduced in the deep learning age, including those based on alternative learning paradigms (e.g., unsupervised and semi-supervised methods) as well as the extension to the multi-frame case, which is able to yield further accuracy improvements.
翻訳日:2022-12-16 05:51:45 公開日:2020-04-06
# DualSDF:2レベル表現を用いた意味的形状操作

DualSDF: Semantic Shape Manipulation using a Two-Level Representation ( http://arxiv.org/abs/2004.02869v1 )

ライセンス: Link先を確認
Zekun Hao, Hadar Averbuch-Elor, Noah Snavely, Serge Belongie(参考訳) 機械学習で使用する3d形状表現がcambrianで爆発的に増えている。 一部の表現は高解像度の詳細を捉える際に高い表現力を求める。 その他のアプローチでは、形状を単純な部分のコンポジションとして表現し、人々が直感的に理解し、編集し、操作しやすくすることを目指している。 しかし、同じ表現で忠実性と解釈性の両方を達成することは困難である。 本稿では,2段階の粒度で形状を表現するDualSDFと,単純で意味論的に整合した形状プリミティブを用いた抽象的なプロキシ形状を表現するDualSDFを提案する。 2つの表現間の密結合を達成するために、共有潜在空間上の変動目標を用いる。 我々の2段階モデルでは、ユーザが対話的に粗いプロキシの形状を操作でき、その変化を即座に高解像度の形状に反映できる新しい形状操作技術が生み出される。 さらに,本モデルは,意味的に意味のある形状を生成する操作を積極的に強化し,ユーザ入力を最小にすることで複雑な操作を可能にする。

We are seeing a Cambrian explosion of 3D shape representations for use in machine learning. Some representations seek high expressive power in capturing high-resolution detail. Other approaches seek to represent shapes as compositions of simple parts, which are intuitive for people to understand and easy to edit and manipulate. However, it is difficult to achieve both fidelity and interpretability in the same representation. We propose DualSDF, a representation expressing shapes at two levels of granularity, one capturing fine details and the other representing an abstracted proxy shape using simple and semantically consistent shape primitives. To achieve a tight coupling between the two representations, we use a variational objective over a shared latent space. Our two-level model gives rise to a new shape manipulation technique in which a user can interactively manipulate the coarse proxy shape and see the changes instantly mirrored in the high-resolution shape. Moreover, our model actively augments and guides the manipulation towards producing semantically meaningful shapes, making complex manipulations possible with minimal user input.
翻訳日:2022-12-16 05:51:25 公開日:2020-04-06
# ディープフェイス偽造検出

Deep Face Forgery Detection ( http://arxiv.org/abs/2004.11804v1 )

ライセンス: Link先を確認
Nika Dogonadze, Jana Obernosterer, Ji Hou(参考訳) ディープラーニングの急速な進歩は、ビデオの偽造物の生成を容易かつ安価にしている。 したがって、これらの偽造を信頼できる方法で検出することが非常に重要である。 本稿では,様々な改ざんシナリオに対するアプローチについて述べる。 問題はフレーム単位のバイナリ分類タスクとしてモデル化される。 本稿では,顔認識タスクからのトランスファー学習を用いて,様々な顔操作シナリオにおける改ざん検出を改善することを提案する。 さらに,単一フレーム検出が不十分な低解像度設定では,隣接フレームを中間フレーム分類に活用する。 パブリックなFaceForensicsベンチマークで両方のアプローチを評価し,その精度を実現する。

Rapid progress in deep learning is continuously making it easier and cheaper to generate video forgeries. Hence, it becomes very important to have a reliable way of detecting these forgeries. This paper describes such an approach for various tampering scenarios. The problem is modelled as a per-frame binary classification task. We propose to use transfer learning from face recognition task to improve tampering detection on many different facial manipulation scenarios. Furthermore, in low resolution settings, where single frame detection performs poorly, we try to make use of neighboring frames for middle frame classification. We evaluate both approaches on the public FaceForensics benchmark, achieving state of the art accuracy.
翻訳日:2022-12-16 05:51:07 公開日:2020-04-06
# 多出力ガウス過程における負転移と潜在関数の構造について

On Negative Transfer and Structure of Latent Functions in Multi-output Gaussian Processes ( http://arxiv.org/abs/2004.02382v1 )

ライセンス: Link先を確認
Moyan Li, Raed Kontar(参考訳) マルチアウトプットガウス過程($\mathcal{MGP}$)は、出力が共通点を共有するという仮定に基づいているが、この仮定が負の遷移を保たなければ、学習出力に対して独立あるいは部分集合での性能が低下する。 本稿では、まず$\mathcal{MGP}$の文脈で負転移を定義し、その後、負転移を避けるために$\mathcal{MGP}$モデルに必要な条件を導出する。 特に, 畳み込み構成では, 負の移動を避けることは, カーネルの柔軟性や推論手順によらず, 十分な数の潜在関数が$Q$であることに大きく依存することを示す。 しかし、$Q$がわずかに増加すると、推定されるパラメータの数が大幅に増加する。 この目的のために、任意に大きなデータセットにスケールし、負の転送を回避し、カーネルやスパース近似を内部で使用できる2つの潜在構造を提案する。 これらの構造は正規化を可能にし、関連する出力の一貫性と自動選択を提供する。

The multi-output Gaussian process ($\mathcal{MGP}$) is based on the assumption that outputs share commonalities, however, if this assumption does not hold negative transfer will lead to decreased performance relative to learning outputs independently or in subsets. In this article, we first define negative transfer in the context of an $\mathcal{MGP}$ and then derive necessary conditions for an $\mathcal{MGP}$ model to avoid negative transfer. Specifically, under the convolution construction, we show that avoiding negative transfer is mainly dependent on having a sufficient number of latent functions $Q$ regardless of the flexibility of the kernel or inference procedure used. However, a slight increase in $Q$ leads to a large increase in the number of parameters to be estimated. To this end, we propose two latent structures that scale to arbitrarily large datasets, can avoid negative transfer and allow any kernel or sparse approximations to be used within. These structures also allow regularization which can provide consistent and automatic selection of related outputs.
翻訳日:2022-12-16 05:44:54 公開日:2020-04-06
# FastForest: 正確性を維持しつつ、ランダムな森林処理速度を向上

FastForest: Increasing Random Forest Processing Speed While Maintaining Accuracy ( http://arxiv.org/abs/2004.02423v1 )

ライセンス: Link先を確認
Darren Yates and Md Zahidul Islam(参考訳) ランサムフォレストは、データマイニングの最も永続的なアンサンブルアルゴリズムの1つであり、文書化された精度と処理速度を達成し、新しい研究に定期的に現れる。 しかし、現在、スマートフォンやIoT(Internet of Things)デバイスのようなハードウェアに制約のあるデバイスの領域にデータマイニングが到達しているため、精度を犠牲にすることなく処理速度を向上するためのアルゴリズム効率に関するさらなる研究が必要である。 提案したFastForestアルゴリズムはRandom Forestと比較して処理速度が平均24%向上する一方、45のデータセットを含むテストの分類精度は維持する(そして頻繁に上回る)。 FastForestは、Subsample Aggregating('Subbagging')、Logarithmic Split-Point Smpling、Dynamic Restricted Subspacingという3つの最適化コンポーネントを組み合わせてこの結果を達成する。 さらに,サブバッギングサイズの詳細なテストにより,処理性能と精度の正の混合を実現する最適スカラーが得られた。

Random Forest remains one of Data Mining's most enduring ensemble algorithms, achieving well-documented levels of accuracy and processing speed, as well as regularly appearing in new research. However, with data mining now reaching the domain of hardware-constrained devices such as smartphones and Internet of Things (IoT) devices, there is continued need for further research into algorithm efficiency to deliver greater processing speed without sacrificing accuracy. Our proposed FastForest algorithm delivers an average 24% increase in processing speed compared with Random Forest whilst maintaining (and frequently exceeding) it on classification accuracy over tests involving 45 datasets. FastForest achieves this result through a combination of three optimising components - Subsample Aggregating ('Subbagging'), Logarithmic Split-Point Sampling and Dynamic Restricted Subspacing. Moreover, detailed testing of Subbagging sizes has found an optimal scalar delivering a positive mix of processing performance and accuracy.
翻訳日:2022-12-16 05:44:34 公開日:2020-04-06
# 学生のt-priorを用いた変分オートエンコーダ

Variational auto-encoders with Student's t-prior ( http://arxiv.org/abs/2004.02581v1 )

ライセンス: Link先を確認
Najmeh Abiri and Mattias Ohlsson(参考訳) 本稿では,可変オートエンコーダ(vaes, variational auto-encoders, 変分オートエンコーダ)の事前構造を提案する。 提案モデルでは,すべての分布パラメータをトレーニングすることで,基礎となるデータ分布をより頑健に近似することができる。 提案するvaesと標準gaussian priorsを比較するために,fashion-mnistデータを用いて2つの実験を行った。 どちらの実験も学生のt-prior分布を用いたvaesによる画像再構成が良好であった。

We propose a new structure for the variational auto-encoders (VAEs) prior, with the weakly informative multivariate Student's t-distribution. In the proposed model all distribution parameters are trained, thereby allowing for a more robust approximation of the underlying data distribution. We used Fashion-MNIST data in two experiments to compare the proposed VAEs with the standard Gaussian priors. Both experiments showed a better reconstruction of the images with VAEs using Student's t-prior distribution.
翻訳日:2022-12-16 05:43:20 公開日:2020-04-06
# 広範囲欠落データ問題における雑音除去オートエンコーダの強いインプテーション性能の確立

Establishing strong imputation performance of a denoising autoencoder in a wide range of missing data problems ( http://arxiv.org/abs/2004.02584v1 )

ライセンス: Link先を確認
Najmeh Abiri, Bj\"orn Linse, Patrik Ed\'en and Mattias Ohlsson(参考訳) データ分析で欠落したデータを扱うのは避けられない。 この問題に対処する強力なインプテーションメソッドは存在するが、改善の余地はまだたくさんある。 本研究では,ディープラーニングが有効なデータセットを効率的に抽出する上での明らかな成功を動機とする,深層オートエンコーダに基づく単一インプテーションについて検討した。 トレーニングと計算の両方に一貫したフレームワークを開発しました。 さらに,データサイズや特性の異なるインプテーション手法に対して,結果のベンチマークを行った。 この作業は1タイプの変数データセットに限らず、バイナリ、カテゴリ、連続的な属性の組み合わせなど、欠落したデータをマルチタイプの変数でインプットしました。 インプテーション法を評価するために, 不正の程度を異にしつつ, 完全なデータをランダムに破壊し, インプテーション値と原値を比較した。 すべての実験において、開発したオートエンコーダは、初期データのあらゆる範囲で最小の誤差を得た。

Dealing with missing data in data analysis is inevitable. Although powerful imputation methods that address this problem exist, there is still much room for improvement. In this study, we examined single imputation based on deep autoencoders, motivated by the apparent success of deep learning to efficiently extract useful dataset features. We have developed a consistent framework for both training and imputation. Moreover, we benchmarked the results against state-of-the-art imputation methods on different data sizes and characteristics. The work was not limited to the one-type variable dataset; we also imputed missing data with multi-type variables, e.g., a combination of binary, categorical, and continuous attributes. To evaluate the imputation methods, we randomly corrupted the complete data, with varying degrees of corruption, and then compared the imputed and original values. In all experiments, the developed autoencoder obtained the smallest error for all ranges of initial data corruption.
翻訳日:2022-12-16 05:43:10 公開日:2020-04-06
# Degree:メッセージパッシングフレームワークにおけるグラフ畳み込みネットワークの比較

Let's Agree to Degree: Comparing Graph Convolutional Networks in the Message-Passing Framework ( http://arxiv.org/abs/2004.02593v1 )

ライセンス: Link先を確認
Floris Geerts, Filip Mazowiecki and Guillermo A. P\'erez(参考訳) 本稿では,グラフ上に定義されたニューラルネットワークをメッセージパッシングニューラルネットワーク(MPNN)としてキャストし,これらのモデルの異なるクラスの識別能力について検討する。 私たちは、グラフの入力として与えられる特徴ラベルに基づいて、あるアーキテクチャが頂点を区別できるかどうかに興味を持っています。 我々は,メッセージ関数が関連する頂点のラベルのみに依存する匿名mpnnと,メッセージ関数が頂点の程度に関する情報を付加できる程度認識mpnnの2つの変種を検討した。 グラフニューラルネットワーク(GNN)は、グラフ上の関数を計算するための一般的な形式である。 後者は、KipfとWellingによって最近導入されたGNNの変種GCN(Graph Convolutional Network)をカバーしている。 Wesfeiler-Lehman (WL)アルゴリズムの差分パワーの観点から,MPNNの差分パワーの下位値と上位値を求める。 私たちの結果は (i)GCNの識別能力はWLアルゴリズムによって制限されるが、それらは一歩前進している。 (II) WLアルゴリズムは「プレーンバニラ」GCNではシミュレートできないが、頂点の特徴と近隣(キップフとウェリング自身によって提案されている)の特徴との間のトレードオフパラメータの追加によりこの問題は解決される。

In this paper we cast neural networks defined on graphs as message-passing neural networks (MPNNs) in order to study the distinguishing power of different classes of such models. We are interested in whether certain architectures are able to tell vertices apart based on the feature labels given as input with the graph. We consider two variants of MPNNS: anonymous MPNNs whose message functions depend only on the labels of vertices involved; and degree-aware MPNNs in which message functions can additionally use information regarding the degree of vertices. The former class covers a popular formalisms for computing functions on graphs: graph neural networks (GNN). The latter covers the so-called graph convolutional networks (GCNs), a recently introduced variant of GNNs by Kipf and Welling. We obtain lower and upper bounds on the distinguishing power of MPNNs in terms of the distinguishing power of the Weisfeiler-Lehman (WL) algorithm. Our results imply that (i) the distinguishing power of GCNs is bounded by the WL algorithm, but that they are one step ahead; (ii) the WL algorithm cannot be simulated by "plain vanilla" GCNs but the addition of a trade-off parameter between features of the vertex and those of its neighbours (as proposed by Kipf and Welling themselves) resolves this problem.
翻訳日:2022-12-16 05:42:56 公開日:2020-04-06
# AIは統計に戻すか? β変分オートエンコーダによる不定値分布の座標系の発見

AI Giving Back to Statistics? Discovery of the Coordinate System of Univariate Distributions by Beta Variational Autoencoder ( http://arxiv.org/abs/2004.02687v1 )

ライセンス: Link先を確認
Alex Glushkovsky(参考訳) 分布は基本的な統計的要素であり、理論的および実践的な役割を担っている。 本稿では、単変量的経験分布を分類し、累積分布関数(CDF)の入力に基づいて2次元潜在空間を歪曲させるニューラルネットワークのトレーニング経験について述べる。 潜在空間表現は教師なしのベータ変分オートエンコーダ(beta-vae)を用いて行われている。 類似した形状を重ね合わせながら異なる形状の分布を分離し、理論的に知られている分布間の関係を経験的に実現する。 単変量連続および離散(ベルヌーリ)分布の様々な試料サイズとパラメータによる合成実験を行い,本研究を支援した。 潜在2次元座標系上の表現は、CDFの形状、基礎となる理論分布とそのパラメータの分類確率、情報エントロピー、歪みなど、重要な分布特性を乱す実世界のデータの付加メタデータと見なすことができる。 エントロピーの変化は「時間の幅」を提供し、潜在空間上の分布の表現に沿った動的な軌跡を決定する。 さらに, 後部および標準等方性2次元正規密度の重み付け(WOE)に基づく潜伏空間のβ-VAE非教師セグメンテーションを適用し, 例外CDF入力を区別するアサイン可能な原因の存在を検出する。

Distributions are fundamental statistical elements that play essential theoretical and practical roles. The article discusses experiences of training neural networks to classify univariate empirical distributions and to represent them on the two-dimensional latent space forcing disentanglement based on the inputs of cumulative distribution functions (CDF). The latent space representation has been performed using an unsupervised beta variational autoencoder (beta-VAE). It separates distributions of different shapes while overlapping similar ones and empirically realises relationships between distributions that are known theoretically. The synthetic experiment of generated univariate continuous and discrete (Bernoulli) distributions with varying sample sizes and parameters has been performed to support the study. The representation on the latent two-dimensional coordinate system can be seen as an additional metadata of the real-world data that disentangles important distribution characteristics, such as shape of the CDF, classification probabilities of underlying theoretical distributions and their parameters, information entropy, and skewness. Entropy changes, providing an "arrow of time", determine dynamic trajectories along representations of distributions on the latent space. In addition, post beta-VAE unsupervised segmentation of the latent space based on weight-of-evidence (WOE) of posterior versus standard isotopic two-dimensional normal densities has been applied detecting the presence of assignable causes that distinguish exceptional CDF inputs.
翻訳日:2022-12-16 05:42:31 公開日:2020-04-06
# 準最適個別治療勧告

Near-optimal Individualized Treatment Recommendations ( http://arxiv.org/abs/2004.02772v1 )

ライセンス: Link先を確認
Haomiao Meng, Ying-Qi Zhao, Haoda Fu, Xingye Qiao(参考訳) 個別治療レコメンデーション(ITR)は、精密医療の重要な分析フレームワークである。 目的は、患者個人の特徴に基づいて適切な治療を行うことである。 機械学習の観点からは、ITR問題に対する解決策を重み付け分類問題として定式化し、推奨治療から患者が受ける平均利益を最大化することができる。 バイナリ処理とマルチカテゴリ処理の両方において、ITRに対していくつかの方法が提案されている。 実際には、複数の治療オプションを持つより柔軟な推奨が好まれる。 これは、代替個別化療法推奨 (a-itr) と呼ばれる、互いに代わりとなる、最適に近い個別化療法推奨群を得る方法を開発する動機付けとなる。 結果重み付き学習(OWL)フレームワークにおける最適A-ITRを推定する2つの手法を提案する。 これらの手法の整合性を示し、理論的に最適である勧告と推定された提案のリスクの上限を求める。 また,本手法を糖尿病患者2例に対する実データセットに適用し,本手法の有効性について検討した。 これらの数値的な研究は、提案したA-ITRフレームワークの有用性を示している。 我々は、https://github.com/menghaomiao/aitr.comで見ることができるRパッケージ aitrを開発した。

Individualized treatment recommendation (ITR) is an important analytic framework for precision medicine. The goal is to assign proper treatments to patients based on their individual characteristics. From the machine learning perspective, the solution to an ITR problem can be formulated as a weighted classification problem to maximize the average benefit that patients receive from the recommended treatments. Several methods have been proposed for ITR in both binary and multicategory treatment setups. In practice, one may prefer a more flexible recommendation with multiple treatment options. This motivates us to develop methods to obtain a set of near-optimal individualized treatment recommendations alternative to each other, called alternative individualized treatment recommendations (A-ITR). We propose two methods to estimate the optimal A-ITR within the outcome weighted learning (OWL) framework. We show the consistency of these methods and obtain an upper bound for the risk between the theoretically optimal recommendation and the estimated one. We also conduct simulation studies, and apply our methods to a real data set for Type 2 diabetic patients with injectable antidiabetic treatments. These numerical studies have shown the usefulness of the proposed A-ITR framework. We develop a R package aitr which can be found at https://github.com/menghaomiao/aitr.
翻訳日:2022-12-16 05:42:06 公開日:2020-04-06
# 自動ジョブオントロジー拡張のためのVacancy Titleの継承階層の活用

Leveraging the Inherent Hierarchy of Vacancy Titles for Automated Job Ontology Expansion ( http://arxiv.org/abs/2004.02814v1 )

ライセンス: Link先を確認
Jeroen Van Hautte, Vincent Schelstraete, Mika\"el Wornoo(参考訳) 機械学習は、オンライン採用においてずっと大きな役割を担い、世界最大の仕事プラットフォームの多くで、インテリジェントなマッチメイキングとジョブレコメンデーションに力を入れている。 しかし、メインのテキストがジョブの投稿を完全に理解するのに十分なことは滅多になく、必要となる情報の多くは肩書きに集約される。 この情報を提供するために、職種を手作りの知識ベースにマッピングするために、いくつかの組織的な取り組みがなされてきたが、これらはオンラインの空白の約60%しかカバーしていない。 我々は、新しい職種の検出に対する、純粋にデータ駆動のアプローチを導入する。 この手法は概念上シンプルで効率が良く,従来のnerベースの手法と競合する。 本手法のスタンドアロン応用は,微調整bertモデルに勝るものではないが,前処理ステップとしても適用でき,複数のアーキテクチャで精度が大幅に向上する。

Machine learning plays an ever-bigger part in online recruitment, powering intelligent matchmaking and job recommendations across many of the world's largest job platforms. However, the main text is rarely enough to fully understand a job posting: more often than not, much of the required information is condensed into the job title. Several organised efforts have been made to map job titles onto a hand-made knowledge base as to provide this information, but these only cover around 60\% of online vacancies. We introduce a novel, purely data-driven approach towards the detection of new job titles. Our method is conceptually simple, extremely efficient and competitive with traditional NER-based approaches. Although the standalone application of our method does not outperform a finetuned BERT model, it can be applied as a preprocessing step as well, substantially boosting accuracy across several architectures.
翻訳日:2022-12-16 05:36:01 公開日:2020-04-06
# 深層強化学習における特徴抽出のためのアタリゲーム生成逆ネットの利用

Using Generative Adversarial Nets on Atari Games for Feature Extraction in Deep Reinforcement Learning ( http://arxiv.org/abs/2004.02762v1 )

ライセンス: Link先を確認
Ayberk Ayd{\i}n and Elif Surer(参考訳) Deep Reinforcement Learning (DRL)は、ロボットナビゲーションやビデオゲームの自動プレイなど、いくつかの研究領域で成功している。 しかし,これらの手法は過剰な計算と環境との相互作用を必要とするため,サンプル効率の向上が必要である。 この要件の主な理由は、スパースと遅延報酬がディープニューラルネットワークの表現学習の効果的な監督を提供していないためである。 本研究では,近位政策最適化(ppo)アルゴリズムにgan(generative adversarial network)を付加することで,ネットワークにスパースや遅延報酬に頼らずに効率的な表現を学習させることにより,サンプル効率を向上させる。 その結果, DRL剤とGAN判別器を併用することにより, 高い性能が得られることがわかった。 --derin pekistirmeli ogrenme, robot navigasyonu ve otomatiklestirmis video oyunu oynama gibi arastirma alanlarinda basariyla uygulanmaktadir Ancak, Kullanilan yontemler ortam ile fazla miktarda etkilesim ve hesaplama gerektirmekte ve bu nedenle de ornek verimliligi yonunden iyilestirmelere ihtiyac duyulmaktadir。 ニデニ・ブ・ゲレクシーニミン・エネムリ・ネデニ,gecikmeli ve seyrek odul sinyallerin derin yapay sinir aglarinin etkili betimlemeler ogrenebilmesi icin yeterli bir denetim saglayamamasidir Bu calismada, Proksimal Politika Optimizasyonu algoritmasi Uretici Cekismeli Aglar (UCA) ile desteklenerek derin yapay sinir aglarinin seyrek ve gecikmeli odul sinyallerine bagimli olmaksizin etkili betimlemeler ogrenmesi tesilmektedir Elde edilen sonuclar onerilen algoritmanin ornek verimliliginde artis elde ettigini gostermektedir。

Deep Reinforcement Learning (DRL) has been successfully applied in several research domains such as robot navigation and automated video game playing. However, these methods require excessive computation and interaction with the environment, so enhancements on sample efficiency are required. The main reason for this requirement is that sparse and delayed rewards do not provide an effective supervision for representation learning of deep neural networks. In this study, Proximal Policy Optimization (PPO) algorithm is augmented with Generative Adversarial Networks (GANs) to increase the sample efficiency by enforcing the network to learn efficient representations without depending on sparse and delayed rewards as supervision. The results show that an increased performance can be obtained by jointly training a DRL agent with a GAN discriminator. ---- Derin Pekistirmeli Ogrenme, robot navigasyonu ve otomatiklestirilmis video oyunu oynama gibi arastirma alanlarinda basariyla uygulanmaktadir. Ancak, kullanilan yontemler ortam ile fazla miktarda etkilesim ve hesaplama gerektirmekte ve bu nedenle de ornek verimliligi yonunden iyilestirmelere ihtiyac duyulmaktadir. Bu gereksinimin en onemli nedeni, gecikmeli ve seyrek odul sinyallerinin derin yapay sinir aglarinin etkili betimlemeler ogrenebilmesi icin yeterli bir denetim saglayamamasidir. Bu calismada, Proksimal Politika Optimizasyonu algoritmasi Uretici Cekismeli Aglar (UCA) ile desteklenerek derin yapay sinir aglarinin seyrek ve gecikmeli odul sinyallerine bagimli olmaksizin etkili betimlemeler ogrenmesi tesvik edilmektedir. Elde edilen sonuclar onerilen algoritmanin ornek verimliliginde artis elde ettigini gostermektedir.
翻訳日:2022-12-16 05:34:20 公開日:2020-04-06
# 多目的RLとしての固有探査

Intrinsic Exploration as Multi-Objective RL ( http://arxiv.org/abs/2004.02380v1 )

ライセンス: Link先を確認
Philippe Morere and Fabio Ramos(参考訳) 内在的モチベーションにより、強化学習(RL)エージェントは報酬が非常に少ないときに探索できるようになり、ボルツマンやe-greedyのような伝統的な探索ヒューリスティックは一般的に失敗する。 しかし、本質的な探索は一般に、学習過程の中核的な目的として探索が扱われないアドホックな方法で扱われ、この弱い定式化は、準最適探索性能をもたらす。 そこで本研究では,探索と搾取の両方を別々の目的として最適化した多目的rlに基づくフレームワークを提案する。 この定式化は、政策レベルでの探索と搾取のバランスをもたらし、従来の方法よりも有利になる。 これにより、学習中の探索を余分なコストなしで制御できる。 このような戦略は、それまでは古典的あるいは本質的な報酬で達成できなかったエージェント探索をある程度制御する。 我々は,我々の枠組みに基づく手法(EMU-Q)を提示し,より高い値関数の不確実性のある領域への探索を導くことによって,連続状態-作用空間へのスケーラビリティを示す。 EMU-Qは、連続制御ベンチマークやロボットマニピュレータ上で、古典的な探査手法や他の固有のRL法よりも優れていることが実験的に示されている。

Intrinsic motivation enables reinforcement learning (RL) agents to explore when rewards are very sparse, where traditional exploration heuristics such as Boltzmann or e-greedy would typically fail. However, intrinsic exploration is generally handled in an ad-hoc manner, where exploration is not treated as a core objective of the learning process; this weak formulation leads to sub-optimal exploration performance. To overcome this problem, we propose a framework based on multi-objective RL where both exploration and exploitation are being optimized as separate objectives. This formulation brings the balance between exploration and exploitation at a policy level, resulting in advantages over traditional methods. This also allows for controlling exploration while learning, at no extra cost. Such strategies achieve a degree of control over agent exploration that was previously unattainable with classic or intrinsic rewards. We demonstrate scalability to continuous state-action spaces by presenting a method (EMU-Q) based on our framework, guiding exploration towards regions of higher value-function uncertainty. EMU-Q is experimentally shown to outperform classic exploration techniques and other intrinsic RL methods on a continuous control benchmark and on a robotic manipulator.
翻訳日:2022-12-16 05:33:26 公開日:2020-04-06
# tsinsight:時系列データの解釈性のための局所的グローバル帰属フレームワーク

TSInsight: A local-global attribution framework for interpretability in time-series data ( http://arxiv.org/abs/2004.02958v1 )

ライセンス: Link先を確認
Shoaib Ahmed Siddiqui, Dominique Mercier, Andreas Dengel, Sheraz Ahmed(参考訳) 安全クリティカルなシナリオにおける深層学習手法の採用の増加に伴い、解釈可能性はこれまで以上に不可欠である。 可読性に関する多くの異なる方向が視覚的なモダリティのために研究されているが、時系列データは、その知性が低いため、ほんの一握りの方法で無視されている。 分類器に自動エンコーダを付け,その出力にスパーシティ誘導ノルムを付加し,分類器の勾配と復元ペナルティに基づいて微調整することで,新たな解釈可能性の問題にアプローチする。 TSInsightは、分類器による予測に重要な特徴を保存することを学び、無関係な特徴を抑圧する。 他のほとんどのアトリビューションフレームワークとは対照的に、tsinsightはインスタンスベースとモデルベースの説明の両方を生成することができる。 8種類の時系列データセット上でtsinsightを,他の9種類の帰属法とともに評価し,その有効性を検証した。 評価の結果,tsinsightは自然に出力空間の縮小を実現するため,深部時系列モデルの解釈に有効なツールであることがわかった。

With the rise in the employment of deep learning methods in safety-critical scenarios, interpretability is more essential than ever before. Although many different directions regarding interpretability have been explored for visual modalities, time-series data has been neglected with only a handful of methods tested due to their poor intelligibility. We approach the problem of interpretability in a novel way by proposing TSInsight where we attach an auto-encoder to the classifier with a sparsity-inducing norm on its output and fine-tune it based on the gradients from the classifier and a reconstruction penalty. TSInsight learns to preserve features that are important for prediction by the classifier and suppresses those that are irrelevant i.e. serves as a feature attribution method to boost interpretability. In contrast to most other attribution frameworks, TSInsight is capable of generating both instance-based and model-based explanations. We evaluated TSInsight along with 9 other commonly used attribution methods on 8 different time-series datasets to validate its efficacy. Evaluation results show that TSInsight naturally achieves output space contraction, therefore, is an effective tool for the interpretability of deep time-series models.
翻訳日:2022-12-16 05:27:32 公開日:2020-04-06
# SHOP-VRB:オブジェクト認識のためのビジュアル推論ベンチマーク

SHOP-VRB: A Visual Reasoning Benchmark for Object Perception ( http://arxiv.org/abs/2004.02673v1 )

ライセンス: Link先を確認
Michal Nazarczuk and Krystian Mikolajczyk(参考訳) 本稿では,ロボット応用,特に小型物体の把持と操作における視覚推論のアプローチとベンチマークについて述べる。 アプローチとベンチマークは、ビジュアルデータとテキストデータからオブジェクトプロパティを推測することに焦点を当てている。 それは、その特性、機能、自然言語記述、および視覚的推論クエリのためのクェリ・アンワーペアと対応するシーン意味表現を持つ、小さな家庭用オブジェクトに関するものである。 また、他のオブジェクトやシーンにベンチマークを拡張可能な合成データを生成する方法を提案し、既存のデータセットよりも難しい評価プロトコルを提案する。 シンボリックプログラム実行に基づく推論システムを提案する。 視覚入力とテキスト入力の絡み合った表現を求め、アルゴリズムの「合理化プロセス」を表すシンボリックプログラムの実行に用いる。 提案したベンチマークで一連の実験を行い,その結果と比較した。 これらの結果は、視覚的推論システムの実際の性能に関する誤解を招く可能性のある既存のベンチマークの欠点を明らかにする。

In this paper we present an approach and a benchmark for visual reasoning in robotics applications, in particular small object grasping and manipulation. The approach and benchmark are focused on inferring object properties from visual and text data. It concerns small household objects with their properties, functionality, natural language descriptions as well as question-answer pairs for visual reasoning queries along with their corresponding scene semantic representations. We also present a method for generating synthetic data which allows to extend the benchmark to other objects or scenes and propose an evaluation protocol that is more challenging than in the existing datasets. We propose a reasoning system based on symbolic program execution. A disentangled representation of the visual and textual inputs is obtained and used to execute symbolic programs that represent a 'reasoning process' of the algorithm. We perform a set of experiments on the proposed benchmark and compare to results for the state of the art methods. These results expose the shortcomings of the existing benchmarks that may lead to misleading conclusions on the actual performance of the visual reasoning systems.
翻訳日:2022-12-16 05:26:10 公開日:2020-04-06
# 移民ゲームにおけるオープンエンド進化条件

Conditions for Open-Ended Evolution in Immigration Games ( http://arxiv.org/abs/2004.02720v1 )

ライセンス: Link先を確認
Peter D. Turney(参考訳) 移民ゲーム(1971年にドン・ウッズが発明)は、ソリティア・ゲーム・オブ・ライフ(1970年にジョン・コンウェイが発明)を拡張して、2人のプレイヤーの競争を可能にした。 移民ゲームは自然選択による進化のモデルで使用することができ、競争によってフィットネスが測定される。 ゲーム・オブ・ライフのルールは262,144人の家族である半自然主義的なルールのファミリーに属する。 ゲーム・オブ・ライフを2人プレイヤゲームに変換するウッズは、セミトリズムルールのファミリーの8,192人に一般化する。 本稿では,最初のImmigration Game the Life Immigration Gameと呼び,8,192の一般化ゲーム(Life Immigration Gameを含む)と呼ぶ。 ここでは、オープンエンドの進化をモデル化するのに適した8,192の移民ゲームのうちの1つに、どのような条件があるのかを問う。 ここでは、進化モデルの他の側面の条件とは対照的に、ルールの条件に特に焦点を当てています。 前回の研究では、生命のゲームにおけるルールのチューリング完全性が、生命の移民ゲームを用いた進化の成功に必要であったと推測された。 ここでは, チューリング完全性は移民ゲーム規則上十分条件であるが, 必要条件ではないことを示す。 この証拠は、オープンエンド進化のために、移民競技のルールに必要かつ十分な条件は、このルールが成長を許容するべきであることを示唆している。

The Immigration Game (invented by Don Woods in 1971) extends the solitaire Game of Life (invented by John Conway in 1970) to enable two-player competition. The Immigration Game can be used in a model of evolution by natural selection, where fitness is measured with competitions. The rules for the Game of Life belong to the family of semitotalistic rules, a family with 262,144 members. Woods' method for converting the Game of Life into a two-player game generalizes to 8,192 members of the family of semitotalistic rules. In this paper, we call the original Immigration Game the Life Immigration Game and we call the 8,192 generalizations Immigration Games (including the Life Immigration Game). The question we examine here is, what are the conditions for one of the 8,192 Immigration Games to be suitable for modeling open-ended evolution? Our focus here is specifically on conditions for the rules, as opposed to conditions for other aspects of the model of evolution. In previous work, it was conjectured that Turing-completeness of the rules for the Game of Life may have been necessary for the success of evolution using the Life Immigration Game. Here we present evidence that Turing-completeness is a sufficient condition on the rules of Immigration Games, but not a necessary condition. The evidence suggests that a necessary and sufficient condition on the rules of Immigration Games, for open-ended evolution, is that the rules should allow growth.
翻訳日:2022-12-16 05:25:00 公開日:2020-04-06
# Light3DPose:複数視点からのリアルタイムマルチパーソン3D PoseEstimation

Light3DPose: Real-time Multi-Person 3D PoseEstimation from Multiple Views ( http://arxiv.org/abs/2004.02688v1 )

ライセンス: Link先を確認
Alessio Elmi, Davide Mazzini and Pietro Tortella(参考訳) いくつかのキャリブレーションされたカメラビューから複数の人物の3次元ポーズ推定を行う手法を提案する。 我々のアーキテクチャは、最近提案された未投影層を利用して、2Dポーズ推定器のバックボーンから特徴マップを3Dシーンの包括的表現に集約する。 このような中間表現は、完全な畳み込みボリュームネットワークと復号段階によって精巧化され、サブボクセル精度で3Dスケルトンを抽出する。 提案手法は,CMU Panoptic データセット上でのMPJPEの状態をいくつかの未知のビューを用いて実現し,単一の入力ビューでも競合する結果を得る。 また、優れたパフォーマンスメトリクスを得るための公開の棚データセットに対してテストすることで、モデルの転送学習能力を評価する。 提案手法は本質的に効率的であり, 純粋なボトムアップ手法として, 現場の人数から計算的に独立している。 さらに、2D部分の計算負荷は入力ビューの数とともに線形にスケールするが、全体的なアーキテクチャは、ボリュームよりも桁違いに高速な非常に軽量な2Dバックボーンを利用することができ、高速な推論時間が得られる。 このシステムは6FPSで動作し、1080TiのGPUで最大10台のカメラビューを処理できる。

We present an approach to perform 3D pose estimation of multiple people from a few calibrated camera views. Our architecture, leveraging the recently proposed unprojection layer, aggregates feature-maps from a 2D pose estimator backbone into a comprehensive representation of the 3D scene. Such intermediate representation is then elaborated by a fully-convolutional volumetric network and a decoding stage to extract 3D skeletons with sub-voxel accuracy. Our method achieves state of the art MPJPE on the CMU Panoptic dataset using a few unseen views and obtains competitive results even with a single input view. We also assess the transfer learning capabilities of the model by testing it against the publicly available Shelf dataset obtaining good performance metrics. The proposed method is inherently efficient: as a pure bottom-up approach, it is computationally independent of the number of people in the scene. Furthermore, even though the computational burden of the 2D part scales linearly with the number of input views, the overall architecture is able to exploit a very lightweight 2D backbone which is orders of magnitude faster than the volumetric counterpart, resulting in fast inference time. The system can run at 6 FPS, processing up to 10 camera views on a single 1080Ti GPU.
翻訳日:2022-12-16 05:24:35 公開日:2020-04-06
# 繰り返し学習速度をニューラルネットワーク翻訳に適用する

Applying Cyclical Learning Rate to Neural Machine Translation ( http://arxiv.org/abs/2004.02401v1 )

ライセンス: Link先を確認
Choon Meng Lee, Jianfeng Liu, Wei Peng(参考訳) ディープラーニングネットワークのトレーニングでは、テストデータセット上でもうまく一般化可能な損失関数の良質な最小限の収束を保証することが不可欠であるにもかかわらず、最適化器と関連する学習速度は、あまり考えずに、最小限のチューニングでしばしば使用される。 コンピュータビジョン関連畳み込みネットワークとデータセットに対する循環学習率ポリシーの応用の成功から着想を得て,ニューラルマシン翻訳のためのトランスフォーマーベースのニューラルネットワークの学習に循環学習率をいかに適用できるかを考察する。 慎重に設計した実験から,オプティマイザの選択と関連する循環学習率ポリシーが,性能に大きな影響を及ぼす可能性が示唆された。 さらに,ニューラルネットワーク翻訳タスクに循環学習率を適用する際のガイドラインを確立する。 そこで,本研究では,適切なオプティマイザの選択の重要性と学習率政策の対応について認識を深めると同時に,使い易い学習率政策のさらなる研究を促したい。

In training deep learning networks, the optimizer and related learning rate are often used without much thought or with minimal tuning, even though it is crucial in ensuring a fast convergence to a good quality minimum of the loss function that can also generalize well on the test dataset. Drawing inspiration from the successful application of cyclical learning rate policy for computer vision related convolutional networks and datasets, we explore how cyclical learning rate can be applied to train transformer-based neural networks for neural machine translation. From our carefully designed experiments, we show that the choice of optimizers and the associated cyclical learning rate policy can have a significant impact on the performance. In addition, we establish guidelines when applying cyclical learning rates to neural machine translation tasks. Thus with our work, we hope to raise awareness of the importance of selecting the right optimizers and the accompanying learning rate policy, at the same time, encourage further research into easy-to-use learning rate policies.
翻訳日:2022-12-16 05:16:26 公開日:2020-04-06
# DARE:GPT-2を用いたデータ拡張関係抽出

DARE: Data Augmented Relation Extraction with GPT-2 ( http://arxiv.org/abs/2004.13845v1 )

ライセンス: Link先を確認
Yannis Papanikolaou and Andrea Pierleoni(参考訳) 実世界の関係抽出(RE)タスクは、限られたトレーニングデータやクラス不均衡の問題のために扱いにくい。 本稿では、gpt-2を適切に微調整し、特定の関係型の例を生成することにより、トレーニングデータを強化する簡易な方法であるdata augmented relation extraction(dare)を提案する。 生成されたトレーニングデータは、金のデータセットと組み合わせてBERTベースのRE分類器をトレーニングする。 一連の実験において,本手法の利点が示され,F1スコアを最大11点向上させることができた。 また、DAREは3つの広く使われているバイオメディカルREデータセットにおいて、前回の結果を平均4.7F1ポイント上回っている。

Real-world Relation Extraction (RE) tasks are challenging to deal with, either due to limited training data or class imbalance issues. In this work, we present Data Augmented Relation Extraction(DARE), a simple method to augment training data by properly fine-tuning GPT-2 to generate examples for specific relation types. The generated training data is then used in combination with the gold dataset to train a BERT-based RE classifier. In a series of experiments we show the advantages of our method, which leads in improvements of up to 11 F1 score points against a strong base-line. Also, DARE achieves new state of the art in three widely used biomedical RE datasets surpassing the previous best results by 4.7 F1 points on average.
翻訳日:2022-12-16 05:15:37 公開日:2020-04-06
# 強化学習のための一様状態抽象化

Uniform State Abstraction For Reinforcement Learning ( http://arxiv.org/abs/2004.02919v1 )

ライセンス: Link先を確認
John Burden and Daniel Kudenko(参考訳) 強化学習における学習速度を大幅に向上させるため,ポテンシャルベースリワード整形と,適切に定義された抽象知識に基づくポテンシャル関数が組み合わさった。 マルチグリッド強化学習(MultiGrid Reinforcement Learning、MRL)は、ポテンシャル関数の形でそのような抽象的な知識を、エージェントと環境との相互作用から学習できることをさらに示している。 しかし,MRLはDeep Learningではうまく機能しないという問題に直面している。 本稿では,DQN(Deep Q-Networks)のような最新のディープラーニングアルゴリズムを活用するためにMRLを拡張し改良する。 本手法によるDQN拡張は,バニラ法およびMRL法によるDQN拡張よりも,連続的な制御タスクにおいて有意に優れていた。

Potential Based Reward Shaping combined with a potential function based on appropriately defined abstract knowledge has been shown to significantly improve learning speed in Reinforcement Learning. MultiGrid Reinforcement Learning (MRL) has further shown that such abstract knowledge in the form of a potential function can be learned almost solely from agent interaction with the environment. However, we show that MRL faces the problem of not extending well to work with Deep Learning. In this paper we extend and improve MRL to take advantage of modern Deep Learning algorithms such as Deep Q-Networks (DQN). We show that DQN augmented with our approach perform significantly better on continuous control tasks than its Vanilla counterpart and DQN augmented with MRL.
翻訳日:2022-12-16 05:15:24 公開日:2020-04-06