このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201124となっている論文です。

PDF登録状況(公開日: 20201124)

TitleAuthorsAbstract論文公表日・翻訳日
# 知識グラフのための量子機械学習アルゴリズム

Quantum Machine Learning Algorithm for Knowledge Graphs ( http://arxiv.org/abs/2001.01077v2 )

ライセンス: Link先を確認
Yunpu Ma and Volker Tresp(参考訳) 意味的知識グラフは、知識表現と推論のための大規模トリプル指向データベースである。 暗黙の知識は、知識グラフから生成されるテンソル表現のモデル化と再構成によって推測できる。 しかし、知識グラフのサイズが拡大し続ければ、古典的モデリングは計算資源の集約化が進む。 本稿では,知識グラフのモデリングを高速化するために,量子資源をどのように活用するかを検討する。 特に,知識グラフ上のテンソル化データに対する推論を行うための,最初の量子機械学習アルゴリズムを提案する。 ほとんどのテンソル問題はNPハードであるため、そのタスクをサポートするために量子アルゴリズムを考案することは困難である。 我々は,知識グラフのテンソル表現は,その低ランクテンソル特異値分解によって近似できる,という説得力のある仮定を行い,この問題を単純化する。 提案するサンプリングに基づく量子アルゴリズムは,知識グラフテンソルの次元における多対数ランタイムによる指数的高速化を実現する。

Semantic knowledge graphs are large-scale triple-oriented databases for knowledge representation and reasoning. Implicit knowledge can be inferred by modeling and reconstructing the tensor representations generated from knowledge graphs. However, as the sizes of knowledge graphs continue to grow, classical modeling becomes increasingly computational resource intensive. This paper investigates how quantum resources can be capitalized to accelerate the modeling of knowledge graphs. In particular, we propose the first quantum machine learning algorithm for making inference on tensorized data, e.g., on knowledge graphs. Since most tensor problems are NP-hard, it is challenging to devise quantum algorithms to support that task. We simplify the problem by making a plausible assumption that the tensor representation of a knowledge graph can be approximated by its low-rank tensor singular value decomposition, which is verified by our experiments. The proposed sampling-based quantum algorithm achieves exponential speedup with a runtime that is polylogarithmic in the dimension of knowledge graph tensor.
翻訳日:2023-01-14 12:40:41 公開日:2020-11-24
# 隠れ変数を持つ観測データにおける因果クエリ

Causal query in observational data with hidden variables ( http://arxiv.org/abs/2001.10269v4 )

ライセンス: Link先を確認
Debo Cheng (1), Jiuyong Li (1), Lin Liu (1), Jixue Liu (1), Kui Yu (2), and Thuc Duy Le (1) ((1) School of Information Technology and Mathematical Sciences, University of South Australia (2) School of Computer Science and Information Engineering, Hefei University of Technology)(参考訳) 本稿では,隠れ変数を持つ観測データにおける因果クエリの問題について議論し,操作変数と結果に影響を及ぼす妥当な共起変数のセットを与えられた上で,変数を"操作"する際の結果の変化を求める。 操作変数の因果効果を推定する「データの実験」は、履歴データを用いた実験設計の検証や、新しい関係を研究する際の共同設立者の探索に有用である。 しかし、因果効果推定のための既存のデータ駆動手法は、高次元データによるスケーラビリティの低さ、グローバル因果構造学習アルゴリズムが用いたヒューリスティックスによる推定精度の低さ、データ中に隠れ変数が避けられない場合に因果効果の仮定など、いくつかの大きな課題に直面している。 本稿では,局所探索を用いて実測データから因果効果を推定するための適応変数のスーパーセット(あるいはコンバウンディング)を求める定理を,現実的な前処理仮定の下で開発する。 この定理は、調整変数のスーパーセットによって推定される因果効果の集合に因果効果の偏りのない推定が入ることを保証する。 開発した定理に基づき,因果検索のためのデータ駆動型アルゴリズムを提案する。 実験により,提案アルゴリズムは隠れ変数を持つ既存のデータ駆動因果効果推定法よりも高速で,因果効果を推定できることがわかった。 提案アルゴリズムにより推定される因果効果は,ドメイン知識を用いた最先端手法と同等に正確である。

This paper discusses the problem of causal query in observational data with hidden variables, with the aim of seeking the change of an outcome when "manipulating" a variable while given a set of plausible confounding variables which affect the manipulated variable and the outcome. Such an "experiment on data" to estimate the causal effect of the manipulated variable is useful for validating an experiment design using historical data or for exploring confounders when studying a new relationship. However, existing data-driven methods for causal effect estimation face some major challenges, including poor scalability with high dimensional data, low estimation accuracy due to heuristics used by the global causal structure learning algorithms, and the assumption of causal sufficiency when hidden variables are inevitable in data. In this paper, we develop a theorem for using local search to find a superset of the adjustment (or confounding) variables for causal effect estimation from observational data under a realistic pretreatment assumption. The theorem ensures that the unbiased estimate of causal effect is included in the set of causal effects estimated by the superset of adjustment variables. Based on the developed theorem, we propose a data-driven algorithm for causal query. Experiments show that the proposed algorithm is faster and produces better causal effect estimation than an existing data-driven causal effect estimation method with hidden variables. The causal effects estimated by the proposed algorithm are as accurate as those by the state-of-the-art methods using domain knowledge.
翻訳日:2023-01-06 01:57:00 公開日:2020-11-24
# 量子統計クエリ学習

Quantum statistical query learning ( http://arxiv.org/abs/2002.08240v2 )

ライセンス: Link先を確認
Srinivasan Arunachalam, Alex B. Grilo, Henry Yuen(参考訳) 本稿では,Kearns氏が導入したSQ学習モデルを拡張した量子統計学習QSQモデルを提案する。 我々のモデルは、量子PAC学習モデルの制約と見なすこともできる: ここでは、学習者は量子サンプルに直接アクセスするわけではなく、その上での測定統計の見積しか取得できない。 理論的には、このモデルは、機械学習における量子例のパワーを探求する単純かつ表現力のある設定を提供する。 実用の観点からは、より単純な操作が必要であるため、QSQモデルの学習アルゴリズムは、短期量子デバイスの実装においてより実現可能である。 我々はQSQ学習モデルについて多くの結果を示した。 まず, パリティ関数, (log n)-juntas および多項式サイズの dnf 公式が qsq モデルにおいて効率的に学習可能であることを示す。 このことは、より制限された量子sq学習モデルでも量子pac学習の利点の多くを実現できることを意味する。 WSQDIM(C)で表される弱い統計的クエリ次元は、古典的なSQモデルにおける概念クラスCの学習の複雑さを特徴付けることはよく知られている。 我々は,log(wsqdim(c)) が qsq 学習の複雑性に対する下限であること,さらにある概念クラス c に対して厳しいこと,さらに,この量が製品分布下での小バイアス量子通信モデルに対して強い下限を与えることを示した。 最後に、量子pac学習者が微分的にプライベートである必要があるプライベート量子pac学習の概念を紹介する。 量子プライベートPACモデルにおいて,QSQモデルの学習性は学習性を意味することを示す。 さらに,プライベートpac学習環境では,古典的および量子的サンプルの複雑度が一定因子まで等しくなっていることを示す。

We propose a learning model called the quantum statistical learning QSQ model, which extends the SQ learning model introduced by Kearns to the quantum setting. Our model can be also seen as a restriction of the quantum PAC learning model: here, the learner does not have direct access to quantum examples, but can only obtain estimates of measurement statistics on them. Theoretically, this model provides a simple yet expressive setting to explore the power of quantum examples in machine learning. From a practical perspective, since simpler operations are required, learning algorithms in the QSQ model are more feasible for implementation on near-term quantum devices. We prove a number of results about the QSQ learning model. We first show that parity functions, (log n)-juntas and polynomial-sized DNF formulas are efficiently learnable in the QSQ model, in contrast to the classical setting where these problems are provably hard. This implies that many of the advantages of quantum PAC learning can be realized even in the more restricted quantum SQ learning model. It is well-known that weak statistical query dimension, denoted by WSQDIM(C), characterizes the complexity of learning a concept class C in the classical SQ model. We show that log(WSQDIM(C)) is a lower bound on the complexity of QSQ learning, and furthermore it is tight for certain concept classes C. Additionally, we show that this quantity provides strong lower bounds for the small-bias quantum communication model under product distributions. Finally, we introduce the notion of private quantum PAC learning, in which a quantum PAC learner is required to be differentially private. We show that learnability in the QSQ model implies learnability in the quantum private PAC model. Additionally, we show that in the private PAC learning setting, the classical and quantum sample complexities are equal, up to constant factors.
翻訳日:2022-12-30 14:38:06 公開日:2020-11-24
# ConAML:サイバー物理システムのための制約付き逆機械学習

ConAML: Constrained Adversarial Machine Learning for Cyber-Physical Systems ( http://arxiv.org/abs/2003.05631v3 )

ライセンス: Link先を確認
Jiangnan Li, Yingyuan Yang, Jinyuan Stella Sun, Kevin Tomsovic, Hairong Qi(参考訳) 最近の研究では、表向きに訓練された機械学習(ML)モデルが、敵の例に対して非常に脆弱であることが示されている。 ML技術が研究文献におけるサイバー物理システム(CPS)応用の一般的なソリューションになりつつあるため、これらのアプリケーションのセキュリティが懸念されている。 しかし、敵機械学習(AML)に関する最近の研究は主に純粋なサイバースペースドメインに焦点を当てている。 敵の例がCPSアプリケーションにもたらすリスクは、十分に調査されていない。 特に、データソースの分散性とCPSが課した固有の物理的制約のため、従来のサイバースペース研究における広く使われている脅威モデルと最先端のAMLアルゴリズムは実現不可能である。 本研究では,CPSに適用されるMLの潜在的な脆弱性について,本質的な制約を満たす逆例を生成するConstrained Adversarial Machine Learning (ConAML)を提案する。 まず、CPSにおけるAMLと既存のサイバースペースシステムにおけるAMLの違いを要約し、ConAMLの一般的な脅威モデルを提案する。 次に、線形物理制約のある逆例を反復的に生成する最善探索アルゴリズムを設計する。 電力グリッドと水処理システムの2つの典型的なcpsのシミュレーションを用いてアルゴリズムを評価する。 その結果,conamlアルゴリズムは,実際の制約下でもmlモデルの性能を著しく低下させる逆例を効果的に生成できることがわかった。

Recent research demonstrated that the superficially well-trained machine learning (ML) models are highly vulnerable to adversarial examples. As ML techniques are becoming a popular solution for cyber-physical systems (CPSs) applications in research literatures, the security of these applications is of concern. However, current studies on adversarial machine learning (AML) mainly focus on pure cyberspace domains. The risks the adversarial examples can bring to the CPS applications have not been well investigated. In particular, due to the distributed property of data sources and the inherent physical constraints imposed by CPSs, the widely-used threat models and the state-of-the-art AML algorithms in previous cyberspace research become infeasible. We study the potential vulnerabilities of ML applied in CPSs by proposing Constrained Adversarial Machine Learning (ConAML), which generates adversarial examples that satisfy the intrinsic constraints of the physical systems. We first summarize the difference between AML in CPSs and AML in existing cyberspace systems and propose a general threat model for ConAML. We then design a best-effort search algorithm to iteratively generate adversarial examples with linear physical constraints. We evaluate our algorithms with simulations of two typical CPSs, the power grids and the water treatment system. The results show that our ConAML algorithms can effectively generate adversarial examples which significantly decrease the performance of the ML models even under practical constraints.
翻訳日:2022-12-24 15:54:26 公開日:2020-11-24
# 言語間感情インテンシティ予測

Cross-lingual Emotion Intensity Prediction ( http://arxiv.org/abs/2004.04103v2 )

ライセンス: Link先を確認
Irean Navas Alejo, Toni Badia, and Jeremy Barnes(参考訳) 感情の強度予測は、著者がテキストで表現した感情の程度や強度を決定し、以前のカテゴリー的アプローチを感情検出に拡張する。 このトピックに関するこれまでのほとんどの研究は英語のテキストに集中しているが、他の言語はそれぞれの新言語で利用可能な注釈付きデータの量を再現することなく、よりきめ細かい感情分類の恩恵を受けるだろう。 その結果,スペインおよびカタルーニャのつぶやきにおける微粒な感情検出のための言語間移動手法について検討した。 この目的のために、Best-Worstスケーリングを使用して、スペインとカタルーニャのツイートのテストセットに注釈を付けました。 機械翻訳や言語間埋め込みなど,数百万の並列文から完全に教師なしに至るまで,並列データに対するさまざまな要件を持つ6つの言語間アプローチを比較した。 その結果、このデータでは、より並列データを使用するメソッドよりも、低並列データ要求のメソッドの方が驚くほど優れており、詳細なエラー解析によって説明できることがわかった。 データセットとコードは \url{https://github.com/jerbarnes/fine-fine_cross-lingual_emotion} で利用可能になります。

Emotion intensity prediction determines the degree or intensity of an emotion that the author expresses in a text, extending previous categorical approaches to emotion detection. While most previous work on this topic has concentrated on English texts, other languages would also benefit from fine-grained emotion classification, preferably without having to recreate the amount of annotated data available in English in each new language. Consequently, we explore cross-lingual transfer approaches for fine-grained emotion detection in Spanish and Catalan tweets. To this end we annotate a test set of Spanish and Catalan tweets using Best-Worst scaling. We compare six cross-lingual approaches, e.g., machine translation and cross-lingual embeddings, which have varying requirements for parallel data -- from millions of parallel sentences to completely unsupervised. The results show that on this data, methods with low parallel-data requirements perform surprisingly better than methods that use more parallel data, which we explain through an in-depth error analysis. We make the dataset and the code available at \url{https://github.com/jerbarnes/fine-grained_cross-lingual_emotion}
翻訳日:2022-12-15 08:54:49 公開日:2020-11-24
# どこで終わるのか? --物体交差制約による隠れた表面の推論

Where Does It End? -- Reasoning About Hidden Surfaces by Object Intersection Constraints ( http://arxiv.org/abs/2004.04630v3 )

ライセンス: Link先を確認
Michael Strecke and Joerg Stueckler(参考訳) ダイナミックシーン理解は、ロボット工学とVR/ARにおいて不可欠な能力である。 本稿では,交差点制約から隠れた形状情報を推定する3次元動的シーン再構成のための最適化手法であるコセクションを提案する。 オブジェクトレベルの動的SLAMフロントエンドは、シーン内の動的オブジェクトを検出し、セグメント、トラックし、マップする。 私たちの最適化バックエンドは、ハルとオブジェクト間の交叉制約を使って形状を完了します。 実験では,実・合成動的シーンデータセットへのアプローチを実証する。 また,本手法の形状完了性能を定量的に評価した。 我々の知る限りでは、エネルギー最小化フレームワークにおける動的物体の形状完備化のための物体交点にそのような物理的可視性制約を組み込むための最初の方法である。

Dynamic scene understanding is an essential capability in robotics and VR/AR. In this paper we propose Co-Section, an optimization-based approach to 3D dynamic scene reconstruction, which infers hidden shape information from intersection constraints. An object-level dynamic SLAM frontend detects, segments, tracks and maps dynamic objects in the scene. Our optimization backend completes the shapes using hull and intersection constraints between the objects. In experiments, we demonstrate our approach on real and synthetic dynamic scene datasets. We also assess the shape completion performance of our method quantitatively. To the best of our knowledge, our approach is the first method to incorporate such physical plausibility constraints on object intersections for shape completion of dynamic objects in an energy minimization framework.
翻訳日:2022-12-15 03:02:28 公開日:2020-11-24
# FKAConv: Point Cloud Convolutionのための機能カーネルアライメント

FKAConv: Feature-Kernel Alignment for Point Cloud Convolution ( http://arxiv.org/abs/2004.04462v3 )

ライセンス: Link先を確認
Alexandre Boulch, Gilles Puy, and Renaud Marlet(参考訳) 最近のポイントクラウド処理の最先端手法は、ポイント畳み込みの概念に基づいており、いくつかのアプローチが提案されている。 本稿では,画像処理における離散畳み込みに着想を得て,複数の点畳み込み法を関連付け,解析するための定式化を行う。 我々はまた、幾何学のないカーネル重み付けの推定と特徴の空間的支持へのアライメントを分離する独自の畳み込み変種も提案する。 さらに,効率的かつ迅速な畳み込みのための点サンプリング戦略を定義する。 最後に、畳み込みおよびサンプリング戦略を用いて、時間とメモリ効率を保ちながら、分類および意味セグメンテーションベンチマークの競合結果を示す。

Recent state-of-the-art methods for point cloud processing are based on the notion of point convolution, for which several approaches have been proposed. In this paper, inspired by discrete convolution in image processing, we provide a formulation to relate and analyze a number of point convolution methods. We also propose our own convolution variant, that separates the estimation of geometry-less kernel weights and their alignment to the spatial support of features. Additionally, we define a point sampling strategy for convolution that is both effective and fast. Finally, using our convolution and sampling strategy, we show competitive results on classification and semantic segmentation benchmarks while being time and memory efficient.
翻訳日:2022-12-15 02:19:09 公開日:2020-11-24
# Exemplar VAE: 生成モデルのリンク、最近傍検索、データ拡張

Exemplar VAE: Linking Generative Models, Nearest Neighbor Retrieval, and Data Augmentation ( http://arxiv.org/abs/2004.04795v3 )

ライセンス: Link先を確認
Sajad Norouzi, David J. Fleet, Mohammad Norouzi(参考訳) 本稿では,パラメトリックモデルと非パラメトリックモデルとのギャップを埋める生成モデルであるExemplar VAEを紹介する。 Exemplar VAE は、Parzen ウィンドウ推定器に基づく潜在空間における非パラメトリック先行を持つ VAE の変種である。 そこからサンプルを抽出するために、まずトレーニングセットからランダムな例を描画し、その後確率論的にその例を潜在コードに変換し、新しい観察を行う。 本研究では,潜在空間における近似近辺探索を用いて,ログ周縁確率の下限を定義する手法として,検索拡張学習(research augmented training,rat)を提案する。 一般化を強化するために、モデルパラメータはexemplar leave-one-outとsubsamplingを使って学習される。 Exemplar VAEが密度推定および表現学習に与える影響を実証した。 重要なのは、置換不変量 MNIST と Fashion MNIST におけるexemplar VAE を用いた生成データ増大は、分類誤差を 1.17% から 0.69% に減らし、8.56% から 8.16% に減らしている。

We introduce Exemplar VAEs, a family of generative models that bridge the gap between parametric and non-parametric, exemplar based generative models. Exemplar VAE is a variant of VAE with a non-parametric prior in the latent space based on a Parzen window estimator. To sample from it, one first draws a random exemplar from a training set, then stochastically transforms that exemplar into a latent code and a new observation. We propose retrieval augmented training (RAT) as a way to speed up Exemplar VAE training by using approximate nearest neighbor search in the latent space to define a lower bound on log marginal likelihood. To enhance generalization, model parameters are learned using exemplar leave-one-out and subsampling. Experiments demonstrate the effectiveness of Exemplar VAEs on density estimation and representation learning. Importantly, generative data augmentation using Exemplar VAEs on permutation invariant MNIST and Fashion MNIST reduces classification error from 1.17% to 0.69% and from 8.56% to 8.16%.
翻訳日:2022-12-15 02:01:35 公開日:2020-11-24
# 高速道路変圧器:自励型自己保護型ネットワーク

Highway Transformer: Self-Gating Enhanced Self-Attentive Networks ( http://arxiv.org/abs/2004.08178v5 )

ライセンス: Link先を確認
Yekun Chai, Shuo Jin, Xinwen Hou(参考訳) セルフアテンション機構は、様々なシーケンス学習タスクにおいて最先端(sota)の進歩をもたらし、異なる場所でのすべてのグローバルコンテキストに対応することによって、マルチヘッドのドット製品に注目されている。 擬似情報ハイウェイを通じて、LSTMスタイルのゲーティングユニットを組み込んだゲート成分自己依存ユニット(SDU)を導入し、各表現の多次元潜在空間における内部意味の重要性を補う。 補助コンテンツベースのSDUゲートは、スキップ接続を介して変調された潜伏埋め込みの情報フローを可能にし、勾配降下アルゴリズムによる収束速度の明確なマージンとなる。 我々は,sduゲート,特に浅層層において,最適化プロセス中の最適点への進路を早めることを想定して,コンテキストベースのトランスフォーマーモジュールを支援するゲーティング機構の役割を明らかにしたい。

Self-attention mechanisms have made striking state-of-the-art (SOTA) progress in various sequence learning tasks, standing on the multi-headed dot product attention by attending to all the global contexts at different locations. Through a pseudo information highway, we introduce a gated component self-dependency units (SDU) that incorporates LSTM-styled gating units to replenish internal semantic importance within the multi-dimensional latent space of individual representations. The subsidiary content-based SDU gates allow for the information flow of modulated latent embeddings through skipped connections, leading to a clear margin of convergence speed with gradient descent algorithms. We may unveil the role of gating mechanism to aid in the context-based Transformer modules, with hypothesizing that SDU gates, especially on shallow layers, could push it faster to step towards suboptimal points during the optimization process.
翻訳日:2022-12-12 10:14:54 公開日:2020-11-24
# インダクティブプログラム合成のための知識リファクタリング

Knowledge Refactoring for Inductive Program Synthesis ( http://arxiv.org/abs/2004.09931v3 )

ライセンス: Link先を確認
Sebastijan Dumancic and Tias Guns and Andrew Cropper(参考訳) 人間は常に知識を再構築し、より効率的に使用する。 私たちの目標は、より効率的に学習できるように、機械学習システムに似た能力を提供することです。 そこでは,学習者の知識基盤を再構築して,そのサイズを小さくし,冗長性を最小化することが目的である。 我々は、知識ベースが論理プログラムである帰納的論理プログラミングに焦点を当てる。 制約最適化を用いてリファクタリング問題を解決するシステムであるKnorfを紹介する。 実世界の文字列変換とlego構造の構築という2つのプログラム誘導ドメインに対するアプローチを評価した。 実験の結果,リファクタリング知識から学習することで,予測精度が4倍に向上し,学習時間を半分に短縮できることがわかった。

Humans constantly restructure knowledge to use it more efficiently. Our goal is to give a machine learning system similar abilities so that it can learn more efficiently. We introduce the \textit{knowledge refactoring} problem, where the goal is to restructure a learner's knowledge base to reduce its size and to minimise redundancy in it. We focus on inductive logic programming, where the knowledge base is a logic program. We introduce Knorf, a system which solves the refactoring problem using constraint optimisation. We evaluate our approach on two program induction domains: real-world string transformations and building Lego structures. Our experiments show that learning from refactored knowledge can improve predictive accuracies fourfold and reduce learning times by half.
翻訳日:2022-12-11 05:45:38 公開日:2020-11-24
# ヒューマンアドバイスによる強化学習に関する調査

Reinforcement learning with human advice: a survey ( http://arxiv.org/abs/2005.11016v2 )

ライセンス: Link先を確認
Anis Najar and Mohamed Chetouani(参考訳) 本稿では,人間のアドバイスを強化学習プロセスに統合するための既存の手法の概要について述べる。 まず,学習エージェントに提供可能な様々なアドバイス形態の分類法を提案する。 次に,その意味が事前に決定されない場合のアドバイスの解釈に使用できる手法について述べる。 最後に、アドバイスを学習プロセスに統合するための様々なアプローチについてレビューする。

In this paper, we provide an overview of the existing methods for integrating human advice into a Reinforcement Learning process. We first propose a taxonomy of the different forms of advice that can be provided to a learning agent. We then describe the methods that can be used for interpreting advice when its meaning is not determined beforehand. Finally, we review different approaches for integrating advice into the learning process.
翻訳日:2022-11-30 09:16:07 公開日:2020-11-24
# オンラインVersusオフラインNTT品質:英語とドイツ語の詳細な分析

Online Versus Offline NMT Quality: An In-depth Analysis on English-German and German-English ( http://arxiv.org/abs/2006.00814v3 )

ライセンス: Link先を確認
Maha Elbayad, Michael Ustaszewski, Emmanuelle Esperan\c{c}a-Rodier, Francis Brunet Manquat, Jakob Verbeek, Laurent Besacier(参考訳) 本研究は,オフラインとオンラインのニューラルマシン翻訳アーキテクチャを比較した評価研究を行う。 Convolutional Pervasive Attention (Elbayad et al. 2018) と attention-based Transformer (Vaswani et al. 2017) の2つのシーケンス・ツー・シーケンスモデルが検討されている。 両アーキテクチャにおいて,オンライン復号化制約が翻訳品質に与える影響を,英語とドイツ語と英語のペアに対して慎重に設計した人間の評価を通じて検討する。 評価結果により、オンライン設定に移行する際の各モデルの長所と短所を特定することができる。

We conduct in this work an evaluation study comparing offline and online neural machine translation architectures. Two sequence-to-sequence models: convolutional Pervasive Attention (Elbayad et al. 2018) and attention-based Transformer (Vaswani et al. 2017) are considered. We investigate, for both architectures, the impact of online decoding constraints on the translation quality through a carefully designed human evaluation on English-German and German-English language pairs, the latter being particularly sensitive to latency constraints. The evaluation results allow us to identify the strengths and shortcomings of each model when we shift to the online setup.
翻訳日:2022-11-26 06:57:03 公開日:2020-11-24
# 再生核クレイン空間における正則化最小二乗の解析

Analysis of Regularized Least Squares in Reproducing Kernel Krein Spaces ( http://arxiv.org/abs/2006.01073v2 )

ライセンス: Link先を確認
Fanghui Liu, Lei Shi, Xiaolin Huang, Jie Yang and Johan A.K. Suykens(参考訳) 本稿では、再生カーネルKrein空間(RKKS)における不定核を持つ正規化最小二乗の漸近特性について検討する。 このような非凸正規化リスク最小化問題に対して有界超球面制約を導入することにより、この問題が球面上の閉形式を持つ大域的最適解を持ち、RKKSで近似解析が実現可能であることを理論的に証明する。 非定値内積によって引き起こされる元の正規化子について、従来の誤差分解法を変更し、行列摂動理論に基づく導入された仮説誤差の収束結果を証明し、rkkにおけるそのような正規化回帰問題の学習率を導出する。 ある条件下では、RKKSの派生学習率は、RKKSにおける正規化学習アルゴリズムの近似解析に関する最初の研究であるカーネルヒルベルト空間(RKHS)の再現と同じである。

In this paper, we study the asymptotic properties of regularized least squares with indefinite kernels in reproducing kernel Krein spaces (RKKS). By introducing a bounded hyper-sphere constraint to such non-convex regularized risk minimization problem, we theoretically demonstrate that this problem has a globally optimal solution with a closed form on the sphere, which makes approximation analysis feasible in RKKS. Regarding to the original regularizer induced by the indefinite inner product, we modify traditional error decomposition techniques, prove convergence results for the introduced hypothesis error based on matrix perturbation theory, and derive learning rates of such regularized regression problem in RKKS. Under some conditions, the derived learning rates in RKKS are the same as that in reproducing kernel Hilbert spaces (RKHS), which is actually the first work on approximation analysis of regularized learning algorithms in RKKS.
翻訳日:2022-11-26 06:39:18 公開日:2020-11-24
# 階層構造に対する等変写像

Equivariant Maps for Hierarchical Structures ( http://arxiv.org/abs/2006.03627v2 )

ライセンス: Link先を確認
Renhao Wang, Marjan Albooyeh, Siamak Ravanbakhsh(参考訳) 不変および同変写像を用いながら、深層学習を様々な原始データ構造に適用することは可能であるが、階層を扱うための形式主義は欠如している。 これは、多くの実用的な構造が単純な構成要素の階層であり、例えば集合の列、グラフのグラフ、多重解像度画像などである。 階層構造の対称性がビルディングブロックの対称性の「死積」であることを観察し、ビルディングブロックの同変線型層の直感的な組み合わせを用いて階層の同変写像を表現する。 より一般に、階層に対する任意の同変写像がこの形式を持つことを示す。 モデル設計におけるこのアプローチの有効性を実証するために,ポイントクラウドデータのセマンティックセマンティックセグメンテーションへの応用を検討する。 ポイントクラウドを酸化することにより、データに変換と置換の対称性の階層を課し、Semantic3D、S3DIS、vKITTIで最先端のポイントクラウドベンチマークを報告します。

While using invariant and equivariant maps, it is possible to apply deep learning to a range of primitive data structures, a formalism for dealing with hierarchy is lacking. This is a significant issue because many practical structures are hierarchies of simple building blocks; some examples include sequences of sets, graphs of graphs, or multiresolution images. Observing that the symmetry of a hierarchical structure is the "wreath product" of symmetries of the building blocks, we express the equivariant map for the hierarchy using an intuitive combination of the equivariant linear layers of the building blocks. More generally, we show that any equivariant map for the hierarchy has this form. To demonstrate the effectiveness of this approach to model design, we consider its application in the semantic segmentation of point-cloud data. By voxelizing the point cloud, we impose a hierarchy of translation and permutation symmetries on the data and report state-of-the-art on Semantic3D, S3DIS, and vKITTI, that include some of the largest real-world point-cloud benchmarks.
翻訳日:2022-11-25 02:31:50 公開日:2020-11-24
# 会話中の単語を数える学習でオンライン音声認識が可能に

Learning to Count Words in Fluent Speech enables Online Speech Recognition ( http://arxiv.org/abs/2006.04928v3 )

ライセンス: Link先を確認
George Sterpu, Christian Saam, Naomi Harte(参考訳) シーケンスモデル、特にトランスフォーマーへのシーケンスは、自動音声認識における技術結果の状態を達成している。 しかし、実際の使用は全発話遅延が許容される場合に限られる。 本稿では,インクリメンタル・ワード・カウンティングの補助タスクにより,トランスフォーマティブを用いたオンライン音声認識システムtarisを紹介する。 累積的な単語和を用いて音声を動的に分節し、その熱心に単語に復号できる。 LRS2、LibriSpeech、Aishell-1といった英語とマンダリンの音声のデータセットで行った実験によると、オンラインシステムは5セグメントの動的なアルゴリズム遅延がある場合、オフラインのものと同等に動作する。 さらに, 推定セグメント長分布は, 正確なセグメント間等価性は必要とせず, 強制アライメントにより得られる単語長分布に類似していることを示す。 Tarisは標準のTransformerに比べて無視できないオーバーヘッドを導入し、入力と出力の間の局所的な関係は設計によってシーケンス長に不変性を与える。

Sequence to Sequence models, in particular the Transformer, achieve state of the art results in Automatic Speech Recognition. Practical usage is however limited to cases where full utterance latency is acceptable. In this work we introduce Taris, a Transformer-based online speech recognition system aided by an auxiliary task of incremental word counting. We use the cumulative word sum to dynamically segment speech and enable its eager decoding into words. Experiments performed on the LRS2, LibriSpeech, and Aishell-1 datasets of English and Mandarin speech show that the online system performs comparable with the offline one when having a dynamic algorithmic delay of 5 segments. Furthermore, we show that the estimated segment length distribution resembles the word length distribution obtained with forced alignment, although our system does not require an exact segment-to-word equivalence. Taris introduces a negligible overhead compared to a standard Transformer, while the local relationship modelling between inputs and outputs grants invariance to sequence length by design.
翻訳日:2022-11-24 02:52:29 公開日:2020-11-24
# マルチスケール深部平衡モデル

Multiscale Deep Equilibrium Models ( http://arxiv.org/abs/2006.08656v2 )

ライセンス: Link先を確認
Shaojie Bai and Vladlen Koltun and J. Zico Kolter(参考訳) 本稿では,大規模かつ階層的なパターン認識ドメインに適した暗黙的ネットワーク,MDEQ(Multiscale Deep equilibrium Model)を提案する。 MDEQは複数の特徴分解の平衡点を同時に解決し、中間状態の保存を避けるために暗黙の微分を用いる(従ってメモリ消費は$O(1)$である)。 これらの同時学習型マルチレゾリューション機能により、画像分類とセマンティックセグメンテーションの両方を実行するために単一のMDEQを使用するなど、多様なタスクと損失関数のセットで単一のモデルを訓練することができる。 本手法は,都市景観データセットからの高解像度画像に対するイメージネット分類と意味セグメンテーションという2つの大規模ビジョンタスクにおいて有効性を示す。 どちらの環境でも、mdeqsは最近の競争力のあるコンピュータビジョンモデルのパフォーマンスをマッチさせるか、上回ることができる。 コードと事前訓練されたモデルはhttps://github.com/locuslab/mdeq にある。

We propose a new class of implicit networks, the multiscale deep equilibrium model (MDEQ), suited to large-scale and highly hierarchical pattern recognition domains. An MDEQ directly solves for and backpropagates through the equilibrium points of multiple feature resolutions simultaneously, using implicit differentiation to avoid storing intermediate states (and thus requiring only $O(1)$ memory consumption). These simultaneously-learned multi-resolution features allow us to train a single model on a diverse set of tasks and loss functions, such as using a single MDEQ to perform both image classification and semantic segmentation. We illustrate the effectiveness of this approach on two large-scale vision tasks: ImageNet classification and semantic segmentation on high-resolution images from the Cityscapes dataset. In both settings, MDEQs are able to match or exceed the performance of recent competitive computer vision models: the first time such performance and scale have been achieved by an implicit deep learning approach. The code and pre-trained models are at https://github.com/locuslab/mdeq .
翻訳日:2022-11-21 02:30:18 公開日:2020-11-24
# SE(3)変換器:3次元ロト変換等価アテンションネットワーク

SE(3)-Transformers: 3D Roto-Translation Equivariant Attention Networks ( http://arxiv.org/abs/2006.10503v3 )

ライセンス: Link先を確認
Fabian B. Fuchs, Daniel E. Worrall, Volker Fischer, Max Welling(参考訳) 連続的な3次元ロト変換の下で同変である3次元点雲とグラフに対する自己注意モジュールの変種であるSE(3)-Transformerを導入する。 等価性は、データ入力の迷惑変換の存在下で安定かつ予測可能な性能を保証するために重要である。 等分散の正の座標はモデル内の重み付けを増加させる。 SE(3)-変換器は自己アテンションの利点を利用して、大きな点の雲やグラフを様々な点数で操作し、SE(3)-等分散はロバスト性を保証する。 本研究では,n体粒子シミュレーションデータセットを用いて,入力の回転下での予測のロバスト性を示すモデルを評価する。 実世界の2つのデータセットであるScanObjectNNとQM9の競合性能をさらに向上する。 いずれの場合も、我々のモデルは強い非同変注意ベースラインと無注意同変モデルよりも優れる。

We introduce the SE(3)-Transformer, a variant of the self-attention module for 3D point clouds and graphs, which is equivariant under continuous 3D roto-translations. Equivariance is important to ensure stable and predictable performance in the presence of nuisance transformations of the data input. A positive corollary of equivariance is increased weight-tying within the model. The SE(3)-Transformer leverages the benefits of self-attention to operate on large point clouds and graphs with varying number of points, while guaranteeing SE(3)-equivariance for robustness. We evaluate our model on a toy N-body particle simulation dataset, showcasing the robustness of the predictions under rotations of the input. We further achieve competitive performance on two real-world datasets, ScanObjectNN and QM9. In all cases, our model outperforms a strong, non-equivariant attention baseline and an equivariant model without attention.
翻訳日:2022-11-19 12:49:23 公開日:2020-11-24
# テレスコープ密度比推定

Telescoping Density-Ratio Estimation ( http://arxiv.org/abs/2006.12204v2 )

ライセンス: Link先を確認
Benjamin Rhodes, Kai Xu and Michael U. Gutmann(参考訳) 分類による密度比推定は教師なし学習の基礎である。 表現学習と生成モデリングにおける最先端の手法の基礎を提供しており、ユースケースの数も増え続けている。 しかし、2つの密度が著しく異なる比 p/q を正確に見積もることができないため、決定的な限界に苦しむ。 経験的に、p と q の間の KL の発散が数十ナットを超えると、これは起こる。 この制限を解決するために、高次元空間における高相似密度の比を推定できるテレスコープ密度比推定(TRE)という新しい枠組みを導入する。 実験により、TREは、相互情報推定、表現学習、エネルギーベースモデリングにおいて、既存の単一比法よりも大幅に改善できることを示した。

Density-ratio estimation via classification is a cornerstone of unsupervised learning. It has provided the foundation for state-of-the-art methods in representation learning and generative modelling, with the number of use-cases continuing to proliferate. However, it suffers from a critical limitation: it fails to accurately estimate ratios p/q for which the two densities differ significantly. Empirically, we find this occurs whenever the KL divergence between p and q exceeds tens of nats. To resolve this limitation, we introduce a new framework, telescoping density-ratio estimation (TRE), that enables the estimation of ratios between highly dissimilar densities in high-dimensional spaces. Our experiments demonstrate that TRE can yield substantial improvements over existing single-ratio methods for mutual information estimation, representation learning and energy-based modelling.
翻訳日:2022-11-18 04:52:55 公開日:2020-11-24
# 深層強化学習によるmatch-3ビデオゲームのテスト

Testing match-3 video games with Deep Reinforcement Learning ( http://arxiv.org/abs/2007.01137v2 )

ライセンス: Link先を確認
Nicholas Napolitano(参考訳) ビデオゲームのテストは、生産プロセスにとって重要なステップであり、時間とリソースの面で大きな努力が必要です。 一部のソフトウェアハウスは、人工知能を使って人間のエージェントを置き換えるシステムを使って人的資源の必要性を減らそうとしている。 我々は,Deep Reinforcement Learning(ディープ強化学習,Deep Reinforcement Learning)を用いて,マッチ3ゲームにおけるテストプロセスを自動化する可能性を検討した。 このネットワークを,redbit gamesが開発したmatch-3ゲームであるjelly juice gameでテストした。 ネットワークはゲーム環境から必要な情報を抽出し、次の動きを推測する。 結果とランダムなプレーヤのパフォーマンスを比較して,ネットワークが最も成功率が高いことを示す。 結果が実際のユーザとほとんど同じ場合、ネットワークはゲームレベルを区別し、その戦略を困難な状況に適応するさまざまな特徴を時間とともに学習することに成功した。

Testing a video game is a critical step for the production process and requires a great effort in terms of time and resources spent. Some software houses are trying to use the artificial intelligence to reduce the need of human resources using systems able to replace a human agent. We study the possibility to use the Deep Reinforcement Learning to automate the testing process in match-3 video games and suggest to approach the problem in the framework of a Dueling Deep Q-Network paradigm. We test this kind of network on the Jelly Juice game, a match-3 video game developed by the redBit Games. The network extracts the essential information from the game environment and infers the next move. We compare the results with the random player performance, finding that the network shows a highest success rate. The results are in most cases similar with those obtained by real users, and the network also succeeds in learning over time the different features that distinguish the game levels and adapts its strategy to the increasing difficulties.
翻訳日:2022-11-15 05:31:30 公開日:2020-11-24
# 音響単語埋め込みを用いた全単語セグメント音声認識

Whole-Word Segmental Speech Recognition with Acoustic Word Embeddings ( http://arxiv.org/abs/2007.00183v2 )

ライセンス: Link先を確認
Bowen Shi, Shane Settle, Karen Livescu(参考訳) セグメントモデルは、仮説のスコアがフレームの全可変長セグメントに基づいているシーケンス予測モデルである。 セグメントのベクトル埋め込みを用いて特徴ベクトルを定義することにより,単語全体(単語間音響)音声認識のためのセグメンテーションモデルを検討する。 このようなモデルは、電話のようなサブワード単位を使用する場合よりも桁違いの大きさの語彙サイズに比例するので、計算的に困難である。 本稿では、GPU上で前向きおよびビタビ復号化を行い、空間の複雑さを低減した単純なセグメントスコアリング機能を備えた、エンドツーエンドの単語セグメントモデルの効率的なアプローチについて述べる。 さらに,共同学習された音声単語埋め込み(AWEs)と書き言葉ラベルの音響的接地単語埋め込み(AGWEs)による事前学習の利用について検討した。 AWEの音響セグメント表現を事前学習することで単語誤り率を大幅に減らすことができ、AGWEの単語予測層を事前学習することで、さらに(より小さい)ゲインを得ることができる。 最終モデルは以前のa2wモデルよりも改善されました。

Segmental models are sequence prediction models in which scores of hypotheses are based on entire variable-length segments of frames. We consider segmental models for whole-word ("acoustic-to-word") speech recognition, with the feature vectors defined using vector embeddings of segments. Such models are computationally challenging as the number of paths is proportional to the vocabulary size, which can be orders of magnitude larger than when using subword units like phones. We describe an efficient approach for end-to-end whole-word segmental models, with forward-backward and Viterbi decoding performed on a GPU and a simple segment scoring function that reduces space complexity. In addition, we investigate the use of pre-training via jointly trained acoustic word embeddings (AWEs) and acoustically grounded word embeddings (AGWEs) of written word labels. We find that word error rate can be reduced by a large margin by pre-training the acoustic segment representation with AWEs, and additional (smaller) gains can be obtained by pre-training the word prediction layer with AGWEs. Our final models improve over prior A2W models.
翻訳日:2022-11-14 23:39:09 公開日:2020-11-24
# 雑音認識正規化によるロバスト処理インメモリニューラルネットワーク

Robust Processing-In-Memory Neural Networks via Noise-Aware Normalization ( http://arxiv.org/abs/2007.03230v2 )

ライセンス: Link先を確認
Li-Huang Tsai, Shih-Chieh Chang, Yu-Ting Chen, Jia-Yu Pan, Wei Wei and Da-Cheng Juan(参考訳) プロセッシング・イン・メモリ(PIM)アクセラレーターのようなアナログコンピューティングハードウェアは、ニューラルネットワークの計算を加速するために徐々に注目を集めている。 しかしながら、PIMアクセラレータは物理的コンポーネントの固有のノイズに悩まされることが多く、ニューラルネットワークモデルがデジタルハードウェアと同じパフォーマンスを達成することは困難である。 先行研究である本質的雑音の緩和はノイズモデルに関する知識を仮定し、それに従ってニューラルネットワークを再訓練することが必要であった。 本稿では,任意の雑音に対して頑健なニューラルネットワーク性能を実現するための雑音非依存手法を提案する。 我々のキーとなる観察は、性能の劣化は、ノイズに起因するネットワーク活性化の分布シフトによるものである。 シフトを適切に追跡し、バイアス分布を校正するために、アナログ環境に固有の変動雑音下でのアクティベーションの分布を調整可能な「ノイズ認識」バッチ正規化層を提案する。 本手法は単純で実装が容易で,様々なノイズ設定が一般的であり,モデルの再トレーニングは不要である。 分類,物体検出,意味セグメンテーションなど,コンピュータビジョンにおけるいくつかのタスクについて実験を行う。 提案手法の有効性を実証し,従来の手法よりも信頼性が高く,幅広い騒音条件下で頑健な性能を実現する。 我々の単純な一般的な手法は、ニューラルネットワークに対するアナログコンピューティングデバイスの採用を促進することができると信じている。

Analog computing hardwares, such as Processing-in-memory (PIM) accelerators, have gradually received more attention for accelerating the neural network computations. However, PIM accelerators often suffer from intrinsic noise in the physical components, making it challenging for neural network models to achieve the same performance as on the digital hardware. Previous works in mitigating intrinsic noise assumed the knowledge of the noise model, and retraining the neural networks accordingly was required. In this paper, we propose a noise-agnostic method to achieve robust neural network performance against any noise setting. Our key observation is that the degradation of performance is due to the distribution shifts in network activations, which are caused by the noise. To properly track the shifts and calibrate the biased distributions, we propose a "noise-aware" batch normalization layer, which is able to align the distributions of the activations under variational noise inherent in the analog environments. Our method is simple, easy to implement, general to various noise settings, and does not need to retrain the models. We conduct experiments on several tasks in computer vision, including classification, object detection and semantic segmentation. The results demonstrate the effectiveness of our method, achieving robust performance under a wide range of noise settings, more reliable than existing methods. We believe that our simple yet general method can facilitate the adoption of analog computing devices for neural networks.
翻訳日:2022-11-12 19:06:52 公開日:2020-11-24
# オブジェクト中心生成モデルにおける再構成ボトルネック

Reconstruction Bottlenecks in Object-Centric Generative Models ( http://arxiv.org/abs/2007.06245v2 )

ライセンス: Link先を確認
Martin Engelcke, Oiwi Parker Jones, Ingmar Posner(参考訳) 画像の解釈可能なオブジェクト中心表現を監督なしで学習するために、適切な帰納的バイアスを持つ方法が存在する。 しかし、これらは主に視覚的に単純な画像に限られており、現実世界の感覚データセットにおける堅牢な物体発見はいまだに解明されていない。 このような帰納バイアスの理解を深めるために,最近のvaeモデルであるgenesisにおけるシーン分解における"再構築ボトルネック"の役割を実証的に検討する。 このようなボトルネックが再構成やセグメンテーションの質を決定づけ、モデル行動に重大な影響を及ぼすことを示す。

A range of methods with suitable inductive biases exist to learn interpretable object-centric representations of images without supervision. However, these are largely restricted to visually simple images; robust object discovery in real-world sensory datasets remains elusive. To increase the understanding of such inductive biases, we empirically investigate the role of "reconstruction bottlenecks" for scene decomposition in GENESIS, a recent VAE-based model. We show such bottlenecks determine reconstruction and segmentation quality and critically influence model behaviour.
翻訳日:2022-11-10 22:56:44 公開日:2020-11-24
# ステレオの自己適応的信頼度推定

Self-adapting confidence estimation for stereo ( http://arxiv.org/abs/2008.06447v2 )

ライセンス: Link先を確認
Matteo Poggi, Filippo Aleotti, Fabio Tosi, Giulio Zaccaroni and Stefano Mattoccia(参考訳) ステレオアルゴリズムによって推定される不一致マップの信頼度の推定は、そのような手がかりを活用するアプリケーションが増えているため、近年、非常に重要なタスクとなっている。 自己教師付き学習は最近多くのコンピュータビジョンタスクに広まっているが、信頼度推定の分野ではほとんど考慮されていない。 本稿では,ステレオアルゴリズムやネットワークに依存しない自己適応型信頼度推定を可能にする,柔軟で軽量なソリューションを提案する。 提案手法は,任意のステレオ設定(入力ステレオペアと出力不一致マップ)で利用可能な最小情報に依存し,効果的な信頼度尺度を学習する。 この戦略により、コンシューマや産業機器を含むあらゆるステレオシステムとのシームレスな統合が可能になるだけでなく、その自己適応能力により、現場でのアウト・オブ・ボックスの展開が可能になる。 異なる標準データセットによる排他的実験の結果は、私たちのソリューションが、どのようなステレオシステムにおいても、エンドユーザーにとって必要のない正確な信頼度推定のオンライン学習を可能にする最初の方法であることを示す。

Estimating the confidence of disparity maps inferred by a stereo algorithm has become a very relevant task in the years, due to the increasing number of applications leveraging such cue. Although self-supervised learning has recently spread across many computer vision tasks, it has been barely considered in the field of confidence estimation. In this paper, we propose a flexible and lightweight solution enabling self-adapting confidence estimation agnostic to the stereo algorithm or network. Our approach relies on the minimum information available in any stereo setup (i.e., the input stereo pair and the output disparity map) to learn an effective confidence measure. This strategy allows us not only a seamless integration with any stereo system, including consumer and industrial devices equipped with undisclosed stereo perception methods, but also, due to its self-adapting capability, for its out-of-the-box deployment in the field. Exhaustive experimental results with different standard datasets support our claims, showing how our solution is the first-ever enabling online learning of accurate confidence estimation for any stereo system and without any requirement for the end-user.
翻訳日:2022-10-30 17:28:19 公開日:2020-11-24
# 異常検出のための教師なし移動学習:補完動作条件伝達への応用

Unsupervised Transfer Learning for Anomaly Detection: Application to Complementary Operating Condition Transfer ( http://arxiv.org/abs/2008.07815v2 )

ライセンス: Link先を確認
Gabriel Michau and Olga Fink(参考訳) 正常な運転状態データに基づいて異常検知器を訓練し、測定したサンプルがトレーニングデータ分布から逸脱した場合に警報を発する。 つまり、モデルのトレーニングに使用するサンプルは、十分な量で、健全な運用条件を表現すべきである。 しかし, 運転条件が変化する産業システムでは, このような包括的サンプルの取得には長い収集期間が必要であり, 異常検知器の訓練や運用を遅らせる必要がある。 この問題の解決策は、異なるユニット間で補完データを転送するunsupervised transfer learning (UTL)を実行することである。 しかし、文献では、UTLはデータセット間の共通構造を見つけ、クラスタリングや次元還元を行うことを目的としている。 しかし、相補的なトレーニングデータの転送と結合に関する課題は研究されていない。 提案するフレームワークは,より堅牢な異常検出装置を訓練するための,非教師なしの方法で,異なるユニット間で補完的な動作条件を伝達するように設計されている。 したがって、一級分類問題に焦点を絞った他の教師なし転帰学習作業とは異なる。 提案手法では,他のユニットが経験する操作条件の異常を検出することができる。 提案するエンドツーエンドフレームワークでは,逆深層学習を用いて,各ユニットの分布の整合性を確保する。 このフレームワークは、次元縮小ツールにインスパイアされた新しい損失を導入し、各データセットの固有の変動可能性の保存を強制し、最先端のワンスクラスアプローチを使用して異常を検出する。 提案するフレームワークの利点を3つのオープンソースデータセットで示す。

Anomaly Detectors are trained on healthy operating condition data and raise an alarm when the measured samples deviate from the training data distribution. This means that the samples used to train the model should be sufficient in quantity and representative of the healthy operating conditions. But for industrial systems subject to changing operating conditions, acquiring such comprehensive sets of samples requires a long collection period and delay the point at which the anomaly detector can be trained and put in operation. A solution to this problem is to perform unsupervised transfer learning (UTL), to transfer complementary data between different units. In the literature however, UTL aims at finding common structure between the datasets, to perform clustering or dimensionality reduction. Yet, the task of transferring and combining complementary training data has not been studied. Our proposed framework is designed to transfer complementary operating conditions between different units in a completely unsupervised way to train more robust anomaly detectors. It differs, thereby, from other unsupervised transfer learning works as it focuses on a one-class classification problem. The proposed methodology enables to detect anomalies in operating conditions only experienced by other units. The proposed end-to-end framework uses adversarial deep learning to ensure alignment of the different units' distributions. The framework introduces a new loss, inspired by a dimensionality reduction tool, to enforce the conservation of the inherent variability of each dataset, and uses state-of-the art once-class approach to detect anomalies. We demonstrate the benefit of the proposed framework using three open source datasets.
翻訳日:2022-10-27 20:45:18 公開日:2020-11-24
# $\ell_2$-regularized Linear Estimator を用いた逆イジング問題の構造学習

Structure Learning in Inverse Ising Problems Using $\ell_2$-Regularized Linear Estimator ( http://arxiv.org/abs/2008.08342v2 )

ライセンス: Link先を確認
Xiangming Meng and Tomoyuki Obuchi and Yoshiyuki Kabashima(参考訳) また, $\ell_2$-regularized (ridge) 線形回帰を用いた場合の逆イジング問題の枠組みにおいて擬似類似化法の推論性能について考察した。 このセットアップは、データ生成モデルが推論モデルと異なる状況、すなわちモデルミスマッチ状況について理論的に調査するために導入される。 教師結合が疎いと仮定した教師/学生のシナリオでは、教師結合の存在/存在が正しく推測されているか否かに特化して、レプリカ法とキャビティ法を用いて分析を行う。 その結果、モデルミスマッチにも拘わらず、N$のスピン数がデータセットサイズ$M$よりも小さい場合、正規化なしで単純線形回帰を用いてネットワーク構造を完璧に識別できることがわかった。 さらに、未決定領域である$M < N$にアクセスするために、$\ell_2$正規化の効果を調べ、全ての結合推定値にバイアスが現れることを確認し、ネットワーク構造の完全同定を防止する。 しかし, 擬似微分法で選択された中心スピンからの距離が大きくなるにつれて, 偏差は指数関数的に急速に崩壊することがわかった。 この結果に基づき,2段階推定器を提案する。第1段階では隆起回帰を用いて比較的小さなしきい値で推定し,第2段階では負の線形回帰は残りの結合にのみ実行し,その結果は比較的大きなしきい値で再度計算する。 適切な正規化係数としきい値を持つ推定器は、$0<M/N<1$であっても、ネットワーク構造の完全同定を実現する。 広範な数値実験の結果がこれらの発見を支持している。

The inference performance of the pseudolikelihood method is discussed in the framework of the inverse Ising problem when the $\ell_2$-regularized (ridge) linear regression is adopted. This setup is introduced for theoretically investigating the situation where the data generation model is different from the inference one, namely the model mismatch situation. In the teacher-student scenario under the assumption that the teacher couplings are sparse, the analysis is conducted using the replica and cavity methods, with a special focus on whether the presence/absence of teacher couplings is correctly inferred or not. The result indicates that despite the model mismatch, one can perfectly identify the network structure using naive linear regression without regularization when the number of spins $N$ is smaller than the dataset size $M$, in the thermodynamic limit $N\to \infty$. Further, to access the underdetermined region $M < N$, we examine the effect of the $\ell_2$ regularization, and find that biases appear in all the coupling estimates, preventing the perfect identification of the network structure. We, however, find that the biases are shown to decay exponentially fast as the distance from the center spin chosen in the pseudolikelihood method grows. Based on this finding, we propose a two-stage estimator: In the first stage, the ridge regression is used and the estimates are pruned by a relatively small threshold; in the second stage the naive linear regression is conducted only on the remaining couplings, and the resultant estimates are again pruned by another relatively large threshold. This estimator with the appropriate regularization coefficient and thresholds is shown to achieve the perfect identification of the network structure even in $0<M/N<1$. Results of extensive numerical experiments support these findings.
翻訳日:2022-10-27 09:09:03 公開日:2020-11-24
# 回転同変コンボリューションの分子特性予測への応用

Relevance of Rotationally Equivariant Convolutions for Predicting Molecular Properties ( http://arxiv.org/abs/2008.08461v4 )

ライセンス: Link先を確認
Benjamin Kurt Miller, Mario Geiger, Tess E. Smidt, Frank No\'e(参考訳) 等価ニューラルネットワーク(ENN)は、$\mathbb{R}^3$に埋め込まれたグラフニューラルネットワークであり、分子特性の予測に適している。 ENNライブラリ e3nn はカスタマイズ可能な畳み込みを持ち、点間の距離や角の特徴に依存するように設計され、それぞれ回転不変または等変となる。 本稿では, 分子特性予測のための角依存性を含めることの実用的価値を, texttt{e3nn} と QM9 データセットを用いたアブレーション研究により直接検討する。 固定されたネットワーク深さとパラメータ数に対して,角的特徴を付加すると平均23%の誤差が減少した。 一方,ネットワーク深度の増大により試験誤差は平均でわずか4%減少し,回転同変層が比較的パラメータ効率が高かった。 本稿では,角的特徴の導入により最も恩恵を受けた双極子モーメントの精度向上について説明する。

Equivariant neural networks (ENNs) are graph neural networks embedded in $\mathbb{R}^3$ and are well suited for predicting molecular properties. The ENN library e3nn has customizable convolutions, which can be designed to depend only on distances between points, or also on angular features, making them rotationally invariant, or equivariant, respectively. This paper studies the practical value of including angular dependencies for molecular property prediction directly via an ablation study with \texttt{e3nn} and the QM9 data set. We find that, for fixed network depth and parameter count, adding angular features decreased test error by an average of 23%. Meanwhile, increasing network depth decreased test error by only 4% on average, implying that rotationally equivariant layers are comparatively parameter efficient. We present an explanation of the accuracy improvement on the dipole moment, the target which benefited most from the introduction of angular features.
翻訳日:2022-10-27 09:07:47 公開日:2020-11-24
# ハイパースペクトル画像分類のためのアクティブ深密結合畳み込みネットワーク

Active Deep Densely Connected Convolutional Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2009.00320v2 )

ライセンス: Link先を確認
Bing Liu, Anzhu Yu, Pengqiang Zhang, Lei Ding, Wenyue Guo, Kuiliang Gao, Xibing Zuo(参考訳) ディープラーニングに基づく手法は、ここ数年でハイパースペクトル画像分類において大きな人気を集めている。 しかし、深層学習の成功は、多くのラベル付きサンプルが原因である。 ラベル付きサンプルを数個だけ使って、ディープラーニングモデルを訓練して高い分類精度に達することは、依然として非常に難しい。 そこで本稿では,ハイパースペクトル画像分類コストを最小化するために,エンド・ツー・エンドでトレーニングしたアクティブなディープラーニングフレームワークを提案する。 まず, 超スペクトル画像分類には, 深い密結合畳み込みネットワークが考慮される。 従来の能動学習法とは異なり、入力サンプルの損失を予測するために、設計した深い密結合畳み込みネットワークに追加のネットワークを追加する。 次に、追加のネットワークを使用して、深い密結合された畳み込みネットワークが間違ったラベルを生成する可能性が高いというラベルのないサンプルを提案することができる。 追加のネットワークは、深い密結合された畳み込みネットワークの中間的特徴を入力として利用する。 したがって,提案手法はエンドツーエンドのフレームワークである。 その後、選択されたサンプルのいくつかを手動でラベル付けし、トレーニングサンプルに追加する。 したがって、深い密結合された畳み込みネットワークは、新しいトレーニングセットを使用して訓練される。 最後に、上記のステップを繰り返してフレームワーク全体を反復的にトレーニングする。 広範な実験により,提案手法は数試料のみを選択した後に高い精度で分類できることが示されている。

Deep learning based methods have seen a massive rise in popularity for hyperspectral image classification over the past few years. However, the success of deep learning is attributed greatly to numerous labeled samples. It is still very challenging to use only a few labeled samples to train deep learning models to reach a high classification accuracy. An active deep-learning framework trained by an end-to-end manner is, therefore, proposed by this paper in order to minimize the hyperspectral image classification costs. First, a deep densely connected convolutional network is considered for hyperspectral image classification. Different from the traditional active learning methods, an additional network is added to the designed deep densely connected convolutional network to predict the loss of input samples. Then, the additional network could be used to suggest unlabeled samples that the deep densely connected convolutional network is more likely to produce a wrong label. Note that the additional network uses the intermediate features of the deep densely connected convolutional network as input. Therefore, the proposed method is an end-to-end framework. Subsequently, a few of the selected samples are labelled manually and added to the training samples. The deep densely connected convolutional network is therefore trained using the new training set. Finally, the steps above are repeated to train the whole framework iteratively. Extensive experiments illustrates that the method proposed could reach a high accuracy in classification after selecting just a few samples.
翻訳日:2022-10-23 01:29:41 公開日:2020-11-24
# スパース回帰における条件付き不一致と非近似サブセット選択

Conditional Uncorrelation and Efficient Non-approximate Subset Selection in Sparse Regression ( http://arxiv.org/abs/2009.03986v2 )

ライセンス: Link先を確認
Jianji Wang, Qi Liu, Shupei Zhang, Nanning Zheng, Fei-Yue Wang(参考訳) m$ $d$-dimensional responsors と $n$ $ $d$-dimensional predictors が与えられたとき、スパースレグレッションは、線形近似に対する各responsor の最大$k$ の予測子、 $1\leq k \leq d-1$ を見つける。 スパース回帰の鍵となる問題は、通常高い計算コストに悩まされる部分集合の選択である。 近年,多くの改良された部分集合選択法が公表されている。 しかし、データ分析において多くの疑問に対して非常に必要となるサブセット選択の非近似法にはあまり注意が払われていない。 ここでは相関の観点からの疎回帰を考察し,条件付き不相関式を提案する。 次に, 回帰方程式の係数を候補予測器に対して計算する必要のない, 効率的な部分集合選択法を提案する。 提案手法により,sparse回帰の各候補部分集合に対して,計算複雑性を$o(\frac{1}{6}{k^3}+mk^2+mkd)$から$o(\frac{1}{6}{k^3}+\frac{1}{2}mk^2)$に削減する。 次元 $d$ は一般に観測や実験の数であり、十分大きいので、提案手法は非近似部分集合選択の効率を大幅に改善することができる。

Given $m$ $d$-dimensional responsors and $n$ $d$-dimensional predictors, sparse regression finds at most $k$ predictors for each responsor for linear approximation, $1\leq k \leq d-1$. The key problem in sparse regression is subset selection, which usually suffers from high computational cost. Recent years, many improved approximate methods of subset selection have been published. However, less attention has been paid on the non-approximate method of subset selection, which is very necessary for many questions in data analysis. Here we consider sparse regression from the view of correlation, and propose the formula of conditional uncorrelation. Then an efficient non-approximate method of subset selection is proposed in which we do not need to calculate any coefficients in regression equation for candidate predictors. By the proposed method, the computational complexity is reduced from $O(\frac{1}{6}{k^3}+mk^2+mkd)$ to $O(\frac{1}{6}{k^3}+\frac{1}{2}mk^2)$ for each candidate subset in sparse regression. Because the dimension $d$ is generally the number of observations or experiments and large enough, the proposed method can greatly improve the efficiency of non-approximate subset selection.
翻訳日:2022-10-20 20:44:41 公開日:2020-11-24
# 2層ニューラルネットワークのロバスト性の法則

A law of robustness for two-layers neural networks ( http://arxiv.org/abs/2009.14444v2 )

ライセンス: Link先を確認
S\'ebastien Bubeck and Yuanzhi Li and Dheeraj Nagaraj(参考訳) 我々は、リプシッツ定数によって測定された、ニューラルネットワークの大きさとその堅牢性の間の固有のトレードオフの研究を開始する。 我々は、任意のリプシッツ活性化関数とほとんどのデータセットにおいて、データに完全に適合する$k$のニューロンを持つ2層ニューラルネットワークは、$n$がデータポイントの数であるような$\sqrt{n/k}$よりも大きい(定数まで)ことを要求する。 これは、o(1)$-lipschitzネットワークを保証するためにデータポイントあたりおよそ1つのニューロンが必要であることを意味し、一方、d$-dimensionalデータに適合するデータには$d$データポイント当たり1つのニューロンのみが必要であることを意味する。 重み行列のスペクトルノルムに基づいて、リプシッツ定数が上界に置き換えられたとき、この予想のより弱いバージョンを証明する。 また、高次元のレジームである $n \approx d$(ここでは$k \leq d$ が関係するので、超完全ケースとも呼ばれる)で予想を証明する。 最後に、次数$p$ の多項式活性化関数の予想を$n \approx d^p$ で証明する。 我々はこの予想を裏付ける実験的証拠を用いてこれらの発見を補完する。

We initiate the study of the inherent tradeoffs between the size of a neural network and its robustness, as measured by its Lipschitz constant. We make a precise conjecture that, for any Lipschitz activation function and for most datasets, any two-layers neural network with $k$ neurons that perfectly fit the data must have its Lipschitz constant larger (up to a constant) than $\sqrt{n/k}$ where $n$ is the number of datapoints. In particular, this conjecture implies that overparametrization is necessary for robustness, since it means that one needs roughly one neuron per datapoint to ensure a $O(1)$-Lipschitz network, while mere data fitting of $d$-dimensional data requires only one neuron per $d$ datapoints. We prove a weaker version of this conjecture when the Lipschitz constant is replaced by an upper bound on it based on the spectral norm of the weight matrix. We also prove the conjecture in the high-dimensional regime $n \approx d$ (which we also refer to as the undercomplete case, since only $k \leq d$ is relevant here). Finally we prove the conjecture for polynomial activation functions of degree $p$ when $n \approx d^p$. We complement these findings with experimental evidence supporting the conjecture.
翻訳日:2022-10-12 22:43:55 公開日:2020-11-24
# Mini-DDSM:マンモグラフィーによる自動年齢推定

Mini-DDSM: Mammography-based Automatic Age Estimation ( http://arxiv.org/abs/2010.00494v3 )

ライセンス: Link先を確認
Charitha Dissanayake Lekamlage, Fabia Afzal, Erik Westerberg, Abbas Cheddad(参考訳) 年齢推定は様々な医学的応用で注目を集めている。 生体画像からの年齢推定には多くの研究がある。 しかし、我々が知る限り、年齢推定のためのマンモグラムの研究は行われていない。 本研究の目的は,マンモグラフィ画像から年齢を推定するAIモデルを構築することである。 年齢属性を持つ公共マンモグラフィーデータセットが不足しているため、ウェブクローラを用いてサムネイルマンモグラフィー画像とその年齢フィールドをパブリックデータセットであるDigital Database for Screeningマンモグラフィーからダウンロードする。 このデータセットのオリジナルのイメージは残念ながら、壊れているソフトウェアによってのみ検索できる。 その後,収集したデータセットから深層学習特徴を抽出し,ランダムフォレスト回帰器を用いて年齢を自動的に推定するモデルを構築した。 性能評価は平均絶対誤差値を用いて行った。 ランダムなサンプル選択における10試験中平均誤差値は8年程度であった。 本稿では,このアプローチが欠落年齢を満たす上でのメリットについて述べる。 別の独立したデータセット上でロジスティックおよび線形回帰モデルを実行し,提案手法の利点をさらに検証した。 本稿では,free-access mini-ddsmデータセットも紹介する。

Age estimation has attracted attention for its various medical applications. There are many studies on human age estimation from biomedical images. However, there is no research done on mammograms for age estimation, as far as we know. The purpose of this study is to devise an AI-based model for estimating age from mammogram images. Due to lack of public mammography data sets that have the age attribute, we resort to using a web crawler to download thumbnail mammographic images and their age fields from the public data set; the Digital Database for Screening Mammography. The original images in this data set unfortunately can only be retrieved by a software which is broken. Subsequently, we extracted deep learning features from the collected data set, by which we built a model using Random Forests regressor to estimate the age automatically. The performance assessment was measured using the mean absolute error values. The average error value out of 10 tests on random selection of samples was around 8 years. In this paper, we show the merits of this approach to fill up missing age values. We ran logistic and linear regression models on another independent data set to further validate the advantage of our proposed work. This paper also introduces the free-access Mini-DDSM data set.
翻訳日:2022-10-12 07:52:31 公開日:2020-11-24
# オンライン学習制御のためのリアルタイム不確かさ分解

Real-time Uncertainty Decomposition for Online Learning Control ( http://arxiv.org/abs/2010.02613v2 )

ライセンス: Link先を確認
Jonas Umlauft, Armin Lederer, Thomas Beckers, Sandra Hirche(参考訳) 機械学習モデルに基づく安全クリティカルな決定は、危険または危険な状況を避けるために、関連する不確実性を明確に理解する必要がある。 aleatoric uncertainty はパラメトリックな記述から明示的にモデル化することができるが、認識論的不確実性はむしろ訓練データの有無を記述している。 本稿では, 様々なデータセット上のニューラルネットワークに対する既存のアプローチに対して, 認識の不確実性をモデル化するための新しい汎用的手法を提案する。 aleatoric uncertainty estimationと直接結合することができ、推論がサンプルフリーであるため、リアルタイムに予測することができる。 この特性をモデルに基づくクワッドコプター制御系で活用し,熱外乱のオンライン学習におけるアレテータと認識的不確かさの区別によるコントローラの利点を実証する。

Safety-critical decisions based on machine learning models require a clear understanding of the involved uncertainties to avoid hazardous or risky situations. While aleatoric uncertainty can be explicitly modeled given a parametric description, epistemic uncertainty rather describes the presence or absence of training data. This paper proposes a novel generic method for modeling epistemic uncertainty and shows its advantages over existing approaches for neural networks on various data sets. It can be directly combined with aleatoric uncertainty estimates and allows for prediction in real-time as the inference is sample-free. We exploit this property in a model-based quadcopter control setting and demonstrate how the controller benefits from a differentiation between aleatoric and epistemic uncertainty in online learning of thermal disturbances.
翻訳日:2022-10-10 06:30:06 公開日:2020-11-24
# 異角形に基づく連続グラフ表現学習

Disentangle-based Continual Graph Representation Learning ( http://arxiv.org/abs/2010.02565v4 )

ライセンス: Link先を確認
Xiaoyu Kou, Yankai Lin, Shaobo Liu, Peng Li, Jie Zhou, Yan Zhang(参考訳) グラフ埋め込み(GE)法は,ノード(およびエッジ)を低次元のセマンティック空間に埋め込むことで,マルチリレーショナルデータのモデリングに有効であることを示す。 しかし、既存のGEモデルは、受信データのストリーミング特性を見落としているため、現実のアプリケーションでは実用的ではない。 そこで本研究では,GEモデルを新しいデータで継続的に訓練し,不必要に出現するマルチリレーショナルデータを学習することを目的とした連続グラフ表現学習の課題について検討する。 さらに,人間の手続き的知識を学習する能力に触発されたディスタンタングルに基づく連続グラフ表現学習(dicgrl)フレームワークを提案する。 実験の結果, dicgrlは, 壊滅的な記憶喪失問題を効果的に軽減し, 最先端の連続学習モデルよりも優れていた。

Graph embedding (GE) methods embed nodes (and/or edges) in graph into a low-dimensional semantic space, and have shown its effectiveness in modeling multi-relational data. However, existing GE models are not practical in real-world applications since it overlooked the streaming nature of incoming data. To address this issue, we study the problem of continual graph representation learning which aims to continually train a GE model on new data to learn incessantly emerging multi-relational data while avoiding catastrophically forgetting old learned knowledge. Moreover, we propose a disentangle-based continual graph representation learning (DiCGRL) framework inspired by the human's ability to learn procedural knowledge. The experimental results show that DiCGRL could effectively alleviate the catastrophic forgetting problem and outperform state-of-the-art continual learning models.
翻訳日:2022-10-10 06:13:09 公開日:2020-11-24
# CausalWorld: 因果構造と伝達学習のためのロボットマニピュレーションベンチマーク

CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and Transfer Learning ( http://arxiv.org/abs/2010.04296v2 )

ライセンス: Link先を確認
Ossama Ahmed and Frederik Tr\"auble and Anirudh Goyal and Alexander Neitz and Yoshua Bengio and Bernhard Sch\"olkopf and Manuel W\"uthrich and Stefan Bauer(参考訳) 近年の強化学習(RL)の成功にもかかわらず、エージェントが学習スキルを関連する環境に移すことは依然として課題である。 本稿では,ロボット操作環境における因果構造と伝達学習の指標であるcausalworldを提案する。 この環境はオープンソースのロボットプラットフォームのシミュレーションであり、sim-to-realトランスファーの可能性を提供する。 タスクは、ブロックのセットから3D形状を構築することで構成される。 CausalWorldの重要な強みは、共通因果構造と根本要因(例えば、ロボットや物体の質量、色、サイズなど)を持つそのようなタスクの組合せファミリーを提供することである。 ユーザ(またはエージェント)はすべての因果変数に介入し、異なるタスク(あるいはタスクの分散)がどのように類似しているかのきめ細かい制御を可能にする。 これにより、特定の一般化(外観や物体質量の変化のみ)を対象とする、所望の難易度レベルのトレーニングおよび評価分布を簡単に定義することができる。 さらに、この共通パラメトリゼーションは、初期タスクと目標タスクを補間することによって、カリキュラムの定義を容易にする。 ユーザが独自のタスク分布を定義する場合もありますが、単純なものから非常に難しいものまで、8つの意味のある分布を具体的なベンチマークとして提示します。 最後に、これらのタスクのサブセットに対して、異なるトレーニングカリキュラムと対応する評価プロトコルのベースライン結果を提供し、このベンチマークでタスクの実行可能性を検証する。

Despite recent successes of reinforcement learning (RL), it remains a challenge for agents to transfer learned skills to related environments. To facilitate research addressing this problem, we propose CausalWorld, a benchmark for causal structure and transfer learning in a robotic manipulation environment. The environment is a simulation of an open-source robotic platform, hence offering the possibility of sim-to-real transfer. Tasks consist of constructing 3D shapes from a given set of blocks - inspired by how children learn to build complex structures. The key strength of CausalWorld is that it provides a combinatorial family of such tasks with common causal structure and underlying factors (including, e.g., robot and object masses, colors, sizes). The user (or the agent) may intervene on all causal variables, which allows for fine-grained control over how similar different tasks (or task distributions) are. One can thus easily define training and evaluation distributions of a desired difficulty level, targeting a specific form of generalization (e.g., only changes in appearance or object mass). Further, this common parametrization facilitates defining curricula by interpolating between an initial and a target task. While users may define their own task distributions, we present eight meaningful distributions as concrete benchmarks, ranging from simple to very challenging, all of which require long-horizon planning as well as precise low-level motor control. Finally, we provide baseline results for a subset of these tasks on distinct training curricula and corresponding evaluation protocols, verifying the feasibility of the tasks in this benchmark.
翻訳日:2022-10-09 11:49:02 公開日:2020-11-24
# gini in a bottleneck: グラフ畳み込みニューラルネットワークのためのスパース分子表現

Gini in a Bottleneck: Sparse Molecular Representations for Graph Convolutional Neural Networks ( http://arxiv.org/abs/2010.04535v3 )

ライセンス: Link先を確認
Ryan Henderson, Djork-Arn\'e Clevert, Floriane Montanari(参考訳) 深層学習のアプローチの性質から、分子グラフのどの側面がネットワークの予測を駆動しているかを理解することは本質的に困難である。 緩和戦略として、学習した表現の「不等式」を最大化するために、Giniインデックスに従ってマルチタスクグラフ畳み込みニューラルネットワークの特定の重みを制約する。 この制約は,いくつかの対象に対する評価基準を低下させるものではなく,グラフ畳み込み操作の出力を視覚的に解釈可能な方法で組み合わせることを可能にする。 次に,公開qm9データセット上の量子化学標的に関する概念実証実験と,プロプライエタリな薬物様分子に対するadmet標的に関するより大きな実験を行った。 後者のケースにおける説明可能性のベンチマークは困難であるため,我々の組織内の薬剤師を非公式に調査し,それらの分子の領域と,その性質に関連するものと同定されたモデルとの一致を確認した。

Due to the nature of deep learning approaches, it is inherently difficult to understand which aspects of a molecular graph drive the predictions of the network. As a mitigation strategy, we constrain certain weights in a multi-task graph convolutional neural network according to the Gini index to maximize the "inequality" of the learned representations. We show that this constraint does not degrade evaluation metrics for some targets, and allows us to combine the outputs of the graph convolutional operation in a visually interpretable way. We then perform a proof-of-concept experiment on quantum chemistry targets on the public QM9 dataset, and a larger experiment on ADMET targets on proprietary drug-like molecules. Since a benchmark of explainability in the latter case is difficult, we informally surveyed medicinal chemists within our organization to check for agreement between regions of the molecule they and the model identified as relevant to the properties in question.
翻訳日:2022-10-09 04:38:06 公開日:2020-11-24
# 透明初期化とスパースエンコーダによるスーパーピクセルによるセマンティックセマンティックセグメンテーション

Refining Semantic Segmentation with Superpixel by Transparent Initialization and Sparse Encoder ( http://arxiv.org/abs/2010.04363v3 )

ライセンス: Link先を確認
Zhiwei Xu, Thalaiyasingam Ajanthan, Richard Hartley(参考訳) 深層学習はセマンティックセグメンテーションの性能を大幅に向上させるが、その成功は主に正確なエッジを持たない対象中心領域にある。 スーパーピクセルは、オブジェクトエッジを保存するために人気があり効果的な補助となるため、トレーニング可能なスーパーピクセルとのセマンティックセグメンテーションを共同で学習する。 我々は、透過初期化(TI)とスパースエンコーダを用いた効率的なロジット整合性を備えた完全接続層で実現した。 提案したTIは,事前学習ネットワークの学習パラメータの効果を保存している。 これにより、事前訓練されたネットワークの損失が大幅に増加するのを避けることができ、そうでなければ、追加層の初期化が不適切なパラメータによって引き起こされる可能性がある。 一方、各スーパーピクセルの一貫性のあるピクセルラベルは、logit一貫性によって保証される。 スパース行列演算を持つスパースエンコーダは、メモリ要求と計算複雑性の両方を大幅に低減する。 他のパラメータ初期化法よりもtiが優れていることを実証し,その数値安定性を検証した。 提案手法の有効性をPASCAL VOC 2012,ADE20K,PASCAL Contextで検証した。 性能比とF測定値を用いたセグメンテーションエッジの定量的評価により,本手法は最先端技術よりも優れている。

Although deep learning greatly improves the performance of semantic segmentation, its success mainly lies in object central areas without accurate edges. As superpixels are a popular and effective auxiliary to preserve object edges, in this paper, we jointly learn semantic segmentation with trainable superpixels. We achieve it with fully-connected layers with Transparent Initialization (TI) and efficient logit consistency using a sparse encoder. The proposed TI preserves the effects of learned parameters of pretrained networks. This avoids a significant increase of the loss of pretrained networks, which otherwise may be caused by inappropriate parameter initialization of the additional layers. Meanwhile, consistent pixel labels in each superpixel are guaranteed by logit consistency. The sparse encoder with sparse matrix operations substantially reduces both the memory requirement and the computational complexity. We demonstrated the superiority of TI over other parameter initialization methods and tested its numerical stability. The effectiveness of our proposal was validated on PASCAL VOC 2012, ADE20K, and PASCAL Context showing enhanced semantic segmentation edges. With quantitative evaluations on segmentation edges using performance ratio and F-measure, our method outperforms the state-of-the-art.
翻訳日:2022-10-09 04:02:50 公開日:2020-11-24
# 言語埋め込みはキャプチャースケールか?

Do Language Embeddings Capture Scales? ( http://arxiv.org/abs/2010.05345v3 )

ライセンス: Link先を確認
Xikun Zhang, Deepak Ramachandran, Ian Tenney, Yanai Elazar, Dan Roth(参考訳) 事前訓練された言語モデル(LM)は、言語的、常識的、事実的な知識をかなり持っていることが示されている。 この文脈でまだ研究されていない知識の1つの形態は、オブジェクトのスカラーサイズに関する情報である。 事前学習された言語モデルは,これらの情報のかなりの量の取得を行うが,一般的な常識推論に必要な能力に乏しいことを示す。 我々は,事前学習と数理化における文脈情報を,その性能に影響を与える2つの重要な要因として認識し,その結果に有意な影響を及ぼすことを示す。

Pretrained Language Models (LMs) have been shown to possess significant linguistic, common sense, and factual knowledge. One form of knowledge that has not been studied yet in this context is information about the scalar magnitudes of objects. We show that pretrained language models capture a significant amount of this information but are short of the capability required for general common-sense reasoning. We identify contextual information in pre-training and numeracy as two key factors affecting their performance and show that a simple method of canonicalizing numbers can have a significant effect on the results.
翻訳日:2022-10-08 13:32:54 公開日:2020-11-24
# マルチタスクアノテーションによる顔の感情認識

Facial Emotion Recognition with Noisy Multi-task Annotations ( http://arxiv.org/abs/2010.09849v2 )

ライセンス: Link先を確認
Siwei Zhang, Zhiwu Huang, Danda Pani Paudel, Luc Van Gool(参考訳) 人間の感情は表情から推測できる。 しかし、表情の注釈は、カテゴリーや次元を含む共通の感情符号化モデルにおいて、しばしば非常に騒がしい。 マルチタスクラベルに対する人間のラベル付け作業を減らすために,ノイズの多いマルチタスクアノテーションを用いた顔の感情認識という新たな問題を導入する。 本稿では, 顔画像とマルチタスクラベルとのより信頼性の高い相関関係を学習し, ノイズの影響を低減することを目的とした, 共同分布マッチングの観点からの定式化を提案する。 本定式化では,一貫した対角学習ゲームにおいて,感情予測と共同分布学習を可能にする新しい手法を利用する。 広範な実験を通して、提案する新しい問題の実際のセットアップと、合成雑音ラベル cifar-10 または実用的な雑音ラベル raf と affectnet における最先端の競合手法よりも、提案手法の明らかな優位性が研究された。 コードはhttps://github.com/sanweiliti/noisyferで入手できる。

Human emotions can be inferred from facial expressions. However, the annotations of facial expressions are often highly noisy in common emotion coding models, including categorical and dimensional ones. To reduce human labelling effort on multi-task labels, we introduce a new problem of facial emotion recognition with noisy multi-task annotations. For this new problem, we suggest a formulation from the point of joint distribution match view, which aims at learning more reliable correlations among raw facial images and multi-task labels, resulting in the reduction of noise influence. In our formulation, we exploit a new method to enable the emotion prediction and the joint distribution learning in a unified adversarial learning game. Evaluation throughout extensive experiments studies the real setups of the suggested new problem, as well as the clear superiority of the proposed method over the state-of-the-art competing methods on either the synthetic noisy labeled CIFAR-10 or practical noisy multi-task labeled RAF and AffectNet. The code is available at https://github.com/sanweiliti/noisyFER.
翻訳日:2022-10-05 22:26:36 公開日:2020-11-24
# 位相的損失を伴う胎児脳MRIにおける皮質プレートの分画

Segmentation of the cortical plate in fetal brain MRI with a topological loss ( http://arxiv.org/abs/2010.12391v2 )

ライセンス: Link先を確認
Priscille de Dumast, Hamza Kebiri, Chirine Atat, Vincent Dunet, M\'eriam Koob, Meritxell Bach Cuadra(参考訳) 胎児の皮質プレートは、子宮の発達の早い段階で、磁気共鳴(mr)画像で観察されるような劇的な形態変化を伴っている。 正確なMR画像のセグメンテーション、さらに重要なのは、皮質灰白質のトポロジカルに正しいデライン化は、脳の発達をより定量的に分析するための重要なベースラインである。 本稿では,大腿皮質プレートの深部学習に基づくセグメンテーションの形態的整合性を高めるために,トポロジカル制約を付加的損失関数として初めて統合することを提案する。 妊娠21週から38週の胎児脳アトラス18例について定量的に評価した。 さらに,13個のMRI画像からランダムに選択した130個のスライスについて,3種類の専門家による質的評価を行った。

The fetal cortical plate undergoes drastic morphological changes throughout early in utero development that can be observed using magnetic resonance (MR) imaging. An accurate MR image segmentation, and more importantly a topologically correct delineation of the cortical gray matter, is a key baseline to perform further quantitative analysis of brain development. In this paper, we propose for the first time the integration of a topological constraint, as an additional loss function, to enhance the morphological consistency of a deep learning-based segmentation of the fetal cortical plate. We quantitatively evaluate our method on 18 fetal brain atlases ranging from 21 to 38 weeks of gestation, showing the significant benefits of our method through all gestational ages as compared to a baseline method. Furthermore, qualitative evaluation by three different experts on 130 randomly selected slices from 26 clinical MRIs evidences the out-performance of our method independently of the MR reconstruction quality.
翻訳日:2022-10-03 23:55:54 公開日:2020-11-24
# グラフデータに基づく半教師付き学習の不確実性

Uncertainty Aware Semi-Supervised Learning on Graph Data ( http://arxiv.org/abs/2010.12783v2 )

ライセンス: Link先を確認
Xujiang Zhao, Feng Chen, Shu Hu, Jin-Hee Cho(参考訳) グラフニューラルネットワーク(GNN)のおかげで、半教師付きノード分類はグラフデータの最先端のパフォーマンスを示している。 しかし、gnnは、実生活における不確実性の下での誤分類を増加させるリスクを最小限に抑えるために、クラス確率に関連する異なるタイプの不確実性を検討していない。 本研究では,ノード分類予測のための深層学習と信念・エビデンス理論の両領域における様々な種類の予測不確かさを反映したGNNを用いたマルチソース不確実性フレームワークを提案する。 トレーニングノードのラベルからエビデンスを収集することにより、ノードレベルのディリクレ分布を正確に予測し、アウト・オブ・ディストリビューション(OOD)ノードを検出するためにグラフベースのカーネルディリクレ分布推定(GKDE)法が設計されている。 6つの実ネットワークデータセットに基づく誤分類検出とOOD検出の観点から,提案モデルの有効性を最先端モデルと比較した。 その結果,不協和性検出は誤分類検出において最良であり,空洞性検出はOOD検出において最良であることがわかった。 本研究の背景にある要因を明らかにするため,本研究で検討した異なるタイプの不確実性間の関係を説明する理論的証明を行った。

Thanks to graph neural networks (GNNs), semi-supervised node classification has shown the state-of-the-art performance in graph data. However, GNNs have not considered different types of uncertainties associated with class probabilities to minimize risk of increasing misclassification under uncertainty in real life. In this work, we propose a multi-source uncertainty framework using a GNN that reflects various types of predictive uncertainties in both deep learning and belief/evidence theory domains for node classification predictions. By collecting evidence from the given labels of training nodes, the Graph-based Kernel Dirichlet distribution Estimation (GKDE) method is designed for accurately predicting node-level Dirichlet distributions and detecting out-of-distribution (OOD) nodes. We validated the outperformance of our proposed model compared to the state-of-the-art counterparts in terms of misclassification detection and OOD detection based on six real network datasets. We found that dissonance-based detection yielded the best results on misclassification detection while vacuity-based detection was the best for OOD detection. To clarify the reasons behind the results, we provided the theoretical proof that explains the relationships between different types of uncertainties considered in this work.
翻訳日:2022-10-03 13:18:25 公開日:2020-11-24
# DNNの動的ネットワークスイッチングによる可変ロバストプルーニングフレームワーク

A Tunable Robust Pruning Framework Through Dynamic Network Rewiring of DNNs ( http://arxiv.org/abs/2011.03083v2 )

ライセンス: Link先を確認
Souvik Kundu, Mahdi Nazemi, Peter A. Beerel, Massoud Pedram(参考訳) 本稿では,クリーン画像上で高い精度を維持しつつも,敵攻撃に対して頑健なプルーンドディープニューラルネットワーク(DNN)モデルを生成する動的ネットワークスイッチング(DNR)手法を提案する。 特に、開示されたDNR法は、高次モデル圧縮と頑健な対向訓練を融合したハイブリッド損失関数を用いた統一的制約付き最適化定式化に基づいている。 このトレーニング戦略は、ハイブリッド損失関数から計算した層間正規化運動量に基づいて層間接続を動的に調整する。 複数のトレーニングイテレーションを必要とする既存の堅牢なプルーニングフレームワークとは対照的に、提案した学習戦略は、目標プルーニング比率を1回のトレーニングイテレーションだけで達成し、不規則チャネルプルーニングと構造化チャネルプルーニングの両方をサポートするように調整することができる。 DNRの利点を評価するために、CIFAR-10、CIFAR-100、Tiny-ImageNetのVGG16とResNet-18の2つの広く受け入れられたモデルを用いて実験を行った。 ベースラインの非圧縮モデルと比較すると、DNRはクリーンまたは逆の分類精度に大きく低下することなく、すべてのデータセットに対して20倍以上の圧縮を提供する。 さらに,DNRは,最先端の代替技術により達成可能なものよりも,クリーンで対角的な画像分類性能のよい圧縮モデルが常に見つかることを示した。

This paper presents a dynamic network rewiring (DNR) method to generate pruned deep neural network (DNN) models that are robust against adversarial attacks yet maintain high accuracy on clean images. In particular, the disclosed DNR method is based on a unified constrained optimization formulation using a hybrid loss function that merges ultra-high model compression with robust adversarial training. This training strategy dynamically adjusts inter-layer connectivity based on per-layer normalized momentum computed from the hybrid loss function. In contrast to existing robust pruning frameworks that require multiple training iterations, the proposed learning strategy achieves an overall target pruning ratio with only a single training iteration and can be tuned to support both irregular and structured channel pruning. To evaluate the merits of DNR, experiments were performed with two widely accepted models, namely VGG16 and ResNet-18, on CIFAR-10, CIFAR-100 as well as with VGG16 on Tiny-ImageNet. Compared to the baseline uncompressed models, DNR provides over20x compression on all the datasets with no significant drop in either clean or adversarial classification accuracy. Moreover, our experiments show that DNR consistently finds compressed models with better clean and adversarial image classification performance than what is achievable through state-of-the-art alternatives.
翻訳日:2022-09-30 04:33:48 公開日:2020-11-24
# 芸術的画像のための畳み込みニューラルネットワークの転送学習の解析

An analysis of the transfer learning of convolutional neural networks for artistic images ( http://arxiv.org/abs/2011.02727v2 )

ライセンス: Link先を確認
Nicolas Gonthier and Yann Gousseau and Sa\"id Ladjal(参考訳) 膨大な自然画像データセットからの転送学習、ディープニューラルネットワークの微調整、および対応する事前学習ネットワークの使用は、アート分析アプリケーションの中核となっている。 しかし、転帰学習の効果はいまだに理解されていない。 本稿では,まず,ネットワークの内部表現を可視化する手法を用いて,ネットワークが芸術的イメージで学んだことを理解するための手がかりを提供する。 次に、特徴空間とパラメータ空間の両方のメトリクスと、最大アクティベーション画像の集合上で計算されたメトリクスのおかげで、学習プロセスで導入された変化の定量的分析を行う。 これらの分析は、転送学習手順の様々なバリエーションに対して行われる。 特に,ネットワークが事前学習したフィルタを新たなイメージモダリティに特殊化する可能性や,上位層がクラスに集中する傾向が観察された。 最後に、中規模の芸術的データセットを含むダブルチューニングは、タスクが変化しても、より小さなデータセットの分類を改善することができることを示した。

Transfer learning from huge natural image datasets, fine-tuning of deep neural networks and the use of the corresponding pre-trained networks have become de facto the core of art analysis applications. Nevertheless, the effects of transfer learning are still poorly understood. In this paper, we first use techniques for visualizing the network internal representations in order to provide clues to the understanding of what the network has learned on artistic images. Then, we provide a quantitative analysis of the changes introduced by the learning process thanks to metrics in both the feature and parameter spaces, as well as metrics computed on the set of maximal activation images. These analyses are performed on several variations of the transfer learning procedure. In particular, we observed that the network could specialize some pre-trained filters to the new image modality and also that higher layers tend to concentrate classes. Finally, we have shown that a double fine-tuning involving a medium-size artistic dataset can improve the classification on smaller datasets, even when the task changes.
翻訳日:2022-09-29 12:05:36 公開日:2020-11-24
# 現代機械学習における信頼性の課題

Underspecification Presents Challenges for Credibility in Modern Machine Learning ( http://arxiv.org/abs/2011.03395v2 )

ライセンス: Link先を確認
Alexander D'Amour, Katherine Heller, Dan Moldovan, Ben Adlam, Babak Alipanahi, Alex Beutel, Christina Chen, Jonathan Deaton, Jacob Eisenstein, Matthew D. Hoffman, Farhad Hormozdiari, Neil Houlsby, Shaobo Hou, Ghassen Jerfel, Alan Karthikesalingam, Mario Lucic, Yian Ma, Cory McLean, Diana Mincu, Akinori Mitani, Andrea Montanari, Zachary Nado, Vivek Natarajan, Christopher Nielson, Thomas F. Osborne, Rajiv Raman, Kim Ramasamy, Rory Sayres, Jessica Schrouff, Martin Seneviratne, Shannon Sequeira, Harini Suresh, Victor Veitch, Max Vladymyrov, Xuezhi Wang, Kellie Webster, Steve Yadlowsky, Taedong Yun, Xiaohua Zhai, D. Sculley(参考訳) MLモデルは、現実のドメインにデプロイされるとき、予想外の振る舞いを示すことが多い。 これらの失敗の主な原因は、不特定である。 トレーニングドメインで同等に強力な保留性能を持つ多くの予測器を返すことができると、MLパイプラインは不明確になる。 深層学習など、現代のMLパイプラインでは、過小評価が一般的である。 過度に特定されたパイプラインによって返される予測器は、トレーニングドメインのパフォーマンスに基づいて同等に扱われることが多いが、ここでは、このような予測器がデプロイメントドメインで非常に異なる振る舞いをすることを示している。 この曖昧さは、実際には不安定性とモデル動作の貧弱につながる可能性があり、トレーニングドメインとデプロイメントドメインの間の構造的ミスマッチに起因する、これまで特定されていた問題とは異なる障害モードである。 コンピュータビジョン, 医用画像, 自然言語処理, 電子健康記録に基づく臨床リスク予測, 医学ゲノミクスなどの例を用いて, この問題が幅広いMLパイプラインに現れることを示した。 この結果から,任意のドメインに実際のデプロイメントを意図したモデリングパイプラインにおいて,過小評価を明示的に行う必要性が示唆された。

ML models often exhibit unexpectedly poor behavior when they are deployed in real-world domains. We identify underspecification as a key reason for these failures. An ML pipeline is underspecified when it can return many predictors with equivalently strong held-out performance in the training domain. Underspecification is common in modern ML pipelines, such as those based on deep learning. Predictors returned by underspecified pipelines are often treated as equivalent based on their training domain performance, but we show here that such predictors can behave very differently in deployment domains. This ambiguity can lead to instability and poor model behavior in practice, and is a distinct failure mode from previously identified issues arising from structural mismatch between training and deployment domains. We show that this problem appears in a wide variety of practical ML pipelines, using examples from computer vision, medical imaging, natural language processing, clinical risk prediction based on electronic health records, and medical genomics. Our results show the need to explicitly account for underspecification in modeling pipelines that are intended for real-world deployment in any domain.
翻訳日:2022-09-29 04:22:09 公開日:2020-11-24
# プライバシー保護XGBoost推論

Privacy-Preserving XGBoost Inference ( http://arxiv.org/abs/2011.04789v4 )

ライセンス: Link先を確認
Xianrui Meng, Joan Feigenbaum(参考訳) 機械学習(ML)は予測タスクに広く利用されているが、MLを使用できない、あるいは少なくともその潜在能力を完全に達成できない重要なシナリオがある。 採用の大きな障壁は、予測クエリのセンシティブな性質である。 個々のユーザには、正確なモデルをローカルにトレーニングする十分な豊富なデータセットが不足するかも知れませんが、そのようなモデルをサポートする商用サービスにセンシティブなクエリを送信したくない場合もあります。 プライバシー保護機械学習(PPML)の中心的な目標は、暗号化されたクエリをリモートMLサービスに送信し、暗号化された結果を受け取り、ローカルに復号できるようにすることである。 我々は,現実のプライバシ保護型ML推論問題に対する実用的なソリューションの開発を目指している。 本稿では,AWS SageMaker上で実証的に評価したプライバシー保護型XGBoost予測アルゴリズムを提案する。 実験結果から,本アルゴリズムは実運用環境において十分に有効であることがわかった。

Although machine learning (ML) is widely used for predictive tasks, there are important scenarios in which ML cannot be used or at least cannot achieve its full potential. A major barrier to adoption is the sensitive nature of predictive queries. Individual users may lack sufficiently rich datasets to train accurate models locally but also be unwilling to send sensitive queries to commercial services that vend such models. One central goal of privacy-preserving machine learning (PPML) is to enable users to submit encrypted queries to a remote ML service, receive encrypted results, and decrypt them locally. We aim at developing practical solutions for real-world privacy-preserving ML inference problems. In this paper, we propose a privacy-preserving XGBoost prediction algorithm, which we have implemented and evaluated empirically on AWS SageMaker. Experimental results indicate that our algorithm is efficient enough to be used in real ML production environments.
翻訳日:2022-09-28 02:31:08 公開日:2020-11-24
# Ecole: Y Combinatorial Optimization Solversにおける機械学習のためのGymライクなライブラリ

Ecole: A Gym-like Library for Machine Learning in Combinatorial Optimization Solvers ( http://arxiv.org/abs/2011.06069v2 )

ライセンス: Link先を確認
Antoine Prouvost, Justin Dumouchelle, Lara Scavuzzo, Maxime Gasse, Didier Ch\'etelat, Andrea Lodi(参考訳) 組合せ最適化のための機械学習研究を簡単にするための新しいライブラリであるEcoleを紹介する。 Ecoleは、マルコフ決定プロセスの制御問題として、汎用的な組合せ最適化解法で生じるいくつかの重要な決定タスクを公開している。 インターフェースは人気のあるOpenAI Gymライブラリを模倣しており、拡張可能で直感的に使える。 私たちはこのライブラリを、参入のバーを低くし、この分野のイノベーションを加速する標準化されたプラットフォームにすることを目指している。 ドキュメンテーションとコードはhttps://www.ecole.ai.comで見ることができる。

We present Ecole, a new library to simplify machine learning research for combinatorial optimization. Ecole exposes several key decision tasks arising in general-purpose combinatorial optimization solvers as control problems over Markov decision processes. Its interface mimics the popular OpenAI Gym library and is both extensible and intuitive to use. We aim at making this library a standardized platform that will lower the bar of entry and accelerate innovation in the field. Documentation and code can be found at https://www.ecole.ai.
翻訳日:2022-09-27 01:10:38 公開日:2020-11-24
# 血液計数検査における異常レベルを微調整する意思決定ツール

A decision-making tool to fine-tune abnormal levels in the complete blood count tests ( http://arxiv.org/abs/2011.05900v2 )

ライセンス: Link先を確認
Marta Avalos-Fernandez and Helene Touchais and Marcela Henriquez-Henriquez(参考訳) 血液分析装置による全血液計数(CBC)は最も順調な検査の1つである。 患者の一般的な健康状態や疾患の進行状況を診断し監視するための第一線ツールである。 分析が期待に合わなかった場合、技術者は顕微鏡を使って血液スメアを手作業で検査する。 国際血液学グループ(International Consensus Group for Hematology Review)は2005年にCBCのレビュー基準を発表した。 一般に、実験室の資源と個体群の特徴を説明するために局所的な調整が必要である。 本研究の目的は, CBC変数が異常スミアのリスクが高く, カットオフ値が高いかを特定するための意思決定支援ツールを提供することである。 コスト依存型ラッソペン化付加ロジスティック回帰と安定性の選択を併用して提案する。 シミュレーションおよび実CBCデータを用いて,本ツールが真のカットオフ値を正しく識別できることを実証し,その近傍に十分なデータが存在することを確認した。

The complete blood count (CBC) performed by automated hematology analyzers is one of the most ordered laboratory tests. It is a first-line tool for assessing a patient's general health status, or diagnosing and monitoring disease progression. When the analysis does not fit an expected setting, technologists manually review a blood smear using a microscope. The International Consensus Group for Hematology Review published in 2005 a set of criteria for reviewing CBCs. Commonly, adjustments are locally needed to account for laboratory resources and populations characteristics. Our objective is to provide a decision support tool to identify which CBC variables are associated with higher risks of abnormal smear and at which cutoff values. We propose a cost-sensitive Lasso-penalized additive logistic regression combined with stability selection. Using simulated and real CBC data, we demonstrate that our tool correctly identify the true cutoff values, provided that there is enough available data in their neighbourhood.
翻訳日:2022-09-26 23:39:45 公開日:2020-11-24
# アクティブ強化学習: コストでリワードを観察する

Active Reinforcement Learning: Observing Rewards at a Cost ( http://arxiv.org/abs/2011.06709v2 )

ライセンス: Link先を確認
David Krueger, Jan Leike, Owain Evans, John Salvatier(参考訳) アクティブ強化学習(英: Active reinforcement learning、ARL)は、エージェントがクエリコストc > 0 を支払わない限り報酬を観察しない強化学習の変種である。 ARLの主な問題は、報酬情報の長期的な価値を定量化する方法である。 マルチアームの盗賊でも、この情報の価値の計算は難解であり、ヒューリスティックに頼らなければならない。 我々は,多腕バンディットおよび(タブラル)マルコフ決定過程におけるARLのヒューリスティックなアプローチを提案し,またARL問題におけるいくつかの課題について考察し,考察する。

Active reinforcement learning (ARL) is a variant on reinforcement learning where the agent does not observe the reward unless it chooses to pay a query cost c > 0. The central question of ARL is how to quantify the long-term value of reward information. Even in multi-armed bandits, computing the value of this information is intractable and we have to rely on heuristics. We propose and evaluate several heuristic approaches for ARL in multi-armed bandits and (tabular) Markov decision processes, and discuss and illustrate some challenging aspects of the ARL problem.
翻訳日:2022-09-25 23:19:19 公開日:2020-11-24
# 物理システムの制御可能な表現の学習に向けて

Towards Learning Controllable Representations of Physical Systems ( http://arxiv.org/abs/2011.09906v2 )

ライセンス: Link先を確認
Kevin Haninger, Raul Vicente Garcia, Joerg Krueger(参考訳) 力学系の学習表現は次元を減少させ、下流強化学習(rl)を潜在的に支援する。 しかし、確立された手法では制御に適合する表現を予測できず、評価は主に下流のrl性能によって行われ、表現設計が遅くなる。 制御のための表現の原理的評価に向けて、理想的には各表現が一意な真の状態に対応することを提案し、真の状態と対応する表現の関係を考える。 これは、時間的滑らかさと真の状態/表現の間の高い相互情報という2つの指標を動機付けている。 これらの指標は確立された表現目標と関連しており、真の状態、情報要件、および状態の統計特性が幅広い種類のシステムに対して形式化できるラグランジュ系について研究されている。 これらのメトリクスは、オートエンコーダに基づく表現の変種を比較する際に、擬似ペグ・イン・ホールタスクにおける強化学習性能を予測する。

Learned representations of dynamical systems reduce dimensionality, potentially supporting downstream reinforcement learning (RL). However, no established methods predict a representation's suitability for control and evaluation is largely done via downstream RL performance, slowing representation design. Towards a principled evaluation of representations for control, we consider the relationship between the true state and the corresponding representations, proposing that ideally each representation corresponds to a unique true state. This motivates two metrics: temporal smoothness and high mutual information between true state/representation. These metrics are related to established representation objectives, and studied on Lagrangian systems where true state, information requirements, and statistical properties of the state can be formalized for a broad class of systems. These metrics are shown to predict reinforcement learning performance in a simulated peg-in-hole task when comparing variants of autoencoder-based representations.
翻訳日:2022-09-25 01:29:24 公開日:2020-11-24
# 合成データによるベイズ学習の基礎

Foundations of Bayesian Learning from Synthetic Data ( http://arxiv.org/abs/2011.08299v2 )

ライセンス: Link先を確認
Harrison Wilde, Jack Jewson, Sebastian Vollmer and Chris Holmes(参考訳) プライバシや可用性の制約によって実際のデータのリリースが制限されている環境では、マシンラーニングのイネーブラとして合成データを使用することに対する大きな成長と関心がある。 合成データ生成のための手法は数多く存在するが、合成データから学習したモデルの統計特性に関する結果が比較的少なく、研究者が実データを他の人の合成データで補強したい場合も少ない。 ベイズ型パラダイムを用いて, 学習時のモデルパラメータの更新を特徴付け, 合成データ生成過程や学習タスクを適切に考慮せずに従来の学習アルゴリズムを適用する場合, 注意が必要であることを示す。 general bayesian updatesによる最近の結果は、教師付き学習と推論問題の繰り返し実験で標準アプローチを上回る決定理論に基づくベイズ合成学習への新規でロバストなアプローチをサポートする。

There is significant growth and interest in the use of synthetic data as an enabler for machine learning in environments where the release of real data is restricted due to privacy or availability constraints. Despite a large number of methods for synthetic data generation, there are comparatively few results on the statistical properties of models learnt on synthetic data, and fewer still for situations where a researcher wishes to augment real data with another party's synthesised data. We use a Bayesian paradigm to characterise the updating of model parameters when learning in these settings, demonstrating that caution should be taken when applying conventional learning algorithms without appropriate consideration of the synthetic data generating process and learning task. Recent results from general Bayesian updating support a novel and robust approach to Bayesian synthetic-learning founded on decision theory that outperforms standard approaches across repeated experiments on supervised learning and inference problems.
翻訳日:2022-09-24 23:56:25 公開日:2020-11-24
# ビデオコーパスにおけるモーメントローカライゼーションのための階層型マルチモーダルエンコーダ

A Hierarchical Multi-Modal Encoder for Moment Localization in Video Corpus ( http://arxiv.org/abs/2011.09046v2 )

ライセンス: Link先を確認
Bowen Zhang, Hexiang Hu, Joonseok Lee, Ming Zhao, Sheide Chammas, Vihan Jain, Eugene Ie, Fei Sha(参考訳) テキストクエリに意味的にマッチする長いビデオの短いセグメントを特定することは、言語ベースのビデオ検索、ブラウジング、ナビゲーションにおいて重要な応用可能性を持つ課題である。 一般的な検索システムは、ビデオ全体または事前に定義されたビデオセグメントの問合せに応答するが、すべての可能なセグメントを網羅的に検索できる未編集ビデオに未定義のセグメントをローカライズすることは困難である。 顕著な課題は、ビデオの表現が時間領域における粒度の異なるレベルを考慮しなければならないことである。 この問題に対処するため,HierArchical Multi-Modal EncodeR (HAMMER) を提案し,粗いクリップレベルと細粒度フレームレベルの両方でビデオを符号化し,複数のサブタスク,すなわちビデオ検索,セグメント時間的ローカライゼーション,マスク付き言語モデリングに基づいて異なるスケールで情報を抽出する。 我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するための広範な実験を行った。 提案手法は,従来の手法と強いベースラインを上回り,この課題に対する新たな最先端技術を確立する。

Identifying a short segment in a long video that semantically matches a text query is a challenging task that has important application potentials in language-based video search, browsing, and navigation. Typical retrieval systems respond to a query with either a whole video or a pre-defined video segment, but it is challenging to localize undefined segments in untrimmed and unsegmented videos where exhaustively searching over all possible segments is intractable. The outstanding challenge is that the representation of a video must account for different levels of granularity in the temporal domain. To tackle this problem, we propose the HierArchical Multi-Modal EncodeR (HAMMER) that encodes a video at both the coarse-grained clip level and the fine-grained frame level to extract information at different scales based on multiple subtasks, namely, video retrieval, segment temporal localization, and masked language modeling. We conduct extensive experiments to evaluate our model on moment localization in video corpus on ActivityNet Captions and TVR datasets. Our approach outperforms the previous methods as well as strong baselines, establishing new state-of-the-art for this task.
翻訳日:2022-09-24 03:17:51 公開日:2020-11-24
# シルベスター、リャプノフ、代数的リッカティ方程式の自動微分

Automatic differentiation of Sylvester, Lyapunov, and algebraic Riccati equations ( http://arxiv.org/abs/2011.11430v2 )

ライセンス: Link先を確認
Ta-Chu Kao and Guillaume Hennequin(参考訳) シルヴェスター、リャプノフ、代数的リカティ方程式は制御理論のパンとバターである。 無限水平グラミアンの計算、連続時間または離散時間における最適制御問題の解法、設計オブザーバなどに用いられる。 一般的な数値計算フレームワーク(例えばスキディ)はこれらの方程式の効率的な解法を提供するが、これらの解法は依然としてほとんどの自動微分ライブラリに欠けている。 ここでは、解の前方および逆モード微分を3種類の方程式すべてに導出し、それらの逆制御問題への応用を示す。

Sylvester, Lyapunov, and algebraic Riccati equations are the bread and butter of control theorists. They are used to compute infinite-horizon Gramians, solve optimal control problems in continuous or discrete time, and design observers. While popular numerical computing frameworks (e.g., scipy) provide efficient solvers for these equations, these solvers are still largely missing from most automatic differentiation libraries. Here, we derive the forward and reverse-mode derivatives of the solutions to all three types of equations, and showcase their application on an inverse control problem.
翻訳日:2022-09-22 03:31:53 公開日:2020-11-24
# 直交補体への投影を用いた散乱変換に基づく画像クラスタリング

Scattering Transform Based Image Clustering using Projection onto Orthogonal Complement ( http://arxiv.org/abs/2011.11586v2 )

ライセンス: Link先を確認
Angel Villar-Corrales and Veniamin I. Morgenshtern(参考訳) ここ数年、画像クラスタリングの大幅な改善は、ディープラーニングの最近の進歩によって進められている。 しかし、ディープニューラルネットワークのアーキテクチャ上の複雑さのため、ディープクラスタリング技術の成功を説明する数学的理論は存在しない。 本稿では,画像クラスタリングのための最新かつ安定かつ高速なアルゴリズムであるProjected-Scattering Spectral Clustering (PSSC)を紹介する。 PSSCは、小さな画像の散乱変換の幾何学的構造を利用する新しい方法を含む。 この方法は、散乱変換領域において、個々のクラスのデータ行列の最小の固有値に対応する固有ベクトルによって形成される部分空間が、ほとんど異なるクラス間で共有されているという観察から着想を得ている。 したがって、これらの共有サブスペースを投影することでクラス内変数が減少し、クラスタリング性能が大幅に向上する。 我々はこの手法を射影を直交補足(POC)と呼ぶ。 実験により,psscはすべての浅層クラスタリングアルゴリズムにおいて最高の結果を得た。 さらに、現在の最先端のクラスタリング技術と同等のクラスタリング性能を実現し、実行時間を1桁以上削減する。 再現可能な研究の精神では、論文とともに高品質なコードリポジトリを公開しています。

In the last few years, large improvements in image clustering have been driven by the recent advances in deep learning. However, due to the architectural complexity of deep neural networks, there is no mathematical theory that explains the success of deep clustering techniques. In this work we introduce Projected-Scattering Spectral Clustering (PSSC), a state-of-the-art, stable, and fast algorithm for image clustering, which is also mathematically interpretable. PSSC includes a novel method to exploit the geometric structure of the scattering transform of small images. This method is inspired by the observation that, in the scattering transform domain, the subspaces formed by the eigenvectors corresponding to the few largest eigenvalues of the data matrices of individual classes are nearly shared among different classes. Therefore, projecting out those shared subspaces reduces the intra-class variability, substantially increasing the clustering performance. We call this method Projection onto Orthogonal Complement (POC). Our experiments demonstrate that PSSC obtains the best results among all shallow clustering algorithms. Moreover, it achieves comparable clustering performance to that of recent state-of-the-art clustering techniques, while reducing the execution time by more than one order of magnitude. In the spirit of reproducible research, we publish a high quality code repository along with the paper.
翻訳日:2022-09-22 02:28:05 公開日:2020-11-24
# 人間の運動予測のための逆リファインメントネットワーク

Adversarial Refinement Network for Human Motion Prediction ( http://arxiv.org/abs/2011.11221v2 )

ライセンス: Link先を確認
Xianjin Chao, Yanrui Bin, Wenqing Chu, Xuan Cao, Yanhao Ge, Chengjie Wang, Jilin Li, Feiyue Huang, Howard Leung(参考訳) ヒトの動き予測は、人間の動きを入力として限定することで、将来の3次元骨格配列を予測することを目的としている。 リカレントニューラルネットワークとフィードフォワードディープネットワークという2つの一般的な手法は、粗い動きの傾向を予測することができるが、手足の動きのような動きの詳細は失われる可能性がある。 より正確な未来の人間の動きを予測するために,新たな逆誤差増大を伴う簡易かつ効果的な粗大きめ機構に追従して,Adversarial Refinement Network (ARNet)を提案する。 具体的には,過去の動き系列と粗い予測の両方を逐次的改良ネットワークの入力として捉え,改良された人間の動きを予測し,逆誤差増減による改良ネットワークを強化した。 トレーニング中,異なる被験者の対向メカニズムを学習することで,エラー分布を意図的に導入する。 実験では,粗い予測器からの予測誤差を軽減し,より高精度な予測を行う。 この敵対的エラー拡張により、改良ネットワークへの入力として豊富なエラーケースが提供され、テストデータセットの一般化パフォーマンスが向上します。 3つの標準ベンチマークデータセットについて広範な実験を行い,提案手法が他の最先端手法,特に短期的および長期的予測における非周期的行動よりも優れていることを示す。

Human motion prediction aims to predict future 3D skeletal sequences by giving a limited human motion as inputs. Two popular methods, recurrent neural networks and feed-forward deep networks, are able to predict rough motion trend, but motion details such as limb movement may be lost. To predict more accurate future human motion, we propose an Adversarial Refinement Network (ARNet) following a simple yet effective coarse-to-fine mechanism with novel adversarial error augmentation. Specifically, we take both the historical motion sequences and coarse prediction as input of our cascaded refinement network to predict refined human motion and strengthen the refinement network with adversarial error augmentation. During training, we deliberately introduce the error distribution by learning through the adversarial mechanism among different subjects. In testing, our cascaded refinement network alleviates the prediction error from the coarse predictor resulting in a finer prediction robustly. This adversarial error augmentation provides rich error cases as input to our refinement network, leading to better generalization performance on the testing dataset. We conduct extensive experiments on three standard benchmark datasets and show that our proposed ARNet outperforms other state-of-the-art methods, especially on challenging aperiodic actions in both short-term and long-term predictions.
翻訳日:2022-09-22 02:21:42 公開日:2020-11-24
# 学習済みノイズによるレガシー写真の編集

Legacy Photo Editing with Learned Noise Prior ( http://arxiv.org/abs/2011.11309v2 )

ライセンス: Link先を確認
Zhao Yuzhi, Po Lai-Man, Wang Xuehui, Liu Kangcheng, Zhang Yujia, Yu Wing-Yin, Xian Pengfei, Xiong Jingjing(参考訳) 前世紀には、望ましくない状況下で撮影された写真がかなり多い。 そのため、しばしば騒がしく、地域的に不完全で、グレースケールの形式になっている。 従来のアプローチは主に、その修復結果が知覚的に鋭く、清潔でないように、一点に焦点を当てている。 これらの問題を解決するため、未ペア画像を用いた実画像のノイズ分布をシミュレートするノイズ先行学習者NEGANを提案する。 主にノイズ統計の大部分を含むため、離散ウェーブレット変換(DWT)によるノイズ画像の高周波部分のマッチングに重点を置いている。 また、先行してノイズを学習するための大きなレガシーな写真データセットも作成します。 学習ノイズを事前に使用することで,クリーンイメージの劣化による適切なトレーニングペアの構築が容易になる。 そして、推定雑音に基づいて、共同装飾、着色、着色を含む画像編集を行うIEGANフレームワークを提案する。 提案システムを評価し,最先端画像強調手法と比較する。 実験の結果,最高の知覚品質が得られることが示された。 コードと提案されたLPデータセット用のhttps://github.com/zhaoyuzhi/Legacy-Photo-Editing-with-Learned-Noise-Prior。

There are quite a number of photographs captured under undesirable conditions in the last century. Thus, they are often noisy, regionally incomplete, and grayscale formatted. Conventional approaches mainly focus on one point so that those restoration results are not perceptually sharp or clean enough. To solve these problems, we propose a noise prior learner NEGAN to simulate the noise distribution of real legacy photos using unpaired images. It mainly focuses on matching high-frequency parts of noisy images through discrete wavelet transform (DWT) since they include most of noise statistics. We also create a large legacy photo dataset for learning noise prior. Using learned noise prior, we can easily build valid training pairs by degrading clean images. Then, we propose an IEGAN framework performing image editing including joint denoising, inpainting and colorization based on the estimated noise prior. We evaluate the proposed system and compare it with state-of-the-art image enhancement methods. The experimental results demonstrate that it achieves the best perceptual quality. https://github.com/zhaoyuzhi/Legacy-Photo-Editing-with-Learned-Noise-Prior for the codes and the proposed LP dataset.
翻訳日:2022-09-22 02:20:27 公開日:2020-11-24
# コスト対応ベイズ最適化のためのパレート効率のよい取得関数

Pareto-efficient Acquisition Functions for Cost-Aware Bayesian Optimization ( http://arxiv.org/abs/2011.11456v2 )

ライセンス: Link先を確認
Gauthier Guinet, Valerio Perrone and C\'edric Archambeau(参考訳) ベイズ最適化(BO)は高価なブラックボックス関数を最適化する一般的な方法である。 ハイパーパラメータ評価がほぼ同じコストであるという暗黙の仮定の下で、機械学習アルゴリズムを効率的にチューニングする。 実際には、時間、ドル、エネルギーといった異なるハイパーパラメータを評価するコストは、何桁もの差がある可能性がある。 BOのコストを意識するために多くのヒューリスティックが提案されているが、いずれも堅牢に機能することが証明されていない。 本研究では,パレート効率の観点からコスト認識BOを再構成し,一般的な獲得関数の欠点を浮き彫りにする数学的対象であるパレートフロントを導入する。 そこで本研究では,期待される改良のパレート効率の高い適応法を提案する。 実世界のブラックボックス関数最適化問題144では、我々のパレート効率の獲得関数が従来のソリューションよりも大幅に優れており、50%のスピードアップを実現し、コスト精度のトレードオフをより細かく制御できることが示されている。 また,gaussian process cost modelの一般的な選択を再考し,単純で低分散なコストモデルがトレーニング時間を効果的に予測できることを示した。

Bayesian optimization (BO) is a popular method to optimize expensive black-box functions. It efficiently tunes machine learning algorithms under the implicit assumption that hyperparameter evaluations cost approximately the same. In reality, the cost of evaluating different hyperparameters, be it in terms of time, dollars or energy, can span several orders of magnitude of difference. While a number of heuristics have been proposed to make BO cost-aware, none of these have been proven to work robustly. In this work, we reformulate cost-aware BO in terms of Pareto efficiency and introduce the cost Pareto Front, a mathematical object allowing us to highlight the shortcomings of commonly used acquisition functions. Based on this, we propose a novel Pareto-efficient adaptation of the expected improvement. On 144 real-world black-box function optimization problems we show that our Pareto-efficient acquisition functions significantly outperform previous solutions, bringing up to 50% speed-ups while providing finer control over the cost-accuracy trade-off. We also revisit the common choice of Gaussian process cost models, showing that simple, low-variance cost models predict training times effectively.
翻訳日:2022-09-22 01:27:15 公開日:2020-11-24
# 深層学習に基づく化学動力学のためのODEソルバ

A deep learning-based ODE solver for chemical kinetics ( http://arxiv.org/abs/2012.12654v1 )

ライセンス: Link先を確認
Tianhan Zhang, Yaoyu Zhang, Weinan E, Yiguang Ju(参考訳) 化学統合のための効率的で正確なアルゴリズムの開発は、その強い剛性と高次元のため難しい課題である。 現在の研究はDeepCombustion0.0と呼ばれる深層学習に基づく数値計算法で、硬い常微分方程式を解く。 54種を含むdme/air混合物の均質な自己発火は,アルゴリズムの妥当性と精度を示す一例である。 トレーニングと試験データセットは750-1200 K、30-50 atm、同値比0.7-1.5の幅広い温度、圧力、混合条件をカバーする。 第1段低温点火(LTI)と第2段高温点火(HTI)の両方を考慮する。 この方法論は、適応データサンプリング技術、電力変換前処理、バイナリディープニューラルネットワーク(DNN)設計の重要性を強調している。 適応的ランダムサンプリングと適切なパワー変換を用いて、状態ベクトル位相空間内の滑らかな部分多様体を観察し、2つの3層DNNを適切に訓練することができる。 ニューラルネットワークはエンドツーエンドであり、状態ベクトルの時間勾配を直接予測する。 その結果,dnnが予測する時間変化は,温度,圧力,種濃度を含む全ての状態ベクトル次元における従来の数値手法とよく一致することがわかった。 また、着火遅延時間差は1%以内である。 同時に、HMTS法やVODE法と比較して、CPU時間を20回以上、200回以上短縮する。 現在の研究は、深層学習アルゴリズムを化学動力学や燃焼モデリングに応用する巨大な可能性を実証している。

Developing efficient and accurate algorithms for chemistry integration is a challenging task due to its strong stiffness and high dimensionality. The current work presents a deep learning-based numerical method called DeepCombustion0.0 to solve stiff ordinary differential equation systems. The homogeneous autoignition of DME/air mixture, including 54 species, is adopted as an example to illustrate the validity and accuracy of the algorithm. The training and testing datasets cover a wide range of temperature, pressure, and mixture conditions between 750-1200 K, 30-50 atm, and equivalence ratio = 0.7-1.5. Both the first-stage low-temperature ignition (LTI) and the second-stage high-temperature ignition (HTI) are considered. The methodology highlights the importance of the adaptive data sampling techniques, power transform preprocessing, and binary deep neural network (DNN) design. By using the adaptive random samplings and appropriate power transforms, smooth submanifolds in the state vector phase space are observed, on which two three-layer DNNs can be appropriately trained. The neural networks are end-to-end, which predict temporal gradients of the state vectors directly. The results show that temporal evolutions predicted by DNN agree well with traditional numerical methods in all state vector dimensions, including temperature, pressure, and species concentrations. Besides, the ignition delay time differences are within 1%. At the same time, the CPU time is reduced by more than 20 times and 200 times compared with the HMTS and VODE method, respectively. The current work demonstrates the enormous potential of applying the deep learning algorithm in chemical kinetics and combustion modeling.
翻訳日:2022-09-21 14:40:48 公開日:2020-11-24
# 短い軌道から動的システムを安全に学習する

Safely Learning Dynamical Systems from Short Trajectories ( http://arxiv.org/abs/2011.12257v1 )

ライセンス: Link先を確認
Amir Ali Ahmadi, Abraar Chaudhry, Vikas Sindhwani, Stephen Tu(参考訳) 未知力学系の制御を学ぶ上での基本的な課題は、安全性を維持しながら測定を行うことによるモデルの不確かさを減らすことである。 本研究では,次の軌道の始点を逐次決定することで,力学系を安全に学習することの意味を数学的に定義する。 本フレームワークでは,これまでに収集した情報と整合性のあるすべての力学系の(おそらく繰り返される)動作の下で,システム状態が所定の安全領域内に留まることが要求される。 最初の2つの結果について、線形力学を安全に学習するための設定を検討する。 本稿では,長さ1の軌跡から真の力学を安全に復元するか,安全な学習が不可能であることを証明した線形プログラミングに基づくアルゴリズムを提案する。 また,長さ2の軌道が安全領域に留まることを保証した初期条件の集合の効率的な半定値表現を与える。 最後に,非線形力学系を安全に学習する問題について検討する。 システムダイナミクスの1つの応用後に安全領域に留まることが保証される初期条件の集合の2次コーンプログラミングに基づく表現を与える。

A fundamental challenge in learning to control an unknown dynamical system is to reduce model uncertainty by making measurements while maintaining safety. In this work, we formulate a mathematical definition of what it means to safely learn a dynamical system by sequentially deciding where to initialize the next trajectory. In our framework, the state of the system is required to stay within a given safety region under the (possibly repeated) action of all dynamical systems that are consistent with the information gathered so far. For our first two results, we consider the setting of safely learning linear dynamics. We present a linear programming-based algorithm that either safely recovers the true dynamics from trajectories of length one, or certifies that safe learning is impossible. We also give an efficient semidefinite representation of the set of initial conditions whose resulting trajectories of length two are guaranteed to stay in the safety region. For our final result, we study the problem of safely learning a nonlinear dynamical system. We give a second-order cone programming based representation of the set of initial conditions that are guaranteed to remain in the safety region after one application of the system dynamics.
翻訳日:2022-09-21 14:40:25 公開日:2020-11-24
# マルコフジャンプ線形二次制御の政策最適化:勾配法と大域収束

Policy Optimization for Markovian Jump Linear Quadratic Control: Gradient-Based Methods and Global Convergence ( http://arxiv.org/abs/2011.11852v1 )

ライセンス: Link先を確認
Joao Paulo Jansch-Porto, Bin Hu, Geir Dullerud(参考訳) 近年,強化学習への関心が高まり,制御目的の政策最適化が注目されている。 本稿では,離散時間マルコフジャンプ線形システム(mjls)の二次最適制御のための勾配に基づくポリシー最適化手法のグローバル収束について検討する。 まず、静的状態フィードバックコントローラと2次性能コストを用いたMJLSの直接ポリシー最適化の最適化状況について検討する。 結果の非凸性にも拘わらず、保磁力、勾配支配、ほぼ滑らかさなどいくつかの有用な性質を同定することができる。 これらの特性に基づき, 勾配降下法, gauss-newton法, および自然政策勾配法という3種類のポリシー最適化法を大域的に収束させた。 平均二乗安定化であるコントローラを初期化した場合, 3つの手法が線形速度でMJLSの最適状態フィードバックコントローラに収束することを証明する。 いくつかの数値的な例が理論を支持するために提示される。 この研究はマルコフジャンプ線型二次制御問題におけるポリシー勾配法の性能を理解するための新たな洞察をもたらす。

Recently, policy optimization for control purposes has received renewed attention due to the increasing interest in reinforcement learning. In this paper, we investigate the global convergence of gradient-based policy optimization methods for quadratic optimal control of discrete-time Markovian jump linear systems (MJLS). First, we study the optimization landscape of direct policy optimization for MJLS, with static state feedback controllers and quadratic performance costs. Despite the non-convexity of the resultant problem, we are still able to identify several useful properties such as coercivity, gradient dominance, and almost smoothness. Based on these properties, we show global convergence of three types of policy optimization methods: the gradient descent method; the Gauss-Newton method; and the natural policy gradient method. We prove that all three methods converge to the optimal state feedback controller for MJLS at a linear rate if initialized at a controller which is mean-square stabilizing. Some numerical examples are presented to support the theory. This work brings new insights for understanding the performance of policy gradient methods on the Markovian jump linear quadratic control problem.
翻訳日:2022-09-21 14:32:01 公開日:2020-11-24
# 強い凸問題に対する積分フィードバックを用いた分散ミラーの線形収束

Linear Convergence of Distributed Mirror Descent with Integral Feedback for Strongly Convex Problems ( http://arxiv.org/abs/2011.12233v1 )

ライセンス: Link先を確認
Youbang Sun, Shahin Shahrampour(参考訳) 分散最適化は、しばしば局所関数の和として書かれたグローバル目的関数の最小値を見つける必要がある。 エージェントのグループは、グローバル関数を最小化するために一括して働く。 本研究では,局所勾配情報を用いて最適解に収束する連続時間分散ミラー降下アルゴリズムについて検討する。 このアルゴリズムは、積分フィードバックの概念を用いてエージェント間のコンセンサスを強制する。 sun と shahrampour (2020) は、大域関数が強凸であるが局所関数が凸である場合のこのアルゴリズムの漸近収束を研究した。 本研究では,制御理論ツールを用いて,このアルゴリズムが(局所的な)指数収束を実現することを証明している。 また,アルゴリズムの収束速度の検証として,実データ集合に関する数値実験を行った。

Distributed optimization often requires finding the minimum of a global objective function written as a sum of local functions. A group of agents work collectively to minimize the global function. We study a continuous-time decentralized mirror descent algorithm that uses purely local gradient information to converge to the global optimal solution. The algorithm enforces consensus among agents using the idea of integral feedback. Recently, Sun and Shahrampour (2020) studied the asymptotic convergence of this algorithm for when the global function is strongly convex but local functions are convex. Using control theory tools, in this work, we prove that the algorithm indeed achieves (local) exponential convergence. We also provide a numerical experiment on a real data-set as a validation of the convergence speed of our algorithm.
翻訳日:2022-09-21 14:30:09 公開日:2020-11-24
# 生産プロセスにおけるデータマイニングの応用

The Application of Data Mining in the Production Processes ( http://arxiv.org/abs/2011.12348v1 )

ライセンス: Link先を確認
Hamza Saad(参考訳) 従来の統計や測定では、すべての産業データを正しい方法で適切な時間で解決することはできない。 オープンマーケットは顧客の増加を意味し、すべての顧客要件を満たすために生産量を増やす必要がある。 今日では、異なる生産プロセスと従来の統計的または限られた測定結果から毎日発生する大きなデータは、すべての日次データを扱うには不十分である。 生産と品質を改善するには、データを分析し、プロセスに関する重要な情報を抽出する必要がある。 データマイニングは産業プロセスや鉱業組合規則などのアルゴリズムで成功し、意思決定木は工業と生産の異なる分野における高い専門的な成果を記録した。 この研究は7つのアルゴリズムを用いて生産データを分析し、業界における最良の結果とアルゴリズムを抽出した。 knn, tree, svm, random forests, ann, na\"ive bayes, adaboostは、この変数が数値かカテゴリかに関わらず、変数を無視せずに3つの属性に基づいてデータを分類するために適用される。 決定木とそのアンサンブルアルゴリズム(random forest and adaboost)から得られた曲線の精度と面積(roc)の最良の結果。 したがって、決定木は、特にこのアルゴリズムが数値的・カテゴリー的データを処理できる製造・生産データを扱うための適切なアルゴリズムである。

Traditional statistical and measurements are unable to solve all industrial data in the right way and appropriate time. Open markets mean the customers are increased, and production must increase to provide all customer requirements. Nowadays, large data generated daily from different production processes and traditional statistical or limited measurements are not enough to handle all daily data. Improve production and quality need to analyze data and extract the important information about the process how to improve. Data mining applied successfully in the industrial processes and some algorithms such as mining association rules, and decision tree recorded high professional results in different industrial and production fields. The study applied seven algorithms to analyze production data and extract the best result and algorithm in the industry field. KNN, Tree, SVM, Random Forests, ANN, Na\"ive Bayes, and AdaBoost applied to classify data based on three attributes without neglect any variables whether this variable is numerical or categorical. The best results of accuracy and area under the curve (ROC) obtained from Decision tree and its ensemble algorithms (Random Forest and AdaBoost). Thus, a decision tree is an appropriate algorithm to handle manufacturing and production data especially this algorithm can handle numerical and categorical data.
翻訳日:2022-09-21 14:29:56 公開日:2020-11-24
# 信頼と検証:偽りの制約付き学習による予測信頼性の割り当て

Trust but Verify: Assigning Prediction Credibility by Counterfactual Constrained Learning ( http://arxiv.org/abs/2011.12344v1 )

ライセンス: Link先を確認
Luiz F. O. Chamon and Santiago Paternain and Alejandro Ribeiro(参考訳) 信頼区間や確率分布の形での予測信頼性測定は、統計学や機械学習において、モデルの堅牢性を特徴づけ、配布外サンプル(アウトリー)を検出し、敵の攻撃から保護する基礎となる。 効果的には これらの措置は (i)実用の多種多様なモデルについて説明。 二 訓練モデルの計算可能、又は少なくとも確立した訓練手順の変更を避けること。 三 基礎となるモデルと同じ堅牢性の問題及び攻撃にそれらを公開することができるデータの使用を禁止し、 (iv)理論的な保証が続く。 これらの原則は、この研究で開発された枠組みを基礎として、リスクに適合するトレードオフとしての信頼性、すなわちモデル入力を摂動させることによる適合度の向上と、この摂動の大きさ(リスク)との妥協を表現している。 制約付き最適化定式化と双対性理論を用いて、この妥協を解析し、複数の摂動をテストすることなく、このバランスが反実的に決定可能であることを示す。 この結果、任意の(おそらく凸でない)微分可能モデルに対する予測信頼性を、rkhsベースの解から任意のニューラルネットワークのアーキテクチャ(フィードフォワード、畳み込み、グラフ)に割り当てる、教師なしの後続的な方法が生まれる。 その用途は、データフィルタリングと敵の攻撃に対する防御で示される。

Prediction credibility measures, in the form of confidence intervals or probability distributions, are fundamental in statistics and machine learning to characterize model robustness, detect out-of-distribution samples (outliers), and protect against adversarial attacks. To be effective, these measures should (i) account for the wide variety of models used in practice, (ii) be computable for trained models or at least avoid modifying established training procedures, (iii) forgo the use of data, which can expose them to the same robustness issues and attacks as the underlying model, and (iv) be followed by theoretical guarantees. These principles underly the framework developed in this work, which expresses the credibility as a risk-fit trade-off, i.e., a compromise between how much can fit be improved by perturbing the model input and the magnitude of this perturbation (risk). Using a constrained optimization formulation and duality theory, we analyze this compromise and show that this balance can be determined counterfactually, without having to test multiple perturbations. This results in an unsupervised, a posteriori method of assigning prediction credibility for any (possibly non-convex) differentiable model, from RKHS-based solutions to any architecture of (feedforward, convolutional, graph) neural network. Its use is illustrated in data filtering and defense against adversarial attacks.
翻訳日:2022-09-21 14:22:49 公開日:2020-11-24
# FireSRnet:地球科学による気候変動による火災リスクの超解法

FireSRnet: Geoscience-Driven Super-Resolution of Future Fire Risk from Climate Change ( http://arxiv.org/abs/2011.12353v1 )

ライセンス: Link先を確認
Tristan Ballard and Gopal Erinjippurath(参考訳) 近年、世界中で度重なる火災が発生しており、火災行動における気候変動の役割を理解することは、現在および将来の火災リスクの定量化に不可欠である。 しかし、地球規模の気候モデルは通常、局所的なリスク評価には粗い空間スケールでの火災挙動をシミュレートする。 そこで本稿では,2000年から2020年までの月次衛星観測だけでなく,土地被覆や気温に関する地域情報も含む,超解像(sr)による火災リスク曝露マップの高度化に向けた新しいアプローチを提案する。 SRアーキテクチャに着想を得て, 火災リスク露光マップ上で, SRのために訓練された効率的なディープラーニングモデルを提案する。 本モデルでは,解像度向上に関する評価を行い,標準画像補間技術よりも4倍,8倍の精度で性能を向上する。 次に,このSRモデルの北カリフォルニアおよびニューサウスウェールズ州における一般化可能性を示す。 我々は,2040年と2100年の火災リスクの気候モデルシミュレーションへの提案モデルの適用を議論し,最新の気象モデルからSRによる火災リスクマップの強化の可能性について考察した。

With fires becoming increasingly frequent and severe across the globe in recent years, understanding climate change's role in fire behavior is critical for quantifying current and future fire risk. However, global climate models typically simulate fire behavior at spatial scales too coarse for local risk assessments. Therefore, we propose a novel approach towards super-resolution (SR) enhancement of fire risk exposure maps that incorporates not only 2000 to 2020 monthly satellite observations of active fires but also local information on land cover and temperature. Inspired by SR architectures, we propose an efficient deep learning model trained for SR on fire risk exposure maps. We evaluate this model on resolution enhancement and find it outperforms standard image interpolation techniques at both 4x and 8x enhancement while having comparable performance at 2x enhancement. We then demonstrate the generalizability of this SR model over northern California and New South Wales, Australia. We conclude with a discussion and application of our proposed model to climate model simulations of fire risk in 2040 and 2100, illustrating the potential for SR enhancement of fire risk maps from the latest state-of-the-art climate models.
翻訳日:2022-09-21 14:22:26 公開日:2020-11-24
# Lethean攻撃: オンラインデータ中毒技術

Lethean Attack: An Online Data Poisoning Technique ( http://arxiv.org/abs/2011.12355v1 )

ライセンス: Link先を確認
Eyal Perry(参考訳) データ中毒は、攻撃者が学習を覆すために特別に作られたサンプルをオンラインモデルにフィードする逆シナリオである。 オンラインモデル上で破滅的な忘れを誘発する新しいデータ中毒手法であるLethean Attackを紹介した。 この攻撃を,分散シフト下での一般化を目的とした近代オンライン学習フレームワークであるTest-Time Trainingの文脈に応用する。 理論的な理論的根拠を示し,それを自然に忘れてしまう他のサンプル配列と比較する。 その結果,lethean攻撃を用いて,テスト時のトレーニングモデルを,短いサンプルシーケンスを用いてcoin-flip精度に戻すことができた。

Data poisoning is an adversarial scenario where an attacker feeds a specially crafted sequence of samples to an online model in order to subvert learning. We introduce Lethean Attack, a novel data poisoning technique that induces catastrophic forgetting on an online model. We apply the attack in the context of Test-Time Training, a modern online learning framework aimed for generalization under distribution shifts. We present the theoretical rationale and empirically compare it against other sample sequences that naturally induce forgetting. Our results demonstrate that using lethean attacks, an adversary could revert a test-time training model back to coin-flip accuracy performance using a short sample sequence.
翻訳日:2022-09-21 14:22:05 公開日:2020-11-24
# Diffomorphic Optimal Transportation を用いた時空間イメージング

Spatiotemporal Imaging with Diffeomorphic Optimal Transportation ( http://arxiv.org/abs/2011.11906v1 )

ライセンス: Link先を確認
Chong Chen(参考訳) 共同画像再構成と動き推定のための微分型最適輸送を用いた変分モデルを提案する。 提案モデルは,ワッサーシュタイン距離とベナモウ-ブレーニエ式を最適輸送で組立てることと,大変形微分同相距離マッピングに関与する微分同相のフローを合成することであり,大きな微分同相および質量保存変形を伴う時空間イメージングのシナリオに適している。 具体的には、まずbenamou-brenier式を用いて、質量保存画像の流れの中で最適な輸送コストを特徴付け、その速度場を許容ヒルベルト空間に制限し、生成した変形流れが二相性であることを保証する。 次に、ベナモウ・ブレニエ公式の ode-constrained equivalent formula を得る。 最後に、前回の作業で提示したフレームワークに従って、ode制約付きの提案モデルを得る。 さらに、等価なPDE制約付き最適制御定式化を得る。 提案されたモデルは、理論的にいくつかの既存の代替案と比較される。 提案手法は,ODE制約を用いた時間分散モデルの最小化アルゴリズムである。 提案するモデルと関連するアルゴリズムに関するいくつかの重要な問題についても論じる。 特に,提案する二相性最適輸送に基づく複数のポテンシャルモデルを提案する。 適切な条件下では、提案アルゴリズムは二次ワッサースタイン距離を用いてモデルを解くための新しいスキームも提供する。 この性能は時空トモグラフィにおけるいくつかの数値実験によって評価され、データは疎視および/または様々なノイズレベルを持つ関連する逐次画像から測定される。

We propose a variational model with diffeomorphic optimal transportation for joint image reconstruction and motion estimation. The proposed model is a production of assembling the Wasserstein distance with the Benamou--Brenier formula in optimal transportation and the flow of diffeomorphisms involved in large deformation diffeomorphic metric mapping, which is suitable for the scenario of spatiotemporal imaging with large diffeomorphic and mass-preserving deformations. Specifically, we first use the Benamou--Brenier formula to characterize the optimal transport cost among the flow of mass-preserving images, and restrict the velocity field into the admissible Hilbert space to guarantee the generated deformation flow being diffeomorphic. We then gain the ODE-constrained equivalent formulation for Benamou--Brenier formula. We finally obtain the proposed model with ODE constraint following the framework that presented in our previous work. We further get the equivalent PDE-constrained optimal control formulation. The proposed model is compared against several existing alternatives theoretically. The alternating minimization algorithm is presented for solving the time-discretized version of the proposed model with ODE constraint. Several important issues on the proposed model and associated algorithms are also discussed. Particularly, we present several potential models based on the proposed diffeomorphic optimal transportation. Under appropriate conditions, the proposed algorithm also provides a new scheme to solve the models using quadratic Wasserstein distance. The performance is finally evaluated by several numerical experiments in space-time tomography, where the data is measured from the concerned sequential images with sparse views and/or various noise levels.
翻訳日:2022-09-21 14:21:21 公開日:2020-11-24
# DeepShadows: ディープラーニングによる人工物からの低表面明度銀河の分離

DeepShadows: Separating Low Surface Brightness Galaxies from Artifacts using Deep Learning ( http://arxiv.org/abs/2011.12437v1 )

ライセンス: Link先を確認
Dimitrios Tanoglidis, Aleksandra \'Ciprijanovi\'c, Alex Drlica-Wagner(参考訳) 銀河調査における低表面ブライネス銀河(lsbgs)の探索は、多くのアーティファクト(例えば、星や銀河の拡散光にブレンドされた物体、銀河の巻銀河、渦巻銀河の腕の星形成領域など)の存在によって苦しめられている。 数百ペタバイトのデータを収集し、数十億のオブジェクトを検知する将来の調査では、そのようなアプローチは実現できないだろう。 本研究では,コンボリューションニューラルネットワーク(CNN)を用いて,調査画像中の人工物からLSBGを分離する問題について検討する。 私たちは初めて、cnnモデルのトレーニング、検証、テストに使用するdark energy surveyから多くのラベル付きlsbgとアーティファクトを入手したという事実を利用します。 このモデルはdeepshadowsと呼ばれ、テスト精度が92.0セントで、機能ベースの機械学習モデルに比べて大幅に向上している。 また,このモデルを用いてより深い超suprime-camサーベイから物体を分類する能力についても検討し,このモデルが極めて小さなサンプルで再トレーニングされた結果,87.6\%の精度が得られることを示した。 これらの結果は、CNNが低地光度宇宙の研究に非常に有望な道を提供することを示している。

Searches for low-surface-brightness galaxies (LSBGs) in galaxy surveys are plagued by the presence of a large number of artifacts (e.g., objects blended in the diffuse light from stars and galaxies, Galactic cirrus, star-forming regions in the arms of spiral galaxies, etc.) that have to be rejected through time consuming visual inspection. In future surveys, which are expected to collect hundreds of petabytes of data and detect billions of objects, such an approach will not be feasible. We investigate the use of convolutional neural networks (CNNs) for the problem of separating LSBGs from artifacts in survey images. We take advantage of the fact that, for the first time, we have available a large number of labeled LSBGs and artifacts from the Dark Energy Survey, that we use to train, validate, and test a CNN model. That model, which we call DeepShadows, achieves a test accuracy of $92.0 \%$, a significant improvement relative to feature-based machine learning models. We also study the ability to use transfer learning to adapt this model to classify objects from the deeper Hyper-Suprime-Cam survey, and we show that after the model is retrained on a very small sample from the new survey, it can reach an accuracy of $87.6\%$. These results demonstrate that CNNs offer a very promising path in the quest to study the low-surface-brightness universe.
翻訳日:2022-09-21 14:20:57 公開日:2020-11-24
# 自動車用イメージセンサの性能に及ぼす電源ノイズの影響

Impact of Power Supply Noise on Image Sensor Performance in Automotive Applications ( http://arxiv.org/abs/2012.03666v1 )

ライセンス: Link先を確認
Shane Gilroy(参考訳) ビジョンシステムは、すぐにActive Automotive Safety Systemsの重要なコンポーネントになりつつある。 クリティカル・セーフティ・アプリケーションにおいて,これらのシステムは,車線離脱,歩行者検出,衝突検出などのアプリケーションにおいて,ソフトウェア解析に必要な大量の情報コンテンツを提供するために,昼夜両方のシナリオにおいて高品質な画像を生成する必要がある。 低光のシナリオで高品質な画像を撮影する上での課題は、信号対ノイズ比が大幅に減少し、ノイズがキャプチャー画像の主要な要因となり、これらの安全システムが夜間にあまり効果を示さないことである。 低光環境下での自動車用カメラの設計と性能を改善するため, 電気騒音に応答して画像センサの性能をシステマティックに評価する手法の開発が進められている。 画像列ノイズの根本原因が確立され,画像中の行ノイズの大きさを決定する数学的アルゴリズムが考案された。 画像センサ電源の電気ノイズの大きな周波数スペクトルに対応して、性能特性化を可能にする自動キャラクタリゼーション法が開発されている。 低照度用イメージセンサの性能向上のための様々な戦略も研究結果から提案されている。

Vision Systems are quickly becoming a large component of Active Automotive Safety Systems. In order to be effective in critical safety applications these systems must produce high quality images in both daytime and night-time scenarios in order to provide the large informational content required for software analysis in applications such as lane departure, pedestrian detection and collision detection. The challenge in capturing high quality images in low light scenarios is that the signal to noise ratio is greatly reduced, which can result in noise becoming the dominant factor in a captured image, thereby making these safety systems less effective at night. Research has been undertaken to develop a systematic method of characterising image sensor performance in response to electrical noise in order to improve the design and performance of automotive cameras in low light scenarios. The root cause of image row noise has been established and a mathematical algorithm for determining the magnitude of row noise in an image has been devised. An automated characterisation method has been developed to allow performance characterisation in response to a large frequency spectrum of electrical noise on the image sensor power supply. Various strategies of improving image sensor performance for low light applications have also been proposed from the research outcomes.
翻訳日:2022-09-21 14:20:30 公開日:2020-11-24
# Synth2Aug: TTS合成音声を用いたクロスドメイン話者認識

Synth2Aug: Cross-domain speaker recognition with TTS synthesized speech ( http://arxiv.org/abs/2011.11818v1 )

ライセンス: Link先を確認
Yiling Huang, Yutian Chen, Jason Pelecanos, Quan Wang(参考訳) 近年,TTS(Text-To-Speech)は,音声認識のためのデータ拡張手法として用いられ,訓練データにおける不確実性を補うのに役立つ。 そこで本研究では,マルチスピーカttsシステムによる話者認識支援のための音声合成について検討する。 本研究では,比較的少数の話者が訓練に利用できるタスクの分析に注目する。 本稿では,tts合成音声がクロスドメイン話者認識性能を向上し,マルチスタイル学習と効果的に組み合わせることができることを示す。 さらに,TTS合成に使用するテキストの異なるタイプの有効性についても検討する。 以上の結果から,対象領域のテキスト内容のマッチングは良い実践であり,それが実現可能でない場合には,十分な語彙の転写が推奨される。

In recent years, Text-To-Speech (TTS) has been used as a data augmentation technique for speech recognition to help complement inadequacies in the training data. Correspondingly, we investigate the use of a multi-speaker TTS system to synthesize speech in support of speaker recognition. In this study we focus the analysis on tasks where a relatively small number of speakers is available for training. We observe on our datasets that TTS synthesized speech improves cross-domain speaker recognition performance and can be combined effectively with multi-style training. Additionally, we explore the effectiveness of different types of text transcripts used for TTS synthesis. Results suggest that matching the textual content of the target domain is a good practice, and if that is not feasible, a transcript with a sufficiently large vocabulary is recommended.
翻訳日:2022-09-21 14:20:14 公開日:2020-11-24
# 誰がリリー・ケインを殺した? 知識グラフを犯罪フィクションに適用する事例研究

Who killed Lilly Kane? A case study in applying knowledge graphs to crime fiction ( http://arxiv.org/abs/2011.11804v1 )

ライセンス: Link先を確認
Mariam Alaverdian, William Gilroy, Veronica Kirgios, Xia Li, Carolina Matuk, Daniel Mckenzie, Tachin Ruangkriengsin, Andrea Bertozzi, and Jeffrey Brantingham(参考訳) テレビドラマ『ヴェロニカ・マーズ』のシーズン1で作成された知識グラフについて予備研究を行い、彼女の親友のリリー・ケイン殺害の解決を試みた。 我々は、手がかりや潜在的な容疑者の知識グラフをマイニングする様々な手法について論じる。 また,テレビ番組から知識グラフを協調的に構築するためのベストプラクティスについても論じる。

We present a preliminary study of a knowledge graph created from season one of the television show Veronica Mars, which follows the eponymous young private investigator as she attempts to solve the murder of her best friend Lilly Kane. We discuss various techniques for mining the knowledge graph for clues and potential suspects. We also discuss best practice for collaboratively constructing knowledge graphs from television shows.
翻訳日:2022-09-21 14:14:05 公開日:2020-11-24
# Adam$^+$: アダプティブ変数還元を用いた確率的手法

Adam$^+$: A Stochastic Method with Adaptive Variance Reduction ( http://arxiv.org/abs/2011.11985v1 )

ライセンス: Link先を確認
Mingrui Liu, Wei Zhang, Francesco Orabona, Tianbao Yang(参考訳) Adamはディープラーニングアプリケーションに広く使われている確率最適化手法である。 実践者はパラメータチューニングをあまり必要としないためAdamを好むが、その使用は理論的な観点から問題となる。 アダムの変種は証明可能な収束保証で提案されているが、実際的な性能ではアダムと競合しない傾向がある。 本稿では,Adam$^+$(Adam-plusと発音する)という新しい手法を提案する。 Adam$^+$はAdamのキーコンポーネントのいくつかを保持するが、いくつかの顕著な違いもある。 (i)第2モーメント推定の移動平均を維持しず、その代わりに外挿点における第1モーメント推定の移動平均を計算する。 (ii)その適応ステップサイズは、第2モーメント推定の平方根を割ることではなく、第1モーメント推定のノルムの根を割ることによって形成される。 その結果、Adam$^+$はAdamのようにパラメータチューニングをほとんど必要としないが、証明可能な収束を保証する。 さらに、Adam$^+$は適応的な分散還元、すなわち確率勾配推定器の分散はアルゴリズムが収束するにつれて減少し、適応収束を享受することを示す。 また,適応ステップサイズが異なるadam$^+$のより一般的な変種を提案し,その高速収束速度を確立する。 画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$^+$がAdamを著しく上回り,最高の学習SGDと運動量SGDで同等の性能を発揮することを示した。

Adam is a widely used stochastic optimization method for deep learning applications. While practitioners prefer Adam because it requires less parameter tuning, its use is problematic from a theoretical point of view since it may not converge. Variants of Adam have been proposed with provable convergence guarantee, but they tend not be competitive with Adam on the practical performance. In this paper, we propose a new method named Adam$^+$ (pronounced as Adam-plus). Adam$^+$ retains some of the key components of Adam but it also has several noticeable differences: (i) it does not maintain the moving average of second moment estimate but instead computes the moving average of first moment estimate at extrapolated points; (ii) its adaptive step size is formed not by dividing the square root of second moment estimate but instead by dividing the root of the norm of first moment estimate. As a result, Adam$^+$ requires few parameter tuning, as Adam, but it enjoys a provable convergence guarantee. Our analysis further shows that Adam$^+$ enjoys adaptive variance reduction, i.e., the variance of the stochastic gradient estimator reduces as the algorithm converges, hence enjoying an adaptive convergence. We also propose a more general variant of Adam$^+$ with different adaptive step sizes and establish their fast convergence rate. Our empirical studies on various deep learning tasks, including image classification, language modeling, and automatic speech recognition, demonstrate that Adam$^+$ significantly outperforms Adam and achieves comparable performance with best-tuned SGD and momentum SGD.
翻訳日:2022-09-21 14:13:22 公開日:2020-11-24
# 行動逆解析による自動運転車の回避可能なプランナー故障の発見

Discovering Avoidable Planner Failures of Autonomous Vehicles using Counterfactual Analysis in Behaviorally Diverse Simulation ( http://arxiv.org/abs/2011.11991v1 )

ライセンス: Link先を確認
Daisuke Nishiyama, Mario Ynocente Castro, Shirou Maruyama, Shinya Shiroshita, Karim Hamzaoui, Yi Ouyang, Guy Rosman, Jonathan DeCastro, Kuan-Hui Lee, Adrien Gaidon(参考訳) 自動運転車は、公道への配備前にできるだけ多くの安全-クリティカルな障害を検出するために、シミュレーションで徹底的なテストを必要とする。 本研究では,自律ロボットの中心的な意思決定要素である計画アルゴリズムに着目した。 行動に多様なトラフィック参加者をシミュレートする上で,近年の進歩を生かしたプランナーテストフレームワークを提案する。 大規模検索を用いて,衝突に至る動的シナリオの生成,検出,特徴付けを行う。 特に、避けられない事故と避けられない事故を区別する手法を提案し、特に、デプロイ前に修正しなければならないプランナー固有の欠陥を自動的に見つけることに重点を置いている。 複雑なマルチエージェント交叉シナリオの実験を通して,本手法は多岐にわたる重要なプランナー故障を実際に発見できることを示す。

Automated Vehicles require exhaustive testing in simulation to detect as many safety-critical failures as possible before deployment on public roads. In this work, we focus on the core decision-making component of autonomous robots: their planning algorithm. We introduce a planner testing framework that leverages recent progress in simulating behaviorally diverse traffic participants. Using large scale search, we generate, detect, and characterize dynamic scenarios leading to collisions. In particular, we propose methods to distinguish between unavoidable and avoidable accidents, focusing especially on automatically finding planner-specific defects that must be corrected before deployment. Through experiments in complex multi-agent intersection scenarios, we show that our method can indeed find a wide range of critical planner failures.
翻訳日:2022-09-21 14:12:54 公開日:2020-11-24
# マルチタスク学習と分子構造表現による親和性予測

Lipophilicity Prediction with Multitask Learning and Molecular Substructures Representation ( http://arxiv.org/abs/2011.12117v1 )

ライセンス: Link先を確認
Nina Lukashina, Alisa Alenicheva, Elizaveta Vlasova, Artem Kondiukov, Aigul Khakimova, Emil Magerramov, Nikita Churikov, Aleksei Shpilman(参考訳) 脂肪親和性は、細胞膜の薬物分子への透過性を決定する因子の1つである。 したがって、新しい薬物の開発には、正確な脂肪増悪予測が不可欠である。 本稿では,分子構造を抽出し,新たなグラフ情報を符号化する手法を提案する。 確立されたダイレクトメッセージパッシングニューラルネットワーク(D-MPNN)にこれらのサブ構造の一般化された原子的特徴セットを追加することで、logPとlogD記述子という2つの主要な脂肪度係数の予測タスクにおいて、新しい最先端の結果を得ることができた。 マルチタスクアプローチを用いてlogP と logD の値を同時に予測することで、我々のアプローチをさらに改善する。 さらに, 対称および非対称分子のモデル性能について検討し, さらなる研究の手がかりとなる可能性がある。

Lipophilicity is one of the factors determining the permeability of the cell membrane to a drug molecule. Hence, accurate lipophilicity prediction is an essential step in the development of new drugs. In this paper, we introduce a novel approach to encoding additional graph information by extracting molecular substructures. By adding a set of generalized atomic features of these substructures to an established Direct Message Passing Neural Network (D-MPNN) we were able to achieve a new state-of-the-art result at the task of prediction of two main lipophilicity coefficients, namely logP and logD descriptors. We further improve our approach by employing a multitask approach to predict logP and logD values simultaneously. Additionally, we present a study of the model performance on symmetric and asymmetric molecules, that may yield insight for further research.
翻訳日:2022-09-21 14:12:15 公開日:2020-11-24
# 曲面アンテナ設計のための強化学習に基づく再利用可能な枠組み

A Reusable Framework Based on Reinforcement Learning to Design Antennas for Curved Surfaces ( http://arxiv.org/abs/2011.12131v1 )

ライセンス: Link先を確認
Enrique Lizarraga and Walter Herrera(参考訳) アンテナの設計と実装は過去数十年間、さまざまな観点から分析されてきたが、目的はデバイスのサイズが小さく、適切な電磁的挙動を持つことである。 この研究は小さなアンテナを識別する方法論を追求し、いくつかの類似点を示す。 一方、曲面は小型の特定の種類のアンテナに対して考慮されている。 いわゆる深層強化学習手法は,本研究で特に考慮される形態変化に対する支援として用いられる。 その目的は、公共のインフラ(例えば信号機や照明)に頻繁に存在するような金属管の表面に効率的に取り付けられるアンテナを識別することである。 その動機は、視覚的な衝撃を減らし、アンテナの放射パターンを最適化することである。 曲率半径や材料の電磁特性などの変数の変化が現れると、(機械学習技術を用いて)問題の根底にある特性を自動的に識別し、効率的に設計を修正できることを解析した。 この研究で得られた結果は、アンテナのインピーダンスや放射パターンを特徴付けるために一般的に用いられる変数に基づいて分析される。

The design and implementation of low-profile antennas has been analyzed in past decades from different perspectives while the purpose is to have a small size in the device, and an adequate electromagnetic behavior. This work pursues a methodology to identify small antennas and consequently presents some similarities. Meanwhile, curved surfaces are considered for a certain variety of antennas with reduced size. The so-called deep reinforcement learning technique is used as an assistance against morphological variations that are specifically taken into account in this work. The objective is to identify antennas that can be efficiently mounted on the surface of metal tubes such as those frequently present in public infrastructure (e.g. traffic lights and luminaries). The motivation is to reduce the visual impact and optimize the radiation pattern of the antenna. It is analyzed that if changes in variables such as the radius of curvature, or the electromagnetic properties of the materials appear, an automatic identification of the underlying characteristics of the problem (by means of machine learning techniques) can readjust the design efficiently. The results obtained in this work are analyzed based on variables that are typically used to characterize antennas, such as their impedance and radiation pattern.
翻訳日:2022-09-21 14:11:59 公開日:2020-11-24
# 患者調査データに基づく新型コロナウイルス診断支援分類

Classification supporting COVID-19 diagnostics based on patient survey data ( http://arxiv.org/abs/2011.12247v1 )

ライセンス: Link先を確認
Joanna Henzel, Joanna Tobiasz, Micha{\l} Kozielski, Ma{\l}gorzata Bach, Pawe{\l} Foszner, Aleksandra Gruca, Mateusz Kania, Justyna Mika, Anna Papiez, Aleksandra Werner, Joanna Zyla, and Jerzy Jaroszewicz, Joanna Polanska, Marek Sikora(参考訳) インフルエンザと他のインフルエンザのような病気を区別することは、あいまいな症状と医師の最初の経験によって難しい可能性がある。 一方,sars-cov-2感染の検査を必要としない患者,特に疾患が圧倒的に増加している患者を除外することが重要である。 この研究の一環として、新型コロナウイルス患者の効果的なスクリーニングを可能にするロジスティック回帰とXGBoost分類器が作成された。 それぞれの手法は分類中に負の予測値の許容しきい値を達成するように調整された。 さらに,得られた分類モデルの説明を行った。 この説明により、ユーザーはモデルによる決定の根拠が何であるかを理解することができる。 得られた分類モデルは、DECODEサービス(decode.polsl.pl)の基礎を提供し、COVID-19病患者のスクリーニング支援に役立つ。 また、実施した分析の基礎を構成するデータセットを研究コミュニティに提供する。 3000以上の例からなるこのデータセットは、ポーランドの病院で収集されたアンケートに基づいている。

Distinguishing COVID-19 from other flu-like illnesses can be difficult due to ambiguous symptoms and still an initial experience of doctors. Whereas, it is crucial to filter out those sick patients who do not need to be tested for SARS-CoV-2 infection, especially in the event of the overwhelming increase in disease. As a part of the presented research, logistic regression and XGBoost classifiers, that allow for effective screening of patients for COVID-19, were generated. Each of the methods was tuned to achieve an assumed acceptable threshold of negative predictive values during classification. Additionally, an explanation of the obtained classification models was presented. The explanation enables the users to understand what was the basis of the decision made by the model. The obtained classification models provided the basis for the DECODE service (decode.polsl.pl), which can serve as support in screening patients with COVID-19 disease. Moreover, the data set constituting the basis for the analyses performed is made available to the research community. This data set consisting of more than 3,000 examples is based on questionnaires collected at a hospital in Poland.
翻訳日:2022-09-21 14:11:45 公開日:2020-11-24
# 5Gスタンドアローン(SA)自己組織化ネットワーク(SON)における機械学習(ML)

Machine Learning (ML) In a 5G Standalone (SA) Self Organizing Network (SON) ( http://arxiv.org/abs/2011.12288v1 )

ライセンス: Link先を確認
Srinivasan Sridharan(参考訳) 機械学習(ML)は、運用、管理、保守(OAM)活動を強化する上で重要な要素である自己組織化ネットワーク(SON)に含まれる。 5G Standalone (SA)システムには、4Gネットワークをモバイルアプリケーションに基づく次世代技術に変換する5G通信トラックの1つである。 この研究の主な目的は、5Gスタンドアロンコアネットワークにおける機械学習(ML)の概要である。 5G Standaloneは、ネットワークをエッジにするスループットの有効性を改善するため、サービスプロバイダにとって重要なイネーブルであると考えられている。 また、周波数の組み合わせをサポートするultra-reliable low latency communications (urllc)のような新しいセルラーユースケースの進行を支援する。

Machine learning (ML) is included in Self-organizing Networks (SONs) that are key drivers for enhancing the Operations, Administration, and Maintenance (OAM) activities. It is included in the 5G Standalone (SA) system is one of the 5G communication tracks that transforms 4G networking to next-generation technology that is based on mobile applications. The research's main aim is to an overview of machine learning (ML) in 5G standalone core networks. 5G Standalone is considered a key enabler by the service providers as it improves the efficacy of the throughput that edges the network. It also assists in advancing new cellular use cases like ultra-reliable low latency communications (URLLC) that supports combinations of frequencies.
翻訳日:2022-09-21 14:11:29 公開日:2020-11-24
# 複雑な背景下での等方性制約に基づく赤外小目標検出

Infrared small target detection based on isotropic constraint under complex background ( http://arxiv.org/abs/2011.12059v1 )

ライセンス: Link先を確認
Fan Wang(参考訳) 赤外線サーチ・トラッキング(IRST)システムは、国防の分野で広く関心を集め、適用されてきた。 複雑な背景下での小さなターゲット検出は、システムアルゴリズムの開発において非常に難しい課題である。 ターゲットの低信号・クラッタ比(SCR)と不規則な背景クラッタによる干渉は正確な結果を得るのを難しくする。 本稿では,高コントラストとアイソトロピーの2つの特性を持つ小ターゲットについて検討し,アイソトロピーに制約された多層灰色の差分法(MGD)を提案する。 まず、mgdを介して被疑領域を求め、その後、原画像のヘッセン行列の固有値を算出して各領域の等方性パラメータを得る。 最後に、これらの領域は等方的制約条件を満たしない。 実験の結果,提案手法は信号-クラッタ比ゲイン (SCRG) と受信動作特性 (ROC) 曲線の両面で,いくつかの一般的な手法よりも有効で優れていることがわかった。

Infrared search and tracking (IRST) system has been widely concerned and applied in the area of national defence. Small target detection under complex background is a very challenging task in the development of system algorithm. Low signal-to-clutter ratio (SCR) of target and the interference caused by irregular background clutter make it difficult to get an accurate result. In this paper, small targets are considered to have two characteristics of high contrast and isotropy, and we propose a multilayer gray difference (MGD) method constrained by isotropy. Firstly, the suspected regions are obtained through MGD, and then the eigenvalues of the original image's Hessian matrix are calculated to obtain the isotropy parameter of each region. Finally, those regions do not meet the isotropic constraint condition are suppressed. Experiments show that the proposed method is effective and superior to several common methods in terms of signal-to-clutter ratio gain (SCRG) and receiver operating characteristic (ROC) curve.
翻訳日:2022-09-21 14:04:59 公開日:2020-11-24
# 画像から最も有用なトレーニングパッチをサンプリングする学習

Learning to Sample the Most Useful Training Patches from Images ( http://arxiv.org/abs/2011.12097v1 )

ライセンス: Link先を確認
Shuyang Sun, Liang Chen, Gregory Slabaugh, Philip Torr(参考訳) デモサイジングのような画像復元タスクは、効果的なモデルを学ぶのに難しいトレーニングサンプルを必要とする。 既存の方法は、適切なハードサンプルを含む新しいトレーニングデータセットを手動で収集することで、このデータトレーニング問題に対処しようとするが、1つの画像の中にも、依然として困難で単純な領域がある。 本稿では、画像から最も有用なパッチを選択して、手動やランダムな選択の代わりに新しいトレーニングセットを構築する、PatchNetと呼ばれるデータ駆動型アプローチを提案する。 我々の単純なアイデアは、大規模なデータセットから情報的サンプルを自動的に選択することを示し、PSNRの観点で2.35dBの一般化が驚くべき結果となった。 その顕著な効果に加えて、PatchNetはトレーニング中にのみ適用され、推論中に追加の計算コストを必要としないため、リソースフレンドリーである。

Some image restoration tasks like demosaicing require difficult training samples to learn effective models. Existing methods attempt to address this data training problem by manually collecting a new training dataset that contains adequate hard samples, however, there are still hard and simple areas even within one single image. In this paper, we present a data-driven approach called PatchNet that learns to select the most useful patches from an image to construct a new training set instead of manual or random selection. We show that our simple idea automatically selects informative samples out from a large-scale dataset, leading to a surprising 2.35dB generalisation gain in terms of PSNR. In addition to its remarkable effectiveness, PatchNet is also resource-friendly as it is applied only during training and therefore does not require any additional computational cost during inference.
翻訳日:2022-09-21 14:04:40 公開日:2020-11-24
# 低照度自動車におけるcmosイメージセンサの性能特性評価

Characterisation of CMOS Image Sensor Performance in Low Light Automotive Applications ( http://arxiv.org/abs/2011.12436v1 )

ライセンス: Link先を確認
Shane Gilroy, John O'Dwyer and Lucas Bortoleto(参考訳) 自動車メーカーが顧客に対して360度保護を提供しようとしている中、ADAS(Advanced Driver-Assistance Systems)における自動車カメラの応用は急速に伸びている。 視覚システムは、車線離脱、歩行者検出、衝突検出などのアプリケーションでソフトウェア分析に必要な大きな情報コンテンツを生成するために、昼と夜の両方のシナリオで高品質な画像をキャプチャする必要がある。 低照度シナリオで高品質な画像を生成する際の課題は、信号対雑音比が大幅に低減されることである。 これにより、ノイズが捕獲された画像の主要な要因となり、夜間の安全システムがより効果的になる。 本稿では,低照度環境下での自動車用カメラの設計と性能を向上させるため,ノイズに応答した画像センサの性能を体系的に特徴付ける手法について概説する。 本論文で概説した実験は、電源線上の電気ノイズに応答してcmosイメージセンサの性能を評価できることを示すものである。

The applications of automotive cameras in Advanced Driver-Assistance Systems (ADAS) are growing rapidly as automotive manufacturers strive to provide 360 degree protection for their customers. Vision systems must capture high quality images in both daytime and night-time scenarios in order to produce the large informational content required for software analysis in applications such as lane departure, pedestrian detection and collision detection. The challenge in producing high quality images in low light scenarios is that the signal to noise ratio is greatly reduced. This can result in noise becoming the dominant factor in a captured image thereby making these safety systems less effective at night. This paper outlines a systematic method for characterisation of state of the art image sensor performance in response to noise, so as to improve the design and performance of automotive cameras in low light scenarios. The experiment outlined in this paper demonstrates how this method can be used to characterise the performance of CMOS image sensors in response to electrical noise on the power supply lines.
翻訳日:2022-09-21 14:03:22 公開日:2020-11-24
# 一級分類のための最小分散組込み自己結合型カーネルエクストリームラーニングマシン

Minimum Variance Embedded Auto-associative Kernel Extreme Learning Machine for One-class Classification ( http://arxiv.org/abs/2011.12208v1 )

ライセンス: Link先を確認
Pratik K. Mishra, Chandan Gautam, Aruna Tiwari(参考訳) 1クラス分類(OCC)は、分類器を訓練するために単一のクラスからのサンプルを必要とする。 近年,OCCタスクのための自己連想型カーネル極端学習マシンが開発されている。 本稿では,最小分散情報をアーキテクチャ内に埋め込むことにより,この分類器の新たな拡張を提案し,VAAKELMと呼ぶ。 最小分散埋め込みはネットワーク出力重みを低分散領域に集中させ、クラス内分散を減少させる。 これにより、ターゲットサンプルと外れ値の分離が改善され、分類器の一般化性能が向上した。 提案する分類器は,OCCに対する再構成に基づくアプローチに従って,カーネル極端学習マシンをベース分類器として使用することにより,再構成誤差を最小化する。 復元誤差の偏差を利用して外れ値を特定する。 提案する分類器の効率性を示すために,中小1クラスベンチマークデータセット15セットを対象に実験を行った。 比較基準として平均F1スコアを考慮し,既存の13の1クラス分類器と比較した。 実験の結果,VAAKELMは既存の分類器よりも優れた性能を示し,OCCタスクの代替として有効であることがわかった。

One-class classification (OCC) needs samples from only a single class to train the classifier. Recently, an auto-associative kernel extreme learning machine was developed for the OCC task. This paper introduces a novel extension of this classifier by embedding minimum variance information within its architecture and is referred to as VAAKELM. The minimum variance embedding forces the network output weights to focus in regions of low variance and reduces the intra-class variance. This leads to a better separation of target samples and outliers, resulting in an improvement in the generalization performance of the classifier. The proposed classifier follows a reconstruction-based approach to OCC and minimizes the reconstruction error by using the kernel extreme learning machine as the base classifier. It uses the deviation in reconstruction error to identify the outliers. We perform experiments on 15 small-size and 10 medium-size one-class benchmark datasets to demonstrate the efficiency of the proposed classifier. We compare the results with 13 existing one-class classifiers by considering the mean F1 score as the comparison metric. The experimental results show that VAAKELM consistently performs better than the existing classifiers, making it a viable alternative for the OCC task.
翻訳日:2022-09-21 13:56:35 公開日:2020-11-24
# ロボット地形分類のための半教師付きゲーテッドリカレントニューラルネットワーク

Semi-supervised Gated Recurrent Neural Networks for Robotic Terrain Classification ( http://arxiv.org/abs/2011.11913v1 )

ライセンス: Link先を確認
Ahmadreza Ahmadi, T{\o}nnes Nygaard, Navinda Kottege, David Howard, Nicolas Hudson(参考訳) 脚のついたロボットは、さまざまな移動戦略により、挑戦的な地形におけるミッションの候補となっている。 地形分類は、自律脚ロボットにとって重要な技術であり、ロボットは自発的な柔軟性を生かして動作環境の要求に適応させることができる。 本稿では,高能率な機械学習技術,すなわちゲート型リカレントニューラルネットワークにより,対象の足のロボットが,教師付きおよび半教師付き両方の方法で走行する地形を正しく分類できることを示す。 ベンチマークデータセット上でのテストでは、我々の時間領域分類器は、少量のラベルで生および可変長のデータを扱うことができ、周波数領域分類器を超えるレベルまで実行可能である。 我々の拡張データセットの分類結果は、これらの環境に特有の様々な高性能な振る舞いを開きます。 さらに,半教師付きモデルにおいて,生のラベルなしデータを用いて分類結果を大幅に改善する方法を示す。

Legged robots are popular candidates for missions in challenging terrains due to the wide variety of locomotion strategies they can employ. Terrain classification is a key enabling technology for autonomous legged robots, as it allows the robot to harness their innate flexibility to adapt their behaviour to the demands of their operating environment. In this paper, we show how highly capable machine learning techniques, namely gated recurrent neural networks, allow our target legged robot to correctly classify the terrain it traverses in both supervised and semi-supervised fashions. Tests on a benchmark data set shows that our time-domain classifiers are well capable of dealing with raw and variable-length data with small amount of labels and perform to a level far exceeding the frequency-domain classifiers. The classification results on our own extended data set opens up a range of high-performance behaviours that are specific to those environments. Furthermore, we show how raw unlabelled data is used to improve significantly the classification results in a semi-supervised model.
翻訳日:2022-09-21 13:56:17 公開日:2020-11-24
# 予測を伴う契約スケジューリング

Contract Scheduling With Predictions ( http://arxiv.org/abs/2011.12439v1 )

ライセンス: Link先を確認
Spyros Angelopoulos and Shahin Kamali(参考訳) 契約スケジューリングは、必ずしも割り込み可能でないアルゴリズムを考えると、割り込み可能な機能を持つシステムを設計できる一般的な手法である。 このトピックに関する以前の研究は、割り込みはスケジューラに未知の最悪のケースの締め切りである、と大半を仮定している。 そこで本研究では,中断に関する誤った予測の可能性がある設定について検討する。 具体的には、予測が割り込みの発生時刻を記述した設定と、その予測が1つまたは複数のバイナリクエリに対する応答として得られる設定について考察する。 いずれの設定においても,正と負の両方の結果から,ロバスト性(逆予測を仮定する最悪の性能)と一貫性(予測が誤りのない性能を仮定する性能)のトレードオフを検討する。

Contract scheduling is a general technique that allows to design a system with interruptible capabilities, given an algorithm that is not necessarily interruptible. Previous work on this topic has largely assumed that the interruption is a worst-case deadline that is unknown to the scheduler. In this work, we study the setting in which there is a potentially erroneous prediction concerning the interruption. Specifically, we consider the setting in which the prediction describes the time that the interruption occurs, as well as the setting in which the prediction is obtained as a response to a single or multiple binary queries. For both settings, we investigate tradeoffs between the robustness (i.e., the worst-case performance assuming adversarial prediction) and the consistency (i.e, the performance assuming that the prediction is error-free), both from the side of positive and negative results.
翻訳日:2022-09-21 13:56:00 公開日:2020-11-24
# SimTreeLS: 樹木の空中および地上レーザースキャンのシミュレーション

SimTreeLS: Simulating aerial and terrestrial laser scans of trees ( http://arxiv.org/abs/2011.11954v1 )

ライセンス: Link先を確認
Fredrik Westling, Mitch Bryson, James Underwood(参考訳) 地上および空中レーザースキャンによる樹木のデジタル化には,特に農業や林業の分野において,多くの応用がなされている。 LiDARポイントクラウドの解釈は、大量のハンドラベリングデータに依存するデータ駆動手法(教師付き機械学習など)にますます依存している。 このデータはキャプチャが高価で、手動で視覚化やラベル付けが難しいため、シミュレーションデータで実際のLiDARスキャンを補完する手段が、これらの手法の可能性を実現するための必要なステップになりつつある。 我々は,ユーザ定義センサ,軌道,木形状,レイアウトパラメータを用いて走査をシミュレートする点雲を生成するオープンソースツールSimTreeLS(Simulated Tree Laser Scans)を提案する。 シミュレーションでは、材料分類は点的に保たれ、葉や木質は完全に知られ、独特な識別子は個々の木を分離し、シミュレーション後のラベル付けを行う。 これにより、実際のlidarキャプチャと同様の特性を持つ手続き的に生成されたデータを無限に供給することができ、データ処理技術の開発や機械学習アルゴリズムのトレーニングに使用できる。 本手法の有効性を検証するため,模擬走査と実走査の特性を類似木と同一のセンサと軌道パラメータを用いて比較した。 その結果、シミュレーションデータはサンプルベース制御よりも実データに近いことが示唆された。 また、SimTreeLSを実データ以外のコンテキストに適用し、新しい木の形状、新しい軌跡、新しいレイアウトのスキャンをシミュレートし、その結果をよく示す。 SimTreeLSは、公開ライブラリ上に構築されたオープンソースリソースとして利用できる。

There are numerous emerging applications for digitizing trees using terrestrial and aerial laser scanning, particularly in the fields of agriculture and forestry. Interpretation of LiDAR point clouds is increasingly relying on data-driven methods (such as supervised machine learning) that rely on large quantities of hand-labelled data. As this data is potentially expensive to capture, and difficult to clearly visualise and label manually, a means of supplementing real LiDAR scans with simulated data is becoming a necessary step in realising the potential of these methods. We present an open source tool, SimTreeLS (Simulated Tree Laser Scans), for generating point clouds which simulate scanning with user-defined sensor, trajectory, tree shape and layout parameters. Upon simulation, material classification is kept in a pointwise fashion so leaf and woody matter are perfectly known, and unique identifiers separate individual trees, foregoing post-simulation labelling. This allows for an endless supply of procedurally generated data with similar characteristics to real LiDAR captures, which can then be used for development of data processing techniques or training of machine learning algorithms. To validate our method, we compare the characteristics of a simulated scan with a real scan using similar trees and the same sensor and trajectory parameters. Results suggest the simulated data is significantly more similar to real data than a sample-based control. We also demonstrate application of SimTreeLS on contexts beyond the real data available, simulating scans of new tree shapes, new trajectories and new layouts, with results presenting well. SimTreeLS is available as an open source resource built on publicly available libraries.
翻訳日:2022-09-21 13:54:38 公開日:2020-11-24
# オンラインコミュニティ投稿を活用したロボットデートコーチングシステム

A Robotic Dating Coaching System Leveraging Online Communities Posts ( http://arxiv.org/abs/2011.11855v1 )

ライセンス: Link先を確認
Sihyeon Jo, Donghwi Jung, Keonwoo Kim, Eun Gyo Joung, Giulia Nespoli, Seungryong Yoo, Minseob So, Seung-Woo Seo, and Seong-Woo Kim(参考訳) ロボットは個人デートのコーチになれるのか? インターネット上での会話データの増加にもかかわらず、会話ロボットの実装は依然として課題である。 特に、詳細かつ専門的なカウンセリングログは高価であり、公開されていない。 本稿では,オンラインコミュニティのコーパスを活用したロボットデートコーチングシステムの開発を行う。 対話モジュールを用いた出会い型コーチングロボットに対する人々の認識について検討する。 97人が参加してロボットと会話し、そのうち30人がロボットを評価した。 その結果、被験者はロボットがデートのコーチになりうると考えたが、ロボットは役に立たない。

Can a robot be a personal dating coach? Even with the increasing amount of conversational data on the internet, the implementation of conversational robots remains a challenge. In particular, a detailed and professional counseling log is expensive and not publicly accessible. In this paper, we develop a robot dating coaching system leveraging corpus from online communities. We examine people's perceptions of the dating coaching robot with a dialogue module. 97 participants joined to have a conversation with the robot, and 30 of them evaluated the robot. The results indicate that participants thought the robot could become a dating coach while considering the robot is entertaining rather than helpful.
翻訳日:2022-09-21 13:47:47 公開日:2020-11-24
# 老人観からの議論--議論における社会バイアスの評価

Argument from Old Man's View: Assessing Social Bias in Argumentation ( http://arxiv.org/abs/2011.12014v1 )

ライセンス: Link先を確認
Maximilian Splieth\"over, Henning Wachsmuth(参考訳) ジェンダー、民族、年齢、その他の社会集団に対する言語における社会的偏見は、多くのNLPアプリケーションに倫理的影響をもたらす。 近年の研究では、各データでトレーニングされた機械学習モデルが採用されるだけでなく、バイアスを増幅することも示されている。 しかし、これまでのところ、計算議論の偏見にはほとんど注意が払われていない。 本稿では,大規模英語討論ポータルにおける社会的バイアスの存在について検討する。 特に,ポータル固有のコーパス上で単語埋め込みモデルをトレーニングし,単語埋め込みのバイアスを測定する既存の指標であるweatを用いて,そのバイアスを体系的に評価する。 単語共起分析では,バイアスの原因について検討する。 その結果、すべての議論コーパスには不均衡なデータと偏りのあるデータが含まれており、主にヨーロッパ系アメリカ人の名前を持つ男性に有利であることが示唆された。 我々の経験的洞察は、議論的データソースにおけるバイアスの理解に寄与する。

Social bias in language - towards genders, ethnicities, ages, and other social groups - poses a problem with ethical impact for many NLP applications. Recent research has shown that machine learning models trained on respective data may not only adopt, but even amplify the bias. So far, however, little attention has been paid to bias in computational argumentation. In this paper, we study the existence of social biases in large English debate portals. In particular, we train word embedding models on portal-specific corpora and systematically evaluate their bias using WEAT, an existing metric to measure bias in word embeddings. In a word co-occurrence analysis, we then investigate causes of bias. The results suggest that all tested debate corpora contain unbalanced and biased data, mostly in favor of male people with European-American names. Our empirical insights contribute towards an understanding of bias in argumentative data sources.
翻訳日:2022-09-21 13:47:32 公開日:2020-11-24
# 男女向け雑誌におけるジェンダーバイアス--計算論的アプローチ

Gender bias in magazines oriented to men and women: a computational approach ( http://arxiv.org/abs/2011.12096v1 )

ライセンス: Link先を確認
Diego Kozlowski, Gabriela Lozano, Carla M. Felcher, Fernando Gonzalez and Edgar Altszyler(参考訳) 文化商品は個々の価値観や行動の源泉である。 したがって、女性や男性を対象とする雑誌の内容の相違は、ジェンダーのステレオタイプを作成して再現する手段である。 本研究は,2008~2018年において,女性向け雑誌の内容と同一の編集グループによる男性向け雑誌の内容とを比較した。 トピックモデリング技術を用いて,雑誌で議論されている主なテーマを特定し,そのトピックの存在度を時間とともに定量化する。 そこで,本手法を検証するために,単語頻度分析を行い,自動で出現しない他の被験者に分析を拡張した。 以上の結果から,セクシュアオブジェクトとしての家族,ビジネス,女性の出現頻度は,時間とともに消失する傾向にあることが示唆された。 逆に、ファッションとサイエンスのトピックでは、両雑誌の初歩的な違いが維持されている。 また,2012年には女性向け雑誌において,ホロスコープに関連する内容が増加し,時間とともに新たなギャップが生じた。 また、2015年以降、フェミニズムに関連する言葉、特に2018年の「中絶」という言葉の使用が強く増加しています。 全体として、これらの計算ツールは24,000以上の論文を分析できるようにしました。 われわれの知る限り、これは雑誌をこれほど大規模なデータセットで比較する最初の研究であり、これは手作業によるコンテンツ分析手法の使用を禁止していただろう。

Cultural products are a source to acquire individual values and behaviours. Therefore, the differences in the content of the magazines aimed specifically at women or men are a means to create and reproduce gender stereotypes. In this study, we compare the content of a women-oriented magazine with that of a men-oriented one, both produced by the same editorial group, over a decade (2008-2018). With Topic Modelling techniques we identify the main themes discussed in the magazines and quantify how much the presence of these topics differs between magazines over time. Then, we performed a word-frequency analysis to validate this methodology and extend the analysis to other subjects that did not emerge automatically. Our results show that the frequency of appearance of the topics Family, Business and Women as sex objects, present an initial bias that tends to disappear over time. Conversely, in Fashion and Science topics, the initial differences between both magazines are maintained. Besides, we show that in 2012, the content associated with horoscope increased in the women-oriented magazine, generating a new gap that remained open over time. Also, we show a strong increase in the use of words associated with feminism since 2015 and specifically the word abortion in 2018. Overall, these computational tools allowed us to analyse more than 24,000 articles. Up to our knowledge, this is the first study to compare magazines in such a large dataset, a task that would have been prohibitive using manual content analysis methodologies.
翻訳日:2022-09-21 13:47:13 公開日:2020-11-24
# 空間変換率予測のための遅延フィードバックモデル

Delayed Feedback Modeling for the Entire Space Conversion Rate Prediction ( http://arxiv.org/abs/2011.11826v1 )

ライセンス: Link先を確認
Yanshi Wang, Jie Zhang, Qing Da, Anxiang Zeng(参考訳) クリック後変換率(CVR)を正確に推定することはEコマースにおいて重要である。 しかし、CVR予測は通常、3つの大きな課題に悩まされる。 i) データスパーシティ:インプレッションと比較すると、変換サンプルは極めて少ないことが多い。 二 サンプル選択バイアス:従来のCVRモデルは、すべての印象の空間全体を推測しながらクリックインプレッションで訓練する。 iii) 遅延フィードバック: クリックが発生して以来、比較的長くランダムな遅延後にのみ多くの変換が観察でき、トレーニング中に偽陰性ラベルが多数発生する。 それまでの研究は主に1つか2つの問題に焦点を合わせ、他の問題を無視した。 本稿では,上記の3つの課題を同時に解決する新しいニューラルネットワークフレームワークESDFを提案する。 既存の手法とは異なり、ESDFは空間全体の観点からCVR予測をモデル化し、ユーザシーケンシャルな動作パターンと時間遅延係数の利点を組み合わせた。 具体的には、ESDFは、全空間におけるユーザアクションのシーケンシャルな振る舞いを利用して、すべての印象でサンプル選択バイアス問題を緩和する。 CTRとCVRネットワーク間での埋め込みパラメータの共有により、データ空間の問題を大幅に緩和する。 従来の遅延フィードバック法とは異なり、ESDFは遅延分布について特別な仮定をしていない。 本研究は,より実用的で産業に適した深層ニューラルネットワークを用いた生存分析に基づいて,日中遅延時間を識別し,その確率をモデル化する。 本手法の有効性を評価するために広範な実験を行った。 我々の知る限り、ESDFはCVR予測領域における上記の3つの課題を統一的に解決する最初の試みである。

Estimating post-click conversion rate (CVR) accurately is crucial in E-commerce. However, CVR prediction usually suffers from three major challenges in practice: i) data sparsity: compared with impressions, conversion samples are often extremely scarce; ii) sample selection bias: conventional CVR models are trained with clicked impressions while making inference on the entire space of all impressions; iii) delayed feedback: many conversions can only be observed after a relatively long and random delay since clicks happened, resulting in many false negative labels during training. Previous studies mainly focus on one or two issues while ignoring the others. In this paper, we propose a novel neural network framework ESDF to tackle the above three challenges simultaneously. Unlike existing methods, ESDF models the CVR prediction from a perspective of entire space, and combines the advantage of user sequential behavior pattern and the time delay factor. Specifically, ESDF utilizes sequential behavior of user actions on the entire space with all impressions to alleviate the sample selection bias problem. By sharing the embedding parameters between CTR and CVR networks, data sparsity problem is greatly relieved. Different from conventional delayed feedback methods, ESDF does not make any special assumption about the delay distribution. We discretize the delay time by day slot and model the probability based on survival analysis with deep neural network, which is more practical and suitable for industrial situations. Extensive experiments are conducted to evaluate the effectiveness of our method. To the best of our knowledge, ESDF is the first attempt to unitedly solve the above three challenges in CVR prediction area.
翻訳日:2022-09-21 13:46:52 公開日:2020-11-24
# 強化学習による不確実性下での月面着陸問題の解法

Solving The Lunar Lander Problem under Uncertainty using Reinforcement Learning ( http://arxiv.org/abs/2011.11850v1 )

ライセンス: Link先を確認
Soham Gadgil, Yunfeng Xin, Chengzhe Xu(参考訳) 強化学習(Reinforcement Learning、RL)は、エージェントが累積的長期報酬の概念を最大化するために不確実性のある環境をナビゲートできるようにする機械学習の分野である。 本稿では,OpenAI GymのLunarLander-v2環境上で,SarsaとDeep QLearningという2つのRL手法を実装し,解析する。 次に,本手法のロバスト性をテストするために,元の問題に新たな不確実性を導入する。 我々の最良のモデルでは、Sarsaエージェントで平均170以上の報酬を、オリジナルの問題でDeep Q-Learningエージェントで200以上の報酬を得られる。 また,これらの手法が付加的な不確実性を克服し,双方のエージェントによる100以上の平均報酬を得られることを示す。 次に、2つの手法の比較分析を行い、どのエージェントがより優れているかを結論付ける。

Reinforcement Learning (RL) is an area of machine learning concerned with enabling an agent to navigate an environment with uncertainty in order to maximize some notion of cumulative long-term reward. In this paper, we implement and analyze two different RL techniques, Sarsa and Deep QLearning, on OpenAI Gym's LunarLander-v2 environment. We then introduce additional uncertainty to the original problem to test the robustness of the mentioned techniques. With our best models, we are able to achieve average rewards of 170+ with the Sarsa agent and 200+ with the Deep Q-Learning agent on the original problem. We also show that these techniques are able to overcome the additional uncertainities and achieve positive average rewards of 100+ with both agents. We then perform a comparative analysis of the two techniques to conclude which agent peforms better.
翻訳日:2022-09-21 13:46:10 公開日:2020-11-24
# グラフ半教師付き学習のための周期ラベル伝播

Cyclic Label Propagation for Graph Semi-supervised Learning ( http://arxiv.org/abs/2011.11860v1 )

ライセンス: Link先を確認
Zhao Li, Yixin Liu, Zhen Zhang, Shirui Pan, Jianliang Gao, Jiajun Bu(参考訳) グラフニューラルネットワーク(GNN)は、特に半教師付き学習のシナリオにおいて、グラフ解析の効果的なアプローチとして登場した。 その成功にもかかわらず、GNNはノード分類タスクのパフォーマンスに影響を及ぼす過度にスムースな問題と過度に適合する問題に悩まされることが多い。 本稿では,ラベル伝搬アルゴリズム (LPA) が上記の問題を回避し,グラフ半教師付き学習において有望な選択であることを示す。 それでも、機能利用と関係モデリングにおけるLPAの本質的な制限は、ラベルの伝播を減少させる。 これらの制限を克服するために,GNNを周期的かつ相互に強化した方法でラベル伝搬のプロセスに統合し,GNNとLPAの利点を活用する,CycProp(CycProp)と呼ばれるグラフ半教師付き学習のための新しいフレームワークを導入する。 特に,提案するCycPropでは,GNNモジュールが学習したノード埋め込みをラベル伝搬による拡張情報で更新すると共に,ノード埋め込みの助けを借りてラベル伝搬の重み付きグラフを微調整する。 モデルが収束すると、それぞれ LPA と GNN モジュールで確実に予測されたラベルと情報ノードの埋め込みが得られる。 様々な実世界のデータセットに関する広範囲な実験を行い, 実験結果から, 提案するcycpropモデルが最先端の手法に対して比較的有意な利益を得られることを実証した。

Graph neural networks (GNNs) have emerged as effective approaches for graph analysis, especially in the scenario of semi-supervised learning. Despite its success, GNN often suffers from over-smoothing and over-fitting problems, which affects its performance on node classification tasks. We analyze that an alternative method, the label propagation algorithm (LPA), avoids the aforementioned problems thus it is a promising choice for graph semi-supervised learning. Nevertheless, the intrinsic limitations of LPA on feature exploitation and relation modeling make propagating labels become less effective. To overcome these limitations, we introduce a novel framework for graph semi-supervised learning termed as Cyclic Label Propagation (CycProp for abbreviation), which integrates GNNs into the process of label propagation in a cyclic and mutually reinforcing manner to exploit the advantages of both GNNs and LPA. In particular, our proposed CycProp updates the node embeddings learned by GNN module with the augmented information by label propagation, while fine-tunes the weighted graph of label propagation with the help of node embedding in turn. After the model converges, reliably predicted labels and informative node embeddings are obtained with the LPA and GNN modules respectively. Extensive experiments on various real-world datasets are conducted, and the experimental results empirically demonstrate that the proposed CycProp model can achieve relatively significant gains over the state-of-the-art methods.
翻訳日:2022-09-21 13:45:52 公開日:2020-11-24
# 潜在グループ構造化マルチタスク学習

Latent Group Structured Multi-task Learning ( http://arxiv.org/abs/2011.11904v1 )

ライセンス: Link先を確認
Xiangyu Niu, Yifan Sun, Jinyuan Sun(参考訳) マルチタスク学習(MTL)では,様々なタスクを共同で学習することで,鍵となる機械学習アルゴリズムの性能を向上させる。 タスク数が大きければ、モデリングタスク構造はタスク関係モデルをさらに洗練することができる。 例えば、タスクはメタデータに基づいてグループ化したり、K-meansのような単純な前処理ステップでグループ化することができる。 本稿では,事前情報によって定義されたグループ構造化タスクを奨励するグループ構造化潜在空間マルチタスク学習モデルを提案する。 モデルパラメータの学習には,交代最小化法を用いる。 合成データセットと実世界のデータセットの両方で実験が行われ、シングルタスク学習(各グループが個別にトレーニングされる)と他のMLLベースラインとの競合性能を示している。

In multi-task learning (MTL), we improve the performance of key machine learning algorithms by training various tasks jointly. When the number of tasks is large, modeling task structure can further refine the task relationship model. For example, often tasks can be grouped based on metadata, or via simple preprocessing steps like K-means. In this paper, we present our group structured latent-space multi-task learning model, which encourages group structured tasks defined by prior information. We use an alternating minimization method to learn the model parameters. Experiments are conducted on both synthetic and real-world datasets, showing competitive performance over single-task learning (where each group is trained separately) and other MTL baselines.
翻訳日:2022-09-21 13:45:27 公開日:2020-11-24
# WeiPS:大規模オンライン学習のための対称融合モデルフレームワーク

WeiPS: a symmetric fusion model framework for large-scale online learning ( http://arxiv.org/abs/2011.11983v1 )

ライセンス: Link先を確認
Xiang Yu, Fuping Chu, Junqi Wu, Bo Huang(参考訳) このレコメンデーションシステムは、毎日何十億というフィードビューが情報フローに含まれる機械学習の重要な商用アプリケーションである。 実際、ユーザーとアイテムのやりとりはユーザーの興味を時間とともに変化させるので、多くの企業(例えば、bytedance、baidu、alibaba、weibo)はオンライン学習をユーザーの興味を素早く捉える効果的な方法として採用している。 しかし、数十億のモデルパラメータがオンライン学習をもたらし、リアルタイムモデルデプロイメントの課題も抱えている。 さらに、モデルの安定性もオンライン学習の重要なポイントです。 この目的のために,モデルトレーニングとモデル推論を統合した対称型統合型オンライン学習システムフレームワークweipsを設計し,実装する。 具体的には、一貫性要件を満たすために、ストリーミング更新メカニズムによる第2レベルのモデルデプロイメントを実行する。 さらに,高可用性要求を実現するために,マルチレベル耐障害性とリアルタイムドミノ劣化を利用する。

The recommendation system is an important commercial application of machine learning, where billions of feed views in the information flow every day. In reality, the interaction between user and item usually makes user's interest changing over time, thus many companies (e.g. ByteDance, Baidu, Alibaba, and Weibo) employ online learning as an effective way to quickly capture user interests. However, hundreds of billions of model parameters present online learning with challenges for real-time model deployment. Besides, model stability is another key point for online learning. To this end, we design and implement a symmetric fusion online learning system framework called WeiPS, which integrates model training and model inference. Specifically, WeiPS carries out second level model deployment by streaming update mechanism to satisfy the consistency requirement. Moreover, it uses multi-level fault tolerance and real-time domino degradation to achieve high availability requirement.
翻訳日:2022-09-21 13:45:16 公開日:2020-11-24
# 有限状態確率RNNによる不確かさ推定と校正

Uncertainty Estimation and Calibration with Finite-State Probabilistic RNNs ( http://arxiv.org/abs/2011.12010v1 )

ライセンス: Link先を確認
Cheng Wang and Carolin Lawrence and Mathias Niepert(参考訳) 不確実性定量化は、信頼性と信頼性のある機械学習システムを構築する上で不可欠である。 本稿では,リカレントニューラルネットワーク(RNN)における確率的離散状態遷移による不確実性の推定を提案する。 モデルの不確実性は、繰り返し状態遷移分布からサンプリングするたびに予測を実行して数回定量化することができ、モデルが不確実であれば、潜在的に異なる結果が得られる。 不確実性の定量化とともに,提案手法は異なる設定でいくつかの利点を提供する。 提案手法は,(1)データから決定論的・確率的オートマトンを学習し,(2)実世界の分類タスクで well-calibrated models を学習し,(3) 分布外検出の性能を改善し,(4) 強化学習における探索・探索トレードオフを制御できる。

Uncertainty quantification is crucial for building reliable and trustable machine learning systems. We propose to estimate uncertainty in recurrent neural networks (RNNs) via stochastic discrete state transitions over recurrent timesteps. The uncertainty of the model can be quantified by running a prediction several times, each time sampling from the recurrent state transition distribution, leading to potentially different results if the model is uncertain. Alongside uncertainty quantification, our proposed method offers several advantages in different settings. The proposed method can (1) learn deterministic and probabilistic automata from data, (2) learn well-calibrated models on real-world classification tasks, (3) improve the performance of out-of-distribution detection, and (4) control the exploration-exploitation trade-off in reinforcement learning.
翻訳日:2022-09-21 13:45:00 公開日:2020-11-24
# 顔アンチスプーフィングのためのPixel-Wiseスーパービジョンの再検討

Revisiting Pixel-Wise Supervision for Face Anti-Spoofing ( http://arxiv.org/abs/2011.12032v1 )

ライセンス: Link先を確認
Zitong Yu, Xiaobai Li, Jingang Shi, Zhaoqiang Xia, Guoying Zhao(参考訳) 対面防止(FAS)は、提示攻撃(PA)から顔認識システムを保護する上で重要な役割を果たす。 新たなタイプのpasが出現するにつれ、未知のシナリオでも未知の攻撃を検出するためのロバストなアルゴリズムを開発する必要がある。 しかし、伝統的な二項損失(例えば、ボナフィドの `0' とパスの `1' )によって監督される深いモデルは、内在的および判別的スプーフィングパターンを記述する上で弱い。 近年、よりきめ細かいピクセル/パッチレベルのキューを提供することを目的として、FASタスクに対する画素単位の監視が提案されている。 本稿では、まず、FASの既存の画素単位の監視方法に関する総合的なレビューと分析を行う。 そこで我々は,広域空間文脈から局所的詳細と大域的意味論の両方を学ぶために,深層モデルの指導を行う新しいピラミッド監視手法を提案する。 5つのfasベンチマークデータセットで広範な実験が行われ、ベルとホイッスルがなければ、提案されたピラミッド監督は、既存のピクセル単位の監視フレームワークを超えてパフォーマンスを向上させるだけでなく、モデルの解釈性(pasのパッチレベル位置をより合理的に特定する)も向上できることを示した。 さらに,2種類の画素単位の監視 (バイナリマスクと深度マップの監視) を用いて,異なるアーキテクチャ構成の有効性を探索し,今後のアーキテクチャ・スーパービジョン設計における実証可能な洞察を提供する。

Face anti-spoofing (FAS) plays a vital role in securing face recognition systems from the presentation attacks (PAs). As more and more realistic PAs with novel types spring up, it is necessary to develop robust algorithms for detecting unknown attacks even in unseen scenarios. However, deep models supervised by traditional binary loss (e.g., `0' for bonafide vs. `1' for PAs) are weak in describing intrinsic and discriminative spoofing patterns. Recently, pixel-wise supervision has been proposed for the FAS task, intending to provide more fine-grained pixel/patch-level cues. In this paper, we firstly give a comprehensive review and analysis about the existing pixel-wise supervision methods for FAS. Then we propose a novel pyramid supervision, which guides deep models to learn both local details and global semantics from multi-scale spatial context. Extensive experiments are performed on five FAS benchmark datasets to show that, without bells and whistles, the proposed pyramid supervision could not only improve the performance beyond existing pixel-wise supervision frameworks, but also enhance the model's interpretability (i.e., locating the patch-level positions of PAs more reasonably). Furthermore, elaborate studies are conducted for exploring the efficacy of different architecture configurations with two kinds of pixel-wise supervisions (binary mask and depth map supervisions), which provides inspirable insights for future architecture/supervision design.
翻訳日:2022-09-21 13:39:02 公開日:2020-11-24
# あなたは健康な生活をしているのか? ビジュアルライフログによるライフスタイル分析

Do You Live a Healthy Life? Analyzing Lifestyle by Visual Life Logging ( http://arxiv.org/abs/2011.12102v1 )

ライセンス: Link先を確認
Qing Gao, Mingtao Pei, Hongyu Shen(参考訳) 健康的なライフスタイルは、健康と幸福を改善する鍵であり、生活の質や疾病予防に大きな影響を与える。 現在のライフログ/エゴセントリックデータセットはライフスタイル分析には適さないため、コンピュータビジョンの分野ではライフスタイル分析の研究は行われていない。 本研究では,ライフスタイル分析の問題点を調査し,ライフスタイル分析のためのビジュアルライフログデータセット(vldla)を構築する。 VLDLAには、7日間の午前8時から午後6時までの3秒ごとに、ウェアラブルカメラが撮影した画像が含まれている。 現在のライフログやエゴセントリックなデータセットとは対照的に、私たちのデータセットは、短い間隔で画像を撮影して短い期間のアクティビティをキャプチャするので、ライフスタイルの分析に適しています。 このデータセットに基づいて,各フレーム内のユーザアクティビティを分類し,時間とともに変化し,アクティビティと関連づけられた,潜伏した3つのfluentを使用して,ユーザのライフスタイルを健全に評価する。 3つの潜水流のスコアは、認識された活動に基づいて算出され、潜水流のスコアに基づいて、その日の健康なライフスタイルの度合いが決定される。 実験結果から,本手法はユーザのライフスタイルの健康状態を分析するのに有効であることがわかった。

A healthy lifestyle is the key to better health and happiness and has a considerable effect on quality of life and disease prevention. Current lifelogging/egocentric datasets are not suitable for lifestyle analysis; consequently, there is no research on lifestyle analysis in the field of computer vision. In this work, we investigate the problem of lifestyle analysis and build a visual lifelogging dataset for lifestyle analysis (VLDLA). The VLDLA contains images captured by a wearable camera every 3 seconds from 8:00 am to 6:00 pm for seven days. In contrast to current lifelogging/egocentric datasets, our dataset is suitable for lifestyle analysis as images are taken with short intervals to capture activities of short duration; moreover, images are taken continuously from morning to evening to record all the activities performed by a user. Based on our dataset, we classify the user activities in each frame and use three latent fluents of the user, which change over time and are associated with activities, to measure the healthy degree of the user's lifestyle. The scores for the three latent fluents are computed based on recognized activities, and the healthy degree of the lifestyle for the day is determined based on the scores for the latent fluents. Experimental results show that our method can be used to analyze the healthiness of users' lifestyles.
翻訳日:2022-09-21 13:37:59 公開日:2020-11-24
# 絵画における資料表現の大規模データベースからの洞察

Insights From A Large-Scale Database of Material Depictions In Paintings ( http://arxiv.org/abs/2011.12276v1 )

ライセンス: Link先を確認
Hubert Lin, Mitchell Van Zuijlen, Maarten W.A. Wijntjes, Sylvia C. Pont, Kavita Bala(参考訳) ディープラーニングは、しばしば自然画像に訓練され応用される強力な認識システムへの道を開いた。 本稿では,このような視覚認識システムと美術品で利用可能な豊富な情報との関係について検討する。 まず、自然画像用に設計された視覚認識システムは、絵画で驚くほどうまく機能する。 特にインタラクティブなセグメンテーションツールを使うことで,絵画内の多角形のセグメントをきれいに注釈付けすることができる。 また,自然界における物体認識のためのモデルであるFasterRCNNは,絵画の材料検出に素早く再利用可能であることも確認した。 第2に,絵画からの学習は,自然画像での利用を意図したニューラルネットワークにとって有益であることを示す。 自然画像の代わりに絵画を訓練することで学習した特徴の品質が向上し、さらに多くの絵画がドメイン適応アルゴリズムを評価するためのテストデータの貴重な情報源となることが判明した。 本実験は,絵画の資料表現の大規模注釈データベースを構築し,個別の写本で詳述した。

Deep learning has paved the way for strong recognition systems which are often both trained on and applied to natural images. In this paper, we examine the give-and-take relationship between such visual recognition systems and the rich information available in the fine arts. First, we find that visual recognition systems designed for natural images can work surprisingly well on paintings. In particular, we find that interactive segmentation tools can be used to cleanly annotate polygonal segments within paintings, a task which is time consuming to undertake by hand. We also find that FasterRCNN, a model which has been designed for object recognition in natural scenes, can be quickly repurposed for detection of materials in paintings. Second, we show that learning from paintings can be beneficial for neural networks that are intended to be used on natural images. We find that training on paintings instead of natural images can improve the quality of learned features and we further find that a large number of paintings can be a valuable source of test data for evaluating domain adaptation algorithms. Our experiments are based on a novel large-scale annotated database of material depictions in paintings which we detail in a separate manuscript.
翻訳日:2022-09-21 13:37:25 公開日:2020-11-24
# ufpr-periocular: 制約のないシナリオでモバイルデバイスが収集するペリオクシャルデータセット

UFPR-Periocular: A Periocular Dataset Collected by Mobile Devices in Unconstrained Scenarios ( http://arxiv.org/abs/2011.12427v1 )

ライセンス: Link先を確認
Luiz A. Zanlorensi and Rayson Laroca and Diego R. Lucio and Lucas R. Santos and Alceu S. Britto Jr. and David Menotti(参考訳) 近年,可視光で得られた画像を用いた非拘束環境における眼の生体計測が研究者の注目を集めている。 眼窩認識は、オクルージョンや低解像度のため虹彩形質が得られない場合に代替手段となることが示されている。 しかしながら、眼窩形質は虹彩形質に示される高い特異性を持っていない。 したがって、多くの主題を含むデータセットを使用することは、生体認証システムの能力を評価し、眼周囲領域から識別情報を抽出するのに不可欠である。 また、眼窩領域の照明や属性によって生じるクラス内変動に対処するため、異なるセッションでキャプチャされた同じ主題の画像を含むデータセットを使用することが最重要となる。 文献で利用可能なデータセットはこれらの要因をすべて示さないため,本研究では,1,122名の被験者が3セッションで取得した1,196名の異なるモバイルデバイスから得られたサンプルを含む新しい眼周囲データセットを提案する。 画像は、参加者にたった1つの指示で、制約のない環境下で撮影された。 また,複数の畳み込みニューラルネットワーク (cnn) アーキテクチャとモデルを用いて,マルチクラス分類,マルチタスク学習,ペアワイズフィルタネットワーク,シャムネットワークに基づく最先端手法を用いた広範なベンチマークを行った。 クローズド・オープン・ワールド・プロトコルで達成された成果は、同定と検証のタスクを考慮して、この分野にはまだ研究と開発が必要であることを示している。

Recently, ocular biometrics in unconstrained environments using images obtained at visible wavelength have gained the researchers' attention, especially with images captured by mobile devices. Periocular recognition has been demonstrated to be an alternative when the iris trait is not available due to occlusions or low image resolution. However, the periocular trait does not have the high uniqueness presented in the iris trait. Thus, the use of datasets containing many subjects is essential to assess biometric systems' capacity to extract discriminating information from the periocular region. Also, to address the within-class variability caused by lighting and attributes in the periocular region, it is of paramount importance to use datasets with images of the same subject captured in distinct sessions. As the datasets available in the literature do not present all these factors, in this work, we present a new periocular dataset containing samples from 1,122 subjects, acquired in 3 sessions by 196 different mobile devices. The images were captured under unconstrained environments with just a single instruction to the participants: to place their eyes on a region of interest. We also performed an extensive benchmark with several Convolutional Neural Network (CNN) architectures and models that have been employed in state-of-the-art approaches based on Multi-class Classification, Multitask Learning, Pairwise Filters Network, and Siamese Network. The results achieved in the closed- and open-world protocol, considering the identification and verification tasks, show that this area still needs research and development.
翻訳日:2022-09-21 13:37:07 公開日:2020-11-24
# 連続表面埋め込み

Continuous Surface Embeddings ( http://arxiv.org/abs/2011.12438v1 )

ライセンス: Link先を確認
Natalia Neverova, David Novotny, Vasil Khalidov, Marc Szafraniec, Patrick Labatut, Andrea Vedaldi(参考訳) 本研究は,変形可能な対象カテゴリーにおける密接な対応を学習し,表現することに焦点を当てる。 この問題はこれまで検討されてきたが、これまでのソリューションは特定のオブジェクトタイプ(例えば、人間)に対するアドホックであり、多くの場合、重要な手動作業を伴う。 しかし、自然界のすべてのオブジェクトに対する幾何学的理解をスケールするには、関連するが幾何学的に異なるオブジェクト間の対応を表現できる、より自動化されたアプローチが必要である。 そこで本研究では,高密度対応の新たな学習可能な画像表現を提案する。 本モデルでは,2次元画像の各画素に対して,対応する頂点をオブジェクトメッシュに埋め込むベクトルを推定し,画像画素と3次元オブジェクト形状との密接な対応性を確立する。 提案手法は, 概念上は単純でありながら, 人間の身近なポーズ推定法と同等以上の性能を示すことを示す。 また,動物クラスの密接な対応のデータセットを新たに収集し,新たな変形可能なオブジェクトカテゴリに対して,フレームワークが自然にスケールすることを示す。

In this work, we focus on the task of learning and representing dense correspondences in deformable object categories. While this problem has been considered before, solutions so far have been rather ad-hoc for specific object types (i.e., humans), often with significant manual work involved. However, scaling the geometry understanding to all objects in nature requires more automated approaches that can also express correspondences between related, but geometrically different objects. To this end, we propose a new, learnable image-based representation of dense correspondences. Our model predicts, for each pixel in a 2D image, an embedding vector of the corresponding vertex in the object mesh, therefore establishing dense correspondences between image pixels and 3D object geometry. We demonstrate that the proposed approach performs on par or better than the state-of-the-art methods for dense pose estimation for humans, while being conceptually simpler. We also collect a new in-the-wild dataset of dense correspondences for animal classes and demonstrate that our framework scales naturally to the new deformable object categories.
翻訳日:2022-09-21 13:36:26 公開日:2020-11-24
# 3次元体・手・顔再構成を用いた独立手話認識

Independent Sign Language Recognition with 3D Body, Hands, and Face Reconstruction ( http://arxiv.org/abs/2012.05698v1 )

ライセンス: Link先を確認
Agelos Kratimenos, Georgios Pavlakos, Petros Maragos(参考訳) 独立手話認識(Independent Sign Language Recognition)は、手の動き、身体の特徴、表情から情報を利用して融合する必要があるため、コンピュータビジョンのいくつかの困難なタスクを組み合わせる複雑な視覚認識問題である。 多くの最先端の研究はこれらの特徴を独立して深く掘り下げてきたが、私たちの知る限りでは、手話の認識を効率的にするために3つの情報チャネルを適切に組み合わせた作業は行われていない。 本研究では,1枚の画像から3次元の身体形状,顔,手の情報を同時抽出できる同時代のパラメトリックモデルSMPL-Xを用いる。 3dアクション認識のための最先端のi3d型ネットワークと、リカレントニューラルネットワークに供給される2dopenposeスケルトンに供給される光フローによって、生のrgb画像からの認識よりも高い精度をもたらすことを実証した。 最後に、身体、顔、手の特徴に関する一連の実験により、これらを無視することで分類精度が著しく低下し、手話認識における身体形状、表情、手のポーズを共同モデル化することの重要性が証明された。

Independent Sign Language Recognition is a complex visual recognition problem that combines several challenging tasks of Computer Vision due to the necessity to exploit and fuse information from hand gestures, body features and facial expressions. While many state-of-the-art works have managed to deeply elaborate on these features independently, to the best of our knowledge, no work has adequately combined all three information channels to efficiently recognize Sign Language. In this work, we employ SMPL-X, a contemporary parametric model that enables joint extraction of 3D body shape, face and hands information from a single image. We use this holistic 3D reconstruction for SLR, demonstrating that it leads to higher accuracy than recognition from raw RGB images and their optical flow fed into the state-of-the-art I3D-type network for 3D action recognition and from 2D Openpose skeletons fed into a Recurrent Neural Network. Finally, a set of experiments on the body, face and hand features showed that neglecting any of these, significantly reduces the classification accuracy, proving the importance of jointly modeling body shape, facial expression and hand pose for Sign Language Recognition.
翻訳日:2022-09-21 13:36:07 公開日:2020-11-24
# 信頼性予測のための変分単眼深度推定

Variational Monocular Depth Estimation for Reliability Prediction ( http://arxiv.org/abs/2011.11912v1 )

ライセンス: Link先を確認
Noriaki Hirose, Shun Taguchi, Keisuke Kawano, Satoshi Koide(参考訳) 単眼深度推定のための自己教師あり学習は、多くの基礎的真理を必要とする教師あり学習アプローチの代替として広く研究されている。 従来の作業では,モデル構造の変更,目的の追加,動的物体や隠蔽領域のマスキングにより,深度推定の精度の向上に成功している。 しかし、自動運転車やロボットなどのアプリケーションでそのような推定深度画像を使用する場合、各画素位置における推定深度を均一に信じなければならない。 これは、あるピクセルの深さの推定がより大きな誤りをもたらす可能性があるため、タスクの実行に致命的なエラーをもたらす可能性がある。 本稿では,単眼深度推定のための変分モデルを理論的に定式化し,推定深度画像の信頼性を予測する。 結果から,信頼性の低い推定深度を排除したり,実際の使用のために精査することができる。 提案手法の有効性を,KITTIベンチマークとMake3Dデータセットを用いて定量的に定性的に検証した。

Self-supervised learning for monocular depth estimation is widely investigated as an alternative to supervised learning approach, that requires a lot of ground truths. Previous works have successfully improved the accuracy of depth estimation by modifying the model structure, adding objectives, and masking dynamic objects and occluded area. However, when using such estimated depth image in applications, such as autonomous vehicles, and robots, we have to uniformly believe the estimated depth at each pixel position. This could lead to fatal errors in performing the tasks, because estimated depth at some pixels may make a bigger mistake. In this paper, we theoretically formulate a variational model for the monocular depth estimation to predict the reliability of the estimated depth image. Based on the results, we can exclude the estimated depths with low reliability or refine them for actual use. The effectiveness of the proposed method is quantitatively and qualitatively demonstrated using the KITTI benchmark and Make3D dataset.
翻訳日:2022-09-21 13:30:28 公開日:2020-11-24
# テクスチャ認識における知覚不能な普遍的攻撃に向けて

Towards Imperceptible Universal Attacks on Texture Recognition ( http://arxiv.org/abs/2011.11957v1 )

ライセンス: Link先を確認
Yingpeng Deng and Lina J. Karam(参考訳) ディープニューラルネットワーク(DNN)は、自然画像分類問題に対する画像非依存の敵対攻撃に感受性があることが示されているが、そのような攻撃がDNNベースのテクスチャ認識に与える影響はまだ明らかになっていない。 我々の研究の一環として、空間領域における摂動の$l_p$ノルムを制限することは、テクスチャ画像に対する普遍的対角的摂動の知覚性を制限するには適さないかもしれない。 人間の知覚が局所的な視覚周波数特性に影響されているという事実に基づいて,周波数領域における普遍的摂動を計算するための周波数調整ユニバーサルアタック法を提案する。 提案手法は,既存のユニバーサルアタック手法と比較して,dnnテクスチャ分類器やテクスチャデータセットに類似し,あるいは高いホワイトボックス化率で,知覚可能な摂動を生成できることを示す。 また,本手法は,テクスチャ認識問題に対するクロスデータセット転送性だけでなく,防御モデルに対する攻撃堅牢性も向上できることを示す。

Although deep neural networks (DNNs) have been shown to be susceptible to image-agnostic adversarial attacks on natural image classification problems, the effects of such attacks on DNN-based texture recognition have yet to be explored. As part of our work, we find that limiting the perturbation's $l_p$ norm in the spatial domain may not be a suitable way to restrict the perceptibility of universal adversarial perturbations for texture images. Based on the fact that human perception is affected by local visual frequency characteristics, we propose a frequency-tuned universal attack method to compute universal perturbations in the frequency domain. Our experiments indicate that our proposed method can produce less perceptible perturbations yet with a similar or higher white-box fooling rates on various DNN texture classifiers and texture datasets as compared to existing universal attack techniques. We also demonstrate that our approach can improve the attack robustness against defended models as well as the cross-dataset transferability for texture recognition problems.
翻訳日:2022-09-21 13:29:46 公開日:2020-11-24
# kshapenet: ケンドール形状空間上のリーマンネットワークによるスケルトンに基づく動作認識

KShapeNet: Riemannian network on Kendall shape space for Skeleton based Action Recognition ( http://arxiv.org/abs/2011.12004v1 )

ライセンス: Link先を確認
Racha Friji, Hassen Drira, Faten Chaieb, Sebastian Kurtek, Hamza Kchok(参考訳) ディープラーニングアーキテクチャは、ほとんどのコンピュータビジョンタスクで成功したが、基礎となるユークリッド構造を持つデータのために設計された。 本稿では,骨格に基づく行動認識のための幾何学的深層学習手法を提案する。 スケルトン列はまずケンドールの形状空間上の軌道としてモデル化され、次に線型接空間に写像される。 結果として得られた構造化データは、CNN-LSTMネットワークに続いて、3D骨格の剛性および非剛性変換を最適化する層を含むディープラーニングアーキテクチャに供給される。 NTU-RGB+D と NTU-RGB+D 120 の2つの大規模スケルトンデータセットに対する評価は、提案手法が既存の幾何学的深層学習法より優れており、最近発表されたアプローチと競合することを示した。

Deep Learning architectures, albeit successful in most computer vision tasks, were designed for data with an underlying Euclidean structure, which is not usually fulfilled since pre-processed data may lie on a non-linear space. In this paper, we propose a geometry aware deep learning approach for skeleton-based action recognition. Skeleton sequences are first modeled as trajectories on Kendall's shape space and then mapped to the linear tangent space. The resulting structured data are then fed to a deep learning architecture, which includes a layer that optimizes over rigid and non rigid transformations of the 3D skeletons, followed by a CNN-LSTM network. The assessment on two large scale skeleton datasets, namely NTU-RGB+D and NTU-RGB+D 120, has proven that proposed approach outperforms existing geometric deep learning methods and is competitive with respect to recently published approaches.
翻訳日:2022-09-21 13:27:40 公開日:2020-11-24
# ヒューマンエフェクトは影響を必要とする:機械学習による気候変動の社会的心理学的要因に対処する

The Human Effect Requires Affect: Addressing Social-Psychological Factors of Climate Change with Machine Learning ( http://arxiv.org/abs/2011.12443v1 )

ライセンス: Link先を確認
Kyle Tilbury, Jesse Hoey(参考訳) 機械学習は、気候変動による人的影響の緩和に役立つ可能性がある。 気候変動における人間の影響に取り組む機械学習のこれまでの応用には、炭素フットプリントの個人に通知するアプローチや、それを減らす戦略などがある。 これらの方法が最も効果的になるためには、各個人の関連する社会心理学的要因を考慮する必要がある。 気候変動における社会的心理学的要因の1つとして、影響は以前、緩和行動への関与に対する認識と意欲の重要な要素として認識されていた。 本研究では、気候変動に対する機械学習に基づく介入を強化するために、影響がどのように組み込まれるかを検討する。 本稿では, 情緒的エージェント・ベース・モデリングを気候変動に応用し, 情緒的機械学習介入の潜在的メリットを探るため, シミュレーション的気候変動社会ジレンマの利用を提案する。 行動的および情報的介入は、人間が緩和行動を採用するのを助ける強力なツールである。 情緒的MLを利用することで、介入がより強力なツールになり、緩和行動が広く採用されることを期待しています。

Machine learning has the potential to aid in mitigating the human effects of climate change. Previous applications of machine learning to tackle the human effects in climate change include approaches like informing individuals of their carbon footprint and strategies to reduce it. For these methods to be the most effective they must consider relevant social-psychological factors for each individual. Of social-psychological factors at play in climate change, affect has been previously identified as a key element in perceptions and willingness to engage in mitigative behaviours. In this work, we propose an investigation into how affect could be incorporated to enhance machine learning based interventions for climate change. We propose using affective agent-based modelling for climate change as well as the use of a simulated climate change social dilemma to explore the potential benefits of affective machine learning interventions. Behavioural and informational interventions can be a powerful tool in helping humans adopt mitigative behaviours. We expect that utilizing affective ML can make interventions an even more powerful tool and help mitigative behaviours become widely adopted.
翻訳日:2022-09-21 13:21:03 公開日:2020-11-24
# 深度マップ超解法のためのマルチスケールプログレッシブ融合学習

Multi-Scale Progressive Fusion Learning for Depth Map Super-Resolution ( http://arxiv.org/abs/2011.11865v1 )

ライセンス: Link先を確認
Chuhua Xian, Kun Qian, Zitian Zhang, and Charlie C.L. Wang(参考訳) コストと技術によって制限された深度マップの解像度は、しばしば関連するRGBカメラの解像度よりも低い。 RGB画像の超解像(SR)に関する研究は数多く行われているが、深度マップの超解像の大きな問題は、明らかにギザギザと細部が過剰に失われることである。 そこで本研究では,異なる領域に階層的特徴を統合する漸近的構造を持つ深度マップsrのための多スケールプログレッシブ・フュージョン・ネットワークを提案する。 低解像度 (lr) 深度マップとそれに伴う高分解能 (hr) カラーイメージが与えられ, マルチスケール特徴学習を実現するために, 2つの異なる枝を用いる。 次に、HR深度マップを復元するためのステップワイズ融合戦略を提案する。 最後に、明確な境界と詳細を制約するために多次元の損失を導入する。 広範な実験により,提案手法は定性的および定量的に最先端手法に対して優れた結果をもたらすことが示された。

Limited by the cost and technology, the resolution of depth map collected by depth camera is often lower than that of its associated RGB camera. Although there have been many researches on RGB image super-resolution (SR), a major problem with depth map super-resolution is that there will be obvious jagged edges and excessive loss of details. To tackle these difficulties, in this work, we propose a multi-scale progressive fusion network for depth map SR, which possess an asymptotic structure to integrate hierarchical features in different domains. Given a low-resolution (LR) depth map and its associated high-resolution (HR) color image, We utilize two different branches to achieve multi-scale feature learning. Next, we propose a step-wise fusion strategy to restore the HR depth map. Finally, a multi-dimensional loss is introduced to constrain clear boundaries and details. Extensive experiments show that our proposed method produces improved results against state-of-the-art methods both qualitatively and quantitatively.
翻訳日:2022-09-21 13:20:03 公開日:2020-11-24
# CAFE-GAN: 追加注意機能付き任意顔属性編集

CAFE-GAN: Arbitrary Face Attribute Editing with Complementary Attention Feature ( http://arxiv.org/abs/2011.11900v1 )

ライセンス: Link先を確認
Jeong-gi Kwak, David K. Han, Hanseok Ko(参考訳) 顔属性編集の目標は、髪の色、口ひげ、性別など、所定の対象属性に従って顔画像を変更することである。 これは、特有のドメインと見なされる属性の集合を持つイメージからイメージへのドメイン転送問題に属する。 GAN(Generative Adversarial Network)を用いた顔属性編集に焦点をあてたマルチドメイン転送問題の研究がいくつか行われている。 これらの手法はいくつかの成功を報告しているが、顔領域の意図しない変化も引き起こしている - つまり、ジェネレータは特定の属性とは無関係な領域を変更する。 この意図しない修正問題に対処するために,補完的注意機能(CAFE)の概念を用いて,対象属性に関連する顔の部分のみを編集する新しいGANモデルを提案する。 CAFEは、入力された顔画像に欠落している属性として定義する、目的属性と相補属性の両方を考慮し、変換すべき顔領域を識別する。 また,属性の空間情報を活用するために,ジェネレータの訓練を支援する補完的特徴マッチングを提案する。 提案手法の有効性は, 解析および比較研究により実証された。

The goal of face attribute editing is altering a facial image according to given target attributes such as hair color, mustache, gender, etc. It belongs to the image-to-image domain transfer problem with a set of attributes considered as a distinctive domain. There have been some works in multi-domain transfer problem focusing on facial attribute editing employing Generative Adversarial Network (GAN). These methods have reported some successes but they also result in unintended changes in facial regions - meaning the generator alters regions unrelated to the specified attributes. To address this unintended altering problem, we propose a novel GAN model which is designed to edit only the parts of a face pertinent to the target attributes by the concept of Complementary Attention Feature (CAFE). CAFE identifies the facial regions to be transformed by considering both target attributes as well as complementary attributes, which we define as those attributes absent in the input facial image. In addition, we introduce a complementary feature matching to help in training the generator for utilizing the spatial information of attributes. Effectiveness of the proposed method is demonstrated by analysis and comparison study with state-of-the-art methods.
翻訳日:2022-09-21 13:18:25 公開日:2020-11-24
# bert's brain:representational similarity analysisを用いた文脈的埋め込みにおける言語依存の探索

Picking BERT's Brain: Probing for Linguistic Dependencies in Contextualized Embeddings Using Representational Similarity Analysis ( http://arxiv.org/abs/2011.12073v1 )

ライセンス: Link先を確認
Michael A. Lepori, R. Thomas McCoy(参考訳) 名前が示すように、文脈化された言語表現は通常、文脈をエンコードする能力によって動機付けられる。 コンテキストのどの側面がそのような表現によって捉えられるのか? 本稿では,Representational similarity Analysis (RSA) を用いてこの問題に対処する手法を提案する。 本研究では,動詞の埋め込みが動詞の主語をエンコードする程度,代名詞の埋め込みが代名詞の先行語をエンコードする程度,全文表現が文の見出し語をエンコードする程度(依存構文で決定される)について検討する。 いずれの場合も、BERTの文脈的埋め込みは言語依存を反映しており、BERTは言語依存の少ない制御を符号化するよりも、これらの依存をより大きく符号化している。 これらの結果は,文脈のどの側面が言語表現にエンコードされているかという仮説の偏りを示す。

As the name implies, contextualized representations of language are typically motivated by their ability to encode context. Which aspects of context are captured by such representations? We introduce an approach to address this question using Representational Similarity Analysis (RSA). As case studies, we investigate the degree to which a verb embedding encodes the verb's subject, a pronoun embedding encodes the pronoun's antecedent, and a full-sentence representation encodes the sentence's head word (as determined by a dependency parse). In all cases, we show that BERT's contextualized embeddings reflect the linguistic dependency being studied, and that BERT encodes these dependencies to a greater degree than it encodes less linguistically-salient controls. These results demonstrate the ability of our approach to adjudicate between hypotheses about which aspects of context are encoded in representations of language.
翻訳日:2022-09-21 13:11:48 公開日:2020-11-24
# 不等表現:表現類似性分析を用いた単語埋め込みにおける交叉バイアスの解析

Unequal Representations: Analyzing Intersectional Biases in Word Embeddings Using Representational Similarity Analysis ( http://arxiv.org/abs/2011.12086v1 )

ライセンス: Link先を確認
Michael A. Lepori(参考訳) 本稿では,表現的類似性分析を用いた単語埋め込みにおける人間的社会的バイアスの検出手法を提案する。 具体的には、黒人女性に対する交叉バイアスの証拠として、文脈的および非文脈的埋め込みを調査した。 これらの埋め込みは黒人女性を白人女性よりも女性的にも少なく、黒人男性よりも黒人的にも少ないことを示す。 この発見は交叉性理論(英語版)と一致し、複数のアイデンティティ圏(人種や性など)が互いに重なり合っており、任意の個別のカテゴリーで共有されていない独自の識別モードを作成する。

We present a new approach for detecting human-like social biases in word embeddings using representational similarity analysis. Specifically, we probe contextualized and non-contextualized embeddings for evidence of intersectional biases against Black women. We show that these embeddings represent Black women as simultaneously less feminine than White women, and less Black than Black men. This finding aligns with intersectionality theory, which argues that multiple identity categories (such as race or sex) layer on top of each other in order to create unique modes of discrimination that are not shared by any individual category.
翻訳日:2022-09-21 13:11:32 公開日:2020-11-24
# ドメイン変換可能な名前付きエンティティ認識タスク

Domain-Transferable Method for Named Entity Recognition Task ( http://arxiv.org/abs/2011.12170v1 )

ライセンス: Link先を確認
Vladislav Mikhailov and Tatiana Shavrina(参考訳) 名前付きエンティティ認識(NER)は自然言語処理と情報抽出の分野における基本的なタスクである。 NERは、質問応答、対話アシスタント、知識グラフの開発など、様々なアプリケーションにおいて、スタンドアロンツールや重要なコンポーネントとして広く使われている。 しかし、信頼性の高いNERモデルのトレーニングには、特に特殊なドメインにおいて、取得にコストがかかる大量のラベル付きデータが必要である。 本稿では、ドメイン固有の監視ができない場合に、任意の名前付きエンティティの集合に対してドメイン固有のNERモデルを学習する方法について述べる。 人間の努力なしには監督は得られず、神経モデルは互いに学ぶことができると仮定する。 コード、データ、モデルは公開されている。

Named Entity Recognition (NER) is a fundamental task in the fields of natural language processing and information extraction. NER has been widely used as a standalone tool or an essential component in a variety of applications such as question answering, dialogue assistants and knowledge graphs development. However, training reliable NER models requires a large amount of labelled data which is expensive to obtain, particularly in specialized domains. This paper describes a method to learn a domain-specific NER model for an arbitrary set of named entities when domain-specific supervision is not available. We assume that the supervision can be obtained with no human effort, and neural models can learn from each other. The code, data and models are publicly available.
翻訳日:2022-09-21 13:11:22 公開日:2020-11-24
# インテリジェントプラミティフ記述の生成:倫理的考察によるユースケース

Generating Intelligible Plumitifs Descriptions: Use Case Application with Ethical Considerations ( http://arxiv.org/abs/2011.12183v1 )

ライセンス: Link先を確認
David Beauchemin, Nicolas Garneau, Eve Gaumond, Pierre-Luc D\'eziel, Richard Khoury, Luc Lamontagne(参考訳) プラミティフ(ドケット)は、当初は法律事務員のための道具であった。 今日では、裁判のすべての段階を示す要約として用いられる。 当事者の身元、事件管理の管轄権、及び前項の性質及び経過に関する情報については、配管工事を通じて入手することができる。 それらは公にアクセス可能であるが、ほとんど理解できないが、略語を使って書かれており、カナダ刑事法の規定を参照している。 本稿では,プラミティフと犯罪コードの双方を活用し,理解可能なプラミティフ記述を生成する,シンプルかつ効率的なマルチソース言語生成アーキテクチャを提案する。 こうしたセンシティブな文書が読みやすく、大規模に利用できるようになったことで倫理的配慮が高まることは言うまでもない。

Plumitifs (dockets) were initially a tool for law clerks. Nowadays, they are used as summaries presenting all the steps of a judicial case. Information concerning parties' identity, jurisdiction in charge of administering the case, and some information relating to the nature and the course of the preceding are available through plumitifs. They are publicly accessible but barely understandable; they are written using abbreviations and referring to provisions from the Criminal Code of Canada, which makes them hard to reason about. In this paper, we propose a simple yet efficient multi-source language generation architecture that leverages both the plumitif and the Criminal Code's content to generate intelligible plumitifs descriptions. It goes without saying that ethical considerations rise with these sensitive documents made readable and available at scale, legitimate concerns that we address in this paper.
翻訳日:2022-09-21 13:11:14 公開日:2020-11-24
# クラスタとアライメントの連成学習によるニューラルテキストの分類

Neural Text Classification by Jointly Learning to Cluster and Align ( http://arxiv.org/abs/2011.12184v1 )

ライセンス: Link先を確認
Yekun Chai, Haidong Zhang, Shuo Jin(参考訳) 分散テキストクラスタリングはセマンティックな情報表現を提供し、各単語とセマンティッククラスタリングセントロイドの関係を捉える。 ニューラルネットワークのクラスタリングアプローチを,潜在変数モデルを通じてクラスタ中心を誘導し,分散的な単語埋め込みと対話することで,テキスト分類タスクに拡張し,トークンの表現を強化し,トークンと学習可能なクラスタセンタロイド間の関連度を測定する。 提案手法は,単語クラスタリングセンタロイドとクラスタリングトーケンアライメントを併用して学習し,複数のベンチマークデータセット上で技術結果の状態を達成し,提案手法が実際にテキスト分類に好適であることを証明した。 特に、我々の定性的分析は、提案したモデルで学習したテキスト表現が直感と一致していることを示す。

Distributional text clustering delivers semantically informative representations and captures the relevance between each word and semantic clustering centroids. We extend the neural text clustering approach to text classification tasks by inducing cluster centers via a latent variable model and interacting with distributional word embeddings, to enrich the representation of tokens and measure the relatedness between tokens and each learnable cluster centroid. The proposed method jointly learns word clustering centroids and clustering-token alignments, achieving the state of the art results on multiple benchmark datasets and proving that the proposed cluster-token alignment mechanism is indeed favorable to text classification. Notably, our qualitative analysis has conspicuously illustrated that text representations learned by the proposed model are in accord well with our intuition.
翻訳日:2022-09-21 13:11:01 公開日:2020-11-24
# 時間情報表現における新聞の差異に関するパターンマイニングによる研究

A Pattern-mining Driven Study on Differences of Newspapers in Expressing Temporal Information ( http://arxiv.org/abs/2011.12265v1 )

ライセンス: Link先を確認
Yingxue Fu and Elaine Ui Dhonnchadha(参考訳) 本稿では,注目されていない話題である時報情報表現における新聞の種類の違いについて検討する。 時間的処理とパターンマイニングの分野からのテクニックを用いて、このトピックを調査する。 まず、時間情報に注釈を付けたコーパスを著者によって作成する。 そして、コーパスから音声タグに混入した時間情報タグのシーケンスを抽出する。 TKSアルゴリズムは、シーケンスからスキップグラムパターンをマイニングするために使用される。 これらのパターンにより、四つの新聞の署名が得られる。 新聞の署名を特徴付けるために, 参照パターンを除去し, 署名を改訂する。 署名や改訂署名のパターン数,時間的情報タグを含むパターン数,時間的情報タグを含む特定のパターンの割合を調べた結果,新聞は時間的情報を表現する方法が異なることがわかった。

This paper studies the differences between different types of newspapers in expressing temporal information, which is a topic that has not received much attention. Techniques from the fields of temporal processing and pattern mining are employed to investigate this topic. First, a corpus annotated with temporal information is created by the author. Then, sequences of temporal information tags mixed with part-of-speech tags are extracted from the corpus. The TKS algorithm is used to mine skip-gram patterns from the sequences. With these patterns, the signatures of the four newspapers are obtained. In order to make the signatures uniquely characterize the newspapers, we revise the signatures by removing reference patterns. Through examining the number of patterns in the signatures and revised signatures, the proportion of patterns containing temporal information tags and the specific patterns containing temporal information tags, it is found that newspapers differ in ways of expressing temporal information.
翻訳日:2022-09-21 13:10:20 公開日:2020-11-24
# ANNのより生物学的に可能な局所学習規則

A More Biologically Plausible Local Learning Rule for ANNs ( http://arxiv.org/abs/2011.12012v1 )

ライセンス: Link先を確認
Shashi Kant Gupta(参考訳) バックプロパゲーションアルゴリズムはその生物学的妥当性についてしばしば議論されている。 しかし、より生物学的に妥当な学習を探すために、ニューラルネットワークの様々な学習方法が提案されている。 彼らの多くは、"重輸送問題"を解決し、いくつかの代替手法を通じてアーキテクチャの後方にエラーを伝達しようと試みている。 本研究では,誤差の伝播を伴わずにスパイクタイミング情報をキャプチャする局所情報のみを利用するアプローチについて検討した。 提案した学習規則は, 塑性と神経関連性に依存するスパイクタイミングの概念から導かれる。 MNISTとIRISデータセットの2つの隠れレイヤによるバイナリ分類に関する予備評価は、バックプロパゲーションと同等のパフォーマンスを示す。 この手法を用いて学習したモデルはまた、クロスエントロピー損失のバックプロパゲーションにより学習したモデルと比較して、FGSM攻撃に対するより良い敵の堅牢性を示す。 学習のローカルな性質は、ネットワークにおける大規模分散と並列学習の可能性をもたらす。 最後に、提案手法はより生物学的に健全な方法であり、生物学的ニューロンがどのように異なる抽象化を学ぶかを理解するのに役立つだろう。

The backpropagation algorithm is often debated for its biological plausibility. However, various learning methods for neural architecture have been proposed in search of more biologically plausible learning. Most of them have tried to solve the "weight transport problem" and try to propagate errors backward in the architecture via some alternative methods. In this work, we investigated a slightly different approach that uses only the local information which captures spike timing information with no propagation of errors. The proposed learning rule is derived from the concepts of spike timing dependant plasticity and neuronal association. A preliminary evaluation done on the binary classification of MNIST and IRIS datasets with two hidden layers shows comparable performance with backpropagation. The model learned using this method also shows a possibility of better adversarial robustness against the FGSM attack compared to the model learned through backpropagation of cross-entropy loss. The local nature of learning gives a possibility of large scale distributed and parallel learning in the network. And finally, the proposed method is a more biologically sound method that can probably help in understanding how biological neurons learn different abstractions.
翻訳日:2022-09-21 13:09:40 公開日:2020-11-24
# 直接質問によるモデル理解

Model Elicitation through Direct Questioning ( http://arxiv.org/abs/2011.12262v1 )

ライセンス: Link先を確認
Sachin Grover, David Smith, Subbarao Kambhampati(参考訳) 将来的には、人間がロボットであるシナリオが、複雑な環境で一緒に働くようになるでしょう。 チームメートが相互作用し、ロボットのインタラクションは、人間の(チームメート)モデルに関する有用な情報を取得する必要がある。 ロボットが対話する前には、人間のモデルに構造的な違いを取り入れたり、より単純な応答を確保するなど、多くの課題がある。 本稿では,ロボットがモデル群から人間のモデルをローカライズするためにどのように相互作用するかを検討する。 チームメートのモデルに対するロボットの理解を深めるために、質問を生成する方法を示す。 本手法を様々な計画領域で評価する。 評価の結果、これらの質問はオフラインで生成でき、単純な回答によってモデルを洗練するのに役立ちます。

The future will be replete with scenarios where humans are robots will be working together in complex environments. Teammates interact, and the robot's interaction has to be about getting useful information about the human's (teammate's) model. There are many challenges before a robot can interact, such as incorporating the structural differences in the human's model, ensuring simpler responses, etc. In this paper, we investigate how a robot can interact to localize the human model from a set of models. We show how to generate questions to refine the robot's understanding of the teammate's model. We evaluate the method in various planning domains. The evaluation shows that these questions can be generated offline, and can help refine the model through simple answers.
翻訳日:2022-09-21 13:09:26 公開日:2020-11-24
# ディープラーニングを用いた完全自動僧帽弁流入ドプラ解析

Fully Automated Mitral Inflow Doppler Analysis Using Deep Learning ( http://arxiv.org/abs/2011.12429v1 )

ライセンス: Link先を確認
Mohamed Y. Elwazir, Zeynettin Akkus, Didem Oguz, Jae K. Oh(参考訳) 心エコー図(echo)は、心科医の心電図診断に欠かせないツールである。 今日に至るまで、ほぼ全ての心エコーパラメーターは、経験豊富な心エコー計による時間を要する手動ラベリングと測定を必要とし、エコー画像のノイズとアーティファクトに富んだ性質のため、重要な変動を示す。 例えば、僧帽弁流入ドプラ(mitral inflow, mi)は左室拡張機能の評価に用いられ、異なる心臓疾患の鑑別において臨床的に重要である。 現在の作業では、ディープラーニングを活用した完全に自動化されたワークフローを提示します。 a)エコー研究で取得したmiドップラー画像のラベル b) MIドップラー信号のエンベロープを検出する。 c) 封筒から早期及び後期の流速(E及びA波)及びE波減速時間を抽出する。 MIドップラー画像を含む24種類の画像クラスを予測するために,140例の5544画像を用いた様々な畳み込みニューラルネットワーク(CNN)モデルを訓練し,40例の1737画像に対する0.97の総合的精度を得た。 自動化されたe波と波速は、オペレーターの測定値と良好な相関関係(pearson r 0.99 と 0.98)とbland altman agreement(それぞれ 0.06 と 0.05 m/s の差)を示した。 減速時間も良いが低い相関(ピアソン r 0.82)とbland-altman合意(平均差: 34.1ms、sd: 30.9ms)を示した。 これらの結果から,ドプラ心エコー計測の自動化と完全自動心エコー計測パッケージの実現可能性が確認された。

Echocardiography (echo) is an indispensable tool in a cardiologist's diagnostic armamentarium. To date, almost all echocardiographic parameters require time-consuming manual labeling and measurements by an experienced echocardiographer and exhibit significant variability, owing to the noisy and artifact-laden nature of echo images. For example, mitral inflow (MI) Doppler is used to assess left ventricular (LV) diastolic function, which is of paramount clinical importance to distinguish between different cardiac diseases. In the current work we present a fully automated workflow which leverages deep learning to a) label MI Doppler images acquired in an echo study, b) detect the envelope of MI Doppler signal, c) extract early and late filing (E and A wave) flow velocities and E-wave deceleration time from the envelope. We trained a variety of convolutional neural networks (CNN) models on 5544 images of 140 patients for predicting 24 image classes including MI Doppler images and obtained overall accuracy of 0.97 on 1737 images of 40 patients. Automated E and A wave velocity showed excellent correlation (Pearson R 0.99 and 0.98 respectively) and Bland Altman agreement (mean difference 0.06 and 0.05 m/s respectively and SD 0.03 for both) with the operator measurements. Deceleration time also showed good but lower correlation (Pearson R 0.82) and Bland-Altman agreement (mean difference: 34.1ms, SD: 30.9ms). These results demonstrate feasibility of Doppler echocardiography measurement automation and the promise of a fully automated echocardiography measurement package.
翻訳日:2022-09-21 13:04:15 公開日:2020-11-24
# 半監督学習技術を用いた衛星画像からの災害後損傷の評価

Assessing Post-Disaster Damage from Satellite Imagery using Semi-Supervised Learning Techniques ( http://arxiv.org/abs/2011.14004v1 )

ライセンス: Link先を確認
Jihyeon Lee, Joseph Z. Xu, Kihyuk Sohn, Wenhan Lu, David Berthelot, Izzeddin Gur, Pranav Khaitan, Ke-Wei (Fiona) Huang, Kyriacos Koupparis, Bernhard Kowatsch(参考訳) 地震、山火事、武力紛争などの災害に対応するため、人道的組織は、建物や人口中心が最も影響を受けていることを示す損害評価という形で正確かつタイムリーなデータを要求している。 最近の研究は、機械学習とリモートセンシングを組み合わせることで、衛星画像からこれらの情報を自動的に抽出し、手作業とターンアラウンド時間を削減する。 実際の災害対応シナリオで機械学習手法を使用する上での大きな障害は、展開する災害のモデルをトレーニングするための十分なラベル付きデータを取得することの難しさである。 本稿では,ラベル付きデータとラベルなしデータの量を最小限に抑えた損傷評価モデルに対する半教師付き学習(SSL)の新たな応用について述べる。 我々は,2010年ハイチ地震,2017年サンタローザ山火事,2016年のシリアの武力紛争において,ミックスマッチやフィクスマッチを含む最先端ssl手法の性能を教師付きベースラインと比較した。 少数のラベル付きデータを使用しながら、SSLメソッドでトレーニングされたモデルが完全に教師付きパフォーマンスに到達し、さらなる改善のために領域を特定する方法を示す。

To respond to disasters such as earthquakes, wildfires, and armed conflicts, humanitarian organizations require accurate and timely data in the form of damage assessments, which indicate what buildings and population centers have been most affected. Recent research combines machine learning with remote sensing to automatically extract such information from satellite imagery, reducing manual labor and turn-around time. A major impediment to using machine learning methods in real disaster response scenarios is the difficulty of obtaining a sufficient amount of labeled data to train a model for an unfolding disaster. This paper shows a novel application of semi-supervised learning (SSL) to train models for damage assessment with a minimal amount of labeled data and large amount of unlabeled data. We compare the performance of state-of-the-art SSL methods, including MixMatch and FixMatch, to a supervised baseline for the 2010 Haiti earthquake, 2017 Santa Rosa wildfire, and 2016 armed conflict in Syria. We show how models trained with SSL methods can reach fully supervised performance despite using only a fraction of labeled data and identify areas for further improvements.
翻訳日:2022-09-21 13:03:46 公開日:2020-11-24
# 将来のトラヒックマップ予測タスクtraffic4cast challenge 2020におけるunetの利用

Utilizing UNet for the future traffic map prediction task Traffic4cast challenge 2020 ( http://arxiv.org/abs/2012.00125v1 )

ライセンス: Link先を確認
Sungbin Choi(参考訳) 本稿では、UNetによるTraffic4cast Challenge 2020に関する実験について述べる。 traffic4cast challenge 2019と同様に、このタスクは世界中の3つの大都市の高解像度マップで、トラフィックの流れ量、方向、速度を予測することである。 主にUNetベースの深層畳み込みネットワークを実験し, 密結合型畳み込み層, 平均プール層, 最大プール層を多種に構成した。 3つのベースunetモデルが試され、予測スコアを平均したり、中央値を取ることで予測が組み合わされる。 提案手法は,近年新たに構築したチャレンジデータセットにおいて,最高の性能を達成している。

This paper describes our UNet based experiments on the Traffic4cast challenge 2020. Similar to the Traffic4cast challenge 2019, the task is to predict traffic flow volume, direction and speed on a high resolution map of three large cities worldwide. We mainly experimented with UNet based deep convolutional networks with various compositions of densely connected convolution layers, average pooling layers and max pooling layers. Three base UNet model types are tried and predictions are combined by averaging prediction scores or taking median value. Our method achieved best performance in this years newly built challenge dataset.
翻訳日:2022-09-21 13:03:25 公開日:2020-11-24
# InstaHideの2つのプライベート画像の混合におけるサンプル複雑さ

InstaHide's Sample Complexity When Mixing Two Private Images ( http://arxiv.org/abs/2011.11877v1 )

ライセンス: Link先を確認
Baihe Huang, Zhao Song, Runzhou Tao, Ruizhe Zhang, Danyang Zhuo(参考訳) instahide challenge [huang, song, li and arora'20], [chen, song and zhuo'20] にインスタヒド攻撃問題の数学的定式化がガウス像の分布の下で行われている。 彼らは、$o(n_{\mathsf{priv}}^{k_{\mathsf{priv}} - 2/(k_{\mathsf{priv}} + 1)})$ サンプルを使用して、$n_{\mathsf{priv}}^{o(k_{\mathsf{priv}})} + \mathrm{poly}(n_{\mathsf{pub}})$ 任意の整数 $k_{\mathsf{priv}}$, ここで $n_{\mathsf{priv}}$ と $n_{\mathsf{pub}}$ は、プライベートデータセットとパブリックデータセットで混合画像を生成するために使用される画像の数を表す。 2つのプライベートイメージ(k_{\mathsf{priv}} = 2$)を混合するというinstahideチャレンジの現在のセットアップの下では、サンプルの$n_{\mathsf{priv}}^{4/3}$はプライベートイメージを復元するのに十分である。 本研究では,すべてのプライベート画像の復元に$n_{\mathsf{priv}} \log (n_{\mathsf{priv}} )$サンプルが十分であることを示す。

Inspired by InstaHide challenge [Huang, Song, Li and Arora'20], [Chen, Song and Zhuo'20] recently provides one mathematical formulation of InstaHide attack problem under Gaussian images distribution. They show that it suffices to use $O(n_{\mathsf{priv}}^{k_{\mathsf{priv}} - 2/(k_{\mathsf{priv}} + 1)})$ samples to recover one private image in $n_{\mathsf{priv}}^{O(k_{\mathsf{priv}})} + \mathrm{poly}(n_{\mathsf{pub}})$ time for any integer $k_{\mathsf{priv}}$, where $n_{\mathsf{priv}}$ and $n_{\mathsf{pub}}$ denote the number of images used in the private and the public dataset to generate a mixed image sample. Under the current setup for the InstaHide challenge of mixing two private images ($k_{\mathsf{priv}} = 2$), this means $n_{\mathsf{priv}}^{4/3}$ samples are sufficient to recover a private image. In this work, we show that $n_{\mathsf{priv}} \log ( n_{\mathsf{priv}} )$ samples are sufficient (information-theoretically) for recovering all the private images.
翻訳日:2022-09-21 13:03:15 公開日:2020-11-24
# 深層学習に基づくスパースおよびノイズデータからの積分形式の偏微分方程式の発見

Deep-learning based discovery of partial differential equations in integral form from sparse and noisy data ( http://arxiv.org/abs/2011.11981v1 )

ライセンス: Link先を確認
Hao Xu, Dongxiao Zhang, Nanzhe Wang(参考訳) データ駆動型偏微分方程式(pdes)の発見は近年注目を集めている。 重大な進展はあったが、未解決の問題が残っている。 例えば、高階微分を持つPDEの場合、既存のメソッドのパフォーマンスは不満足である。 偏微分作用素に異種パラメータが埋め込まれた異種パラメトリック pdes を発見することも困難である。 本研究では、上記の問題を同時に処理し、PDE発見の精度と安定性を向上させるために、ディープラーニングと積分形式を組み合わせた新しいフレームワークを提案する。 このフレームワークでは、深層ニューラルネットワークをまず観測データで訓練し、メタデータを生成し、デリバティブを計算する。 次に、統一積分形式を定義し、最適な構造を見つけるために遺伝的アルゴリズムを用いる。 最後にパラメータの値が計算され、パラメータが定数であるか変数かを識別する。 数値実験により,提案手法は騒音に対して頑健であり,既存の手法に比べて積分形式の利用により精度が高いことがわかった。 提案アルゴリズムは,高次導関数や不均一パラメータを用いたPDEをスパースおよびノイズデータで正確に検出する。

Data-driven discovery of partial differential equations (PDEs) has attracted increasing attention in recent years. Although significant progress has been made, certain unresolved issues remain. For example, for PDEs with high-order derivatives, the performance of existing methods is unsatisfactory, especially when the data are sparse and noisy. It is also difficult to discover heterogeneous parametric PDEs where heterogeneous parameters are embedded in the partial differential operators. In this work, a new framework combining deep-learning and integral form is proposed to handle the above-mentioned problems simultaneously, and improve the accuracy and stability of PDE discovery. In the framework, a deep neural network is firstly trained with observation data to generate meta-data and calculate derivatives. Then, a unified integral form is defined, and the genetic algorithm is employed to discover the best structure. Finally, the value of parameters is calculated, and whether the parameters are constants or variables is identified. Numerical experiments proved that our proposed algorithm is more robust to noise and more accurate compared with existing methods due to the utilization of integral form. Our proposed algorithm is also able to discover PDEs with high-order derivatives or heterogeneous parameters accurately with sparse and noisy data.
翻訳日:2022-09-21 13:02:33 公開日:2020-11-24
# 線形-四次ニアセパブル混合物のブラインド音源分離

Provably robust blind source separation of linear-quadratic near-separable mixtures ( http://arxiv.org/abs/2011.11966v1 )

ライセンス: Link先を確認
Christophe Kervazo, Nicolas Gillis, Nicolas Dobigeon(参考訳) 本研究では,通常の線形モデルから離れ,線形四進法(LQ)モデルに焦点をあてることで,ブラインドソース分離(BSS)の問題を考える。 本稿では,データ集合のサンプルとしてソースが現れることを要求される分離可能性仮定の下でこの問題に取り組むために,2つの証明可能なロバストで計算可能なアルゴリズムを提案する。 最初のアルゴリズムは線形BSS用に設計された連続非負射影アルゴリズム(SNPA)を一般化し、SNPALQと呼ばれる。 SNPAスキームの繰り返しに沿ったLQモデル固有の積項を明示的にモデル化することにより、混合の非線形寄与を緩和し、分離品質を向上させる。 SNPALQは、ノイズの存在下でも、データを生成する基底的真理因子を復元できることが示されている。 第2のアルゴリズムはブルートフォース(bf)アルゴリズムであり、snpalqの処理後ステップとして使用される。 SNPALQによって抽出された(混合)サンプルを廃棄し、適用性を広げる。 BFは、SNPALQよりも簡易で穏やかな条件下では、ノイズに対して頑丈である。 実数値実験では,BF後処理を伴わないSNPALQが有効であることを示す。

In this work, we consider the problem of blind source separation (BSS) by departing from the usual linear model and focusing on the linear-quadratic (LQ) model. We propose two provably robust and computationally tractable algorithms to tackle this problem under separability assumptions which require the sources to appear as samples in the data set. The first algorithm generalizes the successive nonnegative projection algorithm (SNPA), designed for linear BSS, and is referred to as SNPALQ. By explicitly modeling the product terms inherent to the LQ model along the iterations of the SNPA scheme, the nonlinear contributions of the mixing are mitigated, thus improving the separation quality. SNPALQ is shown to be able to recover the ground truth factors that generated the data, even in the presence of noise. The second algorithm is a brute-force (BF) algorithm, which is used as a post-processing step for SNPALQ. It enables to discard the spurious (mixed) samples extracted by SNPALQ, thus broadening its applicability. The BF is in turn shown to be robust to noise under easier-to-check and milder conditions than SNPALQ. We show that SNPALQ with and without the BF postprocessing is relevant in realistic numerical experiments.
翻訳日:2022-09-21 13:01:37 公開日:2020-11-24
# 多言語検索のための音響スパン埋め込み

Acoustic span embeddings for multilingual query-by-example search ( http://arxiv.org/abs/2011.11807v1 )

ライセンス: Link先を確認
Yushi Hu, Shane Settle, and Karen Livescu(参考訳) query-by-example (qbe) 音声検索は、音声クエリと検索コレクション内の発話をマッチングするタスクである。 低リソースまたはゼロリソース設定では、QbE検索は動的時間ワープ(DTW)に基づくアプローチで対処されることが多い。 最近の研究によると、音響ワード埋め込み(awes)に基づく手法は、性能と検索速度の両方を改善することができる。 しかしながら、AWEベースのQbEに関する以前の研究は、主に英語のデータとシングルワードクエリに焦点を当てていた。 本研究では,AWEトレーニングを単語のスパンに一般化し,音響的スパン埋め込み(ASE)を生成し,任意の長さのクエリを複数の未知言語でQbEに適用する方法について検討する。 私たちは、他の言語(この場合、いくつかの低リソース言語)でラベル付きデータにアクセス可能な一般的な設定について検討しています。 我々は、QUESST 2015 QbEタスクに対する我々のアプローチを評価し、多言語ASEベースの検索がDTWベースの検索よりもはるかに高速であることを発見し、このタスクで発表された最も優れた結果を上回った。

Query-by-example (QbE) speech search is the task of matching spoken queries to utterances within a search collection. In low- or zero-resource settings, QbE search is often addressed with approaches based on dynamic time warping (DTW). Recent work has found that methods based on acoustic word embeddings (AWEs) can improve both performance and search speed. However, prior work on AWE-based QbE has primarily focused on English data and with single-word queries. In this work, we generalize AWE training to spans of words, producing acoustic span embeddings (ASE), and explore the application of ASE to QbE with arbitrary-length queries in multiple unseen languages. We consider the commonly used setting where we have access to labeled data in other languages (in our case, several low-resource languages) distinct from the unseen test languages. We evaluate our approach on the QUESST 2015 QbE tasks, finding that multilingual ASE-based search is much faster than DTW-based search and outperforms the best previously published results on this task.
翻訳日:2022-09-21 13:01:16 公開日:2020-11-24
# 病院訪問時のバイタルサインを用いたシックル細胞病患者の痛み強度評価

Pain Intensity Assessment in Sickle Cell Disease patients using Vital Signs during Hospital Visits ( http://arxiv.org/abs/2012.01126v1 )

ライセンス: Link先を確認
Swati Padhee (1), Amanuel Alambo (1), Tanvi Banerjee (1), Arvind Subramaniam (2), Daniel M. Abrams (3), Gary K.Nave Jr. (3), Nirmish Shah (2) ((1) Wright State University, (2) Duke University, (3) Northwestern University)(参考訳) 病気細胞病(SCD)の痛みはしばしば死亡率、死亡率、医療費の増加と関連している。 痛みの欠如、存在、および強度を予測する標準的な方法は、長い間自己報告されてきた。 しかし、医療提供者は主観的な痛みの報告に基づいて患者を正しく管理するのに苦労しており、痛みの薬は鎮静と眠気を引き起こす可能性があるため、患者とのコミュニケーションがさらに困難になることが多い。 近年の研究では、機械学習(ML)技術を用いて、入院患者に対する主観的自己申告痛スコアを客観的に予測できることが示されている。 本研究では,3種類の入院患者(入院患者,外来患者,外来患者)を対象に,長期にわたって収集したデータに対するML手法の一般化性を評価する。 5つの分類アルゴリズムを個人内(各患者)と個人間(患者間)の両方の痛み強度レベルと比較した。 全ての試験された分類器は偶然よりもはるかに優れているが、決定木(DT)モデルは11点重度スケール(0-10から)の痛みを予測するのに最適であり、個人間レベルでは0.728、個人間レベルでは0.653である。 dtの精度は,2点評価尺度(no/mild pain: 0-5, severe pain: 6-10)で0.941に有意に向上した。 実験の結果, ml技術は, 3種類の病院訪問すべてにおいて, 痛み強度レベルを客観的かつ定量的に評価できることがわかった。

Pain in sickle cell disease (SCD) is often associated with increased morbidity, mortality, and high healthcare costs. The standard method for predicting the absence, presence, and intensity of pain has long been self-report. However, medical providers struggle to manage patients based on subjective pain reports correctly and pain medications often lead to further difficulties in patient communication as they may cause sedation and sleepiness. Recent studies have shown that objective physiological measures can predict subjective self-reported pain scores for inpatient visits using machine learning (ML) techniques. In this study, we evaluate the generalizability of ML techniques to data collected from 50 patients over an extended period across three types of hospital visits (i.e., inpatient, outpatient and outpatient evaluation). We compare five classification algorithms for various pain intensity levels at both intra-individual (within each patient) and inter-individual (between patients) level. While all the tested classifiers perform much better than chance, a Decision Tree (DT) model performs best at predicting pain on an 11-point severity scale (from 0-10) with an accuracy of 0.728 at an inter-individual level and 0.653 at an intra-individual level. The accuracy of DT significantly improves to 0.941 on a 2-point rating scale (i.e., no/mild pain: 0-5, severe pain: 6-10) at an intra-individual level. Our experimental results demonstrate that ML techniques can provide an objective and quantitative evaluation of pain intensity levels for all three types of hospital visits.
翻訳日:2022-09-21 12:54:09 公開日:2020-11-24
# Wyner-Ziv 推定器:サイド情報を用いた効率的な分散平均推定

Wyner-Ziv Estimators: Efficient Distributed Mean Estimation with Side Information ( http://arxiv.org/abs/2011.12160v1 )

ライセンス: Link先を確認
Prathamesh Mayekar, Ananda Theertha Suresh, and Himanshu Tyagi(参考訳) コミュニケーション効率のよい分散平均推定は、連合学習のような多くの分散学習や最適化シナリオで発生する重要なプリミティブである。 基礎となるデータに対する確率論的仮定がなければ、サーバがサイド情報にアクセスする分散平均推定の問題を研究できる。 側情報とデータとの間の距離の上限が分かっている場合、通信と計算効率が良く、最適に近い推定器である \emph{wyner-ziv estimators} を提案する。 また,情報理論における古典的なWyner-Ziv問題に対して,アルゴリズムが効率的なスキームを提供することを示す。 別の方向では、サイド情報とデータの距離に関する知識が仮定されていない場合、相関サンプリングを用いたwyner-ziv推定器を提案する。 この後者の設定は、普遍的なリカバリ保証を提供するものであり、おそらく、ユーザ数が膨大であり、データとサイド情報の間の距離の追跡が不可能な場合に、実際に興味を持つだろう。

Communication efficient distributed mean estimation is an important primitive that arises in many distributed learning and optimization scenarios such as federated learning. Without any probabilistic assumptions on the underlying data, we study the problem of distributed mean estimation where the server has access to side information. We propose \emph{Wyner-Ziv estimators}, which are communication and computationally efficient and near-optimal when an upper bound for the distance between the side information and the data is known. As a corollary, we also show that our algorithms provide efficient schemes for the classic Wyner-Ziv problem in information theory. In a different direction, when there is no knowledge assumed about the distance between side information and the data, we present an alternative Wyner-Ziv estimator that uses correlated sampling. This latter setting offers {\em universal recovery guarantees}, and perhaps will be of interest in practice when the number of users is large and keeping track of the distances between the data and the side information may not be possible.
翻訳日:2022-09-21 12:53:10 公開日:2020-11-24
# Geom-SPIDER-EM:非凸有限和最適化のための高速変動低減確率予測最大化

Geom-SPIDER-EM: Faster Variance Reduced Stochastic Expectation Maximization for Nonconvex Finite-Sum Optimization ( http://arxiv.org/abs/2011.12392v1 )

ライセンス: Link先を確認
Gersende Fort (IMT), Eric Moulines (X-DEP-MATHAPP), Hoi-To Wai(参考訳) 予測最大化(EM)アルゴリズムは、潜在変数モデルにおける推論の鍵となる参照であり、残念ながら、その計算コストは大規模学習環境では禁じられている。 本稿では, 確率的経路積分型微分推定器em(spider-em)の拡張を提案し, 滑らかな非凸有限サム最適化問題を解くために設計されたこのアルゴリズムの複雑性境界を導出する。 本研究では, SPIDER-EM と同値のアート複雑性に到達し, 収束率の線形条件を提供する。 数値的な結果は我々の発見を裏付ける。

The Expectation Maximization (EM) algorithm is a key reference for inference in latent variable models; unfortunately, its computational cost is prohibitive in the large scale learning setting. In this paper, we propose an extension of the Stochastic Path-Integrated Differential EstimatoR EM (SPIDER-EM) and derive complexity bounds for this novel algorithm, designed to solve smooth nonconvex finite-sum optimization problems. We show that it reaches the same state of the art complexity bounds as SPIDER-EM; and provide conditions for a linear rate of convergence. Numerical results support our findings.
翻訳日:2022-09-21 12:52:34 公開日:2020-11-24
# 深層学習ネットワークを用いた微視的病理像のブラインドデブロアリング

Blind deblurring for microscopic pathology images using deep learning networks ( http://arxiv.org/abs/2011.11879v1 )

ライセンス: Link先を確認
Cheng Jiang (1), Jun Liao (1), Pei Dong (1), Zhaoxuan Ma (1), De Cai (1), Guoan Zheng (2), Yueping Liu (3), Hong Bu (4 and 5) and Jianhua Yao (1) ((1) Tencent AI Lab, Shenzhen, China,(2) Department of Biomedical Engineering, University of Connecticut, Storrs, CT, USA,(3) Department of Pathology, The Fourth Hospital of Hebei Medical University, Hebei, China,(4) Department of Pathology, West China Hospital, Sichuan University, Chengdu, China,(5) Laboratory of Pathology, Clinical Research Centre for Breast, West China Hospital, Sichuan University, Chengdu, China.)(参考訳) 人工知能(AI)を利用した病理学は、デジタル病理学の世界における革命的なステップであり、診断精度と効率の両方を向上する大きな可能性を秘めている。 しかし、デフォーカスとモーションボケは組織や細胞の特徴を曖昧にすることで、画像解析におけるAIアルゴリズムの精度と堅牢性を損なう可能性がある。 本稿では,顕微鏡画像のデフォーカスや動きのぼかしを軽減し,ぼかしの種類,ぼかし範囲,病理染色の事前知識を必要とせずに,より鮮明で清潔な画像を抽出する深層学習に基づくアプローチを示す。 このアプローチでは、ディープラーニングの分類器を最初にトレーニングして、イメージのぼかしタイプを識別する。 次に、2つのエンコーダ-デコーダネットワークを訓練し、単独または組み合わせて入力画像をデブラリングする。 これはエンドツーエンドのアプローチであり、従来のブラインドデコンボリューションメソッドのように、波形アーチファクトは導入しない。 病理標本の異なるタイプについて本手法をテストし,画像のぼかし補正とその後のaiアルゴリズムの診断結果の改善に優れた効果を示す。

Artificial Intelligence (AI)-powered pathology is a revolutionary step in the world of digital pathology and shows great promise to increase both diagnosis accuracy and efficiency. However, defocus and motion blur can obscure tissue or cell characteristics hence compromising AI algorithms'accuracy and robustness in analyzing the images. In this paper, we demonstrate a deep-learning-based approach that can alleviate the defocus and motion blur of a microscopic image and output a sharper and cleaner image with retrieved fine details without prior knowledge of the blur type, blur extent and pathological stain. In this approach, a deep learning classifier is first trained to identify the image blur type. Then, two encoder-decoder networks are trained and used alone or in combination to deblur the input image. It is an end-to-end approach and introduces no corrugated artifacts as traditional blind deconvolution methods do. We test our approach on different types of pathology specimens and demonstrate great performance on image blur correction and the subsequent improvement on the diagnosis outcome of AI algorithms.
翻訳日:2022-09-21 12:52:21 公開日:2020-11-24
# マルチステージCNNによる単眼3次元車両位置定位と方位推定

Multi-Stage CNN-Based Monocular 3D Vehicle Localization and Orientation Estimation ( http://arxiv.org/abs/2011.12256v1 )

ライセンス: Link先を確認
Ali Babolhavaeji and Mohammad Fanaei(参考訳) 本稿では,単眼カメラで撮影した2次元画像から3次元物体検出モデルを構築し,推定した鳥眼視高度マップと物体特徴の深部表現を組み合わせることを目的とする。 提案モデルでは、resnet-50ネットワークをバックエンドネットワークとして、さらに3つのブランチを持つ。 このモデルはまず、シーン内の物体の深さを推定し、オブジェクトの3dバウンディングボックスを推定するために、バードズ・アイ・ビュー高度マップを構築します。 構文データセットとkiitiデータセットの2つの主要なデータセットでトレーニングし、評価しました。

This paper aims to design a 3D object detection model from 2D images taken by monocular cameras by combining the estimated bird's-eye view elevation map and the deep representation of object features. The proposed model has a pre-trained ResNet-50 network as its backend network and three more branches. The model first builds a bird's-eye view elevation map to estimate the depth of the object in the scene and by using that estimates the object's 3D bounding boxes. We have trained and evaluate it on two major datasets: a syntactic dataset and the KIITI dataset.
翻訳日:2022-09-21 12:52:02 公開日:2020-11-24
# 分布条件記述:フレキシブルな識別画像記述装置

Distribution Conditional Denoising: A Flexible Discriminative Image Denoiser ( http://arxiv.org/abs/2011.12398v1 )

ライセンス: Link先を確認
Anthony Kelly(参考訳) U-Netに基づくデゾナイズFCNにマルチタスク学習手法を適用するフレキシブルな識別画像デノイザを導入する。 U-Netモデルの活性化は条件付け入力の学習関数であるアフィン変換によって修正される。 複数のノイズタイプとレベルの学習手順は、条件付け入力にトレーニング中にノイズパラメータの分布を適用し、入力のノイズ発生層に同じノイズパラメータを適用させる(復調オートエンコーダのアプローチと似ている)。 ガウス雑音やポアソン雑音で劣化した画像に対して, このフレキシブルデノイジンモデルにより, 芸術的性能が向上することを示す。 また, この条件付きトレーニング手法は, 固定ノイズレベルU-Netデノイザを様々なノイズレベルに一般化できることを示した。

A flexible discriminative image denoiser is introduced in which multi-task learning methods are applied to a densoising FCN based on U-Net. The activations of the U-Net model are modified by affine transforms that are a learned function of conditioning inputs. The learning procedure for multiple noise types and levels involves applying a distribution of noise parameters during training to the conditioning inputs, with the same noise parameters applied to a noise generating layer at the input (similar to the approach taken in a denoising autoencoder). It is shown that this flexible denoising model achieves state of the art performance on images corrupted with Gaussian and Poisson noise. It has also been shown that this conditional training method can generalise a fixed noise level U-Net denoiser to a variety of noise levels.
翻訳日:2022-09-21 12:51:54 公開日:2020-11-24
# 不規則熱データに基づく連続的クロスオブジェクト肝生存度評価のためのオンラインドメイン適応

Online Domain Adaptation for Continuous Cross-Subject Liver Viability Evaluation Based on Irregular Thermal Data ( http://arxiv.org/abs/2011.12408v1 )

ライセンス: Link先を確認
Sahand Hajifar and Hongyue Sun(参考訳) 調達時の肝生存率の正確な評価は難しい問題であり、伝統的に肝への浸潤生検によって対処されてきた。 近年, 肝表面の熱画像を用いて, 肝臓の生存率を非侵襲的に評価する研究が始まっている。 しかし、既存の作品では熱画像の背景ノイズが含まれており、肝の異種性を考慮していないため、生存率の評価精度に影響を及ぼす可能性がある。 そこで本研究では, 肝領域の異常な熱データと, クロスオブジェクト肝評価情報(すなわち, クロスオブジェクト肝における可視性ラベル情報)を, 新しい肝の可視性評価のリアルタイム評価に利用することを提案する。 この目的を達成するために,グラフ信号処理(GSP)からツールに基づいた不規則熱データの特徴を抽出し,クロスオブジェクト肝臓のGSP特徴を用いたオンラインドメイン適応(DA)および分類フレームワークを提案する。 マルチ凸ブロック座標降下に基づくアルゴリズムは、オンラインda中にドメイン不変な特徴を学習し、分類器を学習するように設計されている。 提案手法は肝調達データに適用し,肝臓の生存率を正確に分類する。

Accurate evaluation of liver viability during its procurement is a challenging issue and has traditionally been addressed by taking invasive biopsy on liver. Recently, people have started to investigate on the non-invasive evaluation of liver viability during its procurement using the liver surface thermal images. However, existing works include the background noise in the thermal images and do not consider the cross-subject heterogeneity of livers, thus the viability evaluation accuracy can be affected. In this paper, we propose to use the irregular thermal data of the pure liver region, and the cross-subject liver evaluation information (i.e., the available viability label information in cross-subject livers), for the real-time evaluation of a new liver's viability. To achieve this objective, we extract features of irregular thermal data based on tools from graph signal processing (GSP), and propose an online domain adaptation (DA) and classification framework using the GSP features of cross-subject livers. A multiconvex block coordinate descent based algorithm is designed to jointly learn the domain-invariant features during online DA and learn the classifier. Our proposed framework is applied to the liver procurement data, and classifies the liver viability accurately.
翻訳日:2022-09-21 12:45:44 公開日:2020-11-24
# pelenet:loihiのための貯水池コンピューティングフレームワーク

PeleNet: A Reservoir Computing Framework for Loihi ( http://arxiv.org/abs/2011.12338v1 )

ライセンス: Link先を確認
Carlo Michaelis(参考訳) ニューラルネットワークをスパイクするための高レベルのフレームワークは、高速なプロトタイピングと複雑なアルゴリズムの効率的な開発のための重要な要素である。 従来のコンピュータでは、このようなフレームワークがここ数年登場してきたが、ニューロモルフィックなハードウェアのプログラミングは依然として課題だ。 しばしば、ニューロモルフィックチップのハードウェアに関する知識を備えた低レベルプログラミングが必要となる。 pelenetフレームワークは、ニューロモルフィックハードウェアloihiのリザーバコンピューティングを単純化することを目的としている。 IntelのNxSDK上に構築され、Pythonで書かれている。 このフレームワークは重量行列、パラメータ、プローブを管理する。 特に、複数のコアとチップにわたるネットワークの自動的かつ効率的な分散を提供する。 これにより、ユーザは技術的な詳細に直面することなく、実験に集中することができる。

High-level frameworks for spiking neural networks are a key factor for fast prototyping and efficient development of complex algorithms. Such frameworks have emerged in the last years for traditional computers, but programming neuromorphic hardware is still a challenge. Often low level programming with knowledge about the hardware of the neuromorphic chip is required. The PeleNet framework aims to simplify reservoir computing for the neuromorphic hardware Loihi. It is build on top of the NxSDK from Intel and is written in Python. The framework manages weight matrices, parameters and probes. In particular, it provides an automatic and efficient distribution of networks over several cores and chips. With this, the user is not confronted with technical details and can concentrate on experiments.
翻訳日:2022-09-21 12:45:07 公開日:2020-11-24
# マシンラーニングがプライバシに出会った時 - 調査と展望

When Machine Learning Meets Privacy: A Survey and Outlook ( http://arxiv.org/abs/2011.11819v1 )

ライセンス: Link先を確認
Bo Liu, Ming Ding, Sina Shaham, Wenny Rahayu, Farhad Farokhi, Zihuai Lin(参考訳) 新たに登場した機械学習(ディープラーニングなど)の手法は、スマートヘルスケア、金融技術、監視システムといった幅広い産業に革命をもたらす強力な推進力となっている。 一方、この機械学習ベースの人工知能時代には、プライバシーが大きな関心事になっている。 機械学習のコンテキストにおけるプライバシ保護の問題と、従来のデータプライバシ保護の問題とはまったく異なる点に注意が必要だ。 現在、プライバシとマシンラーニング(ml)の保存に関する作業は、まだ初期段階にあり、既存のソリューションのほとんどは、マシンラーニングプロセス中のプライバシの問題のみに焦点を当てている。 したがって、プライバシー保護問題と機械学習に関する包括的な研究が必要である。 本稿では,機械学習におけるプライバシ問題とソリューションの現状について調査する。 この調査は、プライバシとマシンラーニングの間のインタラクションの3つのカテゴリをカバーする。 (i)プライベート機械学習 (ii) 機械学習がプライバシー保護を支援し、 (iii)機械学習に基づくプライバシ攻撃とそれに対応する保護スキーム。 各カテゴリにおける現在の研究の進展をレビューし、主要な課題を特定する。 最後に、プライバシーと機械学習の分野に関する詳細な分析に基づいて、この分野の今後の研究方向性を指摘する。

The newly emerged machine learning (e.g. deep learning) methods have become a strong driving force to revolutionize a wide range of industries, such as smart healthcare, financial technology, and surveillance systems. Meanwhile, privacy has emerged as a big concern in this machine learning-based artificial intelligence era. It is important to note that the problem of privacy preservation in the context of machine learning is quite different from that in traditional data privacy protection, as machine learning can act as both friend and foe. Currently, the work on the preservation of privacy and machine learning (ML) is still in an infancy stage, as most existing solutions only focus on privacy problems during the machine learning process. Therefore, a comprehensive study on the privacy preservation problems and machine learning is required. This paper surveys the state of the art in privacy issues and solutions for machine learning. The survey covers three categories of interactions between privacy and machine learning: (i) private machine learning, (ii) machine learning aided privacy protection, and (iii) machine learning-based privacy attack and corresponding protection schemes. The current research progress in each category is reviewed and the key challenges are identified. Finally, based on our in-depth analysis of the area of privacy and machine learning, we point out future research directions in this field.
翻訳日:2022-09-21 12:44:45 公開日:2020-11-24
# 集束レベルでの交通速度予測のためのガウス過程

Gaussian Processes for Traffic Speed Prediction at Different Aggregation Levels ( http://arxiv.org/abs/2011.11866v1 )

ライセンス: Link先を確認
Gurcan Comert(参考訳) 知的輸送における交通の動的挙動は予測モデルの性能に悪影響を及ぼす。 本研究は交通速度予測にガウス過程(GP)を適用する。 このような予測は、リアルタイム経路案内、ランプメータ、混雑料金、特別なイベント交通管理など、様々な交通アプリケーションで使用することができる。 様々な集約レベル(1分から60分)のワンステップ予測を生成モデルの性能のためにテストする。 単変量および多変量GPは、カリフォルニア、ポートランド、バージニアの高速道路からのループおよびInrixプローブ車両データセットを用いて、他の線形および非線形時系列およびグレイシステムモデルと比較される。 実験データから, GPモデルが同様の計算時間で比較したモデルより一貫して性能を向上できることが期待できる。

Dynamic behavior of traffic adversely affect the performance of the prediction models in intelligent transportation applications. This study applies Gaussian processes (GPs) to traffic speed prediction. Such predictions can be used by various transportation applications, such as real-time route guidance, ramp metering, congestion pricing and special events traffic management. One-step predictions with various aggregation levels (1 to 60-minute) are tested for performance of the generated models. Univariate and multivariate GPs are compared with several other linear, nonlinear time series, and Grey system models using loop and Inrix probe vehicle datasets from California, Portland, and Virginia freeways respectively. Based on the test data samples, results are promising that GP models are able to consistently outperform compared models with similar computational times.
翻訳日:2022-09-21 12:44:10 公開日:2020-11-24
# DADNN:ドメイン対応ディープニューラルネットワークによるマルチシーンCTR予測

DADNN: Multi-Scene CTR Prediction via Domain-Aware Deep Neural Network ( http://arxiv.org/abs/2011.11938v1 )

ライセンス: Link先を確認
Junyou He, Guibao Mei, Feng Xing, Xiaorui Yang, Yongjun Bao, Weipeng Yan(参考訳) クリックスルーレート(CTR)予測は、広告システムにおける中核的なタスクである。 当社のeコマースビジネスが急成長するにつれ、シーンが増えている。 多くはいわゆるロングテールのシーンであり、単一のシーンのトラフィックは限られているが、全体のトラフィックは相当に多い。 典型的な研究は主に、1つのシーンによく設計されたモデルを提供することに重点を置いている。 しかし、この方法はオフライントレーニングとオンラインサービスの両方で過剰なリソース消費をもたらす。 さらに、複数のシーンからのデータで単一のモデルをトレーニングするだけで、独自の特性が無視される。 これらの課題に対処するために,ドメイン認識深層ニューラルネットワーク (DADNN) という新しい実用モデルを提案し,複数のシーンを1つのモデルで提供する。 具体的には、すべてのシーンで共有されたボトムブロックを使用して共通の表現を学習し、ドメイン固有のヘッドは各シーンの特徴を保持します。 また,異なる場面間での知識共有の機会を高めるために,知識伝達を導入した。 本稿では,DADNNの共通底ブロックが多層パーセプトロン(MLP)とMulti-gate Mixture-of-Experts(MMoE)であり,DADNN-MLPとDADNN-MMoEと表記する2つの事例について検討する。 オンラインA/Bテストにより、DADNN-MLPはDCNモデルと比較して最大6.7%のCTRと3.0%のCPM(Cost Per Mille)のプロモーションに寄与していることが明らかになった。 さらに、DADNN-MMoEはDADNN-MLPよりも2.2%、CTRは2.7%向上している。 さらに重要なのは、DADNNは単一のモデルを複数のシーンに使用することで、オフライントレーニングとオンラインサービスリソースを多く節約する。

Click through rate(CTR) prediction is a core task in advertising systems. The booming e-commerce business in our company, results in a growing number of scenes. Most of them are so-called long-tail scenes, which means that the traffic of a single scene is limited, but the overall traffic is considerable. Typical studies mainly focus on serving a single scene with a well designed model. However, this method brings excessive resource consumption both on offline training and online serving. Besides, simply training a single model with data from multiple scenes ignores the characteristics of their own. To address these challenges, we propose a novel but practical model named Domain-Aware Deep Neural Network(DADNN) by serving multiple scenes with only one model. Specifically, shared bottom block among all scenes is applied to learn a common representation, while domain-specific heads maintain the characteristics of every scene. Besides, knowledge transfer is introduced to enhance the opportunity of knowledge sharing among different scenes. In this paper, we study two instances of DADNN where its shared bottom block is multilayer perceptron(MLP) and Multi-gate Mixture-of-Experts(MMoE) respectively, for which we denote as DADNN-MLP and DADNN-MMoE.Comprehensive offline experiments on a real production dataset from our company show that DADNN outperforms several state-of-the-art methods for multi-scene CTR prediction. Extensive online A/B tests reveal that DADNN-MLP contributes up to 6.7% CTR and 3.0% CPM(Cost Per Mille) promotion compared with a well-engineered DCN model. Furthermore, DADNN-MMoE outperforms DADNN-MLP with a relative improvement of 2.2% and 2.7% on CTR and CPM respectively. More importantly, DADNN utilizes a single model for multiple scenes which saves a lot of offline training and online serving resources.
翻訳日:2022-09-21 12:43:30 公開日:2020-11-24
# エッジコンピューティングのためのバイナリニューラルネットワークの最近の進歩

A Review of Recent Advances of Binary Neural Networks for Edge Computing ( http://arxiv.org/abs/2011.14824v1 )

ライセンス: Link先を確認
Wenyu Zhao, Teli Ma, Xuan Gong, Baochang Zhang, and David Doermann(参考訳) エッジコンピューティングは、リアルタイムの無人航空機システム、産業アプリケーション、プライバシー保護の要求など、さまざまな進化途上のドメインにメリットがあるため、人工知能における次のホットトピックの1つになることを約束している。 本稿では、フロントエンドのエッジベースコンピューティングに適したバイナリニューラルネットワーク(bnn)と1ビットcnn技術の最近の進歩を概観する。 本稿では,既存の研究を概説し,勾配近似,量子化,アーキテクチャ,損失関数,最適化法,バイナリニューラルアーキテクチャ探索に基づいて分類する。 また,コンピュータビジョンや音声認識の分野での応用例を紹介し,エッジコンピューティングの今後の応用について論じる。

Edge computing is promising to become one of the next hottest topics in artificial intelligence because it benefits various evolving domains such as real-time unmanned aerial systems, industrial applications, and the demand for privacy protection. This paper reviews recent advances on binary neural network (BNN) and 1-bit CNN technologies that are well suitable for front-end, edge-based computing. We introduce and summarize existing work and classify them based on gradient approximation, quantization, architecture, loss functions, optimization method, and binary neural architecture search. We also introduce applications in the areas of computer vision and speech recognition and discuss future applications for edge computing.
翻訳日:2022-09-21 12:37:03 公開日:2020-11-24
# 一般化変分連続学習

Generalized Variational Continual Learning ( http://arxiv.org/abs/2011.12328v1 )

ライセンス: Link先を確認
Noel Loo, Siddharth Swaroop, Richard E. Turner(参考訳) 継続的学習は、オンライン形式で新しいタスクやデータセットのトレーニングモデルを扱う。 連続学習には確率的正則化(probabilistic regularization)が用いられており、オンライン弾性重み強化(Online EWC)と変分連続学習(VCL)の2つのアプローチがある。 VCLは変分推論を採用しており、他の設定では確率テンパリングを適用して経験的に改善されている。 この修正をVCLに適用することで、オンラインEWCを制限ケースとして回復し、2つのアプローチ間の補間を可能にする。 一般アルゴリズム一般化vcl(gvcl)と呼ぶ。 VIのオーバープルーニング効果を緩和するため、タスク固有のFiLM層を持つニューラルネットワークであるマルチタスクアーキテクチャからインスピレーションを得て、特に変分法において、この追加が大きなパフォーマンス向上をもたらすことを発見した。 小データ体制では、GVCLは既存のベースラインを強く上回る。 より大きなデータセットでは、FILMレイヤを持つGVCLは、精度において既存のベースラインよりも優れるか、競合している。

Continual learning deals with training models on new tasks and datasets in an online fashion. One strand of research has used probabilistic regularization for continual learning, with two of the main approaches in this vein being Online Elastic Weight Consolidation (Online EWC) and Variational Continual Learning (VCL). VCL employs variational inference, which in other settings has been improved empirically by applying likelihood-tempering. We show that applying this modification to VCL recovers Online EWC as a limiting case, allowing for interpolation between the two approaches. We term the general algorithm Generalized VCL (GVCL). In order to mitigate the observed overpruning effect of VI, we take inspiration from a common multi-task architecture, neural networks with task-specific FiLM layers, and find that this addition leads to significant performance gains, specifically for variational methods. In the small-data regime, GVCL strongly outperforms existing baselines. In larger datasets, GVCL with FiLM layers outperforms or is competitive with existing baselines in terms of accuracy, whilst also providing significantly better calibration.
翻訳日:2022-09-21 12:36:27 公開日:2020-11-24
# 時系列データを用いた回帰の非線形関数オンファンクションモデル

A Non-linear Function-on-Function Model for Regression with Time Series Data ( http://arxiv.org/abs/2011.12378v1 )

ライセンス: Link先を確認
Qiyao Wang, Haiyan Wang, Chetan Gupta, Aniruddha Rajendra Rao, Hamed Khorasgani(参考訳) 過去数十年間、時系列、テキスト、画像、ビデオを含む非スカラー変数の回帰モデルの構築は、データ分析コミュニティからの研究者の関心を惹きつけてきた。 本稿では,多変量時系列回帰問題に焦点をあてる。 具体的には,多変量回帰モデル, seq2seqモデル, 関数線形モデルなどの先行技術では, 時間間隔s内で測定された複数の数値変数から, 時間間隔t上の興味のある複数の数値変数への数学的マッピングを学習することが目的である。 最初の2種類のモデルは定期的に観測される時系列しか扱えない。 さらに、従来の多変量回帰モデルは、同じ時系列の観測値間の時間依存性をエンコードできないため、偏りや非効率になりがちである。 逐次学習モデルは時間に沿って同じパラメータセットを明示的に使用し、精度に悪影響を及ぼす。 関数データ解析における関数オンファンクション線形モデル(統計学の一分野)は、考慮された時系列間の複雑な相関を捉えるには不十分であり、不適合に苦しむ。 本稿では,特殊ケースとして関数・オン・ファンクション線形モデルを取り入れた一般関数写像を提案する。 次に、完全連結ニューラルネットワークを用いた非線形関数オンファンクションモデルを提案し、既存のアプローチの懸念に対処するデータからマッピングを学習する。 提案モデルでは,対応する数値的な実装手順を詳細に記述する。 実世界の2つの問題に適用し,提案モデルの有効性を実証した。

In the last few decades, building regression models for non-scalar variables, including time series, text, image, and video, has attracted increasing interests of researchers from the data analytic community. In this paper, we focus on a multivariate time series regression problem. Specifically, we aim to learn mathematical mappings from multiple chronologically measured numerical variables within a certain time interval S to multiple numerical variables of interest over time interval T. Prior arts, including the multivariate regression model, the Seq2Seq model, and the functional linear models, suffer from several limitations. The first two types of models can only handle regularly observed time series. Besides, the conventional multivariate regression models tend to be biased and inefficient, as they are incapable of encoding the temporal dependencies among observations from the same time series. The sequential learning models explicitly use the same set of parameters along time, which has negative impacts on accuracy. The function-on-function linear model in functional data analysis (a branch of statistics) is insufficient to capture complex correlations among the considered time series and suffer from underfitting easily. In this paper, we propose a general functional mapping that embraces the function-on-function linear model as a special case. We then propose a non-linear function-on-function model using the fully connected neural network to learn the mapping from data, which addresses the aforementioned concerns in the existing approaches. For the proposed model, we describe in detail the corresponding numerical implementation procedures. The effectiveness of the proposed model is demonstrated through the application to two real-world problems.
翻訳日:2022-09-21 12:36:07 公開日:2020-11-24
# micronet: 極めて低いフロップによる画像認識に向けて

MicroNet: Towards Image Recognition with Extremely Low FLOPs ( http://arxiv.org/abs/2011.12289v1 )

ライセンス: Link先を確認
Yunsheng Li and Yinpeng Chen and Xiyang Dai and Dongdong Chen and Mengchen Liu and Lu Yuan and Zicheng Liu and Lei Zhang and Nuno Vasconcelos(参考訳) 本稿では,超低計算コスト(イメージネット分類における6つのMFLOPなど)を用いた効率的な畳み込みニューラルネットワークであるMicroNetを提案する。 このような低価格ネットワークはエッジデバイスでは非常に望ましいが、通常は大幅なパフォーマンス低下に苦しむ。 極めて低いFLOPを2つの設計原則に基づいて処理します。 (a)ノード接続を低くすることでネットワーク幅の削減を回避し、 b) 層ごとにより複雑な非線形性を導入することによりネットワーク深さの低減を補正する。 まず, チャネル数と入出力接続のトレードオフを良好にするため, ポイントワイズと深さ方向の畳み込みを低ランク行列に分解するマイクロファクタリング畳み込みを提案する。 次に,入力特徴マップと円チャンネルシフトとの複数の動的融合を最大化することで非線形性を改善する,dynamic shift-maxと呼ばれる新しい活性化関数を提案する。 それらのパラメータが入力に適合するので、融合は動的である。 micro-factorized convolutionとdynamic shift-maxをベースにしたマイクロネットのファミリは、低フロップ体制の最先端よりも大きなパフォーマンス向上を達成している。 例えば、micronet-m1は12mflopsのimagenet分類で61.1%のtop-1精度を達成し、mobilenetv3を11.3%上回った。

In this paper, we present MicroNet, which is an efficient convolutional neural network using extremely low computational cost (e.g. 6 MFLOPs on ImageNet classification). Such a low cost network is highly desired on edge devices, yet usually suffers from a significant performance degradation. We handle the extremely low FLOPs based upon two design principles: (a) avoiding the reduction of network width by lowering the node connectivity, and (b) compensating for the reduction of network depth by introducing more complex non-linearity per layer. Firstly, we propose Micro-Factorized convolution to factorize both pointwise and depthwise convolutions into low rank matrices for a good tradeoff between the number of channels and input/output connectivity. Secondly, we propose a new activation function, named Dynamic Shift-Max, to improve the non-linearity via maxing out multiple dynamic fusions between an input feature map and its circular channel shift. The fusions are dynamic as their parameters are adapted to the input. Building upon Micro-Factorized convolution and dynamic Shift-Max, a family of MicroNets achieve a significant performance gain over the state-of-the-art in the low FLOP regime. For instance, MicroNet-M1 achieves 61.1% top-1 accuracy on ImageNet classification with 12 MFLOPs, outperforming MobileNetV3 by 11.3%.
翻訳日:2022-09-21 12:34:33 公開日:2020-11-24
# Play Fair:ビデオモデルにおけるフレーム属性

Play Fair: Frame Attributions in Video Models ( http://arxiv.org/abs/2011.12372v1 )

ライセンス: Link先を確認
Will Price and Dima Damen(参考訳) 本稿では,行動認識モデルを説明する属性法を提案する。 このようなモデルは、スコアアグリゲーションやリレーショナル推論を通じて、ビデオ内の複数のフレームから情報を融合する。 モデルのクラススコアを、各フレームからのコントリビュートの総和に、公平に分解します。 本手法は,シャプリー値と呼ばれる協調ゲームにおいて,要素シャプリー値 (element shapley value, esv) と呼ばれる可変長列の要素に対して,公理解を公平な報酬分布に適応させる。 批判的に,本手法ではフレーム数に線形にスケールするesvの抽出可能な近似法を提案する。 きめ細かいデータセット上の2つのアクション認識モデル(trnとtsn)を説明するためにesvを用いる。 本稿では,フレームの支持/離間,フレームの位置,クラス予測,シーケンス長との関係について詳細に分析する。 本研究では,ESVと単純ベースラインと,Grad-CAMとIntegrated-Gradientsの2つの特徴属性法を比較した。

In this paper, we introduce an attribution method for explaining action recognition models. Such models fuse information from multiple frames within a video, through score aggregation or relational reasoning. We break down a model's class score into the sum of contributions from each frame, fairly. Our method adapts an axiomatic solution to fair reward distribution in cooperative games, known as the Shapley value, for elements in a variable-length sequence, which we call the Element Shapley Value (ESV). Critically, we propose a tractable approximation of ESV that scales linearly with the number of frames in the sequence. We employ ESV to explain two action recognition models (TRN and TSN) on the fine-grained dataset Something-Something. We offer detailed analysis of supporting/distracting frames, and the relationships of ESVs to the frame's position, class prediction, and sequence length. We compare ESV to naive baselines and two commonly used feature attribution methods: Grad-CAM and Integrated-Gradients.
翻訳日:2022-09-21 12:34:11 公開日:2020-11-24
# 医療用畳み込みニューラルネットワークにおけるアクティベーション層の異なる確率的選択の比較

Comparisons among different stochastic selection of activation layers for convolutional neural networks for healthcare ( http://arxiv.org/abs/2011.11834v1 )

ライセンス: Link先を確認
Loris Nanni, Alessandra Lumini, Stefano Ghidoni and Gianluca Maguolo(参考訳) 生物学的画像の分類は、細胞表現型認識、細胞小器官の検出、病理組織分類など多くの分野において重要な課題であり、ヒトの専門家を必要とせずに疾患の自動分類を可能にする早期診断に役立つ可能性がある。 本稿では,ニューラルネットワークのアンサンブルを用いて生体画像の分類を行う。 我々はResNet50アーキテクチャを使ってこのアンサンブルを作成し、ReLUを他の関数に置換することでアクティベーション層を変更する。 ReLU, leaky ReLU, Parametric ReLU, ELU, Adaptive Piecewice Linear Unit, S-Shaped ReLU, Swish , Mish, Mexican Linear Unit, Gaussian Linear Unit, Parametric Deformable Linear Unit, Soft Root Sign (SRS)などです。 ベースラインとして、ReLUアクティベーションのみを使用するニューラルネットワークのアンサンブルを使用しました。 中小規模のバイオメディカル画像データセットでネットワークをテストしました。 その結果,我々の最善のアンサンブルは,ナイーブなアプローチよりも優れたパフォーマンスを得ることができた。 この作業の再現性を促進するため、すべての実験のMATLABコードはhttps://github.com/LorisNanni.comで共有される。

Classification of biological images is an important task with crucial application in many fields, such as cell phenotypes recognition, detection of cell organelles and histopathological classification, and it might help in early medical diagnosis, allowing automatic disease classification without the need of a human expert. In this paper we classify biomedical images using ensembles of neural networks. We create this ensemble using a ResNet50 architecture and modifying its activation layers by substituting ReLUs with other functions. We select our activations among the following ones: ReLU, leaky ReLU, Parametric ReLU, ELU, Adaptive Piecewice Linear Unit, S-Shaped ReLU, Swish , Mish, Mexican Linear Unit, Gaussian Linear Unit, Parametric Deformable Linear Unit, Soft Root Sign (SRS) and others. As a baseline, we used an ensemble of neural networks that only use ReLU activations. We tested our networks on several small and medium sized biomedical image datasets. Our results prove that our best ensemble obtains a better performance than the ones of the naive approaches. In order to encourage the reproducibility of this work, the MATLAB code of all the experiments will be shared at https://github.com/LorisNanni.
翻訳日:2022-09-21 12:28:01 公開日:2020-11-24
# A3D:ビデオ行動認識のための適応型3Dネットワーク

A3D: Adaptive 3D Networks for Video Action Recognition ( http://arxiv.org/abs/2011.12384v1 )

ライセンス: Link先を確認
Sijie Zhu and Taojiannan Yang and Matias Mendieta and Chen Chen(参考訳) 本稿では,適応型3次元ネットワークであるa3dについて述べる。 グリッド検索方式で複数のモデルをトレーニングする代わりに、ネットワーク幅と時空間分解能のトレードオフによって優れた構成を生成する。 さらに、モデルがデプロイされた後に計算コストを適用でき、例えばエッジデバイスで可変制約を満たすことができる。 同じ計算制約の下でも、我々の適応ネットワークの性能は3次元の相互学習によってベースラインネットワークよりも著しく向上させることができる。 SlowFastのような複数経路のフレームワークを採用すると、我々の適応的手法は手動設計よりも経路間のトレードオフを良くする。 Kineticsデータセットに関する大規模な実験は、提案したフレームワークの有効性を示している。 パフォーマンス向上はデータセットとタスク間でうまく転送できることも確認されている。 コードは利用可能になる。

This paper presents A3D, an adaptive 3D network that can infer at a wide range of computational constraints with one-time training. Instead of training multiple models in a grid-search manner, it generates good configurations by trading off between network width and spatio-temporal resolution. Furthermore, the computation cost can be adapted after the model is deployed to meet variable constraints, for example, on edge devices. Even under the same computational constraints, the performance of our adaptive networks can be significantly boosted over the baseline counterparts by the mutual training along three dimensions. When a multiple pathway framework, e.g. SlowFast, is adopted, our adaptive method encourages a better trade-off between pathways than manual designs. Extensive experiments on the Kinetics dataset show the effectiveness of the proposed framework. The performance gain is also verified to transfer well between datasets and tasks. Code will be made available.
翻訳日:2022-09-21 12:26:30 公開日:2020-11-24
# スマート道路における車両運転の教師なしリスク診断のための自動クラスタリング

Automatic Clustering for Unsupervised Risk Diagnosis of Vehicle Driving for Smart Road ( http://arxiv.org/abs/2011.11933v1 )

ライセンス: Link先を確認
Xiupeng Shi, Yiik Diew Wong, Chen Chai, Michael Zhi-Feng Li, Tianyi Chen, Zeng Zeng(参考訳) 自動車ストリームからの早期のリスク診断と運転異常検出は、Smart Roadやクラッシュ防止といった先進的なソリューションにおいて大きなメリットがあります。 本研究では、リスククラスタリングの重要なステップを自動最適化可能なパイプラインに統合し、機能選択やアルゴリズム選択、ハイパーパラメータ自動チューニングを含むドメイン固有の自動クラスタリング(Autocluster)を提案する。 まず, 代理紛争対策に基づき, 時空間的および運動的リスク特性を構築するために指標誘導特徴抽出を行う。 そこで本研究では,非教師なし機能を選択するために,除去に基づくモデル依存度重要度(EMRI)法を開発した。 次に,不均衡クラスタリングの内部品質を評価するために,bsi( balanced silhouette index)を提案する。 内部品質,クラスタ間変動,モデル安定性の観点から,クラスタリング性能を考慮した損失関数が設計されている。 第3に、ベイズ最適化に基づいてアルゴリズムの選択とハイパーパラメータの自動チューニングが自己学習され、最適なクラスタリングパーティションを生成する。 様々なアルゴリズムが研究されている。 ここでは、NGSIM車両軌道データをテストベッドに使用する。 結果、autoclusterは信頼性が高く、一般化された運転行動に固有の複数の異なるリスクエクスポージャーを診断できることが示されている。 さらに,アルゴリズムの不均一性,シルエット解析,階層的クラスタリングフローなど,リスククラスタリングについても検討した。 一方、autoclusterは、教師なしマルチリスクデータラベリングとインジケータしきい値校正の方法でもある。 さらに、Autoclusterは、真実や事前知識のない不均衡クラスタリングの課題に取り組むのに有用である。

Early risk diagnosis and driving anomaly detection from vehicle stream are of great benefits in a range of advanced solutions towards Smart Road and crash prevention, although there are intrinsic challenges, especially lack of ground truth, definition of multiple risk exposures. This study proposes a domain-specific automatic clustering (termed Autocluster) to self-learn the optimal models for unsupervised risk assessment, which integrates key steps of risk clustering into an auto-optimisable pipeline, including feature and algorithm selection, hyperparameter auto-tuning. Firstly, based on surrogate conflict measures, indicator-guided feature extraction is conducted to construct temporal-spatial and kinematical risk features. Then we develop an elimination-based model reliance importance (EMRI) method to unsupervised-select the useful features. Secondly, we propose balanced Silhouette Index (bSI) to evaluate the internal quality of imbalanced clustering. A loss function is designed that considers the clustering performance in terms of internal quality, inter-cluster variation, and model stability. Thirdly, based on Bayesian optimisation, the algorithm selection and hyperparameter auto-tuning are self-learned to generate the best clustering partitions. Various algorithms are comprehensively investigated. Herein, NGSIM vehicle trajectory data is used for test-bedding. Findings show that Autocluster is reliable and promising to diagnose multiple distinct risk exposures inherent to generalised driving behaviour. Besides, we also delve into risk clustering, such as, algorithms heterogeneity, Silhouette analysis, hierarchical clustering flows, etc. Meanwhile, the Autocluster is also a method for unsupervised multi-risk data labelling and indicator threshold calibration. Furthermore, Autocluster is useful to tackle the challenges in imbalanced clustering without ground truth or priori knowledge
翻訳日:2022-09-21 12:25:55 公開日:2020-11-24
# 低データ分子機械学習にグラフニューラルネットワークを価値あるものにする

Making Graph Neural Networks Worth It for Low-Data Molecular Machine Learning ( http://arxiv.org/abs/2011.12203v1 )

ライセンス: Link先を確認
Aneesh Pappu, Brooks Paige(参考訳) グラフニューラルネットワークは、その学習表現の表現力によって、分子の機械学習に非常に人気がある。 しかし、分子機械学習は古典的に低データ構造であり、低リソース環境でグラフニューラルネットワークが過度に適合することを避けることは明らかではない。 対照的に、フィンガーメソッドはパラメータの減少と手動で設計した特徴のため、低データ環境の伝統的な標準である。 本研究では,グラフニューラルネットワークが指紋法に代わるパラメトリックな「キーパー」よりも小さなデータ設定で競合するかどうかを検討する。 それらがそうでないと分かったとき、関連するタスクからの伝達学習によってグラフニューラルネットワークの性能を向上させるための事前学習法とメタラーニング法(および変種FO-MAMLとANIL)を検討する。 我々は、MAMLとFO-MAMLがグラフニューラルネットワークを指紋に基づくモデルよりも優れており、厳格に制限されたデータ可用性を持つ設定でもグラフニューラルネットワークを使用するための経路を提供する。 従来の研究とは対照的に、ANILは、この分子設定における他のメタラーニングアプローチよりもパフォーマンスが悪くなっている。 分子機械学習タスクはタスク固有の適応を必要とする可能性があり, トレーニングタスクに対するテストタスクの分散シフトは, エラーパフォーマンスの悪化に寄与する可能性がある。

Graph neural networks have become very popular for machine learning on molecules due to the expressive power of their learnt representations. However, molecular machine learning is a classically low-data regime and it isn't clear that graph neural networks can avoid overfitting in low-resource settings. In contrast, fingerprint methods are the traditional standard for low-data environments due to their reduced number of parameters and manually engineered features. In this work, we investigate whether graph neural networks are competitive in small data settings compared to the parametrically 'cheaper' alternative of fingerprint methods. When we find that they are not, we explore pretraining and the meta-learning method MAML (and variants FO-MAML and ANIL) for improving graph neural network performance by transfer learning from related tasks. We find that MAML and FO-MAML do enable the graph neural network to outperform models based on fingerprints, providing a path to using graph neural networks even in settings with severely restricted data availability. In contrast to previous work, we find ANIL performs worse that other meta-learning approaches in this molecule setting. Our results suggest two reasons: molecular machine learning tasks may require significant task-specific adaptation, and distribution shifts in test tasks relative to train tasks may contribute to worse ANIL performance.
翻訳日:2022-09-21 12:25:28 公開日:2020-11-24
# Hindsight Networkのクレジットアサインメント

Hindsight Network Credit Assignment ( http://arxiv.org/abs/2011.12351v1 )

ライセンス: Link先を確認
Kenny Young(参考訳) HNCA(Hindsight Network Credit Assignment)は、確率的ニューラルネットワークの新しい学習方法であり、ネットワーク内の直近の子どもの出力にどのように影響するかに基づいて、各ニューロンの確率的出力にクレジットを割り当てることによって機能する。 我々は、HNCAがREINFORCE推定器と比較してばらつきを低減しつつ、偏りのない勾配推定を行うことを示した。 また,MNISTの文脈的包括バージョンにおいて,REINFORCEに対するHNCAの利点を実験的に実証した。 HNCAの計算複雑性はバックプロパゲーションと似ている。 我々は、HNCAが確率計算グラフにおける信用割当に関する新しい考え方を刺激する助けになると信じている。

We present Hindsight Network Credit Assignment (HNCA), a novel learning method for stochastic neural networks, which works by assigning credit to each neuron's stochastic output based on how it influences the output of its immediate children in the network. We prove that HNCA provides unbiased gradient estimates while reducing variance compared to the REINFORCE estimator. We also experimentally demonstrate the advantage of HNCA over REINFORCE in a contextual bandit version of MNIST. The computational complexity of HNCA is similar to that of backpropagation. We believe that HNCA can help stimulate new ways of thinking about credit assignment in stochastic compute graphs.
翻訳日:2022-09-21 12:25:09 公開日:2020-11-24
# ANNにおける解釈モデル

Interpretable Models in ANNs ( http://arxiv.org/abs/2011.12424v1 )

ライセンス: Link先を確認
Yang Li(参考訳) ニューラルネットワークは、しばしば非常に複雑で、人間が理解するには深すぎる。 そのため、通常はブラックボックスと呼ばれる。 現実世界の多くの問題に対して、基盤となるパターン自体は非常に複雑であり、分析的な解決策が存在しない。 しかし、例えば物理学の法則では、このパターンは比較的単純な数学的表現によって記述することができる。 その場合、我々はブラックボックスではなく読みやすい方程式を得たい。 本稿では,ネットワークの説明方法を見つけ,そのモデルを記述する人間可読方程式を抽出する。

Artificial neural networks are often very complex and too deep for a human to understand. As a result, they are usually referred to as black boxes. For a lot of real-world problems, the underlying pattern itself is very complicated, such that an analytic solution does not exist. However, in some cases, laws of physics, for example, the pattern can be described by relatively simple mathematical expressions. In that case, we want to get a readable equation rather than a black box. In this paper, we try to find a way to explain a network and extract a human-readable equation that describes the model.
翻訳日:2022-09-21 12:24:59 公開日:2020-11-24
# 遠隔指導とヒューマンアノテーションを用いた関係抽出のための二重監督枠組み

Dual Supervision Framework for Relation Extraction with Distant Supervision and Human Annotation ( http://arxiv.org/abs/2011.11851v1 )

ライセンス: Link先を確認
Woohwan Jung and Kyuseok Shim(参考訳) 関係抽出(RE)は,知識ベース構築や質問応答といった実世界の応用において重要であるため,広く研究されている。 既存の作品の多くは、遠方の教師付きデータまたは人間の注釈付きデータでモデルを訓練している。 人間のアノテーションの高精度化と遠隔監視の低コスト化を図るため,両タイプのデータを効果的に活用する二重監視フレームワークを提案する。 しかしながら、reモデルをトレーニングするために2つのタイプのデータを単純に組み合わせると、遠方の監視がバイアスをラベル付けするため、予測精度が低下する可能性がある。 異なる2つの予測ネットワークha-netとds-netを用いて,人間の注記によるラベル予測と遠方監督によるラベル予測を行い,遠方監視の不正確なラベル付けによる精度の低下を防止する。 さらに,ha-netが遠隔管理ラベルから学習できるようにするため,不一致ペナルティと呼ばれる追加の損失項を提案する。 また,文脈情報を考慮したラベリングバイアスを適応的に評価するために,追加ネットワークを利用する。 文レベルのREと文書レベルのREを比較検討した結果,両監視フレームワークの有効性が確認された。

Relation extraction (RE) has been extensively studied due to its importance in real-world applications such as knowledge base construction and question answering. Most of the existing works train the models on either distantly supervised data or human-annotated data. To take advantage of the high accuracy of human annotation and the cheap cost of distant supervision, we propose the dual supervision framework which effectively utilizes both types of data. However, simply combining the two types of data to train a RE model may decrease the prediction accuracy since distant supervision has labeling bias. We employ two separate prediction networks HA-Net and DS-Net to predict the labels by human annotation and distant supervision, respectively, to prevent the degradation of accuracy by the incorrect labeling of distant supervision. Furthermore, we propose an additional loss term called disagreement penalty to enable HA-Net to learn from distantly supervised labels. In addition, we exploit additional networks to adaptively assess the labeling bias by considering contextual information. Our performance study on sentence-level and document-level REs confirms the effectiveness of the dual supervision framework.
翻訳日:2022-09-21 12:17:50 公開日:2020-11-24
# 因果特性表現のためのファジィ確率時間ペトリネット

Fuzzy Stochastic Timed Petri Nets for Causal properties representation ( http://arxiv.org/abs/2011.12075v1 )

ライセンス: Link先を確認
Alejandro Sobrino and Eduardo C. Garrido-Merchan and Cristina Puente(参考訳) 画像は知識のモデル化、表現、伝達によく用いられる。 特に、グラフは最も強力なツールの1つであり、オブジェクト間の関係を表現することができる。 因果関係はしばしば有向グラフで表され、原因を示すノードと因果関係を表すリンクがある。 因果グラフは骨格図であり、因果関係と実体間の影響を示す。 因果シナリオをグラフィカルに表現するための一般的な方法は、ニューロン、真理表、因果ベイズネットワーク、認知地図、ペトリネットである。 因果性はしばしば、先行性(効果に先行する原因)、並行性(しばしば2つ以上の原因によって同時に効果が誘発される)、円性(効果を誘発し、原因を補強する原因)、即効性(原因の存在は効果を優先するが、必ずしもそれを引き起こすとは限らない)によって定義される。 従来のグラフィカルモデルは、前述のプロパティのいくつかを別々に表現できるが、それら全てをはっきりと説明しようとはしないことを示す。 このギャップに対処するために、時間、共起、ループ、因果流れにおける不正確さを表現できるグラフィカルツールとして、Fuzzy Stochastic Timed Petri Netsを導入します。

Imagery is frequently used to model, represent and communicate knowledge. In particular, graphs are one of the most powerful tools, being able to represent relations between objects. Causal relations are frequently represented by directed graphs, with nodes denoting causes and links denoting causal influence. A causal graph is a skeletal picture, showing causal associations and impact between entities. Common methods used for graphically representing causal scenarios are neurons, truth tables, causal Bayesian networks, cognitive maps and Petri Nets. Causality is often defined in terms of precedence (the cause precedes the effect), concurrency (often, an effect is provoked simultaneously by two or more causes), circularity (a cause provokes the effect and the effect reinforces the cause) and imprecision (the presence of the cause favors the effect, but not necessarily causes it). We will show that, even though the traditional graphical models are able to represent separately some of the properties aforementioned, they fail trying to illustrate indistinctly all of them. To approach that gap, we will introduce Fuzzy Stochastic Timed Petri Nets as a graphical tool able to represent time, co-occurrence, looping and imprecision in causal flow.
翻訳日:2022-09-21 12:17:33 公開日:2020-11-24
# 知識に基づく推論と機械学習によるドメイン特化Winogradスキーマの処理

Tackling Domain-Specific Winograd Schemas with Knowledge-Based Reasoning and Machine Learning ( http://arxiv.org/abs/2011.12081v1 )

ライセンス: Link先を確認
Suk Joon Hong, Brandon Bennett(参考訳) winograd schema challenge(wsc)は、背景知識を必要とする常識推論タスクである。 本稿では4つの方法でWSCに取り組むことに貢献する。 まず,特定のハイレベルなセマンティックパターンを見つけることができる制限付きドメインを定義するためのキーワード手法を提案する。 感謝するドメインはキーワードで定義され、このドメインのデータセットは実験で使用されています。 次に,シャマ [2019] の手法に基づく意味的役割を用いた高レベルの知識ベース推論手法を開発した。 第3に,知識に基づく推論と機械学習を組み合わせたアンサンブル手法を提案する。 機械学習手法として,変換器からの双方向エンコーダ表現 (BERT) [Kocijan et al., 2019] を用いた。 最後に,評価の観点からは,trichelairらの改良による"ロバスト"精度測定を提案する。 [2018]. それらの切り換え方法と同様に、テストセットの各文の自明な変種に対する性能を考慮したモデルの評価を行う。

The Winograd Schema Challenge (WSC) is a common-sense reasoning task that requires background knowledge. In this paper, we contribute to tackling WSC in four ways. Firstly, we suggest a keyword method to define a restricted domain where distinctive high-level semantic patterns can be found. A thanking domain was defined by key-words, and the data set in this domain is used in our experiments. Secondly, we develop a high-level knowledge-based reasoning method using semantic roles which is based on the method of Sharma [2019]. Thirdly, we propose an ensemble method to combine knowledge-based reasoning and machine learning which shows the best performance in our experiments. As a machine learning method, we used Bidirectional Encoder Representations from Transformers (BERT) [Kocijan et al., 2019]. Lastly, in terms of evaluation, we suggest a "robust" accuracy measurement by modifying that of Trichelair et al. [2018]. As with their switching method, we evaluate a model by considering its performance on trivial variants of each sentence in the test set.
翻訳日:2022-09-21 12:17:09 公開日:2020-11-24
# 二方向ニューラルマシン翻訳:二次元格子を用いた双方向翻訳モデルの概念の証明

Two-Way Neural Machine Translation: A Proof of Concept for Bidirectional Translation Modeling using a Two-Dimensional Grid ( http://arxiv.org/abs/2011.12165v1 )

ライセンス: Link先を確認
Parnia Bahar, Christopher Brix and Hermann Ney(参考訳) ニューラル翻訳モデルは、ソース文から十分な情報を取得し、高品質のターゲット文を生成するのに有効であることが証明されている。 しかし、双方向翻訳に最適な効果を得るのは容易ではない。すなわち、1つのモデルを使って、ソース間およびターゲット間の両方の翻訳を行う。 多言語システムのような先駆的な試みを除外すれば、他の全ての双方向翻訳アプローチは2つの個別モデルを訓練する必要がある。 本稿では,左から右へのデコーディングがソースツーターゲットを生成し,ボトム・トゥ・アップデコーディングがターゲットからソースへの出力を生成する2次元グリッドを用いて,エンドツーエンドの双方向翻訳モデルを構築することを提案する。 2つのモデルを個別に訓練する代わりに、我々のアプローチは1つのネットワークが両方向の翻訳を共同で学習することを奨励する。 WMT 2018ドイツ語$\leftrightarrow$ Englishとトルコ語$\leftrightarrow$ Englishに関する実験は、提案されたモデルが優れた翻訳品質を生成でき、研究を指揮する十分な可能性を持っていることを示している。

Neural translation models have proven to be effective in capturing sufficient information from a source sentence and generating a high-quality target sentence. However, it is not easy to get the best effect for bidirectional translation, i.e., both source-to-target and target-to-source translation using a single model. If we exclude some pioneering attempts, such as multilingual systems, all other bidirectional translation approaches are required to train two individual models. This paper proposes to build a single end-to-end bidirectional translation model using a two-dimensional grid, where the left-to-right decoding generates source-to-target, and the bottom-to-up decoding creates target-to-source output. Instead of training two models independently, our approach encourages a single network to jointly learn to translate in both directions. Experiments on the WMT 2018 German$\leftrightarrow$English and Turkish$\leftrightarrow$English translation tasks show that the proposed model is capable of generating a good translation quality and has sufficient potential to direct the research.
翻訳日:2022-09-21 12:16:42 公開日:2020-11-24
# カスケード音声翻訳のための統合型エンドツーエンド学習

Tight Integrated End-to-End Training for Cascaded Speech Translation ( http://arxiv.org/abs/2011.12167v1 )

ライセンス: Link先を確認
Parnia Bahar, Tobias Bieschke, Ralf Schl\"uter and Hermann Ney(参考訳) カスケード音声翻訳モデルは、ソース側からの監督信号を提供し、ソース音声とターゲットテキスト間の変換を支援する離散的および非微分的転写に依存する。 このようなモデリングは、ASRモデルとMTモデル間のエラー伝播に悩まされる。 直接音声翻訳は誤りの伝播を避ける代替手法であるが、その性能はカスケードシステムの背後にあることが多い。 中間表現とエンドツーエンドのトレーニング性を維持するために,MTモデルのデコーダに認識子の隠れベクトルを渡し,MTエンコーダを無視して2段階モデルを提案する。 本研究は, 学習パラメータを無視することなく, ASR と MT モデルの全てのパラメータを協調的に最適化することにより, カスケード成分全体を単一エンドツーエンドのトレーニング可能なモデルに分解する可能性を検討する。 これは、1ホットベクトルではなくソフトな決定として正規化されたソースワード後続分布をパスし、バックプロパゲーションを可能にする密に統合された手法である。 そのため、書き起こしと翻訳の両方を提供し、両者の強い一貫性を実現する。 データシナリオが異なる4つのタスクについて実験したところ、モデルがBLEUの1.8%、TERの2.0%でカスケードモデルより優れており、直接モデルよりも優れていることがわかった。

A cascaded speech translation model relies on discrete and non-differentiable transcription, which provides a supervision signal from the source side and helps the transformation between source speech and target text. Such modeling suffers from error propagation between ASR and MT models. Direct speech translation is an alternative method to avoid error propagation; however, its performance is often behind the cascade system. To use an intermediate representation and preserve the end-to-end trainability, previous studies have proposed using two-stage models by passing the hidden vectors of the recognizer into the decoder of the MT model and ignoring the MT encoder. This work explores the feasibility of collapsing the entire cascade components into a single end-to-end trainable model by optimizing all parameters of ASR and MT models jointly without ignoring any learned parameters. It is a tightly integrated method that passes renormalized source word posterior distributions as a soft decision instead of one-hot vectors and enables backpropagation. Therefore, it provides both transcriptions and translations and achieves strong consistency between them. Our experiments on four tasks with different data scenarios show that the model outperforms cascade models up to 1.8% in BLEU and 2.0% in TER and is superior compared to direct models.
翻訳日:2022-09-21 12:16:21 公開日:2020-11-24
# 生体関係抽出のための伝達学習アーキテクチャの実験

Experiments on transfer learning architectures for biomedical relation extraction ( http://arxiv.org/abs/2011.12380v1 )

ライセンス: Link先を確認
Walid Hafiane, Joel Legrand, Yannick Toussaint and Adrien Coulet(参考訳) 関係抽出(re)は、テキストから利害関係を自動的に識別し、構造化することである。 最近、BERTはREを含むいくつかのNLPタスクの上位パフォーマンスを改善した。 しかしながら、機械学習アーキテクチャ内で、および転送学習戦略内でbertを使用する最良の方法は、特定のタスクとドメインごとに非常に依存しているため、まだ未解決の問題である。 本稿では,2つのコーパス上でのバイオメディカルREの課題に対して,BERTに基づく様々なアーキテクチャと伝達学習戦略(凍結あるいは微調整)について検討する。 テストされたアーキテクチャと戦略の中で、微細化された *BERT-segMCNN は2つのコーパス(それぞれChemProt と PGxCorpus の絶対改善率 1.73 % と 32.77 % )の最先端性能に到達した。 より一般に,本実験は,BERTによる微調整が期待されることに加えて,BERTが古典的に活用する文脈に加えて,構造情報(文セグメンテーションを含む)を使用することによる未探索の利点も示している。

Relation extraction (RE) consists in identifying and structuring automatically relations of interest from texts. Recently, BERT improved the top performances for several NLP tasks, including RE. However, the best way to use BERT, within a machine learning architecture, and within a transfer learning strategy is still an open question since it is highly dependent on each specific task and domain. Here, we explore various BERT-based architectures and transfer learning strategies (i.e., frozen or fine-tuned) for the task of biomedical RE on two corpora. Among tested architectures and strategies, our *BERT-segMCNN with finetuning reaches performances higher than the state-of-the-art on the two corpora (1.73 % and 32.77 % absolute improvement on ChemProt and PGxCorpus corpora respectively). More generally, our experiments illustrate the expected interest of fine-tuning with BERT, but also the unexplored advantage of using structural information (with sentence segmentation), in addition to the context classically leveraged by BERT.
翻訳日:2022-09-21 12:15:59 公開日:2020-11-24
# 予測型ニューラルネットワーク探索のための効率的なサンプリング

Efficient Sampling for Predictor-Based Neural Architecture Search ( http://arxiv.org/abs/2011.12043v1 )

ライセンス: Link先を確認
Lukas Mauch, Stephen Tiedemann, Javier Alonso Garcia, Bac Nguyen Cong, Kazuki Yoshiyama, Fabien Cardinaux, Thomas Kemp(参考訳) 近年,ニューラルアーキテクチャサーチ(NAS)の有望なアプローチとして,予測アルゴリズムが登場している。 nasの場合、計算的に複雑である大量のディープニューラルネットワーク(dnn)の検証精度を計算する必要があります。 予測に基づくNASアルゴリズムはこの問題に対処する。 彼らは、ネットワーク構造から直接dnnの検証精度を推測できるプロキシモデルをトレーニングする。 最適化中、プロキシを使用して、真の検証精度を計算しなければならないアーキテクチャの数を減らすことができる。 通常、ネットワーク検索空間内のすべてのDNNのプロキシを計算し、プロキシを最大化するプロキシを最適化候補として選択する。 しかし、検索空間は非常に大きく、数十億のネットワークアーキテクチャを含んでいるため、実際にはそれは難解である。 この論文の貢献は3つある。 1)異なる予測器に基づくnasアルゴリズムを比較するためにサンプル効率ゲインを定義する。 2)NASBench-101データセット上で実験を行い,探索空間のサブセットに対してのみプロキシを計算した場合,予測アルゴリズムのサンプル効率が劇的に低下することを示した。 3) プロキシがスマートに評価される検索空間のサブセットを選択すると,全検索空間にアクセス可能な予測器ベースのアルゴリズムのサンプル効率が回復できることを示す。 これは、予測器ベースのnasアルゴリズムを実用的にするための重要なステップである。

Recently, predictor-based algorithms emerged as a promising approach for neural architecture search (NAS). For NAS, we typically have to calculate the validation accuracy of a large number of Deep Neural Networks (DNNs), what is computationally complex. Predictor-based NAS algorithms address this problem. They train a proxy model that can infer the validation accuracy of DNNs directly from their network structure. During optimization, the proxy can be used to narrow down the number of architectures for which the true validation accuracy must be computed, what makes predictor-based algorithms sample efficient. Usually, we compute the proxy for all DNNs in the network search space and pick those that maximize the proxy as candidates for optimization. However, that is intractable in practice, because the search spaces are often very large and contain billions of network architectures. The contributions of this paper are threefold: 1) We define a sample efficiency gain to compare different predictor-based NAS algorithms. 2) We conduct experiments on the NASBench-101 dataset and show that the sample efficiency of predictor-based algorithms decreases dramatically if the proxy is only computed for a subset of the search space. 3) We show that if we choose the subset of the search space on which the proxy is evaluated in a smart way, the sample efficiency of the original predictor-based algorithm that has access to the full search space can be regained. This is an important step to make predictor-based NAS algorithms useful, in practice.
翻訳日:2022-09-21 12:10:03 公開日:2020-11-24
# ゼロショット言語間画像検索に向けて

Towards Zero-shot Cross-lingual Image Retrieval ( http://arxiv.org/abs/2012.05107v1 )

ライセンス: Link先を確認
Pranav Aggarwal, Ajinkya Kale(参考訳) マルチモーダル言語とビジョン問題に対する最近の関心が高まっている。 言語面では、ほとんどのモデルは主に英語に焦点を合わせており、多くのマルチモーダルデータセットは単言語である。 このギャップをゼロショットアプローチで橋渡しし,テキスト側での言語間事前学習を用いてマルチモーダル表現を学習する。 本稿では,単言語学習データセット上でトレーニングを行うが,ゼロショットのクロスリンガルモデルで使用することが可能な言語間画像検索モデルを構築するための,単純かつ実用的な手法を提案する。 また,異なるテキストを互いに押すことで,テキスト埋め込みクラスタを締め付ける新たな目的関数も導入する。 最後に,クラウドソーシングプラットフォームを用いて収集した7言語に,新たに1Kの多言語MSCOCO2014キャプションテストデータセット(XTD10)を導入する。 これは、言語間でゼロショットモデルのパフォーマンスを評価するテストセットとして使用します。 xtd10データセットはここで公開されている。 https://github.com/adobe-research/cross-lingual-test-dataset-xtd10

There has been a recent spike in interest in multi-modal Language and Vision problems. On the language side, most of these models primarily focus on English since most multi-modal datasets are monolingual. We try to bridge this gap with a zero-shot approach for learning multi-modal representations using cross-lingual pre-training on the text side. We present a simple yet practical approach for building a cross-lingual image retrieval model which trains on a monolingual training dataset but can be used in a zero-shot cross-lingual fashion during inference. We also introduce a new objective function which tightens the text embedding clusters by pushing dissimilar texts from each other. Finally, we introduce a new 1K multi-lingual MSCOCO2014 caption test dataset (XTD10) in 7 languages that we collected using a crowdsourcing platform. We use this as the test set for evaluating zero-shot model performance across languages. XTD10 dataset is made publicly available here: https://github.com/adobe-research/Cross-lingual-Test-Dataset-XTD10
翻訳日:2022-09-21 12:07:56 公開日:2020-11-24
# スパース符号化における解釈可能な辞書

The Interpretable Dictionary in Sparse Coding ( http://arxiv.org/abs/2011.11805v1 )

ライセンス: Link先を確認
Edward Kim, Connor Onweller, Andrew O'Brien, Kathleen McCoy(参考訳) ニューラルネットワーク(anns)、特にディープラーニングネットワークは、データの内部表現が容易に解釈できないという事実から、しばしばブラックボックスとしてラベル付けされている。 我々の研究では、スパースコーディングを特定の空間的制約の下で訓練したANNが、標準的なディープラーニングモデルよりも解釈可能なモデルを生成する。 スパース符号で学習した辞書はより容易に理解でき、これらの要素の活性化は選択的特徴出力を生成する。 我々は、同じデータに基づいて訓練されたフィードフォワード畳み込みオートエンコーダと、スパース符号化モデルを比較し、対比する。 本結果は,学習したスパース符号辞書の解釈における質的,定量的な利点と,内部のアクティベーション表現を示す。

Artificial neural networks (ANNs), specifically deep learning networks, have often been labeled as black boxes due to the fact that the internal representation of the data is not easily interpretable. In our work, we illustrate that an ANN, trained using sparse coding under specific sparsity constraints, yields a more interpretable model than the standard deep learning model. The dictionary learned by sparse coding can be more easily understood and the activations of these elements creates a selective feature output. We compare and contrast our sparse coding model with an equivalent feed forward convolutional autoencoder trained on the same data. Our results show both qualitative and quantitative benefits in the interpretation of the learned sparse coding dictionary as well as the internal activation representations.
翻訳日:2022-09-21 12:07:42 公開日:2020-11-24
# SEA: テキストクエリによるビデオ検索のための文エンコーダアセンブリ

SEA: Sentence Encoder Assembly for Video Retrieval by Textual Queries ( http://arxiv.org/abs/2011.12091v1 )

ライセンス: Link先を確認
Xirong Li and Fangming Zhou and Chaoxi Xu and Jiaqi Ji and Gang Yang(参考訳) Ad-hoc Video Search (AVS)として知られるテキストクエリによる未ラベルの動画の検索は、マルチメディアデータ管理と検索における中核的なテーマである。 AVSの成功は、クエリ文とビデオの両方を、意味的類似性計算のために共通空間にエンコードするクロスモーダル表現学習をカウントする。 本研究は,複数文エンコーダを組み合わさった初期の成果に触発され,多様な文エンコーダを効果的に活用する新しい汎用的手法を開発する。 提案手法の新規性は,SEA(Sentence Encoder Assembly)と呼ばれる2重である。 まず、単一の共通空間のみを使用する先行技術とは異なり、seaは複数のエンコーダ特有の共通空間でテキストビデオマッチングをサポートする。 このような特性は、マッチングが他のエンコーダよりもはるかに長いエンコーダを生成する特定のエンコーダによって支配されるのを防ぐ。 次に,個々の共通空間間の相補性を検討するために,複数空間のマルチロス学習を提案する。 4つのベンチマーク(MSR-VTT、TRECVID AVS 2016-2019、TGIF、MSVD)の広範な実験によると、SEAは最先端のベンチマークを上回っている。 加えて、SEAの実装は非常に簡単です。 これにより、SEAはAVSにとって魅力的なソリューションとなり、新しい文エンコーダの取得によってタスクを継続的に前進させると約束される。

Retrieving unlabeled videos by textual queries, known as Ad-hoc Video Search (AVS), is a core theme in multimedia data management and retrieval. The success of AVS counts on cross-modal representation learning that encodes both query sentences and videos into common spaces for semantic similarity computation. Inspired by the initial success of previously few works in combining multiple sentence encoders, this paper takes a step forward by developing a new and general method for effectively exploiting diverse sentence encoders. The novelty of the proposed method, which we term Sentence Encoder Assembly (SEA), is two-fold. First, different from prior art that use only a single common space, SEA supports text-video matching in multiple encoder-specific common spaces. Such a property prevents the matching from being dominated by a specific encoder that produces an encoding vector much longer than other encoders. Second, in order to explore complementarities among the individual common spaces, we propose multi-space multi-loss learning. As extensive experiments on four benchmarks (MSR-VTT, TRECVID AVS 2016-2019, TGIF and MSVD) show, SEA surpasses the state-of-the-art. In addition, SEA is extremely ease to implement. All this makes SEA an appealing solution for AVS and promising for continuously advancing the task by harvesting new sentence encoders.
翻訳日:2022-09-21 12:06:54 公開日:2020-11-24