このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200417となっている論文です。

PDF登録状況(公開日: 20200417)

TitleAuthorsAbstract論文公表日・翻訳日
# 機械学習コンポーネントを用いたサイバー物理システムの保証監視

Assurance Monitoring of Cyber-Physical Systems with Machine Learning Components ( http://arxiv.org/abs/2001.05014v2 )

ライセンス: Link先を確認
Dimitrios Boursinos, Xenofon Koutsoukos(参考訳) ディープニューラルネットワークのような機械学習コンポーネントは、サイバー物理システム(CPS)で広く使われている。 しかし、彼らは新たなタイプのハザードを導入し、悲惨な結果をもたらす可能性があり、エンジニアリングの信頼できるシステムのために対処する必要がある。 ディープニューラルネットワークは高度な機能を提供するが、CPSに効果的な統合を可能にするエンジニアリング手法とプラクティスによって補完されなければならない。 本稿では,機械学習コンポーネントを用いたCPSの保証監視に共形予測フレームワークを用いる方法について検討する。 リアルタイムに高次元入力を処理するために,学習モデルの埋め込み表現を用いて非定型スコアを計算する。 共形予測を利用することで、精度の高い信頼性を提供し、正確な予測ができない入力数を制限するとともに、境界付き小さなエラー率を保証する監視を可能にする。 ドイツ交通信号認識ベンチマークとロボットナビゲーションデータセットを用いた実証評価の結果,アラーム数が少ない間にエラー率が良好に校正されていることが示された。 本手法は計算効率が高く,CPSの保証監視に有効である。

Machine learning components such as deep neural networks are used extensively in Cyber-Physical Systems (CPS). However, they may introduce new types of hazards that can have disastrous consequences and need to be addressed for engineering trustworthy systems. Although deep neural networks offer advanced capabilities, they must be complemented by engineering methods and practices that allow effective integration in CPS. In this paper, we investigate how to use the conformal prediction framework for assurance monitoring of CPS with machine learning components. In order to handle high-dimensional inputs in real-time, we compute nonconformity scores using embedding representations of the learned models. By leveraging conformal prediction, the approach provides well-calibrated confidence and can allow monitoring that ensures a bounded small error rate while limiting the number of inputs for which an accurate prediction cannot be made. Empirical evaluation results using the German Traffic Sign Recognition Benchmark and a robot navigation dataset demonstrate that the error rates are well-calibrated while the number of alarms is small. The method is computationally efficient, and therefore, the approach is promising for assurance monitoring of CPS.
翻訳日:2023-01-11 12:06:40 公開日:2020-04-17
# ロバスト音声認識のためのマルチタスク自己教師付き学習

Multi-task self-supervised learning for Robust Speech Recognition ( http://arxiv.org/abs/2001.09239v2 )

ライセンス: Link先を確認
Mirco Ravanelli, Jianyuan Zhong, Santiago Pascual, Pawel Swietojanski, Joao Monteiro, Jan Trmal, Yoshua Bengio(参考訳) 教師なし学習への関心が高まっているにもかかわらず、未学習の音声から意味のある知識を抽出することはオープンな課題である。 この方向の一歩を踏み出すために、我々は最近、畳み込みエンコーダとワーカと呼ばれる複数のニューラルネットワークを組み合わせた問題非依存型音声エンコーダ(pase)を提案しました。 PASEは、話者音声プリントや音素を含む、関連する音声情報をキャプチャする。 本稿では,雑音および残響環境における頑健な音声認識のためのPASE+を提案する。 この目的のために,様々なランダムな乱れを伴う入力信号を汚染するオンライン音声歪みモジュールを用いる。 次に,再帰ネットワークと畳み込みネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良エンコーダを提案する。 最後に、自己監督で使われる労働者のセットを洗練し、より良い協力を促進する。 TIMIT, DIRHA, CHiME-5の結果, PASE+はPASEの以前のバージョンと一般的な音響特性の両方に優れていた。 興味深いことに、PASE+は高度にミスマッチした音響条件に適した伝達可能な表現を学習する。

Despite the growing interest in unsupervised learning, extracting meaningful knowledge from unlabelled audio remains an open challenge. To take a step in this direction, we recently proposed a problem-agnostic speech encoder (PASE), that combines a convolutional encoder followed by multiple neural networks, called workers, tasked to solve self-supervised problems (i.e., ones that do not require manual annotations as ground truth). PASE was shown to capture relevant speech information, including speaker voice-print and phonemes. This paper proposes PASE+, an improved version of PASE for robust speech recognition in noisy and reverberant environments. To this end, we employ an online speech distortion module, that contaminates the input signals with a variety of random disturbances. We then propose a revised encoder that better learns short- and long-term speech dynamics with an efficient combination of recurrent and convolutional networks. Finally, we refine the set of workers used in self-supervision to encourage better cooperation. Results on TIMIT, DIRHA and CHiME-5 show that PASE+ significantly outperforms both the previous version of PASE as well as common acoustic features. Interestingly, PASE+ learns transferable representations suitable for highly mismatched acoustic conditions.
翻訳日:2023-01-07 00:09:37 公開日:2020-04-17
# 商業ビルの需要応答に対する動的および分散オンライン凸最適化

Dynamic and Distributed Online Convex Optimization for Demand Response of Commercial Buildings ( http://arxiv.org/abs/2002.00099v3 )

ライセンス: Link先を確認
Antoine Lesage-Landry and Duncan S. Callaway(参考訳) 我々は,オンライン分散重み付き双対平均化(dwda)アルゴリズム[1]の後悔解析を動的設定に拡張し,分散オンライン凸最適化(oco)アルゴリズムの時間軸に関してこれまで知られていた最も厳密な動的後悔を与える。 我々の境界は連続する視差の累積差において線形であり、時間軸に明示的に依存しない。 我々は,動的オンラインDWDA (D-ODWDA) を用いて,商業ビルの暖房,換気,空調(HVAC)システムに対して,性能保証型オンライン需要応答手法を定式化した。 数値シミュレーションにおいて,高速な時間スケール需要応答に対する提案手法の性能を示し,一元的最適応答を密接に再現した需要応答決定を得る。

We extend the regret analysis of the online distributed weighted dual averaging (DWDA) algorithm [1] to the dynamic setting and provide the tightest dynamic regret bound known to date with respect to the time horizon for a distributed online convex optimization (OCO) algorithm. Our bound is linear in the cumulative difference between consecutive optima and does not depend explicitly on the time horizon. We use dynamic-online DWDA (D-ODWDA) and formulate a performance-guaranteed distributed online demand response approach for heating, ventilation, and air-conditioning (HVAC) systems of commercial buildings. We show the performance of our approach for fast timescale demand response in numerical simulations and obtain demand response decisions that closely reproduce the centralized optimal ones.
翻訳日:2023-01-05 06:55:23 公開日:2020-04-17
# メディア分類タスクによる解釈可能なマルチスケール情報パッチのローカライズ

Localizing Interpretable Multi-scale informative Patches Derived from Media Classification Task ( http://arxiv.org/abs/2002.03737v2 )

ライセンス: Link先を確認
Chuanguang Yang, Zhulin An, Xiaolong Hu, Hui Zhu, Yongjun Xu(参考訳) 深層畳み込みニューラルネットワーク(cnn)は常により広い受容場(rf)とより複雑な非線形性に依存し、最先端のパフォーマンスを達成する一方で、適切なパッチが最終的な予測にどのように寄与するかの解釈が困難になる。 本稿では,注意深い設計を施したrfsと線形空間アグリゲーションを備えた解釈可能なアンカーネットを構築し,入力メディアのパッチワイズ解釈性を提供し,また,追加のバウンディングボックスアノテーションを伴わずにメディアレベルラベル上でのみ監視されたマルチスケール情報パッチをローカライズする。 局所化情報画像とテキストパッチの可視化は、AnchorNetのマルチスケールローカライゼーション能力に優れていることを示している。 我々はさらに,広く適用されたネットワーク上のダウンストリーム分類タスクに,ローカライズパッチを使用する。 実験の結果、元の入力を分類用パッチに置き換えることで、小さな性能劣化だけで明確な推論の加速が得られることが示され、局所化されたパッチが元の入力の最も意味や証拠を確実に保持できることが証明された。

Deep convolutional neural networks (CNN) always depend on wider receptive field (RF) and more complex non-linearity to achieve state-of-the-art performance, while suffering the increased difficult to interpret how relevant patches contribute the final prediction. In this paper, we construct an interpretable AnchorNet equipped with our carefully designed RFs and linearly spatial aggregation to provide patch-wise interpretability of the input media meanwhile localizing multi-scale informative patches only supervised on media-level labels without any extra bounding box annotations. Visualization of localized informative image and text patches show the superior multi-scale localization capability of AnchorNet. We further use localized patches for downstream classification tasks across widely applied networks. Experimental results demonstrate that replacing the original inputs with their patches for classification can get a clear inference acceleration with only tiny performance degradation, which proves that localized patches can indeed retain the most semantics and evidences of the original inputs.
翻訳日:2023-01-05 06:39:13 公開日:2020-04-17
# Neural MMO v1.3: ニューラルネットワークのトレーニングと評価のための大規模マルチエージェントゲーム環境

Neural MMO v1.3: A Massively Multiagent Game Environment for Training and Evaluating Neural Networks ( http://arxiv.org/abs/2001.12004v2 )

ライセンス: Link先を確認
Joseph Suarez, Yilun Du, Igor Mordatch, Phillip Isola(参考訳) マルチエージェント知能研究の進展は、研究に利用可能な環境の数と品質によって基本的に制限される。 近年、シミュレーションゲームは強化学習において、アクセシビリティと解釈可能性のために支配的な研究プラットフォームとなっている。 アーケード、ファースト・パーソナリティ・シューティング(FPS)、リアルタイム戦略(RTS)、大規模なオンラインバトルアリーナ(MOBA)ゲームでの成功を目標としてきた。 我々の研究は、マルチプレイヤーのオンラインロールプレイングゲーム(MMORPGsまたはMMOs)について検討しており、他のゲームジャンルではうまくモデル化されていない実世界の学習の複雑さを捉えている。 我々は、MMOにインスパイアされた大規模マルチエージェントゲーム環境であるNeural MMOを紹介し、AI研究のためのマルチエージェントシステムエンジニアリングにおける2つのより一般的な課題、分散インフラストラクチャとゲームIOについて述べる。 さらに、標準方針勾配法と単純なベースラインモデルは、この設定において興味深い創発的な探索と特殊化の振る舞いを学習できることを示す。

Progress in multiagent intelligence research is fundamentally limited by the number and quality of environments available for study. In recent years, simulated games have become a dominant research platform within reinforcement learning, in part due to their accessibility and interpretability. Previous works have targeted and demonstrated success on arcade, first person shooter (FPS), real-time strategy (RTS), and massive online battle arena (MOBA) games. Our work considers massively multiplayer online role-playing games (MMORPGs or MMOs), which capture several complexities of real-world learning that are not well modeled by any other game genre. We present Neural MMO, a massively multiagent game environment inspired by MMOs and discuss our progress on two more general challenges in multiagent systems engineering for AI research: distributed infrastructure and game IO. We further demonstrate that standard policy gradient methods and simple baseline models can learn interesting emergent exploration and specialization behaviors in this setting.
翻訳日:2023-01-05 05:46:56 公開日:2020-04-17
# MDEA:進化的敵対学習によるマルウェア検出

MDEA: Malware Detection with Evolutionary Adversarial Learning ( http://arxiv.org/abs/2002.03331v2 )

ライセンス: Link先を確認
Xiruo Wang and Risto Miikkulainen(参考訳) マルウェア検出は機械学習を使ってプログラム内のマルウェアを検出する。 これらのアプリケーションは、生または処理されたバイナリデータをニューラルネットワークモデルに取り込み、良性または悪意のあるファイルとして分類する。 このアプローチは暗号化、難読化、パッキングといった動的変更に対して有効であることが証明されているが、入力データの小さな変更がテスト時に誤分類を引き起こす特定の回避攻撃に対して脆弱である。 MDEA(Adversarial Malware Detection model)は、進化的最適化を用いて攻撃サンプルを作成し、ネットワークを回避攻撃に対して堅牢にする。 進化したマルウェアサンプルでモデルをトレーニングすることで、その性能は大幅に向上する。

Malware detection have used machine learning to detect malware in programs. These applications take in raw or processed binary data to neural network models to classify as benign or malicious files. Even though this approach has proven effective against dynamic changes, such as encrypting, obfuscating and packing techniques, it is vulnerable to specific evasion attacks where that small changes in the input data cause misclassification at test time. This paper proposes a new approach: MDEA, an Adversarial Malware Detection model uses evolutionary optimization to create attack samples to make the network robust against evasion attacks. By retraining the model with the evolved malware samples, its performance improves a significant margin.
翻訳日:2023-01-02 14:33:49 公開日:2020-04-17
# 拘束型ニューラルネットワークにおける局所伝播

Local Propagation in Constraint-based Neural Network ( http://arxiv.org/abs/2002.07720v2 )

ライセンス: Link先を確認
Giuseppe Marra, Matteo Tiezzi, Stefano Melacci, Alessandro Betti, Marco Maggini, Marco Gori(参考訳) 本稿では,ニューラルネットワークアーキテクチャの制約に基づく表現について述べる。 我々は、学習問題をラグランジアンフレームワークにキャストし、利用可能な監督から学び、いわゆるアーキテクチャ上の制約を満たすのに適した簡単な最適化手順について検討する。 提案アルゴリズムの計算構造は,重み,ニューラルアウトプット,ラグランジュ乗算器からなる隣接空間におけるサドル点の探索に基づいている。 モデル変数の更新はすべて局所的に行われるので、LPはニューラルネットワーク上で完全に並列化可能であり、ディープネットワークにおける勾配の古典的な問題を回避することができる。 一般的なニューラルネットワークの実装は、バックプロパゲーションと自然な関係を辿る条件とともに、LPの文脈で説明されている。 また,アーキテクチャ制約の制約付き違反を許容する条件についても検討し,LPが浅層および深層ネットワークのトレーニングに有効なアプローチであることを示す実験的な証拠を提供し,より複雑なアーキテクチャに関するさらなる調査への道を開いた。

In this paper we study a constraint-based representation of neural network architectures. We cast the learning problem in the Lagrangian framework and we investigate a simple optimization procedure that is well suited to fulfil the so-called architectural constraints, learning from the available supervisions. The computational structure of the proposed Local Propagation (LP) algorithm is based on the search for saddle points in the adjoint space composed of weights, neural outputs, and Lagrange multipliers. All the updates of the model variables are locally performed, so that LP is fully parallelizable over the neural units, circumventing the classic problem of gradient vanishing in deep networks. The implementation of popular neural models is described in the context of LP, together with those conditions that trace a natural connection with Backpropagation. We also investigate the setting in which we tolerate bounded violations of the architectural constraints, and we provide experimental evidence that LP is a feasible approach to train shallow and deep networks, opening the road to further investigations on more complex architectures, easily describable by constraints.
翻訳日:2022-12-30 19:34:15 公開日:2020-04-17
# グラフニューラルネットワークにおける情報伝搬に対するラグランジアンアプローチ

A Lagrangian Approach to Information Propagation in Graph Neural Networks ( http://arxiv.org/abs/2002.07684v3 )

ライセンス: Link先を確認
Matteo Tiezzi, Giuseppe Marra, Stefano Melacci, Marco Maggini, and Marco Gori(参考訳) 多くの現実世界のアプリケーションでは、データはグラフとして自然にエンコードできる複雑な構造によって特徴づけられる。 過去数年間、ディープラーニング技術の人気は、複雑なパターンを処理可能なニューラルモデルへの関心を再び高めてきた。 特に、グラフニューラルネットワーク(GNN)モデルに触発されて、元のGNNスキームを拡張するために異なるアーキテクチャが提案されている。 GNNは、グラフノードに割り当てられた状態変数のセットと、近隣ノード間の状態の拡散機構を利用して、(学習可能な)状態遷移関数の固定点を計算する反復的な手順を実装している。 本稿では,ラグランジアンフレームワークで解決された制約最適化タスクに基づいて,GNNの状態計算と学習アルゴリズムに対する新しいアプローチを提案する。 状態収束手順は制約満足度機構によって暗黙的に表現され、学習手順の各エポックに対して別々の反復フェーズを必要としない。 実際、計算構造は、重み、神経出力(ノード状態)、ラグランジュ乗算器からなる随伴空間におけるラグランジアンの鞍点の探索に基づいている。 提案手法は,他のグラフ処理モデルと実験的に比較した。

In many real world applications, data are characterized by a complex structure, that can be naturally encoded as a graph. In the last years, the popularity of deep learning techniques has renewed the interest in neural models able to process complex patterns. In particular, inspired by the Graph Neural Network (GNN) model, different architectures have been proposed to extend the original GNN scheme. GNNs exploit a set of state variables, each assigned to a graph node, and a diffusion mechanism of the states among neighbor nodes, to implement an iterative procedure to compute the fixed point of the (learnable) state transition function. In this paper, we propose a novel approach to the state computation and the learning algorithm for GNNs, based on a constraint optimisation task solved in the Lagrangian framework. The state convergence procedure is implicitly expressed by the constraint satisfaction mechanism and does not require a separate iterative phase for each epoch of the learning procedure. In fact, the computational structure is based on the search for saddle points of the Lagrangian in the adjoint space composed of weights, neural outputs (node states), and Lagrange multipliers. The proposed approach is compared experimentally with other popular models for processing graphs.
翻訳日:2022-12-30 19:23:19 公開日:2020-04-17
# マルチタスク最適化のための品質多様性

Quality Diversity for Multi-task Optimization ( http://arxiv.org/abs/2003.04407v2 )

ライセンス: Link先を確認
Jean-Baptiste Mouret, Glenn Maguire(参考訳) 品質多様性(QD)アルゴリズムは、多種多様な高パフォーマンスなソリューションを探索する最適化アルゴリズムの最近のファミリである。 特定の状況下では、一度に複数のタスクを解決できる。 例えば、ロボットアームが一組のポイントに到達するために必要なジョイント位置を見つけることができ、ターゲットポイントごとに古典的なオプティマイザを実行することでも解決できる。 しかし、各タスクに対して個別に適合性を評価する必要がある場合(例えば、多くの異なるオブジェクトを把握するためのポリシーを最適化するなど)、複数のタスクを解決することはできない。 本稿では,適合度関数がタスクに依存する場合,複数のタスクを解決するマルチタスクmap-elitesアルゴリズムの拡張を提案する。 シミュレーションされたパラメータ化された平面アーム (10次元探索空間, 5000タスク) と, 長さの異なる6脚ロボット (36次元探索空間, 2000タスク) で評価した。 その結果,いずれの場合においても,各タスクの最適化をcma-esアルゴリズムと別々に上回った。

Quality Diversity (QD) algorithms are a recent family of optimization algorithms that search for a large set of diverse but high-performing solutions. In some specific situations, they can solve multiple tasks at once. For instance, they can find the joint positions required for a robotic arm to reach a set of points, which can also be solved by running a classic optimizer for each target point. However, they cannot solve multiple tasks when the fitness needs to be evaluated independently for each task (e.g., optimizing policies to grasp many different objects). In this paper, we propose an extension of the MAP-Elites algorithm, called Multi-task MAP-Elites, that solves multiple tasks when the fitness function depends on the task. We evaluate it on a simulated parameterized planar arm (10-dimensional search space; 5000 tasks) and on a simulated 6-legged robot with legs of different lengths (36-dimensional search space; 2000 tasks). The results show that in both cases our algorithm outperforms the optimization of each task separately with the CMA-ES algorithm.
翻訳日:2022-12-25 08:51:59 公開日:2020-04-17
# 構成畳み込みニューラルネットワーク:部分閉塞に対する自然ロバスト性を持つディープアーキテクチャ

Compositional Convolutional Neural Networks: A Deep Architecture with Innate Robustness to Partial Occlusion ( http://arxiv.org/abs/2003.04490v3 )

ライセンス: Link先を確認
Adam Kortylewski, Ju He, Qing Liu, Alan Yuille(参考訳) 近年の研究では、ディープ畳み込みニューラルネットワーク(DCNN)は部分閉塞下では十分に一般化していないことが示されている。 部分閉塞物体の分類における構成モデルの成功に触発されて,我々は構成モデルとDCNNを結合した深部モデルに組み込むことを提案する。 このアーキテクチャを合成畳み込みニューラルネットワークと呼びます。 特に,DCNNの完全連結型分類ヘッドを,微分可能な構成モデルに置き換えることを提案する。 構成モデルの生成的性質により、Occluderをローカライズし、オブジェクトの非Occluded部分にフォーカスすることができる。 人工隠蔽画像の分類実験と,MS-COCOデータセットから部分的に隠蔽された物体の実画像の分類実験を行った。 その結果,dnnは部分的咬合により強く強化されたデータを用いて訓練しても,頑健な分類は行わないことがわかった。 提案手法は, 学習中に隠蔽対象に露出していない場合でも, 部分的に隠蔽対象を分類し, 標準的なDCNNよりも優れていた。 追加の実験では、ComposealNetsはクラスラベルのみでトレーニングされているにも関わらず、Occluderを正確にローカライズできることを示した。 この作業で使用されるコードは公開されています。

Recent findings show that deep convolutional neural networks (DCNNs) do not generalize well under partial occlusion. Inspired by the success of compositional models at classifying partially occluded objects, we propose to integrate compositional models and DCNNs into a unified deep model with innate robustness to partial occlusion. We term this architecture Compositional Convolutional Neural Network. In particular, we propose to replace the fully connected classification head of a DCNN with a differentiable compositional model. The generative nature of the compositional model enables it to localize occluders and subsequently focus on the non-occluded parts of the object. We conduct classification experiments on artificially occluded images as well as real images of partially occluded objects from the MS-COCO dataset. The results show that DCNNs do not classify occluded objects robustly, even when trained with data that is strongly augmented with partial occlusions. Our proposed model outperforms standard DCNNs by a large margin at classifying partially occluded objects, even when it has not been exposed to occluded objects during training. Additional experiments demonstrate that CompositionalNets can also localize the occluders accurately, despite being trained with class labels only. The code used in this work is publicly available.
翻訳日:2022-12-24 21:14:11 公開日:2020-04-17
# レコメンダシステムにおける公平性のユーザ意識の検討

Exploring User Opinions of Fairness in Recommender Systems ( http://arxiv.org/abs/2003.06461v2 )

ライセンス: Link先を確認
Jessie Smith, Nasim Sonboli, Casey Fiesler, Robin Burke(参考訳) 人工知能に対するアルゴリズム的公平性は、これらのシステムが社会に浸透するにつれて益々重要になっている。 AIの領域のひとつ,レコメンダシステムでは,ユーザの精度の最適化とプロバイダへの公正性のトレードオフによるフェアネスに関するユニークな課題が紹介されている。 しかし、レコメンデーションの文脈で何が公平か — 特に複数の利害関係者がいる場合。 この問題を最初に検討する際,提案する公平な治療のアイデアは何か,なぜなのかをユーザに尋ねる。 公平性に対するユーザの意見の相違や変化の原因となるものを分析し、最終的にはより公平で透明性の高い推奨アルゴリズムの設計を通知する。

Algorithmic fairness for artificial intelligence has become increasingly relevant as these systems become more pervasive in society. One realm of AI, recommender systems, presents unique challenges for fairness due to trade offs between optimizing accuracy for users and fairness to providers. But what is fair in the context of recommendation--particularly when there are multiple stakeholders? In an initial exploration of this problem, we ask users what their ideas of fair treatment in recommendation might be, and why. We analyze what might cause discrepancies or changes between user's opinions towards fairness to eventually help inform the design of fairer and more transparent recommendation algorithms.
翻訳日:2022-12-24 02:23:45 公開日:2020-04-17
# 先行学習による非対角ビデオ合成

Non-Adversarial Video Synthesis with Learned Priors ( http://arxiv.org/abs/2003.09565v3 )

ライセンス: Link先を確認
Abhishek Aich, Akash Gupta, Rameswar Panda, Rakib Hyder, M. Salman Asif, Amit K. Roy-Chowdhury(参考訳) 既存のビデオ合成の作業の多くは、敵対的学習を用いたビデオ生成に焦点を当てている。 それらの成功にもかかわらず、これらの手法は、しばしば入力参照フレームを必要とするか、与えられたデータ分布から多様なビデオを生成するのに失敗する。 これらの方法と異なり,参照入力フレームを使わずに潜在雑音ベクトルから映像を生成する問題に焦点をあてる。 この目的のために,入力潜時空間,リカレントニューラルネットワークの重み付け,非逆学習によるジェネレータを協調的に最適化する新しい手法を開発した。 入力された潜在空間とネットワークの重み付けを最適化することで、制御された環境でビデオを生成することが可能になります。 3つの挑戦的かつ多様なデータセットに関する広範な実験は、既存の最先端の方法と比較して優れた高品質のビデオを生成することをよく示しています。

Most of the existing works in video synthesis focus on generating videos using adversarial learning. Despite their success, these methods often require input reference frame or fail to generate diverse videos from the given data distribution, with little to no uniformity in the quality of videos that can be generated. Different from these methods, we focus on the problem of generating videos from latent noise vectors, without any reference input frames. To this end, we develop a novel approach that jointly optimizes the input latent space, the weights of a recurrent neural network and a generator through non-adversarial learning. Optimizing for the input latent space along with the network weights allows us to generate videos in a controlled environment, i.e., we can faithfully generate all videos the model has seen during the learning process as well as new unseen videos. Extensive experiments on three challenging and diverse datasets well demonstrate that our approach generates superior quality videos compared to the existing state-of-the-art methods.
翻訳日:2022-12-21 13:16:57 公開日:2020-04-17
# 温室効果ガスの分析

Analysis of Greenhouse Gases ( http://arxiv.org/abs/2003.11916v2 )

ライセンス: Link先を確認
Shalin Shah(参考訳) 気候変動は温室効果ガス(ghg)、海、陸、氷、雲の複雑な相互作用のシステムの結果である。 大規模な気候変動モデルは、いくつかのコンピュータを使い、将来の気候を予測するためにいくつかの方程式を解きます。 方程式は、偏微分方程式への単純な多項式を含むことができる。 陸と海の取り込み機構のため、温室効果ガスの排出は気候に影響を与えるのにしばらく時間がかかる。 IPCCは、温室効果ガスの排出が対流圏の平均温度にどのように影響するかを報告し、世紀の終わりまでには、温度が0.8Cから5Cに上昇すると予想している。この記事では、月次GHGデータに線形回帰(LM)、二次回帰( Quadratic Regression and Gaussian Process Regression)を使用し、外挿に基づく温度異常を予測しようと試みる。 結果はIPCCのレポートとよく似ている。

Climate change is a result of a complex system of interactions of greenhouse gases (GHG), the ocean, land, ice, and clouds. Large climate change models use several computers and solve several equations to predict the future climate. The equations may include simple polynomials to partial differential equations. Because of the uptake mechanism of the land and ocean, greenhouse gas emissions can take a while to affect the climate. The IPCC has published reports on how greenhouse gas emissions may affect the average temperature of the troposphere and the predictions show that by the end of the century, we can expect a temperature increase from 0.8 C to 5 C. In this article, I use Linear Regression (LM), Quadratic Regression and Gaussian Process Regression (GPR) on monthly GHG data going back several years and try to predict the temperature anomalies based on extrapolation. The results are quite similar to the IPCC reports.
翻訳日:2022-12-21 13:15:10 公開日:2020-04-17
# pix2shape:ビューベース表現を用いた3dシーンの教師なし学習に向けて

Pix2Shape: Towards Unsupervised Learning of 3D Scenes from Images using a View-based Representation ( http://arxiv.org/abs/2003.14166v2 )

ライセンス: Link先を確認
Sai Rajeswar, Fahim Mannan, Florian Golemo, J\'er\^ome Parent-L\'evesque, David Vazquez, Derek Nowrouzezahrai, Aaron Courville(参考訳) 1つの入力画像から3次元のシーン情報を推定し,監視することなく生成する。 この問題は未調査であり、以前の作業は3D地上ストラス、シーンの複数の画像、画像シルエット、キーポイントなどの監督に依存していた。 Pix2Shapeは、4つのコンポーネントでこの問題を解決するアプローチである。 i) 画像から潜伏した3D表現を推測するエンコーダ (ii)潜在コードから明示的な2.5dサーフェルに基づくシーンの再構成を生成するデコーダ (iii)サーフェル表現から2次元画像を合成する微分可能レンダラ、及び (iv)デコーダ・レンダが生成した画像とトレーニング分布からの画像とを識別する訓練を受けた批評家ネットワーク。 Pix2Shapeは、世界空間の解像度、すなわちボクセルやメッシュをキャプチャする表現とは異なり、ビュー依存の画面解像度でスケールする複雑な3Dシーンを生成することができる。 pix2shapeはその符号化された潜在空間で一貫したシーン表現を学習し、デコーダをこの潜在表現に適用して新たな視点からシーンを合成できることを示す。 本研究では、ShapeNetデータセットと3D-IQTTと呼ばれる新しいベンチマークを用いてPix2Shapeを評価し、3D空間推論を可能にするモデルの評価を行った。 定性的かつ定量的な評価は、Pix2Shapeがシーン再構成、生成、理解タスクを解く能力を示している。

We infer and generate three-dimensional (3D) scene information from a single input image and without supervision. This problem is under-explored, with most prior work relying on supervision from, e.g., 3D ground-truth, multiple images of a scene, image silhouettes or key-points. We propose Pix2Shape, an approach to solve this problem with four components: (i) an encoder that infers the latent 3D representation from an image, (ii) a decoder that generates an explicit 2.5D surfel-based reconstruction of a scene from the latent code (iii) a differentiable renderer that synthesizes a 2D image from the surfel representation, and (iv) a critic network trained to discriminate between images generated by the decoder-renderer and those from a training distribution. Pix2Shape can generate complex 3D scenes that scale with the view-dependent on-screen resolution, unlike representations that capture world-space resolution, i.e., voxels or meshes. We show that Pix2Shape learns a consistent scene representation in its encoded latent space and that the decoder can then be applied to this latent representation in order to synthesize the scene from a novel viewpoint. We evaluate Pix2Shape with experiments on the ShapeNet dataset as well as on a novel benchmark we developed, called 3D-IQTT, to evaluate models based on their ability to enable 3d spatial reasoning. Qualitative and quantitative evaluation demonstrate Pix2Shape's ability to solve scene reconstruction, generation, and understanding tasks.
翻訳日:2022-12-20 23:22:22 公開日:2020-04-17
# 顔認識システムにおける逆光射影攻撃:実現可能性の検討

Adversarial Light Projection Attacks on Face Recognition Systems: A Feasibility Study ( http://arxiv.org/abs/2003.11145v2 )

ライセンス: Link先を確認
Dinh-Luan Nguyen and Sunpreet S. Arora and Yuhang Wu and Hao Yang(参考訳) ディープラーニングベースのシステムは、デジタルドメインと物理ドメインの両方の敵攻撃に対して脆弱であることが示されている。 実現可能ではあるが、デジタル攻撃は、顔認証システムを含む、配備されたシステムを攻撃する場合に限定的な適用性を持つ。 このような設定では、入力チャネルから直接悪意のある入力を提供する物理的な攻撃は、より大きな脅威を引き起こす。 対向光投射を用いた顔認識システムに対するリアルタイム物理攻撃の実現可能性について検討する。 市販のウェブカメラとプロジェクタからなるセットアップを使用して攻撃を行う。 変換不変な対向パターン生成法を用いて、敵に利用可能なターゲットの1つ以上の画像を用いて、デジタル対向パターンを生成する。 デジタル対向パターンは、物理的ドメインの敵の顔に投影され、ターゲット(偽装)を偽装するか、認識を回避(難読化)する。 2つのオープンソースと1つの商用顔認識システムを用いて,50人の被験者を対象に予備実験を行った。 実験の結果,ホワイトボックスおよびブラックボックスの攻撃設定において,光投射攻撃に対する顔認識システムの脆弱性が示された。

Deep learning-based systems have been shown to be vulnerable to adversarial attacks in both digital and physical domains. While feasible, digital attacks have limited applicability in attacking deployed systems, including face recognition systems, where an adversary typically has access to the input and not the transmission channel. In such setting, physical attacks that directly provide a malicious input through the input channel pose a bigger threat. We investigate the feasibility of conducting real-time physical attacks on face recognition systems using adversarial light projections. A setup comprising a commercially available web camera and a projector is used to conduct the attack. The adversary uses a transformation-invariant adversarial pattern generation method to generate a digital adversarial pattern using one or more images of the target available to the adversary. The digital adversarial pattern is then projected onto the adversary's face in the physical domain to either impersonate a target (impersonation) or evade recognition (obfuscation). We conduct preliminary experiments using two open-source and one commercial face recognition system on a pool of 50 subjects. Our experimental results demonstrate the vulnerability of face recognition systems to light projection attacks in both white-box and black-box attack settings.
翻訳日:2022-12-20 09:00:19 公開日:2020-04-17
# オープンドメイン質問応答における知識融合と意味知識ランキング

Knowledge Fusion and Semantic Knowledge Ranking for Open Domain Question Answering ( http://arxiv.org/abs/2004.03101v2 )

ライセンス: Link先を確認
Pratyay Banerjee and Chitta Baral(参考訳) Open Domain Question Answeringは、複数の文にまたがる知識を構成することで、外部知識を検索し、マルチホップ推論を行うシステムを必要とする。 最近発表されたQASCとOpenBookQAのオープンドメイン質問応答課題データセットでは、事実の検索を行い、質問に正しく答えるために事実を構成する必要がある。 本研究では,Luceneに基づく情報検索システムから得られた知識を再ランク付けするための意味知識ランキングモデルを学習する。 さらに,BERTに基づく言語モデルにおける知識を外部から取得した知識に活用し,BERTに基づく言語モデルの知識理解を改善する「知識融合モデル」を提案する。 OpenBookQAデータセットとQASCデータセットの両方において、意味的に再ランクされた知識による知識融合モデルは、以前の試みよりも優れている。

Open Domain Question Answering requires systems to retrieve external knowledge and perform multi-hop reasoning by composing knowledge spread over multiple sentences. In the recently introduced open domain question answering challenge datasets, QASC and OpenBookQA, we need to perform retrieval of facts and compose facts to correctly answer questions. In our work, we learn a semantic knowledge ranking model to re-rank knowledge retrieved through Lucene based information retrieval systems. We further propose a "knowledge fusion model" which leverages knowledge in BERT-based language models with externally retrieved knowledge and improves the knowledge understanding of the BERT-based language models. On both OpenBookQA and QASC datasets, the knowledge fusion model with semantically re-ranked knowledge outperforms previous attempts.
翻訳日:2022-12-15 22:26:27 公開日:2020-04-17
# すべてを認識する1つのモデル:異なるタグセットを持つnerモデルからの限界蒸留

One Model to Recognize Them All: Marginal Distillation from NER Models with Different Tag Sets ( http://arxiv.org/abs/2004.05140v2 )

ライセンス: Link先を確認
Keunwoo Peter Yu and Yi Yang(参考訳) 名前付きエンティティ認識(NER)は、現代の言語理解パイプラインの基本コンポーネントである。 注釈付きデータやモデルサービスのようなパブリックなNERリソースは、多くのドメインで利用可能である。 しかし、特定の下流アプリケーションを考えると、望まれるすべてのエンティティタイプをサポートする単一のNERリソースは存在しないことが多いため、ユーザは異なるタグセットで複数のリソースを利用する必要がある。 本稿では,不均一なタグセットを持つ資源から統一NERモデルを訓練するための限界蒸留(MARDI)手法を提案する。 最近の研究とは対照的に、MARDIはトレーニングデータセットではなく、単にトレーニング済みのモデルへのアクセスを必要とする。 この柔軟性により、医療や金融といった繊細な分野の作業が容易になる。 さらに、我々のアプローチは、ローカルモデル(例えば、BiLSTM)やグローバルモデル(例えば、CRF)を含む異なるNERアーキテクチャと統合するのに十分である。 2つのベンチマークデータセットの実験では、MARDIは強力な限界CRFベースラインと同等に動作し、必要なNERリソースの形でより柔軟であることが示されている。 MARDIはまた、プログレッシブNERタスクに新しい技術状況を設定する。 MARDIはプログレッシブNERのタスクにおいて、最先端のモデルよりも大幅に優れている。

Named entity recognition (NER) is a fundamental component in the modern language understanding pipeline. Public NER resources such as annotated data and model services are available in many domains. However, given a particular downstream application, there is often no single NER resource that supports all the desired entity types, so users must leverage multiple resources with different tag sets. This paper presents a marginal distillation (MARDI) approach for training a unified NER model from resources with disjoint or heterogeneous tag sets. In contrast to recent works, MARDI merely requires access to pre-trained models rather than the original training datasets. This flexibility makes it easier to work with sensitive domains like healthcare and finance. Furthermore, our approach is general enough to integrate with different NER architectures, including local models (e.g., BiLSTM) and global models (e.g., CRF). Experiments on two benchmark datasets show that MARDI performs on par with a strong marginal CRF baseline, while being more flexible in the form of required NER resources. MARDI also sets a new state of the art on the progressive NER task. MARDI significantly outperforms the start-of-the-art model on the task of progressive NER.
翻訳日:2022-12-14 21:04:44 公開日:2020-04-17
# ロバスト評価に基づくグループランキングシステムとそのブリビーへの抵抗性

A Robust Reputation-based Group Ranking System and its Resistance to Bribery ( http://arxiv.org/abs/2004.06223v2 )

ライセンス: Link先を確認
Joao Saude and Guilherme Ramos and Ludovico Boratto and Carlos Caleiro(参考訳) オンラインレビューや意見の拡散と人々の行動や意思決定への影響の高まりにより、このデータから意味のある情報を抽出する関心が高まった。 そのため、クラウドソーシングによる製品やサービスの評価は、ビジネスや政府において重要な役割を担った。 現在の最先端ソリューションは、アイテムに対して表現されたレーティングの平均値、ユーザに対するパーソナライゼーションの欠如、攻撃やスパム/盗みのユーザへの露出によって、アイテムをランク付けしている。 同様の好みを持つユーザをグループ化するためにこれらの評価を使用することは、ユーザの好みを反映し、脆弱性を克服するアイテムをユーザに提示する上で有用である。 本稿では,3つの尺度を用いてユーザをクラスタリングし,その中の2つをKolmogorov複雑性に基づいて評価するマルチパートレーティングサブネットワークを用いた,評価に基づく新しいランキングシステムを提案する。 また,贈収賄に対する抵抗性と最適な贈収賄戦略の設計方法についても検討した。 ユーザの異なるグループに対して、異なるランク付けを同じ項目に割り当てることによって、好みの多様性を反映する新しいシステムである。 我々はシステムの収束と効率を証明する。 合成データと実際のデータでテストすることで、スパムやスパムに対処し、最先端のアプローチよりも攻撃に強いことがわかりました。 また, クラスタリングにより, 提案したマルチパーティイトランキングシステムにおける収賄の効果を, バイパートイトの場合と比較して薄めている。

The spread of online reviews and opinions and its growing influence on people's behavior and decisions, boosted the interest to extract meaningful information from this data deluge. Hence, crowdsourced ratings of products and services gained a critical role in business and governments. Current state-of-the-art solutions rank the items with an average of the ratings expressed for an item, with a consequent lack of personalization for the users, and the exposure to attacks and spamming/spurious users. Using these ratings to group users with similar preferences might be useful to present users with items that reflect their preferences and overcome those vulnerabilities. In this paper, we propose a new reputation-based ranking system, utilizing multipartite rating subnetworks, which clusters users by their similarities using three measures, two of them based on Kolmogorov complexity. We also study its resistance to bribery and how to design optimal bribing strategies. Our system is novel in that it reflects the diversity of preferences by (possibly) assigning distinct rankings to the same item, for different groups of users. We prove the convergence and efficiency of the system. By testing it on synthetic and real data, we see that it copes better with spamming/spurious users, being more robust to attacks than state-of-the-art approaches. Also, by clustering users, the effect of bribery in the proposed multipartite ranking system is dimmed, comparing to the bipartite case.
翻訳日:2022-12-14 00:29:11 公開日:2020-04-17
# 教師なしドメイン適応のためのマルチソース注意

Multi-source Attention for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2004.06608v2 )

ライセンス: Link先を確認
Xia Cui and Danushka Bollegala(参考訳) ドメイン適応は、特定のソースドメインから別のターゲットドメインへデータを使用して学習するモデルを一般化する問題を考える。 多くの場合、適切な単一ソースを見つけることは困難であり、複数のソースを考慮する必要がある。 関係のないソースを使用することで、 \emph{ negative transfer} と呼ばれる準最適性能が得られる。 しかし、対象とするインスタンスをマルチソースアン教師付きドメイン適応(UDA)で分類する適切なソースを選択することは困難である。 我々はソース選択を注意学習問題としてモデル化し、対象とするインスタンスのソースに対して注意を向ける。 この目的のために、まずソース固有の分類モデルと、疑似ラベル付きターゲットドメインインスタンスを用いてソースとターゲットドメイン間の関連性マップを独立に学習する。 次に、ソース固有のモデルの予測を集約するソースについて注目度を学習する。 クロスドメイン感情分類ベンチマークの実験結果から,提案手法はマルチソースUDAにおける事前提案よりも優れていた。

Domain adaptation considers the problem of generalising a model learnt using data from a particular source domain to a different target domain. Often it is difficult to find a suitable single source to adapt from, and one must consider multiple sources. Using an unrelated source can result in sub-optimal performance, known as the \emph{negative transfer}. However, it is challenging to select the appropriate source(s) for classifying a given target instance in multi-source unsupervised domain adaptation (UDA). We model source-selection as an attention-learning problem, where we learn attention over sources for a given target instance. For this purpose, we first independently learn source-specific classification models, and a relatedness map between sources and target domains using pseudo-labelled target domain instances. Next, we learn attention-weights over the sources for aggregating the predictions of the source-specific models. Experimental results on cross-domain sentiment classification benchmarks show that the proposed method outperforms prior proposals in multi-source UDA.
翻訳日:2022-12-13 08:57:25 公開日:2020-04-17
# q-capsnets:カプセルネットワークの定量化のためのフレームワーク

Q-CapsNets: A Specialized Framework for Quantizing Capsule Networks ( http://arxiv.org/abs/2004.07116v2 )

ライセンス: Link先を確認
Alberto Marchisio, Beatrice Bussolino, Alessio Colucci, Maurizio Martina, Guido Masera, Muhammad Shafique(参考訳) Google Brainチームが最近提案したCapsule Networks(CapsNets)は、画像分類のような機械学習タスクにおいて、従来のCNNと比較して優れた学習能力を持っている。 しかし、CapsNetsは非常に厳しい計算を必要とするため、リソース制約のあるエッジデバイスで元の形式でデプロイすることは困難である。 本稿では,CapsNetモデルの量子化を初めて試み,その効率的なエッジ実装を実現するために,CapsNetの特殊な量子化フレームワークを開発する。 いくつかのベンチマークでフレームワークを評価した。 CIFAR10データセットの深いCapsNetモデルでは、このフレームワークはメモリフットプリントを6.2倍に減らし、精度はわずか 0.15% である。 私たちは2020年8月にhttps://git.io/JvDIFでフレームワークをオープンソース化します。

Capsule Networks (CapsNets), recently proposed by the Google Brain team, have superior learning capabilities in machine learning tasks, like image classification, compared to the traditional CNNs. However, CapsNets require extremely intense computations and are difficult to be deployed in their original form at the resource-constrained edge devices. This paper makes the first attempt to quantize CapsNet models, to enable their efficient edge implementations, by developing a specialized quantization framework for CapsNets. We evaluate our framework for several benchmarks. On a deep CapsNet model for the CIFAR10 dataset, the framework reduces the memory footprint by 6.2x, with only 0.15% accuracy loss. We will open-source our framework at https://git.io/JvDIF in August 2020.
翻訳日:2022-12-13 02:56:17 公開日:2020-04-17
# Cone-Beam Computed Tomography (CBCT) とComputed Tomography (CT) による医用深層学習モデルの一般化可能性問題とその潜在的な解決策

Generalizability issues with deep learning models in medicine and their potential solutions: illustrated with Cone-Beam Computed Tomography (CBCT) to Computed Tomography (CT) image conversion ( http://arxiv.org/abs/2004.07700v2 )

ライセンス: Link先を確認
Xiao Liang, Dan Nguyen, Steve Jiang(参考訳) 一般化可能性は、あるデータセットでトレーニングされたディープラーニング(DL)モデルを他のデータセットに適用する場合の懸念である。 誰でもどこでも使えるユニバーサルモデルのトレーニングは、非現実的です。 本研究では, 一般化可能性問題を実証し, コーンビームCT(CBCT)からCT(CT)画像変換タスクをテストベッドとして利用することで, 伝達学習(TL)に基づく潜在的な解を探索する。 これまでの研究はCBCTをCTライクな画像に変換してきた。 しかし、これらの研究はすべて1つか2つの解剖学的部位のみを研究し、同じベンダーのスキャナーの画像を使用した。 そこで本研究では,1台のマシンと1台の解剖学的サイトを訓練したモデルが,他のマシンや他のサイトでどのように機能するかについて検討した。 我々は,あるベンダーの頭頸部癌患者用スキャナーから取得したCBCT画像のモデルを訓練し,他のベンダーのスキャナーおよび他の病気部位用イメージに適用した。 我々は、他のベンダーのスキャナーのデータセットにトレーニング済みのDLモデルを適用する際に、この特定のアプリケーションにとって、一般化可能性が重要な問題となることを発見した。 次に、この一般化問題を解決するために、TLに基づく実用的な3つの解決策を探索した。対象ドメインをゼロからトレーニングするターゲットモデル、ソースとターゲットの両方のドメインデータセットをゼロからトレーニングする組み合わせモデル、トレーニングしたソースモデルをターゲットドメインに微調整する適応モデルである。 対象領域に十分なデータがある場合、3つのモデル全てが優れたパフォーマンスを達成できることがわかった。 ターゲットのデータセットが制限された場合、適応したモデルが最もうまく動作し、トレーニングされたモデルを対象とするドメインデータセットに適用するための微調整戦略を使用することは、クリニックでdlモデルを実装する上で有効で簡単な方法であることを示している。

Generalizability is a concern when applying a deep learning (DL) model trained on one dataset to other datasets. Training a universal model that works anywhere, anytime, for anybody is unrealistic. In this work, we demonstrate the generalizability problem, then explore potential solutions based on transfer learning (TL) by using the cone-beam computed tomography (CBCT) to computed tomography (CT) image conversion task as the testbed. Previous works have converted CBCT to CT-like images. However, all of those works studied only one or two anatomical sites and used images from the same vendor's scanners. Here, we investigated how a model trained for one machine and one anatomical site works on other machines and other sites. We trained a model on CBCT images acquired from one vendor's scanners for head and neck cancer patients and applied it to images from another vendor's scanners and for other disease sites. We found that generalizability could be a significant problem for this particular application when applying a trained DL model to datasets from another vendor's scanners. We then explored three practical solutions based on TL to solve this generalization problem: the target model, which is trained on a target domain from scratch; the combined model, which is trained on both source and target domain datasets from scratch; and the adapted model, which fine-tunes the trained source model to a target domain. We found that when there are sufficient data in the target domain, all three models can achieve good performance. When the target dataset is limited, the adapted model works the best, which indicates that using the fine-tuning strategy to adapt the trained model to an unseen target domain dataset is a viable and easy way to implement DL models in the clinic.
翻訳日:2022-12-12 22:21:28 公開日:2020-04-17
# 多元利回り曲線市場のための機械学習:ガウスアフィンフレームワークにおける高速キャリブレーション

Machine learning for multiple yield curve markets: fast calibration in the Gaussian affine framework ( http://arxiv.org/abs/2004.07736v2 )

ライセンス: Link先を確認
Sandrine G\"umbel, Thorsten Schmidt(参考訳) 校正は特に複数の利回り曲線市場において非常に困難な課題である。 本論文は,機械学習技術の応用の可能性と課題について検討する最初の試みである。 我々は、拡張カルマンフィルタリングと多くの類似点を持つ機械学習手法であるガウス過程回帰(Gaussian process regression)を、金利市場や項構造モデルに何度も適用した手法として採用している。 単一曲線市場にとって非常に良い結果が得られ、vasicekフレームワークによる多曲線市場における多くの課題が浮かび上がっています。 ガウス過程の回帰はadamオプティマイザと非線形共役勾配法で実装され、後者が最適である。 また、今後の研究も目指している。

Calibration is a highly challenging task, in particular in multiple yield curve markets. This paper is a first attempt to study the chances and challenges of the application of machine learning techniques for this. We employ Gaussian process regression, a machine learning methodology having many similarities with extended Kalman filtering - a technique which has been applied many times to interest rate markets and term structure models. We find very good results for the single curve markets and many challenges for the multi curve markets in a Vasicek framework. The Gaussian process regression is implemented with the Adam optimizer and the non-linear conjugate gradient method, where the latter performs best. We also point towards future research.
翻訳日:2022-12-12 22:13:21 公開日:2020-04-17
# グラフニューラルネットワークを用いた病理画像の表現学習

Representation Learning of Histopathology Images using Graph Neural Networks ( http://arxiv.org/abs/2004.07399v2 )

ライセンス: Link先を確認
Mohammed Adnan, Shivam Kalra, Hamid R. Tizhoosh(参考訳) 全身スライド画像(wsis)の表現学習は、診断病理学において高い精度を達成するために画像ベースのシステムを開発する上で重要である。 本稿ではWSI表現学習のための2段階フレームワークを提案する。 色に基づく手法を用いて関連するパッチをサンプリングし、グラフニューラルネットワークを用いてサンプルパッチ間の関係を学習し、画像情報を単一のベクトル表現に集約する。 関連性の高いパッチを自動的に推論するために,グラフプーリングを通じて注目する。 肺腺癌 (LUAD) と肺扁平上皮癌 (LUSC) の2種類の亜型を鑑別するためのアプローチの有効性を実証した。 がんゲノムアトラス (tcga) データセットから40$\times$倍の1026個の肺癌wsisを採取し, 組織病理画像の公開リポジトリとしては最大であり, 88.8%, auc 0.89の精度を得られた。

Representation learning for Whole Slide Images (WSIs) is pivotal in developing image-based systems to achieve higher precision in diagnostic pathology. We propose a two-stage framework for WSI representation learning. We sample relevant patches using a color-based method and use graph neural networks to learn relations among sampled patches to aggregate the image information into a single vector representation. We introduce attention via graph pooling to automatically infer patches with higher relevance. We demonstrate the performance of our approach for discriminating two sub-types of lung cancers, Lung Adenocarcinoma (LUAD) & Lung Squamous Cell Carcinoma (LUSC). We collected 1,026 lung cancer WSIs with the 40$\times$ magnification from The Cancer Genome Atlas (TCGA) dataset, the largest public repository of histopathology images and achieved state-of-the-art accuracy of 88.8% and AUC of 0.89 on lung cancer sub-type classification by extracting features from a pre-trained DenseNet
翻訳日:2022-12-12 21:29:54 公開日:2020-04-17
# rpnet: 雑音心電図におけるロバストrピーク検出のためのディープラーニングアプローチ

RPnet: A Deep Learning approach for robust R Peak detection in noisy ECG ( http://arxiv.org/abs/2004.08103v1 )

ライセンス: Link先を確認
Sricharan Vijayarangan, Vignesh R, Balamurali Murugesan, Preejith SP, Jayaraj Joseph and Mohansankar Sivaprakasam(参考訳) 心電図信号におけるRピークの自動検出は、心拍変動(HRV)分析や心血管疾患(CVD)診断など、様々な応用において重要である。 この問題に対処した多くのアプローチがあるが、これらの既存の検出器はノイズやHRVの照準を含むECGのエピソードで性能が著しく低下している。 一方,Deep Learning(DL)に基づく手法は,ノイズを含むデータモデリングに長けていることが示されている。 画像から画像への変換において、Unetは多くのネットワークの基本ブロックである。 本研究では,ECGからRピークを抽出するために,UnetとInceptionブロックとResidualブロックを組み合わせた新しい応用を提案する。 さらに、問題の定式化は、ECG R-peaksの変動性と分散性の問題をしっかりと扱う。 提案したネットワークはCVDを持つECGエピソードを含むデータベース上でトレーニングされ、検証セット上の3つの従来のECG検出器に対してテストされた。 このモデルはF1スコア0.9837を達成し、他のビート検出器よりも大幅に改善された。 さらに、このモデルは他の3つのデータベースで評価された。 提案ネットワークは,全データセットで高いf1スコアを達成し,その一般化能力を確立した。 また, 異なる騒音レベルの存在下でのモデル性能の徹底的な解析を行った。

Automatic detection of R-peaks in an Electrocardiogram signal is crucial in a multitude of applications including Heart Rate Variability (HRV) analysis and Cardio Vascular Disease(CVD) diagnosis. Although there have been numerous approaches that have successfully addressed the problem, there has been a notable dip in the performance of these existing detectors on ECG episodes that contain noise and HRV Irregulates. On the other hand, Deep Learning(DL) based methods have shown to be adept at modelling data that contain noise. In image to image translation, Unet is the fundamental block in many of the networks. In this work, a novel application of the Unet combined with Inception and Residual blocks is proposed to perform the extraction of R-peaks from an ECG. Furthermore, the problem formulation also robustly deals with issues of variability and sparsity of ECG R-peaks. The proposed network was trained on a database containing ECG episodes that have CVD and was tested against three traditional ECG detectors on a validation set. The model achieved an F1 score of 0.9837, which is a substantial improvement over the other beat detectors. Furthermore, the model was also evaluated on three other databases. The proposed network achieved high F1 scores across all datasets which established its generalizing capacity. Additionally, a thorough analysis of the model's performance in the presence of different levels of noise was carried out.
翻訳日:2022-12-12 13:54:23 公開日:2020-04-17
# 音声認識における視覚的モダリティに注意を払うためのDNNの教育方法

How to Teach DNNs to Pay Attention to the Visual Modality in Speech Recognition ( http://arxiv.org/abs/2004.08250v1 )

ライセンス: Link先を確認
George Sterpu, Christian Saam, Naomi Harte(参考訳) AVSR(Audio-Visual Speech Recognition)は、人間の声とそれに対応する口の動きのダイナミックな関係をモデル化し、活用しようとする。 最近提案されたマルチモーダル融合戦略 AV Align は,音声の音響的および視覚的表現を明示的に整合させて,この関係をモデル化しようとするものである。 本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。 実験は,最大規模のAVSRデータセットであるTCD-TIMITとLSS2を用いて行った。 AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで音声の音響的および視覚的表現を調整することを学習している。 また,より難易度の高いLSS2では,音声のみの音声認識が改善しなかった原因についても検討した。 視覚表現から唇関連行動単位を予測するための正規化手法を提案する。 本手法は,ノイズレベルに応じて7%から30%の性能改善を行い,視覚モダリティの活用性が向上した。 さらに,Watch,Listen, Attend, Spell のネットワークは AV Align と同じ問題の影響を受けており,提案手法は視覚表現の学習に有効であることを示す。 本研究は, AVSR に対する正規化手法の適合性を検証し, 1 つの支配的モダリティを持つ場合の多重モーダル収束問題の再考を促すものである。

Audio-Visual Speech Recognition (AVSR) seeks to model, and thereby exploit, the dynamic relationship between a human voice and the corresponding mouth movements. A recently proposed multimodal fusion strategy, AV Align, based on state-of-the-art sequence to sequence neural networks, attempts to model this relationship by explicitly aligning the acoustic and visual representations of speech. This study investigates the inner workings of AV Align and visualises the audio-visual alignment patterns. Our experiments are performed on two of the largest publicly available AVSR datasets, TCD-TIMIT and LRS2. We find that AV Align learns to align acoustic and visual representations of speech at the frame level on TCD-TIMIT in a generally monotonic pattern. We also determine the cause of initially seeing no improvement over audio-only speech recognition on the more challenging LRS2. We propose a regularisation method which involves predicting lip-related Action Units from visual representations. Our regularisation method leads to better exploitation of the visual modality, with performance improvements between 7% and 30% depending on the noise level. Furthermore, we show that the alternative Watch, Listen, Attend, and Spell network is affected by the same problem as AV Align, and that our proposed approach can effectively help it learn visual representations. Our findings validate the suitability of the regularisation method to AVSR and encourage researchers to rethink the multimodal convergence problem when having one dominant modality.
翻訳日:2022-12-12 13:54:01 公開日:2020-04-17
# グラフによる多次元プロセスの予測

Forecasting Multi-Dimensional Processes over Graphs ( http://arxiv.org/abs/2004.08260v1 )

ライセンス: Link先を確認
Alberto Natali, Elvin Isufi, Geert Leus(参考訳) 近年,グラフ信号処理フレームワークにおいて,多変量時間プロセスのグラフベース手法による予測が試みられている。 しかし、表現と処理における問題は、各時系列がスカラーではなく量ベクトルを持つときに生じる。 この問題に対処するため,グラフベクトル自己回帰モデルに基づく新しい枠組みを考案し,新しい手法を提案する。 より明確には、製品グラフを利用して高次元グラフデータをモデル化し、多次元グラフに基づくベクトル自己回帰モデルを開発し、時系列数や線形計算複雑性とは無関係なパラメータで将来のトレンドを予測する。 移動点雲の予測を示す数値的な結果は,我々の発見を裏付けるものである。

The forecasting of multi-variate time processes through graph-based techniques has recently been addressed under the graph signal processing framework. However, problems in the representation and the processing arise when each time series carries a vector of quantities rather than a scalar one. To tackle this issue, we devise a new framework and propose new methodologies based on the graph vector autoregressive model. More explicitly, we leverage product graphs to model the high-dimensional graph data and develop multi-dimensional graph-based vector autoregressive models to forecast future trends with a number of parameters that is independent of the number of time series and a linear computational complexity. Numerical results demonstrating the prediction of moving point clouds corroborate our findings.
翻訳日:2022-12-12 13:53:34 公開日:2020-04-17
# 複合現実における空間的プライバシー保護のための保守的プレーンリリース

Conservative Plane Releasing for Spatial Privacy Protection in Mixed Reality ( http://arxiv.org/abs/2004.08029v1 )

ライセンス: Link先を確認
Jaybie A. de Guzman, Kanchana Thilakarathna, Aruna Seneviratne(参考訳) 拡張現実(ar)または複合現実(mr)プラットフォームは、オブジェクトや表面を検出するために空間的理解を必要とし、しばしばその構造的(すなわち空間幾何学)とフォトメトリック(例えば色やテクスチャ)の属性を含む。 これらの機能は、高解像度と周波数で3D空間情報をキャプチャするためにAR/MRプラットフォームを必要とするが、これはユーザーのプライバシーに前例のないリスクをもたらす。 検出されたオブジェクトの他に、空間情報は、例えば、ユーザの家の一部がどこにあるかなど、高い特異度でユーザの位置を明らかにする。 本研究では,空間的一般化と保守的リリースを併用して空間的プライバシを提供する。 提案する空間プライバシーアプローチを評価できる攻撃者として,既存の場所と3dデータ上の形状認識手法を基盤とした敵を設計。 そして、microsoft hololensから収集した3dポイントクラウドを利用して、空間内のユーザの動きをシミュレートし、空間のより多くを明らかにする。 その結果, 半径が十分大きい空間から累積された11以上の一般化平面(すなわち$r\leq1.0m$-)は, ユーザの空間的位置を少なくとも半時間同定することに敵意を損なうことが判明した。 さらに、累積空間が半径が小さい場合、すなわち、連続的に現れる各空間は$r\leq 0.5m$である場合、29個の一般化平面を解放し、より良いデータユーティリティとプライバシーの両方を享受することができる。

Augmented reality (AR) or mixed reality (MR) platforms require spatial understanding to detect objects or surfaces, often including their structural (i.e. spatial geometry) and photometric (e.g. color, and texture) attributes, to allow applications to place virtual or synthetic objects seemingly "anchored" on to real world objects; in some cases, even allowing interactions between the physical and virtual objects. These functionalities require AR/MR platforms to capture the 3D spatial information with high resolution and frequency; however, these pose unprecedented risks to user privacy. Aside from objects being detected, spatial information also reveals the location of the user with high specificity, e.g. in which part of the house the user is. In this work, we propose to leverage spatial generalizations coupled with conservative releasing to provide spatial privacy while maintaining data utility. We designed an adversary that builds up on existing place and shape recognition methods over 3D data as attackers to which the proposed spatial privacy approach can be evaluated against. Then, we simulate user movement within spaces which reveals more of their space as they move around utilizing 3D point clouds collected from Microsoft HoloLens. Results show that revealing no more than 11 generalized planes--accumulated from successively revealed spaces with large enough radius, i.e. $r\leq1.0m$--can make an adversary fail in identifying the spatial location of the user for at least half of the time. Furthermore, if the accumulated spaces are of smaller radius, i.e. each successively revealed space is $r\leq 0.5m$, we can release up to 29 generalized planes while enjoying both better data utility and privacy.
翻訳日:2022-12-12 13:53:24 公開日:2020-04-17
# スマートフォンのカメラベースのポインター

Smartphone camera based pointer ( http://arxiv.org/abs/2004.08030v1 )

ライセンス: Link先を確認
Predrag Lazic(参考訳) 大規模なスクリーンディスプレイは現在、プレゼンテーションやエンタテインメントのインフラの一部として全周的に展示されている。 また、カメラを内蔵した強力なスマートフォンもユビキタスだ。 しかし、スマートフォンからビデオをキャストする以外に、スマートフォンとスクリーンが対話できる方法は少ない。 本稿では,スマートフォンをスマートフォンのカメラで画面上の直接仮想ポインターに変換する,新しいアイデアを提案する。 アイデアとその実装はシンプルで、堅牢で、効率的で、使用も楽しい。 このアイデアの数学的概念に加えて,HTML5 フレームワークで大規模マルチプレイヤーゲームとして提示される新たなインタラクション技術の可能性を示す,小さな javascript プロジェクト (www.mobiletvgames.com) も伴っている。

Large screen displays are omnipresent today as a part of infrastructure for presentations and entertainment. Also powerful smartphones with integrated camera(s) are ubiquitous. However, there are not many ways in which smartphones and screens can interact besides casting the video from a smartphone. In this paper, we present a novel idea that turns a smartphone into a direct virtual pointer on the screen using the phone's camera. The idea and its implementation are simple, robust, efficient and fun to use. Besides the mathematical concepts of the idea we accompany the paper with a small javascript project (www.mobiletvgames.com) which demonstrates the possibility of the new interaction technique presented as a massive multiplayer game in the HTML5 framework.
翻訳日:2022-12-12 13:52:51 公開日:2020-04-17
# 電力グリッド周波数の予測可能性

Predictability of Power Grid Frequency ( http://arxiv.org/abs/2004.09259v1 )

ライセンス: Link先を確認
Johannes Kruse, Benjamin Sch\"afer and Dirk Witthaut(参考訳) 電力グリッド周波数は、電力供給と需要のバランスを測定するため、電力系統制御において中心的に観測できる。 信頼性の高い周波数予測は、迅速な制御動作を促進し、電力系統の安定性を大幅に向上させることができる。 本稿では,周波数トラジェクトリの予測性を評価するために,重み付きアレスト近傍(WNN)予測器を開発した。 1時間までの予測は日平均プロファイルよりも正確であり、周波数制御の効率を高めることができる。 さらに、物理システムの観点から最適予測パラメータ(最寄りの近傍の数、予測地平線など)を解釈することで、異なる同期領域の特定の特性の理解を深める。 最後に、予測誤差は例外的な外乱の発生を示す。 全体として、電力グリッド周波数時系列の診断ツールと正確な予測器を提供し、基礎となるダイナミクスをよりよく理解することができる。

The power grid frequency is the central observable in power system control, as it measures the balance of electrical supply and demand. A reliable frequency forecast can facilitate rapid control actions and may thus greatly improve power system stability. Here, we develop a weighted-nearest-neighbor (WNN) predictor to investigate how predictable the frequency trajectories are. Our forecasts for up to one hour are more precise than averaged daily profiles and could increase the efficiency of frequency control actions. Furthermore, we gain an increased understanding of the specific properties of different synchronous areas by interpreting the optimal prediction parameters (number of nearest neighbors, the prediction horizon, etc.) in terms of the physical system. Finally, prediction errors indicate the occurrence of exceptional external perturbations. Overall, we provide a diagnostics tool and an accurate predictor of the power grid frequency time series, allowing better understanding of the underlying dynamics.
翻訳日:2022-12-12 13:52:39 公開日:2020-04-17
# プロジェクションコスト保存スケッチ:証明戦略と構成

Projection-Cost-Preserving Sketches: Proof Strategies and Constructions ( http://arxiv.org/abs/2004.08434v1 )

ライセンス: Link先を確認
Cameron Musco and Christopher Musco(参考訳) 本稿では, [fss13, cem+15] で導入された, ランダム投影法やランダムサンプリング法といった一般的な行列近似手法が, 投影コスト保存スケッチに与える影響を述べる。 投影コスト保存スケッチは、与えられたパラメータ $k$ に対して、目標行列とすべての$k$-次元部分空間の距離をほぼ保存する行列近似である。 このようなスケッチは線形代数、データサイエンス、機械学習のためのスケーラブルなアルゴリズムに適用できる。 我々のゴールは、[CEM+15] と [CMM17] で導入された証明技法の提示を簡素化し、将来の作業のガイドとして機能させることです。 読者は[cyd19]を参照し、[cyd19]は[cyd19]セクション2でカバーされた証明の簡易化を示す。

In this note we illustrate how common matrix approximation methods, such as random projection and random sampling, yield projection-cost-preserving sketches, as introduced in [FSS13, CEM+15]. A projection-cost-preserving sketch is a matrix approximation which, for a given parameter $k$, approximately preserves the distance of the target matrix to all $k$-dimensional subspaces. Such sketches have applications to scalable algorithms for linear algebra, data science, and machine learning. Our goal is to simplify the presentation of proof techniques introduced in [CEM+15] and [CMM17] so that they can serve as a guide for future work. We also refer the reader to [CYD19], which gives a similar simplified exposition of the proof covered in Section 2.
翻訳日:2022-12-12 13:51:32 公開日:2020-04-17
# 適応的放射線治療における統合登録と分割のためのクロスピッチアーキテクチャ

A Cross-Stitch Architecture for Joint Registration and Segmentation in Adaptive Radiotherapy ( http://arxiv.org/abs/2004.08122v1 )

ライセンス: Link先を確認
Laurens Beljaards, Mohamed S. Elmahdy, Fons Verbeek, Marius Staring(参考訳) 近年,共同登録とセグメンテーションは,共同損失関数の定義により深層学習環境において定式化されている。 本研究では,これらのタスクのアーキテクチャレベルでの参加について検討する。 本稿では,画像間のセグメンテーション伝搬とセグメンテーションネットワークを統合し,セグメンテーションを直接予測する登録ネットワークを提案する。 これらのネットワークは、いわゆるクロススティッチユニットを介して単一のジョイントアーキテクチャに接続され、タスク間の情報を学習可能な方法で交換することができる。 提案手法は,毎日の前立腺ct画像を用いて適応的画像誘導放射線治療の文脈で評価した。 異なる研究所や製造業者による2つのデータセットが研究に関与した。 第1のデータセットはトレーニング(12の患者)と検証(6の患者)、第2のデータセットは独立したテストセット(14の患者)として使用された。 平均表面距離は1.06 pm 0.3$ mm,$0.91 pm 0.4$ mm, $1.27 pm 0.4$ mm, $1.76 pm 0.8$ mm, $1.82 pm 2.4$ mm, $2.45 pm 2.4$ mm, $2.45 pm 5.0$ mm, $2.57 pm 2.3$ mm, それぞれ前立腺, 膀胱, 精巣および直腸の試験セットで達成した。 提案したマルチタスクネットワークは単一タスクネットワークよりも優れており、ネットワークは損失関数を介してのみ結合し、セグメント化と登録タスクの個々の強みを活用する能力を示す。 得られた性能および推論速度は、適応放射線療法における日常的再検査の候補となり、治療関連副作用を低減し、治療後のQOLを改善する可能性がある。

Recently, joint registration and segmentation has been formulated in a deep learning setting, by the definition of joint loss functions. In this work, we investigate joining these tasks at the architectural level. We propose a registration network that integrates segmentation propagation between images, and a segmentation network to predict the segmentation directly. These networks are connected into a single joint architecture via so-called cross-stitch units, allowing information to be exchanged between the tasks in a learnable manner. The proposed method is evaluated in the context of adaptive image-guided radiotherapy, using daily prostate CT imaging. Two datasets from different institutes and manufacturers were involved in the study. The first dataset was used for training (12 patients) and validation (6 patients), while the second dataset was used as an independent test set (14 patients). In terms of mean surface distance, our approach achieved $1.06 \pm 0.3$ mm, $0.91 \pm 0.4$ mm, $1.27 \pm 0.4$ mm, and $1.76 \pm 0.8$ mm on the validation set and $1.82 \pm 2.4$ mm, $2.45 \pm 2.4$ mm, $2.45 \pm 5.0$ mm, and $2.57 \pm 2.3$ mm on the test set for the prostate, bladder, seminal vesicles, and rectum, respectively. The proposed multi-task network outperformed single-task networks, as well as a network only joined through the loss function, thus demonstrating the capability to leverage the individual strengths of the segmentation and registration tasks. The obtained performance as well as the inference speed make this a promising candidate for daily re-contouring in adaptive radiotherapy, potentially reducing treatment-related side effects and improving quality-of-life after treatment.
翻訳日:2022-12-12 13:44:55 公開日:2020-04-17
# 光レンジ検出を用いたロボットルームトラバーサル

Robotic Room Traversal using Optical Range Finding ( http://arxiv.org/abs/2004.08368v1 )

ライセンス: Link先を確認
Cole Smith, Eric Lin, Dennis Shasha(参考訳) 障害によってブロックされない部屋のすべての部分を訪れるという目標を考えてみましょう。 効率的に行うには、センサーと計画の両方が必要です。 ロボット室トラバーサルのための安価な光レンジ探索法を提案する。 我々の部屋の移動アルゴリズムは、ロボットから最も近い障害物まで360度の距離に依存する。 次に、最も近い距離の経路を選択する。 我々の問題に対してミリ精度は必須ではないため、より一般的なものの代わりに、光検出やレンジ(LIDAR)といった高価なソリューションの代わりに、独自のレーザーレンジ探索ソリューションを開発することを選択した。 私たちのソリューションでは、ターゲットに可視ドットを投射するレーザーと、一般的なカメラ(例えばiPhone)を使用します。 カメラフレームのどこでレーザードットが検出されたかに基づいて、ターゲットとレーザー開口部の角度を計算することができる。 この角度とカメラ・アイとレーザー・アパーチャの間の既知の距離を用いて、ロボットとターゲットの間の距離を提供する三角モデルの全辺を解くことができる。

Consider the goal of visiting every part of a room that is not blocked by obstacles. Doing so efficiently requires both sensors and planning. Our findings suggest a method of inexpensive optical range finding for robotic room traversal. Our room traversal algorithm relies upon the approximate distance from the robot to the nearest obstacle in 360 degrees. We then choose the path with the furthest approximate distance. Since millimeter-precision is not required for our problem, we have opted to develop our own laser range finding solution, in lieu of using more common, but also expensive solutions like light detection and ranging (LIDAR). Rather, our solution uses a laser that casts a visible dot on the target and a common camera (an iPhone, for example). Based upon where in the camera frame the laser dot is detected, we may calculate an angle between our target and the laser aperture. Using this angle and the known distance between the camera eye and the laser aperture, we may solve all sides of a trigonometric model which provides the distance between the robot and the target.
翻訳日:2022-12-12 13:43:47 公開日:2020-04-17
# GUIベースプログラミングにおけるプライバシ保護スクリプト共有

Privacy-Preserving Script Sharing in GUI-based Programming-by-Demonstration Systems ( http://arxiv.org/abs/2004.08353v1 )

ライセンス: Link先を確認
Toby Jia-Jun Li, Jingya Chen, Brandon Canfield, Brad A. Myers(参考訳) エンドユーザ開発(EUD)における重要な関心事は、プログラムアーティファクトに誤って個人情報を埋め込むことである。 この問題はGUIベースのプログラミング・バイ・デモレーション(PBD)システムにおいて特に重要である。 以前の研究では、これらのプライバシー上の懸念がEUDにおけるスクリプト共有の主な障壁であると報告されていた。 本稿では,GUI ベースの PBD スクリプトにおける潜在的な個人情報を,対応するアプリ GUI コンテキストに対する情報エントリの特異性に基づいて識別・難読化する手法を提案する。 従来のアプローチと比較して、当社は明示的な事前指定以上の幅広い個人情報をサポートし、最小限のユーザー努力を必要とし、再識別攻撃の脅威に対処し、あらゆるタスクドメインのサードパーティアプリと連携できる。 当社のアプローチでは,スクリプトの透過性,可読性,堅牢性,一般化性を維持するために,スクリプトコンシューマ側の難読フィールドをローカルに復元する。 提案手法は,(1)多様なタスク領域の異なるアプリケーションにまたがるスクリプトの潜在的な個人情報を正確に識別し,(2)エンドユーザが自身のスクリプトを共有するのを快適に感じられるようにし,(3)難解なフィールドに拘わらず,スクリプト利用者が共有スクリプトの操作を理解できるようにする。

An important concern in end user development (EUD) is accidentally embedding personal information in program artifacts when sharing them. This issue is particularly important in GUI-based programming-by-demonstration (PBD) systems due to the lack of direct developer control of script contents. Prior studies reported that these privacy concerns were the main barrier to script sharing in EUD. We present a new approach that can identify and obfuscate the potential personal information in GUI-based PBD scripts based on the uniqueness of information entries with respect to the corresponding app GUI context. Compared with the prior approaches, ours supports broader types of personal information beyond explicitly pre-specified ones, requires minimal user effort, addresses the threat of re-identification attacks, and can work with third-party apps from any task domain. Our approach also recovers obfuscated fields locally on the script consumer's side to preserve the shared scripts' transparency, readability, robustness, and generalizability. Our evaluation shows that our approach (1) accurately identifies the potential personal information in scripts across different apps in diverse task domains; (2) allows end-user developers to feel comfortable sharing their own scripts; and (3) enables script consumers to understand the operation of shared scripts despite the obfuscated fields.
翻訳日:2022-12-12 13:43:32 公開日:2020-04-17
# 隠れクラスタリング構造を持つスパースガウス図形モデルの推定

Estimation of sparse Gaussian graphical models with hidden clustering structure ( http://arxiv.org/abs/2004.08115v1 )

ライセンス: Link先を確認
Meixia Lin, Defeng Sun, Kim-Chuan Toh, Chengjing Wang(参考訳) ガウス図形モデルの推定は、グラフの形で変数間の統計的関係をモデル化する際、自然科学において重要である。 濃度行列のスパーシリティとクラスタリング構造は、モデルの複雑さを減らし、固有の規則性を記述するために強制される。 本研究では,隠れたクラスタリング構造を持つ疎ガウス図形モデルを推定するモデルを提案する。 提案モデルを解くための効率的な二相アルゴリズムを考案する。 本手法は, 近似拡張ラグランジアン法 (pALM) である第2相アルゴリズムの初期点を生成するために, マルチプライヤ(sGS-ADMM) の対称ガウス-シーデル系交互方向法を開発し, 高精度に解を得る。 合成データと実データの両方に対する数値実験は,提案手法の効率と頑健性とともに,モデルの優れた性能を示す。

Estimation of Gaussian graphical models is important in natural science when modeling the statistical relationships between variables in the form of a graph. The sparsity and clustering structure of the concentration matrix is enforced to reduce model complexity and describe inherent regularities. We propose a model to estimate the sparse Gaussian graphical models with hidden clustering structure, which also allows additional linear constraints to be imposed on the concentration matrix. We design an efficient two-phase algorithm for solving the proposed model. We develop a symmetric Gauss-Seidel based alternating direction method of the multipliers (sGS-ADMM) to generate an initial point to warm-start the second phase algorithm, which is a proximal augmented Lagrangian method (pALM), to get a solution with high accuracy. Numerical experiments on both synthetic data and real data demonstrate the good performance of our model, as well as the efficiency and robustness of our proposed algorithm.
翻訳日:2022-12-12 13:43:08 公開日:2020-04-17
# カーネル化スペクトルフィルタ学習アルゴリズムにおける差分原理の解析

Analyzing the discrepancy principle for kernelized spectral filter learning algorithms ( http://arxiv.org/abs/2004.08436v1 )

ライセンス: Link先を確認
Alain Celisse and Martin Wahl(参考訳) 反復学習アルゴリズムを用いた非パラメトリック回帰問題における早期停止規則の構成とその最適反復数について検討する。 より正確には、勾配降下を含むスペクトルフィルタ学習アルゴリズムの偏差原理と滑らかな残差に基づく修正について研究する。 私たちの理論上の主な境界は、経験的推定エラー(固定設計)と予測エラー(ランダム設計)のために確立されたオラクルの不等式です。 これらの有限個のサンプル境界から、古典的不一致原理はハードラーニングのシナリオで発生する遅い速度に対して統計的に適応するが、滑らかな不一致原理はより速い速度の範囲(つまりより高い滑らか性パラメータ)に適応する。 我々のアプローチは、固定設計設定における停止規則の偏差不等式と、ランダム設計設定を扱うための変更ノルム引数を組み合わせたものである。

We investigate the construction of early stopping rules in the nonparametric regression problem where iterative learning algorithms are used and the optimal iteration number is unknown. More precisely, we study the discrepancy principle, as well as modifications based on smoothed residuals, for kernelized spectral filter learning algorithms including gradient descent. Our main theoretical bounds are oracle inequalities established for the empirical estimation error (fixed design), and for the prediction error (random design). From these finite-sample bounds it follows that the classical discrepancy principle is statistically adaptive for slow rates occurring in the hard learning scenario, while the smoothed discrepancy principles are adaptive over ranges of faster rates (resp. higher smoothness parameters). Our approach relies on deviation inequalities for the stopping rules in the fixed design setting, combined with change-of-norm arguments to deal with the random design setting.
翻訳日:2022-12-12 13:42:30 公開日:2020-04-17
# 低重力環境に対する反例

Counterexamples to the Low-Degree Conjecture ( http://arxiv.org/abs/2004.08454v1 )

ライセンス: Link先を確認
Justin Holmgren, Alexander S. Wein(参考訳) ホプキンスの予想(2018年)は、ある種の高次元仮説テスト問題に対して、多項式時間アルゴリズムはデータ内の低次多項式であるいわゆる「単純な統計」を上回ることができないことを仮定している。 この予想は、統計対計算のトレードオフを理解しようとする最近の研究のラインを取り巻く信念を、低次度比で定式化する。 この研究において、ホプキンスの予想に反論する。 しかしながら、我々の反例は、この予想で使われるノイズ演算子の特異点を決定的に活用し、我々の反例を除外するために予想を変更する簡単な方法を指摘した。 また、上記の修正の後でさえ、予想における対称性の仮定が不可欠であることを示す例を示す。 これらの結果は、計算下界の低次フレームワークを損なうものではなく、それが適用可能な問題の種類をよりよく理解することを目的としている。

A conjecture of Hopkins (2018) posits that for certain high-dimensional hypothesis testing problems, no polynomial-time algorithm can outperform so-called "simple statistics", which are low-degree polynomials in the data. This conjecture formalizes the beliefs surrounding a line of recent work that seeks to understand statistical-versus-computational tradeoffs via the low-degree likelihood ratio. In this work, we refute the conjecture of Hopkins. However, our counterexample crucially exploits the specifics of the noise operator used in the conjecture, and we point out a simple way to modify the conjecture to rule out our counterexample. We also give an example illustrating that (even after the above modification), the symmetry assumption in the conjecture is necessary. These results do not undermine the low-degree framework for computational lower bounds, but rather aim to better understand what class of problems it is applicable to.
翻訳日:2022-12-12 13:42:13 公開日:2020-04-17
# ユークリッド空間の部分多様体上の連続離散フィルタリングと平滑化

Continuous-Discrete Filtering and Smoothing on Submanifolds of Euclidean Space ( http://arxiv.org/abs/2004.09335v1 )

ライセンス: Link先を確認
Filip Tronarp and Simo S\"arkk\"a(参考訳) 本稿では、連続離散時間におけるフィルタリングと平滑化の問題について、通常のルベーグ測度を持たないユークリッド空間の部分多様体において状態変数が発展するときに研究する。 予測および平滑化問題に対する形式表現が導出され、ジェネレータの形式的随伴が一般に異なること以外は古典的な結果と一致する。 近似フィルタリングと平滑化については、予測式と平滑化方程式がユークリッド空間で状態変数が発展する場合と同じであることが分かる投影法がとられる。 このアプローチは、von mises-fisher分布に基づく投影フィルタやスムーザの開発に用いられている。

In this paper the issue of filtering and smoothing in continuous discrete time is studied when the state variable evolves in some submanifold of Euclidean space, which may not have the usual Lebesgue measure. Formal expressions for prediction and smoothing problems are derived, which agree with the classical results except that the formal adjoint of the generator is different in general. For approximate filtering and smoothing the projection approach is taken, where it turns out that the prediction and smoothing equations are the same as in the case when the state variable evolves in Euclidean space. The approach is used to develop projection filters and smoothers based on the von Mises-Fisher distribution.
翻訳日:2022-12-12 13:41:58 公開日:2020-04-17
# 中央差分ネットワークに基づくマルチモーダル顔のアンチスプーフィング

Multi-Modal Face Anti-Spoofing Based on Central Difference Networks ( http://arxiv.org/abs/2004.08388v1 )

ライセンス: Link先を確認
Zitong Yu, Yunxiao Qin, Xiaobai Li, Zezheng Wang, Chenxu Zhao, Zhen Lei, Guoying Zhao(参考訳) 対面防止(FAS)は、提示攻撃から顔認識システムを保護する上で重要な役割を果たす。 既存のマルチモーダルFAS法は積み重ねバニラ畳み込みに依存しており、これはモダリティからの詳細な固有情報を記述するのに弱く、ドメインのシフト(例えば、クロスアタックとクロス民族性)で容易に非効率である。 本稿では,中央差分畳み込みネットワーク (CDCN) \cite{yu2020searching} をマルチモーダル版に拡張し,3つのモーダル(RGB,深度,赤外)の固有スプーリングパターンを捉えることを目的とした。 また,シングルモーダルベースのCDCNについても詳細に検討した。 我々のアプローチは,ChaLearn Face Anti-spoofing Detection Challenge@CVPR2020 \cite{liu2020cross} の "Track Single-Modal (RGB)" において,第1位を獲得した。 最終提案は, "track multi-modal" と "track single-modal (rgb)" でそれぞれ 1.02$\pm$0.59\% と 4.84$\pm$1.79\% acer を得る。 コードは{https://github.com/ZitongYu/CDCN}で入手できる。

Face anti-spoofing (FAS) plays a vital role in securing face recognition systems from presentation attacks. Existing multi-modal FAS methods rely on stacked vanilla convolutions, which is weak in describing detailed intrinsic information from modalities and easily being ineffective when the domain shifts (e.g., cross attack and cross ethnicity). In this paper, we extend the central difference convolutional networks (CDCN) \cite{yu2020searching} to a multi-modal version, intending to capture intrinsic spoofing patterns among three modalities (RGB, depth and infrared). Meanwhile, we also give an elaborate study about single-modal based CDCN. Our approach won the first place in "Track Multi-Modal" as well as the second place in "Track Single-Modal (RGB)" of ChaLearn Face Anti-spoofing Attack Detection Challenge@CVPR2020 \cite{liu2020cross}. Our final submission obtains 1.02$\pm$0.59\% and 4.84$\pm$1.79\% ACER in "Track Multi-Modal" and "Track Single-Modal (RGB)", respectively. The codes are available at{https://github.com/ZitongYu/CDCN}.
翻訳日:2022-12-12 13:36:09 公開日:2020-04-17
# 階層的学習とニューラルアーキテクチャー検索を用いた頭頸部癌のリスクセグメンテーション

Organ at Risk Segmentation for Head and Neck Cancer using Stratified Learning and Neural Architecture Search ( http://arxiv.org/abs/2004.08426v1 )

ライセンス: Link先を確認
Dazhou Guo, Dakai Jin, Zhuotun Zhu, Tsung-Ying Ho, Adam P. Harrison, Chun-Hung Chao, Jing Xiao, Alan Yuille, Chien-Yu Lin, Le Lu(参考訳) OARセグメンテーション(OAR segmentation)は頭頸部癌(H&N)の放射線治療において重要なステップである。 しかし、標準の完全畳み込みネットワークワークフローを使用するリードメソッドは、例えば 40 以上の oar 数が大きくなると問題となる。 このようなシナリオでは、手動臨床のOAR記述に見られる階層化アプローチから洞察を得ることができる。 これは、リスクセグメンテーション(SOARS)において、OARをアンカー、ミドルレベル、およびスモール&ハード(S&H)カテゴリに階層化するアプローチを導入するという、私たちの仕事の目標です。 SOARSは2つの次元にまたがる。 第1の次元は、OARカテゴリ毎に異なる処理パイプラインが使用されることです。 特に、臨床実践にインスパイアされたアンカーOARは、中級およびS&Hカテゴリーのガイドに使用される。 第2の次元は、異なるネットワークアーキテクチャを使用して、異なるOAR間の大きなコントラスト、サイズ、解剖学的バリエーションを管理することである。 微分可能なニューラルネットワーク検索(nas)を使用して,ネットワークが2d,3d,あるいは疑似3dの畳み込みを選択できるようにする。 これまでに最も包括的なoarデータセットである42の手動ラベル付きoarを持つ142のh&n癌患者に対する4倍のクロスバリデーションは、パイプライン層とnas層の両方が最先端(絶対値の69.52%から73.68%)の定量的パフォーマンスを大幅に改善していることを示している。 したがって、SOARSはOARの非常に複雑なセグメンテーション空間を管理するための強力で原則化された手段を提供します。

OAR segmentation is a critical step in radiotherapy of head and neck (H&N) cancer, where inconsistencies across radiation oncologists and prohibitive labor costs motivate automated approaches. However, leading methods using standard fully convolutional network workflows that are challenged when the number of OARs becomes large, e.g. > 40. For such scenarios, insights can be gained from the stratification approaches seen in manual clinical OAR delineation. This is the goal of our work, where we introduce stratified organ at risk segmentation (SOARS), an approach that stratifies OARs into anchor, mid-level, and small & hard (S&H) categories. SOARS stratifies across two dimensions. The first dimension is that distinct processing pipelines are used for each OAR category. In particular, inspired by clinical practices, anchor OARs are used to guide the mid-level and S&H categories. The second dimension is that distinct network architectures are used to manage the significant contrast, size, and anatomy variations between different OARs. We use differentiable neural architecture search (NAS), allowing the network to choose among 2D, 3D or Pseudo-3D convolutions. Extensive 4-fold cross-validation on 142 H&N cancer patients with 42 manually labeled OARs, the most comprehensive OAR dataset to date, demonstrates that both pipeline- and NAS-stratification significantly improves quantitative performance over the state-of-the-art (from 69.52% to 73.68% in absolute Dice scores). Thus, SOARS provides a powerful and principled means to manage the highly complex segmentation space of OARs.
翻訳日:2022-12-12 13:35:46 公開日:2020-04-17
# 深層学習に基づくスプリス・ローカライゼーションにおける敵対的攻撃

Adversarial Attack on Deep Learning-Based Splice Localization ( http://arxiv.org/abs/2004.08443v1 )

ライセンス: Link先を確認
Andras Rozsa, Zheng Zhong, Terrance E. Boult(参考訳) 画像鑑識に関して、研究者はスプライスなどの操作を検出・局所化する様々な手法を提案している。 近年の最高の画像分析アルゴリズムは、ディープラーニングの応用から大きな恩恵を受けているが、このようなツールは敵の攻撃に対して脆弱である。 提案手法は, エンド・ツー・エンドの分類器にのみ適用可能であるため, 特徴抽出にのみ深層学習を利用する画像フォレスティクス手法の頑健性は研究されていない。 パッチの基盤となる表現を直接調整できる新しいアルゴリズムを使用して、画像の操作を隠すための3つの非エンドツーエンドのディープラーニングベースのスプライスローカライズツールが、敵の攻撃によって実現可能であることを実証する。 EXIF-SC, SpliceRadar, ノイズプリントは, 異なるサロゲートタスクで訓練した特徴抽出器に頼っているが, 生成した逆方向の摂動は, 局所化性能の劣化に関して伝達可能であることがわかった。

Regarding image forensics, researchers have proposed various approaches to detect and/or localize manipulations, such as splices. Recent best performing image-forensics algorithms greatly benefit from the application of deep learning, but such tools can be vulnerable to adversarial attacks. Due to the fact that most of the proposed adversarial example generation techniques can be used only on end-to-end classifiers, the adversarial robustness of image-forensics methods that utilize deep learning only for feature extraction has not been studied yet. Using a novel algorithm capable of directly adjusting the underlying representations of patches we demonstrate on three non end-to-end deep learning-based splice localization tools that hiding manipulations of images is feasible via adversarial attacks. While the tested image-forensics methods, EXIF-SC, SpliceRadar, and Noiseprint, rely on feature extractors that were trained on different surrogate tasks, we find that the formed adversarial perturbations can be transferable among them regarding the deterioration of their localization performance.
翻訳日:2022-12-12 13:35:11 公開日:2020-04-17
# 多言語ニュースストリーミングのためのバッチクラスタリング

Batch Clustering for Multilingual News Streaming ( http://arxiv.org/abs/2004.08123v1 )

ライセンス: Link先を確認
Mathis Linger and Mhamed Hajaiej(参考訳) 現在、デジタルニュース記事は広く入手でき、様々な編集者によって出版され、しばしば様々な言語で書かれる。 この多様で非組織的な情報の多さは、人間の読書を非常に困難またはほぼ不可能にする。 これにより、大量の多言語ニュースをストーリーに配置できるアルゴリズムの必要性が生じる。 そこで本稿では,過去のトピック検出と追跡に関する研究を拡張し,NewsLensに触発された新しいシステムを提案する。 記事はバッチ毎に処理し、時間と言語にまたがってリンクされるモノリンガルなローカルトピックを探します。 本稿では,単言語の局所話題を物語にリンクする新しい「再生」戦略を提案する。 さらに,SBERTを用いた多言語埋め込みによるクロスランガルストーリの生成を提案する。 本システムでは,スペイン語とドイツ語のニュースのデータセットと英語,スペイン語,ドイツ語のニュースの言語間比較結果を示す。

Nowadays, digital news articles are widely available, published by various editors and often written in different languages. This large volume of diverse and unorganized information makes human reading very difficult or almost impossible. This leads to a need for algorithms able to arrange high amount of multilingual news into stories. To this purpose, we extend previous works on Topic Detection and Tracking, and propose a new system inspired from newsLens. We process articles per batch, looking for monolingual local topics which are then linked across time and languages. Here, we introduce a novel "replaying" strategy to link monolingual local topics into stories. Besides, we propose new fine tuned multilingual embedding using SBERT to create crosslingual stories. Our system gives monolingual state-of-the-art results on dataset of Spanish and German news and crosslingual state-of-the-art results on English, Spanish and German news.
翻訳日:2022-12-12 13:34:50 公開日:2020-04-17
# グラフ変分オートエンコーダを用いた分子の連続表現

Continuous Representation of Molecules Using Graph Variational Autoencoder ( http://arxiv.org/abs/2004.08152v1 )

ライセンス: Link先を確認
Mohammadamin Tavakoli and Pierre Baldi(参考訳) 分子を連続的に表現するために、分子の2dグラフ構造上で動作しているvaeの形の生成モデルを提案する。 側予測器を用いて潜伏空間をプルークし、デコーダが意味のある分子の隣接テンソルを生成するのを助ける。 薬物設計および特性予測の潜在的な適用性以外に、RNNを用いたエンコーダとデコーダを用いた分子のSMILES表現に基づく他の類似手法と比較して、この手法の優れた性能を示す。

In order to continuously represent molecules, we propose a generative model in the form of a VAE which is operating on the 2D-graph structure of molecules. A side predictor is employed to prune the latent space and help the decoder in generating meaningful adjacency tensor of molecules. Other than the potential applicability in drug design and property prediction, we show the superior performance of this technique in comparison to other similar methods based on the SMILES representation of the molecules with RNN based encoder and decoder.
翻訳日:2022-12-12 13:34:18 公開日:2020-04-17
# 時間へのコミットメントとしての意図

Intention as Commitment toward Time ( http://arxiv.org/abs/2004.08144v1 )

ライセンス: Link先を確認
Marc van Zee, Dragan Doder, Leendert van der Torre, Mehdi Dastani, Thomas Icard, Eric Pacuit(参考訳) 本稿では,動的環境における意図,時間,信念の相互作用について述べる。 第一の貢献は意図、時間、信念を推論するための論理であり、意図の仮定は意図された行動の前提条件によって表される。 意図と信念は、これらの仮定が違反しない限り一貫性があり、すなわち、意図された行動が実施できる限り、その前提条件が守られる。 新たな(おそらく矛盾する)意図が採用された場合や、新しい事実が学習された場合、意図と信念はどうなるのか? エージェントは、信念意図データベースがコヒーレントである限り、その意図した行動にコミットする。 我々は、意図を時間へのコミットメントとして概念化し、信念意図データベースの反復的修正のためのAGMに基づく仮定を開発し、かつの-メンデルゾン式表現定理を証明した。

In this paper we address the interplay among intention, time, and belief in dynamic environments. The first contribution is a logic for reasoning about intention, time and belief, in which assumptions of intentions are represented by preconditions of intended actions. Intentions and beliefs are coherent as long as these assumptions are not violated, i.e. as long as intended actions can be performed such that their preconditions hold as well. The second contribution is the formalization of what-if scenarios: what happens with intentions and beliefs if a new (possibly conflicting) intention is adopted, or a new fact is learned? An agent is committed to its intended actions as long as its belief-intention database is coherent. We conceptualize intention as commitment toward time and we develop AGM-based postulates for the iterated revision of belief-intention databases, and we prove a Katsuno-Mendelzon-style representation theorem.
翻訳日:2022-12-12 13:34:08 公開日:2020-04-17
# SpEx:マルチスケール時間領域話者抽出ネットワーク

SpEx: Multi-Scale Time Domain Speaker Extraction Network ( http://arxiv.org/abs/2004.08326v1 )

ライセンス: Link先を確認
Chenglin Xu, Wei Rao, Eng Siong Chng and Haizhou Li(参考訳) 話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の聴覚的注意を模倣することを目的としている。 周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。 しかし、このようなアプローチは位相推定の固有の困難さに悪影響を及ぼす。 本稿では,conv-tasnetに触発された時間領域話者抽出ネットワーク (spex) を提案する。 このようにして、位相推定は避ける。 spexネットワークは、話者エンコーダ、音声エンコーダ、話者抽出器、音声デコーダの4つのネットワークコンポーネントで構成される。 具体的には、混合音声を多スケール埋め込み係数に変換し、話者エンコーダは、話者埋め込みにより対象話者を表すことを学習する。 スピーカ抽出器は、マルチスケール埋め込み係数とターゲット話者埋め込みを入力として受信マスクを推定する。 最後に、音声デコーダは、マスキング埋め込み係数から対象話者の音声を再構成する。 また,マルチタスク学習フレームワークとマルチスケール埋め込み実装を提案する。 実験の結果,提案するspexは,sdr(signal-to-distortion ratio),si-sdr(scale-invariant sdr),pesq(perceptual evaluation of speech quality)において,最良ベースラインに対して37.3%,37.7%,15.0%の相対的改善が得られた。

Speaker extraction aims to mimic humans' selective auditory attention by extracting a target speaker's voice from a multi-talker environment. It is common to perform the extraction in frequency-domain, and reconstruct the time-domain signal from the extracted magnitude and estimated phase spectra. However, such an approach is adversely affected by the inherent difficulty of phase estimation. Inspired by Conv-TasNet, we propose a time-domain speaker extraction network (SpEx) that converts the mixture speech into multi-scale embedding coefficients instead of decomposing the speech signal into magnitude and phase spectra. In this way, we avoid phase estimation. The SpEx network consists of four network components, namely speaker encoder, speech encoder, speaker extractor, and speech decoder. Specifically, the speech encoder converts the mixture speech into multi-scale embedding coefficients, the speaker encoder learns to represent the target speaker with a speaker embedding. The speaker extractor takes the multi-scale embedding coefficients and target speaker embedding as input and estimates a receptive mask. Finally, the speech decoder reconstructs the target speaker's speech from the masked embedding coefficients. We also propose a multi-task learning framework and a multi-scale embedding implementation. Experimental results show that the proposed SpEx achieves 37.3%, 37.7% and 15.0% relative improvements over the best baseline in terms of signal-to-distortion ratio (SDR), scale-invariant SDR (SI-SDR), and perceptual evaluation of speech quality (PESQ) under an open evaluation condition.
翻訳日:2022-12-12 13:33:54 公開日:2020-04-17
# ヒューマン・パーシングのための自己学習戦略

Self-Learning with Rectification Strategy for Human Parsing ( http://arxiv.org/abs/2004.08055v1 )

ライセンス: Link先を確認
Tao Li, Zhiyuan Liang, Sanyuan Zhao, Jiahao Gong, Jianbing Shen(参考訳) 本稿では,人間解析タスクにおけるサンプル不足問題を解決する。 まず,ラベルのないデータに対して擬似ラベルを生成してモデルを再トレーニングするセルフラーニング戦略から始める。 しかし、ノイズの多い擬似ラベルを直接使用すると、エラー増幅と蓄積が引き起こされる。 人体のトポロジー構造を考慮し,擬似ラベルの2つの典型的な誤り,すなわち大域的構造誤差と局所的整合誤差を補正するために,グラフノード間の内部構造的接続を確立する訓練可能なグラフ推論手法を提案する。 グローバルエラーに対して、まず、大まかな構造情報を持つ高次グラフモデルに変換し、次に、高次グラフを分離してカテゴリの特徴を再構築する。 再構成された特徴は、人体のトポロジー構造を表現する能力が強い。 機能の受容領域の拡大は、局所的なエラーを効果的に減少させる。 まず,特徴画素を局所グラフモデルに投影し,階層的に画素関係をキャプチャし,その関係情報を画素に戻す。 グローバル構造およびローカル一貫性モジュールでは、これらのエラーは修正され、再トレーニングのために自信のある擬似ラベルが生成される。 LIPとATRデータセットの大規模な実験により、グローバルおよびローカルな修正モジュールの有効性が示された。 本手法は,監視された人間の解析タスクにおいて,他の最先端手法よりも優れる。

In this paper, we solve the sample shortage problem in the human parsing task. We begin with the self-learning strategy, which generates pseudo-labels for unlabeled data to retrain the model. However, directly using noisy pseudo-labels will cause error amplification and accumulation. Considering the topology structure of human body, we propose a trainable graph reasoning method that establishes internal structural connections between graph nodes to correct two typical errors in the pseudo-labels, i.e., the global structural error and the local consistency error. For the global error, we first transform category-wise features into a high-level graph model with coarse-grained structural information, and then decouple the high-level graph to reconstruct the category features. The reconstructed features have a stronger ability to represent the topology structure of the human body. Enlarging the receptive field of features can effectively reducing the local error. We first project feature pixels into a local graph model to capture pixel-wise relations in a hierarchical graph manner, then reverse the relation information back to the pixels. With the global structural and local consistency modules, these errors are rectified and confident pseudo-labels are generated for retraining. Extensive experiments on the LIP and the ATR datasets demonstrate the effectiveness of our global and local rectification modules. Our method outperforms other state-of-the-art methods in supervised human parsing tasks.
翻訳日:2022-12-12 13:27:08 公開日:2020-04-17
# ビデオ間ドメイン適応のためのジェネレータネットワーク

Generative Adversarial Networks for Video-to-Video Domain Adaptation ( http://arxiv.org/abs/2004.08058v1 )

ライセンス: Link先を確認
Jiawei Chen, Yuexiang Li, Kai Ma, Yefeng Zheng(参考訳) マルチセンターの内視鏡ビデオは、色や照明などの異なる撮像条件を持つことが多いため、ある領域で訓練されたモデルを他の領域に一般化できないことが多い。 ドメイン適応は、この問題に対処する潜在的な解決策の1つです。 しかし、ビデオベースのデータの翻訳に焦点を当てた既存の作品はほとんどない。 本研究では,ビデオベースデータを異なるドメイン間で転送するための新しい生成逆ネットワーク(GAN, VideoGAN)を提案する。 ビデオのフレームは類似した内容と撮像条件を持つ可能性があるため、提案するビデオガンは、翻訳中にビデオ内一貫性を保つためのx字型生成器を持っている。 さらに、各変換フレームの色分布を調整するために、色ヒストグラム損失と呼ばれる損失関数が提案されている。 CVC-ClinicとETIS-Laribの2つの大腸内視鏡的データセットを用いて,ビデオGANの領域適応性を評価する。 実験の結果,videoganで生成された大腸内視鏡映像は,マルチセンタデータセット上の大腸ポリープのセグメンテーション精度,すなわち5%の改善を著しく向上することが示された。 当社のvideoganは一般的なネットワークアーキテクチャなので,cloudy-to-sunny翻訳タスクのcamvid driving videoデータセットによるパフォーマンス評価も行います。 総合的な実験では、ビデオGANによってドメインギャップが大幅に狭まる可能性がある。

Endoscopic videos from multicentres often have different imaging conditions, e.g., color and illumination, which make the models trained on one domain usually fail to generalize well to another. Domain adaptation is one of the potential solutions to address the problem. However, few of existing works focused on the translation of video-based data. In this work, we propose a novel generative adversarial network (GAN), namely VideoGAN, to transfer the video-based data across different domains. As the frames of a video may have similar content and imaging conditions, the proposed VideoGAN has an X-shape generator to preserve the intra-video consistency during translation. Furthermore, a loss function, namely color histogram loss, is proposed to tune the color distribution of each translated frame. Two colonoscopic datasets from different centres, i.e., CVC-Clinic and ETIS-Larib, are adopted to evaluate the performance of domain adaptation of our VideoGAN. Experimental results demonstrate that the adapted colonoscopic video generated by our VideoGAN can significantly boost the segmentation accuracy, i.e., an improvement of 5%, of colorectal polyps on multicentre datasets. As our VideoGAN is a general network architecture, we also evaluate its performance with the CamVid driving video dataset on the cloudy-to-sunny translation task. Comprehensive experiments show that the domain gap could be substantially narrowed down by our VideoGAN.
翻訳日:2022-12-12 13:26:46 公開日:2020-04-17
# 深層畳み込みニューラルネットワークのための適応的ニューロン識別基準と隠れ層における適応中心損失

Adaptive Neuron-wise Discriminant Criterion and Adaptive Center Loss at Hidden Layer for Deep Convolutional Neural Network ( http://arxiv.org/abs/2004.08074v1 )

ライセンス: Link先を確認
Motoshi Abe, Junichi Miyao, Takio Kurita(参考訳) 深層畳み込みニューラルネットワーク(CNN)は画像分類において広く使われており、他の手法よりも精度が高い。 ソフトマックスクロスエントロピー損失関数はしばしば分類タスクに使用される。 出力層の特徴をより差別的にするために、トレーニングの目的関数に追加用語を導入する作業もある。 ニューロン別判別基準は、各特徴に識別基準を導入することにより、出力層における各ニューロンの入力特徴を判別する。 同様に、深部特徴を識別するために顔認識のためのソフトマックスアクティベーション機能以前の特徴に中心損失を導入した。 ReLU関数はCNNの隠された層におけるアクティブ関数としてよく使用される。 しかし、ReLU関数を用いて訓練した深い特徴は十分に識別できず、細長い形状を示すことが観察された。 本稿では, 出力層におけるニューロンの識別基準と隠蔽層における中心損失の利用を提案する。 また,指数的忘れを伴って各クラスの手段のオンライン計算を導入する。 適応型ニューロン識別基準と適応型中心喪失とをそれぞれ命名した。 mnsit, fashionmnist, cifar10, cifar100, stl10を用いた実験により,適応的ニューロン識別基準と適応中心損失の統合の有効性を示した。 ソースコードはhttps://github.com/i13abe/adaptive-discriminant-and-centerにある。

A deep convolutional neural network (CNN) has been widely used in image classification and gives better classification accuracy than the other techniques. The softmax cross-entropy loss function is often used for classification tasks. There are some works to introduce the additional terms in the objective function for training to make the features of the output layer more discriminative. The neuron-wise discriminant criterion makes the input feature of each neuron in the output layer discriminative by introducing the discriminant criterion to each of the features. Similarly, the center loss was introduced to the features before the softmax activation function for face recognition to make the deep features discriminative. The ReLU function is often used for the network as an active function in the hidden layers of the CNN. However, it is observed that the deep features trained by using the ReLU function are not discriminative enough and show elongated shapes. In this paper, we propose to use the neuron-wise discriminant criterion at the output layer and the center-loss at the hidden layer. Also, we introduce the online computation of the means of each class with the exponential forgetting. We named them adaptive neuron-wise discriminant criterion and adaptive center loss, respectively. The effectiveness of the integration of the adaptive neuron-wise discriminant criterion and the adaptive center loss is shown by the experiments with MNSIT, FashionMNIST, CIFAR10, CIFAR100, and STL10. Source code is at https://github.com/i13abe/Adaptive-discriminant-and-center
翻訳日:2022-12-12 13:26:21 公開日:2020-04-17
# tesseractを用いたシーンテキストの検出と認識に基づく画像処理

Image Processing Based Scene-Text Detection and Recognition with Tesseract ( http://arxiv.org/abs/2004.08079v1 )

ライセンス: Link先を確認
Ebin Zacharias, Martin Teuchler and B\'en\'edicte Bernier(参考訳) テキスト認識は、かなりの実用的関心を持つコンピュータビジョンの課題の1つである。 光文字認識(OCR)は、自動化のための様々なアプリケーションを可能にする。 このプロジェクトは自然画像における単語の検出と認識に焦点を当てている。 スキャンした文書のテキストを読むことに比べ、対象とする問題は著しく困難である。 focusのユースケースは、制約下の画像が利用可能であるため、自然シーンのテキスト領域をより正確に検出することができるようになる。 これは、トラックに搭載されたカメラが、同様に時計回りの画像を撮影することで達成される。 検出されたテキスト領域はtesseract ocrエンジンで認識される。 計算能力の低い要求に対して恩恵を受けるが、モデルは特定のユースケースに限られる。 本稿では,テスト中に発生した重大な偽陽性事例について考察し,問題の緩和戦略を詳述する。 このプロジェクトは80%以上の正確な文字認識率を達成した。 本稿では,開発段階,主な課題,プロジェクトの興味深い知見について概説する。

Text Recognition is one of the challenging tasks of computer vision with considerable practical interest. Optical character recognition (OCR) enables different applications for automation. This project focuses on word detection and recognition in natural images. In comparison to reading text in scanned documents, the targeted problem is significantly more challenging. The use case in focus facilitates the possibility to detect the text area in natural scenes with greater accuracy because of the availability of images under constraints. This is achieved using a camera mounted on a truck capturing likewise images round-the-clock. The detected text area is then recognized using Tesseract OCR engine. Even though it benefits low computational power requirements, the model is limited to only specific use cases. This paper discusses a critical false positive case scenario occurred while testing and elaborates the strategy used to alleviate the problem. The project achieved a correct character recognition rate of more than 80\%. This paper outlines the stages of development, the major challenges and some of the interesting findings of the project.
翻訳日:2022-12-12 13:25:57 公開日:2020-04-17
# エジプトのミイラCTスキャンの測地的セグメンテーション

Weakly Supervised Geodesic Segmentation of Egyptian Mummy CT Scans ( http://arxiv.org/abs/2004.08270v1 )

ライセンス: Link先を確認
Avik Hati, Matteo Bustreo, Diego Sona, Vittorio Murino, Alessio Del Bue(参考訳) 本稿では,CT(Computed Tomography)装置から得られた3Dボリュームスキャンを自動的に解析する作業に取り組む。 特に、古代エジプトのミイラCTスキャンのセグメンテーションにおいて、データが非常に限られている特定のタスクに対処する。 我々は、ミイラをデジタルに解き放ち、身体、包帯、宝石などの異なるセグメントを識別することを目指している。 この問題は、セグメンテーションに異なるセグメンテーション領域のための注釈付きデータがないために複雑であり、強力な教師付きアプローチの使用を妨げている。 そこで我々は,この課題を解決するために,弱い教師付きかつ効率的な対話的セグメンテーション手法を提案する。 ヒストグラム解析とテンプレートマッチングを用いて包まれたミイラを外部領域から分割した後、まずボクセル距離測定器を設計し、体と包帯セグメントの近似解を求める。 ここでは,ボクセルの特徴とボクセル間の空間的関係が組み込まれているため,測地線距離を用いる。 次に,グラブカットに基づくセグメンテーションと,ラベルをボリューム内の異なる領域に割り当てるスキャンスライスの追跡手法を併用して,ユーザによるスクリブルの形での限定的な監督を用いて,ソリューションを洗練する。 提案手法の有効性を可視化を用いて実証し,ミイラの定量的測定と質的解法を用いて検証した。

In this paper, we tackle the task of automatically analyzing 3D volumetric scans obtained from computed tomography (CT) devices. In particular, we address a particular task for which data is very limited: the segmentation of ancient Egyptian mummies CT scans. We aim at digitally unwrapping the mummy and identify different segments such as body, bandages and jewelry. The problem is complex because of the lack of annotated data for the different semantic regions to segment, thus discouraging the use of strongly supervised approaches. We, therefore, propose a weakly supervised and efficient interactive segmentation method to solve this challenging problem. After segmenting the wrapped mummy from its exterior region using histogram analysis and template matching, we first design a voxel distance measure to find an approximate solution for the body and bandage segments. Here, we use geodesic distances since voxel features as well as spatial relationship among voxels is incorporated in this measure. Next, we refine the solution using a GrabCut based segmentation together with a tracking method on the slices of the scan that assigns labels to different regions in the volume, using limited supervision in the form of scribbles drawn by the user. The efficiency of the proposed method is demonstrated using visualizations and validated through quantitative measures and qualitative unwrapping of the mummy.
翻訳日:2022-12-12 13:24:28 公開日:2020-04-17
# リアルタイム光計測と人間の知覚を用いた統合光管理システム

An integrated light management system with real-time light measurement and human perception ( http://arxiv.org/abs/2004.08346v1 )

ライセンス: Link先を確認
Theodore Tsesmelis, Irtiza Hasan, Marco Cristani, Alessio Del Bue and Fabio Galasso(参考訳) 照明は、オフィス、小売店、工業倉庫など、いくつかの環境における幸福、生産性、安全のために重要である。 現在の照明の設定技術は、広範囲で専門的な支援が必要であり、シーンが変わったら繰り返す必要がある。 本稿では,rgbdセンサと放射能に基づく光伝搬モデルを用いて,リアルタイムの照明計測を行う初の全自動光管理システム(lms)を提案する。 光の分布と知覚曲線の放射能への統合により、我々は新しく導入されたデータセット上で商用ソフトウェア(Relux)より優れています。 さらに, 提案したLMSは, 光の知覚だけでなく, 環境中の人々の存在と注意の両方を推定した最初のものである。 新しいlmsは照明をシーンや人間の活動に適応させ、最大66%の節約が可能で、光の品質を損なうことなく、実験的に定量化しています。

Illumination is important for well-being, productivity and safety across several environments, including offices, retail shops and industrial warehouses. Current techniques for setting up lighting require extensive and expert support and need to be repeated if the scene changes. Here we propose the first fully-automated light management system (LMS) which measures lighting in real-time, leveraging an RGBD sensor and a radiosity-based light propagation model. Thanks to the integration of light distribution and perception curves into the radiosity, we outperform a commercial software (Relux) on a newly introduced dataset. Furthermore, our proposed LMS is the first to estimate both the presence and the attention of the people in the environment, as well as their light perception. Our new LMS adapts therefore lighting to the scene and human activity and it is capable of saving up to 66%, as we experimentally quantify,without compromising the lighting quality.
翻訳日:2022-12-12 13:24:03 公開日:2020-04-17
# サンスクリットにおけるデータ駆動依存解析のためのニューラルアプローチ

Neural Approaches for Data Driven Dependency Parsing in Sanskrit ( http://arxiv.org/abs/2004.08076v1 )

ライセンス: Link先を確認
Amrith Krishna, Ashim Gupta, Deepak Garasangi, Jivnesh Sandhan, Pavankumar Satuluri, Pawan Goyal(参考訳) データ駆動による依存性解析のアプローチは、過去数十年間、自然言語処理に大きな関心を寄せてきた。 しかし、sanskritには、おそらくkrishna (2019)を除いて、堅牢な純粋データ駆動依存パーサが欠けている。 これは主に、タスク固有のラベル付きデータの可用性の欠如と、言語の形態学的に豊かな性質に起因する。 本研究では,もともと異なる言語向けに提案された4種類のデータ駆動機械学習モデルを評価し,その性能をsanskritデータで比較する。 2つのグラフベースと2つの遷移ベースのパーサで実験する。 各モデルのパフォーマンスを低リソース環境で比較し,1500文のトレーニングを行った。 さらに、各モデルの学習能力に重点を置いているため、サンスクリット固有の特徴をモデルに明示的に組み込むのではなく、各論文のデフォルト設定を使って特徴関数を取得する。 本研究では,in-domainとout-of-domainの両方のテストデータセットを用いて,パーサの性能を分析する。 また,これらのシステムに対して文を入力として提供する単語順序付けの影響についても検討し,文文とその対応する散文順序(アンバヤ)を解析する。

Data-driven approaches for dependency parsing have been of great interest in Natural Language Processing for the past couple of decades. However, Sanskrit still lacks a robust purely data-driven dependency parser, probably with an exception to Krishna (2019). This can primarily be attributed to the lack of availability of task-specific labelled data and the morphologically rich nature of the language. In this work, we evaluate four different data-driven machine learning models, originally proposed for different languages, and compare their performances on Sanskrit data. We experiment with 2 graph based and 2 transition based parsers. We compare the performance of each of the models in a low-resource setting, with 1,500 sentences for training. Further, since our focus is on the learning power of each of the models, we do not incorporate any Sanskrit specific features explicitly into the models, and rather use the default settings in each of the paper for obtaining the feature functions. In this work, we analyse the performance of the parsers using both an in-domain and an out-of-domain test dataset. We also investigate the impact of word ordering in which the sentences are provided as input to these systems, by parsing verses and their corresponding prose order (anvaya) sentences.
翻訳日:2022-12-12 13:17:08 公開日:2020-04-17
# 教師なし学習のための高速かつ正確な双方向言語表現

Fast and Accurate Deep Bidirectional Language Representations for Unsupervised Learning ( http://arxiv.org/abs/2004.08097v1 )

ライセンス: Link先を確認
Joongbo Shin, Yoonhyung Lee, Seunghyun Yoon, Kyomin Jung(参考訳) BERTは様々な教師付き学習タスクのパフォーマンス改善に成功しているが、教師なしタスクにBERTを適用することは、文脈言語表現の計算に反復推論を必要とするという制限がある。 この制限を解決するために,Transformer-based Text Autoencoder (T-TA) と呼ばれる新しい双方向言語モデルを提案する。 T-TAは、反復せずに文脈言語表現を計算し、BERTのような深い双方向アーキテクチャの利点がある。 CPU環境でのランタイム実験では、提案したT-TAは、リランクタスクにおいてBERTベースのモデルよりも6倍高速で、セマンティック類似タスクでは12倍高速である。 さらに、T-TAは、上記のタスクにおけるBERTよりも、競争力や精度が向上している。

Even though BERT achieves successful performance improvements in various supervised learning tasks, applying BERT for unsupervised tasks still holds a limitation that it requires repetitive inference for computing contextual language representations. To resolve the limitation, we propose a novel deep bidirectional language model called Transformer-based Text Autoencoder (T-TA). The T-TA computes contextual language representations without repetition and has benefits of the deep bidirectional architecture like BERT. In run-time experiments on CPU environments, the proposed T-TA performs over six times faster than the BERT-based model in the reranking task and twelve times faster in the semantic similarity task. Furthermore, the T-TA shows competitive or even better accuracies than those of BERT on the above tasks.
翻訳日:2022-12-12 13:16:48 公開日:2020-04-17
# 神経関係抽出における文レベルの表現の言語的特徴の探索

Probing Linguistic Features of Sentence-Level Representations in Neural Relation Extraction ( http://arxiv.org/abs/2004.08134v1 )

ライセンス: Link先を確認
Christoph Alt and Aleksandra Gabryszak and Leonhard Hennig(参考訳) 最近の進歩にもかかわらず、最先端のニューラルネットワーク抽出(RE)モデルで得られた特徴についてはほとんど分かっていない。 共通メソッドは、関係を分類する前に、エンティティが言及した元文を符号化する。 しかし、タスクの複雑さはエンコーダのアーキテクチャや言語知識がエンコーダによって学習された特徴にどのように影響するかを理解するのを難しくする。 我々は、REに関連する言語特性を対象とする14の探索タスクを導入し、40以上の異なるエンコーダアーキテクチャと2つのデータセット(TACREDとSemEval 2010 Task 8)で訓練された言語特徴の組み合わせによって学習された表現について研究する。 アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。 例えば、文脈化された単語表現を追加することで、名前付きエンティティと音声情報に焦点を当てたタスクの探索性能が大きく向上し、REでより良い結果が得られる。 対照的に、エンティティマスキングはREを改善するが、エンティティタイプに関連する探索タスクのパフォーマンスは大幅に低下する。

Despite the recent progress, little is known about the features captured by state-of-the-art neural relation extraction (RE) models. Common methods encode the source sentence, conditioned on the entity mentions, before classifying the relation. However, the complexity of the task makes it difficult to understand how encoder architecture and supporting linguistic knowledge affect the features learned by the encoder. We introduce 14 probing tasks targeting linguistic properties relevant to RE, and we use them to study representations learned by more than 40 different encoder architecture and linguistic feature combinations trained on two datasets, TACRED and SemEval 2010 Task 8. We find that the bias induced by the architecture and the inclusion of linguistic features are clearly expressed in the probing task performance. For example, adding contextualized word representations greatly increases performance on probing tasks with a focus on named entity and part-of-speech information, and yields better results in RE. In contrast, entity masking improves RE, but considerably lowers performance on entity type related probing tasks.
翻訳日:2022-12-12 13:16:35 公開日:2020-04-17
# 会話エージェントのスキルをブレンドする能力を評価する

Can You Put it All Together: Evaluating Conversational Agents' Ability to Blend Skills ( http://arxiv.org/abs/2004.08449v1 )

ライセンス: Link先を確認
Eric Michael Smith, Mary Williamson, Kurt Shuster, Jason Weston, Y-Lan Boureau(参考訳) エンゲージメント、知識、共感は、会話エージェントにおいて望ましい一般的な性質である。 従来の作業では、エージェントがこれらの品質を分離して学習し、それらがどれだけうまく表現できるかを測定するのに役立つタスクとデータセットが導入されていた。 しかし、単一の品質に特化するのではなく、優れたオープンドメインの会話エージェントは、それらを単一の結合的な会話フローにシームレスにブレンドできるべきです。 本研究では、最小限の追加訓練を必要とする単純なモデルアグリゲーションスキームから、全ての訓練段階において複数のスキルを含む様々な形態のマルチタスクトレーニングまで、孤立能力に向けて訓練されたモデルを組み合わせる方法について検討する。 さらにBlendedSkillTalkという新しいデータセットを提案し、これらの機能を自然な会話でどのように組み合わせるかを分析し、異なるアーキテクチャとトレーニングスキームのパフォーマンスを比較します。 実験の結果,特定の能力に着目した複数のタスクをマルチタスクすることで,単一のスキルで訓練されたモデルと比較して,会話性能が向上すること,また,スキル選択の望ましくないバイアスを回避するために構築された場合や,新たなタスクに微調整された場合,統一的あるいは二段階的なアプローチが良好に動作することがわかった。

Being engaging, knowledgeable, and empathetic are all desirable general qualities in a conversational agent. Previous work has introduced tasks and datasets that aim to help agents to learn those qualities in isolation and gauge how well they can express them. But rather than being specialized in one single quality, a good open-domain conversational agent should be able to seamlessly blend them all into one cohesive conversational flow. In this work, we investigate several ways to combine models trained towards isolated capabilities, ranging from simple model aggregation schemes that require minimal additional training, to various forms of multi-task training that encompass several skills at all training stages. We further propose a new dataset, BlendedSkillTalk, to analyze how these capabilities would mesh together in a natural conversation, and compare the performance of different architectures and training schemes. Our experiments show that multi-tasking over several tasks that focus on particular capabilities results in better blended conversation performance compared to models trained on a single skill, and that both unified or two-stage approaches perform well if they are constructed to avoid unwanted bias in skill selection or are fine-tuned on our new task.
翻訳日:2022-12-12 13:15:50 公開日:2020-04-17
# 大足ロボットのための多様性に基づく設計支援

Diversity-based Design Assist for Large Legged Robots ( http://arxiv.org/abs/2004.08057v1 )

ライセンス: Link先を確認
David Howard, Thomas Lowe, Wade Geles(参考訳) マップエライトと高度並列化可能なシミュレーションを組み合わせることで,高さ約2mの大型脚型ロボットの設計空間を探索する。 シミュレーションは、モータトルクや重量などの要因を考慮して修正され、合理的な忠実度探索空間が提示される。 新たなロボットエンコーディングにより、足が体の長さに沿ってスケーリングするなど、バイオインスパイアされた特徴を実現できる。 3つの可能な制御生成スキームの影響は、身体-脳共進化の文脈で評価され、制約された問題でさえ結合促進機構の恩恵を強く受けることを示す。 2段階のプロセスが実行されます。 最初の段階では、ユーザ要求を制約として扱うロボットのライブラリが生成される。 第2段階では、最も有望なロボットニッチは分析され、特徴変数の値に関連する人間の理解可能な設計ルールのスイートが生成される。 これらのルールは、ライブラリとともに、(人間)ロボットデザイナーが設計支援ツールとして使用する準備ができています。

We combine MAP-Elites and highly parallelisable simulation to explore the design space of a class of large legged robots, which stand at around 2m tall and whose design and construction is not well-studied. The simulation is modified to account for factors such as motor torque and weight, and presents a reasonable fidelity search space. A novel robot encoding allows for bio-inspired features such as legs scaling along the length of the body. The impact of three possible control generation schemes are assessed in the context of body-brain co-evolution, showing that even constrained problems benefit strongly from coupling-promoting mechanisms. A two stage process in implemented. In the first stage, a library of possible robots is generated, treating user requirements as constraints. In the second stage, the most promising robot niches are analysed and a suite of human-understandable design rules generated related to the values of their feature variables. These rules, together with the library, are then ready to be used by a (human) robot designer as a Design Assist tool.
翻訳日:2022-12-12 13:15:30 公開日:2020-04-17
# CPARR:関係参照のためのカテゴリーベース提案分析

CPARR: Category-based Proposal Analysis for Referring Relationships ( http://arxiv.org/abs/2004.08028v1 )

ライセンス: Link先を確認
Chuanzi He, Haidong Zhu, Jiyang Gao, Kan Chen, Ram Nevatia(参考訳) 関係性を参照するタスクは、関係性クエリを満たすイメージ内の主題とオブジェクトエンティティをローカライズすることであり、それは \texttt{<subject, predicate, object>} の形式で与えられる。 これは、特定の関係における対象と対象のエンティティの同時ローカライズを必要とする。 本稿では,関係性を参照するための提案手法を提案する。 SSASのような既存の手法とは異なり,本手法は複雑性とあいまいさを低減しつつ高分解能な結果が得られる。 本手法は,エンティティに関連する提案を選択するカテゴリベース提案生成モジュールと,選択した提案のペア間の互換性を評価する述語分析モジュールの2つのモジュールから構成される。 視覚関連検出と視覚ゲノムの2つの公開データセットにおける参照関係タスクにおける最先端のパフォーマンスを示す。

The task of referring relationships is to localize subject and object entities in an image satisfying a relationship query, which is given in the form of \texttt{<subject, predicate, object>}. This requires simultaneous localization of the subject and object entities in a specified relationship. We introduce a simple yet effective proposal-based method for referring relationships. Different from the existing methods such as SSAS, our method can generate a high-resolution result while reducing its complexity and ambiguity. Our method is composed of two modules: a category-based proposal generation module to select the proposals related to the entities and a predicate analysis module to score the compatibility of pairs of selected proposals. We show state-of-the-art performance on the referring relationship task on two public datasets: Visual Relationship Detection and Visual Genome.
翻訳日:2022-12-12 13:14:44 公開日:2020-04-17
# DepthNet Nano: 単眼深度推定のための超小型自己正規化ニューラルネットワーク

DepthNet Nano: A Highly Compact Self-Normalizing Neural Network for Monocular Depth Estimation ( http://arxiv.org/abs/2004.08008v1 )

ライセンス: Link先を確認
Linda Wang, Mahmoud Famouri, and Alexander Wong(参考訳) 深度推定はコンピュータビジョンの分野では活発な研究分野であり、ロボットや無人航空機から自動運転車に至るまで、多くのアプリケーションで需要が高まっているため、大きな関心を集めている。 この領域で特に難しい問題は単眼深度推定であり、その目的は1つの画像から深さを推測することである。 近年,この問題に対処するための効果的な戦略として,深層畳み込みニューラルネットワークの利用がある。 これらの成功にもかかわらず、そのようなネットワークのメモリと計算の要求は、組み込みシナリオに広く展開することを非常に困難にしている。 本研究では,人間機械協調設計戦略を用いた単眼深度推定のための高度にコンパクトな自己正規化ネットワークである depthnet nano を導入し,エンコーダ・デコーダ設計原理に基づくネットワーク設計プロトタイピングと機械駆動設計探索を組み合わせる。 その結果,高度にカスタマイズされたマクロ構造設計とマイクロ構造設計と,組込み深度推定のタスクに適した自己正規化特性を備えた,コンパクトなディープニューラルネットワークが実現した。 提案されたDepthNet Nanoは、高度に効率的なネットワークアーキテクチャ(例えば、Alhashimなどよりも24倍小さく42倍少ないMAC操作)を持ち、NYU-Depth V2およびKITTIデータセットの最先端ネットワークと同等のパフォーマンスを実現している。 さらに、Jetson AGX Xavier の組み込みモジュールにおける推論速度とエネルギー効率に関する実験では、DepthNet Nano の様々な解像度と電力予算での有効性(例えば、KITTIの30W電力予算で384 X 1280 で ~14 FPS と >0.46 画像/秒/ワット)が示されている。

Depth estimation is an active area of research in the field of computer vision, and has garnered significant interest due to its rising demand in a large number of applications ranging from robotics and unmanned aerial vehicles to autonomous vehicles. A particularly challenging problem in this area is monocular depth estimation, where the goal is to infer depth from a single image. An effective strategy that has shown considerable promise in recent years for tackling this problem is the utilization of deep convolutional neural networks. Despite these successes, the memory and computational requirements of such networks have made widespread deployment in embedded scenarios very challenging. In this study, we introduce DepthNet Nano, a highly compact self normalizing network for monocular depth estimation designed using a human machine collaborative design strategy, where principled network design prototyping based on encoder-decoder design principles are coupled with machine-driven design exploration. The result is a compact deep neural network with highly customized macroarchitecture and microarchitecture designs, as well as self-normalizing characteristics, that are highly tailored for the task of embedded depth estimation. The proposed DepthNet Nano possesses a highly efficient network architecture (e.g., 24X smaller and 42X fewer MAC operations than Alhashim et al. on KITTI), while still achieving comparable performance with state-of-the-art networks on the NYU-Depth V2 and KITTI datasets. Furthermore, experiments on inference speed and energy efficiency on a Jetson AGX Xavier embedded module further illustrate the efficacy of DepthNet Nano at different resolutions and power budgets (e.g., ~14 FPS and >0.46 images/sec/watt at 384 X 1280 at a 30W power budget on KITTI).
翻訳日:2022-12-12 13:09:13 公開日:2020-04-17
# 高速ソフトカラーセグメンテーション

Fast Soft Color Segmentation ( http://arxiv.org/abs/2004.08096v1 )

ライセンス: Link先を確認
Naofumi Akimoto, Huachun Zhu, Yanghua Jin, Yoshimitsu Aoki(参考訳) 本稿では,与えられた画像を複数のrgba層に分解し,それぞれに均質な色領域のみを含むソフトカラーセグメンテーションの問題に対処する。 分解によるレイヤは、イメージやビデオの再色や合成など、レイヤベースの編集の恩恵を受けるアプリケーションへの道を開くものだ。 この問題に対する現在の最先端のアプローチは、反復性によって処理時間が遅くなり、結果として特定の現実のシナリオにスケールしない。 この問題に対処するために、与えられた画像を複数の層に分割し、1つのフォワードパスで処理するニューラルネットワークベースの手法を提案する。 さらに,色層とαチャネル層を別々に分解する手法を提案する。 そこで本手法は,新しいトレーニング目標を生かして,層間の色を適切に割り当てることを実現する。 その結果,提案手法は既存の反復的アプローチの推論速度の問題なく,有望な品質を実現することができた。 本手法は,従来の手法に匹敵する質的,定量的な結果が得られ,30万倍の速度改善が得られた。 最後に,提案手法をいくつかのアプリケーションに応用し,特にビデオ編集においてその高速化を実証する。

We address the problem of soft color segmentation, defined as decomposing a given image into several RGBA layers, each containing only homogeneous color regions. The resulting layers from decomposition pave the way for applications that benefit from layer-based editing, such as recoloring and compositing of images and videos. The current state-of-the-art approach for this problem is hindered by slow processing time due to its iterative nature, and consequently does not scale to certain real-world scenarios. To address this issue, we propose a neural network based method for this task that decomposes a given image into multiple layers in a single forward pass. Furthermore, our method separately decomposes the color layers and the alpha channel layers. By leveraging a novel training objective, our method achieves proper assignment of colors amongst layers. As a consequence, our method achieve promising quality without existing issue of inference speed for iterative approaches. Our thorough experimental analysis shows that our method produces qualitative and quantitative results comparable to previous methods while achieving a 300,000x speed improvement. Finally, we utilize our proposed method on several applications, and demonstrate its speed advantage, especially in video editing.
翻訳日:2022-12-12 13:08:03 公開日:2020-04-17
# AlloVera: マルチリンガルな音声データベース

AlloVera: A Multilingual Allophone Database ( http://arxiv.org/abs/2004.08031v1 )

ライセンス: Link先を確認
David R. Mortensen, Xinjian Li, Patrick Littell, Alexis Michaud, Shruti Rijhwani, Antonios Anastasopoulos, Alan W. Black, Florian Metze, Graham Neubig(参考訳) 218のアロフォンから14言語のための音素へのマッピングを提供するAlloVeraという新しいリソースを導入する。 音素は対照的な音韻単位であり、アロフォンは音韻学的文脈から予測可能な様々な具体的実現である。 音素表現は言語固有のものであるが、音素表現(allo)は普遍的な(言語に依存しない)転写に近い。 AlloVeraは、入力言語に関係なく、国際音声アルファベット(IPA)で音声の書き起こしを出力する音声認識モデルのトレーニングを可能にする。 allovera を組み込んだ "universal" allophone モデルである allosaurus が,音声認識タスクにおいて "universal" 音素モデルおよび言語固有モデルよりも優れていることを示す。 我々は、この技術(および関連する技術)が、絶滅危惧言語および少数言語のドキュメントに与える影響を探求する。 さらに、音韻学の類型学など、AlloVeraが成長するのに適した他のアプリケーションについても検討する。

We introduce a new resource, AlloVera, which provides mappings from 218 allophones to phonemes for 14 languages. Phonemes are contrastive phonological units, and allophones are their various concrete realizations, which are predictable from phonological context. While phonemic representations are language specific, phonetic representations (stated in terms of (allo)phones) are much closer to a universal (language-independent) transcription. AlloVera allows the training of speech recognition models that output phonetic transcriptions in the International Phonetic Alphabet (IPA), regardless of the input language. We show that a "universal" allophone model, Allosaurus, built with AlloVera, outperforms "universal" phonemic models and language-specific models on a speech-transcription task. We explore the implications of this technology (and related technologies) for the documentation of endangered and minority languages. We further explore other applications for which AlloVera will be suitable as it grows, including phonological typology.
翻訳日:2022-12-12 13:06:24 公開日:2020-04-17
# 対話に基づく関係抽出

Dialogue-Based Relation Extraction ( http://arxiv.org/abs/2004.08056v1 )

ライセンス: Link先を確認
Dian Yu, Kai Sun, Claire Cardie, Dong Yu(参考訳) 本稿では,対話に現れる2つの引数間の関係の予測を支援することを目的とした,対話型関係抽出(RE)データセットDialogREを提案する。 また、多くの事実が複数の文にまたがるクロス文REを研究するためのプラットフォームとして、DialogREを提供する。 我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。 対話における通信のタイムラインを考慮し、対話環境におけるREメソッドの性能を評価するための新しい指標を設計し、ダイアログ上での複数の代表REメソッドのパフォーマンスについて検討する。 実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。 DialogREはhttps://dataset.org/dialogre/.comで入手できる。

We present the first human-annotated dialogue-based relation extraction (RE) dataset DialogRE, aiming to support the prediction of relation(s) between two arguments that appear in a dialogue. We further offer DialogRE as a platform for studying cross-sentence RE as most facts span multiple sentences. We argue that speaker-related information plays a critical role in the proposed task, based on an analysis of similarities and differences between dialogue-based and traditional RE tasks. Considering the timeliness of communication in a dialogue, we design a new metric to evaluate the performance of RE methods in a conversational setting and investigate the performance of several representative RE methods on DialogRE. Experimental results demonstrate that a speaker-aware extension on the best-performing model leads to gains in both the standard and conversational evaluation settings. DialogRE is available at https://dataset.org/dialogre/.
翻訳日:2022-12-12 13:05:50 公開日:2020-04-17
# 単一機械全重み付きターダネス問題に適用したpacoの重み付き人口更新ルール

A Weighted Population Update Rule for PACO Applied to the Single Machine Total Weighted Tardiness Problem ( http://arxiv.org/abs/2004.08433v1 )

ライセンス: Link先を確認
Daniel Abitz, Tom Hartmann, Martin Middendorf(参考訳) 本稿では,集団ベースのアリコロニー最適化(PACO)のための新しい集団更新ルールを提案する。 PACOは標準的なアリコロニー最適化アルゴリズムの代替としてよく知られている。 新しいアップデートルールにより、ソリューションのさまざまな部分の重み付けが可能になる。 更新ルールが更新されたPACOは、SMTWTP(Single Machine total weighted tardiness problem)の例として評価される。 これは$\mathcal{NP}$-hard optimization problemであり、単一のマシン上でジョブをスケジュールすることを目的としており、その総重み付けタドネスを最小化する。 新しい人口更新ルールを持つPACOは、OR-Libraryのベンチマークインスタンスで評価される。 さらに,ジョブの重み付けが集団の解とアルゴリズムの収束に与える影響を実験的に解析した。 その結果,PACOと新しい更新規則は,標準更新規則のPACOよりも平均的なソリューション品質が向上していることがわかった。

In this paper a new population update rule for population based ant colony optimization (PACO) is proposed. PACO is a well known alternative to the standard ant colony optimization algorithm. The new update rule allows to weight different parts of the solutions. PACO with the new update rule is evaluated for the example of the single machine total weighted tardiness problem (SMTWTP). This is an $\mathcal{NP}$-hard optimization problem where the aim is to schedule jobs on a single machine such that their total weighted tardiness is minimized. PACO with the new population update rule is evaluated with several benchmark instances from the OR-Library. Moreover, the impact of the weights of the jobs on the solutions in the population and on the convergence of the algorithm are analyzed experimentally. The results show that PACO with the new update rule has on average better solution quality than PACO with the standard update rule.
翻訳日:2022-12-12 12:59:28 公開日:2020-04-17
# インタラクティブレコメンデーションのための知識誘導深層強化学習

Knowledge-guided Deep Reinforcement Learning for Interactive Recommendation ( http://arxiv.org/abs/2004.08068v1 )

ライセンス: Link先を確認
Xiaocong Chen, Chaoran Huang, Lina Yao, Xianzhi Wang, Wei Liu, Wenjie Zhang(参考訳) インタラクティブレコメンデーションは、アイテムとユーザ間の動的インタラクションから学び、応答性と精度を達成することを目的としている。 強化学習は本質的に動的環境に対処するのに有利であり、インタラクティブな推奨研究で注目を集めている。 知識を意識した深層強化学習 (KGRL) を提案し, 対話型レコメンデーションのための強化学習と知識グラフの双方の利点を生かした。 このモデルはアクター批判ネットワークフレームワーク上に実装されている。 意思決定をガイドするローカルな知識ネットワークを維持し、アイテム間の長期的な意味をキャプチャするアテンションメカニズムを採用している。 我々は,6つの実世界のデータセットを用いたシミュレーションオンライン環境での総合実験を行い,最先端の手法を用いたモデルの優位性を実証した。

Interactive recommendation aims to learn from dynamic interactions between items and users to achieve responsiveness and accuracy. Reinforcement learning is inherently advantageous for coping with dynamic environments and thus has attracted increasing attention in interactive recommendation research. Inspired by knowledge-aware recommendation, we proposed Knowledge-Guided deep Reinforcement learning (KGRL) to harness the advantages of both reinforcement learning and knowledge graphs for interactive recommendation. This model is implemented upon the actor-critic network framework. It maintains a local knowledge network to guide decision-making and employs the attention mechanism to capture long-term semantics between items. We have conducted comprehensive experiments in a simulated online environment with six public real-world datasets and demonstrated the superiority of our model over several state-of-the-art methods.
翻訳日:2022-12-12 12:59:00 公開日:2020-04-17
# アンサンブル生成におけるknapsack問題に対する確率論的アプローチ

A stochastic approach to handle knapsack problems in the creation of ensembles ( http://arxiv.org/abs/2004.08101v1 )

ライセンス: Link先を確認
Andras Hajdu, Gyorgy Terdik, Attila Tiba, Henrietta Toman(参考訳) アンサンブルに基づく手法は、個々の有権者の意見を集約することで、決定の正確性を高める非常に一般的なアプローチである。 一般的なポイントは精度を最大化することであるが、個別の有権者に増分費用を割り当てる場合、自然な制限が発生する。 その結果,メンバーの総コストに制約を加えたアンサンブルの制作について検討した。 このタスクはknapsack問題として定式化することができ、そこではエネルギーはいくつかの集約規則によって形成されるアンサンブル精度である。 しかし、一般的に適用される集約ルールは分離不可能なエネルギー関数につながり、動的プログラミングのような一般的なソリューションツールが動作不能になる。 本稿では,エネルギーを部材の共役確率関数とみなす新しい確率的アプローチを提案する。 このタイプの知識は、予測された正確性に関する情報、または、より正確なアンサンブルを見つける確率があるため、確率的探索過程において停止規則として効率的に組み込むことができる。 パターン分類器と物体検出器のアンサンブルの実験的解析により,本手法の有効性が確認された。 さらに,シミュレート・アニーリングのような一般的なアプローチと比較して,エネルギーに適合する新しい確率的探索戦略を提案する。

Ensemble-based methods are highly popular approaches that increase the accuracy of a decision by aggregating the opinions of individual voters. The common point is to maximize accuracy; however, a natural limitation occurs if incremental costs are also assigned to the individual voters. Consequently, we investigate creating ensembles under an additional constraint on the total cost of the members. This task can be formulated as a knapsack problem, where the energy is the ensemble accuracy formed by some aggregation rules. However, the generally applied aggregation rules lead to a nonseparable energy function, which takes the common solution tools -- such as dynamic programming -- out of action. We introduce a novel stochastic approach that considers the energy as the joint probability function of the member accuracies. This type of knowledge can be efficiently incorporated in a stochastic search process as a stopping rule, since we have the information on the expected accuracy or, alternatively, the probability of finding more accurate ensembles. Experimental analyses of the created ensembles of pattern classifiers and object detectors confirm the efficiency of our approach. Moreover, we propose a novel stochastic search strategy that better fits the energy, compared with general approaches such as simulated annealing.
翻訳日:2022-12-12 12:58:32 公開日:2020-04-17
# 腎腫瘍分離のためのマルチスケール3次元U-Net

Multi-Scale Supervised 3D U-Net for Kidneys and Kidney Tumor Segmentation ( http://arxiv.org/abs/2004.08108v1 )

ライセンス: Link先を確認
Wenshuai Zhao, Dihong Jiang, Jorge Pe\~na Queralta, Tomi Westerlund(参考訳) 腎臓と腎腫瘍の正確なセグメンテーションは、放射線学的解析および高度な外科的計画法の開発に不可欠なステップである。 臨床分析では、CTスキャンで収集した視覚検査画像から、現在、臨床医によってセグメンテーションが行われている。 このプロセスは熱心であり、その成功は以前の経験に大きく依存する。 また,腫瘍部位の不確実性と患者間のスキャンの不均一性は誤差率を増加させる。 この問題に対処するため,ディープラーニング技術に基づくコンピュータ支援セグメンテーションが普及している。 腎腫瘍と腎腫瘍をCT画像から自動的に分離するマルチスケール3D U-Net(MSS U-Net)を提案する。 我々のアーキテクチャは、3次元U-Netトレーニング効率を高めるために、深い監視と指数対数損失を組み合わせる。 さらに,接続コンポーネントベースのポスト処理手法を導入し,プロセス全体の性能を向上させる。 このアーキテクチャは、KiTS19の公開データセットのデータを用いて、腎臓のDice係数と腫瘍の最大0.969と0.805で、最先端の成果よりも優れた性能を示す。 本論文で導入されたセグメンテーション技術は,KiTS19チャレンジにおいて,対応するデータセットを用いて検証されている。

Accurate segmentation of kidneys and kidney tumors is an essential step for radiomic analysis as well as developing advanced surgical planning techniques. In clinical analysis, the segmentation is currently performed by clinicians from the visual inspection images gathered through a computed tomography (CT) scan. This process is laborious and its success significantly depends on previous experience. Moreover, the uncertainty in the tumor location and heterogeneity of scans across patients increases the error rate. To tackle this issue, computer-aided segmentation based on deep learning techniques have become increasingly popular. We present a multi-scale supervised 3D U-Net, MSS U-Net, to automatically segment kidneys and kidney tumors from CT images. Our architecture combines deep supervision with exponential logarithmic loss to increase the 3D U-Net training efficiency. Furthermore, we introduce a connected-component based post processing method to enhance the performance of the overall process. This architecture shows superior performance compared to state-of-the-art works using data from KiTS19 public dataset, with the Dice coefficient of kidney and tumor up to 0.969 and 0.805 respectively. The segmentation techniques introduced in this paper have been tested in the KiTS19 challenge with its corresponding dataset.
翻訳日:2022-12-12 12:58:12 公開日:2020-04-17
# ベイジアン隠れマルコフモデルにおけるMAPセグメンテーション--ケーススタディ

MAP segmentation in Bayesian hidden Markov models: a case study ( http://arxiv.org/abs/2004.08336v1 )

ライセンス: Link先を確認
Alexey Koloydenko, Kristi Kuljus, J\"uri Lember(参考訳) 本研究では,有限状態および有限エミッションアルファベット隠れマルコフモデル(hmm)に対して,エミッション行列と遷移行列の両方がディリクレ事前を持つベイズ系において最大後確率(map)状態列を推定する問題を考える。 何千ものタンパク質アライメントペアからなるトレーニングセットについて検討する。 トレーニングデータは、ベイズMAPセグメンテーションのための以前のハイパーパラメータを設定するために使用される。 ビタビアルゴリズムはもはや適用されないため、MAPパスを見つけるための簡単な手順はなく、いくつかの反復アルゴリズムが検討され比較される。 本論文の主な目的は,HMMのパラメータをトレーニングデータを用いて推定し,ベイズ的な設定を頻繁な設定と比較することである。

We consider the problem of estimating the maximum posterior probability (MAP) state sequence for a finite state and finite emission alphabet hidden Markov model (HMM) in the Bayesian setup, where both emission and transition matrices have Dirichlet priors. We study a training set consisting of thousands of protein alignment pairs. The training data is used to set the prior hyperparameters for Bayesian MAP segmentation. Since the Viterbi algorithm is not applicable any more, there is no simple procedure to find the MAP path, and several iterative algorithms are considered and compared. The main goal of the paper is to test the Bayesian setup against the frequentist one, where the parameters of HMM are estimated using the training data.
翻訳日:2022-12-12 12:57:42 公開日:2020-04-17
# シミュレーションマイクロブーム事象における粒子分類のトレーニングを複数のgpuに拡大する

Scaling the training of particle classification on simulated MicroBooNE events to multiple GPUs ( http://arxiv.org/abs/2004.08439v1 )

ライセンス: Link先を確認
Alex Hagen, Eric Church, Jan Strube, Kolahal Bhattacharya, and Vinay Amatya(参考訳) 液体アルゴン時間投影室(lartpc)のニュートリノ検出器(フェルミラブのマイクロボーン検出器など)における測定には、大きな忠実度の高いイベント画像が特徴である。 深層学習技術は写真の分類作業において極めて成功したが、LArTPCイベント画像への応用は、イベントの規模が大きいため困難である。 これらの検出器内のイベントは、MNISTデータベースに含まれる手書き桁の認識やImageNetデータベース内のオブジェクト認識など、古典的な課題で見られる画像よりも2桁大きい。 理想的には、イベントデータから収集された多くの領域ではなく、イベントデータの多くのインスタンスでトレーニングが行われるだろう。 しかし、そのような取り組みは、分類性能を改善するために新しいネットワークアーキテクチャやハイパーパラメータースキャンの探索を遅くする、非常に長い訓練サイクルに繋がる。 本稿では,複数のノードにまたがる複数のアーキテクチャ上でのLArTPC分類問題のスケーリングについて検討する。 これらの研究は、MicroBooNE検出器のシミュレーションイベントについて行われた。 この研究の範囲を超えて、ネットワークを最適化したり、あらゆる結果から物理を抽出することを強調します。 太平洋北西部国立研究所の施設コンピューティングとオークリッジ国立研究所のリーダーシップコンピューティング施設のサミットデブマシンが使用されている。 我々の知る限り、これは粒子物理学における最先端の畳み込みニューラルネットワークと、それに付随する計算技術のDOEリーダーシップクラス施設への最初の利用である。 今後数十年間、米国の旗艦となる高エネルギー物理(HEP)プログラムである、ディープ・アンダーグラウンド・ニュートリノ実験(DUNE) LArTPCプログラムに特に利益を期待する。

Measurements in Liquid Argon Time Projection Chamber (LArTPC) neutrino detectors, such as the MicroBooNE detector at Fermilab, feature large, high fidelity event images. Deep learning techniques have been extremely successful in classification tasks of photographs, but their application to LArTPC event images is challenging, due to the large size of the events. Events in these detectors are typically two orders of magnitude larger than images found in classical challenges, like recognition of handwritten digits contained in the MNIST database or object recognition in the ImageNet database. Ideally, training would occur on many instances of the entire event data, instead of many instances of cropped regions of interest from the event data. However, such efforts lead to extremely long training cycles, which slow down the exploration of new network architectures and hyperparameter scans to improve the classification performance. We present studies of scaling a LArTPC classification problem on multiple architectures, spanning multiple nodes. The studies are carried out on simulated events in the MicroBooNE detector. We emphasize that it is beyond the scope of this study to optimize networks or extract the physics from any results here. Institutional computing at Pacific Northwest National Laboratory and the SummitDev machine at Oak Ridge National Laboratory's Leadership Computing Facility have been used. To our knowledge, this is the first use of state-of-the-art Convolutional Neural Networks for particle physics and their attendant compute techniques onto the DOE Leadership Class Facilities. We expect benefits to accrue particularly to the Deep Underground Neutrino Experiment (DUNE) LArTPC program, the flagship US High Energy Physics (HEP) program for the coming decades.
翻訳日:2022-12-12 12:57:08 公開日:2020-04-17
# 知識蒸留のためのトリプルト損失

Triplet Loss for Knowledge Distillation ( http://arxiv.org/abs/2004.08116v1 )

ライセンス: Link先を確認
Hideki Oki, Motoshi Abe, Junichi Miyao, Takio Kurita(参考訳) 近年,ディープラーニングが急速に普及し,より深いモデルが提案されている。 しかし、モデルのサイズが大きくなるにつれて計算コストは膨大になる。 モデルのサイズを圧縮する様々な手法が提案され、計算コストを削減しながら性能を向上させる。 モデルのサイズを圧縮する方法の1つは知識蒸留(KD)である。 知識蒸留は、多くのパラメータ(教師モデル)を持つ深層またはアンサンブルモデルの知識をより浅いモデル(学生モデル)に伝達する技術である。 知識蒸留の目的は,教師モデルと生徒モデルの類似性を高めることにあるため,学習サンプルのペアや三重項を用いて,生徒モデルを教師モデルに近いものにするために,知識蒸留にメートル法学習の概念を導入することを提案する。 計量学習では、類似したサンプルの出力の類似性を高めるモデルを構築する方法が研究されている。 メトリック学習は、類似した距離と異種間の距離を増大させることを目的としている。 類似したアウトプット間の差を減らすためのメトリック学習の機能は、教師モデルのアウトプットと生徒モデルの差を減らすための知識蒸留に利用できる。 異なる対象に対する教師モデルの出力は通常異なるので、生徒モデルはそれらを区別する必要がある。 メトリック学習は,異なる出力の違いを明確にし,学生モデルの性能を向上させることができると考えている。 提案手法と最先端の知識蒸留法との比較実験を行った。

In recent years, deep learning has spread rapidly, and deeper, larger models have been proposed. However, the calculation cost becomes enormous as the size of the models becomes larger. Various techniques for compressing the size of the models have been proposed to improve performance while reducing computational costs. One of the methods to compress the size of the models is knowledge distillation (KD). Knowledge distillation is a technique for transferring knowledge of deep or ensemble models with many parameters (teacher model) to smaller shallow models (student model). Since the purpose of knowledge distillation is to increase the similarity between the teacher model and the student model, we propose to introduce the concept of metric learning into knowledge distillation to make the student model closer to the teacher model using pairs or triplets of the training samples. In metric learning, the researchers are developing the methods to build a model that can increase the similarity of outputs for similar samples. Metric learning aims at reducing the distance between similar and increasing the distance between dissimilar. The functionality of the metric learning to reduce the differences between similar outputs can be used for the knowledge distillation to reduce the differences between the outputs of the teacher model and the student model. Since the outputs of the teacher model for different objects are usually different, the student model needs to distinguish them. We think that metric learning can clarify the difference between the different outputs, and the performance of the student model could be improved. We have performed experiments to compare the proposed method with state-of-the-art knowledge distillation methods.
翻訳日:2022-12-12 12:50:07 公開日:2020-04-17
# 車両に搭載されたカメラによるスワップボディの物体検出と認識

Object Detection and Recognition of Swap-Bodies using Camera mounted on a Vehicle ( http://arxiv.org/abs/2004.08118v1 )

ライセンス: Link先を確認
Ebin Zacharias, Didier Stricker, Martin Teuchler and Kripasindhu Sarkar(参考訳) 物体の検出と識別はコンピュータビジョンの困難な領域であり、自動運転車の基本的な要件である。 本研究の目的は、スワップボディのオブジェクト検出を共同で行い、効率的な光学文字認識(OCR)法を用いてILUコードを読み取ることである。 近年の研究活動は、コンピュータビジョンの分野を強化する深層学習技術を大幅に改善している。 モデルをトレーニングするために十分な画像を集めることは、良い結果を得るための重要なステップです。 トレーニング用データは、可能な限りのバリエーションで異なる場所から収集され、詳細が説明される。 さらに,トレーニングに応用したデータ拡張手法は,トレーニングモデルの性能向上に有効であることが判明した。 優れた結果を得たモデルをトレーニングし、テスト結果も提供します。 最終モデルは画像とビデオでテストされた。 最後に,本論文は,プロジェクトのさまざまな段階において直面する課題や,適用可能な解決策についても注目する。

Object detection and identification is a challenging area of computer vision and a fundamental requirement for autonomous cars. This project aims to jointly perform object detection of a swap-body and to find the type of swap-body by reading an ILU code using an efficient optical character recognition (OCR) method. Recent research activities have drastically improved deep learning techniques which proves to enhance the field of computer vision. Collecting enough images for training the model is a critical step towards achieving good results. The data for training were collected from different locations with maximum possible variations and the details are explained. In addition, data augmentation methods applied for training has proved to be effective in improving the performance of the trained model. Training the model achieved good results and the test results are also provided. The final model was tested with images and videos. Finally, this paper also draws attention to some of the major challenges faced during various stages of the project and the possible solutions applied.
翻訳日:2022-12-12 12:49:46 公開日:2020-04-17
# FaceChannel: 顔認識のための軽量ディープニューラルネットワーク

The FaceChannel: A Light-weight Deep Neural Network for Facial Expression Recognition ( http://arxiv.org/abs/2004.08195v1 )

ライセンス: Link先を確認
Pablo Barros, Nikhil Churamani, Alessandra Sciutti(参考訳) 現在の自動ferの最先端モデルは、訓練が難しい非常に深いニューラルネットワークに基づいている。 これは、知覚と理解の主観的な性質を与えられたFERモデルからの要求である、状況の変化にこれらのモデルを適応させることが困難である。 本稿では、一般的なディープニューラルネットワークよりもパラメータが少ない軽量ニューラルネットワークであるFaceChannelを形式化し、この問題に対処する。 私たちは、さまざまなベンチマークデータセット上で一連の実験を行い、FaceChannelが、FERの現在の最先端技術と比較すると、パフォーマンスが同等に向上することを示す。

Current state-of-the-art models for automatic FER are based on very deep neural networks that are difficult to train. This makes it challenging to adapt these models to changing conditions, a requirement from FER models given the subjective nature of affect perception and understanding. In this paper, we address this problem by formalizing the FaceChannel, a light-weight neural network that has much fewer parameters than common deep neural networks. We perform a series of experiments on different benchmark datasets to demonstrate how the FaceChannel achieves a comparable, if not better, performance, as compared to the current state-of-the-art in FER.
翻訳日:2022-12-12 12:49:13 公開日:2020-04-17
# dynamicembedding: コロッサルスケールアプリケーションのためのtensorflowの拡張

DynamicEmbedding: Extending TensorFlow for Colossal-Scale Applications ( http://arxiv.org/abs/2004.08366v1 )

ライセンス: Link先を確認
Yun Zeng, Siqi Zuo, Dongcai Shen(参考訳) 今日、スパースな特徴を持つディープラーニングモデルの制限の1つは、トレーニング前に辞書を定義する必要がある入力の事前定義された性質に起因している。 本稿では、この制限を除去する理論と作業システム設計の両方を提案し、結果のモデルがはるかに大きなスケールでより良く効率的に動作可能であることを示す。 具体的には、モデルの内容と形式を分離して、アーキテクチャの進化とメモリ成長を別々に解決する。 モデル成長を効率的に処理するために,自由エネルギー原理[15]からインスピレーションを得て,非消化エネルギーを放出する反応の概念を導入する,DynamicCellと呼ばれる新しいニューロンモデルを提案する。 モデル成長に関わる作業の大部分を引き継ぐために、TensorFlowに新しいサーバを導入することでDynamicCellを実装しています。 これにより、既存のディープラーニングモデルでも、任意の数の異なるスパース機能(検索クエリなど)を効率的に処理でき、モデルを再定義することなく必然的に成長することができる。 中でも注目すべきなのは,当社のモデルのひとつで,Google Smart Campaignsの広告主に対して,高品質なキーワードの提案と,データ駆動の自己進化型システムが従来のルールベースのアプローチのパフォーマンスを上回る可能性があるという,困難な指標に基づく大幅な精度向上を実現している点です。

One of the limitations of deep learning models with sparse features today stems from the predefined nature of their input, which requires a dictionary be defined prior to the training. With this paper we propose both a theory and a working system design which remove this limitation, and show that the resulting models are able to perform better and efficiently run at a much larger scale. Specifically, we achieve this by decoupling a model's content from its form to tackle architecture evolution and memory growth separately. To efficiently handle model growth, we propose a new neuron model, called DynamicCell, drawing inspiration from from the free energy principle [15] to introduce the concept of reaction to discharge non-digestive energy, which also subsumes gradient descent based approaches as its special cases. We implement DynamicCell by introducing a new server into TensorFlow to take over most of the work involving model growth. Consequently, it enables any existing deep learning models to efficiently handle arbitrary number of distinct sparse features (e.g., search queries), and grow incessantly without redefining the model. Most notably, one of our models, which has been reliably running in production for over a year, is capable of suggesting high quality keywords for advertisers of Google Smart Campaigns and achieved significant accuracy gains based on a challenging metric -- evidence that data-driven, self-evolving systems can potentially exceed the performance of traditional rule-based approaches.
翻訳日:2022-12-12 12:41:43 公開日:2020-04-17
# 分類課題における最適ネットワーク深さの探索

Finding the Optimal Network Depth in Classification Tasks ( http://arxiv.org/abs/2004.08172v1 )

ライセンス: Link先を確認
Bartosz W\'ojcik, Maciej Wo{\l}czyk, Klaudia Ba{\l}azy, Jacek Tabor(参考訳) 複数の分類器ヘッドを用いた軽量ニューラルネットワークの高速エンドツーエンド学習法を開発した。 モデルが各ヘッドの重要度を判断し、単一の浅い分類器の選択に報いるようにすることで、ネットワークの不要なコンポーネントを検出して削除することができる。 この操作は、モデルの最適深さを見出すことができるが、パラメータの数を著しく減らし、異なるハードウェア処理ユニット間での推論を加速するが、これは多くの標準的なプルーニング手法ではそうではない。 本稿では,複数のネットワークアーキテクチャとデータセット上での手法の性能,最適化特性の解析,アブレーション研究を行う。

We develop a fast end-to-end method for training lightweight neural networks using multiple classifier heads. By allowing the model to determine the importance of each head and rewarding the choice of a single shallow classifier, we are able to detect and remove unneeded components of the network. This operation, which can be seen as finding the optimal depth of the model, significantly reduces the number of parameters and accelerates inference across different hardware processing units, which is not the case for many standard pruning methods. We show the performance of our method on multiple network architectures and datasets, analyze its optimization properties, and conduct ablation studies.
翻訳日:2022-12-12 12:40:09 公開日:2020-04-17
# DTW-SOMによる時系列モチーフの探索

Exploring time-series motifs through DTW-SOM ( http://arxiv.org/abs/2004.08176v1 )

ライセンス: Link先を確認
Maria In\^es Silva and Roberto Henriques(参考訳) モチーフ発見は、クラスタリング、分類、異常検出といった時系列データのためのデータマイニングタスクの基本的なステップである。 多くの論文が、新しいモチーフ発見アルゴリズムを提案して、時系列でモチーフを見つける方法の問題に取り組んでいるが、これらのアルゴリズムによって抽出されたモチーフの探索についてはあまり研究されていない。 本稿では,モチーフ探索アルゴリズムによって計算された時系列モチーフを視覚的に探索することは,結果の理解とデバッグに有用である,と論じる。 モチーフ発見アルゴリズムの出力を探索するために,モチーフ中心の一覧に適応した自己組織化マップdtw-somを用いることを提案する。 要するにDTW-SOMは,(1)ユークリッド距離の代わりに動的時間ワープ距離を用いること,(2)2つの新しいネットワーク初期化ルーチン(ランダム標本初期化とアンカー初期化)の導入,(3)可変長時系列シーケンスを扱うためのトレーニングの適応フェーズの調整という,3つの大きな違いを持つ,バニラ自己組織化マップである。 UCR時系列分類アーカイブから合成モチーフデータセットと実時間時系列データセットを用いてDTW-SOMをテストする。 実験の結果,DTW-SOMは一連のモチーフから関連情報を抽出し,空間効率のよい可視化に表示できることがわかった。

Motif discovery is a fundamental step in data mining tasks for time-series data such as clustering, classification and anomaly detection. Even though many papers have addressed the problem of how to find motifs in time-series by proposing new motif discovery algorithms, not much work has been done on the exploration of the motifs extracted by these algorithms. In this paper, we argue that visually exploring time-series motifs computed by motif discovery algorithms can be useful to understand and debug results. To explore the output of motif discovery algorithms, we propose the use of an adapted Self-Organizing Map, the DTW-SOM, on the list of motif's centers. In short, DTW-SOM is a vanilla Self-Organizing Map with three main differences, namely (1) the use the Dynamic Time Warping distance instead of the Euclidean distance, (2) the adoption of two new network initialization routines (a random sample initialization and an anchor initialization) and (3) the adjustment of the Adaptation phase of the training to work with variable-length time-series sequences. We test DTW-SOM in a synthetic motif dataset and two real time-series datasets from the UCR Time Series Classification Archive. After an exploration of results, we conclude that DTW-SOM is capable of extracting relevant information from a set of motifs and display it in a visualization that is space-efficient.
翻訳日:2022-12-12 12:39:59 公開日:2020-04-17
# ランダムに投影された線形判別式の漸近解析

Asymptotic Analysis of an Ensemble of Randomly Projected Linear Discriminants ( http://arxiv.org/abs/2004.08217v1 )

ライセンス: Link先を確認
Lama B. Niyazi, Abla Kammoun, Hayssam Dahrouj, Mohamed-Slim Alouini, and Tareq Y. Al-Naffouri(参考訳) バイオインフォマティクス、化学計測、顔認識の分野からのデータセットは通常、高次元データの小さなサンプルによって特徴づけられる。 このような設定で分類に関連する問題を正すために提案された線形判別分析の多くの変種のうち、ランダムに投影された線形判別式のアンサンブルからなる[1]の分類器は、特に有望であり、計算効率が高く、最適な射影次元パラメータ設定では最先端と競合している。 本研究では,この分類器の動作を漸近解析によりさらに理解することを目的とする。 データセットと投影次元が互いに一定の速度で成長する成長状態の仮定の下で、ランダム行列理論を用いて、データサンプル共分散行列の正規化としてアンサンブルの効果を示す漸近的誤分類確率を導出する。 漸近的エラーはさらに、アンサンブルがパフォーマンス上の優位性をもたらす状況を特定するのに役立つ。 また,従来パラメータチューニングに用いられてきた計算コストのクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発した。 最後に,実データと合成データの両方に投影次元をチューニングするための推定器の使用例を示す。

Datasets from the fields of bioinformatics, chemometrics, and face recognition are typically characterized by small samples of high-dimensional data. Among the many variants of linear discriminant analysis that have been proposed in order to rectify the issues associated with classification in such a setting, the classifier in [1], composed of an ensemble of randomly projected linear discriminants, seems especially promising; it is computationally efficient and, with the optimal projection dimension parameter setting, is competitive with the state-of-the-art. In this work, we seek to further understand the behavior of this classifier through asymptotic analysis. Under the assumption of a growth regime in which the dataset and projection dimensions grow at constant rates to each other, we use random matrix theory to derive asymptotic misclassification probabilities showing the effect of the ensemble as a regularization of the data sample covariance matrix. The asymptotic errors further help to identify situations in which the ensemble offers a performance advantage. We also develop a consistent estimator of the misclassification probability as an alternative to the computationally-costly cross-validation estimator, which is conventionally used for parameter tuning. Finally, we demonstrate the use of our estimator for tuning the projection dimension on both real and synthetic data.
翻訳日:2022-12-12 12:39:34 公開日:2020-04-17
# 適応学習システムのための深層強化学習

Deep Reinforcement Learning for Adaptive Learning Systems ( http://arxiv.org/abs/2004.08410v1 )

ライセンス: Link先を確認
Xiao Li, Hanchen Xu, Jinming Zhang, Hua-hua Chang(参考訳) 本稿では,マルコフ決定過程(MDP)として適応学習システムに面した適応学習システムにおいて,学習者の潜在特性に基づいて最も適切な学習材料を選択するための個別学習計画(政策と呼ばれる)の探索方法の問題点を定式化する。 潜在特性は未知の遷移モデルと連続していると仮定する。 学習者の連続潜在特性の実際の遷移モデルを知ることなく、学習者の学習過程のデータから最適な学習方針を効果的に見つけることができるモデルフリーの深層強化学習アルゴリズム(深層q学習アルゴリズム)を適用する。 利用可能なデータを効率的に活用するために,ニューラルネットワークを用いて学習者の学習過程をエミュレートする遷移モデル推定器を開発した。 遷移モデル推定器は深層q学習アルゴリズムで使用することができ、学習者にとって最適な学習方針をより効率的に発見することができる。 数値シミュレーション研究により,提案アルゴリズムは優れた学習方針,特に遷移モデル推定器の助けを借りて,少数の学習者を用いた学習後に最適な学習方針を見出すことができることを確認した。

In this paper, we formulate the adaptive learning problem---the problem of how to find an individualized learning plan (called policy) that chooses the most appropriate learning materials based on learner's latent traits---faced in adaptive learning systems as a Markov decision process (MDP). We assume latent traits to be continuous with an unknown transition model. We apply a model-free deep reinforcement learning algorithm---the deep Q-learning algorithm---that can effectively find the optimal learning policy from data on learners' learning process without knowing the actual transition model of the learners' continuous latent traits. To efficiently utilize available data, we also develop a transition model estimator that emulates the learner's learning process using neural networks. The transition model estimator can be used in the deep Q-learning algorithm so that it can more efficiently discover the optimal learning policy for a learner. Numerical simulation studies verify that the proposed algorithm is very efficient in finding a good learning policy, especially with the aid of a transition model estimator, it can find the optimal learning policy after training using a small number of learners.
翻訳日:2022-12-12 12:38:51 公開日:2020-04-17
# AIとLTプラットフォームの相互運用可能なエコシステムに向けて:相互運用の異なるレベルを実装するためのロードマップ

Towards an Interoperable Ecosystem of AI and LT Platforms: A Roadmap for the Implementation of Different Levels of Interoperability ( http://arxiv.org/abs/2004.08355v1 )

ライセンス: Link先を確認
Georg Rehm, Dimitrios Galanis, Penny Labropoulou, Stelios Piperidis, Martin Wel{\ss}, Ricardo Usbeck, Joachim K\"ohler, Miltos Deligiannis, Katerina Gkirtzou, Johannes Fischer, Christian Chiarcos, Nils Feldhus, Juli\'an Moreno-Schneider, Florian Kintzel, Elena Montiel, V\'ictor Rodr\'iguez Doncel, John P. McCrae, David Laqua, Irina Patricia Theile, Christian Dittmar, Kalina Bontcheva, Ian Roberts, Andrejs Vasiljevs, Andis Lagzdi\c{n}\v{s}(参考訳) AI/LTプラットフォームの相互運用性の広範な領域については,(1)クロスプラットフォーム検索とリソースとサービスの発見,(2)クロスプラットフォームサービスワークフローの構成という,2つの中核的な側面に注目する。 プラットフォーム相互運用性の5つの異なるレベル(複雑性の増大)を考案し、AI/LTプラットフォームのより広範なフェデレーションで実装することを提案しています。 本稿では,AI/LTプラットフォームAI4EU,ELG,Lynx,QURATOR,SPEAKERの5つのアプローチについて説明する。

With regard to the wider area of AI/LT platform interoperability, we concentrate on two core aspects: (1) cross-platform search and discovery of resources and services; (2) composition of cross-platform service workflows. We devise five different levels (of increasing complexity) of platform interoperability that we suggest to implement in a wider federation of AI/LT platforms. We illustrate the approach using the five emerging AI/LT platforms AI4EU, ELG, Lynx, QURATOR and SPEAKER.
翻訳日:2022-12-12 10:16:25 公開日:2020-04-17
# 短期交通予測のためのディープエコー状態ネットワーク:性能比較と統計的評価

Deep Echo State Networks for Short-Term Traffic Forecasting: Performance Comparison and Statistical Assessment ( http://arxiv.org/abs/2004.08170v1 )

ライセンス: Link先を確認
Javier Del Ser, Ibai Lana, Eric L. Manibardo, Izaskun Oregi, Eneko Osaba, Jesus L. Lobo, Miren Nekane Bilbao, Eleni I. Vlahogianni(参考訳) 短期的な交通予測では、予測がクエリされた直後に発生する関心の交通パラメータの将来値を正確に予測することが目的である。 この長年にわたる研究分野で報告された活動は、近年、様々なディープラーニングアプローチによって支配されており、一般的には疑わしい実用性の精度向上を達成できる、過度に複雑な予測モデルが得られている。 この作業では、特定のタスクに対するDeep Echo State Networksのパフォーマンスについて詳しく説明します。 効率的な学習アルゴリズムとこれらの代替モデリングアプローチのパラメトリック構成は、厳密に制限された計算資源を持つデバイスやシステムにデプロイされる実際のITSアプリケーションの競合トラフィック予測方法として出現する。 大規模な比較ベンチマークは、マドリード市(スペイン)で取得された実際のトラフィックデータに基づいて設計されており、130以上の自動トラフィックリーダー(ATR)と、いくつかの浅い学習、アンサンブル、ディープラーニングモデルがある。 この比較ベンチマークと報告されたパフォーマンスギャップの統計的意義の分析の結果は決定的である: ディープエコー状態ネットワークは、他のモデルと比べ、より正確なトラフィック予測を達成している。

In short-term traffic forecasting, the goal is to accurately predict future values of a traffic parameter of interest occurring shortly after the prediction is queried. The activity reported in this long-standing research field has been lately dominated by different Deep Learning approaches, yielding overly complex forecasting models that in general achieve accuracy gains of questionable practical utility. In this work we elaborate on the performance of Deep Echo State Networks for this particular task. The efficient learning algorithm and simpler parametric configuration of these alternative modeling approaches make them emerge as a competitive traffic forecasting method for real ITS applications deployed in devices and systems with stringently limited computational resources. An extensive comparison benchmark is designed with real traffic data captured over the city of Madrid (Spain), amounting to more than 130 automatic Traffic Readers (ATRs) and several shallow learning, ensembles and Deep Learning models. Results from this comparison benchmark and the analysis of the statistical significance of the reported performance gaps are decisive: Deep Echo State Networks achieve more accurate traffic forecasts than the rest of considered modeling counterparts.
翻訳日:2022-12-12 10:16:15 公開日:2020-04-17
# ビデオにおける知識に基づく視覚的質問応答

Knowledge-Based Visual Question Answering in Videos ( http://arxiv.org/abs/2004.08385v1 )

ライセンス: Link先を確認
Noa Garcia, Mayu Otani, Chenhui Chu, Yuta Nakashima(参考訳) 本稿では,知識ベースとビデオ質問応答を融合した新しい映像理解タスクを提案する。 まず、一般的なシットコムに関する24,282対の質問応答対を持つビデオデータセットであるKnowIT VQAを紹介する。 データセットは、視覚的、テキスト的、時間的コヒーレンス推論と、シリーズの視聴から得られた経験を必要とする知識ベースの質問を組み合わせる。 第2に、映像コンテンツとテキストビデオコンテンツと、番組に関する特定の知識を組み合わせた映像理解モデルを提案する。 私たちの主な発見は 一 ビデオにおけるVQAに対する知識の付与は、卓越した改善をもたらす。 (II)nowIT VQAの性能は人間の精度にかなり遅れており、現在のビデオモデリングの限界を研究するのに有用であることを示している。

We propose a novel video understanding task by fusing knowledge-based and video question answering. First, we introduce KnowIT VQA, a video dataset with 24,282 human-generated question-answer pairs about a popular sitcom. The dataset combines visual, textual and temporal coherence reasoning together with knowledge-based questions, which need of the experience obtained from the viewing of the series to be answered. Second, we propose a video understanding model by combining the visual and textual video content with specific knowledge about the show. Our main findings are: (i) the incorporation of knowledge produces outstanding improvements for VQA in video, and (ii) the performance on KnowIT VQA still lags well behind human accuracy, indicating its usefulness for studying current video modelling limitations.
翻訳日:2022-12-12 10:15:38 公開日:2020-04-17
# 文脈的単語埋め込みと知識グラフ埋め込みの組み合わせの探索

Exploring the Combination of Contextual Word Embeddings and Knowledge Graph Embeddings ( http://arxiv.org/abs/2004.08371v1 )

ライセンス: Link先を確認
Lea Dieudonat, Kelvin Han, Phyllicia Leavitt, Esteban Marquer(参考訳) word2vec のような ``classical'' の単語埋め込みは、その分布特性に基づいて単語の意味を捉えることが示されている。 しかし、単語が持つ可能性のある異なる意味を表現する能力は限られている。 このようなアプローチは、単語で表されるように、エンティティ間の関係を明示的にエンコードしない。 知識ベース(KB)の埋め込みは、単語によって示されるエンティティ間の明示的な関係をキャプチャするが、これらの単語の構文的性質を直接キャプチャすることはできない。 我々の知る限り、近年の研究は、一方の強みを増大させる表現学習に焦点を当てている。 本研究では,コンテキスト埋め込みとKB埋め込みを同時に併用した別の手法を模索し,コンテキスト埋め込みとKB埋め込みのパフォーマンスを評価する2つのタスク,エンティティ型付けとリレーショナル型付けタスクを提案する。 また、これらの2つのタスクとコンテキストとKBの埋め込みの結合モデルを評価し、最初のタスクで決定的な結果を得る。 このアプローチの方向に発展するモデルとデータセットの基礎として、私たちの作業が貢献できることを期待しています。

``Classical'' word embeddings, such as Word2Vec, have been shown to capture the semantics of words based on their distributional properties. However, their ability to represent the different meanings that a word may have is limited. Such approaches also do not explicitly encode relations between entities, as denoted by words. Embeddings of knowledge bases (KB) capture the explicit relations between entities denoted by words, but are not able to directly capture the syntagmatic properties of these words. To our knowledge, recent research have focused on representation learning that augment the strengths of one with the other. In this work, we begin exploring another approach using contextual and KB embeddings jointly at the same level and propose two tasks -- an entity typing and a relation typing task -- that evaluate the performance of contextual and KB embeddings. We also evaluated a concatenated model of contextual and KB embeddings with these two tasks, and obtain conclusive results on the first task. We hope our work may contribute as a basis for models and datasets that develop in the direction of this approach.
翻訳日:2022-12-12 10:14:36 公開日:2020-04-17
# 文書接地対話システム(DGDS)に関する調査

A Survey of Document Grounded Dialogue Systems (DGDS) ( http://arxiv.org/abs/2004.13818v1 )

ライセンス: Link先を確認
Longxuan Ma and Wei-Nan Zhang and Mingda Li and Ting Liu(参考訳) 対話システム(DS)はその幅広い応用可能性から,産業や学界から大きな注目を集めている。 研究者は通常、機能に応じてDSを分割する。 しかし、多くの会話はdsを異なる機能に切り替える必要がある。 例えば、映画の議論はチットチャットからQAに変更できるし、会話の推薦はチットチャットからレコメンデーションに変換できる。 したがって、機能による分類は、現在の開発傾向を理解するのに十分なものではないかもしれない。 我々は背景知識に基づいてDSを分類する。 具体的には、非構造化文書に基づいて最新のDSを研究する。 本研究は,文書基盤対話システム(DGDS)を,対話が与えられた文書に集中しているDSとして定義する。 DGDSは、製品マニュアルに対する商品の会話、ニュースレポートへのコメントなどのシナリオで使用することができる。 我々は,非構造化文書(s)情報の抽出がdsの将来の動向であると信じている。 DGDSの研究は幅広い応用可能性を持っているだけでなく、AIが人間の知識や自然言語をよりよく理解できるようにする。 我々は,dgdの分類,アーキテクチャ,データセット,モデル,今後の開発動向を分析し,この分野の研究者の支援を期待する。

Dialogue system (DS) attracts great attention from industry and academia because of its wide application prospects. Researchers usually divide the DS according to the function. However, many conversations require the DS to switch between different functions. For example, movie discussion can change from chit-chat to QA, the conversational recommendation can transform from chit-chat to recommendation, etc. Therefore, classification according to functions may not be enough to help us appreciate the current development trend. We classify the DS based on background knowledge. Specifically, study the latest DS based on the unstructured document(s). We define Document Grounded Dialogue System (DGDS) as the DS that the dialogues are centering on the given document(s). The DGDS can be used in scenarios such as talking over merchandise against product Manual, commenting on news reports, etc. We believe that extracting unstructured document(s) information is the future trend of the DS because a great amount of human knowledge lies in these document(s). The research of the DGDS not only possesses a broad application prospect but also facilitates AI to better understand human knowledge and natural language. We analyze the classification, architecture, datasets, models, and future development trends of the DGDS, hoping to help researchers in this field.
翻訳日:2022-12-12 10:08:15 公開日:2020-04-17
# Show Us the Way: デモからダイアログを学習する

Show Us the Way: Learning to Manage Dialog from Demonstrations ( http://arxiv.org/abs/2004.08114v1 )

ライセンス: Link先を確認
Gabriel Gordon-Hall, Philip John Gorinski, Gerasimos Lampouras, Ignacio Iacobacci(参考訳) 本稿では,第8回ダイアログ・システム・テクノロジ・チャレンジのエンドツーエンドマルチドメイン・ダイアログ・チャレンジ・トラックに提案する。 提案するダイアログシステムは,自然言語理解,対話状態追跡,ダイアログ管理,自然言語生成などの異なるコンポーネントを備えたパイプラインアーキテクチャを採用している。 システムの中心となるのは,Demonstrations からの深層Q-learning を用いて,専門家の助けを借りてダイアログポリシーを学習する強化学習アルゴリズムである。 状態空間と行動空間の両方が大きい正確なダイアログポリシーのトレーニングには,デモが不可欠であることがわかった。 我々のダイアログ管理コンポーネントの評価は、我々のアプローチが効果的であることを示している。

We present our submission to the End-to-End Multi-Domain Dialog Challenge Track of the Eighth Dialog System Technology Challenge. Our proposed dialog system adopts a pipeline architecture, with distinct components for Natural Language Understanding, Dialog State Tracking, Dialog Management and Natural Language Generation. At the core of our system is a reinforcement learning algorithm which uses Deep Q-learning from Demonstrations to learn a dialog policy with the help of expert examples. We find that demonstrations are essential to training an accurate dialog policy where both state and action spaces are large. Evaluation of our Dialog Management component shows that our approach is effective - beating supervised and reinforcement learning baselines.
翻訳日:2022-12-12 10:07:56 公開日:2020-04-17
# リカレントネットワークによる感情分析における文脈処理の実践

How recurrent networks implement contextual processing in sentiment analysis ( http://arxiv.org/abs/2004.08013v1 )

ライセンス: Link先を確認
Niru Maheswaranathan, David Sussillo(参考訳) ニューラルネットワークは、現在の入力の処理を変更するために最近または近くの入力を使用して、コンテキスト処理に顕著な能力を持っている。 例えば、自然言語では、文脈処理は否定を正しく解釈するために必要である(例えば、"not bad"のようなフレーズ)。 しかし、ネットワークがどのようにコンテキストを処理するかを理解する能力は限られている。 本稿では、コンテキスト処理を識別し、解明するためのリバースエンジニアリング・リカレントニューラルネットワーク(RNN)の一般的な手法を提案する。 これらの方法を用いて感情分類を訓練したrnnを理解する。 この分析は、文脈効果を誘発する入力を明らかにし、これらの効果の強さと時間スケールを定量化し、同様の特性でこれらの入力の集合を同定する。 さらに,文書の開始と終了の差分処理に関連する文脈効果を解析する。 RNNから学んだ知見を用いて、ベースラインのBag-of-Wordsモデルを改善し、コンテキスト修正を組み込んだシンプルな拡張を行い、ベースライン上でのRNNのパフォーマンス向上の90%以上を回復する。 この研究は、rnnが文脈情報を処理する方法の新しい理解をもたらし、同様の洞察をより広く提供するツールを提供する。

Neural networks have a remarkable capacity for contextual processing--using recent or nearby inputs to modify processing of current input. For example, in natural language, contextual processing is necessary to correctly interpret negation (e.g. phrases such as "not bad"). However, our ability to understand how networks process context is limited. Here, we propose general methods for reverse engineering recurrent neural networks (RNNs) to identify and elucidate contextual processing. We apply these methods to understand RNNs trained on sentiment classification. This analysis reveals inputs that induce contextual effects, quantifies the strength and timescale of these effects, and identifies sets of these inputs with similar properties. Additionally, we analyze contextual effects related to differential processing of the beginning and end of documents. Using the insights learned from the RNNs we improve baseline Bag-of-Words models with simple extensions that incorporate contextual modification, recovering greater than 90% of the RNN's performance increase over the baseline. This work yields a new understanding of how RNNs process contextual information, and provides tools that should provide similar insight more broadly.
翻訳日:2022-12-12 10:07:45 公開日:2020-04-17
# 回転不変運動に対する目標条件付きバッチ強化学習

Goal-conditioned Batch Reinforcement Learning for Rotation Invariant Locomotion ( http://arxiv.org/abs/2004.08356v1 )

ライセンス: Link先を確認
Aditi Mavalankar(参考訳) 本稿では,目標条件付きロコモーションポリシーをバッチRL設定で学習するための新しいアプローチを提案する。 バッチデータは、目標条件のないポリシーによって収集される。 移動タスクでは、エージェントが一方向にまっすぐ歩くために学んだポリシーを使用してデータ収集を行い、そのデータを使ってエージェントが任意の方向に歩くことができる目標条件のポリシーを学ぶ。 使用するデータ収集ポリシは、エージェントが直面している方向、すなわち、最初の方向に関わらず、エージェントが前進するために同じアクションを取る必要がある。 この特性を利用して,(1)同一動作の軌跡を異なる方向に生成してデータを増やすこと,(2)シームズフレームワークを用いて回転した軌跡間の不変性を強制するエンコーダを学習すること,の2つのキーアイデアを用いて目標条件ポリシーを学習する。 提案手法はant,humanoid,minitaurなどの3次元ロコモーションエージェントにおいて既存のrlアルゴリズムよりも優れていることを示す。

We propose a novel approach to learn goal-conditioned policies for locomotion in a batch RL setting. The batch data is collected by a policy that is not goal-conditioned. For the locomotion task, this translates to data collection using a policy learnt by the agent for walking straight in one direction, and using that data to learn a goal-conditioned policy that enables the agent to walk in any direction. The data collection policy used should be invariant to the direction the agent is facing i.e. regardless of its initial orientation, the agent should take the same actions to walk forward. We exploit this property to learn a goal-conditioned policy using two key ideas: (1) augmenting data by generating trajectories with the same actions in different directions, and (2) learning an encoder that enforces invariance between these rotated trajectories with a Siamese framework. We show that our approach outperforms existing RL algorithms on 3-D locomotion agents like Ant, Humanoid and Minitaur.
翻訳日:2022-12-12 10:06:56 公開日:2020-04-17
# EGFC:Never-Ending Semi-Supervised Data Streamsからガウスファジィ分類器を進化させる -- 電力品質劣化検出と分類への応用

EGFC: Evolving Gaussian Fuzzy Classifier from Never-Ending Semi-Supervised Data Streams -- With Application to Power Quality Disturbance Detection and Classification ( http://arxiv.org/abs/2004.09986v1 )

ライセンス: Link先を確認
Daniel Leite, Leticia Decker, Marcio Santana, Paulo Souza(参考訳) 電力品質の乱れは、生産能力の制限、ラインと機器の電流の増大、それに伴うオーミックな損失、高い運転温度、未熟な故障、機械の寿命の短縮、機器の故障、計画外の故障など、いくつかの欠点を引き起こした。 障害のリアルタイム検出と分類は、業界標準に不可欠であると考えられている。 本稿では,半教師付き外乱検出と分類のためのガウス的ファジィ分類(egfc)フレームワークと,ハイブリッドホドリック・プレスコット法と離散フーリエ変換属性抽出法を組み合わせた,電圧波形のランドマークウィンドウ上で適用する手法を提案する。 スパイク、ノッチング、ハーモニック、振動過渡といった乱れが考慮される。 限られたデータ量と発生量に基づいてモデルをオフラインでトレーニングする他のモニタリングシステムとは異なり,提案したオンラインデータストリームベースのEGFC法は,ファジィルールベースのパラメータや構造をオンザフライで適用することにより,絶え間ないデータストリームから障害パターンを自律的に学習することができる。 さらに、得られたファジィモデルは言語的に解釈可能であり、モデル受容性が向上する。 分類の結果を奨励する。

Power-quality disturbances lead to several drawbacks such as limitation of the production capacity, increased line and equipment currents, and consequent ohmic losses; higher operating temperatures, premature faults, reduction of life expectancy of machines, malfunction of equipment, and unplanned outages. Real-time detection and classification of disturbances are deemed essential to industry standards. We propose an Evolving Gaussian Fuzzy Classification (EGFC) framework for semi-supervised disturbance detection and classification combined with a hybrid Hodrick-Prescott and Discrete-Fourier-Transform attribute-extraction method applied over a landmark window of voltage waveforms. Disturbances such as spikes, notching, harmonics, and oscillatory transient are considered. Different from other monitoring systems, which require offline training of models based on a limited amount of data and occurrences, the proposed online data-stream-based EGFC method is able to learn disturbance patterns autonomously from never-ending data streams by adapting the parameters and structure of a fuzzy rule base on the fly. Moreover, the fuzzy model obtained is linguistically interpretable, which improves model acceptability. We show encouraging classification results.
翻訳日:2022-12-12 10:06:39 公開日:2020-04-17
# F2A2: 協調型マルチエージェント強化学習のためのフレキシブル完全分散近似アクタ批判

F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2004.11145v1 )

ライセンス: Link先を確認
Wenhao Li and Bo Jin and Xiangfeng Wang and Junchi Yan and Hongyuan Zha(参考訳) 従来の集中型マルチエージェント強化学習(marl)アルゴリズムは、エージェント間の非相互作用、次元の呪い、計算複雑性のため、複雑なアプリケーションでは実践的でないことがある。 したがって、複数の分散marlアルゴリズムが動機付けされている。 しかし、既存の分散化手法は、訓練中に大量の情報を伝達する必要がある完全に協調的な設定のみを扱う。 連続的な独立アクターや批評家のステップに使用するブロック座標勾配降下スキームは計算を単純化することができるが、重大なバイアスを引き起こす。 本稿では,アクター批判手法の大部分が組み合わさり,大規模で汎用的なマルチエージェント設定を処理できる,フレキシブルな完全分散型アクター批判型MARLフレームワークを提案する。 分散化のために個別のエージェントを別々に学習するように設計されている。 各エージェントの観点からは、政策改善と価値評価を共同で最適化し、マルチエージェント政策学習を安定化させる。 さらに,本フレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,パラメータ共有機構とオンライン教師あり学習に基づく新しいモデリング支援手法により情報伝達を低減する。 協調型多エージェント粒子環境とStarCraft IIにおける十分な実験により,従来の集中型・分散型手法と競合する分散型MARLインスタンス化アルゴリズムが得られた。

Traditional centralized multi-agent reinforcement learning (MARL) algorithms are sometimes unpractical in complicated applications, due to non-interactivity between agents, curse of dimensionality and computation complexity. Hence, several decentralized MARL algorithms are motivated. However, existing decentralized methods only handle the fully cooperative setting where massive information needs to be transmitted in training. The block coordinate gradient descent scheme they used for successive independent actor and critic steps can simplify the calculation, but it causes serious bias. In this paper, we propose a flexible fully decentralized actor-critic MARL framework, which can combine most of actor-critic methods, and handle large-scale general cooperative multi-agent setting. A primal-dual hybrid gradient descent type algorithm framework is designed to learn individual agents separately for decentralization. From the perspective of each agent, policy improvement and value evaluation are jointly optimized, which can stabilize multi-agent policy learning. Furthermore, our framework can achieve scalability and stability for large-scale environment and reduce information transmission, by the parameter sharing mechanism and a novel modeling-other-agents methods based on theory-of-mind and online supervised learning. Sufficient experiments in cooperative Multi-agent Particle Environment and StarCraft II show that our decentralized MARL instantiation algorithms perform competitively against conventional centralized and decentralized methods.
翻訳日:2022-12-12 10:06:12 公開日:2020-04-17
# yurugan:小さなデータセットをクラスタリングした生成型逆ネットワークを用いたyuru-chara mascotジェネレータ

YuruGAN: Yuru-Chara Mascot Generator Using Generative Adversarial Networks With Clustering Small Dataset ( http://arxiv.org/abs/2004.08066v1 )

ライセンス: Link先を確認
Yuki Hagiwara and Toshihisa Tanaka(参考訳) ユルチャラ(yuru-chara)は、地方自治体や企業が地域や商品に関する情報を公開するために作ったマスコットキャラクターである。 ユルクラを作成するには様々なコストがかかるため、GAN(Generative Adversarial Network)のような機械学習技術の利用が期待できる。 近年,GAN訓練用データセットにおけるクラス条件の使用は学習を安定させ,生成した画像の品質を向上させることが報告されている。 しかし,原データの量が小さく,明確なクラスが与えられていないような場合,ユルチャラ画像などの条件付きganを適用することは困難である。 本稿では,クラスタリングとデータ拡張に基づくクラス条件付きGANを提案する。 具体的には、まず、yuru-charaイメージデータセット上でk-means++に基づくクラスタリングを行い、それをクラス条件付きデータセットに変換した。 次に、クラス条件付きデータセット上でデータ拡張を行い、データ量を5倍に増やした。 さらに,ResBlockと自己注意をクラス条件GANに基づくネットワークに組み込んだモデルを構築し,クラス条件Yru-charaデータセットを訓練した。 生成画像の評価の結果,クラスタリング法の違いによる生成画像への影響が確認された。

A yuru-chara is a mascot character created by local governments and companies for publicizing information on areas and products. Because it takes various costs to create a yuruchara, the utilization of machine learning techniques such as generative adversarial networks (GANs) can be expected. In recent years, it has been reported that the use of class conditions in a dataset for GANs training stabilizes learning and improves the quality of the generated images. However, it is difficult to apply class conditional GANs when the amount of original data is small and when a clear class is not given, such as a yuruchara image. In this paper, we propose a class conditional GAN based on clustering and data augmentation. Specifically, first, we performed clustering based on K-means++ on the yuru-chara image dataset and converted it into a class conditional dataset. Next, data augmentation was performed on the class conditional dataset so that the amount of data was increased five times. In addition, we built a model that incorporates ResBlock and self-attention into a network based on class conditional GAN and trained the class conditional yuru-chara dataset. As a result of evaluating the generated images, the effect on the generated images by the difference of the clustering method was confirmed.
翻訳日:2022-12-12 10:05:35 公開日:2020-04-17