このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201121となっている論文です。

PDF登録状況(公開日: 20201121)

TitleAuthorsAbstract論文公表日・翻訳日
# Q-EEGNet:エッジモータ・イメージ脳-マシンインタフェースのためのエネルギー効率の良い8ビット量子化並列EEGNet実装

Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet Implementation for Edge Motor-Imagery Brain--Machine Interfaces ( http://arxiv.org/abs/2004.11690v2 )

ライセンス: Link先を確認
Tibor Schneider, Xiaying Wang, Michael Hersche, Lukas Cavigelli, Luca Benini(参考訳) 運動画像脳-機械インタフェース(MI-BMI)は、脳波(EEG)で記録された脳活動を分析することにより、ヒト脳と機械間の直接的かつアクセス可能なコミュニケーションを促進する。 レイテンシ、信頼性、プライバシの制約により、計算をクラウドにオフロードするのは不向きです。 実用ユースケースでは、長期使用に必要な平均消費電力が低いウェアラブルなバッテリー駆動デバイスが要求される。 近年,脳波信号分類のための高度なアルゴリズム,特に深層学習モデルが出現している。 精度は優れているが、これらのモデルはメモリと計算要求のためにエッジデバイスの限界を超えることが多い。 本稿では,多数のBMIパラダイムに適したコンパクト畳み込みニューラルネットワーク(CNN)であるEEGNETのアルゴリズムおよび実装最適化について述べる。 本稿では,8ビット固定点に対する重みとアクティベーションを4クラスmiにおける0.4%の精度損失で定量化し,独自のrisc-v isa拡張と8コア計算クラスタを用いて,mr.wolf並列超低電力(pulp)システムオンチップ(soc)上でのエネルギー効率の高いハードウェアアウェア実装を提案する。 提案する最適化ステップにより,64倍の高速化と最大85%のメモリフットプリント削減が可能となった。 我々の実装はわずか5.82msで、推論毎に0.627mJを消費する。 21.0GMAC/s/Wでは、ARM Cortex-M7(0.082GMAC/s/W)上のEEGNET実装よりも256倍エネルギー効率が高い。

Motor-Imagery Brain--Machine Interfaces (MI-BMIs)promise direct and accessible communication between human brains and machines by analyzing brain activities recorded with Electroencephalography (EEG). Latency, reliability, and privacy constraints make it unsuitable to offload the computation to the cloud. Practical use cases demand a wearable, battery-operated device with low average power consumption for long-term use. Recently, sophisticated algorithms, in particular deep learning models, have emerged for classifying EEG signals. While reaching outstanding accuracy, these models often exceed the limitations of edge devices due to their memory and computational requirements. In this paper, we demonstrate algorithmic and implementation optimizations for EEGNET, a compact Convolutional Neural Network (CNN) suitable for many BMI paradigms. We quantize weights and activations to 8-bit fixed-point with a negligible accuracy loss of 0.4% on 4-class MI, and present an energy-efficient hardware-aware implementation on the Mr.Wolf parallel ultra-low power (PULP) System-on-Chip (SoC) by utilizing its custom RISC-V ISA extensions and 8-core compute cluster. With our proposed optimization steps, we can obtain an overall speedup of 64x and a reduction of up to 85% in memory footprint with respect to a single-core layer-wise baseline implementation. Our implementation takes only 5.82 ms and consumes 0.627 mJ per inference. With 21.0GMAC/s/W, it is 256x more energy-efficient than an EEGNET implementation on an ARM Cortex-M7 (0.082GMAC/s/W).
翻訳日:2022-12-10 04:19:59 公開日:2020-11-21
# 言語間位置表現による自己認識

Self-Attention with Cross-Lingual Position Representation ( http://arxiv.org/abs/2004.13310v4 )

ライセンス: Link先を確認
Liang Ding, Longyue Wang, Dacheng Tao(参考訳) 位置符号化(PE)は自己注意ネットワーク(SAN)の重要な部分であり、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。 しかし、機械翻訳のような言語横断のシナリオでは、ソースとターゲットの文のPEは独立してモデル化される。 語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。 本稿では、入力文のバイリンガル認識潜在構造をモデル化するために、SANを \emph{cross-lingual position representations} で拡張する。 具体的には、ブラケット変換文法(BTG)に基づく並べ替え情報を用いて、SANに二言語対角アライメントの学習を促す。 WMT'14 English$\Rightarrow$ German, WAT'17 Japanese$\Rightarrow$ English, WMT'17 Chinese$\Leftrightarrow$ English による実験結果は,我々のアプローチが強いベースラインよりも大幅に,一貫して翻訳品質を向上させることを示した。 徹底的な分析により、性能向上は言語間情報によるものであることが確認される。

Position encoding (PE), an essential part of self-attention networks (SANs), is used to preserve the word order information for natural language processing tasks, generating fixed position indices for input sequences. However, in cross-lingual scenarios, e.g. machine translation, the PEs of source and target sentences are modeled independently. Due to word order divergences in different languages, modeling the cross-lingual positional relationships might help SANs tackle this problem. In this paper, we augment SANs with \emph{cross-lingual position representations} to model the bilingually aware latent structure for the input sentence. Specifically, we utilize bracketing transduction grammar (BTG)-based reordering information to encourage SANs to learn bilingual diagonal alignments. Experimental results on WMT'14 English$\Rightarrow$German, WAT'17 Japanese$\Rightarrow$English, and WMT'17 Chinese$\Leftrightarrow$English translation tasks demonstrate that our approach significantly and consistently improves translation quality over strong baselines. Extensive analyses confirm that the performance gains come from the cross-lingual information.
翻訳日:2022-12-08 23:00:57 公開日:2020-11-21
# 語彙包含と否定の理論を部分的に埋め込んだニューラル自然言語推論モデル

Neural Natural Language Inference Models Partially Embed Theories of Lexical Entailment and Negation ( http://arxiv.org/abs/2004.14623v4 )

ライセンス: Link先を確認
Atticus Geiger, Kyle Richardson, and Christopher Potts(参考訳) 自然言語推論のためのニューラルモデル(NLI)は,(1)チャレンジテストセットの行動評価法と(2)体系的一般化タスク,(3)プローブの構造的評価法と(4)介入の4つの手法を用いて,語彙包含と否定の合成相互作用を学習できるかどうかを考察する。 この包括的評価を容易にするために,語彙の包含と否定に焦点をあてた新しい自然主義的データセットであるモノトニティNLI(MoNLI)を提案する。 我々の行動評価では、汎用NLIデータセットでトレーニングされたモデルは否定を含むMoNLIの例で体系的に失敗するが、MoNLIの微調整はこの失敗に対処する。 構造評価では,トップパフォーマンスのBERTベースのモデルが,MoNLIの背後にある単調性アルゴリズムを実装することを学習したことを示す。 この結論に一致した証拠が得られ、我々の介入実験によりこれを裏付け、このモデルの因果ダイナミクスが、このアルゴリズムの因果ダイナミクスをMoNLIのサブセットに反映していることを示す。 これは、BERTモデルが少なくとも部分的には、アルゴリズムレベルでの語彙的含意と否定の理論を埋め込んでいることを示唆している。

We address whether neural models for Natural Language Inference (NLI) can learn the compositional interactions between lexical entailment and negation, using four methods: the behavioral evaluation methods of (1) challenge test sets and (2) systematic generalization tasks, and the structural evaluation methods of (3) probes and (4) interventions. To facilitate this holistic evaluation, we present Monotonicity NLI (MoNLI), a new naturalistic dataset focused on lexical entailment and negation. In our behavioral evaluations, we find that models trained on general-purpose NLI datasets fail systematically on MoNLI examples containing negation, but that MoNLI fine-tuning addresses this failure. In our structural evaluations, we look for evidence that our top-performing BERT-based model has learned to implement the monotonicity algorithm behind MoNLI. Probes yield evidence consistent with this conclusion, and our intervention experiments bolster this, showing that the causal dynamics of the model mirror the causal dynamics of this algorithm on subsets of MoNLI. This suggests that the BERT model at least partially embeds a theory of lexical entailment and negation at an algorithmic level.
翻訳日:2022-12-08 04:16:49 公開日:2020-11-21
# 変数の中央正規化への変換

Transforming variables to central normality ( http://arxiv.org/abs/2005.07946v2 )

ライセンス: Link先を確認
Jakob Raymaekers and Peter J. Rousseeuw(参考訳) 多くの実データ集合は、分布が正規(ガウシアン)に遠く及ばない数値的特徴(変数)を含む。 代わりに、その分布はしばしば歪められる。 このようなデータを扱うためには、変数をプリプロセスしてより正常にするのが慣例である。 Box-Cox および Yeo-Johnson 変換は、このためによく知られたツールである。 しかしながら、変換パラメータの標準最大度推定器は、外れ値に対して非常に敏感であり、データの中央部分の正規性を犠牲にして、外れ値を内側へ移動させようとすることが多い。 我々は,これらの変換の修正と,異常値にロバストな変換パラメータの推定器を提案する。 これは、広範囲なシミュレーション研究や実データにおいて、既存の技術と好適に比較できる。

Many real data sets contain numerical features (variables) whose distribution is far from normal (gaussian). Instead, their distribution is often skewed. In order to handle such data it is customary to preprocess the variables to make them more normal. The Box-Cox and Yeo-Johnson transformations are well-known tools for this. However, the standard maximum likelihood estimator of their transformation parameter is highly sensitive to outliers, and will often try to move outliers inward at the expense of the normality of the central part of the data. We propose a modification of these transformations as well as an estimator of the transformation parameter that is robust to outliers, so the transformed data can be approximately normal in the center and a few outliers may deviate from it. It compares favorably to existing techniques in an extensive simulation study and on real data.
翻訳日:2022-12-02 12:47:25 公開日:2020-11-21
# 自動運転車の3次元LiDAR位置決めに関する調査

A Survey on 3D LiDAR Localization for Autonomous Vehicles ( http://arxiv.org/abs/2006.00648v2 )

ライセンス: Link先を確認
Mahdi Elhousni and Xinming Huang(参考訳) lidarセンサーは、自動運転車の完全な自律性を実現する上で最も重要なセンサーの1つになっている。 LiDARは、リッチで密度が高く、正確な空間データを生成することができ、移動中の車両のローカライズと追跡に非常に役立ちます。 本稿では、自動運転車における3D LiDARのローカライゼーションの最新の発見を概観し、各手法による結果を分析し、研究コミュニティを最も有望と思われる経路へと導くことを目的とする。

LiDAR sensors are becoming one of the most essential sensors in achieving full autonomy for self driving cars. LiDARs are able to produce rich, dense and precise spatial data, which can tremendously help in localizing and tracking a moving vehicle. In this paper, we review the latest finding in 3D LiDAR localization for autonomous driving cars, and analyse the results obtained by each method, in an effort to guide the research community towards the path that seems to be the most promising.
翻訳日:2022-11-26 07:16:28 公開日:2020-11-21
# 回折表面を用いたテラヘルツパルス整形

Terahertz Pulse Shaping Using Diffractive Surfaces ( http://arxiv.org/abs/2006.16599v2 )

ライセンス: Link先を確認
Muhammed Veli, Deniz Mengu, Nezih T. Yardimci, Yi Luo, Jingxi Li, Yair Rivenson, Mona Jarrahi, Aydogan Ozcan(参考訳) ディープラーニングの最近の進歩は、光学における様々な逆問題に対する直観的でない解決策を提供してきた。 機械学習と光学の交差において、回折ネットワークは、ウェーブ光学と深層学習を融合させ、タスク固有の要素を設計し、オブジェクト分類やマシンビジョンなどの様々なタスクを全光学的に実行する。 本稿では、任意の広帯域パルスを所望の光波形に形成し、コンパクトなパルス工学系を形成するための回折ネットワークを提案する。 入力テラヘルツパルスのスペクトル振幅と位相の両方を総合的に制御するパッシブ拡散層を作製し,時間幅の異なる正方形パルスの合成を実験的に実証した。 以上の結果は,複素値スペクトル変調関数がテラヘルツ周波数に直接作用するテラヘルツスペクトルにおける直接パルス整形の最初の例である。 さらに,既存のネットワークの一部を新たに訓練された回折層に置き換え,そのモジュール性を示すことで,パルス幅可変性を示すレゴ様物理伝達学習手法を提案する。 この学習に基づく回折パルス工学フレームワークは、通信、超高速イメージング、分光などの幅広い応用を見出すことができる。

Recent advances in deep learning have been providing non-intuitive solutions to various inverse problems in optics. At the intersection of machine learning and optics, diffractive networks merge wave-optics with deep learning to design task-specific elements to all-optically perform various tasks such as object classification and machine vision. Here, we present a diffractive network, which is used to shape an arbitrary broadband pulse into a desired optical waveform, forming a compact pulse engineering system. We experimentally demonstrate the synthesis of square pulses with different temporal-widths by manufacturing passive diffractive layers that collectively control both the spectral amplitude and the phase of an input terahertz pulse. Our results constitute the first demonstration of direct pulse shaping in terahertz spectrum, where a complex-valued spectral modulation function directly acts on terahertz frequencies. Furthermore, a Lego-like physical transfer learning approach is presented to illustrate pulse-width tunability by replacing part of an existing network with newly trained diffractive layers, demonstrating its modularity. This learning-based diffractive pulse engineering framework can find broad applications in e.g., communications, ultra-fast imaging and spectroscopy.
翻訳日:2022-11-15 05:48:55 公開日:2020-11-21
# 圧縮による連合学習:統一分析とシャープ保証

Federated Learning with Compression: Unified Analysis and Sharp Guarantees ( http://arxiv.org/abs/2007.01154v2 )

ライセンス: Link先を確認
Farzin Haddadpour, Mohammad Mahdi Kamani, Aryan Mokhtari and Mehrdad Mahdavi(参考訳) 連合学習において、通信コストは分散最適化アルゴリズムをスケールアップし、信頼できない、あるいは制限された通信や異種データ分布を持つ数百万のデバイスからモデルを協調的に学習する上で、しばしば重要なボトルネックとなる。 フェデレーションアルゴリズムの通信オーバーヘッドに対処する2つの注目すべきトレンドは、勾配圧縮と周期的通信による局所計算である。 多くの試みがあったにも拘わらず、これらの2つのアプローチ間の関係を特徴づけることが明らかにされている。 我々は,周期的に圧縮された(量子化あるいはスペーサー化された)通信を用いたアルゴリズムセットを提案し,その収束特性を同質および異質な局所データ分散設定で解析する。 均質な設定では, 強凸関数と非凸関数の両方に対してより厳密な収束率を提供することにより, 既存の境界を改良する。 本研究では,局所勾配追跡方式を導入し,凸,強凸,非凸の設定を圧縮することなく,最もよく知られた通信複雑度に適合する鋭い収束率を求める。 提案手法の有効性を実世界のデータセットでいくつかの実験により検証した。

In federated learning, communication cost is often a critical bottleneck to scale up distributed optimization algorithms to collaboratively learn a model from millions of devices with potentially unreliable or limited communication and heterogeneous data distributions. Two notable trends to deal with the communication overhead of federated algorithms are gradient compression and local computation with periodic communication. Despite many attempts, characterizing the relationship between these two approaches has proven elusive. We address this by proposing a set of algorithms with periodical compressed (quantized or sparsified) communication and analyze their convergence properties in both homogeneous and heterogeneous local data distribution settings. For the homogeneous setting, our analysis improves existing bounds by providing tighter convergence rates for both strongly convex and non-convex objective functions. To mitigate data heterogeneity, we introduce a local gradient tracking scheme and obtain sharp convergence rates that match the best-known communication complexities without compression for convex, strongly convex, and nonconvex settings. We complement our theoretical results and demonstrate the effectiveness of our proposed methods by several experiments on real-world datasets.
翻訳日:2022-11-14 13:52:57 公開日:2020-11-21
# PointContrast: 3Dポイントクラウド理解のための教師なし事前トレーニング

PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding ( http://arxiv.org/abs/2007.10985v3 )

ライセンス: Link先を確認
Saining Xie, Jiatao Gu, Demi Guo, Charles R. Qi, Leonidas J. Guibas, Or Litany(参考訳) 深層学習でもっとも成功したのは、転校学習だろう。 リッチなソースセット(例えばImageNet)でネットワークを事前トレーニングすることは、通常より小さなターゲットセットで微調整された場合、パフォーマンスを向上させるのに役立ち、言語やビジョンの多くのアプリケーションに役立っている。 しかし、3Dポイントのクラウド理解における有用性についてはほとんど分かっていない。 これを3Dでデータに注釈をつけるのに必要な労力を考える機会と捉えています。 本研究では,3次元表現学習研究の促進を目指す。 従来の作業とは違って,高レベルのシーン理解タスクに重点を置いている。 この目的のために,3dシーンの大きなソースセットに対する教師なし事前トレーニングの効果を測定するために,多様なデータセットとタスクのスイートを選択する。 アーキテクチャの統一三重項、ソースデータセット、および事前トレーニングのためのコントラスト損失を使用することで、屋内および屋外、実および合成データセットの6つのベンチマークにおいて、セグメンテーションと検出における最近の最良の結果よりも改善が得られます。 さらに、改善は教師付き事前トレーニングと似ており、将来の取り組みはより詳細なアノテーションよりもデータ収集をスケールすることを推奨している。 これらの発見が、3D深層学習のための教師なしプレテキスト・タスク・デザインのさらなる研究を促すことを願っている。

Arguably one of the top success stories of deep learning is transfer learning. The finding that pre-training a network on a rich source set (eg., ImageNet) can help boost performance once fine-tuned on a usually much smaller target set, has been instrumental to many applications in language and vision. Yet, very little is known about its usefulness in 3D point cloud understanding. We see this as an opportunity considering the effort required for annotating data in 3D. In this work, we aim at facilitating research on 3D representation learning. Different from previous works, we focus on high-level scene understanding tasks. To this end, we select a suite of diverse datasets and tasks to measure the effect of unsupervised pre-training on a large source set of 3D scenes. Our findings are extremely encouraging: using a unified triplet of architecture, source dataset, and contrastive loss for pre-training, we achieve improvement over recent best results in segmentation and detection across 6 different benchmarks for indoor and outdoor, real and synthetic datasets -- demonstrating that the learned representation can generalize across domains. Furthermore, the improvement was similar to supervised pre-training, suggesting that future efforts should favor scaling data collection over more detailed annotation. We hope these findings will encourage more research on unsupervised pretext task design for 3D deep learning.
翻訳日:2022-11-08 05:16:35 公開日:2020-11-21
# 適応的注意による少数ショット分類

Few-shot Classification via Adaptive Attention ( http://arxiv.org/abs/2008.02465v2 )

ライセンス: Link先を確認
Zihang Jiang, Bingyi Kang, Kuangqi Zhou, Jiashi Feng(参考訳) 新しいタスクに迅速に適応できるニューラルネットワークモデルのトレーニングは非常に望ましいが、最小限の学習問題では困難である。 最近では,初期モデル最適化や距離メトリクスの学習という2つの側面から,さまざまなメタ学習戦略の開発に重点が置かれている。 そこで本研究では,ごく少数の参照サンプルに基づいて,クエリサンプル表現を最適化し,高速に適応する手法を提案する。 具体的には、サンプル表現に適応し、より簡単なメタリフレッシング戦略を考案し、より優れた数ショット分類のために、クエリとサポートサンプルから関連する特徴を抽出できるように、表現を洗練するためのソフトアテンションを生成する。 このような適応的注意モデルはまた、分類モデルの求めるものをある程度の分類の証拠として説明することができる。 実験で実証したように,提案モデルは,様々なベンチマーク・マイナショット分類と細粒度認識データセットにおいて,最先端の分類結果が得られる。

Training a neural network model that can quickly adapt to a new task is highly desirable yet challenging for few-shot learning problems. Recent few-shot learning methods mostly concentrate on developing various meta-learning strategies from two aspects, namely optimizing an initial model or learning a distance metric. In this work, we propose a novel few-shot learning method via optimizing and fast adapting the query sample representation based on very few reference samples. To be specific, we devise a simple and efficient meta-reweighting strategy to adapt the sample representations and generate soft attention to refine the representation such that the relevant features from the query and support samples can be extracted for a better few-shot classification. Such an adaptive attention model is also able to explain what the classification model is looking for as the evidence for classification to some extent. As demonstrated experimentally, the proposed model achieves state-of-the-art classification results on various benchmark few-shot classification and fine-grained recognition datasets.
翻訳日:2022-11-02 07:09:58 公開日:2020-11-21
# ctc損失と拡張プレフィックスビーム探索を用いた単段吸入ジェスチャ検出

Single-stage intake gesture detection using CTC loss and extended prefix beam search ( http://arxiv.org/abs/2008.02999v2 )

ライセンス: Link先を確認
Philipp V. Rouast and Marc T. P. Adam(参考訳) 個々の摂取行動の正確な検出は、自動食事監視への重要なステップである。 この目的のために、手首の動きの慣性センサーデータと上半身を描いたビデオデータの両方が使用されている。 これまでで最も先進的なアプローチは2段階のアプローチで、そこでは (i)深層ニューラルネットワークを用いてセンサデータからフレームレベルの吸入確率を学習し、 (ii)フレームレベルの確率の最大値を求めることにより、スパース摂取事象を検出する。 本研究では,センサデータから学習した確率を直接,スパースインテーク検出に復号する単段法を提案する。 これは、Connectionist Temporal Classification (CTC)損失を用いた弱い教師付きトレーニングと、新しい拡張プレフィックスビーム探索復号アルゴリズムによる復号化によって実現される。 このアプローチの利点には 一 検出のためのエンドツーエンドの訓練 (二 摂取ジェスチャーラベルの簡易なタイミング要件、及び (iii)既存の手法と比較して検出性能が向上した。 2つのデータセットにまたがって、ビデオと慣性センサーの両方の吸入検知および飲食検出タスクにおいて、2段階のアプローチで1.9%から6.2%の相対的に$f_1$のスコア改善を達成しました。

Accurate detection of individual intake gestures is a key step towards automatic dietary monitoring. Both inertial sensor data of wrist movements and video data depicting the upper body have been used for this purpose. The most advanced approaches to date use a two-stage approach, in which (i) frame-level intake probabilities are learned from the sensor data using a deep neural network, and then (ii) sparse intake events are detected by finding the maxima of the frame-level probabilities. In this study, we propose a single-stage approach which directly decodes the probabilities learned from sensor data into sparse intake detections. This is achieved by weakly supervised training using Connectionist Temporal Classification (CTC) loss, and decoding using a novel extended prefix beam search decoding algorithm. Benefits of this approach include (i) end-to-end training for detections, (ii) simplified timing requirements for intake gesture labels, and (iii) improved detection performance compared to existing approaches. Across two separate datasets, we achieve relative $F_1$ score improvements between 1.9% and 6.2% over the two-stage approach for intake detection and eating/drinking detection tasks, for both video and inertial sensors.
翻訳日:2022-11-02 01:12:04 公開日:2020-11-21
# 軌道予測のためのマルチモーダル深部生成モデル:条件付き変分オートエンコーダアプローチ

Multimodal Deep Generative Models for Trajectory Prediction: A Conditional Variational Autoencoder Approach ( http://arxiv.org/abs/2008.03880v2 )

ライセンス: Link先を確認
Boris Ivanovic, Karen Leung, Edward Schmerling, Marco Pavone(参考訳) 人間の行動予測モデルは、ロボットが人間の行動にどのように反応するかを予測できるので、安全で前向きなロボット計画アルゴリズムを考案するのに役立ちます。 しかし、複雑な相互作用のダイナミクスをモデル化し、このようなインタラクティブな環境で多くの可能性を実現することは非常に困難であり、近年、いくつかの異なるアプローチの研究が進められている。 本研究では,人間の行動予測に対する条件付き変分オートエンコーダ(CVAE)アプローチに関する自己完結型チュートリアルを提供する。 Specifically, the goals of this tutorial paper are to review and build a taxonomy of state-of-the-art methods in human behavior prediction, from physics-based to purely data-driven methods, provide a rigorous yet easily accessible description of a data-driven, CVAE-based approach, highlight important design characteristics that make this an attractive model to use in the context of model-based planning for human-robot interactions, and provide important design considerations when using this class of models.

Human behavior prediction models enable robots to anticipate how humans may react to their actions, and hence are instrumental to devising safe and proactive robot planning algorithms. However, modeling complex interaction dynamics and capturing the possibility of many possible outcomes in such interactive settings is very challenging, which has recently prompted the study of several different approaches. In this work, we provide a self-contained tutorial on a conditional variational autoencoder (CVAE) approach to human behavior prediction which, at its core, can produce a multimodal probability distribution over future human trajectories conditioned on past interactions and candidate robot future actions. Specifically, the goals of this tutorial paper are to review and build a taxonomy of state-of-the-art methods in human behavior prediction, from physics-based to purely data-driven methods, provide a rigorous yet easily accessible description of a data-driven, CVAE-based approach, highlight important design characteristics that make this an attractive model to use in the context of model-based planning for human-robot interactions, and provide important design considerations when using this class of models.
翻訳日:2022-10-31 23:39:31 公開日:2020-11-21
# 多機能化のための制御:aplysia californicaにおける摂食に基づくバイオインスパイア制御

Control for Multifunctionality: Bioinspired Control Based on Feeding in Aplysia californica ( http://arxiv.org/abs/2008.04978v2 )

ライセンス: Link先を確認
Victoria A. Webster-Wood, Jeffrey P. Gill, Peter J. Thomas, Hillel J. Chiel(参考訳) 動物は、ロボットシステムにとって困難な行動の柔軟性と多機能制御の素晴らしい偉業を示す。 動物における多機能性の神経的および形態学的基礎は、ロボットコントローラの生体呼吸の源となる。 しかし、既存の生物学的ニューラルネットワークのモデリング手法の多くは計算量の多いモデルに依存しており、神経系のみに焦点をあてる傾向があり、しばしば周辺部のバイオメカニクスを無視する。 その結果、これらのモデルは神経科学の優れたツールであるが、ロボット制御にとって重要な機能である機能的振る舞いをリアルタイムで予測することができない。 リアルタイム多機能制御の必要性を満たすために,神経バースト活動や単純なバイオメカニクスをリアルタイムよりも高速にモデリングできるハイブリッドブールモデルフレームワークを開発した。 このアプローチを用いて,3つの重要な摂食行動(噛む,飲み込む,拒否)を定性的に再現し,外部の感覚的手がかりに反応して行動の切り替えを示すaplysia californica摂食の多機能モデルを示し,既知の神経接続性と単純なバイオインスパイアされた摂食装置の機械的モデルの両方を組み込んだ。 実験可能な仮説を定式化するためにこのモデルが利用できることを実証し,ロボット制御と神経科学におけるこのアプローチの意義について考察する。

Animals exhibit remarkable feats of behavioral flexibility and multifunctional control that remain challenging for robotic systems. The neural and morphological basis of multifunctionality in animals can provide a source of bio-inspiration for robotic controllers. However, many existing approaches to modeling biological neural networks rely on computationally expensive models and tend to focus solely on the nervous system, often neglecting the biomechanics of the periphery. As a consequence, while these models are excellent tools for neuroscience, they fail to predict functional behavior in real time, which is a critical capability for robotic control. To meet the need for real-time multifunctional control, we have developed a hybrid Boolean model framework capable of modeling neural bursting activity and simple biomechanics at speeds faster than real time. Using this approach, we present a multifunctional model of Aplysia californica feeding that qualitatively reproduces three key feeding behaviors (biting, swallowing, and rejection), demonstrates behavioral switching in response to external sensory cues, and incorporates both known neural connectivity and a simple bioinspired mechanical model of the feeding apparatus. We demonstrate that the model can be used for formulating testable hypotheses and discuss the implications of this approach for robotic control and neuroscience.
翻訳日:2022-10-31 11:27:00 公開日:2020-11-21
# ロボットpeg-in-holeアセンブリの可変コンプライアンス制御:深層強化学習アプローチ

Variable Compliance Control for Robotic Peg-in-Hole Assembly: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2008.10224v3 )

ライセンス: Link先を確認
Cristian C. Beltran-Hernandez, Damien Petit, Ixchel G. Ramirez-Alpizar, Kensuke Harada(参考訳) 産業用ロボットマニピュレータは、現代の製造業において、より重要な役割を担っている。 peg-in-holeアセンブリは広く研究されている一般的な産業タスクであるが、非構造環境で複雑な高精度アセンブリを安全に解くことは未解決の問題である。 強化学習(Reinforcement Learning, RL)法は, 作業の自律的解決に成功している。 しかし、実際のハードウェアで作業する場合、特に位置制御マニピュレータを使用する場合、追加の課題が伴うため、rlはまだ実際のロボットシステムで広く採用されていない。 本研究の主な貢献は,ホールの位置の不確かさを伴うpeg-in-holeタスクの解法である。 我々は,複数の移動学習手法(sim2real)とドメインランダム化を用いて,非政治モデル自由強化学習手法とトレーニング速度のブートストラップを提案する。 各種環境における接触豊富な挿入作業において,位置制御ロボットの学習フレームワークを広く評価した。

Industrial robot manipulators are playing a more significant role in modern manufacturing industries. Though peg-in-hole assembly is a common industrial task which has been extensively researched, safely solving complex high precision assembly in an unstructured environment remains an open problem. Reinforcement Learning (RL) methods have been proven successful in solving manipulation tasks autonomously. However, RL is still not widely adopted on real robotic systems because working with real hardware entails additional challenges, especially when using position-controlled manipulators. The main contribution of this work is a learning-based method to solve peg-in-hole tasks with position uncertainty of the hole. We proposed the use of an off-policy model-free reinforcement learning method and bootstrap the training speed by using several transfer learning techniques (sim2real) and domain randomization. Our proposed learning framework for position-controlled robots was extensively evaluated on contact-rich insertion tasks on a variety of environments.
翻訳日:2022-10-25 12:35:19 公開日:2020-11-21
# Model-Guided Deep Unfolding Networkによる高精度・軽量画像超解像

Accurate and Lightweight Image Super-Resolution with Model-Guided Deep Unfolding Network ( http://arxiv.org/abs/2009.06254v2 )

ライセンス: Link先を確認
Qian Ning, Weisheng Dong, Guangming Shi, Leida Li, Xin Li(参考訳) ディープニューラルネットワーク(DNN)ベースの手法は、単一画像超解像(SISR)において大きな成功を収めている。 しかし、既存の最先端のSISR技術は、透明性と解釈性に欠けるブラックボックスのように設計されている。 さらに、視覚品質の改善はブラックボックス設計によるモデルの複雑さの増加の代償となることが多い。 本稿では,モデル誘導深部展開ネットワーク(MoG-DUN)というSISRに対する説明可能なアプローチを提案する。 コヒーレンスバリアを壊すことを目標とし、より確立された非局所的自己回帰モデルを用いて作業し、DNN設計をガイドする。 ディープラーニングフレームワークに、学習可能なモジュールとして深い分節化と非局所正規化を統合することで、モデルベースのsisrの反復過程を、3つの相互接続されたモジュール(デオライズ、非局所ar、再構築)を持つビルディングブロックの多段階結合に展開することができる。 3つのモジュールすべての設計は、高密度/スキップ接続や高速非ローカル実装を含む最新の進歩を活用している。 説明可能性に加えて、MoG-DUNは正確性(エイリアスを少なくする)、計算効率(モデルのパラメータを減らした)、汎用性(複数の分解を処理できる)がある。 rcan、srmdnf、srfbnを含む既存の最先端画像sr法に対するmog-dun法の有用性は、いくつかの一般的なデータセットと様々な分解シナリオに関する広範囲な実験によって証明されている。

Deep neural networks (DNNs) based methods have achieved great success in single image super-resolution (SISR). However, existing state-of-the-art SISR techniques are designed like black boxes lacking transparency and interpretability. Moreover, the improvement in visual quality is often at the price of increased model complexity due to black-box design. In this paper, we present and advocate an explainable approach toward SISR named model-guided deep unfolding network (MoG-DUN). Targeting at breaking the coherence barrier, we opt to work with a well-established image prior named nonlocal auto-regressive model and use it to guide our DNN design. By integrating deep denoising and nonlocal regularization as trainable modules within a deep learning framework, we can unfold the iterative process of model-based SISR into a multi-stage concatenation of building blocks with three interconnected modules (denoising, nonlocal-AR, and reconstruction). The design of all three modules leverages the latest advances including dense/skip connections as well as fast nonlocal implementation. In addition to explainability, MoG-DUN is accurate (producing fewer aliasing artifacts), computationally efficient (with reduced model parameters), and versatile (capable of handling multiple degradations). The superiority of the proposed MoG-DUN method to existing state-of-the-art image SR methods including RCAN, SRMDNF, and SRFBN is substantiated by extensive experiments on several popular datasets and various degradation scenarios.
翻訳日:2022-10-18 12:24:07 公開日:2020-11-21
# 領域間の制御可能な画像合成のための分解能依存gan補間

Resolution Dependent GAN Interpolation for Controllable Image Synthesis Between Domains ( http://arxiv.org/abs/2010.05334v3 )

ライセンス: Link先を確認
Justin N. M. Pinkney and Doron Adler(参考訳) GANは、トレーニングデータのドメインからフォトリアリスティック画像を生成することができる。 しかし、創造的な目的のためにそれらを使用したい人は、真に新しいドメインから画像を生成することを望んでいます。 また、ランダムな結果を純粋にキュレーションするよりも、芸術的な方向性の度合いがあるように、コントロールのレベルを持つことも望ましい。 本稿では,StyleGANアーキテクチャの生成モデル間を解像度依存的に補間する手法を提案する。 これにより、全く新しいドメインから画像を生成し、出力の性質をある程度制御してこれを行うことができます。

GANs can generate photo-realistic images from the domain of their training data. However, those wanting to use them for creative purposes often want to generate imagery from a truly novel domain, a task which GANs are inherently unable to do. It is also desirable to have a level of control so that there is a degree of artistic direction rather than purely curation of random results. Here we present a method for interpolating between generative models of the StyleGAN architecture in a resolution dependent manner. This allows us to generate images from an entirely novel domain and do this with a degree of control over the nature of the output.
翻訳日:2022-10-08 14:01:11 公開日:2020-11-21
# 最適探索戦略:適応対数クエリによる大規模データの点変化検出

Optimistic search strategy: Change point detection for large-scale data via adaptive logarithmic queries ( http://arxiv.org/abs/2010.10194v2 )

ライセンス: Link先を確認
Solt Kov\'acs, Housen Li, Lorenz Haubner, Axel Munk, Peter B\"uhlmann(参考訳) 古典的で復活するトピックとして、変更点検出は、データをセグメント化する際の適合性を改善するゲイン関数の最大値の探索として、しばしば定式化される。 最良点を見つけるためにグリッド上の全ての候補分割点を探索するには$O(T)$の利得関数の評価を$T$の観測で行う必要がある。 各評価が計算的に要求される場合(例えば、高次元モデル)、これは実現不可能になる。 代わりに、ゲイン関数の特定の構造を利用した$o(\log t)$評価による楽観的な探索戦略を提案する。 戦略のしっかりした理解に向けて, 古典的不定形ガウス的変化を, 平均設定で詳細に検討した。 いくつかの提案では、単一および複数変更点シナリオに対する漸近的最小限の最適性を証明する。 我々の探索戦略は理論的に解析された単変量設定を超えて一般化される。 例えば、高次元ガウス図形モデルにおける変化点検出における大規模な計算速度向上を示す。 より一般に、我々の楽観的な探索手法が、実行時間を大幅に削減しつつ、競争力のある推定性能をもたらすことを実証的に示す。

As a classical and ever reviving topic, change point detection is often formulated as a search for the maximum of a gain function describing improved fits when segmenting the data. Searching through all candidate split points on the grid for finding the best one requires $O(T)$ evaluations of the gain function for an interval with $T$ observations. If each evaluation is computationally demanding (e.g. in high-dimensional models), this can become infeasible. Instead, we propose optimistic search strategies with $O(\log T)$ evaluations exploiting specific structure of the gain function. Towards solid understanding of our strategies, we investigate in detail the classical univariate Gaussian change in mean setup. For some of our proposals we prove asymptotic minimax optimality for single and multiple change point scenarios. Our search strategies generalize far beyond the theoretically analyzed univariate setup. We illustrate, as an example, massive computational speedup in change point detection for high-dimensional Gaussian graphical models. More generally, we demonstrate empirically that our optimistic search methods lead to competitive estimation performance while heavily reducing run-time.
翻訳日:2022-10-05 06:45:36 公開日:2020-11-21
# Value Cards: 議論を通じた機械学習の社会的影響を教えるための教育用ツールキット

Value Cards: An Educational Toolkit for Teaching Social Impacts of Machine Learning through Deliberation ( http://arxiv.org/abs/2010.11411v2 )

ライセンス: Link先を確認
Hong Shen, Hanwen Wesley Deng, Aditi Chattopadhyay, Zhiwei Steven Wu, Xu Wang, Haiyi Zhu(参考訳) 近年、公正性、説明責任、透明性、倫理に関するトピックで既存の技術トレーニングを補完するコンピュータサイエンスカリキュラムの要求が高まっている。 本稿では,さまざまな機械学習モデルの社会的影響を学生や実践者に提供するための教育用ツールキットであるvalue cardを提案する。 本稿では,大学レベルのコンピュータサイエンス科目におけるアプローチの早期活用について述べる。 授業中活動を通じて,本手法の初期効果に関する実証データを報告する。 この結果から,バリューカードツールキットは,パフォーマンス指標の技術的定義とトレードオフの両方に対する学生の理解を向上させ,現実世界の文脈に適用し,アルゴリズムシステム開発における多様な社会的価値を考察することの重要性を認識し,多様な利害関係者の視点をコミュニケーションし,交渉し,統合することができることが示唆された。 この研究はまた、value cards toolkitのさまざまなバリエーションを使用する際に考慮すべき注意点をいくつか示しています。 最後に,課題と今後のアプローチの応用について論じる。

Recently, there have been increasing calls for computer science curricula to complement existing technical training with topics related to Fairness, Accountability, Transparency, and Ethics. In this paper, we present Value Card, an educational toolkit to inform students and practitioners of the social impacts of different machine learning models via deliberation. This paper presents an early use of our approach in a college-level computer science course. Through an in-class activity, we report empirical data for the initial effectiveness of our approach. Our results suggest that the use of the Value Cards toolkit can improve students' understanding of both the technical definitions and trade-offs of performance metrics and apply them in real-world contexts, help them recognize the significance of considering diverse social values in the development of deployment of algorithmic systems, and enable them to communicate, negotiate and synthesize the perspectives of diverse stakeholders. Our study also demonstrates a number of caveats we need to consider when using the different variants of the Value Cards toolkit. Finally, we discuss the challenges as well as future applications of our approach.
翻訳日:2022-10-04 08:02:23 公開日:2020-11-21
# パート音声タギングのためのアクティブラーニングにおけるコンフュージョンの低減

Reducing Confusion in Active Learning for Part-Of-Speech Tagging ( http://arxiv.org/abs/2011.00767v2 )

ライセンス: Link先を確認
Aditi Chaudhary, Antonios Anastasopoulos, Zaid Sheikh, Graham Neubig(参考訳) active learning (al)は、データ選択アルゴリズムを使用して有用なトレーニングサンプルを選択し、アノテーションコストを最小化する。 これは現在、pos(part-of-speech)タグなどの低リソース構文アナライザを構築する上で不可欠なツールである。 既存のalヒューリスティックは一般に、不確かだが代表的なトレーニングインスタンスを選択する原則に基づいて設計されている。 しかし6つの言語(ドイツ語、スウェーデン語、ガリシア語、北サーミ語、ペルシア語、ウクライナ語)にまたがる実証的研究において、予測の真の不確実性を知るオラクルのシナリオにおいても、これらの現在のヒューリスティックスは最適とは程遠い。 この分析に基づいて、al の問題は、出力タグの特定のペア間の混乱を最大に軽減するインスタンスの選択である。 上記の言語を広範囲に実験した結果,提案するal戦略が他のal戦略よりも有意な差を示した。 また, モデルの適切な校正の重要性を示す補助的な結果も提示し, クロスビュートレーニングを通し, 提案手法がオラクルデータ分布をより密接に追従する例をいかに選択するかを解析した。

Active learning (AL) uses a data selection algorithm to select useful training samples to minimize annotation cost. This is now an essential tool for building low-resource syntactic analyzers such as part-of-speech (POS) taggers. Existing AL heuristics are generally designed on the principle of selecting uncertain yet representative training instances, where annotating these instances may reduce a large number of errors. However, in an empirical study across six typologically diverse languages (German, Swedish, Galician, North Sami, Persian, and Ukrainian), we found the surprising result that even in an oracle scenario where we know the true uncertainty of predictions, these current heuristics are far from optimal. Based on this analysis, we pose the problem of AL as selecting instances which maximally reduce the confusion between particular pairs of output tags. Extensive experimentation on the aforementioned languages shows that our proposed AL strategy outperforms other AL strategies by a significant margin. We also present auxiliary results demonstrating the importance of proper calibration of models, which we ensure through cross-view training, and analysis demonstrating how our proposed strategy selects examples that more closely follow the oracle data distribution.
翻訳日:2022-09-30 11:47:21 公開日:2020-11-21
# dtgan: テキスト対画像生成のための2重注意生成広告ネットワーク

DTGAN: Dual Attention Generative Adversarial Networks for Text-to-Image Generation ( http://arxiv.org/abs/2011.02709v3 )

ライセンス: Link先を確認
Zhenxing Zhang and Lambert Schomaker(参考訳) 既存のテキストから画像への生成手法の多くは多段階モジュールアーキテクチャを採用しており、3つの重大な問題がある。 1)複数ネットワークのトレーニングは、実行時間を増やし、生成モデルの収束と安定性に影響を与える。 2)これらの手法は早期発生画像の品質を無視する。 3)多くの差別者を訓練する必要がある。 そこで本研究では,単一のジェネレータ/識別器ペアのみを用いて,高品質でセマンティックに一貫した画像を合成できるDual Attention Generative Adversarial Network (DTGAN)を提案する。 提案モデルでは,全文ベクトルに基づくテキスト関連チャネルと画素に着目し,注意重みを用いたオリジナル特徴マップの微調整を行うための,チャネル認識および画素認識アテンションモジュールを導入している。 また,条件適応型インスタンス・階層正規化(CAdaILN)は,入力された自然言語記述による形状・テクスチャの変化量を柔軟に制御するのに役立つ。 さらに、画像の鮮明な形状と知覚的に均一な色分布を確保し、画像解像度を向上させるために、新たなタイプの視覚損失を利用する。 ベンチマークによる実験結果から,提案手法がマルチステージフレームワークを用いた最先端モデルよりも優れていることを示す。 注目マップの可視化は、チャネル認識注意モジュールが識別領域をローカライズできることを示しているが、画素認識注意モジュールは、画像の生成のためにグローバルな視覚コンテンツをキャプチャする能力を持っている。

Most existing text-to-image generation methods adopt a multi-stage modular architecture which has three significant problems: 1) Training multiple networks increases the run time and affects the convergence and stability of the generative model; 2) These approaches ignore the quality of early-stage generator images; 3) Many discriminators need to be trained. To this end, we propose the Dual Attention Generative Adversarial Network (DTGAN) which can synthesize high-quality and semantically consistent images only employing a single generator/discriminator pair. The proposed model introduces channel-aware and pixel-aware attention modules that can guide the generator to focus on text-relevant channels and pixels based on the global sentence vector and to fine-tune original feature maps using attention weights. Also, Conditional Adaptive Instance-Layer Normalization (CAdaILN) is presented to help our attention modules flexibly control the amount of change in shape and texture by the input natural-language description. Furthermore, a new type of visual loss is utilized to enhance the image resolution by ensuring vivid shape and perceptually uniform color distributions of generated images. Experimental results on benchmark datasets demonstrate the superiority of our proposed method compared to the state-of-the-art models with a multi-stage framework. Visualization of the attention maps shows that the channel-aware attention module is able to localize the discriminative regions, while the pixel-aware attention module has the ability to capture the globally visual contents for the generation of an image.
翻訳日:2022-09-29 12:05:59 公開日:2020-11-21
# 分子動力学応用のための物理インフォームドニューラルネットワークソフトウェア

Physics-informed Neural-Network Software for Molecular Dynamics Applications ( http://arxiv.org/abs/2011.03490v3 )

ライセンス: Link先を確認
Taufeq Mohammed Razakh, Beibei Wang, Shane Jackson, Rajiv K. Kalia, Aiichiro Nakano, Ken-ichi Nomura, Priya Vashishta(参考訳) 分子動力学シミュレータのための物理インフォームドニューラルネットワークに基づく新しい微分方程式解法ソフトウェアPNDを開発した。 Pytorchによる自動微分技術に基づいて,ネットワークをトレーニングするための損失関数として,原子運動方程式,初期および境界条件,保存則を柔軟に実装することができる。 PNDには並列分子動力学(MD)エンジンが付属しており、損失関数の設計や保存法則、境界条件、ハイパーパラメータなどを調べて最適化することで、分子応用のためのPINNベースの開発を加速する。

We have developed a novel differential equation solver software called PND based on the physics-informed neural network for molecular dynamics simulators. Based on automatic differentiation technique provided by Pytorch, our software allows users to flexibly implement equation of atom motions, initial and boundary conditions, and conservation laws as loss function to train the network. PND comes with a parallel molecular dynamics (MD) engine in order for users to examine and optimize loss function design, and different conservation laws and boundary conditions, and hyperparameters, thereby accelerate the PINN-based development for molecular applications.
翻訳日:2022-09-29 05:52:12 公開日:2020-11-21
# 連成型変分オートエンコーダにおける潜在層に対する学生のt分布の利用

Use of Student's t-Distribution for the Latent Layer in a Coupled Variational Autoencoder ( http://arxiv.org/abs/2011.10879v1 )

ライセンス: Link先を確認
Kevin R. Chen, Daniel Svoboda, and Kenric P. Nelson(参考訳) 一般化損失関数と潜在層分布の両方を組み込んだ結合変分オートコーダは,MNIST数値生成レプリカの精度とロバスト性の向上を示す。 潜伏層は、学生のt分布を用いて重テール崩壊を包含する。 損失関数は結合対数を使用するため、画像のペナルティはより低い確率で増大する。 生成した画像の確率の一般化平均は、アルゴリズムの決定性、正確性、ロバスト性のパフォーマンスを測定するために用いられる。

A Coupled Variational Autoencoder, which incorporates both a generalized loss function and latent layer distribution, shows improvement in the accuracy and robustness of generated replicas of MNIST numerals. The latent layer uses a Student's t-distribution to incorporate heavy-tail decay. The loss function uses a coupled logarithm, which increases the penalty on images with outlier likelihood. The generalized mean of the generated image's likelihood is used to measure the performance of the algorithm's decisiveness, accuracy, and robustness.
翻訳日:2022-09-22 23:48:45 公開日:2020-11-21
# 深部確率的動的熱ラインレーティング予測

A Secure Deep Probabilistic Dynamic Thermal Line Rating Prediction ( http://arxiv.org/abs/2011.12713v1 )

ライセンス: Link先を確認
N. Safari, S.M. Mazhari, C.Y. Chung, S.B. Ko(参考訳) オーバヘッドライン(OHL)伝送アンパチーの正確な短期予測は、電力系統の運用と計画の効率に直接影響を与える。 動的熱線評価(DTLR)の過大評価は、OHLの寿命劣化や故障、安全リスクなどを引き起こす可能性がある。 本稿ではDTLRの時差予測のための安全かつ鋭い確率予測モデルを提案する。 提案したDTLRのセキュリティは、実際のDTLRを超えるDTLR予測の頻度を制限する。 このモデルは、DTLR計算中に得られた過去の気候データや潜伏変数を含む、幅広い予測器を利用する拡張ディープラーニングアーキテクチャに基づいている。 さらに、カスタマイズされたコスト関数を導入することにより、予測されたDTLRの実際の値との偏差を最小限に抑えながら、必要となる超過確率に基づいてDTLRセキュリティを検討するように訓練する。 提案する確率DTLRを実験データを用いて開発,検証した。 シミュレーションの結果, 既知評価指標を用いた最先端予測モデルと比較し, DTLRの優位性を検証した。

Accurate short-term prediction of overhead line (OHL) transmission ampacity can directly affect the efficiency of power system operation and planning. Any overestimation of the dynamic thermal line rating (DTLR) can lead to lifetime degradation and failure of OHLs, safety hazards, etc. This paper presents a secure yet sharp probabilistic prediction model for the hour-ahead forecasting of the DTLR. The security of the proposed DTLR limits the frequency of DTLR prediction exceeding the actual DTLR. The model is based on an augmented deep learning architecture that makes use of a wide range of predictors, including historical climatology data and latent variables obtained during DTLR calculation. Furthermore, by introducing a customized cost function, the deep neural network is trained to consider the DTLR security based on the required probability of exceedance while minimizing deviations of the predicted DTLRs from the actual values. The proposed probabilistic DTLR is developed and verified using recorded experimental data. The simulation results validate the superiority of the proposed DTLR compared to state-of-the-art prediction models using well-known evaluation metrics.
翻訳日:2022-09-22 23:48:35 公開日:2020-11-21
# 複雑な位相における構成の完全な集合形成エンタルピーの教師付き深層学習予測:$\sigma-$phaseを例に

Supervised deep learning prediction of the formation enthalpy of the full set of configurations in complex phases: the $\sigma-$phase as an example ( http://arxiv.org/abs/2011.10883v1 )

ライセンス: Link先を確認
Jean-Claude Crivello, Nataliya Sokolovska, Jean-Marc Joubert(参考訳) 機械学習(ML)手法は、物質科学などの多くの分野における科学的調査に不可欠なものになりつつある。 この写本では、MLが固体化学のいくつかの性質、特に与えられた複素結晶相の形成の熱を予測するためにどのように使用できるかを示す(以下、$\sigma-$phase, $tP30$, $D8_{b}$)。 独立で前例のない大規模なfirst principlesデータセットで、約10,000ドルの$n=14$の異なる要素を含む$\sigma-$compoundsを含む。我々は、形成熱と$\sim$0.06 angで平均絶対エラー23 mev/at ($2 kj.mol$^{-1}$) 内の$\sim$5000,000の可能な構成を予測するために教師付き学習アプローチを用いた。 四角形細胞パラメータについて ニューラルネットワーク回帰アルゴリズムは従来の回帰手法と比較して予測出力の精度を大幅に向上することを示した。 物理的性質(原子半径、価電子の数)を持つ記述子を追加することで、学習精度が向上する。 この分析に基づいて,バイナリコンポジションのみからなるトレーニングデータベースは,システム構成の高度化を予測する上で重要な役割を果たす。 その結果,複合相の多成分予測のための組合せ二元計算の効率的な高スループット化への道が開けた。

Machine learning (ML) methods are becoming integral to scientific inquiry in numerous disciplines, such as material sciences. In this manuscript, we demonstrate how ML can be used to predict several properties in solid-state chemistry, in particular the heat of formation of a given complex crystallographic phase (here the $\sigma-$phase, $tP30$, $D8_{b}$). Based on an independent and unprecedented large first principles dataset containing about 10,000 $\sigma-$compounds with $n=14$ different elements, we used a supervised learning approach, to predict all the $\sim$500,000 possible configurations within a mean absolute error of 23 meV/at ($\sim$2 kJ.mol$^{-1}$) on the heat of formation and $\sim$0.06 Ang. on the tetragonal cell parameters. We showed that neural network regression algorithms provide a significant improvement in accuracy of the predicted output compared to traditional regression techniques. Adding descriptors having physical nature (atomic radius, number of valence electrons) improves the learning precision. Based on our analysis, the training database composed of the only binary-compositions plays a major role in predicting the higher degree system configurations. Our result opens a broad avenue to efficient high-throughput investigations of the combinatorial binary calculation for multicomponent prediction of a complex phase.
翻訳日:2022-09-22 23:44:01 公開日:2020-11-21
# MacLeR: リソース制約IoTエッジデバイスにおける機械学習ベースの実行時ハードウェアトロイの木馬検出

MacLeR: Machine Learning-based Run-Time Hardware Trojan Detection in Resource-Constrained IoT Edge Devices ( http://arxiv.org/abs/2011.11632v1 )

ライセンス: Link先を確認
Faiq Khalid, Syed Rafay Hasan, Sara Zia, Osman Hasan, Falah Awwad, Muhammad Shafique(参考訳) リアルタイムハードウェアトロイの木馬検出のための従来の学習ベースのアプローチでは、複雑で高価なオンチップデータ取得フレームワークが必要であるため、高い領域と電力オーバーヘッドが発生する。 これらの課題に対処するために,マイクロプロセッサの実行命令間の電力相関を利用して,機械学習に基づくハードウェアトロイの木馬検出フレームワーク(MacLeR)を構築することを提案する。 本研究では,データ取得のオーバーヘッドを低減するため,時間分割多重化における電流センサを用いた単一の電力ポート電流取得ブロックを提案する。 我々は,システムオンチップ(SoC)のRTLに挿入される複数のHTベンチマークを,vga_lcd,RSA,AES,イーサネット,メモリコントローラなどの他のIPと統合された4つのLEON3プロセッサで解析することで,実用的なソリューションを実装した。 実験の結果,MacLeRは最先端HT検出技術と比較して10倍のHT検出精度(96.256%)を達成し,面積と電力オーバーヘッド(SoC面積の0.025%,SoC電力の0.07%)の7倍の低減を実現した。 また,プロセス変動と老化が抽出された電力プロファイルとマクラーのht検出精度に与える影響についても検討した。 解析の結果,HTsによる微粒化パワープロファイルの変動は,プロセス変動(PV)と加齢効果による微粒化パワープロファイルの変動に比べて有意に高いことがわかった。 また,本解析では,最悪の場合のpvとpvのみを考慮した場合,平均してht検出精度の低下は1%以下,9%以下であり,これは最先端mlベースのht検出技術に比べて約10倍小さいことが示された。

Traditional learning-based approaches for run-time Hardware Trojan detection require complex and expensive on-chip data acquisition frameworks and thus incur high area and power overhead. To address these challenges, we propose to leverage the power correlation between the executing instructions of a microprocessor to establish a machine learning-based run-time Hardware Trojan (HT) detection framework, called MacLeR. To reduce the overhead of data acquisition, we propose a single power-port current acquisition block using current sensors in time-division multiplexing, which increases accuracy while incurring reduced area overhead. We have implemented a practical solution by analyzing multiple HT benchmarks inserted in the RTL of a system-on-chip (SoC) consisting of four LEON3 processors integrated with other IPs like vga_lcd, RSA, AES, Ethernet, and memory controllers. Our experimental results show that compared to state-of-the-art HT detection techniques, MacLeR achieves 10\% better HT detection accuracy (i.e., 96.256%) while incurring a 7x reduction in area and power overhead (i.e., 0.025% of the area of the SoC and <0.07% of the power of the SoC). In addition, we also analyze the impact of process variation and aging on the extracted power profiles and the HT detection accuracy of MacLeR. Our analysis shows that variations in fine-grained power profiles due to the HTs are significantly higher compared to the variations in fine-grained power profiles caused by the process variations (PV) and aging effects. Moreover, our analysis demonstrates that, on average, the HT detection accuracy drop in MacLeR is less than 1% and 9% when considering only PV and PV with worst-case aging, respectively, which is ~10x less than in the case of the state-of-the-art ML-based HT detection technique.
翻訳日:2022-09-22 23:43:35 公開日:2020-11-21
# AutoWeka4MCPS-AVATAR: 機械学習パイプラインの構成と最適化の高速化

AutoWeka4MCPS-AVATAR: Accelerating Automated Machine Learning Pipeline Composition and Optimisation ( http://arxiv.org/abs/2011.11846v1 )

ライセンス: Link先を確認
Tien-Dung Nguyen, Bogdan Gabrys and Katarzyna Musial(参考訳) 自動機械学習パイプライン(ML)合成と最適化は、割り当てられたリソース(時間、CPU、メモリなど)の中で最も有望なMLパイプラインを見つけるプロセスを自動化することを目的としている。 Auto-Weka、Auto-Sklearn、TPOTで実装されたベイジアンベースおよび遺伝的ベース最適化のような既存の手法は、パイプラインの実行によってパイプラインを評価する。 したがって、これらのメソッドのパイプライン構成と最適化には、より優れた予測モデルを見つけるために複雑なパイプラインを探索することを妨げる膨大な時間を要する。 この研究課題をさらに探究するため,我々は,生成したパイプラインの多くがそもそも無効であり,実行しようとするのは時間とリソースの無駄であることを示す実験を行った。 この問題に対処するために,サロゲートモデル(AVATAR)を用いて,実行せずにMLパイプラインの有効性を評価する新しい手法を提案する。 AVATARは、データセットの特徴に対するMLアルゴリズムの機能と効果を自動的に学習することで、知識ベースを生成する。 この知識ベースは、オリジナルのMLパイプラインからペトリネットベースのパイプラインである代理モデルへの単純化されたマッピングに使用される。 AVATARはその妥当性を評価するためにオリジナルのMLパイプラインを実行する代わりに、MLパイプラインコンポーネントと入出力単純化されたマッピングの能力と効果によって構築されたサロゲートモデルを評価する。 このサロゲートモデルの評価は、元のパイプラインの実行よりもリソース集約性が低い。 その結果、アバターは、無効なパイプラインを迅速に拒否することで、パイプラインの構成と最適化方法をより多くのパイプラインを評価することができる。 AVATARを逐次モデルベースアルゴリズム構成(SMAC)に統合する。 我々の実験は、SMACがAVATARを採用すると、それ自身よりも優れた解が見つかることを示している。

Automated machine learning pipeline (ML) composition and optimisation aim at automating the process of finding the most promising ML pipelines within allocated resources (i.e., time, CPU and memory). Existing methods, such as Bayesian-based and genetic-based optimisation, which are implemented in Auto-Weka, Auto-sklearn and TPOT, evaluate pipelines by executing them. Therefore, the pipeline composition and optimisation of these methods frequently require a tremendous amount of time that prevents them from exploring complex pipelines to find better predictive models. To further explore this research challenge, we have conducted experiments showing that many of the generated pipelines are invalid in the first place, and attempting to execute them is a waste of time and resources. To address this issue, we propose a novel method to evaluate the validity of ML pipelines, without their execution, using a surrogate model (AVATAR). The AVATAR generates a knowledge base by automatically learning the capabilities and effects of ML algorithms on datasets' characteristics. This knowledge base is used for a simplified mapping from an original ML pipeline to a surrogate model which is a Petri net based pipeline. Instead of executing the original ML pipeline to evaluate its validity, the AVATAR evaluates its surrogate model constructed by capabilities and effects of the ML pipeline components and input/output simplified mappings. Evaluating this surrogate model is less resource-intensive than the execution of the original pipeline. As a result, the AVATAR enables the pipeline composition and optimisation methods to evaluate more pipelines by quickly rejecting invalid pipelines. We integrate the AVATAR into the sequential model-based algorithm configuration (SMAC). Our experiments show that when SMAC employs AVATAR, it finds better solutions than on its own.
翻訳日:2022-09-22 23:42:59 公開日:2020-11-21
# 深部データフロー解析

Deep Data Flow Analysis ( http://arxiv.org/abs/2012.01470v1 )

ライセンス: Link先を確認
Chris Cummins, Hugh Leather, Zacharias Fisches, Tal Ben-Nun, Torsten Hoefler, Michael O'Boyle(参考訳) コンパイラ最適化のためのヒューリスティックを構築する際に、コンパイラアーキテクトはますます機械学習に目を向けるようになる。 プログラム、アーキテクチャ、その他の最適化の複雑な相互作用からコンパイラエンジニアを解放する自動ヒューリスティック設計の約束は順調である。 しかし、ほとんどの機械学習手法は、適切な最適化決定を行うのに不可欠なデータフロー分析の抽象解釈の最も単純な部分さえ再現できない。 機械学習がコンパイラヒューリスティックにおいて支配的な技術になるためには、この方法を変える必要がある。 この目的のために,ディープラーニングのための言語に依存しない,プログラム全体のセマンティクスのポータブル表現であるProGraML - Program Graphs for Machine Learningを提案する。 コンパイラ解析のための現在および将来の学習技術をベンチマークするために、5つのソースプログラミング言語と15.4mのデータフロー結果をカバーする、llvm用の461k中間表現(ir)ファイルのオープンデータセットを紹介する。 データフロー解析をmpnnとして定式化し,プログラムを用いて標準解析を学習し,下流コンパイラ最適化タスクの性能向上を実現することを示す。

Compiler architects increasingly look to machine learning when building heuristics for compiler optimization. The promise of automatic heuristic design, freeing the compiler engineer from the complex interactions of program, architecture, and other optimizations, is alluring. However, most machine learning methods cannot replicate even the simplest of the abstract interpretations of data flow analysis that are critical to making good optimization decisions. This must change for machine learning to become the dominant technology in compiler heuristics. To this end, we propose ProGraML - Program Graphs for Machine Learning - a language-independent, portable representation of whole-program semantics for deep learning. To benchmark current and future learning techniques for compiler analyses we introduce an open dataset of 461k Intermediate Representation (IR) files for LLVM, covering five source programming languages, and 15.4M corresponding data flow results. We formulate data flow analysis as an MPNN and show that, using ProGraML, standard analyses can be learned, yielding improved performance on downstream compiler optimization tasks.
翻訳日:2022-09-22 23:42:31 公開日:2020-11-21
# ニューラルリターゲティングを用いた対話ヘッドの反復的テキスト編集

Iterative Text-based Editing of Talking-heads Using Neural Retargeting ( http://arxiv.org/abs/2011.10688v1 )

ライセンス: Link先を確認
Xinwei Yao, Ohad Fried, Kayvon Fatahalian, Maneesh Agrawala(参考訳) 本稿では,反復的な編集ワークフローを実現する対話ヘッドビデオの編集を行うテキストベースのツールを提案する。 各イテレーションでは、ユーザーは音声の単語を編集したり、アーチファクトを減らしたり、口のジェスチャー(例えば笑顔)を挿入したり、全体的なパフォーマンススタイルを変更したり(例えば、エネルギティック、ムブル)、パフォーマンスの非言語的な側面を操作できる。 私たちのツールは、ターゲットのアクタビデオの2~3分しか必要とせず、各イテレーションのビデオを約40秒で合成します。 我々のアプローチは2つの重要なアイデアに基づいている。 1) 所望の編集に最も適したソースリポジトリビデオの音素レベルサブシーケンスを素早く識別できる高速音素探索アルゴリズムを開発した。 これにより、速いイテレーションループが可能になります。 2) ソースアクタの大規模なビデオリポジトリを活用し, ソースアクタの口の動きをターゲットアクタに伝達する, 新たな自己教師付き神経再ターゲティング手法を開発した。 これにより、比較的短いターゲットのアクタービデオで作業することが可能となり、我々のアプローチは多くの現実世界の編集シナリオに適用できる。 最後に,改良と性能制御により,合成結果のさらなる微調整が可能となった。

We present a text-based tool for editing talking-head video that enables an iterative editing workflow. On each iteration users can edit the wording of the speech, further refine mouth motions if necessary to reduce artifacts and manipulate non-verbal aspects of the performance by inserting mouth gestures (e.g. a smile) or changing the overall performance style (e.g. energetic, mumble). Our tool requires only 2-3 minutes of the target actor video and it synthesizes the video for each iteration in about 40 seconds, allowing users to quickly explore many editing possibilities as they iterate. Our approach is based on two key ideas. (1) We develop a fast phoneme search algorithm that can quickly identify phoneme-level subsequences of the source repository video that best match a desired edit. This enables our fast iteration loop. (2) We leverage a large repository of video of a source actor and develop a new self-supervised neural retargeting technique for transferring the mouth motions of the source actor to the target actor. This allows us to work with relatively short target actor videos, making our approach applicable in many real-world editing scenarios. Finally, our refinement and performance controls give users the ability to further fine-tune the synthesized results.
翻訳日:2022-09-22 23:42:15 公開日:2020-11-21
# 深部スマートフォンセンサ-屋内位置計測と追跡のためのWi-Fiフュージョン

Deep Smartphone Sensors-WiFi Fusion for Indoor Positioning and Tracking ( http://arxiv.org/abs/2011.10799v1 )

ライセンス: Link先を確認
Leonid Antsfeld, Boris Chidlovskii, Emilio Sansano-Sansano(参考訳) そこでは,加速度センサ,ジャイロスコープ,磁気センサなどの慣性センサ,さらにはバロメーターやWiFiなどの他の環境やネットワークセンサを用いて,スマートフォンが収集したデータからユーザの軌道を予測することを目的としている。 本システムは,ユーザの相対的位置を高精度に推定する深層学習に基づく歩行者死推定(deep PDR)モデルを実装している。 Kalmanフィルタを用いて、WiFiスキャンを受けるたびにユーザの絶対位置を予測できるWiFiを用いてPDRのドリフトを補正する。 最後に,環境(コリダ,ドアなど)の物理的制約を考慮したマップフリー投影法を用いてカルマンフィルタ結果を調整し,歩行可能な経路に予測を投影する。 我々はIPIN'19屋内ローカライゼーションチャレンジデータセット上でパイプラインをテストし、チャレンジ評価プロトコルを用いて勝者の結果を20%改善することを示した。

We address the indoor localization problem, where the goal is to predict user's trajectory from the data collected by their smartphone, using inertial sensors such as accelerometer, gyroscope and magnetometer, as well as other environment and network sensors such as barometer and WiFi. Our system implements a deep learning based pedestrian dead reckoning (deep PDR) model that provides a high-rate estimation of the relative position of the user. Using Kalman Filter, we correct the PDR's drift using WiFi that provides a prediction of the user's absolute position each time a WiFi scan is received. Finally, we adjust Kalman Filter results with a map-free projection method that takes into account the physical constraints of the environment (corridors, doors, etc.) and projects the prediction on the possible walkable paths. We test our pipeline on IPIN'19 Indoor Localization challenge dataset and demonstrate that it improves the winner's results by 20\% using the challenge evaluation protocol.
翻訳日:2022-09-22 23:41:14 公開日:2020-11-21
# 知識強化型ビジュアルセマンティック埋め込みによるゼロショット学習

Zero-Shot Learning with Knowledge Enhanced Visual Semantic Embeddings ( http://arxiv.org/abs/2011.10889v1 )

ライセンス: Link先を確認
Karan Sikka, Jihua Huang, Andrew Silberfarb, Prateeth Nayak, Luke Rohrer, Pritish Sahu, John Byrnes, Ajay Divakaran, Richard Rohwer(参考訳) DNNに常識知識を取り入れてゼロショット学習(ZSL)を改善する。 本稿では,視覚・視覚埋め込みを規則化する新しい神経シンボリック損失関数として,事前知識を定式化するコモンセンスに基づくニューロシンボリックロス(csnl)を提案する。 CSNLはVSEの視覚的特徴をハイパーネムや属性に関する常識的な規則に従うように強制する。 1) クラス間関係を考慮に入れるために, 1つの概念ではなく, 1つのグループのルールを強制すること, (2) 暗黙的なカリキュラム学習を可能にし, 早期の過剰フィットを防止する論理演算子内の信頼マージンについて述べる。 各知識ソースを組み込むことの利点を評価し,従来のzsl法,一般化zsl法,例えば11.5%,5.5%,11.6%のawa2法,cub法,kinetics法において,先行技術法よりも一貫性のある成果を示す。

We improve zero-shot learning (ZSL) by incorporating common-sense knowledge in DNNs. We propose Common-Sense based Neuro-Symbolic Loss (CSNL) that formulates prior knowledge as novel neuro-symbolic loss functions that regularize visual-semantic embedding. CSNL forces visual features in the VSE to obey common-sense rules relating to hypernyms and attributes. We introduce two key novelties for improved learning: (1) enforcement of rules for a group instead of a single concept to take into account class-wise relationships, and (2) confidence margins inside logical operators that enable implicit curriculum learning and prevent premature overfitting. We evaluate the advantages of incorporating each knowledge source and show consistent gains over prior state-of-art methods in both conventional and generalized ZSL e.g. 11.5%, 5.5%, and 11.6% improvements on AWA2, CUB, and Kinetics respectively.
翻訳日:2022-09-22 23:34:49 公開日:2020-11-21
# mriガイド下肝・腎臓の高出力集束超音波

MRI-Guided High Intensity Focused Ultrasound of Liver and Kidney ( http://arxiv.org/abs/2011.10752v1 )

ライセンス: Link先を確認
Baudouin Denis de Senneville, Mario Ries, Wilbert Bartels, Chrit Moonen(参考訳) 高強度集束超音波(HIFU)は非侵襲的に人体内部の深部における局所的な温度上昇を達成するために用いられる。 手順のMRIガイダンスは、in situターゲット定義を可能にする。 さらに、MRIはHIFU中に加熱手順の空間的および時間的制御と、受熱量に基づく最終病変の予測のための連続した温度マッピングを提供するために使用できる。 移植臓器の腎臓および肝臓への温度マッピングは,HIFUのフィードバック制御のためのリアルタイム処理法と同様に困難である。 本稿では, これらの臓器のMR温度マッピング, HIFUビームの運動補償, HIFUソニケーション, ボリュームアブレーションおよびフィードバック制御戦略における最近の技術進歩について概説する。 最近の前臨床研究は、これらの新しい手法のそれぞれの実現可能性を示している。 これらの進歩をクリニックに翻訳する視点に対処する。 肝と腎臓のアブレーションをMRガイドしたHIFUは実現可能と思われるが、技術的に進歩した手法の統合にはさらなる研究が必要である。

High Intensity Focused Ultrasound (HIFU) can be used to achieve a local temperature increase deep inside the human body in a non-invasive way. MRI guidance of the procedure allows in situ target definition. In addition, MRI can be used to provide continuous temperature mapping during HIFU for spatial and temporal control of the heating procedure and prediction of the final lesion based on the received thermal dose. Temperature mapping of mobile organs as kidney and liver is challenging, as well as real-time processing methods for feedback control of the HIFU procedure. In this paper, recent technological advances are reviewed in MR temperature mapping of these organs, in motion compensation of the HIFU beam, in intercostal HIFU sonication, and in volumetric ablation and feedback control strategies. Recent pre-clinical studies have demonstrated the feasibility of each of these novel methods. The perspectives to translate those advances into the clinic are addressed. It can be concluded that MR guided HIFU for ablation in liver and kidney appears feasible but requires further work on integration of technologically advanced methods.
翻訳日:2022-09-22 23:33:46 公開日:2020-11-21
# superocr:光学式文字認識から画像キャプションへの変換

SuperOCR: A Conversion from Optical Character Recognition to Image Captioning ( http://arxiv.org/abs/2012.02033v1 )

ライセンス: Link先を確認
Baohua Sun, Michael Lin, Hao Sha, Lin Yang(参考訳) 光文字認識(OCR)は多くの実世界の応用がある。 既存の方法は通常、文字の位置を検知し、検出された場所ごとに文字を認識する。 これにより、文字認識の精度は文字検出の性能に影響される。 本稿では,各文字の位置を検知せずに文字を認識する手法を提案する。 これはOCRタスクをイメージキャプションタスクに変換することで実現される。 提案手法の利点の1つは、トレーニング中に文字のラベル付き境界ボックスを必要としないことである。 実験の結果,提案手法は,ライセンスプレート認識と水位計文字認識の両タスクにおいて,既存の手法よりも優れていた。 提案手法は、デバイス上のアプリケーション用にRaspberry Pi 3に接続された低消費電力(300mW)CNNアクセラレータチップにも展開される。

Optical Character Recognition (OCR) has many real world applications. The existing methods normally detect where the characters are, and then recognize the character for each detected location. Thus the accuracy of characters recognition is impacted by the performance of characters detection. In this paper, we propose a method for recognizing characters without detecting the location of each character. This is done by converting the OCR task into an image captioning task. One advantage of the proposed method is that the labeled bounding boxes for the characters are not needed during training. The experimental results show the proposed method outperforms the existing methods on both the license plate recognition and the watermeter character recognition tasks. The proposed method is also deployed into a low-power (300mW) CNN accelerator chip connected to a Raspberry Pi 3 for on-device applications.
翻訳日:2022-09-22 23:33:10 公開日:2020-11-21
# 人間の計算は倫理的レビューに新しいアプローチを必要とする

Human computation requires and enables a new approach to ethical review ( http://arxiv.org/abs/2011.10754v1 )

ライセンス: Link先を確認
Libu\v{s}e Hannah Vep\v{r}ek, Patricia Seymour, Pietro Michelucci(参考訳) 分散情報処理システムにおいて,人間が計算要素として機能し,新興思考経済に付随する利益主導の動機や潜在的不平等を考慮し,オンライン認知労働者の公正な待遇と幸福を確保するための一連の関連する倫理の確立と,それらが貢献する能力の良質な利用の必要性を認識している。 この目的に向けて、我々はまず、従来の倫理的研究基準に従わない新たな関心事に関して、ループ型コンピューティングについて記述する。 次に、倫理的レビューに対する従来のアプローチの欠点を説明し、破壊的新技術の急速に変化するコンテキストの中で進化し続ける倫理的枠組みを維持するための動的なアプローチを紹介します。

With humans increasingly serving as computational elements in distributed information processing systems and in consideration of the profit-driven motives and potential inequities that might accompany the emerging thinking economy[1], we recognize the need for establishing a set of related ethics to ensure the fair treatment and wellbeing of online cognitive laborers and the conscientious use of the capabilities to which they contribute. Toward this end, we first describe human-in-the-loop computing in context of the new concerns it raises that are not addressed by traditional ethical research standards. We then describe shortcomings in the traditional approach to ethical review and introduce a dynamic approach for sustaining an ethical framework that can continue to evolve within the rapidly shifting context of disruptive new technologies.
翻訳日:2022-09-22 23:32:59 公開日:2020-11-21
# 需要学習における自己適応ロバスト性

Self-adapting Robustness in Demand Learning ( http://arxiv.org/abs/2011.10690v1 )

ライセンス: Link先を確認
Boxiao Chen, Selvaprabu Nadarajah, Parshan Pakiman, Stefanus Jasin(参考訳) 需要モデルによる曖昧性の存在下で,有限周期の動的価格設定について検討する。 価格変更がいつでも許される典型的なノンレグレット学習環境とは別に、事前に指定された時点で価格決定が行われ、各価格が多数の到着者に適用される。 小売業において生じるこの環境では、誤った需要モデルに基づく価格決定は累積収益に大きな影響を与える。 需要モデルの曖昧さを積極的に管理しながら、データから真のモデルパラメータを学習する適応型ロバスト学習(arl)価格ポリシーを開発した。 自己適応型の需要モデルに対して堅牢な目標を最適化し、事前の価格決定から明らかになった販売データが「予測可能」である場合にのみ、所定のモデルをこのセットに含める。 その結果、需要モデルあいまいさが高い場合の堅牢さから、このあいまいさがより多くのデータを受け取ると減少する場合の後悔を最小限に抑えることができる。 我々は,ARLの自己適応的あいまいさ集合の確率的挙動を特徴付け,収益損失の規模と顧客到着パターンとの関係を強調した後悔の限界を導出する。 また、ARLは、モデルあいまいさと収益の両方を意識することで、分散ロバストな政策と、モデルあいまいさと収益に焦点を当てた後続の政策のギャップを埋めることを示す。 我々は,arl政策やその拡張が,予測収益やリスク価値の観点から,分布的堅牢性,従順性,高信頼性よりも優れた性能を示すことを数値的に確認する。

We study dynamic pricing over a finite number of periods in the presence of demand model ambiguity. Departing from the typical no-regret learning environment, where price changes are allowed at any time, pricing decisions are made at pre-specified points in time and each price can be applied to a large number of arrivals. In this environment, which arises in retailing, a pricing decision based on an incorrect demand model can significantly impact cumulative revenue. We develop an adaptively-robust-learning (ARL) pricing policy that learns the true model parameters from the data while actively managing demand model ambiguity. It optimizes an objective that is robust with respect to a self-adapting set of demand models, where a given model is included in this set only if the sales data revealed from prior pricing decisions makes it "probable". As a result, it gracefully transitions from being robust when demand model ambiguity is high to minimizing regret when this ambiguity diminishes upon receiving more data. We characterize the stochastic behavior of ARL's self-adapting ambiguity sets and derive a regret bound that highlights the link between the scale of revenue loss and the customer arrival pattern. We also show that ARL, by being conscious of both model ambiguity and revenue, bridges the gap between a distributionally robust policy and a follow-the-leader policy, which focus on model ambiguity and revenue, respectively. We numerically find that the ARL policy, or its extension thereof, exhibits superior performance compared to distributionally robust, follow-the-leader, and upper-confidence-bound policies in terms of expected revenue and/or value at risk.
翻訳日:2022-09-22 23:32:45 公開日:2020-11-21
# 道路交通力学における計算収穫

Computation harvesting in road traffic dynamics ( http://arxiv.org/abs/2011.10744v1 )

ライセンス: Link先を確認
Hiroyasu Ando, T. Okamoto, H. Chang, T. Noguchi, and Shinji Nakaoka(参考訳) 人工知能とモノのインターネット(IoT)技術の最近の進歩により、収集されたビッグデータは高い計算性能を促進する一方、その計算資源とエネルギーコストは大きい。 さらに、データは頻繁に収集されるが、使われない。 これらの問題を解決するために,我々は,人間の脳のような自然計算システムに従い,電子計算機に依存しない計算モデルのための枠組みを提案する。 特に,リッチセンサから収集したIoTデータを用いて,収集したデータとして計算処理の大部分を実世界の現象に委ねる「計算収穫」の概念に基づく方法論を提案する。 この側面は、大規模計算が高速でレジリエントであると仮定する。 本稿では,実際の道路交通データを用いて予測タスクを実行し,計算収穫の可能性を示す。 まず,トラヒックフローの実質的な計算は,時空間ダイナミクスからの収穫と特定のパターンの合成の組み合わせによって,センサ障害やリアルタイムのトラヒック変化に対して弾力性があることを示す。 次に, 計算コストの低さから, この手法を実時間予測として実用性を示す。 最後に,従来の手法と比較して,本手法は性能を同等に保ちながら低いリソースを必要とすることを示す。

Owing to recent advances in artificial intelligence and internet of things (IoT) technologies, collected big data facilitates high computational performance, while its computational resources and energy cost are large. Moreover, data are often collected but not used. To solve these problems, we propose a framework for a computational model that follows a natural computational system, such as the human brain, and does not rely heavily on electronic computers. In particular, we propose a methodology based on the concept of `computation harvesting', which uses IoT data collected from rich sensors and leaves most of the computational processes to real-world phenomena as collected data. This aspect assumes that large-scale computations can be fast and resilient. Herein, we perform prediction tasks using real-world road traffic data to show the feasibility of computation harvesting. First, we show that the substantial computation in traffic flow is resilient against sensor failure and real-time traffic changes due to several combinations of harvesting from spatiotemporal dynamics to synthesize specific patterns. Next, we show the practicality of this method as a real-time prediction because of its low computational cost. Finally, we show that, compared to conventional methods, our method requires lower resources while providing a comparable performance.
翻訳日:2022-09-22 23:32:17 公開日:2020-11-21
# 逆境画像における空間的相関パターン

Spatially Correlated Patterns in Adversarial Images ( http://arxiv.org/abs/2011.10794v1 )

ライセンス: Link先を確認
Nandish Chattopadhyay, Lionell Yip En Zhi, Bryan Tan Bing Xing and Anupam Chattopadhyay(参考訳) 敵の攻撃は、信頼できる機械学習ソリューションに向けた研究の進展の大きな障害であることが証明されている。 人間の視覚には見えない、注意深く作られた摂動は、画像に加えることができ、それ以外はハイパフォーマンスなニューラルネットワークによる誤分類を強制することができる。 このような構造的攻撃の主要要因をよりよく理解するために,入力空間における画素の分布における空間的共配置パターンを探索し,検討した。 本稿では,分類(推論中)や敵対的脆弱性,あるいはその両方に対して特に重要となる入力画像内の領域を分離・分離する枠組みを提案する。 推論中、トレーニングされたモデルはイメージ内の特定の領域を参照し、その領域は「重要地域」(RoI)と呼ばれ、攻撃者は「攻撃地域」(RoA)と呼ばれる領域を変更・修正する。 このアプローチの成功は、我々の観察で示されるように、ポストホック対逆防御法の設計にも応用できる。 これは、敵対攻撃に対して非常に脆弱であるが分類のタスクには重要でない画像の領域をブロックアウト(中和と呼ぶ)という概念を用いる。 分離,分離,中性化のプロセスを定式化するための理論的セットアップを確立し,標準ベンチマークデータセットの実証分析を通じてそれを実証する。 その結果, 入力空間へのマッピングは, 特徴空間で典型的に見られる重要なパターンを保ちながら, 重要な解釈可能性を加え, 潜在的な防御機構を単純化することを強く示唆した。

Adversarial attacks have proved to be the major impediment in the progress on research towards reliable machine learning solutions. Carefully crafted perturbations, imperceptible to human vision, can be added to images to force misclassification by an otherwise high performing neural network. To have a better understanding of the key contributors of such structured attacks, we searched for and studied spatially co-located patterns in the distribution of pixels in the input space. In this paper, we propose a framework for segregating and isolating regions within an input image which are particularly critical towards either classification (during inference), or adversarial vulnerability or both. We assert that during inference, the trained model looks at a specific region in the image, which we call Region of Importance (RoI); and the attacker looks at a region to alter/modify, which we call Region of Attack (RoA). The success of this approach could also be used to design a post-hoc adversarial defence method, as illustrated by our observations. This uses the notion of blocking out (we call neutralizing) that region of the image which is highly vulnerable to adversarial attacks but is not important for the task of classification. We establish the theoretical setup for formalising the process of segregation, isolation and neutralization and substantiate it through empirical analysis on standard benchmarking datasets. The findings strongly indicate that mapping features into the input space preserves the significant patterns typically observed in the feature-space while adding major interpretability and therefore simplifies potential defensive mechanisms.
翻訳日:2022-09-22 23:26:12 公開日:2020-11-21
# 潜在分布マッチングを用いた確率的発話顔生成

Stochastic Talking Face Generation Using Latent Distribution Matching ( http://arxiv.org/abs/2011.10727v1 )

ライセンス: Link先を確認
Ravindra Yadav, Ashish Sardana, Vinay P Namboodiri, Rajesh M Hegde(参考訳) 音声を聴くだけで、会話の顔の視覚を視覚化する能力は、ユニークな人間の能力である。 最近、この能力のために解決された多くの作品がある。 単一音声入力に基づく様々な発話顔生成を可能にすることで,これらのアプローチと異なる。 実際、単一の会話顔を生成する能力があれば、システムは本質的にほぼロボット的になる。 対照的に、我々の教師なし確率的オーディオ・ビデオ生成モデルは、単一のオーディオ入力から様々な世代を生成することができる。 特に,ビデオ配信の複数のモードをキャプチャ可能な教師なし確率的音声対ビデオ生成モデルを提案する。 我々は全ての多様な世代が 実現可能であることを保証します 原理化されたマルチモーダル変分オートエンコーダフレームワークによって実現している。 我々は、LRWとGRIDデータセットにその効果を示し、複数の多様な唇同期ビデオを生成する能力を有しながら、ベースラインよりも優れた性能を示す。

The ability to envisage the visual of a talking face based just on hearing a voice is a unique human capability. There have been a number of works that have solved for this ability recently. We differ from these approaches by enabling a variety of talking face generations based on single audio input. Indeed, just having the ability to generate a single talking face would make a system almost robotic in nature. In contrast, our unsupervised stochastic audio-to-video generation model allows for diverse generations from a single audio input. Particularly, we present an unsupervised stochastic audio-to-video generation model that can capture multiple modes of the video distribution. We ensure that all the diverse generations are plausible. We do so through a principled multi-modal variational autoencoder framework. We demonstrate its efficacy on the challenging LRW and GRID datasets and demonstrate performance better than the baseline, while having the ability to generate multiple diverse lip synchronized videos.
翻訳日:2022-09-22 23:24:51 公開日:2020-11-21
# DmifNet:動的マルチブランチ情報融合に基づく3次元形状再構成

DmifNet:3D Shape Reconstruction Based on Dynamic Multi-Branch Information Fusion ( http://arxiv.org/abs/2011.10776v1 )

ライセンス: Link先を確認
Lei Li, Suping Wu(参考訳) シングルビュー画像からの3Dオブジェクトの再構築は、長年の課題である。 複雑なトポロジーで3次元形状を正確に再構築することは, それまでの作業では困難であった。 さらに、以前の研究では、合成データを使ってネットワークをトレーニングしたが、実際のデータでテストするとドメイン適応の問題が発生した。 本稿では,2次元画像から任意の位相の高忠実度3次元形状を復元できる動的マルチブランチ情報融合ネットワーク(dmifnet)を提案する。 具体的には、中間層から複数のサイドブランチを設計し、ネットワークがより多様な表現を生成し、ネットワークの一般化能力を向上させる。 さらに、入力画像からエッジ幾何学とコーナー情報を抽出するためにDoG(ガウスの差分)を用いる。 次に、抽出したデータを別個の側分岐ネットワークで処理し、エッジジオメトリとコーナーの特徴情報をよりよくキャプチャする。 最後に、全ての分岐の情報を動的に融合して最終的な予測確率を得る。 大規模公開データセットの定性的および定量的実験により,本手法の有効性と有効性を示した。 コードとモデルはhttps://github.com/leilimaster/dmifnetで公開されている。

3D object reconstruction from a single-view image is a long-standing challenging problem. Previous work was difficult to accurately reconstruct 3D shapes with a complex topology which has rich details at the edges and corners. Moreover, previous works used synthetic data to train their network, but domain adaptation problems occurred when tested on real data. In this paper, we propose a Dynamic Multi-branch Information Fusion Network (DmifNet) which can recover a high-fidelity 3D shape of arbitrary topology from a 2D image. Specifically, we design several side branches from the intermediate layers to make the network produce more diverse representations to improve the generalization ability of network. In addition, we utilize DoG (Difference of Gaussians) to extract edge geometry and corners information from input images. Then, we use a separate side branch network to process the extracted data to better capture edge geometry and corners feature information. Finally, we dynamically fuse the information of all branches to gain final predicted probability. Extensive qualitative and quantitative experiments on a large-scale publicly available dataset demonstrate the validity and efficiency of our method. Code and models are publicly available at https://github.com/leilimaster/DmifNet.
翻訳日:2022-09-22 23:24:04 公開日:2020-11-21
# MoNet: モーションベースのポイントクラウド予測ネットワーク

MoNet: Motion-based Point Cloud Prediction Network ( http://arxiv.org/abs/2011.10812v1 )

ライセンス: Link先を確認
Fan Lu, Guang Chen, Yinlong Liu, Zhijun Li, Sanqing Qu, Tianpei Zou(参考訳) 未来を予測することは、自動運転の重要な要素であるインテリジェントな車の安全性を大幅に改善することができる。 3Dポイントクラウドは、周囲の環境の3D情報を正確にモデル化し、インテリジェントな車両がシーンを知覚するのに不可欠である。 したがって、3次元点雲の予測はインテリジェントな車両にとって非常に重要であり、さらに多くの応用に利用することができる。 しかし、点雲は秩序がなく、構造化されていないため、点雲の予測は困難であり、現在の文献では深く研究されていない。 本稿では,MoNetと呼ばれる動きに基づくニューラルネットを提案する。 提案されたmonetの重要なアイデアは、2つの連続したポイントクラウド間の動き機能を予測パイプラインに統合することだ。 動き特徴の導入により、モデルがフレーム間の動き情報の変動をより正確に捉え、将来の動きを予測することができる。 さらに、個々の点雲の空間的内容をモデル化するためにコンテンツ特徴を導入する。 両方の特徴の時間相関を捉えるために、MotionRNNという繰り返しニューラルネットワークが提案されている。 さらに,推定パイプラインの動作特徴の欠如問題に対処するために,注意に基づくモーションアライメントモジュールを提案する。 2つの大規模屋外LiDARデータセットに対する大規模な実験は、提案したMoNetの性能を示す。 さらに,予測した点群を用いたアプリケーション実験を行い,提案手法の応用可能性を示す。

Predicting the future can significantly improve the safety of intelligent vehicles, which is a key component in autonomous driving. 3D point clouds accurately model 3D information of surrounding environment and are crucial for intelligent vehicles to perceive the scene. Therefore, prediction of 3D point clouds has great significance for intelligent vehicles, which can be utilized for numerous further applications. However, due to point clouds are unordered and unstructured, point cloud prediction is challenging and has not been deeply explored in current literature. In this paper, we propose a novel motion-based neural network named MoNet. The key idea of the proposed MoNet is to integrate motion features between two consecutive point clouds into the prediction pipeline. The introduction of motion features enables the model to more accurately capture the variations of motion information across frames and thus make better predictions for future motion. In addition, content features are introduced to model the spatial content of individual point clouds. A recurrent neural network named MotionRNN is proposed to capture the temporal correlations of both features. Besides, we propose an attention-based motion align module to address the problem of missing motion features in the inference pipeline. Extensive experiments on two large scale outdoor LiDAR datasets demonstrate the performance of the proposed MoNet. Moreover, we perform experiments on applications using the predicted point clouds and the results indicate the great application potential of the proposed method.
翻訳日:2022-09-22 23:23:46 公開日:2020-11-21
# ニューラルネットワークの選択的微調整による文脈干渉低減

Contextual Interference Reduction by Selective Fine-Tuning of Neural Networks ( http://arxiv.org/abs/2011.10857v1 )

ライセンス: Link先を確認
Mahdi Biparva, John Tsotsos(参考訳) 前景のターゲットオブジェクトと背景の背景との特徴の絡み合いは、まだ完全には達成されていない。 ネットワーク解釈性の欠如により、特徴の絡み合いや一般化の堅牢性が向上する。 本研究では,不整合前景対象オブジェクト表現の干渉におけるコンテキストの役割について検討する。 我々は,畳み込みネットワークと学習アルゴリズムの密集した階層的パラメトリゼーションにより,周囲の文脈の表現が前景オブジェクトと強く結びついていると仮定する。 ボトムアップおよびトップダウン処理パラダイムの利点を生かしたフレームワークに取り組んで、フィードフォワードネットワークにおける学習された表現を、無関係なコンテキストから前景オブジェクトへとシフトするための体系的なアプローチを検討する。 トップダウン処理は、学習アルゴリズムが関連する前景領域に集中し、より堅牢な表現を達成するためのネットワーク内自己解釈の手段として重要マップを提供する。 mnistデータセットを用いて,コンテキスト強調の役割を持つ実験的な評価設定を定義する。 実験の結果, ラベル予測精度が向上するだけでなく, 様々な雑音発生法を用いて背景摂動に対する強靭性が向上することが明らかとなった。

Feature disentanglement of the foreground target objects and the background surrounding context has not been yet fully accomplished. The lack of network interpretability prevents advancing for feature disentanglement and better generalization robustness. We study the role of the context on interfering with a disentangled foreground target object representation in this work. We hypothesize that the representation of the surrounding context is heavily tied with the foreground object due to the dense hierarchical parametrization of convolutional networks with under-constrained learning algorithms. Working on a framework that benefits from the bottom-up and top-down processing paradigms, we investigate a systematic approach to shift learned representations in feedforward networks from the emphasis on the irrelevant context to the foreground objects. The top-down processing provides importance maps as the means of the network internal self-interpretation that will guide the learning algorithm to focus on the relevant foreground regions towards achieving a more robust representations. We define an experimental evaluation setup with the role of context emphasized using the MNIST dataset. The experimental results reveal not only that the label prediction accuracy is improved but also a higher degree of robustness to the background perturbation using various noise generation methods is obtained.
翻訳日:2022-09-22 23:23:11 公開日:2020-11-21
# トレース制限クロネッカー分解型自然勾配近似

A Trace-restricted Kronecker-Factored Approximation to Natural Gradient ( http://arxiv.org/abs/2011.10741v1 )

ライセンス: Link先を確認
Kai-Xin Gao, Xiao-Lei Liu, Zheng-Hai Huang, Min Wang, Zidong Wang, Dachuan Xu, Fan Yu(参考訳) 2階最適化法は、曲率行列を通して勾配を変更することで収束を加速する能力を有する。 ディープニューラルネットワークのトレーニングに2次最適化手法を使用する試みは数多くある。 本研究は,Kronecker-Factored Approximate Curvature (KFAC) のような対角近似および因子近似に着想を得て,この研究においてTKFAC (Trace-restricted Kronecker-factored Approximate Curvature) と呼ばれるフィッシャー情報行列 (FIM) に対する新たな近似を提案し,その精度と近似FIMの特定のトレース関係を保持する。 TKFACでは、近似FIMの各ブロックを2つの小さい行列のクロネッカー積として分解し、トレースに関連する係数でスケールする。 理論的には、TKFACの近似誤差を解析し、上限を与える。 また、畳み込みニューラルネットワーク上でのTKFACの新しい減衰手法を提案し、トレーニング中の2次最適化手法の優位性を維持する。 実験により,いくつかのディープネットワークアーキテクチャにおける最先端アルゴリズムと比較して,提案手法の性能が向上することを示した。

Second-order optimization methods have the ability to accelerate convergence by modifying the gradient through the curvature matrix. There have been many attempts to use second-order optimization methods for training deep neural networks. Inspired by diagonal approximations and factored approximations such as Kronecker-Factored Approximate Curvature (KFAC), we propose a new approximation to the Fisher information matrix (FIM) called Trace-restricted Kronecker-factored Approximate Curvature (TKFAC) in this work, which can hold the certain trace relationship between the exact and the approximate FIM. In TKFAC, we decompose each block of the approximate FIM as a Kronecker product of two smaller matrices and scaled by a coefficient related to trace. We theoretically analyze TKFAC's approximation error and give an upper bound of it. We also propose a new damping technique for TKFAC on convolutional neural networks to maintain the superiority of second-order optimization methods during training. Experiments show that our method has better performance compared with several state-of-the-art algorithms on some deep network architectures.
翻訳日:2022-09-22 23:16:38 公開日:2020-11-21
# 散乱変換による中心的・非中央的極限理論とその神経活動一般化

Central and Non-central Limit Theorems arising from the Scattering Transform and its Neural Activation Generalization ( http://arxiv.org/abs/2011.10801v1 )

ライセンス: Link先を確認
Gi-Ren Liu, Yuan-Chung Sheu, Hau-Tieng Wu(参考訳) 複雑で非定常な時系列の解析に動機づけられ、幅広い神経活性化関数を含む散乱変換(st)の一般化、いわゆるニューラルアクティベーションst(nast)の研究を行った。 全体として、nastは‘ニューラルプロセッシングユニット’のシーケンスからなる変換であり、それぞれが前層からの入力にハイパスフィルタを適用し、次に次のニューロンへの出力として非線形関数を持つ合成を行う。 ここで、非線形関数は入力信号によってニューロンが励起される方法をモデル化する。 非膨張性、水平変換不変性、局所変形に対する感度などの特性を示すことに加え、ガウス過程の第2次NASTの統計的性質と(非)定常構造、選択されたハイパスフィルタと活性化関数との相互作用を探索し、中央極限定理(CLT)および非CLT結果を提供する。 数値シミュレーションも提供されている。 その結果,nastプロセスが複雑で非定常な時系列を扱い,非nullの場合のnastに基づく統計的推論への道筋が開けた。

Motivated by analyzing complicated and non-stationary time series, we study a generalization of the scattering transform (ST) that includes broad neural activation functions, which is called neural activation ST (NAST). On the whole, NAST is a transform that comprises a sequence of ``neural processing units'', each of which applies a high pass filter to the input from the previous layer followed by a composition with a nonlinear function as the output to the next neuron. Here, the nonlinear function models how a neuron gets excited by the input signal. In addition to showing properties like non-expansion, horizontal translational invariability and insensitivity to local deformation, the statistical properties of the second order NAST of a Gaussian process with various dependence and (non-)stationarity structure and its interaction with the chosen high pass filters and activation functions are explored and central limit theorem (CLT) and non-CLT results are provided. Numerical simulations are also provided. The results explain how NAST processes complicated and non-stationary time series, and pave a way towards statistical inference based on NAST under the non-null case.
翻訳日:2022-09-22 23:15:40 公開日:2020-11-21
# 複合構造集合に対する入力不確かさを考慮したニューラルネットワークガウス過程

Neural Network Gaussian Process Considering Input Uncertainty for Composite Structures Assembly ( http://arxiv.org/abs/2011.10861v1 )

ライセンス: Link先を確認
Cheolhei Lee, Jianguo Wu, Wenjia Wang, Xiaowei Yue(参考訳) 機械学習を有効にするスマートマニュファクチャリングの開発は、複合構造組み立てプロセスに期待できる。 組立工程の製作品質と効率を向上させるためには, 寸法偏差および複合構造物の残留応力の正確な予測分析が必要である。 新しい複合構造組み立てには2つの課題がある。 (i)複合材料の高非線形・異方性 (ii)組立工程における必然的な不確実性。 これらの問題を解決するために,複合構造集合の入力不確実性を考慮したニューラルネットワークガウス過程モデルを提案する。 入力の不確実性を考慮することで、プロセス不確実性を完全に組み込んだロバストなモデリングが可能になります。 シミュレーションとケーススタディに基づき、nngpiuは応答関数が非スムースで非線形である場合、他のベンチマーク手法よりも優れる。 複合構造アセンブリを例に挙げるが, 本手法は本質的な不確実性を持つ他の工学系にも適用可能である。

Developing machine learning enabled smart manufacturing is promising for composite structures assembly process. To improve production quality and efficiency of the assembly process, accurate predictive analysis on dimensional deviations and residual stress of the composite structures is required. The novel composite structures assembly involves two challenges: (i) the highly nonlinear and anisotropic properties of composite materials; and (ii) inevitable uncertainty in the assembly process. To overcome those problems, we propose a neural network Gaussian process model considering input uncertainty for composite structures assembly. Deep architecture of our model allows us to approximate a complex process better, and consideration of input uncertainty enables robust modeling with complete incorporation of the process uncertainty. Based on simulation and case study, the NNGPIU can outperform other benchmark methods when the response function is nonsmooth and nonlinear. Although we use composite structure assembly as an example, the proposed methodology can be applicable to other engineering systems with intrinsic uncertainties.
翻訳日:2022-09-22 23:15:18 公開日:2020-11-21
# アテナ:談話制約による対話の動的構築

Athena: Constructing Dialogues Dynamically with Discourse Constraints ( http://arxiv.org/abs/2011.10683v1 )

ライセンス: Link先を確認
Vrindavan Harrison, Juraj Juraska, Wen Cui, Lena Reed, Kevin K. Bowden, Jiaqi Wu, Brian Schwarzmann, Abteen Ebrahimi, Rishi Rajasekaran, Nikhil Varghese, Max Wechsler-Azen, Steve Whittaker, Jeffrey Flanigan, and Marilyn Walker(参考訳) 本稿では,人気の話題やイベントに関する対話システムであるathenaについて述べる。 エンティティとトピックのコヒーレンスに基づく対話を動的に構成する,柔軟な対話管理手法を開発した。 Athenaの対話マネージャはコントラクトベースのメソッドを使用して、談話制約をレスポンスジェネレータのクラスタに送信する。 これにより、Athenaは知識グラフトラバーサルや機能ベースのオンザフライ応答検索方法などの動的ソースからの応答を得ることができる。 対話システムアーキテクチャを説明した後、2019年のAlexa Prize Competitionでアテナが参加した会話の分析を行った。 結論として,個々のユーザ特性がシステム評価に与える影響をよりよく理解するために,いくつかのユーザ調査を行った。

This report describes Athena, a dialogue system for spoken conversation on popular topics and current events. We develop a flexible topic-agnostic approach to dialogue management that dynamically configures dialogue based on general principles of entity and topic coherence. Athena's dialogue manager uses a contract-based method where discourse constraints are dispatched to clusters of response generators. This allows Athena to procure responses from dynamic sources, such as knowledge graph traversals and feature-based on-the-fly response retrieval methods. After describing the dialogue system architecture, we perform an analysis of conversations that Athena participated in during the 2019 Alexa Prize Competition. We conclude with a report on several user studies we carried out to better understand how individual user characteristics affect system ratings.
翻訳日:2022-09-22 23:15:06 公開日:2020-11-21
# 自然言語推論によるデータ・テキスト生成の意味的精度の評価

Evaluating Semantic Accuracy of Data-to-Text Generation with Natural Language Inference ( http://arxiv.org/abs/2011.10819v1 )

ライセンス: Link先を確認
Ond\v{r}ej Du\v{s}ek and Zden\v{e}k Kasner(参考訳) data-to-text (d2t) 生成を評価する上での大きな課題は、生成されたテキストの意味的正確性を測定することである。 自然言語推論(NLI)のために事前訓練されたニューラルネットワークモデルに基づいて,D2T生成のセマンティックな精度を評価するための新しい指標を提案する。 我々は、NLIモデルを用いて、入力データと出力テキストの両方向のテキストエントロメントをチェックし、省略や幻覚を明らかにする。 入力データは、自明なテンプレートを使用してNLIのテキストに変換される。 近年の2つのD2Tデータセットに対する実験により,誤ったシステム出力の同定において精度の高い測定値が得られた。

A major challenge in evaluating data-to-text (D2T) generation is measuring the semantic accuracy of the generated text, i.e. checking if the output text contains all and only facts supported by the input data. We propose a new metric for evaluating the semantic accuracy of D2T generation based on a neural model pretrained for natural language inference (NLI). We use the NLI model to check textual entailment between the input data and the output text in both directions, allowing us to reveal omissions or hallucinations. Input data are converted to text for NLI using trivial templates. Our experiments on two recent D2T datasets show that our metric can achieve high accuracy in identifying erroneous system outputs.
翻訳日:2022-09-22 23:14:51 公開日:2020-11-21
# ヘンリー・ジェームズの『スクリューのターン』における曖昧さの知覚

Sensing Ambiguity in Henry James' "The Turn of the Screw" ( http://arxiv.org/abs/2011.10832v1 )

ライセンス: Link先を確認
Victor Makarenkov and Yael Segalovitz(参考訳) 言語哲学、大陸哲学、文学研究などの分野は、人間の言語は本質的に曖昧であり、この品質はコミュニケーションに挑戦するが、言語を豊かにし、人間の思考の複雑さを指していると長い間確立してきた。 一方、NLP分野では、様々な下流タスクの曖昧化を目的とした取り組みが進行中である。 この研究は、計算テキスト分析と文学分析を統合し、特定のテキストにおけるあいまいさが意味を形作る上で重要な役割を担っていることを示す。 我々は、ヘンリー・ジェームズの19世紀の小説『ザ・ターン・オブ・ザ・スクリュー』における曖昧さの役割についての議論を再考する。 我々は、小説の2つの競合する解釈のそれぞれをトピックとしてモデル化し、それら間の双対性は、その意味を曖昧にするのではなく、作業と形を通して一貫して存在することを計算的に示す。 また,コサインの類似性と単語移動者の距離は,文学者による反対意見の疑問にもかかわらず,最も微妙な文体における曖昧さを検出するのに十分敏感であることを示す。 本分析は,様々な情報源からの話題単語リストと単語埋め込みに基づいて構築した。 まず、計算分析と人間の専門家による密読の相互依存性を実証的に示す。

Fields such as the philosophy of language, continental philosophy, and literary studies have long established that human language is, at its essence, ambiguous and that this quality, although challenging to communication, enriches language and points to the complexity of human thought. On the other hand, in the NLP field there have been ongoing efforts aimed at disambiguation for various downstream tasks. This work brings together computational text analysis and literary analysis to demonstrate the extent to which ambiguity in certain texts plays a key role in shaping meaning and thus requires analysis rather than elimination. We revisit the discussion, well known in the humanities, about the role ambiguity plays in Henry James' 19th century novella, The Turn of the Screw. We model each of the novella's two competing interpretations as a topic and computationally demonstrate that the duality between them exists consistently throughout the work and shapes, rather than obscures, its meaning. We also demonstrate that cosine similarity and word mover's distance are sensitive enough to detect ambiguity in its most subtle literary form, despite doubts to the contrary raised by literary scholars. Our analysis is built on topic word lists and word embeddings from various sources. We first claim, and then empirically show, the interdependence between computational analysis and close reading performed by a human expert.
翻訳日:2022-09-22 23:14:38 公開日:2020-11-21
# 多層memriスパイクニューラルネットワークのオンチップ誤りトリガー学習

On-Chip Error-triggered Learning of Multi-layer Memristive Spiking Neural Networks ( http://arxiv.org/abs/2011.10852v1 )

ライセンス: Link先を確認
Melika Payvand, Mohammed E. Fouda, Fadi Kurdahi, Ahmed M. Eltawil, Emre O. Neftci(参考訳) 近年のニューロモルフィックコンピューティングのブレークスルーは、局所的な勾配降下学習がスパイクニューラルネットワーク(snn)とシナプス可塑性と互換性があることを示しています。 SNN はニューロモルフィック VLSI を用いて実装できるが、勾配差を用いた学習が可能なアーキテクチャはいまだに欠落している。 本稿では,オンライン三元重み更新を用いた局所的,勾配ベース,誤差トリガー学習アルゴリズムを提案する。 提案するアルゴリズムは,脳神経形態素ハードウェアを用いた多層snsのオンライントレーニングを可能にする。 また,必要ベクトル行列の乗算を行うために,memristive crossbar arraysに基づくハードウェアアーキテクチャを提案する。 オンライントレーニングに必要なシナプス前、シナプス後、書き込み用回路を含む周辺回路は180nmのcmosプロセスで電力節約のためのサブスレッショルド方式で設計されている。

Recent breakthroughs in neuromorphic computing show that local forms of gradient descent learning are compatible with Spiking Neural Networks (SNNs) and synaptic plasticity. Although SNNs can be scalably implemented using neuromorphic VLSI, an architecture that can learn using gradient-descent in situ is still missing. In this paper, we propose a local, gradient-based, error-triggered learning algorithm with online ternary weight updates. The proposed algorithm enables online training of multi-layer SNNs with memristive neuromorphic hardware showing a small loss in the performance compared with the state of the art. We also propose a hardware architecture based on memristive crossbar arrays to perform the required vector-matrix multiplications. The necessary peripheral circuitry including pre-synaptic, post-synaptic and write circuits required for online training, have been designed in the sub-threshold regime for power saving with a standard 180 nm CMOS process.
翻訳日:2022-09-22 23:14:15 公開日:2020-11-21
# 集約アシスタントの説明可能な構成

Explainable Composition of Aggregated Assistants ( http://arxiv.org/abs/2011.10707v1 )

ライセンス: Link先を確認
Sarath Sreedharan, Tathagata Chakraborti, Yara Rizk and Yasaman Khazaeni(参考訳) AIアシスタントの新たなデザインは、原子タスクをそれぞれ実行可能ないくつかの個別のスキルやエージェントの編成された構成として実現された、"集約されたアシスタント"である。 本稿では、このようなアシスタントの自動構成における計画の役割について論じ、自動化計画における概念が、エンドユーザーに対するアシスタントの内部動作の透明性の確立にどのように役立つかを検討する。

A new design of an AI assistant that has become increasingly popular is that of an "aggregated assistant" -- realized as an orchestrated composition of several individual skills or agents that can each perform atomic tasks. In this paper, we will talk about the role of planning in the automated composition of such assistants and explore how concepts in automated planning can help to establish transparency of the inner workings of the assistant to the end-user.
翻訳日:2022-09-22 23:13:58 公開日:2020-11-21
# CancerNet-SCa:皮膚内視鏡画像から皮膚癌を検出するためのニューラルネットワーク設計

CancerNet-SCa: Tailored Deep Neural Network Designs for Detection of Skin Cancer from Dermoscopy Images ( http://arxiv.org/abs/2011.10702v1 )

ライセンス: Link先を確認
James Ren Hou Lee, Maya Pavlova, Mahmoud Famouri, and Alexander Wong(参考訳) 皮膚がんはアメリカ合衆国で最も頻繁に診断されるがんであり続けており、健康と幸福に重要な影響を及ぼすだけでなく、治療に関連する経済的コストも大きい。 皮膚癌の治療および管理における重要なステップは、早期に治療する際の強力な予後による効果的な皮膚がん検出であり、皮膚内視鏡検査における重要なスクリーニングアプローチの1つである。 深層学習の進歩に触発され,研究コミュニティのオープンソースイニシアチブに触発されたこの研究では,がん-ネットイニシアチブの一部として,オープンソースで一般公開されている皮膚内視鏡画像から皮膚がんを検出するための,深層ニューラルネットワークの設計スイートであるCancerNet-SCaを紹介した。 CancerNet-SCaは、皮膚がん検出に特化して設計された最初のマシン設計のディープニューラルネットワークアーキテクチャであり、そのうちの1つは注意凝縮器を備えた自己注意型アーキテクチャ設計である。 さらに,s cancernet-scaの挙動を,説明可能性に基づくモデル監査を通じて調査・監査する。 CancerNet-SCaは、プロダクション対応のスクリーニングソリューションではないが、オープンソースでCASENet-SCaがリリースされることで、研究者、臨床医、市民データサイエンティストがそれらを活用して構築できることを期待している。

Skin cancer continues to be the most frequently diagnosed form of cancer in the U.S., with not only significant effects on health and well-being but also significant economic costs associated with treatment. A crucial step to the treatment and management of skin cancer is effective skin cancer detection due to strong prognosis when treated at an early stage, with one of the key screening approaches being dermoscopy examination. Motivated by the advances of deep learning and inspired by the open source initiatives in the research community, in this study we introduce CancerNet-SCa, a suite of deep neural network designs tailored for the detection of skin cancer from dermoscopy images that is open source and available to the general public as part of the Cancer-Net initiative. To the best of the authors' knowledge, CancerNet-SCa comprises of the first machine-designed deep neural network architecture designs tailored specifically for skin cancer detection, one of which possessing a self-attention architecture design with attention condensers. Furthermore, we investigate and audit the behaviour of CancerNet-SCa in a responsible and transparent manner via explainability-driven model auditing. While CancerNet-SCa is not a production-ready screening solution, the hope is that the release of CancerNet-SCa in open source, open access form will encourage researchers, clinicians, and citizen data scientists alike to leverage and build upon them.
翻訳日:2022-09-22 23:07:13 公開日:2020-11-21
# 野生における大型類人猿の行動の視覚認知

Visual Recognition of Great Ape Behaviours in the Wild ( http://arxiv.org/abs/2011.10759v1 )

ライセンス: Link先を確認
Faizaan Sakib and Tilo Burghardt(参考訳) そこで本研究では,9つのコア ape 行動の検出が可能な深層学習を利用した,初の偉大な ape 特異的視覚行動認識システムを提案する。

We propose a first great ape-specific visual behaviour recognition system utilising deep learning that is capable of detecting nine core ape behaviours.
翻訳日:2022-09-22 23:06:48 公開日:2020-11-21
# 深層学習型コンピュータビジョンによるリアルタイム点滴内輸液モニタリング

Deep Learning-Based Computer Vision for Real Time Intravenous Drip Infusion Monitoring ( http://arxiv.org/abs/2011.10839v1 )

ライセンス: Link先を確認
Nicola Giaquinto, Marco Scarpetta, Maurizio Spadavecchia, Gregorio Andria(参考訳) 本稿では,深層学習に基づくコンピュータビジョンを用いて静脈内(IV)注入時の流れのリアルタイムモニタリングを行う。 IV 灌流は入院患者の最も一般的な治療法の一つであり、過剰輸血と低灌流の両方が重篤な損傷を引き起こす可能性があることを考えると、患者に投与される流体の流量を監視することは、その安全性にとって非常に重要である。 提案されたシステムは、カメラを使ってivリップ注入キットを撮影し、ディープラーニングベースのアルゴリズムを使って取得したフレームを2つの異なる状態に分類する。 これらの2つの状態の交代は滴を数え、滴の流量を測定するために用いられる。 カメラをセンシング要素として使用することで,医療環境におけるシステム安全性が向上し,現在の医療施設への統合が容易になる。 実験結果は,システムの精度とリアルタイム推定能力を確認する論文で報告されている。 したがって,本手法はiv注入監視制御システムの実装に効果的に適用できる。

This paper explores the use of deep learning-based computer vision for real-time monitoring of the flow in intravenous (IV) infusions. IV infusions are among the most common therapies in hospitalized patients and, given that both over-infusion and under-infusion can cause severe damages, monitoring the flow rate of the fluid being administered to patients is very important for their safety. The proposed system uses a camera to film the IV drip infusion kit and a deep learning-based algorithm to classify acquired frames into two different states: frames with a drop that has just begun to take shape and frames with a well-formed drop. The alternation of these two states is used to count drops and derive a measurement of the flow rate of the drip. The usage of a camera as sensing element makes the proposed system safe in medical environments and easier to be integrated into current health facilities. Experimental results are reported in the paper that confirm the accuracy of the system and its capability to produce real-time estimates. The proposed method can be therefore effectively adopted to implement IV infusion monitoring and control systems.
翻訳日:2022-09-22 23:06:45 公開日:2020-11-21
# 知覚的品質評価におけるランク・スムースドペアワイズ学習

Rank-smoothed Pairwise Learning In Perceptual Quality Assessment ( http://arxiv.org/abs/2011.10893v1 )

ライセンス: Link先を確認
Hossein Talebi, Ehsan Amid, Peyman Milanfar, and Manfred K. Warmuth(参考訳) ペアワイズ比較を行うことは、人間の知覚的嗜好データをキュレートするのに広く用いられるアプローチである。 通常、ラッカーは画像の品質と美学の特定の次元に対処する特定の規則に従って選択するように指示される。 このプロセスの結果は、サンプル画像対とその関連する経験的嗜好確率のデータセットである。 これらのペアによる選好に基づいてモデルをトレーニングすることは、一般的なディープラーニングアプローチである。 しかし、最小バッチ学習による勾配勾配勾配の最適化は、画像の「グローバル」ランキングを明示的に考慮しないことを意味する。 言い換えると、勾配降下の各ステップは、限られた数の対比較のみに依存する。 本研究は,階層的確率によるペアワイド経験確率の正規化が,より信頼性の高いトレーニング損失をもたらすことを示す。 画像品質評価モデルのトレーニングにおいて,ランクスムースな損失が人間の嗜好を予測する精度を常に向上させることを示す。

Conducting pairwise comparisons is a widely used approach in curating human perceptual preference data. Typically raters are instructed to make their choices according to a specific set of rules that address certain dimensions of image quality and aesthetics. The outcome of this process is a dataset of sampled image pairs with their associated empirical preference probabilities. Training a model on these pairwise preferences is a common deep learning approach. However, optimizing by gradient descent through mini-batch learning means that the "global" ranking of the images is not explicitly taken into account. In other words, each step of the gradient descent relies only on a limited number of pairwise comparisons. In this work, we demonstrate that regularizing the pairwise empirical probabilities with aggregated rankwise probabilities leads to a more reliable training loss. We show that training a deep image quality assessment model with our rank-smoothed loss consistently improves the accuracy of predicting human preferences.
翻訳日:2022-09-22 23:06:09 公開日:2020-11-21
# 販売予測のための確率時系列モデルの心配分析

A Worrying Analysis of Probabilistic Time-series Models for Sales Forecasting ( http://arxiv.org/abs/2011.10715v1 )

ライセンス: Link先を確認
Seungjae Jung, Kyung-Min Kim, Hanock Kwak and Young-Jin Park(参考訳) 不確実性の下で最適な決定を行うため、予測分野において確率的時系列モデルが普及する。 関心の高まりにもかかわらず、徹底的な分析の欠如は、望ましいタスクに何を適用する価値があるかの選択を妨げる。 本稿では,販売予測のための3つの確率的時系列モデルの性能分析を行う。 アーキテクチャのパフォーマンスにおけるランダムな機会の役割を取り除くために、私たちは2つの実験的な原則を作ります。 1)様々なクロスバリデーションセットを持つ大規模データセット。 2)標準化されたトレーニングとハイパーパラメータの選択。 実験の結果, 単純な多層パーセプトロンと線形回帰は, RMSEの確率的モデルよりも高い性能を示した。 全体として、確率モデルでは、RMSEやMAPEのような単純なベースラインよりも、点推定の性能が向上しない。 確率時系列モデルの性能を解析・考察する。

Probabilistic time-series models become popular in the forecasting field as they help to make optimal decisions under uncertainty. Despite the growing interest, a lack of thorough analysis hinders choosing what is worth applying for the desired task. In this paper, we analyze the performance of three prominent probabilistic time-series models for sales forecasting. To remove the role of random chance in architecture's performance, we make two experimental principles; 1) Large-scale dataset with various cross-validation sets. 2) A standardized training and hyperparameter selection. The experimental results show that a simple Multi-layer Perceptron and Linear Regression outperform the probabilistic models on RMSE without any feature engineering. Overall, the probabilistic models fail to achieve better performance on point estimation, such as RMSE and MAPE, than comparably simple baselines. We analyze and discuss the performances of probabilistic time-series models.
翻訳日:2022-09-22 23:05:34 公開日:2020-11-21
# 環境中毒攻撃による強化学習における政策指導

Policy Teaching in Reinforcement Learning via Environment Poisoning Attacks ( http://arxiv.org/abs/2011.10824v1 )

ライセンス: Link先を確認
Amin Rakhsha, Goran Radanovic, Rati Devidze, Xiaojin Zhu, Adish Singla(参考訳) 攻撃者が学習環境を汚染してエージェントに攻撃者が選択したターゲットポリシーの実行を強制する強化学習に対するセキュリティ脅威について検討する。 被害者として,無限ホリゾン問題において報酬を最大化する政策を目標とするrlエージェントを考える。 攻撃者は、トレーニング時に学習環境における報酬と遷移ダイナミクスを操作でき、ステルス的にそれを行うことに興味がある。 そこで本稿では,攻撃コストの異なる最適なステルス攻撃を見つけるための最適化フレームワークを提案する。 攻撃コストの低/高上限を提供し、攻撃を2つの設定でインスタンス化する。 (i)有毒環境において、エージェントが計画を行っているオフラインの設定 (ii) エージェントが有毒なフィードバックでポリシーを学習しているオンライン設定。 本研究の結果から,攻撃者は軽度条件下での標的方針の指導に容易に成功し,実際は強化学習エージェントに対する重大なセキュリティ上の脅威を浮き彫りにすることができることがわかった。

We study a security threat to reinforcement learning where an attacker poisons the learning environment to force the agent into executing a target policy chosen by the attacker. As a victim, we consider RL agents whose objective is to find a policy that maximizes reward in infinite-horizon problem settings. The attacker can manipulate the rewards and the transition dynamics in the learning environment at training-time, and is interested in doing so in a stealthy manner. We propose an optimization framework for finding an optimal stealthy attack for different measures of attack cost. We provide lower/upper bounds on the attack cost, and instantiate our attacks in two settings: (i) an offline setting where the agent is doing planning in the poisoned environment, and (ii) an online setting where the agent is learning a policy with poisoned feedback. Our results show that the attacker can easily succeed in teaching any target policy to the victim under mild conditions and highlight a significant security threat to reinforcement learning agents in practice.
翻訳日:2022-09-22 23:05:04 公開日:2020-11-21
# LRTA:視覚質問応答のためのモジュールスーパービジョンを備えた透明ニューラルネットワーク型推論フレームワーク

LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Question Answering ( http://arxiv.org/abs/2011.10731v1 )

ライセンス: Link先を確認
Weixin Liang, Feiyang Niu, Aishwarya Reganti, Govind Thattai, Gokhan Tur(参考訳) 視覚的質問応答(VQA)に対する主要なアプローチは、イメージと質問を「ブラックボックス」ニューラルエンコーダで符号化し、単一のトークンを「yes」や「no」のような答えとして復号することにある。 このアプローチの強い定量的な結果にもかかわらず、予測プロセスの直感的で人間可読な正当性を見出すのに苦労している。 この不足に対処するために、vqaを完全な回答生成タスクとして再編成し、モデルが自然言語での予測を正当化する必要がある。 我々は,人間のようにステップバイステップの問題を解決する視覚的質問応答のための,透明な神経記号的推論フレームワークであるlrtaを提案する。 具体的には、LRTAはまず画像をシーングラフに変換し、質問を複数の推論命令に解析することを学ぶ。 次に、繰り返し発生するニューラルシンボリック実行モジュールを使用してシーングラフをトラバースすることで、推論命令を一度に実行する。 最後に、自然言語の正当化によって与えられた質問に対する完全な答えを生成する。 GQAデータセットに対する実験により、LRTAは、全回答生成タスクにおいて、最先端のモデルを大きなマージン(43.1%対28.0%)で上回ります。 また、表層データ相関を用いてモデルがスマートな推測を持っているかどうかを解析するために、言語的手がかり(属性と関係)を除去して摂動型GQAテストセットを作成する。 LRTAは、現状のモデルがトレーニングデータから表面的相関を学習する傾向にあるのに対して、その疑問を真に理解するための一歩を踏み出したことを示す。

The predominant approach to visual question answering (VQA) relies on encoding the image and question with a "black-box" neural encoder and decoding a single token as the answer like "yes" or "no". Despite this approach's strong quantitative results, it struggles to come up with intuitive, human-readable forms of justification for the prediction process. To address this insufficiency, we reformulate VQA as a full answer generation task, which requires the model to justify its predictions in natural language. We propose LRTA [Look, Read, Think, Answer], a transparent neural-symbolic reasoning framework for visual question answering that solves the problem step-by-step like humans and provides human-readable form of justification at each step. Specifically, LRTA learns to first convert an image into a scene graph and parse a question into multiple reasoning instructions. It then executes the reasoning instructions one at a time by traversing the scene graph using a recurrent neural-symbolic execution module. Finally, it generates a full answer to the given question with natural language justifications. Our experiments on GQA dataset show that LRTA outperforms the state-of-the-art model by a large margin (43.1% v.s. 28.0%) on the full answer generation task. We also create a perturbed GQA test set by removing linguistic cues (attributes and relations) in the questions for analyzing whether a model is having a smart guess with superficial data correlations. We show that LRTA makes a step towards truly understanding the question while the state-of-the-art model tends to learn superficial correlations from the training data.
翻訳日:2022-09-22 22:59:38 公開日:2020-11-21
# 結合と成長する神経構造を学ぶ

Learn to Bind and Grow Neural Structures ( http://arxiv.org/abs/2011.10568v1 )

ライセンス: Link先を確認
Azhar Shaikh, Nishant Sinha(参考訳) タスクインクリメンタル学習は、過去の知識を忘れることなく、新しいタスクを継続的に学習する難しい問題を伴う。 多くのアプローチは、タスクが到着するにつれて共有ニューラルネットワークの構造を拡張することでこの問題に対処するが、過去の知識を失うことなく最適な成長に苦慮する。 我々は新しいフレームワークであるLearn to Bind and Growを紹介し、同様のタスクのレイヤとバインドするか、タスク間の衝突しやすいレイヤを拡張することによって、新しいタスクのためのニューラルアーキテクチャを漸進的に学習する。 我々のアプローチの中心は、共有マルチタスクアーキテクチャ空間の新しく解釈可能なパラメータ化であり、ベイズ最適化を用いてグローバルに最適なアーキテクチャを計算できる。 連続学習ベンチマーク実験の結果,従来の拡張ベースアプローチと相性が良く,複数の最適解を柔軟に計算できることがわかった。

Task-incremental learning involves the challenging problem of learning new tasks continually, without forgetting past knowledge. Many approaches address the problem by expanding the structure of a shared neural network as tasks arrive, but struggle to grow optimally, without losing past knowledge. We present a new framework, Learn to Bind and Grow, which learns a neural architecture for a new task incrementally, either by binding with layers of a similar task or by expanding layers which are more likely to conflict between tasks. Central to our approach is a novel, interpretable, parameterization of the shared, multi-task architecture space, which then enables computing globally optimal architectures using Bayesian optimization. Experiments on continual learning benchmarks show that our framework performs comparably with earlier expansion based approaches and is able to flexibly compute multiple optimal solutions with performance-size trade-offs.
翻訳日:2022-09-22 22:58:52 公開日:2020-11-21
# 連続的アントベースニューラルトポロジー探索

Continuous Ant-Based Neural Topology Search ( http://arxiv.org/abs/2011.10831v1 )

ライセンス: Link先を確認
AbdElRahman ElSaid, Joshua Karns, Zimeng Lyu, Alexander Ororbia, Travis Desell(参考訳) この研究は、アリコロニー最適化に基づく、自然に着想を得たニューラル・アーキテクチャ・サーチ(NAS)アルゴリズム、Continuous Ant-based Neural Topology Search(CANTS)を導入し、フェロモンの密度と分布に基づいて連続的な探索空間を移動する合成アリを利用する。 アリエージェントが探索空間を通した経路を利用して人工ニューラルネットワーク(ANN)を構築する。 この連続的な検索空間により、cantsは任意のサイズのannの設計を自動化でき、ユーザが指定したサイズで構造内で動作しなければならない現在のnasアルゴリズムに固有の重要な制限を取り除くことができる。 CANTSは、大規模な高性能コンピューティングリソースにスケール可能な分散非同期戦略を採用し、様々な繰り返しメモリセル構造で動作し、トレーニング時間を短縮するために共有重み共有戦略を使用している。 提案手法は,電力系統の3つの実世界の時系列予測問題に対して評価し,最先端の2つのアルゴリズムと比較した。 結果は、CANTSがこれらの問題すべてに対して改善または競争力のある結果を提供すると同時に、使いやすく、ユーザ指定のハイパーパラメータの半数を必要としていることを示している。

This work introduces a novel, nature-inspired neural architecture search (NAS) algorithm based on ant colony optimization, Continuous Ant-based Neural Topology Search (CANTS), which utilizes synthetic ants that move over a continuous search space based on the density and distribution of pheromones, is strongly inspired by how ants move in the real world. The paths taken by the ant agents through the search space are utilized to construct artificial neural networks (ANNs). This continuous search space allows CANTS to automate the design of ANNs of any size, removing a key limitation inherent to many current NAS algorithms that must operate within structures with a size predetermined by the user. CANTS employs a distributed asynchronous strategy which allows it to scale to large-scale high performance computing resources, works with a variety of recurrent memory cell structures, and makes use of a communal weight sharing strategy to reduce training time. The proposed procedure is evaluated on three real-world, time series prediction problems in the field of power systems and compared to two state-of-the-art algorithms. Results show that CANTS is able to provide improved or competitive results on all of these problems, while also being easier to use, requiring half the number of user-specified hyper-parameters.
翻訳日:2022-09-22 22:58:35 公開日:2020-11-21
# ビデオゲームジャンル分類のための深層学習

Deep learning for video game genre classification ( http://arxiv.org/abs/2011.12143v1 )

ライセンス: Link先を確認
Yuhang Jiang, Lukun Zheng(参考訳) カバーとテキストの記述に基づくゲームジャンルの分類は、現代の多くの識別、コロケーション、検索システムにとって極めて有益である。 第一に、多種多様なビデオゲームジャンルが存在し、その多くが具体的に定義されていない。 第二に、ビデオゲームのカバーは、同じジャンルのゲームであっても、色、スタイル、テキスト情報など、さまざまな方法で異なる。 第3に、カバーデザインやテキスト記述は、国、文化、対象読者など、多くの外部要因によって異なる場合がある。 ビデオゲーム業界における競争力が高まる中、カバーデザイナーやタイポグラファーは販売を誘致するためにカバーデザインを限界まで押し上げている。 近年、コンピュータベースの自動ビデオゲームジャンル分類システムが特にエキサイティングな研究テーマとなっている。 本稿では,この問題を解決するためのマルチモーダルディープラーニングフレームワークを提案する。 この論文の貢献は4つある。 まず、カバー画像、説明テキスト、タイトルテキストおよびジャンル情報からなる21のジャンルからなる5万のビデオゲームからなる大規模データセットをコンパイルする。 第2に,コンピュータゲームにおけるジャンル分類の課題に対して,画像ベース,テキストベース,最先端モデルの評価を行った。 第3に,画像とテキストの両方をベースとした効率的かつ有償なマルチモーダルフレームワークを開発した。 第4に,実験結果を徹底的に分析し,性能向上に向けた今後の課題を提案する。 その結果、マルチモーダルフレームワークは現在の最先端の画像ベースモデルやテキストベースモデルよりも優れていた。 この課題にはいくつかの課題がある。 満足のいくレベルに達するためには、この分類タスクにより多くの努力とリソースが必要です。

Video game genre classification based on its cover and textual description would be utterly beneficial to many modern identification, collocation, and retrieval systems. At the same time, it is also an extremely challenging task due to the following reasons: First, there exists a wide variety of video game genres, many of which are not concretely defined. Second, video game covers vary in many different ways such as colors, styles, textual information, etc, even for games of the same genre. Third, cover designs and textual descriptions may vary due to many external factors such as country, culture, target reader populations, etc. With the growing competitiveness in the video game industry, the cover designers and typographers push the cover designs to its limit in the hope of attracting sales. The computer-based automatic video game genre classification systems become a particularly exciting research topic in recent years. In this paper, we propose a multi-modal deep learning framework to solve this problem. The contribution of this paper is four-fold. First, we compiles a large dataset consisting of 50,000 video games from 21 genres made of cover images, description text, and title text and the genre information. Second, image-based and text-based, state-of-the-art models are evaluated thoroughly for the task of genre classification for video games. Third, we developed an efficient and salable multi-modal framework based on both images and texts. Fourth, a thorough analysis of the experimental results is given and future works to improve the performance is suggested. The results show that the multi-modal framework outperforms the current state-of-the-art image-based or text-based models. Several challenges are outlined for this task. More efforts and resources are needed for this classification task in order to reach a satisfactory level.
翻訳日:2022-09-22 22:57:30 公開日:2020-11-21
# 進化的多目的および多目的最適化のための改良補修演算子

Enhanced Innovized Repair Operator for Evolutionary Multi- and Many-objective Optimization ( http://arxiv.org/abs/2011.10760v1 )

ライセンス: Link先を確認
Sukrit Mittal and Dhish Kumar Saxena and Kalyanmoy Deb and Erik Goodman(参考訳) 革新」は、多目的および多目的最適化問題において、パレート最適化(po)ソリューションの一部またはすべてに共通する関係を学習するタスクである。 近年の研究では、最適化実行中に連続反復で得られる非支配的なソリューションの時系列列もまた、問題の特徴を学習し、新しい、改善されたソリューションを作成するのに役立つ、健全なパターンを持っていることが示されている。 本稿では,パレート最適集合への集団構成員の進入に必要な設計変数の変更を学習する機械学習(ml-)支援モデル手法を提案する。 次に, 得られたmlモデルを改良補修(ir2)演算子として, 通常の遺伝的演算子が生成する子孫溶液に適用し, 収束特性を向上させる新しい方法として用いることを提案する。 本稿では、よく知られたランダムフォレスト(RF)法をMLモデルとして使用し、NSGA-II、NSGA-III、MOEA/Dを含む様々な進化的多目的最適化アルゴリズムと統合する。 提案したIR2-RF演算子を用いて, 2 目的から 5 目的までのいくつかのテスト問題に対して収束挙動の改善を示す。 オペレータは追加のソリューション評価を要求せず、代々のソリューションの漸進的および漸進的な改善の歴史を使用するため、提案されたMLベースの最適化は、AIとMLアプローチの進歩による最適化アルゴリズム開発の新しい方向性を開く。

"Innovization" is a task of learning common relationships among some or all of the Pareto-optimal (PO) solutions in multi- and many-objective optimization problems. Recent studies have shown that a chronological sequence of non-dominated solutions obtained in consecutive iterations during an optimization run also possess salient patterns that can be used to learn problem features to help create new and improved solutions. In this paper, we propose a machine-learning- (ML-) assisted modelling approach that learns the modifications in design variables needed to advance population members towards the Pareto-optimal set. We then propose to use the resulting ML model as an additional innovized repair (IR2) operator to be applied on offspring solutions created by the usual genetic operators, as a novel mean of improving their convergence properties. In this paper, the well-known random forest (RF) method is used as the ML model and is integrated with various evolutionary multi- and many-objective optimization algorithms, including NSGA-II, NSGA-III, and MOEA/D. On several test problems ranging from two to five objectives, we demonstrate improvement in convergence behaviour using the proposed IR2-RF operator. Since the operator does not demand any additional solution evaluations, instead using the history of gradual and progressive improvements in solutions over generations, the proposed ML-based optimization opens up a new direction of optimization algorithm development with advances in AI and ML approaches.
翻訳日:2022-09-22 22:57:06 公開日:2020-11-21
# 非定常環境におけるデータ効率的なポリシー最適化のためのダブルメタラーニング

Double Meta-Learning for Data Efficient Policy Optimization in Non-Stationary Environments ( http://arxiv.org/abs/2011.10714v1 )

ライセンス: Link先を確認
Elahe Aghapour, Nora Ayanian(参考訳) 我々は,マルチタスク学習問題としてフレーム化できる非定常環境の学習モデルに興味を持っている。 モデルフリー強化学習アルゴリズムは、スクラッチから学習する必要があるアプローチのため、広範囲なサンプリングコストで、マルチタスク学習における漸近的なパフォーマンスを達成することができる。 モデルベースのアプローチは最もデータ効率のよい学習アルゴリズムの1つだが、それでも複雑なタスクやモデルの不確実性に苦慮している。 メタ強化学習は、新しいタスクにメタプライアポリシーを迅速に活用することにより、マルチタスク学習における効率性と一般化の課題に対処する。 本稿では,メタポリシ最適化に使用される非定常環境の動的モデルを学ぶためのメタ強化学習手法を提案する。 モデルベース学習手法のサンプル効率のため,非定常環境のメタモデルとメタポリティクスの両方を動的モデル収束まで同時に訓練することができる。 そして、その環境のメタ学習された動的モデルは、メタポリティクス最適化のためのシミュレーションデータを生成する。 提案手法は,非定常環境において,モデルベース学習手法のデータ効率を保ちながら,モデルフリーなメタ強化学習の漸近的性能を発揮できることを示す。

We are interested in learning models of non-stationary environments, which can be framed as a multi-task learning problem. Model-free reinforcement learning algorithms can achieve good asymptotic performance in multi-task learning at a cost of extensive sampling, due to their approach, which requires learning from scratch. While model-based approaches are among the most data efficient learning algorithms, they still struggle with complex tasks and model uncertainties. Meta-reinforcement learning addresses the efficiency and generalization challenges on multi task learning by quickly leveraging the meta-prior policy for a new task. In this paper, we propose a meta-reinforcement learning approach to learn the dynamic model of a non-stationary environment to be used for meta-policy optimization later. Due to the sample efficiency of model-based learning methods, we are able to simultaneously train both the meta-model of the non-stationary environment and the meta-policy until dynamic model convergence. Then, the meta-learned dynamic model of the environment will generate simulated data for meta-policy optimization. Our experiment demonstrates that our proposed method can meta-learn the policy in a non-stationary environment with the data efficiency of model-based learning approaches while achieving the high asymptotic performance of model-free meta-reinforcement learning.
翻訳日:2022-09-22 22:56:41 公開日:2020-11-21