このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200610となっている論文です。

PDF登録状況(公開日: 20200610)

TitleAuthorsAbstract論文公表日・翻訳日
# ビデオ講義におけるエンゲージメントの予測

Predicting Engagement in Video Lectures ( http://arxiv.org/abs/2006.00592v2 )

ライセンス: Link先を確認
Sahan Bulathwela, Mar\'ia P\'erez-Ortiz, Aldo Lipani, Emine Yilmaz and John Shawe-Taylor(参考訳) 近年のオープン・エデュケーショナル・リソース(OER)の爆発は、OERを処理・評価するためのスケーラブルで自動的なアプローチの需要を生み出し、学習者にとって最も適した教材を特定し、推薦することを目的としている。 個々の学習者のエンゲージメントに焦点をあてた他の文脈的、パーソナライズされたアプローチに比べて、ほとんど研究されていないトピックである、コンテキスト非依存のエンゲージメント(人口ベース)に関連する特徴や特徴を見つけるためのモデルを構築することに重点を置いています。 学習者のエンゲージメントは、人気/ビュー数よりも信頼性が高く、ユーザ評価よりも豊富であり、学習成果を達成する上でも重要な要素であることが示されている。 本研究では,教育における人口ベースエンゲージメントの予測モデルの構築について検討する。 本稿では,コンテキスト非依存な関与を予測するためのビデオ講義の新たな大規模データセットを提案し,この課題を実現するために,クロスモーダルとモダリティを特徴とする特徴セットを提案する。 さらに,学習者のエンゲージメントシグナルを定量化するための異なる戦略を検証した。 我々は、データ不足の場合、このアプローチの使用を実証する。 さらに,評価性能を示す最高の性能モデルの感度解析を行い,OERの教育推薦システムに容易に組み込めるようにした。

The explosion of Open Educational Resources (OERs) in the recent years creates the demand for scalable, automatic approaches to process and evaluate OERs, with the end goal of identifying and recommending the most suitable educational materials for learners. We focus on building models to find the characteristics and features involved in context-agnostic engagement (i.e. population-based), a seldom researched topic compared to other contextualised and personalised approaches that focus more on individual learner engagement. Learner engagement, is arguably a more reliable measure than popularity/number of views, is more abundant than user ratings and has also been shown to be a crucial component in achieving learning outcomes. In this work, we explore the idea of building a predictive model for population-based engagement in education. We introduce a novel, large dataset of video lectures for predicting context-agnostic engagement and propose both cross-modal and modality-specific feature sets to achieve this task. We further test different strategies for quantifying learner engagement signals. We demonstrate the use of our approach in the case of data scarcity. Additionally, we perform a sensitivity analysis of the best performing model, which shows promising performance and can be easily integrated into an educational recommender system for OERs.
翻訳日:2022-11-26 13:07:30 公開日:2020-06-10
# 新型コロナウイルス(covid-19)パンデミックの監視、モデル化、予測、制御のためのデータ駆動手法--データサイエンス、疫学、制御理論の活用

Data-Driven Methods to Monitor, Model, Forecast and Control Covid-19 Pandemic: Leveraging Data Science, Epidemiology and Control Theory ( http://arxiv.org/abs/2006.01731v2 )

ライセンス: Link先を確認
Teodoro Alamo, D. G. Reina, Pablo Mill\'an(参考訳) この文書は、コビッドウイルスパンデミックにおけるデータ駆動手法の役割を分析する。 SWOT分析と、データソースへのアクセスから最終的な意思決定ステップまでのロードマップを提供します。 我々は、コビッドウイルスのパンデミックと戦うためのデータ駆動型戦略の開発における困難と課題を予測しつつ、利用可能な方法論を見直しることを目指している。 3M分析: モニタリング、モデリング、意思決定。 パンデミックによって引き起こされたさまざまな課題に対処する、よく知られたデータ駆動スキームの可能性に焦点が当てられている。 一 疫病の流行をモニタリングし、予知すること。 二 政府の決定の有効性を評価すること。 (iii)タイムリーな決定をする。 ロードマップの各ステップは、統合された理論結果のレビューと、Covid-19コンテキストにおけるそれらの潜在的な応用を通じて詳細に記述されている。 可能であれば、過去の流行や現在の流行にその応用例を提供する。 方法論、アルゴリズム、アプリケーションの完全な列挙は提供していません。 データサイエンス、疫学、制御理論など、流行に総合的なアプローチを提供するために必要なさまざまな分野の橋渡しを試みています。 つまり、他のコンテキストで成功し、提案されたロードマップの異なるステップで潜在的な応用が示されている効率的なデータ駆動方法論に注目します。 この文書をより機能的にし、各分野の仕様に適合させるため、研究者や実践者がフィードバックを提供することを奨励する。 この文書を定期的に更新します。

This document analyzes the role of data-driven methodologies in Covid-19 pandemic. We provide a SWOT analysis and a roadmap that goes from the access to data sources to the final decision-making step. We aim to review the available methodologies while anticipating the difficulties and challenges in the development of data-driven strategies to combat the Covid-19 pandemic. A 3M-analysis is presented: Monitoring, Modelling and Making decisions. The focus is on the potential of well-known datadriven schemes to address different challenges raised by the pandemic: i) monitoring and forecasting the spread of the epidemic; (ii) assessing the effectiveness of government decisions; (iii) making timely decisions. Each step of the roadmap is detailed through a review of consolidated theoretical results and their potential application in the Covid-19 context. When possible, we provide examples of their applications on past or present epidemics. We do not provide an exhaustive enumeration of methodologies, algorithms and applications. We do try to serve as a bridge between different disciplines required to provide a holistic approach to the epidemic: data science, epidemiology, controltheory, etc. That is, we highlight effective data-driven methodologies that have been shown to be successful in other contexts and that have potential application in the different steps of the proposed roadmap. To make this document more functional and adapted to the specifics of each discipline, we encourage researchers and practitioners to provide feedback. We will update this document regularly.
翻訳日:2022-11-26 07:56:57 公開日:2020-06-10
# RNNとLSTMはLong Memoryを持っているか?

Do RNN and LSTM have Long Memory? ( http://arxiv.org/abs/2006.03860v2 )

ライセンス: Link先を確認
Jingyu Zhao, Feiqing Huang, Jia Lv, Yanjie Duan, Zhen Qin, Guodong Li, Guangjian Tian(参考訳) LSTMネットワークは、長期依存学習の難しさを克服するために提案され、アプリケーションに多大な進歩をもたらした。 成功と欠点を念頭に置いて、この記事では、RNNとLSTMは長い記憶を持つのだろうか、という疑問を提起する。 RNN と LSTM が統計的視点から長いメモリを持たないことを証明することで部分的に答える。 長期記憶ネットワークに対する新たな定義がさらに導入され、モデル重みを多項式速度で減衰させる必要がある。 この理論を検証するため、RNNとLSTMを最小限の修正を行うことで長期記憶ネットワークに変換し、その優位性を様々なデータセットの長期依存をモデル化する。

The LSTM network was proposed to overcome the difficulty in learning long-term dependence, and has made significant advancements in applications. With its success and drawbacks in mind, this paper raises the question - do RNN and LSTM have long memory? We answer it partially by proving that RNN and LSTM do not have long memory from a statistical perspective. A new definition for long memory networks is further introduced, and it requires the model weights to decay at a polynomial rate. To verify our theory, we convert RNN and LSTM into long memory networks by making a minimal modification, and their superiority is illustrated in modeling long-term dependence of various datasets.
翻訳日:2022-11-24 21:07:32 公開日:2020-06-10
# 誤情報は複雑度が高く

Misinformation Has High Perplexity ( http://arxiv.org/abs/2006.04666v2 )

ライセンス: Link先を確認
Nayeon Lee, Yejin Bang, Andrea Madotto, Pascale Fung(参考訳) 誤報が即座に処理されない場合、誤報が有害な結果をもたらす可能性があるため、誤報の開示は重要かつ時間的に重要な課題である。 しかし、誤情報の分類による解約は、通常、人間による注釈データが必要であり、新型コロナウイルスの感染拡大など、新たに発生したイベントの早い時間枠には適していない。 本稿では,誤報自体が真理文よりも難解であると仮定し,その難解性を利用して疑似クレームを非教師的な方法でデバンクすることを提案する。 まず,クレームと文の類似性から,科学的・ニュース的情報源から信頼できる証拠を抽出する。 第2に,抽出したエビデンスを言語モデルにプライマリし,難易度スコアに基づいて与えられたクレームの正当性を評価する。 我々は2つの新しいcovid-19関連テストセットを構築し、もう1つは科学的で、もう1つはコンテンツの政治的側面であり、我々のシステムが既存のシステムよりも良好に機能していることを実証的に検証する。 当社はこれらのデータセットを公開し、covid-19や他のトピックに関する誤情報の流布に関するさらなる研究を奨励しています。

Debunking misinformation is an important and time-critical task as there could be adverse consequences when misinformation is not quashed promptly. However, the usual supervised approach to debunking via misinformation classification requires human-annotated data and is not suited to the fast time-frame of newly emerging events such as the COVID-19 outbreak. In this paper, we postulate that misinformation itself has higher perplexity compared to truthful statements, and propose to leverage the perplexity to debunk false claims in an unsupervised manner. First, we extract reliable evidence from scientific and news sources according to sentence similarity to the claims. Second, we prime a language model with the extracted evidence and finally evaluate the correctness of given claims based on the perplexity scores at debunking time. We construct two new COVID-19-related test sets, one is scientific, and another is political in content, and empirically verify that our system performs favorably compared to existing systems. We are releasing these datasets publicly to encourage more research in debunking misinformation on COVID-19 and other topics.
翻訳日:2022-11-23 23:56:41 公開日:2020-06-10
# ラガンエフォートと形状と隠れマルコフモデルを用いた影響運動生成

Affective Movement Generation using Laban Effort and Shape and Hidden Markov Models ( http://arxiv.org/abs/2006.06071v1 )

ライセンス: Link先を確認
Ali Samadani, Rob Gorbet, Dana Kulic(参考訳) 身体運動は、感情状態を識別できる重要なコミュニケーション媒体である。 影響を伝達する動きは、機械に生命のような特性を与え、より魅力的な人間と機械の相互作用を生み出すのに役立つ。 本稿では,2つの動作抽象化を利用した自動感情運動生成手法を提案する。 1)laban movement analysis (lma) および 2)隠れマルコフモデリング。 LMAは運動の運動的および表現的特徴を抽象的に表現するための体系的なツールを提供する。 対象の感情がオーバーレイされる所望の運動経路を前提として,LMAエフォートと形状空間のラベル付きデータセットを探索し,対象の感情を伝達する所望の運動経路と類似した動きを求める。 特定された動きのhmm抽象化を求め、所望の動作経路を用いて、目標の感情を伝達する所望の動作経路の変調版である新規な動きを生成する。 変調の程度は変化し、発生した動きにおける運動的制約と感情的制約のトレードオフとなる。 提案手法は全身運動データセットを用いて検証する。 目標感情を認識可能な運動生成における提案手法の有効性を検証された自動認識モデルとユーザスタディを用いて評価した。 対象感情は, 認識モデルを用いて72%の割合で生成した運動から正しく認識された。 さらに,ユーザ研究の参加者は,生成した動きのサンプルからターゲットの感情を正しく知覚することができたが,混乱の事例も見られた。

Body movements are an important communication medium through which affective states can be discerned. Movements that convey affect can also give machines life-like attributes and help to create a more engaging human-machine interaction. This paper presents an approach for automatic affective movement generation that makes use of two movement abstractions: 1) Laban movement analysis (LMA), and 2) hidden Markov modeling. The LMA provides a systematic tool for an abstract representation of the kinematic and expressive characteristics of movements. Given a desired motion path on which a target emotion is to be overlaid, the proposed approach searches a labeled dataset in the LMA Effort and Shape space for similar movements to the desired motion path that convey the target emotion. An HMM abstraction of the identified movements is obtained and used with the desired motion path to generate a novel movement that is a modulated version of the desired motion path that conveys the target emotion. The extent of modulation can be varied, trading-off between kinematic and affective constraints in the generated movement. The proposed approach is tested using a full-body movement dataset. The efficacy of the proposed approach in generating movements with recognizable target emotions is assessed using a validated automatic recognition model and a user study. The target emotions were correctly recognized from the generated movements at a rate of 72% using the recognition model. Furthermore, participants in the user study were able to correctly perceive the target emotions from a sample of generated movements, although some cases of confusion were also observed.
翻訳日:2022-11-23 06:43:36 公開日:2020-06-10
# STONNE: フレキシブルニューラルネットワーク加速器のための詳細なアーキテクチャシミュレータ

STONNE: A Detailed Architectural Simulator for Flexible Neural Network Accelerators ( http://arxiv.org/abs/2006.07137v1 )

ライセンス: Link先を確認
Francisco Mu\~noz-Mart\'inez, Jos\'e L. Abell\'an, Manuel E. Acacio, Tushar Krishna(参考訳) 近年,Deep Neural Networks (DNN) の推論手順を高速化する特化アーキテクチャの設計が盛んに行われている。 第一世代の厳密な提案は、様々な層タイプと次元を効率的にサポートできるより高度な柔軟な加速器アーキテクチャに急速に置き換えられた。 設計の複雑さが増大するにつれて、設計の初期段階において、設計空間の迅速かつ正確な探索と、アーキテクチャ拡張の有効性の迅速な定量化を可能にするために、研究者がサイクル精度のシミュレーションツールを組み込むことがますます魅力的になる。 この目的のために,完全同時代のDNNモデルを実行するフレキシブルアクセラレーションアーキテクチャのエンドツーエンド評価を可能にする,サイクル精度,高モジュラー,高拡張性シミュレーションフレームワークSTONNE(Simulation Tool of Neural Network Engines)を提案する。 我々は最近提案されたMAERIアーキテクチャをモデル化するためにSTONNEを使用し、公開されているBSV符号化MAERI実装の性能結果にどのようにアプローチできるかを示す。 そして,MAERI に実装された折り畳み戦略を総合的に評価し,計算単位利用率が非常に低く (平均 5 DNN モデルで25% ) ,最終的に性能が低下することを示す。

The design of specialized architectures for accelerating the inference procedure of Deep Neural Networks (DNNs) is a booming area of research nowadays. First-generation rigid proposals have been rapidly replaced by more advanced flexible accelerator architectures able to efficiently support a variety of layer types and dimensions. As the complexity of the designs grows, it is more and more appealing for researchers to have cycle-accurate simulation tools at their disposal to allow for fast and accurate design-space exploration, and rapid quantification of the efficacy of architectural enhancements during the early stages of a design. To this end, we present STONNE (Simulation TOol of Neural Network Engines), a cycle-accurate, highly-modular and highly-extensible simulation framework that enables end-to-end evaluation of flexible accelerator architectures running complete contemporary DNN models. We use STONNE to model the recently proposed MAERI architecture and show how it can closely approach the performance results of the publicly available BSV-coded MAERI implementation. Then, we conduct a comprehensive evaluation and demonstrate that the folding strategy implemented for MAERI results in very low compute unit utilization (25% on average across 5 DNN models) which in the end translates into poor performance.
翻訳日:2022-11-23 06:43:13 公開日:2020-06-10
# ディープニューラルネットワークフレームワークによるシステム動作の劣化物理の解明 : 生活予後の維持をめざして

Uncovering the Underlying Physics of Degrading System Behavior Through a Deep Neural Network Framework: The Case of Remaining Useful Life Prognosis ( http://arxiv.org/abs/2006.09288v1 )

ライセンス: Link先を確認
Sergio Cofre-Martel, Enrique Lopez Droguett and Mohammad Modarres(参考訳) 深層学習(DL)は、システム行動の予後の回帰アルゴリズムとして一般的に用いられる、予後と健康管理(PHM)に不可欠なツールとなっている。 興味ある指標の1つは、監視センサデータを用いて推定される残りの有用寿命(RUL)である。 これらのディープラーニングアプリケーションのほとんどは、アルゴリズムをブラックボックス関数として扱い、データ解釈をほとんど制御しない。 制約が課されない場合、モデルが物理やその他の自然科学の法則を破る場合、これは問題となる。 最近の研究は、モデルがどのようにデータとシステム自体の振る舞いを解釈するかを研究するのではなく、低予測エラーを達成するために複雑なdlモデルを適用することに重点を置いている。 本稿では,部分微分方程式(PDE)による劣化の物理を探索するために,ディープニューラルネットワークフレームワークを用いたオープンボックスアプローチを提案する。 フレームワークには3つのステージがあり、システムの状態を表す潜伏変数と対応するPDEを見つけることを目的としている。 モデルは教師付き回帰として訓練され、RULと、システムの健康指標として使用および解釈可能な潜在変数マップを出力するように設計されている。

Deep learning (DL) has become an essential tool in prognosis and health management (PHM), commonly used as a regression algorithm for the prognosis of a system's behavior. One particular metric of interest is the remaining useful life (RUL) estimated using monitoring sensor data. Most of these deep learning applications treat the algorithms as black-box functions, giving little to no control of the data interpretation. This becomes an issue if the models break the governing laws of physics or other natural sciences when no constraints are imposed. The latest research efforts have focused on applying complex DL models to achieve a low prediction error rather than studying how the models interpret the behavior of the data and the system itself. In this paper, we propose an open-box approach using a deep neural network framework to explore the physics of degradation through partial differential equations (PDEs). The framework has three stages, and it aims to discover a latent variable and corresponding PDE to represent the health state of the system. Models are trained as a supervised regression and designed to output the RUL as well as a latent variable map that can be used and interpreted as the system's health indicator.
翻訳日:2022-11-23 06:42:51 公開日:2020-06-10
# エンタングルメント埋め込みリカレントネットワークアーキテクチャ:テンソル化潜在状態伝播とカオス予測

Entanglement-Embedded Recurrent Network Architecture: Tensorized Latent State Propagation and Chaos Forecasting ( http://arxiv.org/abs/2006.14698v1 )

ライセンス: Link先を確認
Xiangyi Meng (Boston University) and Tong Yang (Boston College)(参考訳) カオス時系列予測は理論や実世界の応用において大きな可能性を秘めているにもかかわらず、あまり理解されていない。 伝統的な統計/ML法は、非線形力学系におけるカオスを捉えるのに非効率であり、特に連続するステップ間の時間差$\Delta t$があまりに大きいため、自明でエルゴード的な局所最小値に到達する可能性が高い。 本稿では,LSTMの長期記憶特性を保ちながら,短期的非線形複雑性の学習を同時に促進し,セル状態から状態への伝播を緊張させることにより,LSTMに基づく新しい長期記憶アーキテクチャを提案する。 カオスの大域的ミニマは、多項式順序まで全ての非線形項が等しく扱われるテンソル化によって最も効率的に到達できると強調する。 アーキテクチャの効率性と汎用性は,理論的解析と実験結果によって体系的に検証され,確認される。 In our design, we have explicitly used two different many-body entanglement structures---matrix product states (MPS) and the multiscale entanglement renormalization ansatz (MERA)---as physics-inspired tensor decomposition techniques, from which we find that MERA generally performs better than MPS, hence conjecturing that the learnability of chaos is determined not only by the number of free parameters but also the tensor complexity---recognized as how entanglement entropy scales with varying matricization of the tensor.

Chaotic time series forecasting has been far less understood despite its tremendous potential in theory and real-world applications. Traditional statistical/ML methods are inefficient to capture chaos in nonlinear dynamical systems, especially when the time difference $\Delta t$ between consecutive steps is so large that a trivial, ergodic local minimum would most likely be reached instead. Here, we introduce a new long-short-term-memory (LSTM)-based recurrent architecture by tensorizing the cell-state-to-state propagation therein, keeping the long-term memory feature of LSTM while simultaneously enhancing the learning of short-term nonlinear complexity. We stress that the global minima of chaos can be most efficiently reached by tensorization where all nonlinear terms, up to some polynomial order, are treated explicitly and weighted equally. The efficiency and generality of our architecture are systematically tested and confirmed by theoretical analysis and experimental results. In our design, we have explicitly used two different many-body entanglement structures---matrix product states (MPS) and the multiscale entanglement renormalization ansatz (MERA)---as physics-inspired tensor decomposition techniques, from which we find that MERA generally performs better than MPS, hence conjecturing that the learnability of chaos is determined not only by the number of free parameters but also the tensor complexity---recognized as how entanglement entropy scales with varying matricization of the tensor.
翻訳日:2022-11-23 06:42:31 公開日:2020-06-10
# パラメータ化ニューラルオーディオ効果の探索と一般化可能性

Exploring Quality and Generalizability in Parameterized Neural Audio Effects ( http://arxiv.org/abs/2006.05584v1 )

ライセンス: Link先を確認
William Mitchell, Scott H. Hawley(参考訳) ディープニューラルネットワークは、特に波形領域のエンド・ツー・エンドモデルのように、しばしば以前のアプローチを超える音楽オーディオ信号処理アプリケーションへの期待を示している。 しかし、これまでの結果は低いサンプルレート、ノイズ、信号タイプの狭い領域、パラメータ化制御の欠如(すなわち「ノブ」)によって制約される傾向にあり、プロのオーディオエンジニアリングワークフローにはまだ適していない。 この研究は、ディープニューラルネットワークを用いて音楽制作に関連する非線形時間依存信号処理効果をモデル化する以前の研究を拡大しており、これはアナログ機器で見られるパラメータ化設定をエミュレートする機能を含み、最終的には商業的に実行可能な高品質オーディオ、すなわち16ビット解像度で44.1kHzサンプリングレートを生産することを目的としている。 本稿では,これらの効果をアーキテクチャや最適化によってモデル化し,計算効率の向上,信号対雑音比の低減,さらに様々な非線形音響効果にまで拡張する方法について述べる。 これらの目的のために採用される戦略は、モデル速度、モデルの正確性、モデルの一般化可能性という3つのアプローチであった。 提案手法のほとんどは、データセット操作を除いて、元のモデルよりも出力精度が限界あるいはゼロに向上する。 データセットのオーディオ内容の制限、例えば1つの楽器のデータセットの使用は、より一般的なデータセットでトレーニングされたモデルよりも、モデルの精度が大幅に向上することを発見した。

Deep neural networks have shown promise for music audio signal processing applications, often surpassing prior approaches, particularly as end-to-end models in the waveform domain. Yet results to date have tended to be constrained by low sample rates, noise, narrow domains of signal types, and/or lack of parameterized controls (i.e. "knobs"), making their suitability for professional audio engineering workflows still lacking. This work expands on prior research published on modeling nonlinear time-dependent signal processing effects associated with music production by means of a deep neural network, one which includes the ability to emulate the parameterized settings you would see on an analog piece of equipment, with the goal of eventually producing commercially viable, high quality audio, i.e. 44.1 kHz sampling rate at 16-bit resolution. The results in this paper highlight progress in modeling these effects through architecture and optimization changes, towards increasing computational efficiency, lowering signal-to-noise ratio, and extending to a larger variety of nonlinear audio effects. Toward these ends, the strategies employed involved a three-pronged approach: model speed, model accuracy, and model generalizability. Most of the presented methods provide marginal or no increase in output accuracy over the original model, with the exception of dataset manipulation. We found that limiting the audio content of the dataset, for example using datasets of just a single instrument, provided a significant improvement in model accuracy over models trained on more general datasets.
翻訳日:2022-11-23 06:36:55 公開日:2020-06-10
# オンライン決済システムにおけるインテリジェント制御のための解釈可能なマルチモーダル学習

Interpretable Multimodal Learning for Intelligent Regulation in Online Payment Systems ( http://arxiv.org/abs/2006.05669v1 )

ライセンス: Link先を確認
Shuoyao Wang, Diwei Zhu(参考訳) オンライン決済システムにおける取引活動の爆発的な増加に伴い、効果的かつリアルタイムな規制が決済サービスプロバイダーにとって重要な問題となっている。 人工知能(AI)の急速な発展により、将来性のあるソリューションとしてAIが実現可能な規制が出現する。 AI対応規制の主な課題の1つは、マルチメディア情報、すなわち、金融技術(FinTech)におけるマルチモーダル信号の活用方法である。 自然言語処理におけるアテンション機構に着想を得て,テキストとトランザクションの関係を調査するための,新たなクロスモーダル・イントラモーダルアテンションネットワーク(CIAN)を提案する。 具体的には、テキストとトランザクション情報を統合して、正のペアをクラスタリングし、負のペアを互いに切り離すテキスト-トレーダ共同埋め込み学習を強化する。 インテリジェントな規制のもう一つの課題は、複雑な機械学習モデルの解釈可能性である。 金融規制の要件を維持するため,我々は,低ランク行列近似問題として定式化された,注目機構が元の特徴とどのように相互作用するかを解釈するCIAN-Explainerを設計する。 Tencentの最大のオンライン決済システムであるWeChat Payの実際のデータセットを用いて、我々はCIANの実用的応用価値を検証する実験を行い、その手法は最先端の手法よりも優れています。

With the explosive growth of transaction activities in online payment systems, effective and realtime regulation becomes a critical problem for payment service providers. Thanks to the rapid development of artificial intelligence (AI), AI-enable regulation emerges as a promising solution. One main challenge of the AI-enabled regulation is how to utilize multimedia information, i.e., multimodal signals, in Financial Technology (FinTech). Inspired by the attention mechanism in nature language processing, we propose a novel cross-modal and intra-modal attention network (CIAN) to investigate the relation between the text and transaction. More specifically, we integrate the text and transaction information to enhance the text-trade jointembedding learning, which clusters positive pairs and push negative pairs away from each other. Another challenge of intelligent regulation is the interpretability of complicated machine learning models. To sustain the requirements of financial regulation, we design a CIAN-Explainer to interpret how the attention mechanism interacts the original features, which is formulated as a low-rank matrix approximation problem. With the real datasets from the largest online payment system, WeChat Pay of Tencent, we conduct experiments to validate the practical application value of CIAN, where our method outperforms the state-of-the-art methods.
翻訳日:2022-11-23 06:35:26 公開日:2020-06-10
# ニューラルネットワークをベースとするユニバーサルサウンドセレクタ

Listen to What You Want: Neural Network-based Universal Sound Selector ( http://arxiv.org/abs/2006.05712v1 )

ライセンス: Link先を確認
Tsubasa Ochiai, Marc Delcroix, Yuma Koizumi, Hiroaki Ito, Keisuke Kinoshita, Shoko Araki(参考訳) 耳を傾ける音響イベント(AE)を制御できれば、より制御可能な可聴デバイスの開発が可能になるでしょう。 本稿では,1つまたは複数の希望するaeクラスに属するすべての音の抽出(または抑制)として定義するae音選択(または除去)問題に対処する。 この問題は、ソース分離とAE分類の組み合わせで対処できるが、この問題を解くための準最適方法である。 さらに、ソース分離は通常、AEを扱う際には実用的でないソースの最大数を知る必要がある。 本稿では,ユーザが指定したAEクラスからAE音声を直接選択可能な,普遍的な音声選択ニューラルネットワークを提案する。 提案するフレームワークは、複数のAEクラスから音を同時に選択するように明示的に最適化することができる。 本研究では,提案手法が有望なae選択性能を達成し,訓練中に見当たらない多数の音源との混合に一般化できることを実験的に示す。

Being able to control the acoustic events (AEs) to which we want to listen would allow the development of more controllable hearable devices. This paper addresses the AE sound selection (or removal) problems, that we define as the extraction (or suppression) of all the sounds that belong to one or multiple desired AE classes. Although this problem could be addressed with a combination of source separation followed by AE classification, this is a sub-optimal way of solving the problem. Moreover, source separation usually requires knowing the maximum number of sources, which may not be practical when dealing with AEs. In this paper, we propose instead a universal sound selection neural network that enables to directly select AE sounds from a mixture given user-specified target AE classes. The proposed framework can be explicitly optimized to simultaneously select sounds from multiple desired AE classes, independently of the number of sources in the mixture. We experimentally show that the proposed method achieves promising AE sound selection performance and could be generalized to mixtures with a number of sources that are unseen during training.
翻訳日:2022-11-23 06:34:52 公開日:2020-06-10
# 産業データに関するデータサイエンス --ブラウンフィールド応用における今日の課題-

Data science on industrial data -- Today's challenges in brown field applications ( http://arxiv.org/abs/2006.05757v1 )

ライセンス: Link先を確認
Tilman Klaeger, Sebastian Gottschall, Lukas Oehm(参考訳) 多くの研究がデータ分析と機械学習で行われている。 産業プロセスでは大量のデータが利用可能であり、多くの研究者がこのデータに取り組んでいる。 実践的なアプローチでは、現代の技術、特にブラウンフィールド応用の適用を阻害する多くの落とし穴が見つかる。 本論文では,ストックマシンの現場での作業における技術の現状と今後の展望について述べる。 この論文の主な焦点はデータ収集であり、ほとんどの人が予想するよりも扱いにくい。 また、機械学習アプリケーションのデータ品質も実験室を去ると課題となる。 この領域では、データのセマンティックな記述の欠如と、マシンラーニングモデルのトレーニングと検証に利用できる基礎的な真実の欠如を期待する必要があります。 最後の課題はITセキュリティとファイアウォールへのデータ転送です。

Much research is done on data analytics and machine learning. In industrial processes large amounts of data are available and many researchers are trying to work with this data. In practical approaches one finds many pitfalls restraining the application of modern technologies especially in brown field applications. With this paper we want to show state of the art and what to expect when working with stock machines in the field. A major focus in this paper is on data collection which can be more cumbersome than most people might expect. Also data quality for machine learning applications is a challenge once leaving the laboratory. In this area one has to expect the lack of semantic description of the data as well as very little ground truth being available for training and verification of machine learning models. A last challenge is IT security and passing data through firewalls.
翻訳日:2022-11-23 06:34:29 公開日:2020-06-10
# ヘテロジニアスグラフアテンションネットワークによるtwitter上の噂の早期検出

Heterogeneous Graph Attention Networks for Early Detection of Rumors on Twitter ( http://arxiv.org/abs/2006.05866v1 )

ライセンス: Link先を確認
Qi Huang, Junshuai Yu, Jia Wu, Bin Wang(参考訳) モバイルインターネット技術の急速な発展とモバイルデバイスの普及により、ソーシャルメディア上で意見を述べるのがずっと簡単になった。 ソーシャルメディアプラットフォームのオープン性と利便性は、人々の自由な表現を提供すると同時に、新たな社会問題を引き起こす。 ソーシャルメディア上での虚偽の噂の普及は、大衆のパニックを引き起こし、個人の評判を損なう可能性があるため、うわさの自動検出技術が特に必要となる。 既存の噂検出手法の大半は、テキストの内容、ユーザプロファイル、伝播パターンから効果的な特徴を抽出することに焦点を当てている。 しかし、これらの手法は、噂の持つ意味的共通点を、噂を検出する重要な要素として特徴づけるテキスト内容のグローバルな意味関係を十分に活用していない。 本稿では,テキストの内容と噂の発信元をベースとした,ツイートワードユーザによる異種グラフを構築する。 メタパスに基づくヘテロジニアスグラフアテンションネットワークフレームワークが提案され,テキスト内容のグローバルな意味関係と,うわさ検出のためのソースツイートのグローバルな構造情報とをキャプチャする。 実世界のtwitterデータに関する実験は、提案されたアプローチの優位性を示しており、これは非常に初期段階で噂を検出するのに匹敵する能力を持っている。

With the rapid development of mobile Internet technology and the widespread use of mobile devices, it becomes much easier for people to express their opinions on social media. The openness and convenience of social media platforms provide a free expression for people but also cause new social problems. The widespread of false rumors on social media can bring about the panic of the public and damage personal reputation, which makes rumor automatic detection technology become particularly necessary. The majority of existing methods for rumor detection focus on mining effective features from text contents, user profiles, and patterns of propagation. Nevertheless, these methods do not take full advantage of global semantic relations of the text contents, which characterize the semantic commonality of rumors as a key factor for detecting rumors. In this paper, we construct a tweet-word-user heterogeneous graph based on the text contents and the source tweet propagations of rumors. A meta-path based heterogeneous graph attention network framework is proposed to capture the global semantic relations of text contents, together with the global structure information of source tweet propagations for rumor detection. Experiments on real-world Twitter data demonstrate the superiority of the proposed approach, which also has a comparable ability to detect rumors at a very early stage.
翻訳日:2022-11-23 06:34:19 公開日:2020-06-10
# AdaSense:ウェアラブルデバイスのための適応型低消費電力センシングとアクティビティ認識

AdaSense: Adaptive Low-Power Sensing and Activity Recognition for Wearable Devices ( http://arxiv.org/abs/2006.05884v1 )

ライセンス: Link先を確認
Marina Neseem, Jon Nelson, Sherief Reda(参考訳) ウェアラブルデバイスには厳格なパワーとメモリ制限がある。 その結果、精度を犠牲にすることなく、これらのデバイス上での消費電力を最適化する必要がある。 本稿では,人間行動認識のためのセンシング・特徴抽出・分類協調フレームワークであるAdaSenseについて述べる。 ユーザアクティビティの関数として異なるセンサ構成を動的に切り替えることで消費電力を削減する手法を提案する。 フレームワークは、正確性とエネルギーのトレードオフのpareto-frontierを表す構成を選択する。 AdaSenseは低オーバーヘッド処理と分類手法も使っている。 提案手法は, センサの消費電力を69%削減し, 動作認識精度は1.5%以下である。

Wearable devices have strict power and memory limitations. As a result, there is a need to optimize the power consumption on those devices without sacrificing the accuracy. This paper presents AdaSense: a sensing, feature extraction and classification co-optimized framework for Human Activity Recognition. The proposed techniques reduce the power consumption by dynamically switching among different sensor configurations as a function of the user activity. The framework selects configurations that represent the pareto-frontier of the accuracy and energy trade-off. AdaSense also uses low-overhead processing and classification methodologies. The introduced approach achieves 69% reduction in the power consumption of the sensor with less than 1.5% decrease in the activity recognition accuracy.
翻訳日:2022-11-23 06:33:57 公開日:2020-06-10
# 雲検出のためのLandsat-8とProba-V画像のクロスセンサ対応ドメイン適応

Cross-Sensor Adversarial Domain Adaptation of Landsat-8 and Proba-V images for Cloud Detection ( http://arxiv.org/abs/2006.05923v1 )

ライセンス: Link先を確認
Gonzalo Mateo-Garc\'ia, Valero Laparra, Dan L\'opez-Puigdollers, Luis G\'omez-Chova(参考訳) 同様の特性を持つ光学センサーを搭載した地球観測衛星の数は絶えず増加している。 その類似性や潜在的な相乗効果にもかかわらず、導出された衛星製品は個々のセンサーに対して独立して開発されることが多い。 抽出された放射能の差は精度を著しく低下させ、センサー間の知識と情報共有を損なう。 これは機械学習アルゴリズムにとって特に有害であり、各センサーのモデルをトレーニングするために新しい真実データを集めるのはコストがかかり、経験豊富な人力を必要とする。 本研究では、転送学習モデルの性能を高めるために、2つの衛星センサの画像間の統計的差異を低減するための領域適応変換を提案する。 提案手法は,変換モデルを非ペアで学習するcycada(cycle consistent generative adversarial domain adaptation)フレームワークに基づいている。 特にランドサット-8とproba-vの衛星は、異なるが互換性のあるスペクトル特性を示し、この方法を説明するために用いられる。 得られた変換は、適応された画像の空間的およびスペクトル的情報を保存しながら、画像データセット間の差を著しく低減するので、汎用的なクロスセンサー応用に有用である。 さらに,クラウド検出など特定のリモートセンシングアプリケーションの性能向上のために,コスト関数に専用の用語を含めることで,提案した対向領域適応モデルのトレーニングを改良することができる。 その結果,ランドサット8データを用いて訓練したクラウド検出モデルは,proba-vにおけるクラウド検出精度を向上させることがわかった。

The number of Earth observation satellites carrying optical sensors with similar characteristics is constantly growing. Despite their similarities and the potential synergies among them, derived satellite products are often developed for each sensor independently. Differences in retrieved radiances lead to significant drops in accuracy, which hampers knowledge and information sharing across sensors. This is particularly harmful for machine learning algorithms, since gathering new ground truth data to train models for each sensor is costly and requires experienced manpower. In this work, we propose a domain adaptation transformation to reduce the statistical differences between images of two satellite sensors in order to boost the performance of transfer learning models. The proposed methodology is based on the Cycle Consistent Generative Adversarial Domain Adaptation (CyCADA) framework that trains the transformation model in an unpaired manner. In particular, Landsat-8 and Proba-V satellites, which present different but compatible spatio-spectral characteristics, are used to illustrate the method. The obtained transformation significantly reduces differences between the image datasets while preserving the spatial and spectral information of adapted images, which is hence useful for any general purpose cross-sensor application. In addition, the training of the proposed adversarial domain adaptation model can be modified to improve the performance in a specific remote sensing application, such as cloud detection, by including a dedicated term in the cost function. Results show that, when the proposed transformation is applied, cloud detection models trained in Landsat-8 data increase cloud detection accuracy in Proba-V.
翻訳日:2022-11-23 06:26:46 公開日:2020-06-10
# 筋ロボットを用いたスクラッチからのテーブルテニスの学習

Learning to Play Table Tennis From Scratch using Muscular Robots ( http://arxiv.org/abs/2006.05935v1 )

ライセンス: Link先を確認
Dieter B\"uchler, Simon Guist, Roberto Calandra, Vincent Berenz, Bernhard Sch\"olkopf, Jan Peters(参考訳) テーブルテニスのようなダイナミックなタスクは人間にとって比較的簡単に学べるが、ロボットにとって大きな課題となる。 このようなタスクは、飛球とロボットの不正確な状態推定が存在する場合に、高速動作の正確な制御と正確なタイミングを必要とする。 強化学習(rl)は、データから複雑な制御タスクを学ぶことに有望である。 しかし、ステップベースのRLを実際のシステムの動的タスクに適用することは安全性に重要であり、RLは高速なシステムにおいて数百万の時間ステップで安全に探索および失敗する必要がある。 本稿では,空気圧人工筋肉(pams)によって駆動されるロボットアームを用いて,モデルフリーの強化学習を用いた卓球の安全学習を実現する。 pamsのソフトネスとバックドラビティ特性は、システムが状態空間の安全な領域を離れることを妨げる。 このようにして、RLはロボットに5m\sと12m\sの実際のボールを平均して所望の着地点に戻す権限を与える。 我々の設定により、エージェントはこの安全クリティカルなタスクを学習できる (i)アルゴリズムに安全性の制約がないもの (ii)返却球の速さを最大化しつつ (三)実システムの低レベルな制御に直接作用する確率的方針の使用、及び (iv)数千回の試用列車 (v)事前の知識のないゼロから。 さらに,シミュレーションで記録された球軌道をランダムに再生し,実際のロボットにアクションを適用することにより,練習中の実球の演奏を回避できる実用的ハイブリッドシミュレータHYSRを提案する。 この仕事は初めてです (a)擬人化ロボットアームを用いた安全クリティカルダイナミックタスクのフェールセーフ学習 (b)制御課題にも拘わらず、PAM駆動システムで精度要求問題を学ぶ (c)本物のボールなしで卓球をするロボットを訓練する。 ビデオとデータセットは muscleTT.embodied.ml で入手できる。

Dynamic tasks like table tennis are relatively easy to learn for humans but pose significant challenges to robots. Such tasks require accurate control of fast movements and precise timing in the presence of imprecise state estimation of the flying ball and the robot. Reinforcement Learning (RL) has shown promise in learning of complex control tasks from data. However, applying step-based RL to dynamic tasks on real systems is safety-critical as RL requires exploring and failing safely for millions of time steps in high-speed regimes. In this paper, we demonstrate that safe learning of table tennis using model-free Reinforcement Learning can be achieved by using robot arms driven by pneumatic artificial muscles (PAMs). Softness and back-drivability properties of PAMs prevent the system from leaving the safe region of its state space. In this manner, RL empowers the robot to return and smash real balls with 5 m\s and 12m\s on average to a desired landing point. Our setup allows the agent to learn this safety-critical task (i) without safety constraints in the algorithm, (ii) while maximizing the speed of returned balls directly in the reward function (iii) using a stochastic policy that acts directly on the low-level controls of the real system and (iv) trains for thousands of trials (v) from scratch without any prior knowledge. Additionally, we present HYSR, a practical hybrid sim and real training that avoids playing real balls during training by randomly replaying recorded ball trajectories in simulation and applying actions to the real robot. This work is the first to (a) fail-safe learn of a safety-critical dynamic task using anthropomorphic robot arms, (b) learn a precision-demanding problem with a PAM-driven system despite the control challenges and (c) train robots to play table tennis without real balls. Videos and datasets are available at muscularTT.embodied.ml.
翻訳日:2022-11-23 06:26:25 公開日:2020-06-10
# 暗視サーベイランスのための画像強調と物体認識

Image Enhancement and Object Recognition for Night Vision Surveillance ( http://arxiv.org/abs/2006.05787v1 )

ライセンス: Link先を確認
Aashish Bhandari, Aayush Kafle, Pranjal Dhakal, Prateek Raj Joshi, Dinesh Baniya Kshatri(参考訳) 物体認識はあらゆる監視システムにおいて重要な部分である。 監視が実施されている地域で侵入者や外国の物体を識別することが最も懸念される問題である。 従来のカメラを用いた夜間監視システムの性能は夜間に比べて非常に優れている。 夜間の監視の主な問題は、従来のカメラで捉えた物体は、可視光線に周囲の光がないため、背景とのコントラストが低いことである。 このため、赤外線カメラを用いて低照度で撮像し、空間領域に基づく異なる強調アルゴリズムを用いてコントラストの高い画像を得るように画像を強化する。 強化された画像は分類プロセスに送られる。 この分類は畳み込みニューラルネットワークを用いて行われ、その後ニューロンの完全な結合層が続く。 本稿では,異なる拡張アルゴリズムの実装後の分類精度を比較した。

Object recognition is a critical part of any surveillance system. It is the matter of utmost concern to identify intruders and foreign objects in the area where surveillance is done. The performance of surveillance system using the traditional camera in daylight is vastly superior as compared to night. The main problem for surveillance during the night is the objects captured by traditional cameras have low contrast against the background because of the absence of ambient light in the visible spectrum. Due to that reason, the image is taken in low light condition using an Infrared Camera and the image is enhanced to obtain an image with higher contrast using different enhancing algorithms based on the spatial domain. The enhanced image is then sent to the classification process. The classification is done by using convolutional neural network followed by a fully connected layer of neurons. The accuracy of classification after implementing different enhancement algorithms is compared in this paper.
翻訳日:2022-11-23 06:25:45 公開日:2020-06-10
# 帯域制限パラメータ化と半ラグランジアンルンゲ-クッタ統合を組み合わせた効率的なPDE制約LDDMM

Combining the band-limited parameterization and Semi-Lagrangian Runge--Kutta integration for efficient PDE-constrained LDDMM ( http://arxiv.org/abs/2006.06823v1 )

ライセンス: Link先を確認
Monica Hernandez(参考訳) PDE制約付き LDDMM 法のファミリーは、物理的に有意な微分同相変換に対する特に興味深いアプローチとして現れている。 Gauss--Newton--Krylov最適化とRunge--Kutta積分の元々の組合せは、優れた数値精度と高速収束率を示している。 しかし、その最も重要な制限は計算の複雑さであり、計算解剖学の応用研究で広く使われることを妨げている。 この極限は、帯域制限ベクトル場と半ラグランジュ積分の空間における問題定式化によって独立に扱われている。 本研究の目的は、帯域制限付きPDE制約付き LDDMM の3つの変種を組み合わせ、計算効率をさらに高めることである。 得られた手法の精度を広く評価する。 全ての変種に対して、提案された組合せアプローチは、計算効率の著しい増加を示す。 さらに、変形状態方程式に基づく変種は、精度と効率の点で、全ての評価フレームワークで最高の実行方法として一貫して位置づけられている。

The family of PDE-constrained LDDMM methods is emerging as a particularly interesting approach for physically meaningful diffeomorphic transformations. The original combination of Gauss--Newton--Krylov optimization and Runge--Kutta integration, shows excellent numerical accuracy and fast convergence rate. However, its most significant limitation is the huge computational complexity, hindering its extensive use in Computational Anatomy applied studies. This limitation has been treated independently by the problem formulation in the space of band-limited vector fields and Semi-Lagrangian integration. The purpose of this work is to combine both in three variants of band-limited PDE-constrained LDDMM for further increasing their computational efficiency. The accuracy of the resulting methods is evaluated extensively. For all the variants, the proposed combined approach shows a significant increment of the computational efficiency. In addition, the variant based on the deformation state equation is positioned consistently as the best performing method across all the evaluation frameworks in terms of accuracy and efficiency.
翻訳日:2022-11-23 06:25:33 公開日:2020-06-10
# ハンドヘルドデバイスを用いた野生のリアルタイム単一画像奥行き知覚

Real-time single image depth perception in the wild with handheld devices ( http://arxiv.org/abs/2006.05724v1 )

ライセンス: Link先を確認
Filippo Aleotti, Giulio Zaccaroni, Luca Bartolomei, Matteo Poggi, Fabio Tosi, Stefano Mattoccia(参考訳) 深度知覚は、自動運転から消費者アプリケーションまで、現実世界の問題に取り組む上で最も重要である。 後者では、標準カメラはほとんどのハンドヘルドデバイスで利用できるため、単一の画像からの深度推定が最も多用途なソリューションである。 それでも、主な問題は2つある。 一 被配備時の信頼性の低いもの 二 リアルタイムな性能を達成するために要求される資源要件であって、しばしばそのような装置と互換性がないこと。 そこで,本稿では,ネットワーク設計とトレーニング戦略の適切な適用方法と,ハンドヘルドデバイスにネットワークをマップしてリアルタイムのパフォーマンスを実現する方法について,これらの課題を深く検討する。 我々の徹底的な評価は、このような高速ネットワークが新しい環境にうまく適応できる能力を強調しており、これは実際のアプリケーションで直面する極めて多様な状況に対処するために必要な重要な機能である。 実際、この証拠をさらに裏付けるために、リアルタイムの奥行き認識拡張現実とスマートフォンによる画像のぼやけに関する実験結果を報告します。

Depth perception is paramount to tackle real-world problems, ranging from autonomous driving to consumer applications. For the latter, depth estimation from a single image represents the most versatile solution, since a standard camera is available on almost any handheld device. Nonetheless, two main issues limit its practical deployment: i) the low reliability when deployed in-the-wild and ii) the demanding resource requirements to achieve real-time performance, often not compatible with such devices. Therefore, in this paper, we deeply investigate these issues showing how they are both addressable adopting appropriate network design and training strategies -- also outlining how to map the resulting networks on handheld devices to achieve real-time performance. Our thorough evaluation highlights the ability of such fast networks to generalize well to new environments, a crucial feature required to tackle the extremely varied contexts faced in real applications. Indeed, to further support this evidence, we report experimental results concerning real-time depth-aware augmented reality and image blurring with smartphones in-the-wild.
翻訳日:2022-11-23 06:19:34 公開日:2020-06-10
# 甲状腺癌の超音波診断における人工知能の役割 : 過去・現在・未来

A systematic review on the role of artificial intelligence in sonographic diagnosis of thyroid cancer: Past, present and future ( http://arxiv.org/abs/2006.05861v1 )

ライセンス: Link先を確認
Fatemeh Abdolali, Atefeh Shahroudnejad, Abhilash Rakkunedeth Hareendranathan, Jacob L Jaremko, Michelle Noga, Kumaradevan Punithakumar(参考訳) 甲状腺癌は世界中で一般的であり、近年は北米全域で急速に流行している。 ほとんどの患者は身体検査により触覚性結節を呈するが,超音波検査により中小結節が多数検出された。 疑わしい結節は微細な針刺しによって生検される。 生検は侵襲的であり、時には決定的ではないため、様々な研究グループがコンピュータ支援診断システムの開発を試みた。 これらの線に沿った初期のアプローチは、放射線科医が手動で特定した臨床的に関連する特徴に依存していた。 最近のai(artificial intelligence)の成功により、甲状腺超音波のこれらの特徴を自動で識別するための様々な新しい方法が開発されている。 本稿では,甲状腺癌の超音波診断におけるAI応用の現状を体系的に検討する。 本総説は甲状腺癌の診断に利用できるテクニックの方法論に基づく分類である。 このレビューには50以上の論文が含まれており、甲状腺悪性腫瘍の超音波診断分野の動向と課題を考察し、超音波検査が甲状腺癌診断の将来に与える影響を高めるためのコンピュータ支援診断の可能性について考察する。 マシンラーニングは、将来の甲状腺癌診断フレームワークの開発において、引き続き基本的な役割を果たす。

Thyroid cancer is common worldwide, with a rapid increase in prevalence across North America in recent years. While most patients present with palpable nodules through physical examination, a large number of small and medium-sized nodules are detected by ultrasound examination. Suspicious nodules are then sent for biopsy through fine needle aspiration. Since biopsies are invasive and sometimes inconclusive, various research groups have tried to develop computer-aided diagnosis systems. Earlier approaches along these lines relied on clinically relevant features that were manually identified by radiologists. With the recent success of artificial intelligence (AI), various new methods are being developed to identify these features in thyroid ultrasound automatically. In this paper, we present a systematic review of state-of-the-art on AI application in sonographic diagnosis of thyroid cancer. This review follows a methodology-based classification of the different techniques available for thyroid cancer diagnosis. With more than 50 papers included in this review, we reflect on the trends and challenges of the field of sonographic diagnosis of thyroid malignancies and potential of computer-aided diagnosis to increase the impact of ultrasound applications on the future of thyroid cancer diagnosis. Machine learning will continue to play a fundamental role in the development of future thyroid cancer diagnosis frameworks.
翻訳日:2022-11-23 06:19:16 公開日:2020-06-10
# WasteNet:スマートビンのエッジにおける廃棄物分類

WasteNet: Waste Classification at the Edge for Smart Bins ( http://arxiv.org/abs/2006.05873v1 )

ライセンス: Link先を確認
Gary White, Christian Cabrera, Andrei Palade, Fan Li, Siobhan Clarke(参考訳) スマートビンは世界中のスマートシティやキャンパスで人気を集めている。 これらのビンは圧縮機構を備えており、ビンの容量を増大させ、リアルタイムコレクション通知を自動化する。 本稿では,Jetson Nano などのネットワーク端の低消費電力デバイスに展開可能な畳み込みニューラルネットワークに基づく廃棄物分類モデルである WasteNet を提案する。 廃棄物を隔離する問題は、世界中の多くの国にとって大きな課題である。 エッジでの廃棄物の自動分類は、クラウドへのアクセスを必要とせずに、スマートビンのインテリジェントな意思決定を可能にする。 廃棄物は紙、段ボール、ガラス、金属、プラスチックなど6つのカテゴリーに分類される。 本モデルでは,テストデータセット上で97\%の予測精度を実現する。 この分類精度のレベルは、リサイクル汚染などの一般的なスマートビン問題を軽減するのに役立つだろう。 また、スマートビンが決定をすることができるので、市民が正しいビンにゴミを捨てることを心配する必要がなくなるため、よりユーザーフレンドリーなビンも利用できる。

Smart Bins have become popular in smart cities and campuses around the world. These bins have a compaction mechanism that increases the bins' capacity as well as automated real-time collection notifications. In this paper, we propose WasteNet, a waste classification model based on convolutional neural networks that can be deployed on a low power device at the edge of the network, such as a Jetson Nano. The problem of segregating waste is a big challenge for many countries around the world. Automated waste classification at the edge allows for fast intelligent decisions in smart bins without needing access to the cloud. Waste is classified into six categories: paper, cardboard, glass, metal, plastic and other. Our model achieves a 97\% prediction accuracy on the test dataset. This level of classification accuracy will help to alleviate some common smart bin problems, such as recycling contamination, where different types of waste become mixed with recycling waste causing the bin to be contaminated. It also makes the bins more user friendly as citizens do not have to worry about disposing their rubbish in the correct bin as the smart bin will be able to make the decision for them.
翻訳日:2022-11-23 06:19:00 公開日:2020-06-10
# サルコニア評価のためのCT画像からの完全自動ディープラーニングスライス筋推定

Fully-automated deep learning slice-based muscle estimation from CT images for sarcopenia assessment ( http://arxiv.org/abs/2006.06432v1 )

ライセンス: Link先を確認
Fahdi Kanavati, Shah Islam, Zohaib Arain, Eric O. Aboagye, Andrea Rockall(参考訳) 目的: 完全自動スライス法による筋量測定における深層学習法の有効性を実証するため, 症例除外基準を満たさずに腹部ct検査にて検討した。 材料と方法: この振り返り研究は, パブリックおよびプライベートに利用可能なCT画像集(n = 1070)を用いて行った。 方法はCTボリュームからのスライス検出と単スライスCTセグメンテーションの2段階からなる。 どちらも完全な畳み込みニューラルネットワーク(FCNN)を使用しており、UNetのようなアーキテクチャに基づいている。 入力データは様々な視野を持つCTボリュームで構成されていた。 出力は、l3椎骨のレベルでctスライス上の分節された筋肉塊から成っていた。 筋肉の塊は、直立性スピナエ、腰痛、腹直筋のグループに分けられる。 出力は、エキスパート・アノテータによって手動の地中セグメンテーションに対してテストされた。 結果: 提案手法の評価には3倍のクロスバリデーションを用いた。 スライス検出クロス検証誤差は 1.41+-5.02 であった。 セグメンテーションクロスバリデーションDiceのオーバーラップは, erector spinae, psoas, rectus abdominusそれぞれ0.97+-0.02, 0.95+-0.04, 0.94+-0.04, 複合筋量0.96+-0.02であった。 結語: サルコパニアのスライスに基づく分析を行うために, CTスライスと分節筋量を検出するディープラーニングアプローチは有効かつ有望なアプローチである。 さまざまな視野,閉塞,スライス厚さを有するCTボリュームのスライスを高精度かつ効率的に検出するために,FCNNを用いた。

Objective: To demonstrate the effectiveness of using a deep learning-based approach for a fully automated slice-based measurement of muscle mass for assessing sarcopenia on CT scans of the abdomen without any case exclusion criteria. Materials and Methods: This retrospective study was conducted using a collection of public and privately available CT images (n = 1070). The method consisted of two stages: slice detection from a CT volume and single-slice CT segmentation. Both stages used Fully Convolutional Neural Networks (FCNN) and were based on a UNet-like architecture. Input data consisted of CT volumes with a variety of fields of view. The output consisted of a segmented muscle mass on a CT slice at the level of L3 vertebra. The muscle mass is segmented into erector spinae, psoas, and rectus abdominus muscle groups. The output was tested against manual ground-truth segmentation by an expert annotator. Results: 3-fold cross validation was used to evaluate the proposed method. The slice detection cross validation error was 1.41+-5.02 (in slices). The segmentation cross validation Dice overlaps were 0.97+-0.02, 0.95+-0.04, 0.94+-0.04 for erector spinae, psoas, and rectus abdominus, respectively, and 0.96+-0.02 for the combined muscle mass. Conclusion: A deep learning approach to detect CT slices and segment muscle mass to perform slice-based analysis of sarcopenia is an effective and promising approach. The use of FCNN to accurately and efficiently detect a slice in CT volumes with a variety of fields of view, occlusions, and slice thicknesses was demonstrated.
翻訳日:2022-11-23 06:18:21 公開日:2020-06-10
# ロボットパラレルプレイにおけるナッシュ平衡推論のためのベイズ的枠組み

A Bayesian Framework for Nash Equilibrium Inference in Human-Robot Parallel Play ( http://arxiv.org/abs/2006.05729v1 )

ライセンス: Link先を確認
Shray Bansal, Jin Xu, Ayanna Howard, Charles Isbell(参考訳) 我々は、並列プレイと呼ばれる独立した目標を達成するために行動する人間やロボットとのワークスペースシナリオの共有を検討する。 我々は,これらを汎用ゲームとしてモデル化し,nash均衡解の概念を活用したフレームワークを構築し,計画中の両エージェントの対話的効果を検討する。 これらのタスクには複数のpareto-optimal equilibriaがある。 我々は、人々が社会的規範と個性に基づいて均衡を選択することによって行動する、と仮定する。 協調を可能にするために, この2つの因子を含む確率モデルを用いてオンラインの平衡を推定し, ロボットの動作を選択する。 我々は、ロボットとシミュレーションされた人間の3つの潜在的な行動 - 防御、自尊心、規範的追跡 - を含む近近近性ピック・アンド・プレイス・タスクに適用する。 本研究では, 平衡推定にベイズ的手法を用いることで, 衝突回数の半分未満でタスクを完了できると同時に, 最適なベースラインと比較してタスク実行時間を短縮できることを示した。 また,他の人間や異なるロボットエージェントと対話する人間と実験を行い,提案手法が人間と人間の並列プレイインタラクションと類似していることを確認した。 コードはhttps://github.com/shray/bayes-nashで入手できる。

We consider shared workspace scenarios with humans and robots acting to achieve independent goals, termed as parallel play. We model these as general-sum games and construct a framework that utilizes the Nash equilibrium solution concept to consider the interactive effect of both agents while planning. We find multiple Pareto-optimal equilibria in these tasks. We hypothesize that people act by choosing an equilibrium based on social norms and their personalities. To enable coordination, we infer the equilibrium online using a probabilistic model that includes these two factors and use it to select the robot's action. We apply our approach to a close-proximity pick-and-place task involving a robot and a simulated human with three potential behaviors - defensive, selfish, and norm-following. We showed that using a Bayesian approach to infer the equilibrium enables the robot to complete the task with less than half the number of collisions while also reducing the task execution time as compared to the best baseline. We also performed a study with human participants interacting either with other humans or with different robot agents and observed that our proposed approach performs similar to human-human parallel play interactions. The code is available at https://github.com/shray/bayes-nash
翻訳日:2022-11-23 06:17:53 公開日:2020-06-10
# 自律運転エージェントの一般化能力向上のための時系列生成モデルを用いた確率的交通環境の開発

Development of A Stochastic Traffic Environment with Generative Time-Series Models for Improving Generalization Capabilities of Autonomous Driving Agents ( http://arxiv.org/abs/2006.05821v1 )

ライセンス: Link先を確認
Anil Ozturk, Mustafa Burak Gunel, Melih Dal, Ugur Yavas, Nazim Kemal Ure(参考訳) 自動車線変更は、先進的な自動運転システムにとって重要な特徴である。 近年,交通シミュレータをトレーニングした強化学習(RL)アルゴリズムは,安全性,アジリティ,交通の不確実性補償のバランスを崩す車線変更ポリシの計算に成功している。 しかし、多くのRLアルゴリズムはシミュレータバイアスを示し、単純なシミュレータで訓練されたポリシーは現実的な交通シナリオに適さない。 本研究では,実生活軌跡データに対してgan(generative adverserial network)を訓練し,データ駆動トラヒックシミュレータを開発した。 シミュレータは、車両間の実生活の交通相互作用に似たランダムな軌道を生成し、よりリッチで現実的なシナリオでRLエージェントを訓練することができる。 我々は,ganベースのトラヒックシミュレータで訓練されたrlエージェントが,単純なルール駆動シミュレータで訓練されたrlエージェントよりも一般化能力が高いことをシミュレーションにより実証する。

Automated lane changing is a critical feature for advanced autonomous driving systems. In recent years, reinforcement learning (RL) algorithms trained on traffic simulators yielded successful results in computing lane changing policies that strike a balance between safety, agility and compensating for traffic uncertainty. However, many RL algorithms exhibit simulator bias and policies trained on simple simulators do not generalize well to realistic traffic scenarios. In this work, we develop a data driven traffic simulator by training a generative adverserial network (GAN) on real life trajectory data. The simulator generates randomized trajectories that resembles real life traffic interactions between vehicles, which enables training the RL agent on much richer and realistic scenarios. We demonstrate through simulations that RL agents that are trained on GAN-based traffic simulator has stronger generalization capabilities compared to RL agents trained on simple rule-driven simulators.
翻訳日:2022-11-23 06:17:32 公開日:2020-06-10
# 脳誘発超次元計算型分類器の逆攻撃

Adversarial Attacks on Brain-Inspired Hyperdimensional Computing-Based Classifiers ( http://arxiv.org/abs/2006.05594v1 )

ライセンス: Link先を確認
Fangfang Yang and Shaolei Ren(参考訳) 脳にインスパイアされた超次元コンピューティング(HDC)は、新しいインメモリコンピューティングアーキテクチャのクラスであり、脳の認知を模倣し、ランダムなハイパーベクトル(数千以上の次元を持つベクトル)を活用して特徴を表現し、分類タスクを実行する。 独自のハイパーベクトル表現により、HDC分類器は高いエネルギー効率、低推論遅延、ハードウェアによるビットエラーに対する強い堅牢性を示すことができる。 その結果、特に低電力のモノのインターネットデバイスにおいて、従来のディープニューラルネットワーク(dnn)をローカルなオンデバイス分類に置き換える、あるいは置き換える魅力的な選択肢として認識されるようになった。 それにもかかわらず、HDC分類器の最先端の設計は、DNNのものと異なり、安全と敵の入力に対する免疫に疑念を抱いている。 本稿では,HDC分類器に対する敵対攻撃を初めて検討し,HDC分類器が最小摂動対向サンプルに対して脆弱であることを示す。 具体的には、手書きの数字分類を例として、hdc分類器を構築し、ターゲットのhdc分類器を誤解して誤った予測ラベルを生成することを目標とするグレイボックス攻撃問題を、付加摂動ノイズを極力少なく抑えながら定式化する。 そこで本研究では,比較的少数のクエリにおいて,対数サンプルを生成する遺伝的アルゴリズムを提案する。 その結果,提案アルゴリズムが生成した敵対画像は,HDC分類器を誤誘導して高い確率で誤予測ラベルを生成することができた(HDC分類器が決定に一定の多数決ルールを使用する場合の78%)。 最後に,hdc分類器のセキュリティを強化するために,攻撃的訓練と再訓練という2つの防御戦略も提示する。

Being an emerging class of in-memory computing architecture, brain-inspired hyperdimensional computing (HDC) mimics brain cognition and leverages random hypervectors (i.e., vectors with a dimensionality of thousands or even more) to represent features and to perform classification tasks. The unique hypervector representation enables HDC classifiers to exhibit high energy efficiency, low inference latency and strong robustness against hardware-induced bit errors. Consequently, they have been increasingly recognized as an appealing alternative to or even replacement of traditional deep neural networks (DNNs) for local on device classification, especially on low-power Internet of Things devices. Nonetheless, unlike their DNN counterparts, state-of-the-art designs for HDC classifiers are mostly security-oblivious, casting doubt on their safety and immunity to adversarial inputs. In this paper, we study for the first time adversarial attacks on HDC classifiers and highlight that HDC classifiers can be vulnerable to even minimally-perturbed adversarial samples. Concretely, using handwritten digit classification as an example, we construct a HDC classifier and formulate a grey-box attack problem, where an attacker's goal is to mislead the target HDC classifier to produce erroneous prediction labels while keeping the amount of added perturbation noise as little as possible. Then, we propose a modified genetic algorithm to generate adversarial samples within a reasonably small number of queries. Our results show that adversarial images generated by our algorithm can successfully mislead the HDC classifier to produce wrong prediction labels with a high probability (i.e., 78% when the HDC classifier uses a fixed majority rule for decision). Finally, we also present two defense strategies -- adversarial training and retraining-- to strengthen the security of HDC classifiers.
翻訳日:2022-11-23 06:16:36 公開日:2020-06-10
# 量子コンピューティングのユースケース構築のための標準化手法に向けて

Toward a standardized methodology for constructing quantum computing use cases ( http://arxiv.org/abs/2006.05846v1 )

ライセンス: Link先を確認
Nicholas Chancellor, Robert Cumming, Tim Thomas(参考訳) 本稿では,量子コンピュータと量子インスピレーション方式のユースケースの開発と評価のための標準化手法を提案する。 この方法論は、与えられたアプリケーションにおいて量子コンピューティングがどのように、そして実際にどのように役割を果たせるかを決定するために要求される、標準化された一連の質問からなる。 このような質問セットの開発は、各ケースをアドホックベースで考慮するのではなく、さまざまなユースケースを公平かつ客観的に評価することができるため、ユースケースの肯定性を重視しつつ、弱点を無視する評価につながる可能性があるため、重要である。 提案手法を具体的ユースケース,救急隊の派遣に適用し,短期的な量子コンピューティングを賢明に展開する方法がいくつかあること,また,その使用を推奨しないケースもいくつかあることを明らかにする。 本研究の目的は,量子コンピューティング研究者と潜在的なエンドユーザの間で,現実世界のユースケースを開発する際にどのような質問をすべきかという対話を開始することである。

We propose a standardized methodology for developing and evaluating use cases for quantum computers and quantum inspired methods. This methodology consists of a standardized set of questions which should be asked to determine how and indeed if, near term quantum computing can play a role in a given application. Developing such a set of questions is important because it allows different use cases to be evaluated in a fair and objective way, rather than considering each case on an ad hoc basis which could lead to an evaluation which focuses on positives of a use case, while ignoring weaknesses. To demonstrate our methodology we apply it to a concrete use case, ambulance dispatch, and find that there are some ways in which near term quantum computing could be deployed sensibly, but also demonstrate some cases ways in which its use would not be advised. The purpose of this paper is to initiate a dialogue within the community of quantum computing scientists and potential end users on what questions should be asked when developing real world use cases.
翻訳日:2022-11-23 06:10:39 公開日:2020-06-10
# 最適化モデルにおける公平性と効率のバランス

Balancing Fairness and Efficiency in an Optimization Model ( http://arxiv.org/abs/2006.05963v1 )

ライセンス: Link先を確認
Violet Xinying Chen, J.N. Hooker(参考訳) 最適化モデルは一般的に、全利益の最大化やコストの最小化によって効率性を目指している。 しかし、公平性と効率性のトレードオフは多くの実用的な決定の重要な要素である。 最適化モデルにおいて,これら2つの基準のバランスをとるための原理的かつ実用的な手法を提案する。 既存の制度の批判的評価に続いて, ロールス・レキシマックスフェアネスと有効性主義を組み合わせた社会福祉関数(swfs)のセットを定義し, これまでのアプローチの弱点を克服する。 特に、実践的な文脈で意味のある解釈を持つ単一のパラメータで、株式/効率トレードオフを規制する。 混合整数制約を用いてSWFを定式化し、その問題を定義する制約を順次最大化する。 実践的なステップバイステップの指導を行った後,医療資源の配分と災害対応に関わる現実的な規模の問題に関する手法を実証する。 解の時間は控えめで、トレードオフパラメータの与えられた値に対して1秒から18秒の範囲である。

Optimization models generally aim for efficiency by maximizing total benefit or minimizing cost. Yet a trade-off between fairness and efficiency is an important element of many practical decisions. We propose a principled and practical method for balancing these two criteria in an optimization model. Following a critical assessment of existing schemes, we define a set of social welfare functions (SWFs) that combine Rawlsian leximax fairness and utilitarianism and overcome some of the weaknesses of previous approaches. In particular, we regulate the equity/efficiency trade-off with a single parameter that has a meaningful interpretation in practical contexts. We formulate the SWFs using mixed integer constraints and sequentially maximize them subject to constraints that define the problem at hand. After providing practical step-by-step instructions for implementation, we demonstrate the method on problems of realistic size involving healthcare resource allocation and disaster preparation. The solution times are modest, ranging from a fraction of a second to 18 seconds for a given value of the trade-off parameter.
翻訳日:2022-11-23 06:10:22 公開日:2020-06-10
# 分散人工知能を用いたドメイン知識のない電力網・ICT・市場分析

Analyzing Power Grid, ICT, and Market Without Domain Knowledge Using Distributed Artificial Intelligence ( http://arxiv.org/abs/2006.06074v1 )

ライセンス: Link先を確認
Eric MSP Veith, Stephan Balduin, Nils Wenninghoff, Martin Tr\"oschel, Lars Fischer, Astrid Nie{\ss}e, Thomas Wolgast, Richard Sethmann, Bastian Fraune, Torben Woltjen(参考訳) 私たちのエネルギーインフラのような現代のサイバー物理システム(cps)はますます複雑になってきている。人工知能(ai)ベースの技術は、運用の最適化、コスト効率、世界中のco2目標を達成するために、エネルギーシステムの情報通信技術(ict)ファセットを使用する。 同時に、柔軟性が増し、貿易の地平がずっと短い市場は、この状況で現われている複数株主の状況を可能にする。 これらのシステムは依然として高い信頼性で実行する必要がある重要なインフラを形成している。 しかし、今日のCPSは従来のモノリシックなアプローチでは、電力網やICT、エネルギー市場といった各ドメインが依存や副作用を無視しながら独立したエンティティと見なされるほど複雑になってきている。 全体分析を実現するために,分散人工知能を自己適応分析ツールとして,攻撃によってCPS内のドメイン間の依存関係を解析できる概念を紹介した。 事前に設定されたドメイン知識を駆使し、CPSドメインを急激なリスク状況とコーディックの悪用可能な抜け穴のために探索し、市場ルールに従いながらシステムを利用する合理的な市場アクターに焦点を当てる。

Modern cyber-physical systems (CPS), such as our energy infrastructure, are becoming increasingly complex: An ever-higher share of Artificial Intelligence (AI)-based technologies use the Information and Communication Technology (ICT) facet of energy systems for operation optimization, cost efficiency, and to reach CO2 goals worldwide. At the same time, markets with increased flexibility and ever shorter trade horizons enable the multi-stakeholder situation that is emerging in this setting. These systems still form critical infrastructures that need to perform with highest reliability. However, today's CPS are becoming too complex to be analyzed in the traditional monolithic approach, where each domain, e.g., power grid and ICT as well as the energy market, are considered as separate entities while ignoring dependencies and side-effects. To achieve an overall analysis, we introduce the concept for an application of distributed artificial intelligence as a self-adaptive analysis tool that is able to analyze the dependencies between domains in CPS by attacking them. It eschews pre-configured domain knowledge, instead exploring the CPS domains for emergent risk situations and exploitable loopholes in codices, with a focus on rational market actors that exploit the system while still following the market rules.
翻訳日:2022-11-23 06:10:08 公開日:2020-06-10
# 雇用パフォーマンス、個性、認知能力、効果、幸福感を共同予測する

Jointly Predicting Job Performance, Personality, Cognitive Ability, Affect, and Well-Being ( http://arxiv.org/abs/2006.08364v1 )

ライセンス: Link先を確認
Pablo Robles-Granda, Suwen Lin, Xian Wu, Sidney D'Mello, Gonzalo J. Martinez, Koustuv Saha, Kari Nies, Gloria Mark, Andrew T. Campbell, Munmun De Choudhury, Anind D. Dey, Julie Gregg, Ted Grover, Stephen M. Mattingly, Shayan Mirjafari, Edward Moskal, Aaron Striegel, Nitesh V. Chawla(参考訳) ジョブパフォーマンス、パーソナライズドヘルス、心理測定指標の評価は、データ駆動型およびユビキタスコンピューティングが将来に大きな影響を与える可能性を示す領域である。 既存の技術では、アンケートやセンサー(ウェアラブル、コンピュータなど)から抽出したデータを使って、個人の幸福感や認知特性を評価する。 しかし、これらの手法は個人の幸福感や心理的特性をグローバルに予測することができないし、不完全で騒がしいデータを処理する際の課題も考慮できない。 本稿では,身体的および生理的行動,心理状態と特性,仕事のパフォーマンスなどを統合する視点から,個人の予測分析のためのベンチマークを作成する。 データマイニング手法をベンチマークとして設計し,ウェアラブルセンサから得られた実ノイズと不完全なデータを用いて,12の標準化された評価テストに基づいて19のコンストラクタを予測した。 調査対象は、米国全土の知識労働者で、様々な役割を持つ757人であった。 検討中の19変数それぞれに有意な予測因子を抽出するデータマイニングフレームワークを開発した。 我々のモデルは、ウェアラブル、モバイル、ソーシャルメディアソースからの真の未処理データを活用することで、これらの様々な楽器由来の変数を単一のフレームワークで組み合わせた最初のベンチマークである。 縦断研究から得られたデータを用いて実験的に検証した。 その結果,本フレームワークは信頼性が保たれ,不完全データに制限された場合のベースラインよりも高い精度で学習中の変数を予測できることがわかった。

Assessment of job performance, personalized health and psychometric measures are domains where data-driven and ubiquitous computing exhibits the potential of a profound impact in the future. Existing techniques use data extracted from questionnaires, sensors (wearable, computer, etc.), or other traits, to assess well-being and cognitive attributes of individuals. However, these techniques can neither predict individual's well-being and psychological traits in a global manner nor consider the challenges associated to processing the data available, that is incomplete and noisy. In this paper, we create a benchmark for predictive analysis of individuals from a perspective that integrates: physical and physiological behavior, psychological states and traits, and job performance. We design data mining techniques as benchmark and uses real noisy and incomplete data derived from wearable sensors to predict 19 constructs based on 12 standardized well-validated tests. The study included 757 participants who were knowledge workers in organizations across the USA with varied work roles. We developed a data mining framework to extract the meaningful predictors for each of the 19 variables under consideration. Our model is the first benchmark that combines these various instrument-derived variables in a single framework to understand people's behavior by leveraging real uncurated data from wearable, mobile, and social media sources. We verify our approach experimentally using the data obtained from our longitudinal study. The results show that our framework is consistently reliable and capable of predicting the variables under study better than the baselines when prediction is restricted to the noisy, incomplete data.
翻訳日:2022-11-23 06:09:45 公開日:2020-06-10
# PeopleMap:自然言語処理を用いた研究者のマッピングのための可視化ツール

PeopleMap: Visualization Tool for Mapping Out Researchers using Natural Language Processing ( http://arxiv.org/abs/2006.06105v1 )

ライセンス: Link先を確認
Jon Saad-Falcon, Omar Shaikh, Zijie J. Wang, Austin P. Wright, Sasha Richardson, Duen Horng Chau(参考訳) 機関における研究専門知識の発見は難しい作業である。 研究者の興味や過去の研究を理解するために必要な情報が不足し、機関における研究の多様性を探求し、研究人材を特定することが困難になることが多い。 その結果、内部と外部の両方が新しいつながりを発見し、研究協力を育む機会を失った。 この問題を解決するために我々は,自然言語処理(NLP)技術による埋め込みを利用して,研究者の興味や出版物に基づいて視覚的に"マップアウト"する,インタラクティブでオープンソースのWebベースのツールであるPeopleMapを開発した。 PeopleMapは、研究の才能を要約し、人びとが新しいつながりを発見するための、新しいエンゲージメントな方法を提供する。 プラットフォームは使いやすさと持続可能性を考慮して開発されている。 研究者のGoogle Scholarプロファイルのみを入力として使用することで、PeopleMapは、公開アクセス可能なリポジトリと詳細なドキュメントを使用して、任意の機関で簡単に採用することができる。

Discovering research expertise at institutions can be a difficult task. Manually curated university directories easily become out of date and they often lack the information necessary for understanding a researcher's interests and past work, making it harder to explore the diversity of research at an institution and identify research talents. This results in lost opportunities for both internal and external entities to discover new connections and nurture research collaboration. To solve this problem, we have developed PeopleMap, the first interactive, open-source, web-based tool that visually "maps out" researchers based on their research interests and publications by leveraging embeddings generated by natural language processing (NLP) techniques. PeopleMap provides a new engaging way for institutions to summarize their research talents and for people to discover new connections. The platform is developed with ease-of-use and sustainability in mind. Using only researchers' Google Scholar profiles as input, PeopleMap can be readily adopted by any institution using its publicly-accessible repository and detailed documentation.
翻訳日:2022-11-23 06:08:14 公開日:2020-06-10
# 災害影響評価のためのオープンデータを用いた深層学習による空中画像分割

Deep Learning-based Aerial Image Segmentation with Open Data for Disaster Impact Assessment ( http://arxiv.org/abs/2006.05575v1 )

ライセンス: Link先を確認
Ananya Gupta, Simon Watson, Hujun Yin(参考訳) 衛星画像は、ハリケーンや津波などの自然災害の余波の中で非常に貴重な資源であり、リスク評価や災害管理に利用することができる。 本稿では,災害対応のためのタイムリーかつ実用的な情報を提供するために,災害後のシナリオにおいて,影響地域やアクセス可能な道路を特定するためにセグメンテーションニューラルネットワークを利用するフレームワークを提案する。 航空画像セグメンテーションの課題に対するImageNetによる事前トレーニングの有効性を解析し,一般的なセグメンテーションモデルの性能を比較した。 実験の結果、imagenetでの事前トレーニングは、多くのモデルのセグメンテーション性能を改善することが示されている。 openstreetmap (osm) から入手可能なオープンデータはトレーニングに使用され、時間を要する手動アノテーションの必要性を回避している。 また,OSMから利用可能な道路ネットワークデータを更新し,自然災害による変化を検出するためにグラフ理論を利用する。 インドネシア・パルーで発生した2018年津波のデータに関する広範囲な実験により,提案手法の有効性が示された。 ENetSeparableは、ENetに比べて30%少ないパラメータで、最先端のネットワークと同等のセグメンテーション結果を得た。

Satellite images are an extremely valuable resource in the aftermath of natural disasters such as hurricanes and tsunamis where they can be used for risk assessment and disaster management. In order to provide timely and actionable information for disaster response, in this paper a framework utilising segmentation neural networks is proposed to identify impacted areas and accessible roads in post-disaster scenarios. The effectiveness of pretraining with ImageNet on the task of aerial image segmentation has been analysed and performances of popular segmentation models compared. Experimental results show that pretraining on ImageNet usually improves the segmentation performance for a number of models. Open data available from OpenStreetMap (OSM) is used for training, forgoing the need for time-consuming manual annotation. The method also makes use of graph theory to update road network data available from OSM and to detect the changes caused by a natural disaster. Extensive experiments on data from the 2018 tsunami that struck Palu, Indonesia show the effectiveness of the proposed framework. ENetSeparable, with 30% fewer parameters compared to ENet, achieved comparable segmentation results to that of the state-of-the-art networks.
翻訳日:2022-11-23 06:07:55 公開日:2020-06-10
# ソーシャル画像検索のための二重レベル意味伝達深度ハッシュ

Dual-level Semantic Transfer Deep Hashing for Efficient Social Image Retrieval ( http://arxiv.org/abs/2006.05586v1 )

ライセンス: Link先を確認
Lei Zhu, Hui Cui, Zhiyong Cheng, Jingjing Li, Zheng Zhang(参考訳) ソーシャルネットワークは膨大な量のユーザー共有画像を保存し、広める。 deep hashingは、その深い表現能力、検索速度の速さ、ストレージコストの低さから、大規模なソーシャルイメージ検索をサポートする効率的なインデックス技術である。 特に教師なしのディープハッシュは、トレーニングのために手作業によるラベル付きデータを必要としないため、スケーラビリティに優れています。 しかし、ラベルガイダンスの欠如により、既存の手法は、大量のディープニューラルネットワークパラメータを最適化する際、深刻な意味不足に悩まされる。 そこで本稿では,DSTDH(Dual-level Semantic Transfer Deep Hashing)手法を提案する。 本モデルは,ソーシャルイメージに関連付けられたユーザ生成タグを特別に活用することにより,意味的に強化された深層ハッシュコードの学習を目標とする。 具体的には,タグの潜在的なセマンティクスを効率的に発見し,それらをバイナリハッシュコードにシームレスに転送するために,補完的なデュアルレベルセマンティクス転送機構を設計する。 一方、インスタンスレベルのセマンティクスは、関連するタグからハッシュコードに直接保存され、ノイズ除去される。 また、画像とタグの潜在高階意味相関をハッシュコードに間接的に転送する画像概念ハイパーグラフを構築する。 さらに、離散ハッシュ最適化戦略により、深層表現学習と同時にハッシュ符号を得る。 2つの公開社会画像検索データセットの大規模な実験により,最先端のハッシュ法と比較して,提案手法の優れた性能が検証された。 我々の手法のソースコードはhttps://github.com/research2020-1/DSTDHで取得できる。

Social network stores and disseminates a tremendous amount of user shared images. Deep hashing is an efficient indexing technique to support large-scale social image retrieval, due to its deep representation capability, fast retrieval speed and low storage cost. Particularly, unsupervised deep hashing has well scalability as it does not require any manually labelled data for training. However, owing to the lacking of label guidance, existing methods suffer from severe semantic shortage when optimizing a large amount of deep neural network parameters. Differently, in this paper, we propose a Dual-level Semantic Transfer Deep Hashing (DSTDH) method to alleviate this problem with a unified deep hash learning framework. Our model targets at learning the semantically enhanced deep hash codes by specially exploiting the user-generated tags associated with the social images. Specifically, we design a complementary dual-level semantic transfer mechanism to efficiently discover the potential semantics of tags and seamlessly transfer them into binary hash codes. On the one hand, instance-level semantics are directly preserved into hash codes from the associated tags with adverse noise removing. Besides, an image-concept hypergraph is constructed for indirectly transferring the latent high-order semantic correlations of images and tags into hash codes. Moreover, the hash codes are obtained simultaneously with the deep representation learning by the discrete hash optimization strategy. Extensive experiments on two public social image retrieval datasets validate the superior performance of our method compared with state-of-the-art hashing methods. The source codes of our method can be obtained at https://github.com/research2020-1/DSTDH
翻訳日:2022-11-23 06:07:39 公開日:2020-06-10
# 顔への音声融合:人間の声の特徴と顔画像のギャップを埋める

Speech Fusion to Face: Bridging the Gap Between Human's Vocal Characteristics and Facial Imaging ( http://arxiv.org/abs/2006.05888v1 )

ライセンス: Link先を確認
Yeqi Bai, Tao Ma, Lipo Wang, Zhenjie Zhang(参考訳) 深層学習技術は、人間を混乱させる現実的なイメージを生成することができる一方で、研究はより具体的でアプリケーション固有の目的のために画像の合成に目を向けている。 音声の発声特性に基づく顔画像生成は重要な課題の一つである。 これは、特に公共の安全とエンターテイメントのビジネスにおいて、画像生成の影響力のあるユースケースの鍵となる。 speech2faceの問題に対する既存の解決策は、限られた画像品質をレンダリングし、トレーニングのための品質データセットの欠如と声の特徴の適切な統合のために、顔の類似性を保たない。 本稿では、これらの重要な技術的課題を考察し、顔への音声融合(sf2f)を提案し、顔画像の品質問題と音声特徴領域と現代の画像生成モデルとの接続の貧弱さについて考察する。 データモデルとトレーニングに関する新たな戦略を採用することで、個々のアイデンティティのリコールを倍にし、VGGFace分類器による相互情報スコアに基づいて品質スコアを15から19に引き上げることで、最先端ソリューションに対する劇的なパフォーマンス向上を示す。

While deep learning technologies are now capable of generating realistic images confusing humans, the research efforts are turning to the synthesis of images for more concrete and application-specific purposes. Facial image generation based on vocal characteristics from speech is one of such important yet challenging tasks. It is the key enabler to influential use cases of image generation, especially for business in public security and entertainment. Existing solutions to the problem of speech2face renders limited image quality and fails to preserve facial similarity due to the lack of quality dataset for training and appropriate integration of vocal features. In this paper, we investigate these key technical challenges and propose Speech Fusion to Face, or SF2F in short, attempting to address the issue of facial image quality and the poor connection between vocal feature domain and modern image generation models. By adopting new strategies on data model and training, we demonstrate dramatic performance boost over state-of-the-art solution, by doubling the recall of individual identity, and lifting the quality score from 15 to 19 based on the mutual information score with VGGFace classifier.
翻訳日:2022-11-23 06:01:12 公開日:2020-06-10
# 3Dオブジェクトの最近の進歩とハンドポース推定

Recent Advances in 3D Object and Hand Pose Estimation ( http://arxiv.org/abs/2006.05927v1 )

ライセンス: Link先を確認
Vincent Lepetit(参考訳) 3dオブジェクトと手の位置推定は、現実の世界と仮想世界の境界を曖昧にするために、拡張現実にとって大きな可能性を秘めている。 本章では, カメラを用いた3次元物体・手動ポーズ推定の最近の展開について述べるとともに, その能力, 限界, 今後の発展について論じる。

3D object and hand pose estimation have huge potentials for Augmented Reality, to enable tangible interfaces, natural interfaces, and blurring the boundaries between the real and virtual worlds. In this chapter, we present the recent developments for 3D object and hand pose estimation using cameras, and discuss their abilities and limitations and the possible future development of the field.
翻訳日:2022-11-23 06:00:34 公開日:2020-06-10
# 小型物体検出用マルチレゾリューションアテンション抽出器

MultiResolution Attention Extractor for Small Object Detection ( http://arxiv.org/abs/2006.05941v1 )

ライセンス: Link先を確認
Fan Zhang, Licheng Jiao, Lingling Li, Fang Liu, and Xu Liu(参考訳) 小さなオブジェクトは、解像度が低く、サイズが小さいため、検出が難しい。 既存の小さなオブジェクト検出方法は、主にデータ前処理や、大きなオブジェクトと小さなオブジェクトの違いを狭めることに焦点を当てている。 人間の視覚"アテンション"機構に触発されて,2つの特徴抽出手法を用いて,小型物体の最も有用な情報をマイニングする。 どちらの手法もマルチレゾリューション特徴抽出に基づいている。 まず,ソフトアテンション法の設計と探索を行ったが,その収束速度は遅いことがわかった。 次に,マルチレゾリューションアテンション抽出器(mrae)と呼ばれるアテンションに基づく2番目のアテンションインタラクション法を提案する。 バニラ特徴抽出器の各ビルディングブロックの後に、注意重みを発生させるために小さなネットワークを付加し、次に重み付け操作を行い、最終的な注意マップを得る。 注意に基づく特徴抽出器は、COCO小物体検出ベンチマークの「ハード」な注意相手(プレーンアーキテクチャ)のAPの2.0倍であり、MRAEが適応学習を通じて有用な位置情報や文脈情報をキャプチャできることを示す。

Small objects are difficult to detect because of their low resolution and small size. The existing small object detection methods mainly focus on data preprocessing or narrowing the differences between large and small objects. Inspired by human vision "attention" mechanism, we exploit two feature extraction methods to mine the most useful information of small objects. Both methods are based on multiresolution feature extraction. We initially design and explore the soft attention method, but we find that its convergence speed is slow. Then we present the second method, an attention-based feature interaction method, called a MultiResolution Attention Extractor (MRAE), showing significant improvement as a generic feature extractor in small object detection. After each building block in the vanilla feature extractor, we append a small network to generate attention weights followed by a weighted-sum operation to get the final attention maps. Our attention-based feature extractor is 2.0 times the AP of the "hard" attention counterpart (plain architecture) on the COCO small object detection benchmark, proving that MRAE can capture useful location and contextual information through adaptive learning.
翻訳日:2022-11-23 06:00:09 公開日:2020-06-10
# 識別特徴の最大分離によるロバスト微粒化認識に向けて

Towards Robust Fine-grained Recognition by Maximal Separation of Discriminative Features ( http://arxiv.org/abs/2006.06028v1 )

ライセンス: Link先を確認
Krishna Kanth Nakka and Mathieu Salzmann(参考訳) 対人攻撃は一般的な分類作業のために広く研究されてきたが、クラス間の類似性によって攻撃者のタスクが促進される微粒化認識の文脈では未解明のままである。 本稿では,細粒度認識ネットワークにおける異なるクラスの潜在表現の近接を,敵の攻撃の成功の鍵となる要因として同定する。 そこで本研究では,非識別領域のクラス予測への寄与を最小限に抑えつつ,異なるクラスの識別潜在特徴を最大限に分離する,注意に基づく正規化機構を導入する。 実験によって証明されたように、敵の攻撃に対する堅牢性は、敵の訓練と一致またはそれ以上に向上するが、敵のサンプルへのアクセスは不要である。

Adversarial attacks have been widely studied for general classification tasks, but remain unexplored in the context of fine-grained recognition, where the inter-class similarities facilitate the attacker's task. In this paper, we identify the proximity of the latent representations of different classes in fine-grained recognition networks as a key factor to the success of adversarial attacks. We therefore introduce an attention-based regularization mechanism that maximally separates the discriminative latent features of different classes while minimizing the contribution of the non-discriminative regions to the final class prediction. As evidenced by our experiments, this allows us to significantly improve robustness to adversarial attacks, to the point of matching or even surpassing that of adversarial training, but without requiring access to adversarial samples.
翻訳日:2022-11-23 05:59:50 公開日:2020-06-10
# ニューラルネットワークにおけるスケーラブルなバックドア検出

Scalable Backdoor Detection in Neural Networks ( http://arxiv.org/abs/2006.05646v1 )

ライセンス: Link先を確認
Haripriya Harikumar, Vuong Le, Santu Rana, Sourangshu Bhattacharya, Sunil Gupta, and Svetha Venkatesh(参考訳) 近年、ディープラーニングモデルはトロイア攻撃に弱いことが示されており、攻撃者はトレーニング中にバックドアをインストールして、小さなトリガーパッチで汚染されたサンプルを誤識別させることができる。 現在のバックドア検出手法は良好な検出性能を達成できず、計算コストがかかる。 本稿では,計算複雑性がラベル数に比例せず,異なるネットワークタイプとパッチタイプにまたがって解釈可能かつ普遍的な尺度に基づく,トリガーリバースエンジニアリングに基づく新しい手法を提案する。 実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。

Recently, it has been shown that deep learning models are vulnerable to Trojan attacks, where an attacker can install a backdoor during training time to make the resultant model misidentify samples contaminated with a small trigger patch. Current backdoor detection methods fail to achieve good detection performance and are computationally expensive. In this paper, we propose a novel trigger reverse-engineering based approach whose computational complexity does not scale with the number of labels, and is based on a measure that is both interpretable and universal across different network and patch types. In experiments, we observe that our method achieves a perfect score in separating Trojaned models from pure models, which is an improvement over the current state-of-the art method.
翻訳日:2022-11-23 05:52:40 公開日:2020-06-10
# Agrupamento de Pixels para o Reconhecimento de Faces

Agrupamento de Pixels para o Reconhecimento de Faces ( http://arxiv.org/abs/2006.05652v1 )

ライセンス: Link先を確認
Tiago Buarque Assun\c{c}\~ao de Carvalho(参考訳) この研究は、顔認識が画像収縮による影響が低いという観察から始まった。 この事実を説明するために,我々は画素クラスタリング手法を提案した。 画像内のピクセルが互いに非常によく似た領域を定義する。 各地域の特徴を抽出する。 実験には3つの顔データベースを使用しました。 512は高精細画像認識に必要な特徴の最大数であることがわかった。 トレーニングセットから数クラスを使用していても,提案手法は堅牢である。

This research starts with the observation that face recognition can suffer a low impact from significant image shrinkage. To explain this fact, we proposed the Pixel Clustering methodology. It defines regions in the image in which its pixels are very similar to each other. We extract features from each region. We used three face databases in the experiments. We noticed that 512 is the maximum number of features needed for high accuracy image recognition. The proposed method is also robust, even if only it uses a few classes from the training set.
翻訳日:2022-11-23 05:52:28 公開日:2020-06-10
# tubetk: ワンステップトレーニングモデルにおけるマルチオブジェクト追跡のためのチューブの採用

TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training Model ( http://arxiv.org/abs/2006.05683v1 )

ライセンス: Link先を確認
Bo Pang, Yizhuo Li, Yifan Zhang, Muchen Li, Cewu Lu(参考訳) マルチオブジェクト追跡は、長い間研究されてきた基本的なビジョン問題である。 ディープラーニングはオブジェクト検出アルゴリズムに優れたパフォーマンスをもたらすため、トラッキングによる検出(TBD)が主流のトラッキングフレームワークとなっている。 TBDの成功にもかかわらず、この2段階の手法はエンドツーエンドで訓練するには複雑すぎるため、ビデオ時空間情報の不十分な探索、物体閉塞時の脆弱性、検出結果への過度な依存など、多くの課題も引き起こす。 これらの課題に対処するために、短いビデオクリップでオブジェクトの時間空間位置を示す「bounding-tube」を導入することで、ワンステップのトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。 TubeTKは,複数物体追跡の新しい方向を提供するとともに,ベルやホイッスルを使わずに上記の課題を解決する可能性を実証する。 我々は,複数のMOTベンチマーク上でのTubTKの性能を分析し,Re-IDのような補助技術がなくても,TubTKがある程度の閉塞を克服できることを示す実証的証拠を提供する。 プライベート検出結果を採用する他の手法と比較して,我々の一段階のエンドツーエンドモデルでは,既製の検出結果が適用されていない場合でも,最先端のパフォーマンスが達成される。 提案するTubeTKモデルは,ビデオベースのMOTタスクに対して,シンプルだが強力な代替手段となることを期待する。 コードとモデルはhttps://github.com/BoPang1996/TubeTKで入手できる。

Multi-object tracking is a fundamental vision problem that has been studied for a long time. As deep learning brings excellent performances to object detection algorithms, Tracking by Detection (TBD) has become the mainstream tracking framework. Despite the success of TBD, this two-step method is too complicated to train in an end-to-end manner and induces many challenges as well, such as insufficient exploration of video spatial-temporal information, vulnerability when facing object occlusion, and excessive reliance on detection results. To address these challenges, we propose a concise end-to-end model TubeTK which only needs one step training by introducing the ``bounding-tube" to indicate temporal-spatial locations of objects in a short video clip. TubeTK provides a novel direction of multi-object tracking, and we demonstrate its potential to solve the above challenges without bells and whistles. We analyze the performance of TubeTK on several MOT benchmarks and provide empirical evidence to show that TubeTK has the ability to overcome occlusions to some extent without any ancillary technologies like Re-ID. Compared with other methods that adopt private detection results, our one-stage end-to-end model achieves state-of-the-art performances even if it adopts no ready-made detection results. We hope that the proposed TubeTK model can serve as a simple but strong alternative for video-based MOT task. The code and models are available at https://github.com/BoPang1996/TubeTK.
翻訳日:2022-11-23 05:51:58 公開日:2020-06-10
# ビデオにおけるユニークな顔認識

Unique Faces Recognition in Videos ( http://arxiv.org/abs/2006.05713v1 )

ライセンス: Link先を確認
Jiahao Huo and Terence L van Zyl(参考訳) 本稿では,距離学習法と類似度ランキングモデルを用いたビデオの顔認識に取り組む。 本稿では, google/inception architecture, 3d convolutional network (c3d), 2d long short-term memory (lstm) recurrent neural networkのアーキテクチャを比較検討した。 ネットワークのトレーニングには静止画像とビデオシーケンスを使用し、上記のアーキテクチャを実装した性能を比較する。 使用されるデータセットは、ビデオにおける顔認識の問題を調べるために設計されたYouTube Face Databaseである。 この論文の貢献は,まず3次元畳み込みネットワークと2次元LSTMを構築し,画像列における対照的な損失は,静止画像を用いたトップ$n$の顔検索において対照的な損失でGoogle/Inceptionアーキテクチャを上回りません。 しかし、3次元畳み込みネットワークと3重項損失を持つ2次元LSTMは、データセット上の上位$n$ランクの顔検索において、Google/Inceptionを上回り、第2に、CNNが学習した顔識別のための特徴表現と組み合わせて、サポートベクトルマシン(SVM)を使用した。 その結果,3重項損失で学習した特徴表現は,比較的損失よりもnショット顔認証の方が有意に優れていることがわかった。 顔の識別に最も有用な特徴は3重項損失を有する2次元LSTMである。 実験の結果,ビデオ系列からの時空間的特徴の学習は,映像の顔認識に有用であることが示唆された。

This paper tackles face recognition in videos employing metric learning methods and similarity ranking models. The paper compares the use of the Siamese network with contrastive loss and Triplet Network with triplet loss implementing the following architectures: Google/Inception architecture, 3D Convolutional Network (C3D), and a 2-D Long short-term memory (LSTM) Recurrent Neural Network. We make use of still images and sequences from videos for training the networks and compare the performances implementing the above architectures. The dataset used was the YouTube Face Database designed for investigating the problem of face recognition in videos. The contribution of this paper is two-fold: to begin, the experiments have established 3-D Convolutional networks and 2-D LSTMs with the contrastive loss on image sequences do not outperform Google/Inception architecture with contrastive loss in top $n$ rank face retrievals with still images. However, the 3-D Convolution networks and 2-D LSTM with triplet Loss outperform the Google/Inception with triplet loss in top $n$ rank face retrievals on the dataset; second, a Support Vector Machine (SVM) was used in conjunction with the CNNs' learned feature representations for facial identification. The results show that feature representation learned with triplet loss is significantly better for n-shot facial identification compared to contrastive loss. The most useful feature representations for facial identification are from the 2-D LSTM with triplet loss. The experiments show that learning spatio-temporal features from video sequences is beneficial for facial recognition in videos.
翻訳日:2022-11-23 05:51:31 公開日:2020-06-10
# 物体間相互作用検出における粗さの診断

Diagnosing Rarity in Human-Object Interaction Detection ( http://arxiv.org/abs/2006.05728v1 )

ライセンス: Link先を確認
Mert Kilickaya and Arnold Smeulders(参考訳) ヒューマン・オブジェクト・インタラクション(HOI)検出はコンピュータビジョンのコアタスクである。 目標は、すべての人間と物体のペアをローカライズし、相互作用を認識することである。 また,<verb, noun> タプルによって定義される相互作用は,多くの組み合わせがほとんど表現されないため,長い尾を持つ視覚認識課題につながる。 提案モデルの性能は特に尾のカテゴリーで制限されているが,理由を理解するためにはほとんど行われていない。 そこで本論文では,HOI検出における希少性の診断を提案する。 そこで我々は,最先端モデルの研究により限界因子を慎重に分析する3段階戦略,すなわち検出,同定,認識を提案する。 以上の結果から,検出と識別のステップは咬合や相対位置などの相互作用信号によって変化し,認識精度が制限されることが示唆された。

Human-object interaction (HOI) detection is a core task in computer vision. The goal is to localize all human-object pairs and recognize their interactions. An interaction defined by a <verb, noun> tuple leads to a long-tailed visual recognition challenge since many combinations are rarely represented. The performance of the proposed models is limited especially for the tail categories, but little has been done to understand the reason. To that end, in this paper, we propose to diagnose rarity in HOI detection. We propose a three-step strategy, namely Detection, Identification and Recognition where we carefully analyse the limiting factors by studying state-of-the-art models. Our findings indicate that detection and identification steps are altered by the interaction signals like occlusion and relative location, as a result limiting the recognition accuracy.
翻訳日:2022-11-23 05:50:59 公開日:2020-06-10
# 自己教師付き学習による3次元ニューラルネットワークへのタスク知識の埋め込み

Embedding Task Knowledge into 3D Neural Networks via Self-supervised Learning ( http://arxiv.org/abs/2006.05798v1 )

ライセンス: Link先を確認
Jiuwen Zhu, Yuexiang Li, Yifan Hu, S. Kevin Zhou(参考訳) ディープラーニングは注釈付きデータの量に大きく依存する。 しかし、医用画像の注釈は極めて手間がかかり、高価である。 この目的のために、注釈付きデータ不足の潜在的な解決策として自己教師付き学習(SSL)がコミュニティから注目を集めている。 しかしSSLアプローチは、ターゲットタスクと必ずしも関係のないプロキシタスクを設計することが多い。 本稿では,3次元ニューラルネットワークのトレーニングにタスク知識を組み込むタスク関連コントラスト予測符号化(tcpc)という,医用画像分類のための新しいssl手法を提案する。 提案するtcpcは, 単純な線形反復クラスタリングを用いたスーパーボクセル推定により, まず初期候補病変を同定する。 次に, 潜在病変領域周辺で切り取られたサブボリュームの特徴を抽出し, 自己教師付き学習のための校正コントラスト予測符号化方式を構築する。 パブリックデータセットとプライベートデータセットで広範な実験が行われている。 実験の結果,3次元医用画像分類のためのニューラルネットワークへの病変関連事前知識の埋め込みの有効性が示された。

Deep learning highly relies on the amount of annotated data. However, annotating medical images is extremely laborious and expensive. To this end, self-supervised learning (SSL), as a potential solution for deficient annotated data, attracts increasing attentions from the community. However, SSL approaches often design a proxy task that is not necessarily related to target task. In this paper, we propose a novel SSL approach for 3D medical image classification, namely Task-related Contrastive Prediction Coding (TCPC), which embeds task knowledge into training 3D neural networks. The proposed TCPC first locates the initial candidate lesions via supervoxel estimation using simple linear iterative clustering. Then, we extract features from the sub-volume cropped around potential lesion areas, and construct a calibrated contrastive predictive coding scheme for self-supervised learning. Extensive experiments are conducted on public and private datasets. The experimental results demonstrate the effectiveness of embedding lesion-related prior-knowledge into neural networks for 3D medical image classification.
翻訳日:2022-11-23 05:50:20 公開日:2020-06-10
# 3次元医用画像分割のための強化学習による探索学習戦略

Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation ( http://arxiv.org/abs/2006.05847v1 )

ライセンス: Link先を確認
Dong Yang, Holger Roth, Ziyue Xu, Fausto Milletari, Ling Zhang, Daguang Xu(参考訳) 深層ニューラルネットワーク(dnn)ベースのアプローチは広く研究され、医療画像解析に展開されている。 例えば、完全畳み込みニューラルネットワーク(FCN)は、2D/3D医療画像セグメンテーションのいくつかの応用において最先端のパフォーマンスを達成する。 ベースラインニューラルネットワークモデル(U-Net、V-Netなど)でさえ、トレーニングプロセスが適切に設定された場合、非常に効果的で効率的であることが証明されている。 それでも,ニューラルネットワークの可能性を十分に活用するために,強化学習を用いた最適学習戦略のための自動探索手法を提案する。 提案手法は、ハイパーパラメータのチューニングや、特定の確率で必要なデータ拡張の選択に利用できる。 提案手法は3次元医用画像セグメンテーションのいくつかのタスクで検証される。 ベースラインモデルの性能は検索後に向上し、他の手作業による最先端セグメンテーション手法と同等の精度が得られる。

Deep neural network (DNN) based approaches have been widely investigated and deployed in medical image analysis. For example, fully convolutional neural networks (FCN) achieve the state-of-the-art performance in several applications of 2D/3D medical image segmentation. Even the baseline neural network models (U-Net, V-Net, etc.) have been proven to be very effective and efficient when the training process is set up properly. Nevertheless, to fully exploit the potentials of neural networks, we propose an automated searching approach for the optimal training strategy with reinforcement learning. The proposed approach can be utilized for tuning hyper-parameters, and selecting necessary data augmentation with certain probabilities. The proposed approach is validated on several tasks of 3D medical image segmentation. The performance of the baseline model is boosted after searching, and it can achieve comparable accuracy to other manually-tuned state-of-the-art segmentation approaches.
翻訳日:2022-11-23 05:50:04 公開日:2020-06-10
# ミューテックスネットワークの効率的な表現における最大の制約

At-Most-One Constraints in Efficient Representations of Mutex Networks ( http://arxiv.org/abs/2006.05962v1 )

ライセンス: Link先を確認
Pavel Surynek(参考訳) At-Most-One(AMO)制約は、TRUEにセットされるブール変数のセットから少なくとも1つの変数を必要とする濃度制約の特別なケースである。 AMOは、決定変数が同じ空間的または時間的スロットを共有することができないいくつかのオブジェクトの空間的または時間的配置を表す領域からのブール満足度(SAT)をモデル化するために重要である。 amo制約は、boolean変数のペアを同時に禁止する対の相互排他からなるミューテックスネットワークにおけるより効率的な表現と問題解決に使うことができる。 AMOを用いて新しいミューテックスが到着するインクリメンタルミューテックスネットワークの効率的な表現のためのクリプトの自動検出方法を提案する。 様々なエンコーディングを用いたAMO制約で表されるミューテックスネットワークにおけるSATベースの問題解決の比較を示す。

The At-Most-One (AMO) constraint is a special case of cardinality constraint that requires at most one variable from a set of Boolean variables to be set to TRUE. AMO is important for modeling problems as Boolean satisfiability (SAT) from domains where decision variables represent spatial or temporal placements of some objects that cannot share the same spatial or temporal slot. The AMO constraint can be used for more efficient representation and problem solving in mutex networks consisting of pair-wise mutual exclusions forbidding pairs of Boolean variable to be simultaneously TRUE. An on-line method for automated detection of cliques for efficient representation of incremental mutex networks where new mutexes arrive using AMOs is presented. A comparison of SAT-based problem solving in mutex networks represented by AMO constraints using various encodings is shown.
翻訳日:2022-11-23 05:43:25 公開日:2020-06-10
# 生成的逆模倣学習による人間の運転行動のモデル化

Modeling Human Driving Behavior through Generative Adversarial Imitation Learning ( http://arxiv.org/abs/2006.06412v1 )

ライセンス: Link先を確認
Raunak Bhattacharyya, Blake Wulfe, Derek Phillips, Alex Kuefler, Jeremy Morton, Ransalu Senanayake, Mykel Kochenderfer(参考訳) 模倣学習(imitation learning)とは、コスト関数が未知あるいは特定が難しい場合に、インテリジェントな振る舞いを生成するアプローチである。 逆強化学習(IRL)において、GAIL(Generative Adversarial Imitation Learning)は、大規模または連続的な状態や行動空間の問題に対しても効果的な模倣を提供することを目的としている。 ドライバ・モデリングは状態と行動空間が連続している問題の一例である。 人間の運転行動は非線形性と確率性が特徴であり,その基礎となるコスト関数は不明である。 結果として、人間の運転デモから学ぶことは、人間のような運転行動を生み出すための有望なアプローチである。 本稿では,学習型ドライバモデリングにおけるGAILの利用について述べる。 ドライバモデリングは本質的にはエージェント間の相互作用をモデル化する必要があるマルチエージェント問題であるので,PS-GAILと呼ばれるGAILのパラメータ共有拡張について述べる。 さらに、gailはドメインに依存しないため、学習プロセスの駆動に関連する特定の知識をエンコードすることが難しい。 本稿では、報酬信号を変更し、エージェントにドメイン固有の知識を提供するReward Augmented Imitation Learning (RAIL)について述べる。 最後に、ヒトのデモンストレーションはGAILによって捕捉されない潜在因子に依存する。 本稿では,実演における潜伏変動の解消を可能にするBurn-InfoGAILについて述べる。 実世界の高速道路走行データセットであるNGSIMを用いてシミュレーション学習実験を行う。 実験により、これらの変更は高速道路の運転行動のモデル化に成功し、人間の実演を正確に再現し、運転エージェント間の相互作用から生じる交通の流れにおいて現実的な創発的な行動を生み出すことが示されている。

Imitation learning is an approach for generating intelligent behavior when the cost function is unknown or difficult to specify. Building upon work in inverse reinforcement learning (IRL), Generative Adversarial Imitation Learning (GAIL) aims to provide effective imitation even for problems with large or continuous state and action spaces. Driver modeling is one example of a problem where the state and action spaces are continuous. Human driving behavior is characterized by non-linearity and stochasticity, and the underlying cost function is unknown. As a result, learning from human driving demonstrations is a promising approach for generating human-like driving behavior. This article describes the use of GAIL for learning-based driver modeling. Because driver modeling is inherently a multi-agent problem, where the interaction between agents needs to be modeled, this paper describes a parameter-sharing extension of GAIL called PS-GAIL to tackle multi-agent driver modeling. In addition, GAIL is domain agnostic, making it difficult to encode specific knowledge relevant to driving in the learning process. This paper describes Reward Augmented Imitation Learning (RAIL), which modifies the reward signal to provide domain-specific knowledge to the agent. Finally, human demonstrations are dependent upon latent factors that may not be captured by GAIL. This paper describes Burn-InfoGAIL, which allows for disentanglement of latent variability in demonstrations. Imitation learning experiments are performed using NGSIM, a real-world highway driving dataset. Experiments show that these modifications to GAIL can successfully model highway driving behavior, accurately replicating human demonstrations and generating realistic, emergent behavior in the traffic flow arising from the interaction between driving agents.
翻訳日:2022-11-23 05:42:54 公開日:2020-06-10
# 非揮発性メモリによるニューロモルフィックコンピューティングの依存性改善

Improving Dependability of Neuromorphic Computing With Non-Volatile Memory ( http://arxiv.org/abs/2006.05868v1 )

ライセンス: Link先を確認
Shihao Song, Anup Das, Nagarajan Kandasamy(参考訳) プロセス技術が積極的にスケールし続けるにつれ、負バイアス温度不安定性(NBTI)と時間依存性誘電体破壊(TDDB)によるニューロモルフィックハードウェアの回路劣化が重要な信頼性問題となり、シナプス記憶に非揮発性メモリ(NVM)を使用すると増大すると予想されている。 これは、NVMはそのシナプス重みにアクセスするために高電圧と電流を必要とするためであり、ニューロモルフィックハードウェアにおける回路の老化をさらに加速させる。 現在の信頼性評価手法は、最悪の動作条件と不必要な制約性能を考慮した回路老化を推定するため、過度に保守的である。 本稿では,ハードウェア上での実行時間などの重要な性能指標を妥協することなく,システム全体の信頼性を向上させることを目的として,機械学習アプリケーションをニューロモルフィックハードウェアにマップする,信頼性指向のアプローチであるreneuを提案する。 RENEUの基本は、異なる故障機構を考慮したニューロモルフィックハードウェアにおけるCMOSベースの回路の老化の新たな定式化である。 この定式化を用いて、RENEUは、ニューロンとシナプスのハードウェアへのマッピングを含む設計空間探索フレームワーク内で使用できるシステム全体の信頼性モデルを開発する。 この目的のために、RENEUはParticle Swarm Optimization (PSO) のインスタンスを使用して、パフォーマンスと信頼性の観点からパレート最適のマッピングを生成する。 我々は、NVMシナプスを持つ最先端のニューロモルフィックハードウェア上で、異なる機械学習アプリケーションを用いてRENEUを評価する。 その結果,回路の劣化は平均38%減少し,ハードウェアの寿命は現行の手法に比べて平均18%改善した。 RENEUは、パフォーマンス指向の最先端と比較して、限界パフォーマンスオーバーヘッドを5%にしか導入していない。

As process technology continues to scale aggressively, circuit aging in a neuromorphic hardware due to negative bias temperature instability (NBTI) and time-dependent dielectric breakdown (TDDB) is becoming a critical reliability issue and is expected to proliferate when using non-volatile memory (NVM) for synaptic storage. This is because an NVM requires high voltage and current to access its synaptic weight, which further accelerates the circuit aging in a neuromorphic hardware. Current methods for qualifying reliability are overly conservative, since they estimate circuit aging considering worst-case operating conditions and unnecessarily constrain performance. This paper proposes RENEU, a reliability-oriented approach to map machine learning applications to neuromorphic hardware, with the aim of improving system-wide reliability without compromising key performance metrics such as execution time of these applications on the hardware. Fundamental to RENEU is a novel formulation of the aging of CMOS-based circuits in a neuromorphic hardware considering different failure mechanisms. Using this formulation, RENEU develops a system-wide reliability model which can be used inside a design-space exploration framework involving the mapping of neurons and synapses to the hardware. To this end, RENEU uses an instance of Particle Swarm Optimization (PSO) to generate mappings that are Pareto-optimal in terms of performance and reliability. We evaluate RENEU using different machine learning applications on a state-of-the-art neuromorphic hardware with NVM synapses. Our results demonstrate an average 38\% reduction in circuit aging, leading to an average 18% improvement in the lifetime of the hardware compared to current practices. RENEU only introduces a marginal performance overhead of 5% compared to a performance-oriented state-of-the-art.
翻訳日:2022-11-23 05:42:27 公開日:2020-06-10
# 遺伝的アルゴリズムを用いたフォン・ヴォルフフェルスドルフモデルの校正

Calibration of the von Wolffersdorff model using Genetic Algorithms ( http://arxiv.org/abs/2006.08433v1 )

ライセンス: Link先を確認
Francisco J. Mendez, Antonio Pasculli, Miguel A. Mendez, Nicola Sciarra(参考訳) 本稿では,フォン・ヴォルフフェルスドルフの構成法則を校正するための遺伝的アルゴリズム(GA)に基づく最適化フレームワークを提案する。 この構成法則はSand hypoplasticity(SH)と呼ばれ、土壌の挙動の堅牢で正確なモデリングを可能にするが、8つのパラメータを含む複雑なキャリブレーションを必要とする。 提案手法は, gaとshを結合した数値解法とを組み合わせることで, oedometric および triaxial drained compression test の結果から, これらのパラメータを自動的に適合させることができる。 同じキャリブレーションを数回繰り返すことで、オプティマイザの確率的性質はキャリブレーションパラメータの不確実性定量化を可能にし、モデル予測における相対的重要性の研究を可能にする。 soilmodelsのwebサイトからexaliber-laboratoryソフトウェア上で数値解法を検証すると、gaキャリブレーションが合成データセット上でテストされ、結果の収束度と統計値を分析する。 特に相関解析により、8つのモデルパラメータの2つの組が強く相関していることが分かる。 最後に、1996年のフォン・ヴォルフフェルスドルフと1999年のHerle & Gudehusによるホクステッテン砂のキャリブレーション法が試験された。 遺伝的アルゴリズム最適化によって同定されたモデルパラメータは、実験データとのマッチングを改善し、キャリブレーションが向上する。

This article proposes an optimization framework, based on Genetic Algorithms (GA), to calibrate the constitutive law of von Wolffersdorff. This constitutive law is known as Sand Hypoplasticity (SH), and allows for robust and accurate modeling of the soil behavior but requires a complex calibration involving eight parameters. The proposed optimization can automatically fit these parameters from the results of an oedometric and a triaxial drained compression test, by combining the GA with a numerical solver that integrates the SH in the test conditions. By repeating the same calibration several times, the stochastic nature of the optimizer enables the uncertainty quantification of the calibration parameters and allows studying their relative importance on the model prediction. After validating the numerical solver on the ExCaliber-Laboratory software from the SoilModels' website, the GA calibration is tested on a synthetic dataset to analyze the convergence and the statistics of the results. In particular, a correlation analysis reveals that two couples of the eight model parameters are strongly correlated. Finally, the calibration procedure is tested on the results from von Wolffersdorff, 1996, and Herle & Gudehus, 1999, on the Hochstetten sand. The model parameters identified by the Genetic Algorithm optimization improves the matching with the experimental data and hence lead to a better calibration.
翻訳日:2022-11-23 05:41:58 公開日:2020-06-10
# ファーストパーソンビデオの視線駆動高速フォワード法

A gaze driven fast-forward method for first-person videos ( http://arxiv.org/abs/2006.05569v1 )

ライセンス: Link先を確認
Alan Carvalho Neves, Michel Melo Silva, Mario Fernando Montenegro Campos, Erickson Rangel Nascimento(参考訳) データ共有とライフログ文化の増大は、編集されていないファーストパーソンビデオの量が前例のない増加を招いている。 本稿では,入力映像の高速化版を作成し,レコーダに重要な瞬間を強調することで,ファーストパーソンビデオの関連情報にアクセスする問題に対処する。 本手法は,映像の各フレームのセマンティックスコアを提供する,視線と視覚的シーン分析によって駆動される注目モデルに基づく。 公開されているFirst-Person Videosデータセットについて実験を行った。 提案手法は,モノトニッククリップを含まないまま,レコーダーがシーンコンポーネントと視覚的に相互作用する瞬間を強調する。

The growing data sharing and life-logging cultures are driving an unprecedented increase in the amount of unedited First-Person Videos. In this paper, we address the problem of accessing relevant information in First-Person Videos by creating an accelerated version of the input video and emphasizing the important moments to the recorder. Our method is based on an attention model driven by gaze and visual scene analysis that provides a semantic score of each frame of the input video. We performed several experimental evaluations on publicly available First-Person Videos datasets. The results show that our methodology can fast-forward videos emphasizing moments when the recorder visually interact with scene components while not including monotonous clips.
翻訳日:2022-11-23 05:41:32 公開日:2020-06-10
# ガウス過程を用いた画像レイニングのためのSyn2Real Transfer Learning

Syn2Real Transfer Learning for Image Deraining using Gaussian Processes ( http://arxiv.org/abs/2006.05580v1 )

ライセンス: Link先を確認
Rajeev Yasarla, Vishwanath A. Sindagi, Vishal M. Patel(参考訳) 近年のCNNによる画像デライニング手法は,再現誤差や視覚的品質の点で優れた性能を発揮している。 しかし、これらの手法は完全なラベル付きデータでのみ訓練できるという意味で制限されている。 実世界の完全ラベル付き画像デライニングデータセットを得る上で様々な課題があるため、既存の手法は合成されたデータのみに基づいて訓練されるため、実世界の画像にはあまり一般化されない。 画像デラリニングネットワークのトレーニングにおける実世界のデータの利用は、文献では比較的調査されていない。 そこで本研究では,合成データセットを用いたネットワーク学習を可能にするガウス過程に基づく半教師付き学習フレームワークを提案する。 rain800, rain200h, ddn-sirrなど,いくつかの難解なデータセットに対する広範囲な実験とアブレーションを通じて,本手法が限定ラベルデータに基づいて訓練された場合,完全なラベル付きトレーニングによるオンパリパフォーマンスを実現することを実証した。 さらに,提案するgpベースのフレームワークでラベルなしの実世界画像を用いることで,従来の手法と比較して優れた性能が得られることを示す。 コードは、https://github.com/rajeevyasarla/Syn2Realで入手できる。

Recent CNN-based methods for image deraining have achieved excellent performance in terms of reconstruction error as well as visual quality. However, these methods are limited in the sense that they can be trained only on fully labeled data. Due to various challenges in obtaining real world fully-labeled image deraining datasets, existing methods are trained only on synthetically generated data and hence, generalize poorly to real-world images. The use of real-world data in training image deraining networks is relatively less explored in the literature. We propose a Gaussian Process-based semi-supervised learning framework which enables the network in learning to derain using synthetic dataset while generalizing better using unlabeled real-world images. Through extensive experiments and ablations on several challenging datasets (such as Rain800, Rain200H and DDN-SIRR), we show that the proposed method, when trained on limited labeled data, achieves on-par performance with fully-labeled training. Additionally, we demonstrate that using unlabeled real-world images in the proposed GP-based framework results in superior performance as compared to existing methods. Code is available at: https://github.com/rajeevyasarla/Syn2Real
翻訳日:2022-11-23 05:41:20 公開日:2020-06-10
# 衛星画像におけるcnnに基づく意味変化検出

CNN-Based Semantic Change Detection in Satellite Imagery ( http://arxiv.org/abs/2006.05589v1 )

ライセンス: Link先を確認
Ananya Gupta, Elisabeth Welburn, Simon Watson, Hujun Yin(参考訳) タイムリーな災害リスク管理には正確な道路地図が必要である。 現在、これは被災地の衛星画像を手動でマークするボランティアによって行われているが、このプロセスは遅く、しばしばエラーを起こしやすい。 分割アルゴリズムは衛星画像に適用して道路網を検出することができる。 しかし、これらのシナリオではもはや有効ではない道路網のトポロジを仮定するため、既存の手法は災害現場には適さない。 本稿では,災害前の画像から変化を検出することで,災害後の画像からアクセス可能な道路を特定するためのCNNベースのフレームワークを提案する。 グラフ理論とCNN出力を組み合わせて,OpenStreetMapデータを用いた道路ネットワークの意味変化を検出する。 本研究は,インドネシアのパウル州でDigitalGlobeから取得した津波被害地域のデータを用いて検証した。

Timely disaster risk management requires accurate road maps and prompt damage assessment. Currently, this is done by volunteers manually marking satellite imagery of affected areas but this process is slow and often error-prone. Segmentation algorithms can be applied to satellite images to detect road networks. However, existing methods are unsuitable for disaster-struck areas as they make assumptions about the road network topology which may no longer be valid in these scenarios. Herein, we propose a CNN-based framework for identifying accessible roads in post-disaster imagery by detecting changes from pre-disaster imagery. Graph theory is combined with the CNN output for detecting semantic changes in road networks with OpenStreetMap data. Our results are validated with data of a tsunami-affected region in Palu, Indonesia acquired from DigitalGlobe.
翻訳日:2022-11-23 05:40:59 公開日:2020-06-10
# リモートセンシング画像における変化検出のためのディープラーニング:包括的レビューとメタ分析

Deep Learning for Change Detection in Remote Sensing Images: Comprehensive Review and Meta-Analysis ( http://arxiv.org/abs/2006.05612v1 )

ライセンス: Link先を確認
Lazhar Khelifi and Max Mignotte(参考訳) 深層学習(DL)アルゴリズムは,過去数年間のリモートセンシング画像解析の方法論として検討されている。 その効果的な応用のため、ディープラーニングは自動変更検出にも導入され、大きな成功を収めた。 本研究は,このサブフィールドにおける最近の進歩の包括的レビューとメタアナリシスを試みている。 具体的には,まず,変更検出に頻繁に採用される深層学習法の基礎を紹介する。 次に, 変化検出dl研究の現状を調べるために実施したメタ分析の詳細について述べる。 次に,既存の手法の概要を概観し,リモートセンシング画像の深層学習に基づく変化検出手法に注目する。 具体的には,これらの深層学習に基づく手法を,教師なし学習法,教師なし学習法,転向学習法という3つのグループに分類した。 これらの調査の結果、将来の研究のために新たな方向性が示された。 本研究は、変化検出のためのディープラーニングの理解にいくつかの方法で貢献し、さらなる研究の基盤を提供する。

Deep learning (DL) algorithms are considered as a methodology of choice for remote-sensing image analysis over the past few years. Due to its effective applications, deep learning has also been introduced for automatic change detection and achieved great success. The present study attempts to provide a comprehensive review and a meta-analysis of the recent progress in this subfield. Specifically, we first introduce the fundamentals of deep learning methods which arefrequently adopted for change detection. Secondly, we present the details of the meta-analysis conducted to examine the status of change detection DL studies. Then, we focus on deep learning-based change detection methodologies for remote sensing images by giving a general overview of the existing methods. Specifically, these deep learning-based methods were classified into three groups; fully supervised learning-based methods, fully unsupervised learning-based methods and transfer learning-based techniques. As a result of these investigations, promising new directions were identified for future research. This study will contribute in several ways to our understanding of deep learning for change detection and will provide a basis for further research.
翻訳日:2022-11-23 05:40:26 公開日:2020-06-10
# 制限ガウス神託を用いた複合ログコンケーブサンプリング

Composite Logconcave Sampling with a Restricted Gaussian Oracle ( http://arxiv.org/abs/2006.05976v1 )

ライセンス: Link先を確認
Ruoqi Shen, Kevin Tian, Yin Tat Lee(参考訳) d\pi(x) \propto \exp(-f(x) - g(x))dx$ for well-conditioned $f$ and convex (but non-smooth) $g$、制限されたガウス神託の抽象化を通じて凸集合への制限を一般化した族である。 条件番号 $\kappa$ で$f$ の場合、アルゴリズムは$o \left(\kappa^2 d \log^2\tfrac{\kappa d}{\epsilon}\right)$ で実行され、それぞれ$f$ の勾配と制限されたガウスオラクルをクエリし、全変動距離 $\epsilon$ を達成する。 負の対数類似度が2次和と$g$の分布からサンプルを引き出す限定ガウスオラクルは、以前に研究され、合成最適化に使用される近位オラクルの自然な拡張である。 提案アルゴリズムは概念的に単純であり,既存の複合サンプリング法よりも証明可能な保証と一般化が得られる。 提案手法は,正のオータントに対する(非対角的)ガウスの制限をサンプリングするヒット・アンド・ランアルゴリズムを大幅に改善することを示す実験を行う。

We consider sampling from composite densities on $\mathbb{R}^d$ of the form $d\pi(x) \propto \exp(-f(x) - g(x))dx$ for well-conditioned $f$ and convex (but possibly non-smooth) $g$, a family generalizing restrictions to a convex set, through the abstraction of a restricted Gaussian oracle. For $f$ with condition number $\kappa$, our algorithm runs in $O \left(\kappa^2 d \log^2\tfrac{\kappa d}{\epsilon}\right)$ iterations, each querying a gradient of $f$ and a restricted Gaussian oracle, to achieve total variation distance $\epsilon$. The restricted Gaussian oracle, which draws samples from a distribution whose negative log-likelihood sums a quadratic and $g$, has been previously studied and is a natural extension of the proximal oracle used in composite optimization. Our algorithm is conceptually simple and obtains stronger provable guarantees and greater generality than existing methods for composite sampling. We conduct experiments showing our algorithm vastly improves upon the hit-and-run algorithm for sampling the restriction of a (non-diagonal) Gaussian to the positive orthant.
翻訳日:2022-11-23 05:33:38 公開日:2020-06-10
# 感情分析のためのマルチソース非教師なしドメイン適応型逆訓練

Adversarial Training Based Multi-Source Unsupervised Domain Adaptation for Sentiment Analysis ( http://arxiv.org/abs/2006.05602v1 )

ライセンス: Link先を確認
Yong Dai, Jian Liu, Xiancong Ren, Zenglin Xu(参考訳) 感情分析のためのマルチソース非教師付きドメイン適応(MS-UDA)は、複数のソースドメインで有用な情報を活用し、教師付き情報を持たないラベルなしのターゲットドメインでSAを支援することを目的としている。 既存のMS-UDAのアルゴリズムは共有特徴、すなわちドメイン不変情報のみを利用するか、NLPの弱い仮定、例えば滑らかさの仮定に基づいている。 これらの問題を避けるため,本論文では,ソース仮説を組み合わせ,良好な目標仮説を導出することにより,saの多元領域適応手法に基づく2つのトランスファー学習フレームワークを提案する。 最初のフレームワークの重要な機能は、新しいWeighting Schemeベースのunsupervised Domain Adaptation framework (WS-UDA)である。 第2のフレームワークは、教師なしドメイン適応フレームワーク(unsupervised domain adaptation framework, 2st-uda)に基づく2段階のトレーニングである。 重要なことは、各ソース分類器に割り当てられた重みは、ターゲットインスタンスとソースドメインの関係に基づいており、その関係は、敵の訓練によって判別器によって測定される。 さらに、同一の判別子を通して、共有機能とプライベート機能の分離も実現します。 2つのSAデータセットによる実験結果から,我々のフレームワークの有望な性能が実証された。

Multi-source unsupervised domain adaptation (MS-UDA) for sentiment analysis (SA) aims to leverage useful information in multiple source domains to help do SA in an unlabeled target domain that has no supervised information. Existing algorithms of MS-UDA either only exploit the shared features, i.e., the domain-invariant information, or based on some weak assumption in NLP, e.g., smoothness assumption. To avoid these problems, we propose two transfer learning frameworks based on the multi-source domain adaptation methodology for SA by combining the source hypotheses to derive a good target hypothesis. The key feature of the first framework is a novel Weighting Scheme based Unsupervised Domain Adaptation framework (WS-UDA), which combine the source classifiers to acquire pseudo labels for target instances directly. While the second framework is a Two-Stage Training based Unsupervised Domain Adaptation framework (2ST-UDA), which further exploits these pseudo labels to train a target private extractor. Importantly, the weights assigned to each source classifier are based on the relations between target instances and source domains, which measured by a discriminator through the adversarial training. Furthermore, through the same discriminator, we also fulfill the separation of shared features and private features. Experimental results on two SA datasets demonstrate the promising performance of our frameworks, which outperforms unsupervised state-of-the-art competitors.
翻訳日:2022-11-23 05:32:48 公開日:2020-06-10
# 抽象要約のための文間の対応点の理解

Understanding Points of Correspondence between Sentences for Abstractive Summarization ( http://arxiv.org/abs/2006.05621v1 )

ライセンス: Link先を確認
Logan Lebanoff, John Muchovej, Franck Dernoncourt, Doo Soon Kim, Lidan Wang, Walter Chang, Fei Liu(参考訳) 異なる内容を含む文を融合することは、有益で簡潔な要約を作成するのに役立つ驚くべき人間の能力である。 このような簡単な作業は、現代の抽象的な要約者にとって依然として困難であり、現実のシナリオにおける適用性を著しく制限している。 本稿では,2つの文を結合したコヒーレントテキストに結合するコヒーレントな装置である対応点の概念を導入することにより,文書から引き出された文を融合する検討を行う。 対応点のタイプは、テキスト結束理論(英語版)によって説明され、プロノミナルおよび名目的参照、反復などをカバーする。 我々は、文書、ソースおよび融合文、および文間の対応点の人間のアノテーションを含むデータセットを作成する。 私たちのデータセットは、コリファレンス解決と要約の間のギャップを橋渡しします。 文融合システムの成功を測定するための将来の研究の基盤となるために、公に共有されている。 (https://github.com/ucfnlp/points-of-correspondence)

Fusing sentences containing disparate content is a remarkable human ability that helps create informative and succinct summaries. Such a simple task for humans has remained challenging for modern abstractive summarizers, substantially restricting their applicability in real-world scenarios. In this paper, we present an investigation into fusing sentences drawn from a document by introducing the notion of points of correspondence, which are cohesive devices that tie any two sentences together into a coherent text. The types of points of correspondence are delineated by text cohesion theory, covering pronominal and nominal referencing, repetition and beyond. We create a dataset containing the documents, source and fusion sentences, and human annotations of points of correspondence between sentences. Our dataset bridges the gap between coreference resolution and summarization. It is publicly shared to serve as a basis for future work to measure the success of sentence fusion systems. (https://github.com/ucfnlp/points-of-correspondence)
翻訳日:2022-11-23 05:32:22 公開日:2020-06-10
# 統一対話システム評価に向けて:現状評価プロトコルの包括的分析

Towards Unified Dialogue System Evaluation: A Comprehensive Analysis of Current Evaluation Protocols ( http://arxiv.org/abs/2006.06110v1 )

ライセンス: Link先を確認
Sarah E. Finch and Jinho D. Choi(参考訳) 対話型AIベースの対話管理がトレンドになりつつあるため、標準化された信頼性の高い評価手順の必要性はさらに強くなっている。 現状では、チャット指向の対話管理システムを評価するための様々な評価プロトコルを提案し、異なるアプローチで公正な比較研究を行うことを困難にし、それらの価値について洞察力のある理解を得る。 この研究を促進するためには、より堅牢な評価プロトコルを設定する必要がある。 本稿では,対話システムにおける自動評価手法と人的評価手法の両方を総合的に合成し,その欠点を特定しながら,最も有効な評価次元に対するエビデンスを蓄積する。 過去2年間の合計20の論文を調査し、自動化、静的、インタラクティブの3種類の評価プロトコルを分析した。 最後に、これらの論文で用いられる評価次元を、Alexa Prize 2020から収集されたシステムユーザ対話データに関する専門家評価と比較した。

As conversational AI-based dialogue management has increasingly become a trending topic, the need for a standardized and reliable evaluation procedure grows even more pressing. The current state of affairs suggests various evaluation protocols to assess chat-oriented dialogue management systems, rendering it difficult to conduct fair comparative studies across different approaches and gain an insightful understanding of their values. To foster this research, a more robust evaluation protocol must be set in place. This paper presents a comprehensive synthesis of both automated and human evaluation methods on dialogue systems, identifying their shortcomings while accumulating evidence towards the most effective evaluation dimensions. A total of 20 papers from the last two years are surveyed to analyze three types of evaluation protocols: automated, static, and interactive. Finally, the evaluation dimensions used in these papers are compared against our expert evaluation on the system-user dialogue data collected from the Alexa Prize 2020.
翻訳日:2022-11-23 05:32:05 公開日:2020-06-10
# 二元RRAMアレイによるVMMの実現手法:OxRAMクロスバーを用いた二元化ADALINEの実験実証

Methodology for Realizing VMM with Binary RRAM Arrays: Experimental Demonstration of Binarized-ADALINE Using OxRAM Crossbar ( http://arxiv.org/abs/2006.05657v1 )

ライセンス: Link先を確認
Sandeep Kaur Kingra, Vivek Parmar, Shubham Negi, Sufyan Khan, Boris Hudec, Tuo-Hung Hou and Manan Suri(参考訳) 本稿では,抵抗メモリ(RRAM)アレイ上のベクトル行列乗算(VMM)を実現するための効率的なハードウェアマッピング手法を提案する。 提案手法を用いて,OxRAMクロスバー上に二値化ADALINE(Adaptive Linear)分類器を試作した。 Ni/3nm HfO2/7nm AlドープTiO2/TiNデバイススタックを備えた8x8 OxRAMクロスバーを使用する。 UCIがんデータセットに基づいて二項化ADALINE分類器の重量訓練を行う。 OxRAMアレイは、カスタムビルドテストベンチ上で提案した重みマッピング技術を用いて、2重み付け状態に慎重にプログラムされる。 シミュレーションでは,VMMを用いたバイナライズ-ADALINEネットワークが78%,実験では67%の分類精度を実現している。 実験精度は、主にクロスバー固有のスニーパス問題とRRAMデバイスプログラミングのばらつきにより低下した。

In this paper, we present an efficient hardware mapping methodology for realizing vector matrix multiplication (VMM) on resistive memory (RRAM) arrays. Using the proposed VMM computation technique, we experimentally demonstrate a binarized-ADALINE (Adaptive Linear) classifier on an OxRAM crossbar. An 8x8 OxRAM crossbar with Ni/3-nm HfO2/7 nm Al-doped-TiO2/TiN device stack is used. Weight training for the binarized-ADALINE classifier is performed ex-situ on UCI cancer dataset. Post weight generation the OxRAM array is carefully programmed to binary weight-states using the proposed weight mapping technique on a custom-built testbench. Our VMM powered binarized-ADALINE network achieves a classification accuracy of 78% in simulation and 67% in experiments. Experimental accuracy was found to drop mainly due to crossbar inherent sneak-path issues and RRAM device programming variability.
翻訳日:2022-11-23 05:31:51 公開日:2020-06-10
# Rinascimento: Splendorの再生にイベント値関数を使用する

Rinascimento: using event-value functions for playing Splendor ( http://arxiv.org/abs/2006.05894v1 )

ライセンス: Link先を確認
Ivan Bravi and Simon Lucas(参考訳) ゲーム研究の領域では、人工知能アルゴリズムはしばしばスコアを学習やプレイのための主要な報酬信号として利用する。 しかし、ポイント報酬がゲーム終了まで非常に稀または欠落している場合、これは厳しい制限を示している。 本稿では,イベントログに基づく新しいアプローチを提案する。ゲーム状態は,その機能変更の度にイベントをトリガーする。 これらのイベントは、単一のアクションやシーケンスに値を割り当てるイベント値関数(EF)によって処理される。 実験の結果、このような手法はポイント報酬の不足を軽減し、AIのパフォーマンスを向上させることができることがわかった。 さらにこれは、EFを通じてよりリッチで制御可能な行動空間を記述することによって、人工エージェントが採用する戦略を制御するための一歩である。 チューニングされたEFは、ゲーム内のイベントの関連性をきちんと合成することができる。 EFを使用するエージェントは、複数の対戦相手とゲームをする際により堅牢である。

In the realm of games research, Artificial General Intelligence algorithms often use score as main reward signal for learning or playing actions. However this has shown its severe limitations when the point rewards are very rare or absent until the end of the game. This paper proposes a new approach based on event logging: the game state triggers an event every time one of its features changes. These events are processed by an Event-value Function (EF) that assigns a value to a single action or a sequence. The experiments have shown that such approach can mitigate the problem of scarce point rewards and improve the AI performance. Furthermore this represents a step forward in controlling the strategy adopted by the artificial agent, by describing a much richer and controllable behavioural space through the EF. Tuned EF are able to neatly synthesise the relevance of the events in the game. Agents using an EF show more robust when playing games with several opponents.
翻訳日:2022-11-23 05:31:36 公開日:2020-06-10
# 条件変動オートエンコーダを用いた電力消費プロファイルにおける関税影響のシミュレーション

Simulating Tariff Impact in Electrical Energy Consumption Profiles with Conditional Variational Autoencoders ( http://arxiv.org/abs/2006.07115v1 )

ライセンス: Link先を確認
Margaux Br\'eg\`ere and Ricardo J. Bessa(参考訳) 家庭用電力消費に対する効率的な需要応答(DR)プログラムの実装は、異なる関税体系の影響をシミュレートできるデータ駆動方式の恩恵を受けるだろう。 本稿では,外因性気象とカレンダー変数を組み合わせた電気関税プロファイルから,異なるクラスタに区切られた消費者の日常消費プロファイルを生成するための,条件付き変分オートエンコーダ(CVAE)に基づく新しい手法を提案する。 まず、多数の消費者が消費行動と価格対応に応じてクラスタに集まります。 クラスタリング法は、特定の関税が消費水準に与える影響を測定する因果性モデルに基づいている。 そして、CVAEを用いたクラスタ毎に、毎日の電力消費プロファイルを生成する。 この非パラメトリックなアプローチは、一般化された加法モデルに基づく半パラメトリックデータジェネレータと比較され、エネルギー消費の事前知識を使用する。 公開データセットにおける実験により,提案手法は,原データの平均値を生成する際に,半パラメトリック値と同等の性能を示すことを示した。 この新しい手法の主な貢献は、生成した消費プロファイルにおけるリバウンドおよび副作用を再現する能力である。 実際、特別な電気料金の適用は、この時間窓の外の消費にも影響を及ぼす可能性がある。 もう1つの貢献は、クラスタリングアプローチが消費者を日々の消費プロファイルと関税変更に対する弾力性に応じてセグメント化することである。 これらの2つの結果は、システムオペレーター、小売業者、エネルギー規制当局による将来のDRポリシーのテストに非常に関係している。

The implementation of efficient demand response (DR) programs for household electricity consumption would benefit from data-driven methods capable of simulating the impact of different tariffs schemes. This paper proposes a novel method based on conditional variational autoencoders (CVAE) to generate, from an electricity tariff profile combined with exogenous weather and calendar variables, daily consumption profiles of consumers segmented in different clusters. First, a large set of consumers is gathered into clusters according to their consumption behavior and price-responsiveness. The clustering method is based on a causality model that measures the effect of a specific tariff on the consumption level. Then, daily electrical energy consumption profiles are generated for each cluster with CVAE. This non-parametric approach is compared to a semi-parametric data generator based on generalized additive models and that uses prior knowledge of energy consumption. Experiments in a publicly available data set show that, the proposed method presents comparable performance to the semi-parametric one when it comes to generating the average value of the original data. The main contribution from this new method is the capacity to reproduce rebound and side effects in the generated consumption profiles. Indeed, the application of a special electricity tariff over a time window may also affect consumption outside this time window. Another contribution is that the clustering approach segments consumers according to their daily consumption profile and elasticity to tariff changes. These two results combined are very relevant for an ex-ante testing of future DR policies by system operators, retailers and energy regulators.
翻訳日:2022-11-23 05:26:32 公開日:2020-06-10
# 画像検索のためのディープハッシュに関する調査

A survey on deep hashing for image retrieval ( http://arxiv.org/abs/2006.05627v1 )

ライセンス: Link先を確認
Xiaopeng Zhang(参考訳) ハッシュ処理は、計算とストレージ効率のために、大規模データベース検索の近似最寄り探索に広く使われている。 画像の意味情報や特徴を利用して抽出する畳み込みニューラルネットワークアーキテクチャを考案したDeep Hashingが最近注目を集めている。 本調査では, 画像検索のための深層型ハッシュ法の評価を行い, 深層型ハッシュ法の主な3つの方向を結論付ける。 最後にいくつかのコメントがある。 さらに,既存のハッシュ手法のボトルネックを克服するために,shadow recurrent hashing(srh)メソッドを提案する。 具体的には、画像の意味的特徴を抽出するCNNアーキテクチャを考案し、類似した画像を近接に投影するロス関数を設計する。 この目的のために、CNN出力の影という概念を提案します。 最適化プロセス中、cnn出力とそのシャドーは、可能な限り最適なソリューションを達成するために互いに誘導している。 データセットCIFAR-10のいくつかの実験は、SRHの満足な性能を示している。

Hashing has been widely used in approximate nearest search for large-scale database retrieval for its computation and storage efficiency. Deep hashing, which devises convolutional neural network architecture to exploit and extract the semantic information or feature of images, has received increasing attention recently. In this survey, several deep supervised hashing methods for image retrieval are evaluated and I conclude three main different directions for deep supervised hashing methods. Several comments are made at the end. Moreover, to break through the bottleneck of the existing hashing methods, I propose a Shadow Recurrent Hashing(SRH) method as a try. Specifically, I devise a CNN architecture to extract the semantic features of images and design a loss function to encourage similar images projected close. To this end, I propose a concept: shadow of the CNN output. During optimization process, the CNN output and its shadow are guiding each other so as to achieve the optimal solution as much as possible. Several experiments on dataset CIFAR-10 show the satisfying performance of SRH.
翻訳日:2022-11-23 05:25:53 公開日:2020-06-10
# ディープラーニングによる自然カメラボケ効果のレンダリング

Rendering Natural Camera Bokeh Effect with Deep Learning ( http://arxiv.org/abs/2006.05698v1 )

ライセンス: Link先を確認
Andrey Ignatov, Jagruti Patel, Radu Timofte(参考訳) ボケは、すべての焦点外領域をぼやけ、写真に対する関心の対象を強調するために使われる重要な芸術的効果である。 DSLRとシステムカメラのレンズはこの効果を自然にレンダリングできるが、光学の直径が非常に小さいため、モバイルカメラは視野の浅い写真を作ることができない。 画像背景にガウスのぼかしを適用してボケをシミュレートする現在のソリューションとは違って,本論文では,デジタル一眼レフカメラで撮影した写真から直接,現実的な浅層焦点技術を学ぶことを提案する。 そこで本研究では,Canon 7D DSLRと50mm f/1.8レンズを用いた5Kの浅視野/広視野画像ペアからなる大規模ボケデータセットを提案する。 これらの画像を用いて、深層学習モデルを訓練し、単一の狭視野画像に基づいて自然ボケ効果を再現する。 実験結果から,複数オブジェクトの複雑な入力データであっても,提案手法は実現可能な非一様ボケを描画できることがわかった。 この論文で使用されるデータセット、事前訓練されたモデル、コードは、プロジェクトのウェブサイトで入手できる。

Bokeh is an important artistic effect used to highlight the main object of interest on the photo by blurring all out-of-focus areas. While DSLR and system camera lenses can render this effect naturally, mobile cameras are unable to produce shallow depth-of-field photos due to a very small aperture diameter of their optics. Unlike the current solutions simulating bokeh by applying Gaussian blur to image background, in this paper we propose to learn a realistic shallow focus technique directly from the photos produced by DSLR cameras. For this, we present a large-scale bokeh dataset consisting of 5K shallow / wide depth-of-field image pairs captured using the Canon 7D DSLR with 50mm f/1.8 lenses. We use these images to train a deep learning model to reproduce a natural bokeh effect based on a single narrow-aperture image. The experimental results show that the proposed approach is able to render a plausible non-uniform bokeh even in case of complex input data with multiple objects. The dataset, pre-trained models and codes used in this paper are available on the project website.
翻訳日:2022-11-23 05:25:38 公開日:2020-06-10
# ラベル付きデータを持たない計算エラストダイナミックスのための物理情報深層学習

Physics informed deep learning for computational elastodynamics without labeled data ( http://arxiv.org/abs/2006.08472v1 )

ライセンス: Link先を確認
Chengping Rao and Hao Sun and Yang Liu(参考訳) 有限要素のような数値的手法は、偏微分方程式 (PDE) を解くことによって、固体力学の問題をモデル化するために過去数十年にわたって繁栄してきた。 これらの数値的手法を区別する健全な側面は、それらが関心の物理的場を近似する方法である。 物理学を応用したディープラーニングは、pdeソリューションをモデル化するために最近開発された新しいアプローチであり、ラベル付きデータを使わずに計算力学問題を解決することを約束している。 その背景にある哲学は、ディープニューラルネットワーク(DNN)による関心の量(例えば、PDEソリューション変数)を近似し、物理法則を組み込んでネットワークを正規化することである。 この目的のために、ネットワークのトレーニングは、pde残差と初期/境界条件(i/bcs)を含むよく設計された損失関数の最小化に相当する。 本稿では,i/bcsをほとんど課さないラベル付きデータに頼らずにelistodynamics問題をモデル化するために,混合変数出力を持つ物理不定型ニューラルネットワーク(pinn)を提案する。 特に、変位成分と応力成分をDNN出力とみなし、ネットワークの精度とトレーニング性を大幅に向上させるハイブリッド有限要素解析に着想を得た。 従来のPINNフレームワークはラグランジュ乗算器と「ソフト」な方法で全ての残留損失成分を増強するので、特に複雑なI/BCが存在する場合、弱いI/BCは十分に満足できない。 この問題を克服するために、複数の単一DNNに基づいてDNNの合成スキームを確立し、I/BCを「ハード」な方法で強制的に満足させることができる。 提案するPINNフレームワークは,静的および動的問題だけでなく,絡み合った領域の波動伝播を含む,異なるI/BCを持つ数値弾性例で実証される。 結果は計算力学応用の文脈におけるpinnの期待を示す。

Numerical methods such as finite element have been flourishing in the past decades for modeling solid mechanics problems via solving governing partial differential equations (PDEs). A salient aspect that distinguishes these numerical methods is how they approximate the physical fields of interest. Physics-informed deep learning is a novel approach recently developed for modeling PDE solutions and shows promise to solve computational mechanics problems without using any labeled data. The philosophy behind it is to approximate the quantity of interest (e.g., PDE solution variables) by a deep neural network (DNN) and embed the physical law to regularize the network. To this end, training the network is equivalent to minimization of a well-designed loss function that contains the PDE residuals and initial/boundary conditions (I/BCs). In this paper, we present a physics-informed neural network (PINN) with mixed-variable output to model elastodynamics problems without resort to labeled data, in which the I/BCs are hardly imposed. In particular, both the displacement and stress components are taken as the DNN output, inspired by the hybrid finite element analysis, which largely improves the accuracy and trainability of the network. Since the conventional PINN framework augments all the residual loss components in a "soft" manner with Lagrange multipliers, the weakly imposed I/BCs cannot not be well satisfied especially when complex I/BCs are present. To overcome this issue, a composite scheme of DNNs is established based on multiple single DNNs such that the I/BCs can be satisfied forcibly in a "hard" manner. The propose PINN framework is demonstrated on several numerical elasticity examples with different I/BCs, including both static and dynamic problems as well as wave propagation in truncated domains. Results show the promise of PINN in the context of computational mechanics applications.
翻訳日:2022-11-23 05:23:39 公開日:2020-06-10
# 通常クラスタリングアルゴリズムにおける気候データ知識を用いたエキスパート偏差の利用

Using an expert deviation carrying the knowledge of climate data in usual clustering algorithms ( http://arxiv.org/abs/2006.05603v1 )

ライセンス: Link先を確認
Emmanuel Biabiany, Vincent Page, Didier Bernard, H\'el\`ene Paugam-Moisy(参考訳) 風速と累積降雨データセットのクラスタリング分析を用いて,気候に関する知識をより少ないアンティルで拡張するために,時空間構成を同定することを目的としている。 しかし,従来のクラスタリング手法では,K-Means (KMS) や階層的集約クラスタリング (HAC) としてL2ノルムを用いることで,望ましくない効果がもたらされることが示されている。 そこで本稿では,Euclidean distance (L2) をExpert Deviation (ED) という異種性尺度で置き換えることを提案する。 シンメトリフィケーションされたクルバック・リーバーの発散に基づいて、EDは観測された物理パラメータと気候知識の特性を統合する。 この測定は、大気構造に影響された4つのパッチのヒストグラムを比較するのに役立つ。 EDおよびL2を用いて得られた内部均一性の評価とクラスターの分離を行った。 結果はシルエット指数を用いて比較され、高い指数を持つ5つのクラスターを示す。 2つの利用可能なデータセットでは、KMS-L2とは異なり、KMS-EDは日々の状況を適切に識別し、アルゴリズムによって発見されたクラスタにより物理的な意味を与える。 KMS-EDの代表要素の空間解析においてパッチの効果が観察された。 EDは、通常の大気構造を明確に識別できる様々な構成を作成できる。 大気物理学者は、大気構造に応じて各クラスターの特定のゾーンにおける衝突の位置を解釈することができる。 KMS-L2は、空間的に非常に滑らかな状況であるため、そのような解釈可能性をもたらすことはない。 この気候学的研究は、EDを新しいアプローチとして使う利点を示している。

In order to help physicists to expand their knowledge of the climate in the Lesser Antilles, we aim to identify the spatio-temporal configurations using clustering analysis on wind speed and cumulative rainfall datasets. But we show that using the L2 norm in conventional clustering methods as K-Means (KMS) and Hierarchical Agglomerative Clustering (HAC) can induce undesirable effects. So, we propose to replace Euclidean distance (L2) by a dissimilarity measure named Expert Deviation (ED). Based on the symmetrized Kullback-Leibler divergence, the ED integrates the properties of the observed physical parameters and climate knowledge. This measure helps comparing histograms of four patches, corresponding to geographical zones, that are influenced by atmospheric structures. The combined evaluation of the internal homogeneity and the separation of the clusters obtained using ED and L2 was performed. The results, which are compared using the silhouette index, show five clusters with high indexes. For the two available datasets one can see that, unlike KMS-L2, KMS-ED discriminates the daily situations favorably, giving more physical meaning to the clusters discovered by the algorithm. The effect of patches is observed in the spatial analysis of representative elements for KMS-ED. The ED is able to produce different configurations which makes the usual atmospheric structures clearly identifiable. Atmospheric physicists can interpret the locations of the impact of each cluster on a specific zone according to atmospheric structures. KMS-L2 does not lead to such an interpretability, because the situations represented are spatially quite smooth. This climatological study illustrates the advantage of using ED as a new approach.
翻訳日:2022-11-23 05:07:59 公開日:2020-06-10
# 機械学習と制御理論

Machine Learning and Control Theory ( http://arxiv.org/abs/2006.05604v1 )

ライセンス: Link先を確認
Alain Bensoussan, Yiqun Li, Dinh Phan Cao Nguyen, Minh-Binh Tran, Sheung Chi Phillip Yam, Xiang Zhou(参考訳) 本稿では,機械学習と制御理論の関係について調査する。 制御理論は機械学習に有用な概念とツールを提供する。 逆に、機械学習は大きな制御問題を解くのに使える。 本稿の第1部では,離散時間制御問題である強化学習とマルコフ決定プロセスとの関係について述べる。 第2部では,教師あり学習の概念と静的最適化との関係を概観する。 教師付き学習を拡張するディープラーニングは、制御問題と見なすことができる。 第3部では,確率勾配降下と平均場理論の関係について述べる。 逆に、第4部と第5部では、確率的制御問題に対する機械学習アプローチをレビューし、決定論的ケースに着目し、より簡単に数値アルゴリズムを説明する。

We survey in this article the connections between Machine Learning and Control Theory. Control Theory provide useful concepts and tools for Machine Learning. Conversely Machine Learning can be used to solve large control problems. In the first part of the paper, we develop the connections between reinforcement learning and Markov Decision Processes, which are discrete time control problems. In the second part, we review the concept of supervised learning and the relation with static optimization. Deep learning which extends supervised learning, can be viewed as a control problem. In the third part, we present the links between stochastic gradient descent and mean-field theory. Conversely, in the fourth and fifth parts, we review machine learning approaches to stochastic control problems, and focus on the deterministic case, to explain, more easily, the numerical algorithms.
翻訳日:2022-11-23 05:07:34 公開日:2020-06-10
# Anytime MiniBatch: オンライン分散最適化におけるストラグラーの爆発

Anytime MiniBatch: Exploiting Stragglers in Online Distributed Optimization ( http://arxiv.org/abs/2006.05752v1 )

ライセンス: Link先を確認
Nuwan Ferdinand, Haider Al-Lawati, Stark C. Draper and Matthew Nokleby(参考訳) 分散最適化は、大規模な機械学習問題を解決する上で不可欠である。 分散最適化手法の広く共有されている特徴は、システムが次のエポックに進む前に、全てのノードが割り当てられたタスクを各計算エポックで完了させることである。 このような設定では、ストラグラーと呼ばれる遅いノードは、進行を大幅に遅くする。 トラグラーの影響を軽減するため,Anytime Minibatchと呼ばれるオンライン分散最適化手法を提案する。 このアプローチでは、すべてのノードに可能な限り多くのデータサンプルの勾配を計算する固定時間を与える。 その結果、ノードごとのミニバッチサイズが変化する。 ワーカーは固定された通信時間を取得して、いくつかのコンセンサスを通じてミニバッチ勾配を平均し、それから2つの平均化によってプリミティブ変数を更新する。 anytime minibatchは、ストラグラーが完了できる作業を無駄にすることなく、ストラグラーがシステムを保持できないようにする。 コンバージェンス解析を行い,壁面の時間特性を解析する。 数値計算の結果,Amazon EC2では最大1.5倍高速であり,計算ノード性能の変動が大きい場合には最大5倍高速であることがわかった。

Distributed optimization is vital in solving large-scale machine learning problems. A widely-shared feature of distributed optimization techniques is the requirement that all nodes complete their assigned tasks in each computational epoch before the system can proceed to the next epoch. In such settings, slow nodes, called stragglers, can greatly slow progress. To mitigate the impact of stragglers, we propose an online distributed optimization method called Anytime Minibatch. In this approach, all nodes are given a fixed time to compute the gradients of as many data samples as possible. The result is a variable per-node minibatch size. Workers then get a fixed communication time to average their minibatch gradients via several rounds of consensus, which are then used to update primal variables via dual averaging. Anytime Minibatch prevents stragglers from holding up the system without wasting the work that stragglers can complete. We present a convergence analysis and analyze the wall time performance. Our numerical results show that our approach is up to 1.5 times faster in Amazon EC2 and it is up to five times faster when there is greater variability in compute node performance.
翻訳日:2022-11-23 05:06:53 公開日:2020-06-10
# 変分オートエンコーダと潜時エネルギーベースモデルの共同訓練

Joint Training of Variational Auto-Encoder and Latent Energy-Based Model ( http://arxiv.org/abs/2006.06059v1 )

ライセンス: Link先を確認
Tian Han, Erik Nijkamp, Linqi Zhou, Bo Pang, Song-Chun Zhu, Ying Nian Wu(参考訳) 本稿では,変分オートエンコーダ(VAE)と潜時エネルギーベースモデル(EBM)を併用した共同学習手法を提案する。 VAEと潜伏ESMの合同訓練は、潜伏ベクトル上の3つの関節分布と画像との間の3つのクルバック・リーバー分岐からなる目的関数に基づいており、目的関数は、変分学習と逆数学習をシームレスに統合するエレガントな対称および反対称な発散三角形である。 この共同トレーニングスキームでは、潜伏ESMはジェネレータモデルへの批判として機能し、VAEのジェネレータモデルと推論モデルは、潜伏ESMの近似合成サンプルおよび推論サンプルとして機能する。 実験の結果,共同訓練はVAEの合成品質を大幅に向上させることがわかった。 また、サンプルからサンプルを検出できるエネルギー関数を学習して異常を検出することもできる。

This paper proposes a joint training method to learn both the variational auto-encoder (VAE) and the latent energy-based model (EBM). The joint training of VAE and latent EBM are based on an objective function that consists of three Kullback-Leibler divergences between three joint distributions on the latent vector and the image, and the objective function is of an elegant symmetric and anti-symmetric form of divergence triangle that seamlessly integrates variational and adversarial learning. In this joint training scheme, the latent EBM serves as a critic of the generator model, while the generator model and the inference model in VAE serve as the approximate synthesis sampler and inference sampler of the latent EBM. Our experiments show that the joint training greatly improves the synthesis quality of the VAE. It also enables learning of an energy function that is capable of detecting out of sample examples for anomaly detection.
翻訳日:2022-11-23 04:57:35 公開日:2020-06-10
# 構成可能なクロスオーバー確率を持つ$(\mu+\lambda)$遺伝的アルゴリズムのベンチマーク

Benchmarking a $(\mu+\lambda)$ Genetic Algorithm with Configurable Crossover Probability ( http://arxiv.org/abs/2006.05889v1 )

ライセンス: Link先を確認
Furong Ye and Hao Wang and Carola Doerr and Thomas B\"ack(参考訳) 遺伝的アルゴリズム (gas) は、突然変異またはランダムに選択された2つの親を組み換えることで子孫を発生させる。 クロスオーバー確率を拡大することにより、完全突然変異のみのアルゴリズムから完全クロスオーバーベースGAへの補間が可能となる。 実証的な方法により,人口規模と交叉確率の相互関係によってパフォーマンスがどう変わるかを分析する。 25個の疑似ボアリーン最適化問題の比較により,複数の簡単な最適化タスクにおけるクロスオーバーベースの構成の利点が明らかになった。 さらに, <fast'' 変異方式は, クロスオーバーと組み合わせた複雑な最適化タスクにおいて, 標準的なビット突然変異よりも優れるが, クロスオーバーの欠如によりさらに悪化する。 次に、よく知られたLeadingOnesベンチマーク問題に関して、クロスオーバーベースの$(\mu+\lambda)$ GAの驚くほど優れたパフォーマンスを詳しく見ていきます。 人口増加に伴い最適クロスオーバー確率が増加することが観測された。 同時に、問題次元の増大とともに減少し、古典的にランタイム分析に適用される漸近的観点では、クロスオーバーの利点が見えないことを示す。 したがって、固定次元に対する数学的調査は、漸近的な性能境界にのみ焦点をあてるときに目に見えない効果を観察するのに役立つと論じる。

We investigate a family of $(\mu+\lambda)$ Genetic Algorithms (GAs) which creates offspring either from mutation or by recombining two randomly chosen parents. By scaling the crossover probability, we can thus interpolate from a fully mutation-only algorithm towards a fully crossover-based GA. We analyze, by empirical means, how the performance depends on the interplay of population size and the crossover probability. Our comparison on 25 pseudo-Boolean optimization problems reveals an advantage of crossover-based configurations on several easy optimization tasks, whereas the picture for more complex optimization problems is rather mixed. Moreover, we observe that the ``fast'' mutation scheme with its are power-law distributed mutation strengths outperforms standard bit mutation on complex optimization tasks when it is combined with crossover, but performs worse in the absence of crossover. We then take a closer look at the surprisingly good performance of the crossover-based $(\mu+\lambda)$ GAs on the well-known LeadingOnes benchmark problem. We observe that the optimal crossover probability increases with increasing population size $\mu$. At the same time, it decreases with increasing problem dimension, indicating that the advantages of the crossover are not visible in the asymptotic view classically applied in runtime analysis. We therefore argue that a mathematical investigation for fixed dimensions might help us observe effects which are not visible when focusing exclusively on asymptotic performance bounds.
翻訳日:2022-11-23 04:57:09 公開日:2020-06-10
# TableQA: テーブル対応SQL生成のための大規模中国語テキスト-SQLデータセット

TableQA: a Large-Scale Chinese Text-to-SQL Dataset for Table-Aware SQL Generation ( http://arxiv.org/abs/2006.06434v1 )

ライセンス: Link先を確認
Ningyuan Sun, Xuefeng Yang, Yunfeng Liu(参考訳) 近年、ディープニューラルネットワークのようなデータ駆動アプローチで自然言語を対応するSQL(NL2SQL)に解析することが注目されている。 既存のNL2SQLデータセットは、条件値が自然言語の質問に正確に現れるべきであり、クエリはテーブルから答えられると仮定する。 しかし、これらの仮定は、ユーザがテーブル内の同じコンテンツに対して異なる表現を使い、テーブル内のコンテンツの全体像なしでテーブル外の情報をクエリできるため、現実的なシナリオでは失敗する可能性がある。 そこで我々は,64,891の質問と2,311のユニークなSQLクエリからなる中国語の大規模クロスドメイン自然言語からSQLへのデータセットであるTableQAを提案する。 NL2SQLデータセットの消し出しとは異なり、TableQAは、異なる質問やテーブルスキーマのSQLスケルトンだけでなく、条件値のさまざまな式に対しても、適切に一般化する必要がある。 実験の結果、wikisqlの条件値精度95.1%の最先端モデルは、tableqaの条件値精度46.8%と論理フォーム精度43.0%しか得られず、提案されたデータセットの処理が困難で必要であることが示されている。 問題を軽減するために2つのテーブル認識アプローチを提案し、エンドツーエンドアプローチでは条件値と論理形式タスクの精度が51.3%と47.4%、それぞれ4.7%と3.4%向上した。

Parsing natural language to corresponding SQL (NL2SQL) with data driven approaches like deep neural networks attracts much attention in recent years. Existing NL2SQL datasets assume that condition values should appear exactly in natural language questions and the queries are answerable given the table. However, these assumptions may fail in practical scenarios, because user may use different expressions for the same content in the table, and query information outside the table without the full picture of contents in table. Therefore we present TableQA, a large-scale cross-domain Natural Language to SQL dataset in Chinese language consisting 64,891 questions and 20,311 unique SQL queries on over 6,000 tables. Different from exisiting NL2SQL datasets, TableQA requires to generalize well not only to SQL skeletons of different questions and table schemas, but also to the various expressions for condition values. Experiment results show that the state-of-the-art model with 95.1% condition value accuracy on WikiSQL only gets 46.8% condition value accuracy and 43.0% logic form accuracy on TableQA, indicating the proposed dataset is challenging and necessary to handle. Two table-aware approaches are proposed to alleviate the problem, the end-to-end approaches obtains 51.3% and 47.4% accuracy on the condition value and logic form tasks, with improvement of 4.7% and 3.4% respectively.
翻訳日:2022-11-23 04:56:28 公開日:2020-06-10
# submodular maximum coverage問題に対する変分最適化

Variational Optimization for the Submodular Maximum Coverage Problem ( http://arxiv.org/abs/2006.05583v1 )

ライセンス: Link先を確認
Jian Du, Zhigang Hua, Shuang Yang(参考訳) 我々は,広範囲のアプリケーションに関連する問題である \emph{submodular maximum coverage problem} (smcp) について検討する。 我々はネムハウザーの発散に基づくこの問題に対する最初の変分近似を提案し、変分最適化を用いて効率よく解けることを示す。 このアルゴリズムは、(1)変動パラメータを推定してパラメータ化された \emph{modular} 下限を最大化するeステップ、(2)局所近似問題を解くことで解を更新するmステップの2つのステップを交互に行う。 提案手法の性能と曲率依存性の近似因子に関する理論的解析を行い,いくつかの公開データセットといくつかのアプリケーションタスクで実証的に評価した。

We examine the \emph{submodular maximum coverage problem} (SMCP), which is related to a wide range of applications. We provide the first variational approximation for this problem based on the Nemhauser divergence, and show that it can be solved efficiently using variational optimization. The algorithm alternates between two steps: (1) an E step that estimates a variational parameter to maximize a parameterized \emph{modular} lower bound; and (2) an M step that updates the solution by solving the local approximate problem. We provide theoretical analysis on the performance of the proposed approach and its curvature-dependent approximate factor, and empirically evaluate it on a number of public data sets and several application tasks.
翻訳日:2022-11-23 04:56:00 公開日:2020-06-10
# オンポリシー強化学習で何が問題か? 大規模実証研究

What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study ( http://arxiv.org/abs/2006.05990v1 )

ライセンス: Link先を確認
Marcin Andrychowicz, Anton Raichuk, Piotr Sta\'nczyk, Manu Orsini, Sertan Girgin, Raphael Marinier, L\'eonard Hussenot, Matthieu Geist, Olivier Pietquin, Marcin Michalski, Sylvain Gelly, Olivier Bachem(参考訳) 近年, オンライン強化学習 (RL) が多種多様な連続制御タスクに適用されている。 RLアルゴリズムは概念的には単純であることが多いが、その最先端の実装は、結果のエージェントの性能に強く影響を与える、低レベルかつ高レベルの多くの決定を下す。 これらの選択は通常、文献で広く議論されることはなく、アルゴリズムとその実装の公開記述に相違が生じている。 これにより、RLの進捗を判断しにくく、全体の進捗を遅くする[Engstrom'20]。 このギャップを埋めるためのステップとして、50以上の‘choices’を統一されたオンポリシーrlフレームワークに実装し、大規模な実証研究でその影響を調査できるようにしました。 複雑度が異なる5つの連続制御環境において,250,000以上のエージェントを訓練し,rlエージェントのオンポリシートレーニングに対する洞察と実践的推奨を提供する。

In recent years, on-policy reinforcement learning (RL) has been successfully applied to many different continuous control tasks. While RL algorithms are often conceptually simple, their state-of-the-art implementations take numerous low- and high-level design decisions that strongly affect the performance of the resulting agents. Those choices are usually not extensively discussed in the literature, leading to discrepancy between published descriptions of algorithms and their implementations. This makes it hard to attribute progress in RL and slows down overall progress [Engstrom'20]. As a step towards filling that gap, we implement >50 such ``choices'' in a unified on-policy RL framework, allowing us to investigate their impact in a large-scale empirical study. We train over 250'000 agents in five continuous control environments of different complexity and provide insights and practical recommendations for on-policy training of RL agents.
翻訳日:2022-11-23 04:48:27 公開日:2020-06-10
# エントロピー・カントロビッチポテンシャルからの正規化フローの学習

Learning normalizing flows from Entropy-Kantorovich potentials ( http://arxiv.org/abs/2006.06033v1 )

ライセンス: Link先を確認
Chris Finlay, Augusto Gerolin, Adam M Oberman, Aram-Alexandre Pooladian(参考訳) 本研究では,連続正規化フローをスカラーポテンシャル関数の勾配としてキャストする,エントロピー正規化最適輸送を動機とする2つの視点から連続正規化フローを学ぶ問題にアプローチする。 この定式化により、スカラーポテンシャル関数のみからなる双対対象を訓練することができ、トレーニング中の正規化フローを明示的に計算する負担を取り除くことができる。 トレーニング後、正規化フローはポテンシャル関数から容易に回収される。

We approach the problem of learning continuous normalizing flows from a dual perspective motivated by entropy-regularized optimal transport, in which continuous normalizing flows are cast as gradients of scalar potential functions. This formulation allows us to train a dual objective comprised only of the scalar potential functions, and removes the burden of explicitly computing normalizing flows during training. After training, the normalizing flow is easily recovered from the potential functions.
翻訳日:2022-11-23 04:48:13 公開日:2020-06-10
# ニューラルネットワークの最大相互情報容量について

On the Maximum Mutual Information Capacity of Neural Architectures ( http://arxiv.org/abs/2006.06037v1 )

ライセンス: Link先を確認
Brandon Foggo and Nanpeng Yu(参考訳) ニューラルネットワークアーキテクチャの幅広いファミリーに対して,最大相互情報のクローズドフォーム表現 - トレーニングによって取得可能な最大値$i(x;z)$ - を導出する。 この量は、機械学習理論と実践のいくつかの分野に必須である。 定量的には、これらの族に対する最大相互情報はすべて単一のキャッチオール公式の一般化によるものである。 定性的には、アーキテクチャの最大相互情報は、ネットワークの最小層の幅(フレーズの異なる意味での「情報のボトルネック」)と、アーキテクチャによってキャプチャされた任意の統計的不変性(英語版)に最も強く影響される。

We derive the closed-form expression of the maximum mutual information - the maximum value of $I(X;Z)$ obtainable via training - for a broad family of neural network architectures. The quantity is essential to several branches of machine learning theory and practice. Quantitatively, we show that the maximum mutual information for these families all stem from generalizations of a single catch-all formula. Qualitatively, we show that the maximum mutual information of an architecture is most strongly influenced by the width of the smallest layer of the network - the "information bottleneck" in a different sense of the phrase, and by any statistical invariances captured by the architecture.
翻訳日:2022-11-23 04:48:04 公開日:2020-06-10
# ワッサーシュタイン計量によるロバスト分布最適化を用いたロバスト化多変量回帰と分類

Robustified Multivariate Regression and Classification Using Distributionally Robust Optimization under the Wasserstein Metric ( http://arxiv.org/abs/2006.06090v1 )

ライセンス: Link先を確認
Ruidi Chen and Ioannis Ch. Paschalidis(参考訳) 我々は,複数変数線形回帰(MLR)と多クラスロジスティック回帰(MLG)のための分散ロバスト最適化(DRO)の定式化を開発する。 DROフレームワークは、ワッサーシュタイン計量の意味でのトレーニングセットの経験的分布に近い分布の球として定義される確率的曖昧性集合を使用する。 我々は DRO の定式化を、正則化が係数行列のノルムである正規化学習問題に緩和する。 予測誤差の制御における正則化器の役割についての洞察を提供するとともに,本モデルに対する解の正当性を保証する。 実験の結果,mlgでは予測誤差を7%,mlrでは37%,mlgでは100%改善した。

We develop Distributionally Robust Optimization (DRO) formulations for Multivariate Linear Regression (MLR) and Multiclass Logistic Regression (MLG) when both the covariates and responses/labels may be contaminated by outliers. The DRO framework uses a probabilistic ambiguity set defined as a ball of distributions that are close to the empirical distribution of the training set in the sense of the Wasserstein metric. We relax the DRO formulation into a regularized learning problem whose regularizer is a norm of the coefficient matrix. We establish out-of-sample performance guarantees for the solutions to our model, offering insights on the role of the regularizer in controlling the prediction error. Experimental results show that our approach improves the predictive error by 7% -- 37% for MLR, and a metric of robustness by 100% for MLG.
翻訳日:2022-11-23 04:47:28 公開日:2020-06-10
# 分布ロバスト最適化を用いたロバスト群選択

Robust Grouped Variable Selection Using Distributionally Robust Optimization ( http://arxiv.org/abs/2006.06094v1 )

ライセンス: Link先を確認
Ruidi Chen and Ioannis Ch. Paschalidis(参考訳) 本稿では,線形回帰問題と分類問題の両方に対するデータに対する摂動の下で群付き変数を選択するための不確実性セットを用いた分布ロバスト最適化(DRO)の定式化を提案する。 結果として得られたモデルは、GLASSO(Grouped Least Absolute Shrinkage and Selection Operator)アルゴリズムに対してロバストネスの説明を提供し、ロバストネスと正規化の関係を強調する。 我々は、サンプルの損失と推定バイアスの確率的境界を証明し、推定器のグルーピング効果を確立し、同じ群の係数が共変量間のサンプル相関と同じ値に収束することを示す。 そこで本研究では,ガウス類似度関数を用いたスペクトルクラスタリングアルゴリズムを用いて,予測器のグルーピングを行い,グルーピング構造を事前に知ることなく適用する手法を提案する。 提案手法を代替品の配列と比較し, 合成データと手術関連医療記録の実際の大規模データセットの両方について広範な数値計算結果を提供し, グループレベルでのスパーシティを奨励し, 異常者の存在下でのより良い予測と推定性能を達成することができる, 解釈可能で控えめなモデルを作成した。

We propose a Distributionally Robust Optimization (DRO) formulation with a Wasserstein-based uncertainty set for selecting grouped variables under perturbations on the data for both linear regression and classification problems. The resulting model offers robustness explanations for Grouped Least Absolute Shrinkage and Selection Operator (GLASSO) algorithms and highlights the connection between robustness and regularization. We prove probabilistic bounds on the out-of-sample loss and the estimation bias, and establish the grouping effect of our estimator, showing that coefficients in the same group converge to the same value as the sample correlation between covariates approaches 1. Based on this result, we propose to use the spectral clustering algorithm with the Gaussian similarity function to perform grouping on the predictors, which makes our approach applicable without knowing the grouping structure a priori. We compare our approach to an array of alternatives and provide extensive numerical results on both synthetic data and a real large dataset of surgery-related medical records, showing that our formulation produces an interpretable and parsimonious model that encourages sparsity at a group level and is able to achieve better prediction and estimation performance in the presence of outliers.
翻訳日:2022-11-23 04:47:13 公開日:2020-06-10
# ギャップ依存型サンプル複素数をもつマルコフ決定過程の計画

Planning in Markov Decision Processes with Gap-Dependent Sample Complexity ( http://arxiv.org/abs/2006.05879v1 )

ライセンス: Link先を確認
Anders Jonsson, Emilie Kaufmann, Pierre M\'enard, Omar Darwiche Domingues, Edouard Leurent, Michal Valko(参考訳) MDP-GapEは,遷移が有限であるマルコフ決定過程において,新しい軌道に基づくモンテカルロ木探索アルゴリズムを提案する。 我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。 この問題に依存したサンプル複雑性の結果は、探索中に訪れた状態-作用対の準最適ギャップによって表される。 実験の結果,mdp-gapeは,固定信頼設定におけるサンプル複雑性を保証した他のアルゴリズムとは対照的に,理論上も有効であることが判明した。

We propose MDP-GapE, a new trajectory-based Monte-Carlo Tree Search algorithm for planning in a Markov Decision Process in which transitions have a finite support. We prove an upper bound on the number of calls to the generative models needed for MDP-GapE to identify a near-optimal action with high probability. This problem-dependent sample complexity result is expressed in terms of the sub-optimality gaps of the state-action pairs that are visited during exploration. Our experiments reveal that MDP-GapE is also effective in practice, in contrast with other algorithms with sample complexity guarantees in the fixed-confidence setting, that are mostly theoretical.
翻訳日:2022-11-23 04:39:33 公開日:2020-06-10
# スキップ接続は、ニューラルネットワークの損失の状況を変えることができるか?

Is the Skip Connection Provable to Reform the Neural Network Loss Landscape? ( http://arxiv.org/abs/2006.05939v1 )

ライセンス: Link先を確認
Lifu Wang, Bo Shen, Ning Zhao, Zhiyuan Zhang(参考訳) 残差ネットワークは、今やディープラーニングの最も効果的な構造のひとつであり、スキップ接続を利用して``guarantee'のパフォーマンスは悪化しない。 しかし、ニューラルネットワークの非凸性は、非線形性が多くの局所的なミニマを生み出すため、スキップ接続が学習能力を向上するかどうかをはっきりしない。 以前の『cite{freeman2016トポロジー』では、非凸性にもかかわらず、2層ReLUネットワークのロスランドスケープは、隠されたノードの$m$が非常に大きいときに良い特性を持つことが示された。 In this paper, we follow this line to study the topology (sub-level sets) of the loss landscape of deep ReLU neural networks with a skip connection and theoretically prove that the skip connection network inherits the good properties of the two-layer network and skip connections can help to control the connectedness of the sub-level sets, such that any local minima worse than the global minima of some two-layer ReLU network will be very ``shallow". The ``depth" of these local minima are at most $O(m^{(\eta-1)/n})$, where $n$ is the input dimension, $\eta<1$. これは、ディープラーニングにおけるスキップ接続の有効性に関する理論的説明を提供する。

The residual network is now one of the most effective structures in deep learning, which utilizes the skip connections to ``guarantee" the performance will not get worse. However, the non-convexity of the neural network makes it unclear whether the skip connections do provably improve the learning ability since the nonlinearity may create many local minima. In some previous works \cite{freeman2016topology}, it is shown that despite the non-convexity, the loss landscape of the two-layer ReLU network has good properties when the number $m$ of hidden nodes is very large. In this paper, we follow this line to study the topology (sub-level sets) of the loss landscape of deep ReLU neural networks with a skip connection and theoretically prove that the skip connection network inherits the good properties of the two-layer network and skip connections can help to control the connectedness of the sub-level sets, such that any local minima worse than the global minima of some two-layer ReLU network will be very ``shallow". The ``depth" of these local minima are at most $O(m^{(\eta-1)/n})$, where $n$ is the input dimension, $\eta<1$. This provides a theoretical explanation for the effectiveness of the skip connection in deep learning.
翻訳日:2022-11-23 04:38:14 公開日:2020-06-10
# モデルリダクションのための多層埋め込みによるトレーニング

Training with Multi-Layer Embeddings for Model Reduction ( http://arxiv.org/abs/2006.05623v1 )

ライセンス: Link先を確認
Benjamin Ghaemmaghami, Zihao Deng, Benjamin Cho, Leo Orshansky, Ashish Kumar Singh, Mattan Erez, and Michael Orshansky(参考訳) 現代のレコメンデーションシステムは、カテゴリの特徴の実際の価値埋め込みに依存している。 埋め込みベクトルの次元を増加させることでモデルの精度は向上するが、モデルのサイズには高いコストがかかる。 モデルサイズトレードオフよりも優れた埋め込み精度を導出するために, 線形層による埋め込みを訓練する多層埋め込み訓練(MLET)アーキテクチャを導入する。 本手法は, 線形層を分解し, 単一の線形層に対して優れた埋め込みを実現できることに基づく。 本稿では,2層方式の解析と実装に焦点をあてる。 線形ニューラルネットワークにおけるバックプロパゲーションのダイナミクスの最近の結果に言及し、より優れた多層埋め込みを実現する能力について説明する。 隠れた層の幅が最終埋め込み(d)の幅よりもはるかに大きい場合において、実質的な利点が得られることを示す。 重要なことに、トレーニングの結論として、2層解を単層解に変換する: 結果として、推論時間モデルのサイズはdとしてスケールする。 我々は、FacebookのPyTorchベースのオープンソースのDeep Learning Recommendation ModelでMLETスキームをプロトタイプする。 その結果,dを4~8倍削減でき,メモリフットプリントが改善され,モデルの精度が向上した。 実験は2つの公開クリックスルーレート予測ベンチマーク(Criteo-KaggleとAvazu)で実施されている。 MLETのランタイムコストは平均25%である。

Modern recommendation systems rely on real-valued embeddings of categorical features. Increasing the dimension of embedding vectors improves model accuracy but comes at a high cost to model size. We introduce a multi-layer embedding training (MLET) architecture that trains embeddings via a sequence of linear layers to derive superior embedding accuracy vs. model size trade-off. Our approach is fundamentally based on the ability of factorized linear layers to produce superior embeddings to that of a single linear layer. We focus on the analysis and implementation of a two-layer scheme. Harnessing the recent results in dynamics of backpropagation in linear neural networks, we explain the ability to get superior multi-layer embeddings via their tendency to have lower effective rank. We show that substantial advantages are obtained in the regime where the width of the hidden layer is much larger than that of the final embedding (d). Crucially, at conclusion of training, we convert the two-layer solution into a single-layer one: as a result, the inference-time model size scales as d. We prototype the MLET scheme within Facebook's PyTorch-based open-source Deep Learning Recommendation Model. We show that it allows reducing d by 4-8X, with a corresponding improvement in memory footprint, at given model accuracy. The experiments are run on two publicly available click-through-rate prediction benchmarks (Criteo-Kaggle and Avazu). The runtime cost of MLET is 25%, on average.
翻訳日:2022-11-23 04:32:03 公開日:2020-06-10
# 低ランク非巡回グラフと因果構造学習

Low Rank Directed Acyclic Graphs and Causal Structure Learning ( http://arxiv.org/abs/2006.05691v1 )

ライセンス: Link先を確認
Zhuangyan Fang, Shengyu Zhu, Jiji Zhang, Yue Liu, Zhitang Chen, Yangbo He(参考訳) 近年のいくつかの重要な進歩にもかかわらず、有向非巡回グラフ(DAG)で表される学習因果構造は、学習すべきグラフがスパースでない場合、高次元設定において難しい課題である。 特に、連続最適化問題としての最近の構造学習の定式化は、従来の組合せ的定式化よりもかなりのアドバンテージがあることが証明されたが、対象グラフが比較的大きく密度が高い場合、結果として得られるアルゴリズムの性能は依然として期待されている。 本稿では,DAG因果モデルの(重み付けされた)隣接行列に関する低階仮定を利用して,この問題を軽減する新しい手法を提案する。 低ランクの仮定に対して解釈可能なグラフィカル条件を関連づけた有用な結果をいくつか確立し,この仮定を生かした因果構造学習に既存の手法を適用する方法を示す。 また、低ランクアルゴリズム、特にスパースでないグラフの有用性に関する実証的な証拠も提供しています。 低ランク条件を満たすときだけでなく、ランダムに生成されたスケールフリーグラフのパフォーマンスも、真のランクが想定されるほど低くないにもかかわらず、非常に競争力がある。

Despite several important advances in recent years, learning causal structures represented by directed acyclic graphs (DAGs) remains a challenging task in high dimensional settings when the graphs to be learned are not sparse. In particular, the recent formulation of structure learning as a continuous optimization problem proved to have considerable advantages over the traditional combinatorial formulation, but the performance of the resulting algorithms is still wanting when the target graph is relatively large and dense. In this paper we propose a novel approach to mitigate this problem, by exploiting a low rank assumption regarding the (weighted) adjacency matrix of a DAG causal model. We establish several useful results relating interpretable graphical conditions to the low rank assumption, and show how to adapt existing methods for causal structure learning to take advantage of this assumption. We also provide empirical evidence for the utility of our low rank algorithms, especially on graphs that are not sparse. Not only do they outperform state-of-the-art algorithms when the low rank condition is satisfied, the performance on randomly generated scale-free graphs is also very competitive even though the true ranks may not be as low as is assumed.
翻訳日:2022-11-23 04:31:02 公開日:2020-06-10
# 深層学習における大規模バッチトレーニングのための外挿法

Extrapolation for Large-batch Training in Deep Learning ( http://arxiv.org/abs/2006.05720v1 )

ライセンス: Link先を確認
Tao Lin, Lingjing Kong, Sebastian U. Stich, Martin Jaggi(参考訳) ディープラーニングネットワークは、訓練データのごくわずかな部分の勾配を推定することによってモデルパラメータを反復的に改善するSGD(Stochastic Gradient Descent)法によって訓練される。 トレーニング時間を改善するためのトレーニングデータのかなりの部分にバッチサイズを拡大する際に直面する大きな障害は、パフォーマンスの持続的劣化(一般化ギャップ)である。 この問題に対処するため,最近の研究では,確率勾配を計算する際にモデルパラメータに小さな摂動を加え,平滑化効果による一般化性能の向上を報告している。 しかし、このアプローチはよく理解されておらず、しばしばモデル固有のノイズと微調整を必要とする。 これらの欠点を軽減するため,計算効率のよい外挿法(外挿法)を用いて最適化軌道の安定化を図ることを提案する。 この原理に基づくアプローチは最適化の観点から十分に基礎を置き、我々が提案する一連のバリエーションを統一したフレームワークでカバーできることを示す。 本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。 様々な実験において,SOTAの精度を達成または超過しながら,従来よりもはるかに大きなバッチサイズにスケールできることを示した。

Deep learning networks are typically trained by Stochastic Gradient Descent (SGD) methods that iteratively improve the model parameters by estimating a gradient on a very small fraction of the training data. A major roadblock faced when increasing the batch size to a substantial fraction of the training data for improving training time is the persistent degradation in performance (generalization gap). To address this issue, recent work propose to add small perturbations to the model parameters when computing the stochastic gradients and report improved generalization performance due to smoothing effects. However, this approach is poorly understood; it requires often model-specific noise and fine-tuning. To alleviate these drawbacks, we propose to use instead computationally efficient extrapolation (extragradient) to stabilize the optimization trajectory while still benefiting from smoothing to avoid sharp minima. This principled approach is well grounded from an optimization perspective and we show that a host of variations can be covered in a unified framework that we propose. We prove the convergence of this novel scheme and rigorously evaluate its empirical performance on ResNet, LSTM, and Transformer. We demonstrate that in a variety of experiments the scheme allows scaling to much larger batch sizes than before whilst reaching or surpassing SOTA accuracy.
翻訳日:2022-11-23 04:30:17 公開日:2020-06-10
# 干渉グラフ変換:深部教師なしグラフ表現

Interferometric Graph Transform: a Deep Unsupervised Graph Representation ( http://arxiv.org/abs/2006.05722v1 )

ライセンス: Link先を確認
Edouard Oyallon (MLIA)(参考訳) 本稿では,グラフ表現を構築するための深い教師なしグラフ畳み込みニューラルネットワークのクラスであるinterferometric graph transform (igt)を提案する。 最初のコントリビューションは、ユークリッドフーリエ変換の一般化から得られる一般化された複素数値スペクトルグラフアーキテクチャを提案することである。 我々の学習した表現は、新しい欲望のあるコンケーブの目的により、判別的特徴と不変特徴の両方から成り立っている。 実験の結果,本手法はスペクトル領域のトポロジを利用しており,これは通常スペクトル手法の欠陥であり,特に視覚タスクの解析演算子を復元する手法であることがわかった。 我々は,画像分類 (MNIST, CIFAR-10), コミュニティ検出 (認証, Facebook グラフ), 3Dスケルトンビデオ (SBU, NTU) からの行動認識 (SBU, NTU) などの課題に対して,スペクトルグラフの教師なし設定において,新たな最先端性を示すアルゴリズムを検証した。

We propose the Interferometric Graph Transform (IGT), which is a new class of deep unsupervised graph convolutional neural network for building graph representations. Our first contribution is to propose a generic, complex-valued spectral graph architecture obtained from a generalization of the Euclidean Fourier transform. We show that our learned representation consists of both discriminative and invariant features, thanks to a novel greedy concave objective. From our experiments, we conclude that our learning procedure exploits the topology of the spectral domain, which is normally a flaw of spectral methods, and in particular our method can recover an analytic operator for vision tasks. We test our algorithm on various and challenging tasks such as image classification (MNIST, CIFAR-10), community detection (Authorship, Facebook graph) and action recognition from 3D skeletons videos (SBU, NTU), exhibiting a new state-of-the-art in spectral graph unsupervised settings.
翻訳日:2022-11-23 04:29:56 公開日:2020-06-10
# 関係領域に対する適合Q-Learning

Fitted Q-Learning for Relational Domains ( http://arxiv.org/abs/2006.05595v1 )

ライセンス: Link先を確認
Srijita Das, Sriraam Natarajan, Kaushik Roy, Ronald Parr and Kristian Kersting(参考訳) 関係領域における近似動的プログラミングの問題点を考察する。 提案条件下での適合Q-ラーニング手法の成功に触発されて,値関数とベルマン残差を表現した最初の関係適合Q-ラーニングアルゴリズムを開発した。 Q-関数に適合すると、ベルマン作用素の2つのステップ、すなわち、勾配ブースティング手法を用いて、応用と射影のステップが実行可能であることを示す。 提案フレームワークは、ドメインモデルを用いることなく、トレーニングトラジェクトリを少なくすることなく、標準ドメインで合理的に機能する。

We consider the problem of Approximate Dynamic Programming in relational domains. Inspired by the success of fitted Q-learning methods in propositional settings, we develop the first relational fitted Q-learning algorithms by representing the value function and Bellman residuals. When we fit the Q-functions, we show how the two steps of Bellman operator; application and projection steps can be performed using a gradient-boosting technique. Our proposed framework performs reasonably well on standard domains without using domain models and using fewer training trajectories.
翻訳日:2022-11-23 04:23:22 公開日:2020-06-10
# グラフを用いた対比多視点表現学習

Contrastive Multi-View Representation Learning on Graphs ( http://arxiv.org/abs/2006.05582v1 )

ライセンス: Link先を確認
Kaveh Hassani and Amir Hosein Khasahmadi(参考訳) グラフの構造的ビューを対比することにより,ノードとグラフレベルの表現を学習するための自己教師型アプローチを導入する。 視覚表現学習とは異なり,2 以上のビュー数の増加やマルチスケールエンコーディングでは性能が向上せず,一階近傍からのエンコーディングとグラフ拡散を対比することにより,最高の性能が得られることを示す。 線形評価プロトコルを用いて,8ノード中8ノードの自己教師型学習とグラフ分類ベンチマークを新たに実現した。 例えば、cora (node) と reddit-binary (graph) の分類ベンチマークでは、86.8% と 84.5% の精度を達成しています。 教師付きベースラインと比較すると、我々のアプローチは8つのベンチマークのうち4つで優れています。 ソースコード: https://github.com/kavehhassani/mvgrl

We introduce a self-supervised approach for learning node and graph level representations by contrasting structural views of graphs. We show that unlike visual representation learning, increasing the number of views to more than two or contrasting multi-scale encodings do not improve performance, and the best performance is achieved by contrasting encodings from first-order neighbors and a graph diffusion. We achieve new state-of-the-art results in self-supervised learning on 8 out of 8 node and graph classification benchmarks under the linear evaluation protocol. For example, on Cora (node) and Reddit-Binary (graph) classification benchmarks, we achieve 86.8% and 84.5% accuracy, which are 5.5% and 2.4% relative improvements over previous state-of-the-art. When compared to supervised baselines, our approach outperforms them in 4 out of 8 benchmarks. Source code is released at: https://github.com/kavehhassani/mvgrl
翻訳日:2022-11-23 04:22:20 公開日:2020-06-10
# 樹木構造イジングモデルのロバスト推定

Robust Estimation of Tree Structured Ising Models ( http://arxiv.org/abs/2006.05601v1 )

ライセンス: Link先を確認
Ashish Katiyar, Vatsal Shah, Constantine Caramanis(参考訳) 異なる確率変数の符号が独立に反転し、おそらく不平等で未知の確率を持つ場合、イジングモデルを学ぶタスクを考える。 本稿では,木構造イジングモデルのロバストな推定問題に焦点をあてる。 追加のサイド情報の仮定がなければ、これはオープンな問題です。 この問題はまず同定不能であることが証明されるが、この識別不能性は葉ノードが隣接ノードとの位置を交換することによって形成される木の小さな同値類に限られる。 次に,ノード数と多項式実行時複雑性における対数的サンプル複雑性の問題を解くアルゴリズムを提案する。 最後に,本アルゴリズムが基礎となる同値クラスを正しくリカバリするのに対し,既存のアルゴリズムは提案手法では本質的に頑健ではないことを実証的に示す。

We consider the task of learning Ising models when the signs of different random variables are flipped independently with possibly unequal, unknown probabilities. In this paper, we focus on the problem of robust estimation of tree-structured Ising models. Without any additional assumption of side information, this is an open problem. We first prove that this problem is unidentifiable, however, this unidentifiability is limited to a small equivalence class of trees formed by leaf nodes exchanging positions with their neighbors. Next, we propose an algorithm to solve the above problem with logarithmic sample complexity in the number of nodes and polynomial run-time complexity. Lastly, we empirically demonstrate that, as expected, existing algorithms are not inherently robust in the proposed setting whereas our algorithm correctly recovers the underlying equivalence class.
翻訳日:2022-11-23 04:21:39 公開日:2020-06-10
# 大治療空間における因果推論に対する後悔の最小化

Regret Minimization for Causal Inference on Large Treatment Space ( http://arxiv.org/abs/2006.05616v1 )

ライセンス: Link先を確認
Akira Tanimoto, Tomoya Sakai, Takashi Takenouchi, Hisashi Kashima(参考訳) どのアクション(処理)がより良い結果をもたらすかを予測することは、意思決定支援システムにおける中心的なタスクである。 実環境下で予測モデルを構築するためには,偏りのある観測データから学ぶことが,ランダム化制御試験(rct)データの欠如による重要な課題である。 このような偏りのある観察データを扱うために、近年の因果推論と反ファクト機械学習の取り組みは、二元的行動空間における潜在的な結果、すなわち個々の治療効果の差を偏りなく推定することに焦点を当てている。 しかし、大きな行動空間(例えば、患者のための薬の適切な組み合わせの選択)に関しては、潜在的な結果の回帰精度は、適切な意思決定性能を達成するにはもはや不十分である。 これは、大きなアクション空間における平均的精度が、決定全体を誤解させる可能性のある単一の潜在的結果誤推定の非存在を保証しないためである。 提案した損失は, 個々の目標に対して比較的良好な動作であるか否かの分類誤差を最小限に抑え, 決定性能をさらに向上させる。 また、ネットワークアーキテクチャと、個々の特徴だけでなく、大きな動作空間におけるより良い一般化のために偏りのある動作から偏りのある表現を抽出する正規化子を提案する。 合成および半合成データセットに関する広範な実験は、大規模組合せ作用空間に対するこの手法の優越性を示している。

Predicting which action (treatment) will lead to a better outcome is a central task in decision support systems. To build a prediction model in real situations, learning from biased observational data is a critical issue due to the lack of randomized controlled trial (RCT) data. To handle such biased observational data, recent efforts in causal inference and counterfactual machine learning have focused on debiased estimation of the potential outcomes on a binary action space and the difference between them, namely, the individual treatment effect. When it comes to a large action space (e.g., selecting an appropriate combination of medicines for a patient), however, the regression accuracy of the potential outcomes is no longer sufficient in practical terms to achieve a good decision-making performance. This is because the mean accuracy on the large action space does not guarantee the nonexistence of a single potential outcome misestimation that might mislead the whole decision. Our proposed loss minimizes a classification error of whether or not the action is relatively good for the individual target among all feasible actions, which further improves the decision-making performance, as we prove. We also propose a network architecture and a regularizer that extracts a debiased representation not only from the individual feature but also from the biased action for better generalization in large action spaces. Extensive experiments on synthetic and semi-synthetic datasets demonstrate the superiority of our method for large combinatorial action spaces.
翻訳日:2022-11-23 04:20:59 公開日:2020-06-10
# フレキシブルアクティベーション関数によるニューラルネットワークのスケーラブル部分説明可能性

Scalable Partial Explainability in Neural Networks via Flexible Activation Functions ( http://arxiv.org/abs/2006.06057v1 )

ライセンス: Link先を確認
Schyler C. Sun, Chen Li, Zhuangkun Wei, Antonios Tsourdos, Weisi Guo(参考訳) ブラックボックスのディープラーニングアルゴリズムにおける透明性の実現は、まだ未解決の課題である。 ディープニューラルネットワーク(NN)によって与えられる高次元の特徴と決定は、そのメカニズムを公開するために新しいアルゴリズムと方法を必要とする。 現在の最先端NN解釈手法(例えば、Saliency map、DeepLIFT、LIMEなど)は、NNの構造や操作自体よりも、NN出力と入力との直接的な関係に重点を置いている。 現在のディープNN操作では、ニューロンが活性化機能を固定する正確な役割について不確実性がある。 本稿では,スケーラブルなトポロジの下でのアクティベーション関数(AF)の役割を象徴的に説明することにより,部分的に説明可能な学習モデルを実現する。 これは、KST(Kolmogorov-Arnold Superposition Theorem)に基づいて、新しいスケーラブルNNトポロジー内に位置する適応ガウス過程(GP)としてAFをモデル化することで実現される。 このスケーラブルNNアーキテクチャでは、AFは制御点間のGP補間によって生成され、勾配勾配によるバックプロパゲーション手順で調整することができる。 制御点はAFの局所的および大域的調整可能性のコアイネーブルとして機能し、GP補間は過度な適合を避けるために内在的自己相関を制約する。 線形KSTトポロジースケーリングでは,NNの表現力と解釈の複雑さの間にトレードオフが存在することを示す。 そこで本研究では,銀行券認証のバイナリ分類データセットについて事例研究を行う。 入力と出力のマッピング関係を定量的に定性的に調べることで,各1次元属性に対する解釈を提供することができる。 これらの初期の結果は、我々のモデルがディープニューラルネットワークの最終解釈層として機能する可能性を示唆している。

Achieving transparency in black-box deep learning algorithms is still an open challenge. High dimensional features and decisions given by deep neural networks (NN) require new algorithms and methods to expose its mechanisms. Current state-of-the-art NN interpretation methods (e.g. Saliency maps, DeepLIFT, LIME, etc.) focus more on the direct relationship between NN outputs and inputs rather than the NN structure and operations itself. In current deep NN operations, there is uncertainty over the exact role played by neurons with fixed activation functions. In this paper, we achieve partially explainable learning model by symbolically explaining the role of activation functions (AF) under a scalable topology. This is carried out by modeling the AFs as adaptive Gaussian Processes (GP), which sit within a novel scalable NN topology, based on the Kolmogorov-Arnold Superposition Theorem (KST). In this scalable NN architecture, the AFs are generated by GP interpolation between control points and can thus be tuned during the back-propagation procedure via gradient descent. The control points act as the core enabler to both local and global adjustability of AF, where the GP interpolation constrains the intrinsic autocorrelation to avoid over-fitting. We show that there exists a trade-off between the NN's expressive power and interpretation complexity, under linear KST topology scaling. To demonstrate this, we perform a case study on a binary classification dataset of banknote authentication. By quantitatively and qualitatively investigating the mapping relationship between inputs and output, our explainable model can provide interpretation over each of the one-dimensional attributes. These early results suggest that our model has the potential to act as the final interpretation layer for deep neural networks.
翻訳日:2022-11-23 04:13:58 公開日:2020-06-10
# 決定論的ガウス平均ニューラルネットワーク

Deterministic Gaussian Averaged Neural Networks ( http://arxiv.org/abs/2006.06061v1 )

ライセンス: Link先を確認
Ryan Campbell, Chris Finlay, Adam M Oberman(参考訳) 本稿では,回帰と分類に用いられるニューラルネットワークのガウス平均を計算する決定論的手法を提案する。 本手法は,特定の正規化損失を伴うトレーニングとガウス平均の期待値との等価性に基づく。 この等価性を利用して、クリーンなデータでうまく機能するが、敵の摂動に対して堅牢でないモデルを認証する。 本手法は,確率的平滑化法のような既知の確率的手法に匹敵するものの,推論中に1つのモデル評価しか必要としない。

We present a deterministic method to compute the Gaussian average of neural networks used in regression and classification. Our method is based on an equivalence between training with a particular regularized loss, and the expected values of Gaussian averages. We use this equivalence to certify models which perform well on clean data but are not robust to adversarial perturbations. In terms of certified accuracy and adversarial robustness, our method is comparable to known stochastic methods such as randomized smoothing, but requires only a single model evaluation during inference.
翻訳日:2022-11-23 04:13:00 公開日:2020-06-10
# NSF Future Directions Workshop, toward User-Oriented Agents: Research Directions and Challenges 参加報告

Report from the NSF Future Directions Workshop, Toward User-Oriented Agents: Research Directions and Challenges ( http://arxiv.org/abs/2006.06026v1 )

ライセンス: Link先を確認
Maxine Eskenazi, Tiancheng Zhao(参考訳) このUSERワークショップは、急成長する知的エージェント研究コミュニティのための将来の研究方向性を定義し、それらを国立科学財団に伝えることを目標に招集された。 2019年10月24日と25日にペンシルベニア州ピッツバーグで開催され、National Science Foundation Grant Number IIS-1934222によって後援された。 この文書で示される意見、発見、結論、将来の方向性は著者のものであり、必ずしも国立科学財団の見解を反映していない。 27名の参加者が個人研究の関心と個人研究の目標を提示した。 その後のブレイクアウトセッションでは、参加者は知的エージェントのドメイン内の主な研究領域を定義し、この分野の各分野の研究が行うべき主要な今後の方向性について論じた。

This USER Workshop was convened with the goal of defining future research directions for the burgeoning intelligent agent research community and to communicate them to the National Science Foundation. It took place in Pittsburgh Pennsylvania on October 24 and 25, 2019 and was sponsored by National Science Foundation Grant Number IIS-1934222. Any opinions, findings and conclusions or future directions expressed in this document are those of the authors and do not necessarily reflect the views of the National Science Foundation. The 27 participants presented their individual research interests and their personal research goals. In the breakout sessions that followed, the participants defined the main research areas within the domain of intelligent agents and they discussed the major future directions that the research in each area of this domain should take
翻訳日:2022-11-23 04:12:48 公開日:2020-06-10
# 遅延依存伝達とラベル付きタスク適応投影ネットワークを用いたショットスロットタギング

Few-shot Slot Tagging with Collapsed Dependency Transfer and Label-enhanced Task-adaptive Projection Network ( http://arxiv.org/abs/2006.05702v1 )

ライセンス: Link先を確認
Yutai Hou, Wanxiang Che, Yongkui Lai, Zhihan Zhou, Yijia Liu, Han Liu, Ting Liu(参考訳) 本稿では,数個のラベル付きサポート文(すなわち,少数ショット)でスロットタグ付けを行う。 ラベル間の依存関係をモデル化することを要求する他のいくつかのショット分類問題と比較すると、タグ付けはユニークな課題に直面している。 しかし、ラベルセットの不一致のため、事前に学習したラベル依存を未認識のドメインに適用することは困難である。 そこで我々は,条件付き確率場 (crf) に,抽象ラベル依存パターンを遷移スコアとして転送するために,崩壊した依存性伝達機構を導入する。 少数ショット設定では、各ラベルの表現と単語の類似性としてCRFの発光スコアを算出することができる。 このような類似性を計算するために,ラベル名セマンティクスをラベル表現に活用して,最先端の複数ショット分類モデルであるTapNetに基づくラベル付きタスク適応プロジェクションネットワーク(L-TapNet)を提案する。 実験結果から,本モデルは1ショット設定で14.64点のF1スコアで最強の学習ベースラインを著しく上回ることがわかった。

In this paper, we explore the slot tagging with only a few labeled support sentences (a.k.a. few-shot). Few-shot slot tagging faces a unique challenge compared to the other few-shot classification problems as it calls for modeling the dependencies between labels. But it is hard to apply previously learned label dependencies to an unseen domain, due to the discrepancy of label sets. To tackle this, we introduce a collapsed dependency transfer mechanism into the conditional random field (CRF) to transfer abstract label dependency patterns as transition scores. In the few-shot setting, the emission score of CRF can be calculated as a word's similarity to the representation of each label. To calculate such similarity, we propose a Label-enhanced Task-Adaptive Projection Network (L-TapNet) based on the state-of-the-art few-shot classification model -- TapNet, by leveraging label name semantics in representing labels. Experimental results show that our model significantly outperforms the strongest few-shot learning baseline by 14.64 F1 scores in the one-shot setting.
翻訳日:2022-11-23 04:11:55 公開日:2020-06-10
# 性別が危険か? MuST-SHEコーパスにおける音声翻訳技術の評価

Gender in Danger? Evaluating Speech Translation Technology on the MuST-SHE Corpus ( http://arxiv.org/abs/2006.05754v1 )

ライセンス: Link先を確認
Luisa Bentivogli and Beatrice Savoldi and Matteo Negri and Mattia Antonino Di Gangi and Roldano Cattoni and Marco Turchi(参考訳) 英語のような生産的な文法的性別のない言語からジェンダーマーク付き言語への翻訳は、機械にとってよく知られた困難である。 この難しさは、モデルが構築されているトレーニングデータが典型的に自然言語の対称性を反映しているという事実による。 テキストデータで排他的に入力される機械翻訳は、入力文が参照された人間の性同一性に関する手がかりを常に含んでいないという事実によって本質的に制約される。 しかし、入力が音声信号である音声翻訳ではどうなるのか? オーディオは性別バイアスを減らすために追加情報を提供できるか? 音声翻訳におけるジェンダーバイアスに関する最初の徹底的な調査について述べる。 一 将来の研究に有用なベンチマークのリリース、及び 二 二つの言語方向(英語・イタリア語/フランス語)の異なる技術(カスケード及びエンドツーエンド)の比較

Translating from languages without productive grammatical gender like English into gender-marked languages is a well-known difficulty for machines. This difficulty is also due to the fact that the training data on which models are built typically reflect the asymmetries of natural languages, gender bias included. Exclusively fed with textual data, machine translation is intrinsically constrained by the fact that the input sentence does not always contain clues about the gender identity of the referred human entities. But what happens with speech translation, where the input is an audio signal? Can audio provide additional information to reduce gender bias? We present the first thorough investigation of gender bias in speech translation, contributing with: i) the release of a benchmark useful for future studies, and ii) the comparison of different technologies (cascade and end-to-end) on two language directions (English-Italian/French).
翻訳日:2022-11-23 04:11:08 公開日:2020-06-10
# 交差点における運転意図予測のための注意機構を用いた深層学習

Deep Learning with Attention Mechanism for Predicting Driver Intention at Intersection ( http://arxiv.org/abs/2006.05918v1 )

ライセンス: Link先を確認
Abenezer Girma, Seifemichael Amsalu, Abrham Workineh, Mubbashar Khan, Abdollah Homaifar(参考訳) 本稿では,道路交差点付近での運転者の意図予測を提案する。 提案手法では,HSS(Hybrid-state System)フレームワークに基づく注目機構モデルを備えた,双方向長短期記憶(LSTM)を用いる。 交差点は交通事故の主な原因の1つと考えられているため、交差点でのドライバーの意図を予測することは非常に重要である。 本手法では,速度やヨーレートなどの時系列データから時間情報を効果的に活用するために,注意機構を備えたシーケンスモデリングを行う。 モデルでは、目標の車両/ドライバーが直進するか、停止するか、または右折するかを事前に予測する。 提案手法の性能は,自然主義的駆動データセット上で評価され,本手法は他の手法よりも高い精度と高い精度が得られることを示した。 提案手法は、高度運転支援システム(ADAS)および自動運転車のアクティブ安全システムの一部として適用されることを約束している。

In this paper, a driver's intention prediction near a road intersection is proposed. Our approach uses a deep bidirectional Long Short-Term Memory (LSTM) with an attention mechanism model based on a hybrid-state system (HSS) framework. As intersection is considered to be as one of the major source of road accidents, predicting a driver's intention at an intersection is very crucial. Our method uses a sequence to sequence modeling with an attention mechanism to effectively exploit temporal information out of the time-series vehicular data including velocity and yaw-rate. The model then predicts ahead of time whether the target vehicle/driver will go straight, stop, or take right or left turn. The performance of the proposed approach is evaluated on a naturalistic driving dataset and results show that our method achieves high accuracy as well as outperforms other methods. The proposed solution is promising to be applied in advanced driver assistance systems (ADAS) and as part of active safety system of autonomous vehicles.
翻訳日:2022-11-23 04:05:10 公開日:2020-06-10
# 複数のデモから学ぶベイズ経験

Bayesian Experience Reuse for Learning from Multiple Demonstrators ( http://arxiv.org/abs/2006.05725v1 )

ライセンス: Link先を確認
Michael Gimelfarb, Scott Sanner, Chi-Guhn Lee(参考訳) 実演からの学習(lfd)は、専門家のデモンストレーションを取り入れることで、学習エージェントの探索効率を向上させる。 しかし、デモデータは相反する目標を持つ複数の専門家から来ることが多く、オンライン設定に安全かつ効果的に組み込むのが困難である。 本稿では,静的および動的最適化設定において,正規逆ガンマ前駆体を用いて対象タスク関数の不確かさをモデル化することでこの問題に対処し,共通特徴を持つベイズ型ニューラルネットワークを用いた実演と対象データから対応する事後関係を学習する。 この学習された信念を用いて、解がエキスパートモデルに確率分布をもたらす二次プログラミング問題を導出する。 最後に,この分布に応じて実演をサンプル化し,それらを新しいタスクで直接再利用するために,Bayesian Experience Reuse (BERS)を提案する。 コスト不確実性のある高次元サプライチェーン問題において,滑らかな関数の静的最適化と伝達学習に本手法の有効性を示す。

Learning from demonstrations (LfD) improves the exploration efficiency of a learning agent by incorporating demonstrations from experts. However, demonstration data can often come from multiple experts with conflicting goals, making it difficult to incorporate safely and effectively in online settings. We address this problem in the static and dynamic optimization settings by modelling the uncertainty in source and target task functions using normal-inverse-gamma priors, whose corresponding posteriors are, respectively, learned from demonstrations and target data using Bayesian neural networks with shared features. We use this learned belief to derive a quadratic programming problem whose solution yields a probability distribution over the expert models. Finally, we propose Bayesian Experience Reuse (BERS) to sample demonstrations in accordance with this distribution and reuse them directly in new tasks. We demonstrate the effectiveness of this approach for static optimization of smooth functions, and transfer learning in a high-dimensional supply chain problem with cost uncertainty.
翻訳日:2022-11-23 04:04:19 公開日:2020-06-10
# 音声認識誤りに頑健なダイアログモデルのトレーニングのためのデータ拡張

Data Augmentation for Training Dialog Models Robust to Speech Recognition Errors ( http://arxiv.org/abs/2006.05635v1 )

ライセンス: Link先を確認
Longshaokan Wang, Maryam Fazel-Zarandi, Aditya Tiwari, Spyros Matsoukas, Lazaros Polymenakos(参考訳) Amazon Alexa、Google Assistant、Apple Siriなどの音声ベースのバーチャルアシスタントは、通常、ユーザーの音声信号を自動音声認識(ASR)を通じてテキストデータに変換し、自然言語理解と応答生成のための下流ダイアログモデルにテキストを供給します。 ASR出力はエラーを起こしやすいが、下流のダイアログモデルはしばしばエラーのないテキストデータに基づいて訓練され、推論時間中にASRエラーに敏感になる。 このギャップを埋めて、ASRエラーに対してより堅牢なダイアログモデルを構築するために、ASRエラーシミュレータを用いてエラーのないテキストデータにノイズを注入し、次に拡張データでダイアログモデルを訓練する。 ASR格子やエンドツーエンドメソッドなどの他のASRエラー処理手法と比較して、データ拡張アプローチでは、ASRや下流のダイアログモデルの変更は不要である。 我々は,ベンチマークデータに対する広範な実験を行い,ASRエラーが存在する場合の下流ダイアログモデルの性能向上を示すとともに,モデルサイズに制約がある場合やトレーニングデータが少ない場合の低リソース環境では特に有効であることを示す。

Speech-based virtual assistants, such as Amazon Alexa, Google assistant, and Apple Siri, typically convert users' audio signals to text data through automatic speech recognition (ASR) and feed the text to downstream dialog models for natural language understanding and response generation. The ASR output is error-prone; however, the downstream dialog models are often trained on error-free text data, making them sensitive to ASR errors during inference time. To bridge the gap and make dialog models more robust to ASR errors, we leverage an ASR error simulator to inject noise into the error-free text data, and subsequently train the dialog models with the augmented data. Compared to other approaches for handling ASR errors, such as using ASR lattice or end-to-end methods, our data augmentation approach does not require any modification to the ASR or downstream dialog models; our approach also does not introduce any additional latency during inference time. We perform extensive experiments on benchmark data and show that our approach improves the performance of downstream dialog models in the presence of ASR errors, and it is particularly effective in the low-resource situations where there are constraints on model size or the training data is scarce.
翻訳日:2022-11-23 04:04:02 公開日:2020-06-10
# マイクロブログのための新しい文埋め込みに基づく話題検出手法

A novel sentence embedding based topic detection method for micro-blog ( http://arxiv.org/abs/2006.09977v1 )

ライセンス: Link先を確認
Cong Wan, Shan Jiang, Cuirong Wang, Cong Wang, Changming Xu, Xianxia Chen, Ying Yuan(参考訳) トピック検出は、特にトピックの正確な数を知らずに難しいタスクである。 本稿では,マイクロブログデータセット内のトピックを検出するニューラルネットワークに基づく新しい手法を提案する。 ブログを埋め込み空間にマッピングするために、教師なしのニューラル文埋め込みモデルを使用します。 我々のモデルは重み付きパワー平均単語埋め込みモデルであり,重みは注意機構によって計算される。 実験の結果,本手法は文クラスタリングにおいてベースラインよりも優れた性能を示す。 さらに,関係対応DBSCAN (RADBSCAN) と呼ばれる改良されたクラスタリングアルゴリズムを提案する。 マイクロブロッギングデータセットからトピックを見つけることができ、トピック番号はデータセットの文字自身に依存する。 さらに,パラメータに敏感な問題を解くために,ブログフォワード関係を2つの独立したクラスタのブリッジとして扱う。 最後に,シナマイクロブログからのデータセットに対するアプローチを検証する。 その結果、すべてのトピックをうまく検出し、各トピックのキーワードを抽出することができる。

Topic detection is a challenging task, especially without knowing the exact number of topics. In this paper, we present a novel approach based on neural network to detect topics in the micro-blogging dataset. We use an unsupervised neural sentence embedding model to map the blogs to an embedding space. Our model is a weighted power mean word embedding model, and the weights are calculated by attention mechanism. Experimental result shows our embedding method performs better than baselines in sentence clustering. In addition, we propose an improved clustering algorithm referred as relationship-aware DBSCAN (RADBSCAN). It can discover topics from a micro-blogging dataset, and the topic number depends on dataset character itself. Moreover, in order to solve the problem of parameters sensitive, we take blog forwarding relationship as a bridge of two independent clusters. Finally, we validate our approach on a dataset from sina micro-blog. The result shows that we can detect all the topics successfully and extract keywords in each topic.
翻訳日:2022-11-23 04:03:26 公開日:2020-06-10