このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201105となっている論文です。

PDF登録状況(公開日: 20201105)

TitleAuthorsAbstract論文公表日・翻訳日
# 会話型機械理解:文献レビュー

Conversational Machine Comprehension: a Literature Review ( http://arxiv.org/abs/2006.00671v2 )

ライセンス: Link先を確認
Somil Gupta, Bhanu Pratap Singh Rawat, Hong Yu(参考訳) conversational machine comprehension(cmc)は、会話型aiの研究トラックであり、オープンドメインの自然言語テキストを理解し、その後マルチターン会話を行い、テキストに関する質問に答えることを期待している。 Machine Reading Comprehension(MRC)の研究は、シングルターン質問応答(QA)を中心に展開されているが、BERTのようなニューラルネットワークモデルによる自然言語理解の進歩と、CoQAやQuACといった大規模会話データセットの導入により、近年、マルチターンCMCが注目されている。 しかし、関心の高まりは、それぞれ異なるが構造的に類似したモデリングアプローチと周囲の文学の一貫性のない見解を持つ同時出版物が相次いだ。 会話型データセットへのモデルの提出数が毎年増加する中、将来の研究を合理化するために、この領域に散在する知識を統合する必要がある。 本論文は,最近公開されたモデルの共通傾向,特に会話史に取り組むためのアプローチに着目し,cmcの全体的概要を提供する試みをレビューする。 このレビューは、最近のアプローチの違いを強調しつつ、MCCモデルの汎用フレームワークを合成し、将来の研究者のためのMCCのコンペディションとして機能することを目的としている。

Conversational Machine Comprehension (CMC), a research track in conversational AI, expects the machine to understand an open-domain natural language text and thereafter engage in a multi-turn conversation to answer questions related to the text. While most of the research in Machine Reading Comprehension (MRC) revolves around single-turn question answering (QA), multi-turn CMC has recently gained prominence, thanks to the advancement in natural language understanding via neural language models such as BERT and the introduction of large-scale conversational datasets such as CoQA and QuAC. The rise in interest has, however, led to a flurry of concurrent publications, each with a different yet structurally similar modeling approach and an inconsistent view of the surrounding literature. With the volume of model submissions to conversational datasets increasing every year, there exists a need to consolidate the scattered knowledge in this domain to streamline future research. This literature review attempts at providing a holistic overview of CMC with an emphasis on the common trends across recently published models, specifically in their approach to tackling conversational history. The review synthesizes a generic framework for CMC models while highlighting the differences in recent approaches and intends to serve as a compendium of CMC for future researchers.
翻訳日:2022-11-26 06:57:26 公開日:2020-11-05
# REINFORCEとTransformersによるハイパーパラメータ最適化

Hyperparameter optimization with REINFORCE and Transformers ( http://arxiv.org/abs/2006.00939v4 )

ライセンス: Link先を確認
Chepuri Shri Krishna, Ashish Gupta, Swarnim Narayan, Himanshu Rai, and Diksha Manchanda(参考訳) Reinforcement Learningは、Neural Architecture Search(NAS)の有望な結果を得た。 本稿では,ポリシーネットワークをモデル化するための簡易トランスフォーマーブロックを用いて,その性能をいかに改善できるかを示す。 単純化されたトランスは、2-stream attention-basedメカニズムを使用してハイパーパラメータ依存性をモデル化し、レイヤの正規化と位置エンコーディングを回避している。 この類似した設計は、モデル複雑さと表現性とのバランスを保ち、探索予算が限られている高次元探索空間における最適アーキテクチャの発見に適していると仮定する。 アルゴリズムの性能をさらに向上させる方法について実証する。 a) 平易なバニラ政策勾配の代わりにアクター批判型アルゴリズムを使用すること b) 各ブロックが異なる自己回帰的因子分解順序で条件づけされた共有パラメータを持つ変換器ブロック nasアルゴリズムは、nasアルゴリズムのベンチマークのための公開データセットであるnas-bench-101のほとんどのアルゴリズムよりも優れています。 特に、ポリシーネットワークをモデル化するために代替アーキテクチャを使用するrlベースのメソッドよりも優れており、この設定で注意に基づくネットワークを使用する価値を概説している。 一般的なHPOアルゴリズムとして、2つの回帰タスクにわたるより正確な多層パーセプトロンモデルアーキテクチャの発見において、ランダム探索よりも優れていた。 我々は、実験を設計し、その結果を報告しながら、Lindaier と Hutter に記載されたガイドラインに従う。

Reinforcement Learning has yielded promising results for Neural Architecture Search (NAS). In this paper, we demonstrate how its performance can be improved by using a simplified Transformer block to model the policy network. The simplified Transformer uses a 2-stream attention-based mechanism to model hyper-parameter dependencies while avoiding layer normalization and position encoding. We posit that this parsimonious design balances model complexity against expressiveness, making it suitable for discovering optimal architectures in high-dimensional search spaces with limited exploration budgets. We demonstrate how the algorithm's performance can be further improved by a) using an actor-critic style algorithm instead of plain vanilla policy gradient and b) ensembling Transformer blocks with shared parameters, each block conditioned on a different auto-regressive factorization order. Our algorithm works well as both a NAS and generic hyper-parameter optimization (HPO) algorithm: it outperformed most algorithms on NAS-Bench-101, a public data-set for benchmarking NAS algorithms. In particular, it outperformed RL based methods that use alternate architectures to model the policy network, underlining the value of using attention-based networks in this setting. As a generic HPO algorithm, it outperformed Random Search in discovering more accurate multi-layer perceptron model architectures across 2 regression tasks. We have adhered to guidelines listed in Lindauer and Hutter while designing experiments and reporting results.
翻訳日:2022-11-26 05:47:46 公開日:2020-11-05
# 全ての損失はベイズのものだ

All your loss are belong to Bayes ( http://arxiv.org/abs/2006.04633v2 )

ライセンス: Link先を確認
Christian Walder and Richard Nock(参考訳) 損失関数は機械学習の基盤であり、ほとんどのアルゴリズムの出発点である。 統計学とベイズ決定論は、過去数十年にわたって、最も一般的な選択肢(物流、正方形、松下など)が属する指導的学習において、幅広い許容範囲の損失をもたらしてきた。 損失の潜在的なバイアスのあるアドホックな選択を行うのではなく、最近はモデル自体をトレーニングしながら、ドメインに損失を適合させる取り組みが活発化しています。 鍵となるアプローチは、閉単位区間を R に単調に関連付け、積分による適切な損失を与える関数である標準リンクに適合する。 本稿では,正規リンクが直面する制約を緩和する情報幾何,情報源関数から,適切な合成損失のより広い視点と最近の構成を頼りにしている。 本稿では,リンク推定の文脈において,経路が望ましい多くの特性を持つソース関数に準拠したランダムなプロセスを得るために,二乗ガウス過程のトリックを導入する。 実験の結果、芸術の質は大幅に向上した。

Loss functions are a cornerstone of machine learning and the starting point of most algorithms. Statistics and Bayesian decision theory have contributed, via properness, to elicit over the past decades a wide set of admissible losses in supervised learning, to which most popular choices belong (logistic, square, Matsushita, etc.). Rather than making a potentially biased ad hoc choice of the loss, there has recently been a boost in efforts to fit the loss to the domain at hand while training the model itself. The key approaches fit a canonical link, a function which monotonically relates the closed unit interval to R and can provide a proper loss via integration. In this paper, we rely on a broader view of proper composite losses and a recent construct from information geometry, source functions, whose fitting alleviates constraints faced by canonical links. We introduce a trick on squared Gaussian Processes to obtain a random process whose paths are compliant source functions with many desirable properties in the context of link estimation. Experimental results demonstrate substantial improvements over the state of the art.
翻訳日:2022-11-24 00:40:53 公開日:2020-11-05
# 分布シフト下における深層学習における重み付けの重要性再考

Rethinking Importance Weighting for Deep Learning under Distribution Shift ( http://arxiv.org/abs/2006.04662v2 )

ライセンス: Link先を確認
Tongtong Fang, Nan Lu, Gang Niu, Masashi Sugiyama(参考訳) トレーニングデータ分布が試験値と異なる分散シフト(DS)の下では、重み付け(IW)と重み付け(IW)の2つのステップでDSを扱い、重み付け(WE)はテストオーバートレーニング密度比を推定し、重み付け分類(WC)は重み付けトレーニングデータから分類器を訓練する。 しかし、iwはディープラーニングと互換性がないため、複雑なデータではうまく機能しない。 本稿では、IWを再考し、それが円形依存に悩まされていることを理論的に示す。WE for WCだけでなく、WE for WC for WCでは、訓練された深層分類器を特徴抽出器(FE)として使用する。 依存性をなくすため、重み付けされていないトレーニングデータからfeを事前トレーニングし、feのバイアスが発生します。 このバイアスを克服するため,我々は,weとwcの間を反復し,シームレスに結合するエンド・ツー・エンドのソリューションであるdynamic iwを提案する。 3つの一般的なデータセットに対する2つの代表的なDSを用いた実験は、我々の動的IWが最先端の手法と好適に比較していることを示している。

Under distribution shift (DS) where the training data distribution differs from the test one, a powerful technique is importance weighting (IW) which handles DS in two separate steps: weight estimation (WE) estimates the test-over-training density ratio and weighted classification (WC) trains the classifier from weighted training data. However, IW cannot work well on complex data, since WE is incompatible with deep learning. In this paper, we rethink IW and theoretically show it suffers from a circular dependency: we need not only WE for WC, but also WC for WE where a trained deep classifier is used as the feature extractor (FE). To cut off the dependency, we try to pretrain FE from unweighted training data, which leads to biased FE. To overcome the bias, we propose an end-to-end solution dynamic IW that iterates between WE and WC and combines them in a seamless manner, and hence our WE can also enjoy deep networks and stochastic optimizers indirectly. Experiments with two representative types of DS on three popular datasets show that our dynamic IW compares favorably with state-of-the-art methods.
翻訳日:2022-11-24 00:40:20 公開日:2020-11-05
# RL行動モデルを用いた政策指向エージェントベースモデリング

Policy-focused Agent-based Modeling using RL Behavioral Models ( http://arxiv.org/abs/2006.05048v3 )

ライセンス: Link先を確認
Osonde A. Osoba, Raffaele Vardavas, Justin Grana, Rushil Zutshi, Amber Jaycocks(参考訳) エージェントベースモデル(ABM)はポリシー分析に有用なツールである。 ABMは、マルチエージェント意思決定設定における政策介入の突発的な結果をアナリストが調査するのに役立つ。 しかし、ABM探査から引き出された推論の妥当性は、ABMエージェントの行動モデルの品質に依存する。 エージェント行動モデルの標準仕様は、ヒューリスティックな意思決定ルールか、過去のデータに基づいて訓練された回帰に依存する。 どちらの仕様モードにも制限がある。 本稿では, ABMにおけるエージェント決定の適応的, 高い性能, 行動等価モデルとしての強化学習(RL)モデルの価値について検討する。 RL エージェントは政策 ABM における実用最大化エージェントとして有効であるという仮説を検証した。 また,近年の文献から手法を適応・拡張することにより,ゲーム内のマルチ緊急処理にRLアルゴリズムを適用する問題にも対処する。 我々は,RLをベースとしたABMエージェントの性能を,少数派ゲームABMとインフルエンザ感染のABMの2つの政策関連ABMの実験により評価した。 例えば、集団における行動の多様性と集団における同期の出現が与える影響の探索などです。 実験の結果, RLの挙動モデルは, ABM剤の報酬探索や報酬最大化に有効であることが示唆された。 さらに、rl行動モデルは、検討された2つのabmにおいて、デフォルトの適応行動モデルを上回ることを学習することができる。

Agent-based Models (ABMs) are valuable tools for policy analysis. ABMs help analysts explore the emergent consequences of policy interventions in multi-agent decision-making settings. But the validity of inferences drawn from ABM explorations depends on the quality of the ABM agents' behavioral models. Standard specifications of agent behavioral models rely either on heuristic decision-making rules or on regressions trained on past data. Both prior specification modes have limitations. This paper examines the value of reinforcement learning (RL) models as adaptive, high-performing, and behaviorally-valid models of agent decision-making in ABMs. We test the hypothesis that RL agents are effective as utility-maximizing agents in policy ABMs. We also address the problem of adapting RL algorithms to handle multi-agency in games by adapting and extending methods from recent literature. We evaluate the performance of such RL-based ABM agents via experiments on two policy-relevant ABMs: a minority game ABM, and an ABM of Influenza Transmission. We run some analytic experiments on our AI-equipped ABMs e.g. explorations of the effects of behavioral heterogeneity in a population and the emergence of synchronization in a population. The experiments show that RL behavioral models are effective at producing reward-seeking or reward-maximizing behaviors in ABM agents. Furthermore, RL behavioral models can learn to outperform the default adaptive behavioral models in the two ABMs examined.
翻訳日:2022-11-23 14:28:32 公開日:2020-11-05
# ReLU DNN, PWA関数, 明示的MPCの近さ

In Proximity of ReLU DNN, PWA Function, and Explicit MPC ( http://arxiv.org/abs/2006.05001v2 )

ライセンス: Link先を確認
Saman Fahandezh-Saadi, Masayoshi Tomizuka(参考訳) 整流器 (relu) 深層ニューラルネットワーク (dnn) とslitwise affine (pwa) 関数との接続を解析した。 本稿は,モデル予測制御(mpc)の明示的な状態フィードバックポリシをrelu dnnとして表現する可能性を見つけ,その逆も検討する試みである。 DNNの複雑さとアーキテクチャは、いくつかの定理と議論を通じて検討されている。 ポリヘドラル領域上のPWA関数をもたらすReLUネットにおける入力空間の同定のための近似手法を開発した。 また、PWA関数が与えられた制約とコスト関数の再構成を扱う逆多重パラメトリック線形プログラム(mp-LPまたはmp-QP)も研究されている。

Rectifier (ReLU) deep neural networks (DNN) and their connection with piecewise affine (PWA) functions is analyzed. The paper is an effort to find and study the possibility of representing explicit state feedback policy of model predictive control (MPC) as a ReLU DNN, and vice versa. The complexity and architecture of DNN has been examined through some theorems and discussions. An approximate method has been developed for identification of input-space in ReLU net which results a PWA function over polyhedral regions. Also, inverse multiparametric linear or quadratic programs (mp-LP or mp-QP) has been studied which deals with reconstruction of constraints and cost function given a PWA function.
翻訳日:2022-11-23 14:27:15 公開日:2020-11-05
# GAIT-prop: 誤りのバックプロパゲーションに基づく生物学的に妥当な学習規則

GAIT-prop: A biologically plausible learning rule derived from backpropagation of error ( http://arxiv.org/abs/2006.06438v3 )

ライセンス: Link先を確認
Nasir Ahmad, Marcel A. J. van Gerven, Luca Ambrogioni(参考訳) 従来のエラーのバックプロパゲーションは、人工知能ニューラルネットワークモデルで学ぶための非常に成功したアルゴリズムであるが、実際のニューラルネットワークで学ぶには生物学的に不可能な特徴を含んでいる。 ターゲット伝搬と呼ばれる別の手法は、ニューラルネットワークの出力におけるエラーを各ユニットの階層的かつ妥当な「ターゲット」に変換するために、ニューラルネットワークのトップダウンモデルを使用することで、この難解性を解決することを提案している。 これらのターゲットは、ネットワークトレーニングの重み付け更新に使用できる。 しかし、これまでのところ、バックプロパゲーションに対する実証可能な等価性のないターゲット伝搬はヒューリスティックに提案されている。 ここでは、バックプロパゲーションと、ターゲットがフォワードパスの小さな摂動である修正型のターゲット伝搬(gait-prop)との正確な対応を導出する。 特に、バックプロパゲーションとGAIT-propは、シナプス重量行列が直交するときに同じ更新を与える。 一連のコンピュータビジョン実験において,バックプロパゲーションとGAIT-propとソフト直交誘導正規化器のほぼ同一性能を示す。

Traditional backpropagation of error, though a highly successful algorithm for learning in artificial neural network models, includes features which are biologically implausible for learning in real neural circuits. An alternative called target propagation proposes to solve this implausibility by using a top-down model of neural activity to convert an error at the output of a neural network into layer-wise and plausible 'targets' for every unit. These targets can then be used to produce weight updates for network training. However, thus far, target propagation has been heuristically proposed without demonstrable equivalence to backpropagation. Here, we derive an exact correspondence between backpropagation and a modified form of target propagation (GAIT-prop) where the target is a small perturbation of the forward pass. Specifically, backpropagation and GAIT-prop give identical updates when synaptic weight matrices are orthogonal. In a series of simple computer vision experiments, we show near-identical performance between backpropagation and GAIT-prop with a soft orthogonality-inducing regularizer.
翻訳日:2022-11-22 09:09:15 公開日:2020-11-05
# 材料設計領域のオントロジー

An Ontology for the Materials Design Domain ( http://arxiv.org/abs/2006.07712v2 )

ライセンス: Link先を確認
Huanyu Li and Rickard Armiento and Patrick Lambrix(参考訳) 材料設計領域では、材料計算から得られたデータの多くは異なる異種データベースに格納される。 材料データベースは通常、異なるデータモデルを持つ。 したがって、ユーザーは適切なソースからデータを見つけ、複数のソースからのデータを統合するという課題に直面する必要がある。 オントロジーとオントロジに基づく技術は、ドメイン知識の形式表現によって、異なるシステム間でのデータがより利用可能で相互運用可能となるような問題に対処することができます。 本稿では,マテリアルデザインの分野における知識をカバーする概念と関係を定義したマテリアルデザインオントロジー(MDO)を紹介する。 MDOは材料科学(特に固体物理学)におけるドメイン知識を用いて設計され、材料設計分野におけるいくつかのデータベースのデータによって導かれる。 文献データベースから取得した資料データへのMDOの適用について述べる。

In the materials design domain, much of the data from materials calculations are stored in different heterogeneous databases. Materials databases usually have different data models. Therefore, the users have to face the challenges to find the data from adequate sources and integrate data from multiple sources. Ontologies and ontology-based techniques can address such problems as the formal representation of domain knowledge can make data more available and interoperable among different systems. In this paper, we introduce the Materials Design Ontology (MDO), which defines concepts and relations to cover knowledge in the field of materials design. MDO is designed using domain knowledge in materials science (especially in solid-state physics), and is guided by the data from several databases in the materials design field. We show the application of the MDO to materials data retrieved from well-known materials databases.
翻訳日:2022-11-21 21:27:41 公開日:2020-11-05
# ブロック型プログラミングのためのタスクの合成

Synthesizing Tasks for Block-based Programming ( http://arxiv.org/abs/2006.16913v3 )

ライセンス: Link先を確認
Umair Z. Ahmed, Maria Christakis, Aleksandr Efremov, Nigel Fernandez, Ahana Ghosh, Abhik Roychoudhury, Adish Singla(参考訳) ブロックベースのビジュアルプログラミング環境は、k-12の学生にコンピューティングの概念を導入する上で重要な役割を果たす。 これらの環境における重要な教育的課題の1つは、望ましい難易度に適合し、特定のプログラミング概念を実践する学生のための新しい実践タスクを設計することである。 本稿では,視覚的プログラミングタスクを合成する問題を形式化する。 特に、参照ビジュアルタスク $\rm T^{in}$ とそのソリューションコード $\rm C^{in}$ が与えられたとき、タスク $\rm T^{in}$ と $\rm T^{out}$ が概念的には似ているが視覚的に似ていないようなソリューションコードとともに、新しいタスクのセット $\{(\rm T^{out}, \rm C^{out})\} を自動生成するための新しい方法論を提案する。 提案手法は,視覚的タスクの空間からソリューションコードへのマッピングが極めて不連続であることから,参照タスクの$\rm T^{in}$を直接変更して新しいタスクを生成することは無駄である,という認識に基づいている。 我々のタスク合成アルゴリズムは、最初に$\rm c^{in}$をミュートして$\{\rm c^{out}\}$の一連のコードを取得することで動作します。 次に、このアルゴリズムは、コード$\rm C^{out}$上でシンボル実行を行い、ビジュアルタスク$\rm T^{out}$を得る。 本稿では, アルゴリズムの有効性を, emph{Code.org} の \emph{Hour of Code: Classic Maze} チャレンジと \emph{CodeHS.com の \emph{CodeHS.org} コースから抽出した参照タスクの広範な評価とユーザスタディを通じて実証する。

Block-based visual programming environments play a critical role in introducing computing concepts to K-12 students. One of the key pedagogical challenges in these environments is in designing new practice tasks for a student that match a desired level of difficulty and exercise specific programming concepts. In this paper, we formalize the problem of synthesizing visual programming tasks. In particular, given a reference visual task $\rm T^{in}$ and its solution code $\rm C^{in}$, we propose a novel methodology to automatically generate a set $\{(\rm T^{out}, \rm C^{out})\}$ of new tasks along with solution codes such that tasks $\rm T^{in}$ and $\rm T^{out}$ are conceptually similar but visually dissimilar. Our methodology is based on the realization that the mapping from the space of visual tasks to their solution codes is highly discontinuous; hence, directly mutating reference task $\rm T^{in}$ to generate new tasks is futile. Our task synthesis algorithm operates by first mutating code $\rm C^{in}$ to obtain a set of codes $\{\rm C^{out}\}$. Then, the algorithm performs symbolic execution over a code $\rm C^{out}$ to obtain a visual task $\rm T^{out}$; this step uses the Monte Carlo Tree Search (MCTS) procedure to guide the search in the symbolic tree. We demonstrate the effectiveness of our algorithm through an extensive empirical evaluation and user study on reference tasks taken from the \emph{Hour of Code: Classic Maze} challenge by \emph{Code.org} and the \emph{Intro to Programming with Karel} course by \emph{CodeHS.com}.
翻訳日:2022-11-19 20:20:24 公開日:2020-11-05
# 雑音ラベル付きサンプルを用いた音声認識のためのアクティブ学習の強化

Boosting Active Learning for Speech Recognition with Noisy Pseudo-labeled Samples ( http://arxiv.org/abs/2006.11021v2 )

ライセンス: Link先を確認
Jihwan Bang, Heesu Kim, YoungJoon Yoo, Jung-Woo Ha(参考訳) 大きな音声コーパスに注釈を付けるコストは、ディープニューラルネットワークに基づく音声認識モデルの潜在能力を最大限に享受するためにボトルネックとなる。 本稿では,ラベル効率のよい学習を目標とした,従来のアクティブラーニングアプローチを促進させる新しいトレーニングパイプラインを提案する。 既存のアクティブな学習手法は、ラベル付け予算の下で情報的サンプルのセットを選択することのみに焦点を当てる。 さらに,教師付き損失を効果的に補完する高度に構成された教師なし損失を導入することにより,ラベル付きサンプルを利用してラベル付き予算を超えるトレーニング効率をさらに向上できることを示す。 本稿では,一貫性規則化に基づく新しい教師なし損失を提案し,自動音声認識タスクに一貫性規則化を適用するために,発話の適切な拡張手法を設定する。 実世界のデータセットおよび実使用シナリオにおける質的かつ定量的な実験から,提案するトレーニングパイプラインがアクティブラーニング手法の有効性を高めることにより,持続的なラベル付けコストを低減できることを示す。

The cost of annotating transcriptions for large speech corpora becomes a bottleneck to maximally enjoy the potential capacity of deep neural network-based automatic speech recognition models. In this paper, we present a new training pipeline boosting the conventional active learning approach targeting label-efficient learning to resolve the mentioned problem. Existing active learning methods only focus on selecting a set of informative samples under a labeling budget. One step further, we suggest that the training efficiency can be further improved by utilizing the unlabeled samples, exceeding the labeling budget, by introducing sophisticatedly configured unsupervised loss complementing supervised loss effectively. We propose new unsupervised loss based on consistency regularization, and we configure appropriate augmentation techniques for utterances to adopt consistency regularization in the automatic speech recognition task. From the qualitative and quantitative experiments on the real-world dataset and under real-usage scenarios, we show that the proposed training pipeline can boost the efficacy of active learning approaches, thus successfully reducing a sustainable amount of human labeling cost.
翻訳日:2022-11-19 05:17:51 公開日:2020-11-05
# 補助ロボットにおける意図しないインタフェース操作のカスタマイズハンドリング

Customized Handling of Unintended Interface Operation in Assistive Robots ( http://arxiv.org/abs/2007.02092v2 )

ライセンス: Link先を確認
Deepak Gopinath, Mahdieh Nejati Javaremi and Brenna D. Argall(参考訳) 本稿では,ロボット遠隔操作における人間の意図した行動について,意図しない行動に対して適切な修正を行うための支援システムを提案する。 我々は,ロボット遠隔操作中の制御インタフェースと人間の物理的相互作用をモデル化し,意図的および測定された身体行動を明確に区別する。 モデルベース推論技術を用いて未観測の意図を推論することにより,ユーザのコマンドをカスタマイズした修正を行う。 提案手法は,提案する支援パラダイムの性能を評価するための10人の被験者による研究で検証する。 その結果,支援パラダイムはタスク完了時間,モードスイッチ数,認知的作業負荷,ユーザのフラストレーションを大幅に削減し,ユーザ満足度の向上に寄与した。

We present an assistance system that reasons about a human's intended actions during robot teleoperation in order to provide appropriate corrections for unintended behavior. We model the human's physical interaction with a control interface during robot teleoperation and distinguish between intended and measured physical actions explicitly. By reasoning over the unobserved intentions using model-based inference techniques, our assistive system provides customized corrections on a user's issued commands. We validate our algorithm with a 10-person human subject study in which we evaluate the performance of the proposed assistance paradigms. Our results show that the assistance paradigms helped to significantly reduce task completion time, number of mode switches, cognitive workload, and user frustration and improve overall user satisfaction.
翻訳日:2022-11-13 13:47:42 公開日:2020-11-05
# 実世界画像の超解像学習におけるbicublydown-samped imageの有用性

Benefiting from Bicubically Down-Sampled Images for Learning Real-World Image Super-Resolution ( http://arxiv.org/abs/2007.03053v2 )

ライセンス: Link先を確認
Mohammad Saeed Rad, Thomas Yu, Claudiu Musat, Hazim Kemal Ekenel, Behzad Bozorgtabar, Jean-Philippe Thiran(参考訳) 超解像(SR)は、伝統的に高分解能画像(HR)と低分解能画像(LR)の対をバイコビック・ダウンサンプリングで人工的に取得した。 しかし、実世界のSRでは、様々な現実的な画像劣化があり、これらの現実的な劣化を解析的にモデル化することは極めて困難である。 本研究では,この不適切な問題を2つの比較的よく提示されたステップに分割することで,実世界のSRを扱うことを提案する。 まず、実LR/HR対と合成対の両方を用いて、実LR画像を教師付きで双対的にダウンサンプリングされた画像の空間に変換するネットワークを訓練する。 次に,2次元ダウンサンプル画像に基づいて学習した汎用SRネットワークを用いて,変換されたLR画像の超解像を行う。 パイプラインの最初のステップは、多種多様な劣化した画像を共通のよく理解された画像空間に登録することで、この問題に対処する。 2番目のステップは、bicubally downsampledイメージですでに印象的なsrのパフォーマンスを活用し、さまざまな画像劣化を伴うデータセットのエンドツーエンドトレーニングの問題を回避する。 提案手法の有効性を実世界のSRにおける最近の手法と比較し,定性的および定量的な結果と,複数の実画像データセットを用いた広範なユーザ調査結果の両面で,提案手法が最先端の作業よりも優れていることを示す。

Super-resolution (SR) has traditionally been based on pairs of high-resolution images (HR) and their low-resolution (LR) counterparts obtained artificially with bicubic downsampling. However, in real-world SR, there is a large variety of realistic image degradations and analytically modeling these realistic degradations can prove quite difficult. In this work, we propose to handle real-world SR by splitting this ill-posed problem into two comparatively more well-posed steps. First, we train a network to transform real LR images to the space of bicubically downsampled images in a supervised manner, by using both real LR/HR pairs and synthetic pairs. Second, we take a generic SR network trained on bicubically downsampled images to super-resolve the transformed LR image. The first step of the pipeline addresses the problem by registering the large variety of degraded images to a common, well understood space of images. The second step then leverages the already impressive performance of SR on bicubically downsampled images, sidestepping the issues of end-to-end training on datasets with many different image degradations. We demonstrate the effectiveness of our proposed method by comparing it to recent methods in real-world SR and show that our proposed approach outperforms the state-of-the-art works in terms of both qualitative and quantitative results, as well as results of an extensive user study conducted on several real image datasets.
翻訳日:2022-11-13 03:01:58 公開日:2020-11-05
# 相互作用する粒子をもつ確率ミラー降下について:収束特性と分散還元

On stochastic mirror descent with interacting particles: convergence properties and variance reduction ( http://arxiv.org/abs/2007.07704v2 )

ライセンス: Link先を確認
Anastasia Borovykh, Nikolas Kantas, Panos Parpas, Grigorios A. Pavliotis(参考訳) ノイズ情報を用いた最適化におけるオープン問題は、ノイズ量に依存しない完全最小化器の計算である。 確率近似アルゴリズムの標準的な実践は、減少ステップサイズを使用することである。 しかし、これは収束が遅くなる。 第2の選択肢は、固定されたステップサイズを使用して、アルゴリズムの独立したレプリカを実行し、それらの平均を実行することだ。 第3の選択肢は,アルゴリズムのレプリカを実行して,対話を可能にすることだ。 どちらの選択肢が最善かは定かではない。 この問題に対処するため,ノイズ勾配情報付き完全最小化器の計算問題を,相互作用する粒子による確率的ミラー降下の研究に還元する。 確率ミラー降下の収束について検討し,コミュニケーションと分散低減のトレードオフを明らかにする。 我々は,相互作用が収束を改善し,推定値の分散を低減するのに役立つことを示す理論的および数値的な証拠を提供する。

An open problem in optimization with noisy information is the computation of an exact minimizer that is independent of the amount of noise. A standard practice in stochastic approximation algorithms is to use a decreasing step-size. This however leads to a slower convergence. A second alternative is to use a fixed step-size and run independent replicas of the algorithm and average these. A third option is to run replicas of the algorithm and allow them to interact. It is unclear which of these options works best. To address this question, we reduce the problem of the computation of an exact minimizer with noisy gradient information to the study of stochastic mirror descent with interacting particles. We study the convergence of stochastic mirror descent and make explicit the tradeoffs between communication and variance reduction. We provide theoretical and numerical evidence to suggest that interaction helps to improve convergence and reduce the variance of the estimate.
翻訳日:2022-11-10 06:20:12 公開日:2020-11-05
# DeepHazard: 時間変化リスクのためのニューラルネットワーク

DeepHazard: neural network for time-varying risks ( http://arxiv.org/abs/2007.13218v2 )

ライセンス: Link先を確認
Denise Rava and Jelena Bradic(参考訳) 生存分析における予後モデルは、患者の共変量と生存時間の分布との関係を理解することを目的としている。 伝統的に、コックスモデルのような半パラメトリックモデルが仮定されている。 これらはしばしば、実際には違反される可能性のある危険性の強い比例仮定に依存する。 さらに、時間とともに更新される共変量情報も含まないことが多い。 本稿では,生存予測のための新しい柔軟な手法であるdeephazardを提案する。 我々のアプローチは、時間内に添加物としてのみ制限される、幅広い連続的なハザード形態のために調整されている。 異なる最適化方法と任意の規範的ペナルティを許容する柔軟な実装が開発されている。 数値例は,c-indexメトリックで評価した予測能力の観点から,既存の最先端手法を上回っていることを示す。 metabric、gbsg、actgなど、一般的な実際のデータセットでも同じことが示されている。

Prognostic models in survival analysis are aimed at understanding the relationship between patients' covariates and the distribution of survival time. Traditionally, semi-parametric models, such as the Cox model, have been assumed. These often rely on strong proportionality assumptions of the hazard that might be violated in practice. Moreover, they do not often include covariate information updated over time. We propose a new flexible method for survival prediction: DeepHazard, a neural network for time-varying risks. Our approach is tailored for a wide range of continuous hazards forms, with the only restriction of being additive in time. A flexible implementation, allowing different optimization methods, along with any norm penalty, is developed. Numerical examples illustrate that our approach outperforms existing state-of-the-art methodology in terms of predictive capability evaluated through the C-index metric. The same is revealed on the popular real datasets as METABRIC, GBSG, and ACTG.
翻訳日:2022-11-06 19:34:21 公開日:2020-11-05
# 斜め予測クラスタリングツリー

Oblique Predictive Clustering Trees ( http://arxiv.org/abs/2007.13617v2 )

ライセンス: Link先を確認
Toma\v{z} Stepi\v{s}nik and Dragi Kocev(参考訳) 予測クラスタリング木 (pcts) は標準決定木のよく確立された一般化であり、構造化出力予測を含む様々な予測モデリングタスクを解決できる。 アンサンブルに組み合わせれば、最先端のパフォーマンスが得られる。 さらに,PCTのアンサンブルは,学習モデルから特徴重要度を計算することで解釈できる。 しかし、学習時間は出力空間の次元性に劣る。 これはしばしば問題となり、特に(階層的な)多重ラベル分類では、出力は数百の潜在的なラベルから成り得る。 また、pctの学習はデータのスパース性を利用して計算効率を向上させることはできず、入力(分子指紋、単語表現の袋)と出力空間(複数ラベルの分類では、サンプルは可能なラベルのほんの一部でラベル付けされることが多い)の両方に共通する。 本稿では,これらの制約に対処可能な斜め予測クラスタリング木を提案する。 実験で特徴の線形結合を含む斜め分割を学習するための2つの手法を設計・実装し,入力空間内の任意の超平面に対応する。 これらの方法は高次元データに対して効率的であり、スパースデータを利用することができる。 6つの予測モデルタスクのための60のベンチマークデータセットに対して提案手法を実験的に評価した。 実験の結果、斜めの予測クラスタリング木は最先端手法と同等の性能を示し、標準PCTよりも桁違いに高速であることがわかった。 また,提案手法で学習したモデルから有意義な特徴重要度を抽出できることを示した。

Predictive clustering trees (PCTs) are a well established generalization of standard decision trees, which can be used to solve a variety of predictive modeling tasks, including structured output prediction. Combining them into ensembles yields state-of-the-art performance. Furthermore, the ensembles of PCTs can be interpreted by calculating feature importance scores from the learned models. However, their learning time scales poorly with the dimensionality of the output space. This is often problematic, especially in (hierarchical) multi-label classification, where the output can consist of hundreds of potential labels. Also, learning of PCTs can not exploit the sparsity of data to improve the computational efficiency, which is common in both input (molecular fingerprints, bag of words representations) and output spaces (in multi-label classification, examples are often labeled with only a fraction of possible labels). In this paper, we propose oblique predictive clustering trees, capable of addressing these limitations. We design and implement two methods for learning oblique splits that contain linear combinations of features in the tests, hence a split corresponds to an arbitrary hyperplane in the input space. The methods are efficient for high dimensional data and capable of exploiting sparse data. We experimentally evaluate the proposed methods on 60 benchmark datasets for 6 predictive modeling tasks. The results of the experiments show that oblique predictive clustering trees achieve performance on-par with state-of-the-art methods and are orders of magnitude faster than standard PCTs. We also show that meaningful feature importance scores can be extracted from the models learned with the proposed methods.
翻訳日:2022-11-06 07:43:23 公開日:2020-11-05
# グループ知識伝達: エッジにおける大規模CNNのフェデレーション学習

Group Knowledge Transfer: Federated Learning of Large CNNs at the Edge ( http://arxiv.org/abs/2007.14513v4 )

ライセンス: Link先を確認
Chaoyang He, Murali Annavaram, Salman Avestimehr(参考訳) 畳み込みニューラルネットワーク(cnn)のサイズ(幅、深さなど)のスケールアップは、モデルの精度を効果的に向上することが知られている。 しかし、大きなモデルサイズはリソース制約のあるエッジデバイスでのトレーニングを妨げる。 例えば、フェデレーション学習(fl)は、プライバシと機密性のためにflの実用的必要性が強いにもかかわらず、エッジノードの計算能力に過度な負担を課す可能性がある。 エッジデバイスの資源制約に対処するため,FedGKTと呼ばれるグループ知識伝達学習アルゴリズムとしてFLを再構成した。 FedGKTは、エッジノード上で小さなCNNを訓練し、知識蒸留による知識を大規模なサーバサイドCNNに定期的に伝達する、交代最小化アプローチの変種を設計する。 FedGKTは、エッジ計算の需要の削減、大規模なCNNの通信帯域の削減、非同期トレーニングなど、モデルの精度をFedAvgに匹敵するいくつかの利点を単一のフレームワークに統合する。 我々は、CIFAR-10、CIFAR-100、CINIC-10の3つの異なるデータセットと非I.I.D.の変種を用いて、ResNet-56とResNet-110に基づいて設計されたCNNを訓練する。 以上の結果から,FedGKTはFedAvgと同等あるいはわずかに高い精度が得られることがわかった。 さらに重要なのは、FedGKTがエッジトレーニングを安くすることだ。 FedAvgを使ったエッジトレーニングと比較して、FedGKTはエッジデバイスでは9~17倍の計算パワー(FLOP)を必要とし、エッジCNNでは54~105倍のパラメータを必要とする。 ソースコードはFedML (https://fedml.ai)でリリースされています。

Scaling up the convolutional neural network (CNN) size (e.g., width, depth, etc.) is known to effectively improve model accuracy. However, the large model size impedes training on resource-constrained edge devices. For instance, federated learning (FL) may place undue burden on the compute capability of edge nodes, even though there is a strong practical need for FL due to its privacy and confidentiality properties. To address the resource-constrained reality of edge devices, we reformulate FL as a group knowledge transfer training algorithm, called FedGKT. FedGKT designs a variant of the alternating minimization approach to train small CNNs on edge nodes and periodically transfer their knowledge by knowledge distillation to a large server-side CNN. FedGKT consolidates several advantages into a single framework: reduced demand for edge computation, lower communication bandwidth for large CNNs, and asynchronous training, all while maintaining model accuracy comparable to FedAvg. We train CNNs designed based on ResNet-56 and ResNet-110 using three distinct datasets (CIFAR-10, CIFAR-100, and CINIC-10) and their non-I.I.D. variants. Our results show that FedGKT can obtain comparable or even slightly higher accuracy than FedAvg. More importantly, FedGKT makes edge training affordable. Compared to the edge training using FedAvg, FedGKT demands 9 to 17 times less computational power (FLOPs) on edge devices and requires 54 to 105 times fewer parameters in the edge CNN. Our source code is released at FedML (https://fedml.ai).
翻訳日:2022-11-06 01:54:47 公開日:2020-11-05
# EasyRL: シンプルで拡張可能な強化学習フレームワーク

EasyRL: A Simple and Extensible Reinforcement Learning Framework ( http://arxiv.org/abs/2008.01700v2 )

ライセンス: Link先を確認
Neil Hulbert, Sam Spillers, Brandon Francis, James Haines-Temons, Ken Gil Romero, Benjamin De Jager, Sam Wong, Kevin Flora, Bowei Huang, Athirai A. Irissappane(参考訳) 近年、強化学習(rl)は、最先端の人工知能研究に取り組む企業のためのツールとして、一般的な研究分野となっている。 この目的のために、多くの研究者が簡単に使えるopenAI GymやKerasRLといったRLフレームワークを開発した。 これらの研究は、新規のRLへの参入障壁を減らそうと努力してきたが、ユーザがRLエージェントを訓練し評価するためのインタラクティブなグラフィカルユーザインタフェースを提供することで、EasyRLと呼ばれるよりシンプルなフレームワークを提案する。 完全にグラフィカルであるため、EasyRLは単純な組み込みRLエージェントのトレーニングやテストにプログラミング知識を必要としない。 EasyRLはカスタムRLエージェントと環境もサポートしており、RLモデルの評価と比較においてRL研究者にとって非常に有益である。

In recent years, Reinforcement Learning (RL), has become a popular field of study as well as a tool for enterprises working on cutting-edge artificial intelligence research. To this end, many researchers have built RL frameworks such as openAI Gym and KerasRL for ease of use. While these works have made great strides towards bringing down the barrier of entry for those new to RL, we propose a much simpler framework called EasyRL, by providing an interactive graphical user interface for users to train and evaluate RL agents. As it is entirely graphical, EasyRL does not require programming knowledge for training and testing simple built-in RL agents. EasyRL also supports custom RL agents and environments, which can be highly beneficial for RL researchers in evaluating and comparing their RL models.
翻訳日:2022-11-03 00:24:38 公開日:2020-11-05
# マルコフ雑音と勾配バイアスによるコンセンサスアルゴリズムの収束について

On the Convergence of Consensus Algorithms with Markovian Noise and Gradient Bias ( http://arxiv.org/abs/2008.07841v3 )

ライセンス: Link先を確認
Hoi-To Wai(参考訳) 本稿では,分散確率近似(SA)方式に対する有限時間収束解析を提案する。 このスキームは分散機械学習とマルチエージェント強化学習のためのいくつかのアルゴリズムを一般化する。 提案手法は,反復音を各合意部分とコンセンサス誤差に分割することを含む。 コンセンサス誤差は、コンセンサス部分の定常性の観点から制限され、コンセンサス部分の更新は摂動saスキームとして分析することができる。 マルコフ雑音と時間変化の通信グラフの仮定の下で、分散saスキームは、滑らかだが非凸なコスト関数を持つ非線形saの勾配の2乗ノルムの観点から、t$が反復数である、${\cal o}(\log t/ \sqrt{t} )$の期待収束率を持つ。 この値は、非凸ポテンシャル関数を持つ集中的な設定におけるSAの最もよく知られた性能に匹敵する。

This paper presents a finite time convergence analysis for a decentralized stochastic approximation (SA) scheme. The scheme generalizes several algorithms for decentralized machine learning and multi-agent reinforcement learning. Our proof technique involves separating the iterates into their respective consensual parts and consensus error. The consensus error is bounded in terms of the stationarity of the consensual part, while the updates of the consensual part can be analyzed as a perturbed SA scheme. Under the Markovian noise and time varying communication graph assumptions, the decentralized SA scheme has an expected convergence rate of ${\cal O}(\log T/ \sqrt{T} )$, where $T$ is the iteration number, in terms of squared norms of gradient for nonlinear SA with smooth but non-convex cost function. This rate is comparable to the best known performances of SA in a centralized setting with a non-convex potential function.
翻訳日:2022-10-27 21:56:06 公開日:2020-11-05
# ML強化シミュレーションによるロバストな異常検出の訓練

Training robust anomaly detection using ML-Enhanced simulations ( http://arxiv.org/abs/2008.12082v2 )

ライセンス: Link先を確認
Philip Feldman(参考訳) 本稿では,後続の異常検出システムのトレーニングにおけるニューラルネットワークによるシミュレーションの強化について述べる。 シミュレーションは、現実世界のデータに疎外または存在しない可能性のある異常検出のためのエッジ条件を提供することができる。 しかし、シミュレーションは、シミュレーションされたデータから実際の状態へ移行できない異常検出システムをもたらす「あまりにクリーン」なデータを生成することで苦しむ。 従来のシミュレーションよりもリアルで可変なアウトプットを生成するために,実世界データでトレーニングされたニューラルネットワークを用いたシミュレーションを強化する。

This paper describes the use of neural networks to enhance simulations for subsequent training of anomaly-detection systems. Simulations can provide edge conditions for anomaly detection which may be sparse or non-existent in real-world data. Simulations suffer, however, by producing data that is "too clean" resulting in anomaly detection systems that cannot transition from simulated data to actual conditions. Our approach enhances simulations using neural networks trained on real-world data to create outputs that are more realistic and variable than traditional simulations.
翻訳日:2022-10-24 07:26:44 公開日:2020-11-05
# SHACLの満足度と含有度(拡張紙)

SHACL Satisfiability and Containment (Extended Paper) ( http://arxiv.org/abs/2009.09806v2 )

ライセンス: Link先を確認
Paolo Pareti and George Konstantinidis and Fabio Mogavero and Timothy J. Norman(参考訳) Shapes Constraint Language (SHACL)は、RDFデータを検証するための最近のW3C勧告言語である。 具体的には、SHACL文書はRDFグラフ上の特定の形状を強制する制約の集合である。 このトピックに関するこれまでの研究は、検証問題に対する理論的および実践的な結果を提供してきたが、制約の実現可能性を検証する上で不可欠であり、設計と最適化の目的にとって重要な、満足度と封じ込めの標準的決定問題を考慮しなかった。 本稿では,SHACLの適合性と包含性に関するセマンティクスを正確に把握する,SCLと呼ばれる新しい一階言語への翻訳を提供することにより,再帰的でないSHACLの異なる特徴について,徹底的に研究する。 この論理学におけるSHACLの特徴の相互作用について検討し、上記のSHACLサブ言語に対する決定問題の決定可能性と複雑性の詳細なマップを提供する。 特に、両問題が完全な言語では決定不能であることを示すが、興味深い特徴の組み合わせは決定不可能である。

The Shapes Constraint Language (SHACL) is a recent W3C recommendation language for validating RDF data. Specifically, SHACL documents are collections of constraints that enforce particular shapes on an RDF graph. Previous work on the topic has provided theoretical and practical results for the validation problem, but did not consider the standard decision problems of satisfiability and containment, which are crucial for verifying the feasibility of the constraints and important for design and optimization purposes. In this paper, we undertake a thorough study of different features of non-recursive SHACL by providing a translation to a new first-order language, called SCL, that precisely captures the semantics of SHACL w.r.t. satisfiability and containment. We study the interaction of SHACL features in this logic and provide the detailed map of decidability and complexity results of the aforementioned decision problems for different SHACL sublanguages. Notably, we prove that both problems are undecidable for the full language, but we present decidable combinations of interesting features.
翻訳日:2022-10-23 07:36:32 公開日:2020-11-05
# モーションセンサを用いたユーザ識別のための深層学習システムの逆攻撃

Adversarial Attacks on Deep Learning Systems for User Identification based on Motion Sensors ( http://arxiv.org/abs/2009.01109v2 )

ライセンス: Link先を確認
Cezara Benegui, Radu Tudor Ionescu(参考訳) 当面モバイルデバイスは、アンロックパターン、ピン、指紋や顔認識などの生体認証システムといった暗黙の認証機構を採用している。 これらのシステムはよく知られた攻撃の傾向にあるが、明示的で控えめな認証層の導入は、セキュリティを大幅に強化する可能性がある。 本研究では,モーションセンサ信号に基づく明示的認証のための深層学習手法に着目した。 このシナリオでは、攻撃者は不正なアクセスを取得し、正統なユーザーがモバイルデバイスにアクセスすることを抑えるために敵の例を作ることができる。 我々の知る限り、この研究は、モーションセンサーに基づくユーザ識別に使用される機械学習モデルに対する敵攻撃の影響を定量化する最初の研究である。 目的を達成するために, 逆例生成のための複数の手法について検討した。 本研究は,敵対的事例の影響と普遍性に関する3つの研究課題を提案し,研究課題に答えるため,関連する実験を実施している。 実験結果から,攻撃された分類モデルに特定の逆例生成法があるのに対し,他の手法は汎用的であることが示された。 したがって,動きセンサに基づくユーザ識別タスク用に訓練された深層ニューラルネットワークは,与えられた逆入力に対して高い誤分類を受けることになる。

For the time being, mobile devices employ implicit authentication mechanisms, namely, unlock patterns, PINs or biometric-based systems such as fingerprint or face recognition. While these systems are prone to well-known attacks, the introduction of an explicit and unobtrusive authentication layer can greatly enhance security. In this study, we focus on deep learning methods for explicit authentication based on motion sensor signals. In this scenario, attackers could craft adversarial examples with the aim of gaining unauthorized access and even restraining a legitimate user to access his mobile device. To our knowledge, this is the first study that aims at quantifying the impact of adversarial attacks on machine learning models used for user identification based on motion sensors. To accomplish our goal, we study multiple methods for generating adversarial examples. We propose three research questions regarding the impact and the universality of adversarial examples, conducting relevant experiments in order to answer our research questions. Our empirical results demonstrate that certain adversarial example generation methods are specific to the attacked classification model, while others tend to be generic. We thus conclude that deep neural networks trained for user identification tasks based on motion sensors are subject to a high percentage of misclassification when given adversarial input.
翻訳日:2022-10-22 18:52:30 公開日:2020-11-05
# 個別選択における解釈可能な特徴文脈効果の学習

Learning Interpretable Feature Context Effects in Discrete Choice ( http://arxiv.org/abs/2009.03417v2 )

ライセンス: Link先を確認
Kiran Tomlinson and Austin R. Benson(参考訳) 選挙、製品販売、社会関係の構造の成果はすべて、選択肢のセットが提示された場合に個人が行う選択によって決定されるため、選択に寄与する要因を理解することが重要である。 特に興味深いのは、選択肢の集合が選択者の相対的な選好に影響を与えるときに起こる文脈効果である。 しかし、これらの効果を観察された選択から同定することは困難であり、しばしば測定される効果の事前理解を必要とする。 対照的に,観測された選択データから文脈効果の幅広いクラスを自動的に発見する手法を提案する。 我々のモデルは既存のモデルよりも訓練が容易で柔軟であり、直感的で解釈可能で統計的にテスト可能なコンテキスト効果をもたらす。 我々のモデルを用いて、広く使われている選択データセットにおける新しいコンテキスト効果を特定し、ソーシャルネットワークの成長における選択セットのコンテキスト効果を初めて分析する。

The outcomes of elections, product sales, and the structure of social connections are all determined by the choices individuals make when presented with a set of options, so understanding the factors that contribute to choice is crucial. Of particular interest are context effects, which occur when the set of available options influences a chooser's relative preferences, as they violate traditional rationality assumptions yet are widespread in practice. However, identifying these effects from observed choices is challenging, often requiring foreknowledge of the effect to be measured. In contrast, we provide a method for the automatic discovery of a broad class of context effects from observed choice data. Our models are easier to train and more flexible than existing models and also yield intuitive, interpretable, and statistically testable context effects. Using our models, we identify new context effects in widely used choice datasets and provide the first analysis of choice set context effects in social network growth.
翻訳日:2022-10-21 02:49:29 公開日:2020-11-05
# DongNiao International Birds 1000000データセット

The DongNiao International Birds 10000 Dataset ( http://arxiv.org/abs/2010.06454v2 )

ライセンス: Link先を確認
Jian Mei and Hao Dong(参考訳) DongNiao International Birds 10000 (DIB-10K)は、1万種類以上の異なる種類の鳥を持つ、挑戦的な画像データセットである。 機械学習と鳥類学の研究を可能にするために作られた。 DIB-10Kはこれらの画像の著作権を所有していない。 これはimagenetに似た方法で、イメージのサムネイルのみを提供する。

DongNiao International Birds 10000 (DIB-10K) is a challenging image dataset which has more than 10 thousand different types of birds. It was created to enable the study of machine learning and also ornithology research. DIB-10K does not own the copyright of these images. It only provides thumbnails of images, in a way similar to ImageNet.
翻訳日:2022-10-16 04:34:52 公開日:2020-11-05
# time matters: 予測ビジネスプロセス監視のためのタイムアウェアlstm

Time Matters: Time-Aware LSTMs for Predictive Business Process Monitoring ( http://arxiv.org/abs/2010.00889v3 )

ライセンス: Link先を確認
An Nguyen, Srijeet Chatterjee, Sven Weinzierl, Leo Schwinn, Martin Matzner and Bjoern Eskofier(参考訳) Predictive Business Process Monitoring (PBPM)は、イベントログデータに基づいて進行中のプロセス実行中の将来のプロセス挙動を予測することを目的としている。 特に、次のアクティビティとタイムスタンプ予測のテクニックは、運用ビジネスプロセスのパフォーマンスを向上させるのに役立ちます。 近年,ディープラーニングに基づく多くのPBPMソリューションが提案されている。 イベントログデータのシーケンシャルな性質のため、長い短期記憶(LSTM)細胞を持つリカレントニューラルネットワークを適用することが一般的な選択である。 イベント間の経過時間は情報である、と私たちは主張する。 しかしながら、現在のPBPM技術は、主に「バニラ」LSTM細胞と手作りの時間的制御フローの特徴を用いる。 イベント間の時間依存性をより良くモデル化するために、時間認識LSTM(T-LSTM)細胞に基づく新しいPBPM手法を提案する。 T-LSTM細胞は、連続イベント間の経過時間を本質的に組み込んで、細胞メモリを調節する。 さらに、イベントログにおける共通クラス不均衡を考慮したコスト感受性学習を導入する。 公開ベンチマークイベントログを用いた実験は,導入手法の有効性を示している。

Predictive business process monitoring (PBPM) aims to predict future process behavior during ongoing process executions based on event log data. Especially, techniques for the next activity and timestamp prediction can help to improve the performance of operational business processes. Recently, many PBPM solutions based on deep learning were proposed by researchers. Due to the sequential nature of event log data, a common choice is to apply recurrent neural networks with long short-term memory (LSTM) cells. We argue, that the elapsed time between events is informative. However, current PBPM techniques mainly use 'vanilla' LSTM cells and hand-crafted time-related control flow features. To better model the time dependencies between events, we propose a new PBPM technique based on time-aware LSTM (T-LSTM) cells. T-LSTM cells incorporate the elapsed time between consecutive events inherently to adjust the cell memory. Furthermore, we introduce cost-sensitive learning to account for the common class imbalance in event logs. Our experiments on publicly available benchmark event logs indicate the effectiveness of the introduced techniques.
翻訳日:2022-10-12 00:41:13 公開日:2020-11-05
# 回転して参加する:畳み込み三重項注意モジュール

Rotate to Attend: Convolutional Triplet Attention Module ( http://arxiv.org/abs/2010.03045v2 )

ライセンス: Link先を確認
Diganta Misra, Trikay Nalamada, Ajay Uppili Arasanipalai, Qibin Hou(参考訳) チャネル間や空間的位置の相互依存性を構築する能力から,近年,様々なコンピュータビジョンタスクにおいて,注意機構が広く研究され,広く利用されている。 本稿では,3分岐構造を用いたクロス次元相互作用を捉えることで,軽量だが効果的な注意機構と3重化注意法について検討する。 入力テンソルの場合、トリプルトアテンションは回転操作と後続変換によって次元間の依存関係を構築し、チャネル間および空間情報を無視可能な計算オーバーヘッドで符号化する。 本手法は単純かつ効率的であり,アドオンモジュールとして従来のバックボーンネットワークに簡単に接続できる。 ImageNet-1k上の画像分類や,MSCOCOおよびPASCAL VOCデータセット上でのオブジェクト検出など,様々な課題に対する本手法の有効性を示す。 さらに,GradCAMとGradCAM++の結果を視覚的に検査することで,トリプルトアテンションの性能を詳細に把握する。 本手法の実証的評価は,注意重みの計算において,次元間の依存性を捉えることの重要性を直観的に支援する。 本論文のコードはhttps://github.com/LandskapeAI/triplet-attentionで公開されている。

Benefiting from the capability of building inter-dependencies among channels or spatial locations, attention mechanisms have been extensively studied and broadly used in a variety of computer vision tasks recently. In this paper, we investigate light-weight but effective attention mechanisms and present triplet attention, a novel method for computing attention weights by capturing cross-dimension interaction using a three-branch structure. For an input tensor, triplet attention builds inter-dimensional dependencies by the rotation operation followed by residual transformations and encodes inter-channel and spatial information with negligible computational overhead. Our method is simple as well as efficient and can be easily plugged into classic backbone networks as an add-on module. We demonstrate the effectiveness of our method on various challenging tasks including image classification on ImageNet-1k and object detection on MSCOCO and PASCAL VOC datasets. Furthermore, we provide extensive in-sight into the performance of triplet attention by visually inspecting the GradCAM and GradCAM++ results. The empirical evaluation of our method supports our intuition on the importance of capturing dependencies across dimensions when computing attention weights. Code for this paper can be publicly accessed at https://github.com/LandskapeAI/triplet-attention
翻訳日:2022-10-10 07:31:13 公開日:2020-11-05
# 知っていることを知る:アンサンブルによる対話の信念状態分布の校正

Knowing What You Know: Calibrating Dialogue Belief State Distributions via Ensembles ( http://arxiv.org/abs/2010.02586v2 )

ライセンス: Link先を確認
Carel van Niekerk, Michael Heck, Christian Geishauser, Hsien-Chin Lin, Nurul Lubis, Marco Moresi, Milica Ga\v{s}i\'c(参考訳) 対話システムの性能には,会話中に何が起こるかを正確に追跡する能力が不可欠である。 現在の最先端のマルチドメイン対話状態トラッカーは、現在のgo-toベンチマークで55%以上の精度を達成している。 一方、信念追跡者は、可能な対話状態に対して分布を維持する。 しかし、対話状態トラッカーに比べて性能に欠けており、適切に校正された分布を生成できない。 本研究では,マルチドメイン対話信条トラッカのキャリブレーションにおいて,キャリブレーションモデルを用いたキャリブレーションの最先端性能を示す。 得られた対話信念トラッカーは,従来の対話信念トラッカーモデルよりも精度が高い。

The ability to accurately track what happens during a conversation is essential for the performance of a dialogue system. Current state-of-the-art multi-domain dialogue state trackers achieve just over 55% accuracy on the current go-to benchmark, which means that in almost every second dialogue turn they place full confidence in an incorrect dialogue state. Belief trackers, on the other hand, maintain a distribution over possible dialogue states. However, they lack in performance compared to dialogue state trackers, and do not produce well calibrated distributions. In this work we present state-of-the-art performance in calibration for multi-domain dialogue belief trackers using a calibrated ensemble of models. Our resulting dialogue belief tracker also outperforms previous dialogue belief tracking models in terms of accuracy.
翻訳日:2022-10-10 05:08:57 公開日:2020-11-05
# フォワードおよび逆ダイナミクス学習のための行動条件リカレントカルマンネットワーク

Action-Conditional Recurrent Kalman Networks For Forward and Inverse Dynamics Learning ( http://arxiv.org/abs/2010.10201v2 )

ライセンス: Link先を確認
Vaisakh Shaj, Philipp Becker, Dieter Buchler, Harit Pandya, Niels van Duijkeren, C. James Taylor, Marc Hanheide, Gerhard Neumann(参考訳) 正確な前方および逆ダイナミクスモデルの推定は、油圧によって駆動されるロボット、人工筋肉、異なる接触状況を扱うロボットなどの高度なロボットに対するモデルベース制御の重要な要素である。 このような過程に対する分析モデルは、複雑なヒステリシス効果、非モデル化摩擦、スティクション現象、接触状況における未知の効果のためにしばしば使用できないか不正確である。 有望なアプローチは、リカレントニューラルネットワークを使用してデータ駆動方式で時空間モデルを得ることである。 しかし、そのようなモデルは精度の要求を十分に満たさないことが多く、必要な高いサンプリング周波数の性能が低下し、不確実性の推定ができない。 我々は,最近の確率的再帰的ニューラルネットワークアーキテクチャであるre-current kalman networks (rkns) を用いて,制御行動の遷移ダイナミクスを条件付けしてモデル学習を行う。 RKNは、多くの状態推定タスクにおいてLSTMのような標準のリカレントネットワークより優れている。 kalmanフィルタにインスパイアされたrknは、現在の潜在状態とアクション変数との付加的な相互作用を利用して、リカレントセル内のアクションコンディショニングを実現するエレガントな方法を提供する。 我々は,フォワードモデル学習と逆モデル学習の2つのアーキテクチャを提案する。 どちらのアーキテクチャも、さまざまな実際のロボットダイナミクスモデルにおける予測性能の観点から、モデル学習フレームワークや分析モデルよりも大幅に優れています。

Estimating accurate forward and inverse dynamics models is a crucial component of model-based control for sophisticated robots such as robots driven by hydraulics, artificial muscles, or robots dealing with different contact situations. Analytic models to such processes are often unavailable or inaccurate due to complex hysteresis effects, unmodelled friction and stiction phenomena,and unknown effects during contact situations. A promising approach is to obtain spatio-temporal models in a data-driven way using recurrent neural networks, as they can overcome those issues. However, such models often do not meet accuracy demands sufficiently, degenerate in performance for the required high sampling frequencies and cannot provide uncertainty estimates. We adopt a recent probabilistic recurrent neural network architecture, called Re-current Kalman Networks (RKNs), to model learning by conditioning its transition dynamics on the control actions. RKNs outperform standard recurrent networks such as LSTMs on many state estimation tasks. Inspired by Kalman filters, the RKN provides an elegant way to achieve action conditioning within its recurrent cell by leveraging additive interactions between the current latent state and the action variables. We present two architectures, one for forward model learning and one for inverse model learning. Both architectures significantly outperform exist-ing model learning frameworks as well as analytical models in terms of prediction performance on a variety of real robot dynamics models.
翻訳日:2022-10-05 07:47:38 公開日:2020-11-05
# リアルタイムエッジ分類:トークン制約下での最適オフロード

Real-Time Edge Classification: Optimal Offloading under Token Bucket Constraints ( http://arxiv.org/abs/2010.13737v2 )

ライセンス: Link先を確認
Ayan Chakrabarti, Roch Gu\'erin, Chenyang Lu, Jiangnan Liu(参考訳) 厳密なレイテンシ制約のあるリアルタイムアプリケーションに機械学習ベースのアルゴリズムをデプロイするために、入力のサブセットをエッジにオフロードして、正確だがリソース集約的なモデルで処理し、残りはデバイス自体の精度の低いモデルでのみ処理するエッジ計算設定を検討する。 どちらのモデルも利用可能な計算資源に匹敵する計算コストを持ち、低レイテンシで入力を処理する。 しかし、ネットワーク遅延をオフロードし、アプリケーションの期限に間に合うようにこれらの遅延を管理するために、トークンバケットを使用してデバイスからの送信の平均速度とバースト長を制限します。 我々は,局所モデルの信頼度とトークンバケット状態に基づいて,これらの制約の下でオフロード決定を行うためのマルコフ決定プロセスベースのフレームワークを導入する。 個別のデバイスに対する独立した決定以外にも、同一アクセススイッチに接続された複数のデバイスがバースト割り当てを共有するためのアプローチも提案する。 我々は,標準イメージネット画像分類ベンチマークにおいて,このフレームワークを用いて得られたポリシーを評価し,分析する。

To deploy machine learning-based algorithms for real-time applications with strict latency constraints, we consider an edge-computing setting where a subset of inputs are offloaded to the edge for processing by an accurate but resource-intensive model, and the rest are processed only by a less-accurate model on the device itself. Both models have computational costs that match available compute resources, and process inputs with low-latency. But offloading incurs network delays, and to manage these delays to meet application deadlines, we use a token bucket to constrain the average rate and burst length of transmissions from the device. We introduce a Markov Decision Process-based framework to make offload decisions under these constraints, based on the local model's confidence and the token bucket state, with the goal of minimizing a specified error measure for the application. Beyond isolated decisions for individual devices, we also propose approaches to allow multiple devices connected to the same access switch to share their bursting allocation. We evaluate and analyze the policies derived using our framework on the standard ImageNet image classification benchmark.
翻訳日:2022-10-02 20:24:42 公開日:2020-11-05
# 上位$kのランクに対するMallowsモデルの同心混合:サンプリングと識別可能性

Concentric mixtures of Mallows models for top-$k$ rankings: sampling and identifiability ( http://arxiv.org/abs/2010.14260v2 )

ライセンス: Link先を確認
Collas Fabien and Irurozki Ekhine(参考訳) 本稿では、同じ位置パラメータを持つが、異なるスケールパラメータを持つ2つのMallowsモデル、すなわち同心性Mallowsモデルの混合について考察する。 この状況は、2つの均質な人口からなる有権者の異質な人口があり、1つは専門家の有権者のサブ人口であり、もう1つは非専門家の有権者であるときに発生する。 我々はMallows Top-k$ランキングの効率的なサンプリングアルゴリズムを提案する。 本稿では,各成分の識別可能性と各パラメータの学習可能性について,第一に,上位$k$ランキングを持つボルダアルゴリズムのサンプル複雑性,第二に各成分のランキング分離のための多項式時間アルゴリズムを提案する。 最後に,非専門家の有権者が導入した大量のノイズにランクアグリゲーションが悩まされるため,ボルダアルゴリズムを適用して,特に専門家のランクと一致した基礎的真実コンセンサスランキングを復元する。

In this paper, we consider mixtures of two Mallows models for top-$k$ rankings, both with the same location parameter but with different scale parameters, i.e., a mixture of concentric Mallows models. This situation arises when we have a heterogeneous population of voters formed by two homogeneous populations, one of which is a subpopulation of expert voters while the other includes the non-expert voters. We propose efficient sampling algorithms for Mallows top-$k$ rankings. We show the identifiability of both components, and the learnability of their respective parameters in this setting by, first, bounding the sample complexity for the Borda algorithm with top-$k$ rankings and second, proposing polynomial time algorithm for the separation of the rankings in each component. Finally, since the rank aggregation will suffer from a large amount of noise introduced by the non-expert voters, we adapt the Borda algorithm to be able to recover the ground truth consensus ranking which is especially consistent with the expert rankings.
翻訳日:2022-10-02 10:54:47 公開日:2020-11-05
# 会話型臨床面接における話者役割認識と話者登録プロトコルの比較

Comparison of Speaker Role Recognition and Speaker Enrollment Protocol for conversational Clinical Interviews ( http://arxiv.org/abs/2010.16131v2 )

ライセンス: Link先を確認
Rachid Riad and Hadrien Titeux and Laurie Lemoine and Justine Montillot and Agnes Sliwinski and Jennifer Hamet Bagnou and Xuan Nga Cao and Anne-Catherine Bachoud-L\'evi and Emmanuel Dupoux(参考訳) 臨床医と患者の会話は、自然条件下では、医療のフォローアップのための貴重な情報源である。 これらの対話の自動分析は、新しい言語マーカーの抽出と臨床医の報告のスピードアップに役立つ。 しかし、特に発話障害や言語障害の個人において、話者の回旋を検知し識別するのに最も効果的な音声処理パイプラインはどれかは明らかではない。 本稿では,この課題を解決するために,話者の役割認識と話者登録手法の比較評価を行うことのできるデータの分割を提案した。 エンドツーエンドのニューラルネットワークアーキテクチャをトレーニングして、各タスクに適応し、同じメトリクスで各アプローチを評価しました。 ハンティントン病の異なる段階における神経心理学者と面接者の自然な臨床会話に関する実験結果が報告されている。 講演者の役割認識モデルは最高のパフォーマンスを示した。 さらに,本研究では,ドメイン内データを用いたモデルの再トレーニングの重要性を強調する。 最後に, 調査の結果は面接者の年齢層に依存しず, 方法の臨床的妥当性が強調された。

Conversations between a clinician and a patient, in natural conditions, are valuable sources of information for medical follow-up. The automatic analysis of these dialogues could help extract new language markers and speed-up the clinicians' reports. Yet, it is not clear which speech processing pipeline is the most performing to detect and identify the speaker turns, especially for individuals with speech and language disorders. Here, we proposed a split of the data that allows conducting a comparative evaluation of speaker role recognition and speaker enrollment methods to solve this task. We trained end-to-end neural network architectures to adapt to each task and evaluate each approach under the same metric. Experimental results are reported on naturalistic clinical conversations between Neuropsychologist and Interviewees, at different stages of Huntington's disease. We found that our Speaker Role Recognition model gave the best performances. In addition, our study underlined the importance of retraining models with in-domain data. Finally, we observed that results do not depend on the demographics of the Interviewee, highlighting the clinical relevance of our methods.
翻訳日:2022-10-01 17:02:39 公開日:2020-11-05
# スーパーコンピュータスケールでの学習効率:83% ImageNet Top-1の精度

Training EfficientNets at Supercomputer Scale: 83% ImageNet Top-1 Accuracy in One Hour ( http://arxiv.org/abs/2011.00071v2 )

ライセンス: Link先を確認
Arissa Wongpanich, Hieu Pham, James Demmel, Mingxing Tan, Quoc Le, Yang You, Sameer Kumar(参考訳) efficientnetsは、効率的にスケールされた畳み込みニューラルネットワークに基づく最先端の画像分類モデルである。 例えば、EfficientNet-B0モデルのトレーニングには、クラウドTPU v2-8ノードで23時間を要する。 本稿では,2048コアのTPU-v3 Pod上でのEfficientNetsのトレーニングを高速化する手法について検討する。 大規模バッチオプティマイザの選択や学習率のスケジュール,分散評価とバッチ正規化手法の活用など,1024 tpu-v3コア上でのバッチサイズ65536へのスケールアップに必要な最適化について検討する。 さらに,ImageNetデータセットでトレーニングしたEfficientNetモデルのタイミングと性能のベンチマークを行い,大規模に効率的なNetの挙動を解析する。 最適化により、1時間4分で83%の精度でImageNet上でEfficientNetをトレーニングすることができます。

EfficientNets are a family of state-of-the-art image classification models based on efficiently scaled convolutional neural networks. Currently, EfficientNets can take on the order of days to train; for example, training an EfficientNet-B0 model takes 23 hours on a Cloud TPU v2-8 node. In this paper, we explore techniques to scale up the training of EfficientNets on TPU-v3 Pods with 2048 cores, motivated by speedups that can be achieved when training at such scales. We discuss optimizations required to scale training to a batch size of 65536 on 1024 TPU-v3 cores, such as selecting large batch optimizers and learning rate schedules as well as utilizing distributed evaluation and batch normalization techniques. Additionally, we present timing and performance benchmarks for EfficientNet models trained on the ImageNet dataset in order to analyze the behavior of EfficientNets at scale. With our optimizations, we are able to train EfficientNet on ImageNet to an accuracy of 83% in 1 hour and 4 minutes.
翻訳日:2022-10-01 16:35:47 公開日:2020-11-05
# 動的環境における深いリアクティブ計画

Deep Reactive Planning in Dynamic Environments ( http://arxiv.org/abs/2011.00155v2 )

ライセンス: Link先を確認
Kei Ota, Devesh K. Jha, Tadashi Onishi, Asako Kanezaki, Yusuke Yoshiyasu, Yoko Sasaki, Toshisada Mariyama, Daniel Nikovski(参考訳) 提案手法の主な特徴は、ロボットが実行中の環境の変化に適応できるエンドツーエンドのポリシーを学習できるようにすることである。 政策の目標条件付けはrl文献で研究されているが、そのようなアプローチは実行中にロボットの目標が変更されるケースに簡単には拡張できない。 これは人間が自然にできることです。 しかし、特に目標位置がロボットに明示的に提供されず、視覚センサを通して知覚される必要がある場合、ロボットはそのような反射(すなわち、動的環境に自然に反応する)を学習することは困難である。 本研究では,従来の運動計画,深層学習,深層強化学習を相乗的に組み合わせ,任意の環境に一般化することで,このような行動を実現する手法を提案する。 提案手法は,6自由度産業用マニピュレータの実システムにおいて,複数の到達・選択・配置タスクに対して提案手法を実証する。 私たちの仕事を説明するビデオは、 \url{https://youtu.be/hE-Ew59GRPQ} で見ることができます。

The main novelty of the proposed approach is that it allows a robot to learn an end-to-end policy which can adapt to changes in the environment during execution. While goal conditioning of policies has been studied in the RL literature, such approaches are not easily extended to cases where the robot's goal can change during execution. This is something that humans are naturally able to do. However, it is difficult for robots to learn such reflexes (i.e., to naturally respond to dynamic environments), especially when the goal location is not explicitly provided to the robot, and instead needs to be perceived through a vision sensor. In the current work, we present a method that can achieve such behavior by combining traditional kinematic planning, deep learning, and deep reinforcement learning in a synergistic fashion to generalize to arbitrary environments. We demonstrate the proposed approach for several reaching and pick-and-place tasks in simulation, as well as on a real system of a 6-DoF industrial manipulator. A video describing our work could be found \url{https://youtu.be/hE-Ew59GRPQ}.
翻訳日:2022-10-01 04:39:40 公開日:2020-11-05
# 集中型・非集中型イメージペアによる自己適応学習

Self-Adaptively Learning to Demoire from Focused and Defocused Image Pairs ( http://arxiv.org/abs/2011.02055v2 )

ライセンス: Link先を確認
Lin Liu, Shanxin Yuan, Jianzhuang Liu, Liping Bao, Gregory Slabaugh, Qi Tian(参考訳) モワールのアーティファクトはデジタル写真では一般的であり、高周波シーンの内容とカメラの色フィルターアレイの干渉から生じる。 大規模データセットでトレーニングされた既存のディープラーニングベースのデモレーア手法は、複雑なモイアパターンの処理に制限があり、主にデジタルディスプレイで撮影された写真のデモレーアに重点を置いている。 また、自然界におけるモアレのない地道の獲得は困難であるが、訓練には必要である。 本稿では,高周波数画像の復調のための自己適応学習手法を提案する。 モアレのない画像とモアレのないぼかし画像で劣化した画像から,ネットワークはモアレのないクリーンイメージと,明示的なトレーニング段階を必要としない自己適応戦略を用いて,テスト時間適応を行う。 我々のモデルは2つのサブネットワークを持ち、反復的に動作する。 各イテレーションで、1つのサブネットワークがmoireイメージを入力として取り、moireパターンを削除し、画像詳細を復元し、もう1つのサブネットワークがぼかしイメージからぼやけカーネルを推定する。 2つのサブネットワークは共同で最適化されている。 広範な実験により,本手法は最先端の手法よりも優れており,高品質なデモ結果が得られることを示した。 ディスプレイ画面によって引き起こされるモアレのアーティファクトを除去するタスクを一般化することができる。 さらに,スクリーンやテクスチャのモアレアーティファクトを備えた画像を含む,新たなmoireデータセットを構築した。 私たちが知る限り、これは実際のテクスチャモアパターンを持つ最初のデータセットです。

Moire artifacts are common in digital photography, resulting from the interference between high-frequency scene content and the color filter array of the camera. Existing deep learning-based demoireing methods trained on large scale datasets are limited in handling various complex moire patterns, and mainly focus on demoireing of photos taken of digital displays. Moreover, obtaining moire-free ground-truth in natural scenes is difficult but needed for training. In this paper, we propose a self-adaptive learning method for demoireing a high-frequency image, with the help of an additional defocused moire-free blur image. Given an image degraded with moire artifacts and a moire-free blur image, our network predicts a moire-free clean image and a blur kernel with a self-adaptive strategy that does not require an explicit training stage, instead performing test-time adaptation. Our model has two sub-networks and works iteratively. During each iteration, one sub-network takes the moire image as input, removing moire patterns and restoring image details, and the other sub-network estimates the blur kernel from the blur image. The two sub-networks are jointly optimized. Extensive experiments demonstrate that our method outperforms state-of-the-art methods and can produce high-quality demoired results. It can generalize well to the task of removing moire artifacts caused by display screens. In addition, we build a new moire dataset, including images with screen and texture moire artifacts. As far as we know, this is the first dataset with real texture moire patterns.
翻訳日:2022-09-30 05:55:57 公開日:2020-11-05
# シナリオに基づく自動運転開発フレームワーク

A Scenario-Based Development Framework for Autonomous Driving ( http://arxiv.org/abs/2011.01439v2 )

ライセンス: Link先を確認
Xiaoyi Li(参考訳) 本稿では,自動運転車のシナリオベーステスト・開発技術の進歩について概説する。 先行研究を体系的に分析し,シナリオの定義,シナリオオントロジーの要素,シナリオのデータソース,シナリオデータの処理方法,シナリオベースのvモデルを提案した。 さらに,ランダムなシナリオ生成と危険なシナリオ生成による自動テストシナリオ構築手法を要約した。

This article summarizes the research progress of scenario-based testing and development technology for autonomous vehicles. We systematically analyzed previous research works and proposed the definition of scenario, the elements of the scenario ontology, the data source of the scenario, the processing method of the scenario data, and scenario-based V-Model. Moreover, we summarized the automated test scenario construction method by random scenario generation and dangerous scenario generation.
翻訳日:2022-09-30 05:47:34 公開日:2020-11-05
# 視覚ソーシャルディスタンシングのための単一画像人間のプロキシミクス推定

Single Image Human Proxemics Estimation for Visual Social Distancing ( http://arxiv.org/abs/2011.02018v2 )

ライセンス: Link先を確認
Maya Aghaei, Matteo Bustreo, Yiming Wang, Gianluca Bailo, Pietro Morerio, Alessio Del Bue(参考訳) 本研究では, 制約のないシナリオにおいて, 単一の未調整画像からいわゆる「ソーシャルディスタンシング」を推定する問題に対処する。 本研究では,シーングラウンドと画像平面間のホモグラフィ行列を近似する半自動解法を提案する。 推定されたホモグラフィーを用いて、オフザシェルフポーズ検出装置を利用して、画像上の身体のポーズを検出し、身体部分の長さを用いて個人間の距離を判断する。 対人距離はさらに局所的に検査され、社会距離規則違反の可能性を検出する。 提案手法は,個人間距離を基礎としたパブリックドメインデータセットのベースラインに対して定量的に定性的に検証する。 また,本手法の実際のテストシナリオにおける適用例を示すとともに,個人間距離の統計を重要環境における安全性向上に利用している。

In this work, we address the problem of estimating the so-called "Social Distancing" given a single uncalibrated image in unconstrained scenarios. Our approach proposes a semi-automatic solution to approximate the homography matrix between the scene ground and image plane. With the estimated homography, we then leverage an off-the-shelf pose detector to detect body poses on the image and to reason upon their inter-personal distances using the length of their body-parts. Inter-personal distances are further locally inspected to detect possible violations of the social distancing rules. We validate our proposed method quantitatively and qualitatively against baselines on public domain datasets for which we provided groundtruth on inter-personal distances. Besides, we demonstrate the application of our method deployed in a real testing scenario where statistics on the inter-personal distances are currently used to improve the safety in a critical environment.
翻訳日:2022-09-30 05:29:52 公開日:2020-11-05
# 集合予測ネットワークを用いた結合エンティティと関係抽出

Joint Entity and Relation Extraction with Set Prediction Networks ( http://arxiv.org/abs/2011.01675v2 )

ライセンス: Link先を確認
Dianbo Sui, Yubo Chen, Kang Liu, Jun Zhao, Xiangrong Zeng, Shengping Liu(参考訳) 関係抽出タスクは、文からすべての関係三重項を抽出することを目的としている。 本質的に、文に含まれる関係三重項は非順序である。 しかし、以前のseq2seqベースのモデルは、トレーニングフェーズでトリプルのセットをシーケンスに変換する必要がある。 このボトルネックを解消するため,我々は,結合エンティティと関係抽出を直接集合予測問題として扱い,抽出モデルは複数の三重項の順序を予測する負担を解消できる。 そこで本研究では,非自己回帰並列復号方式のトランスフォーマを特徴とするネットワークを提案する。 一定の順序で三重項を生成する自己回帰アプローチとは異なり、提案したネットワークは1ショットで三重項の最終セットを直接出力する。 さらに,両部マッチングによる一意な予測を強制するセットベース損失も設計する。 三次の小さなシフトを高いペナライズするクロスエントロピー損失と比較すると、提案された二部マッチング損失は予測のあらゆる置換に不変であり、三つの順序を無視し、関係タイプとエンティティに焦点を当てることで、より正確なトレーニング信号を提供することができる。 2つのベンチマークデータセットによる実験により,提案モデルが現在の最先端手法よりも大幅に優れていることが示された。 トレーニングコードとトレーニングされたモデルはhttp://github.com/DianboWork/SPN4REで提供される。

The joint entity and relation extraction task aims to extract all relational triples from a sentence. In essence, the relational triples contained in a sentence are unordered. However, previous seq2seq based models require to convert the set of triples into a sequence in the training phase. To break this bottleneck, we treat joint entity and relation extraction as a direct set prediction problem, so that the extraction model can get rid of the burden of predicting the order of multiple triples. To solve this set prediction problem, we propose networks featured by transformers with non-autoregressive parallel decoding. Unlike autoregressive approaches that generate triples one by one in a certain order, the proposed networks directly output the final set of triples in one shot. Furthermore, we also design a set-based loss that forces unique predictions via bipartite matching. Compared with cross-entropy loss that highly penalizes small shifts in triple order, the proposed bipartite matching loss is invariant to any permutation of predictions; thus, it can provide the proposed networks with a more accurate training signal by ignoring triple order and focusing on relation types and entities. Experiments on two benchmark datasets show that our proposed model significantly outperforms current state-of-the-art methods. Training code and trained models will be available at http://github.com/DianboWork/SPN4RE.
翻訳日:2022-09-30 04:53:31 公開日:2020-11-05
# 深いガウス過程を用いた多孔質媒質中のダーシー流れの不確かさ定量化

Uncertainty Quantification of Darcy Flow through Porous Media using Deep Gaussian Process ( http://arxiv.org/abs/2011.01647v2 )

ライセンス: Link先を確認
A. Daneshkhah, O. Chatrabgoun, M. Esmaeilbeigi, T. Sedighi, S. Abolfathi(参考訳) ヘテロジニアス多孔質媒質中の流れのモデル化における不確実な定量化と伝播のための, ディープガウス過程(ディープGP)と呼ばれる非線形ガウス過程(GP)に基づく計算手法を提案する。 また、モデル出力の寸法性を低減し、水文地質特性と低次流体速度場との非常に複雑な関係を扱いやすい方法でエミュレートするためにも用いられる。 ディープGPはGPの多層階層的一般化であり、非線型写像に連結された複数の隠れ層を通して複雑さに取り組むことで、高次元複素システムの深層学習とモデリングの非常に効率的なモデルである、無限に広い隠蔽層を持つ。 このアプローチにより、水文地質データは、入力が他のgpによって制御される多変量gpの出力としてモデル化され、各層が標準gpまたはガウス過程潜在変数モデルのいずれかである。 与えられた入力に関連するモデル出力の後方分布を解析的に近似できるように変動近似フレームワークを用いる。 他の次元削減とは対照的に,各層に隠蔽層の寸法に関する情報を提供しない手法では,各層に隠蔽層の寸法を自動的に選択し,各層で得られた不確実性を階層的に伝播させることができる。 これを用いて、フル入力空間の次元はモデリング領域の幾何学的パラメータと確率的水文学パラメータの両方から成り、地下流れ問題の確率的モデリングに対して一般的に仮定される単純化を必要とせずに同時に還元することができる。 モンテカルロ法のような他の確率的手法と比較して計算労力を大幅に削減した流れ統計を推定できる。

A computational method based on the non-linear Gaussian process (GP), known as deep Gaussian processes (deep GPs) for uncertainty quantification & propagation in modelling of flow through heterogeneous porous media is presented. The method is also used for reducing dimensionality of model output and consequently emulating highly complex relationship between hydrogeological properties and reduced order fluid velocity field in a tractable manner. Deep GPs are multi-layer hierarchical generalisations of GPs with multiple, infinitely wide hidden layers that are very efficient models for deep learning and modelling of high-dimensional complex systems by tackling the complexity through several hidden layers connected with non-linear mappings. According to this approach, the hydrogeological data is modelled as the output of a multivariate GP whose inputs are governed by another GP such that each single layer is either a standard GP or the Gaussian process latent variable model. A variational approximation framework is used so that the posterior distribution of the model outputs associated to given inputs can be analytically approximated. In contrast to the other dimensionality reduction, methods that do not provide any information about the dimensionality of each hidden layer, the proposed method automatically selects the dimensionality of each hidden layer and it can be used to propagate uncertainty obtained in each layer across the hierarchy. Using this, dimensionality of the full input space consists of both geometrical parameters of modelling domain and stochastic hydrogeological parameters can be simultaneously reduced without the need for any simplifications generally being assumed for stochastic modelling of subsurface flow problems. It allows estimation of the flow statistics with greatly reduced computational efforts compared to other stochastic approaches such as Monte Carlo method.
翻訳日:2022-09-30 04:25:34 公開日:2020-11-05
# スマートシティにおける新しいモビリティシステムのためのヒステリックq学習コーディネーションフレームワーク

A Hysteretic Q-learning Coordination Framework for Emerging Mobility Systems in Smart Cities ( http://arxiv.org/abs/2011.03137v1 )

ライセンス: Link先を確認
Behdad Chalaki and Andreas A. Malikopoulos(参考訳) 接続された自動車両(CAV)は交通渋滞や大気汚染を緩和し、安全性を向上させる。 本稿では,移動時間を最小限に抑え,燃料効率を向上させるために,信号のない交差点におけるCAVの分散コーディネートフレームワークを提案する。 我々は、シンプルかつ強力な強化学習アプローチ、q-learningと呼ばれるオフポリシーの時間的差異学習を採用し、この問題に対処するコーディネーションメカニズムを強化した。 そこで,本システムの性能向上のために,第1次キューイングポリシを統合した。 本稿では,ポントリャーギンの最小原理に基づく古典的最適制御法との比較とシミュレーションによる提案手法の有効性を示す。

Connected and automated vehicles (CAVs) can alleviate traffic congestion, air pollution, and improve safety. In this paper, we provide a decentralized coordination framework for CAVs at a signal-free intersection to minimize travel time and improve fuel efficiency. We employ a simple yet powerful reinforcement learning approach, an off-policy temporal difference learning called Q-learning, enhanced with a coordination mechanism to address this problem. Then, we integrate a first-in-first-out queuing policy to improve the performance of our system. We demonstrate the efficacy of our proposed approach through simulation and comparison with the classical optimal control method based on Pontryagin's minimum principle.
翻訳日:2022-09-29 13:09:53 公開日:2020-11-05
# 乳房炎は農家より早く検出できるのか?

Can We Detect Mastitis earlier than Farmers? ( http://arxiv.org/abs/2011.03344v1 )

ライセンス: Link先を確認
Cathal Ryan, Christophe Gu\'eret, Donagh Berry, Brian Mac Namee(参考訳) この研究の目的は、機械学習技術の導入によって、通常農家が発見する前に、乳房炎感染を検出することができるようにするためのモデリングフレームワークを構築することである。 その1つは、smaと呼ばれる1つの体細胞数記録に記録されたサブクリニカル乳房炎感染を事前に検出することと、もう1つは、牛がamaと呼ばれる乳房炎菌を搾乳するいつでも、サブクリニカル乳房炎感染と、両方のサブクリニカル乳房炎感染を検知することである。 また,本研究では,2つの異なる特徴セットについて紹介する。これらの特徴は,感染検出時に考慮すべき異なる特徴であり,農場の平均と異なる牛のアイデアであり,授乳の動向でもある。 本報告では,SMA は AMA が産生するサブクリニカル感染症よりも優れており,サブクリニカル感染症の分類に限っては,サブクリニカル感染症を,体細胞数測定が乳化のどの段階でもCM が出現できる一定の閾値を超えた時点で記録できるため,サブクリニカル感染症の分類が困難である。 したがって、AMAの精度の低い値の方が農家にとって有益である場合もある。

The aim of this study was to build a modelling framework that would allow us to be able to detect mastitis infections before they would normally be found by farmers through the introduction of machine learning techniques. In the making of this we created two different modelling framework's, one that works on the premise of detecting Sub Clinical mastitis infections at one Somatic Cell Count recording in advance called SMA and the other tries to detect both Sub Clinical mastitis infections aswell as Clinical mastitis infections at any time the cow is milked called AMA. We also introduce the idea of two different feature sets for our study, these represent different characteristics that should be taken into account when detecting infections, these were the idea of a cow differing to a farm mean and also trends in the lactation. We reported that the results for SMA are better than those created by AMA for Sub Clinical infections yet it has the significant disadvantage of only being able to classify Sub Clinical infections due to how we recorded Sub Clinical infections as being any time a Somatic Cell Count measurement went above a certain threshold where as CM could appear at any stage of lactation. Thus in some cases the lower accuracy values for AMA might in fact be more beneficial to farmers.
翻訳日:2022-09-29 13:01:48 公開日:2020-11-05
# アドホック無線ネットワークにおける非同期リソース割り当てのための教師なし学習

Unsupervised Learning for Asynchronous Resource Allocation in Ad-hoc Wireless Networks ( http://arxiv.org/abs/2011.02644v1 )

ライセンス: Link先を確認
Zhiyang Wang, Mark Eisen and Alejandro Ribeiro(参考訳) 非同期無線ネットワーク設定における最適資源割り当て問題について検討する。 本研究では,アグリゲーショングラフニューラルネットワーク(Agg-GNN)に基づく教師なし学習手法を設計する。 各ネットワークノード上の局所的な集約情報構造に依存するため,局所的に実装しながらグローバルかつ非同期に学習することができる。 アクティベーションパターンを各ノードの特徴としてモデル化し,ポリシーに基づくリソース割り当て手法を訓練することにより,非同期性を捉える。 また,訓練された agg-gnn の伝達可能性を示す置換不変性を提案する。 ベースライン法と比較して数値シミュレーションにより,我々の戦略を検証した。

We consider optimal resource allocation problems under asynchronous wireless network setting. Without explicit model knowledge, we design an unsupervised learning method based on Aggregation Graph Neural Networks (Agg-GNNs). Depending on the localized aggregated information structure on each network node, the method can be learned globally and asynchronously while implemented locally. We capture the asynchrony by modeling the activation pattern as a characteristic of each node and train a policy-based resource allocation method. We also propose a permutation invariance property which indicates the transferability of the trained Agg-GNN. We finally verify our strategy by numerical simulations compared with baseline methods.
翻訳日:2022-09-29 13:00:36 公開日:2020-11-05
# 歌声合成音の半教師付き学習

Semi-supervised Learning for Singing Synthesis Timbre ( http://arxiv.org/abs/2011.02809v1 )

ライセンス: Link先を確認
Jordi Bonada, Merlijn Blaauw(参考訳) 本研究では,音声データのみから新たな音声を学習できる半教師歌唱シンセサイザーを提案する。 本システムは,2つのエンコーダ,言語と音響,および1つの(音響)デコーダを備えたエンコーダデコーダモデルである。 最初のステップでは、システムはラベル付きマルチシンガーデータセットを使用して教師ありの方法でトレーニングされる。 ここでは、両方のエンコーダが生成する埋め込みが似ていることを保証し、後に音響的または言語的な入力機能を持つモデルが使用できるようにする。 新しい声を教師なしで学習するために、予め訓練された音響エンコーダを使用して、ターゲットシンガーのデコーダを訓練する。 最後に,事前学習した言語エンコーダと新しい音声のデコーダを併用して,言語入力から音響的特徴を生成する。 聴取テストによりシステム評価を行い、その結果が等価な教師付きアプローチで得られたものと同等であることを示す。

We propose a semi-supervised singing synthesizer, which is able to learn new voices from audio data only, without any annotations such as phonetic segmentation. Our system is an encoder-decoder model with two encoders, linguistic and acoustic, and one (acoustic) decoder. In a first step, the system is trained in a supervised manner, using a labelled multi-singer dataset. Here, we ensure that the embeddings produced by both encoders are similar, so that we can later use the model with either acoustic or linguistic input features. To learn a new voice in an unsupervised manner, the pretrained acoustic encoder is used to train a decoder for the target singer. Finally, at inference, the pretrained linguistic encoder is used together with the decoder of the new voice, to produce acoustic features from linguistic input. We evaluate our system with a listening test and show that the results are comparable to those obtained with an equivalent supervised approach.
翻訳日:2022-09-29 13:00:26 公開日:2020-11-05
# 科学における意味空間と関係空間:記事ベクトル化のための深層学習モデル

Semantic and Relational Spaces in Science of Science: Deep Learning Models for Article Vectorisation ( http://arxiv.org/abs/2011.02887v1 )

ライセンス: Link先を確認
Diego Kozlowski, Jennifer Dusdal, Jun Pang and Andreas Zilian(参考訳) 前世紀には、世界中の科学出版物の安定的かつ指数関数的な成長が観察された。 膨大な量の文献が、フィールド内および手動検査に基づくフィールド間の研究の全体分析を不可能にしている。 文献レビューのプロセスを支援するための自動技術は、学術出版物に埋め込まれた疫学的・社会的なパターンを見つけるために必要である。 計算機科学では、大量のデータを扱う新しいツールが開発されている。 特に、ディープラーニング技術は、各観測の最も関連性の高い情報が強調される新しい低次元空間に、観察を投影する自動エンドツーエンドモデルの可能性を開く。 深層学習を用いて、科学出版物の新たな表現を構築することは、成長するがいまだに新しい研究分野である。 本研究の目的は,学術論文の洞察を集めるための深層学習の可能性と限界について論じることである。 我々は、自然言語処理(nlp)とグラフニューラルネットワーク(gnns)を用いて、記事の意味的および関係的側面に基づく文書レベルの埋め込みに焦点を当てる。 これらのテクニックが生み出すさまざまな成果について検討する。 論文のセマンティックな空間をNLPでエンコードできるのに対し、GNNでは研究コミュニティの社会的実践をエンコードするリレーショナルな空間を構築することができる。

Over the last century, we observe a steady and exponentially growth of scientific publications globally. The overwhelming amount of available literature makes a holistic analysis of the research within a field and between fields based on manual inspection impossible. Automatic techniques to support the process of literature review are required to find the epistemic and social patterns that are embedded in scientific publications. In computer sciences, new tools have been developed to deal with large volumes of data. In particular, deep learning techniques open the possibility of automated end-to-end models to project observations to a new, low-dimensional space where the most relevant information of each observation is highlighted. Using deep learning to build new representations of scientific publications is a growing but still emerging field of research. The aim of this paper is to discuss the potential and limits of deep learning for gathering insights about scientific research articles. We focus on document-level embeddings based on the semantic and relational aspects of articles, using Natural Language Processing (NLP) and Graph Neural Networks (GNNs). We explore the different outcomes generated by those techniques. Our results show that using NLP we can encode a semantic space of articles, while with GNN we are able to build a relational space where the social practices of a research community are also encoded.
翻訳日:2022-09-29 12:59:49 公開日:2020-11-05
# プロキシ異常例を慎重に選択した簡易二分分類問題としての異常音検出

Anomalous Sound Detection as a Simple Binary Classification Problem with Careful Selection of Proxy Outlier Examples ( http://arxiv.org/abs/2011.02949v1 )

ライセンス: Link先を確認
Paul Primus, Verena Haunschmid, Patrick Praher, and Gerhard Widmer(参考訳) 教師なしの異常音検出は、異常の種類を明示的に特定することなく、「正常」と定義される音から逸脱する音を特定することに関わる。 重要な障害は異常音の多様性と稀さであり、通常は異常音の代表的な集合を収集できない。 その結果、ほとんどの異常検出方法は教師なしの機械学習手法ではなく教師なしの手法を用いる。 それにもかかわらず、異常音検出は、異常サンプルの集合を、プロキシ・アウトレイアと呼ぶものに注意深く置き換える場合、教師付き分類問題として効果的にフレーム化できることを示す。 プロキシ外れ値の候補は、通常音でも異常音でもない全ての録音を含む可能性があるため、豊富に利用できる。 我々は,2020年のDCASEチャレンジの機械条件モニタリングデータセットを実験し,記録条件が一致し,ターゲット音との類似度が高いプロキシ・アウトリーチを求める。 類似した音と一致した記録条件を持つデータが得られない場合、これらの2次元の多様性を持つデータセットが望ましい。 DCASE2020 Challengeのタスク2では,プロキシ・オブライラを用いた教師付きトレーニングに基づくモデルが3位にランクインした。

Unsupervised anomalous sound detection is concerned with identifying sounds that deviate from what is defined as 'normal', without explicitly specifying the types of anomalies. A significant obstacle is the diversity and rareness of outliers, which typically prevent us from collecting a representative set of anomalous sounds. As a consequence, most anomaly detection methods use unsupervised rather than supervised machine learning methods. Nevertheless, we will show that anomalous sound detection can be effectively framed as a supervised classification problem if the set of anomalous samples is carefully substituted with what we call proxy outliers. Candidates for proxy outliers are available in abundance as they potentially include all recordings that are neither normal nor abnormal sounds. We experiment with the machine condition monitoring data set of the 2020's DCASE Challenge and find proxy outliers with matching recording conditions and high similarity to the target sounds particularly informative. If no data with similar sounds and matching recording conditions is available, data sets with a larger diversity in these two dimensions are preferable. Our models based on supervised training with proxy outliers achieved rank three in Task 2 of the DCASE2020 Challenge.
翻訳日:2022-09-29 12:59:27 公開日:2020-11-05
# vcクラスにおける適切な学習者の情報複雑性について

On the Information Complexity of Proper Learners for VC Classes in the Realizable Case ( http://arxiv.org/abs/2011.02970v1 )

ライセンス: Link先を確認
Mahdi Haghifam, Gintare Karolina Dziugaite, Shay Moran, Daniel M. Roy(参考訳) スタインケとザキンチヌー (2020a) の予想に対する負の解決として、vapnik--chervonenkis (vc) クラスの適切な学習者の条件付き相互情報 (cmi) の束縛が $d \log n +2$ から $o(d)$ に改善されないことを示し、ここで $n$ は i.i.d. のトレーニング例の数である。 実際、我々は任意の適切な学習者のcmiがvc次元の任意の実数値関数に制限されないvcクラスを示す。

We provide a negative resolution to a conjecture of Steinke and Zakynthinou (2020a), by showing that their bound on the conditional mutual information (CMI) of proper learners of Vapnik--Chervonenkis (VC) classes cannot be improved from $d \log n +2$ to $O(d)$, where $n$ is the number of i.i.d. training examples. In fact, we exhibit VC classes for which the CMI of any proper learner cannot be bounded by any real-valued function of the VC dimension only.
翻訳日:2022-09-29 12:59:07 公開日:2020-11-05
# Web調査における応答困難度予測:マウス運動特徴に基づく機械学習アプローチ

Predicting respondent difficulty in web surveys: A machine-learning approach based on mouse movement features ( http://arxiv.org/abs/2011.06916v1 )

ライセンス: Link先を確認
Amanda Fern\'andez-Fontelo, Pascal J. Kieslich, Felix Henninger, Frauke Kreuter and Sonja Greven(参考訳) 調査研究の中心的な目標は、回答者から堅牢で信頼性の高いデータを集めることである。 しかし、研究者がアンケートの設計に最善を尽くしているにもかかわらず、回答者は質問の意図を理解するのに苦労し、適切な回答に苦慮することがある。 このような難易度を検出することができれば、応答性のあるアンケート設計を通じてリアルタイムな介入を通知したり、事実の後に測定誤差を指示し修正したりすることができる。 ウェブ調査の文脈におけるこれまでの研究は、パラデータ、特に応答時間を用いて困難を検出し、ユーザーエクスペリエンスとデータ品質を改善するのに役立ててきた。 しかし、よりリッチなデータソースが利用可能となり、回答者がマウスで行う動きの形で、応答-サーベイ相互作用のさらに詳細な指標として利用できるようになった。 本稿では,機械学習を用いて,マウス追跡データの難易度に関する予測値について検討する。 我々は,雇用履歴と人口統計情報に関する調査から得られたデータを用いて,いくつかの質問の難しさを実験的に操作する。 カーソルの動きから得られる特徴を用いて、回答者が質問の易解か難解なバージョンに答えたかどうかを予測し、いくつかの最先端の教師あり学習手法を用いて比較した。 さらに,本研究は,回答者のベースラインマウス行動を調整するパーソナライズ手法を開発し,その性能を評価する。 操作された3つの調査質問に対して、マウスの動きの完全なセットを含むと、ネストしたクロスバリデーションにおける応答時間のみのモデルよりも予測性能が向上することがわかった。 マウスの動きの個体差についての説明は更なる改善につながった。

A central goal of survey research is to collect robust and reliable data from respondents. However, despite researchers' best efforts in designing questionnaires, respondents may experience difficulty understanding questions' intent and therefore may struggle to respond appropriately. If it were possible to detect such difficulty, this knowledge could be used to inform real-time interventions through responsive questionnaire design, or to indicate and correct measurement error after the fact. Previous research in the context of web surveys has used paradata, specifically response times, to detect difficulties and to help improve user experience and data quality. However, richer data sources are now available, in the form of the movements respondents make with the mouse, as an additional and far more detailed indicator for the respondent-survey interaction. This paper uses machine learning techniques to explore the predictive value of mouse-tracking data with regard to respondents' difficulty. We use data from a survey on respondents' employment history and demographic information, in which we experimentally manipulate the difficulty of several questions. Using features derived from the cursor movements, we predict whether respondents answered the easy or difficult version of a question, using and comparing several state-of-the-art supervised learning methods. In addition, we develop a personalization method that adjusts for respondents' baseline mouse behavior and evaluate its performance. For all three manipulated survey questions, we find that including the full set of mouse movement features improved prediction performance over response-time-only models in nested cross-validation. Accounting for individual differences in mouse movements led to further improvements.
翻訳日:2022-09-29 12:58:54 公開日:2020-11-05
# マルチカメラ干渉問題における四面体のスマート時間多重化

Smart Time-Multiplexing of Quads Solves the Multicamera Interference Problem ( http://arxiv.org/abs/2011.03102v1 )

ライセンス: Link先を確認
Tomislav Pribanic and Tomislav Petkovic and David Bojanic and Kristijan Bartol(参考訳) 飛行時間(ToF)カメラは3Dイメージングでますます人気が高まっている。 それらの最適利用は、いくつかの側面から研究されている。 オープンな研究上の問題の1つは、2つ以上のToFカメラが同時に動作している場合のマルチカメラ干渉問題の可能性である。 本研究では,複数のToFカメラを同期する効率的な方法を提案する。 本手法は時間分割多重化に基づいているが,従来の時間多重化とは異なり,有効カメラフレームレートは低下しない。 また,非同期カメラに対しては,マルチカメラ干渉の影響を受けない映像ストリーム,フレームからロバストな抽出手法を提案する。 我々は、一連の実験を通じて、ハードウェアトリガーから純粋にランダムなソフトウェアトリガーまで、さまざまなレベルのサポートをトリガーに利用して、このアプローチを実証する。

Time-of-flight (ToF) cameras are becoming increasingly popular for 3D imaging. Their optimal usage has been studied from the several aspects. One of the open research problems is the possibility of a multicamera interference problem when two or more ToF cameras are operating simultaneously. In this work we present an efficient method to synchronize multiple operating ToF cameras. Our method is based on the time-division multiplexing, but unlike traditional time multiplexing, it does not decrease the effective camera frame rate. Additionally, for unsynchronized cameras, we provide a robust method to extract from their corresponding video streams, frames which are not subject to multicamera interference problem. We demonstrate our approach through a series of experiments and with a different level of support available for triggering, ranging from a hardware triggering to purely random software triggering.
翻訳日:2022-09-29 12:52:26 公開日:2020-11-05
# 大規模MIMOシステムにおける2元ニューラルネットワークを用いたCSIフィードバック

Binary Neural Network Aided CSI Feedback in Massive MIMO System ( http://arxiv.org/abs/2011.02692v1 )

ライセンス: Link先を確認
Zhilin Lu, Jintao Wang, Jian Song(参考訳) 大規模なマルチインプット・マルチアウトプット(MIMO)システムでは、基地局が高い性能を達成するためにはチャネル状態情報(CSI)が不可欠である。 近年,周波数分割二重化システムにおけるMIMOの増大するフィードバックオーバーヘッドに対抗するために,CSI圧縮において深層学習が広く用いられている。 しかし、ニューラルネットワークを適用することでメモリと計算コストが増大し、特にリソース制限されたユーザ機器(UE)では無視できない。 本稿では,bcsinetと呼ばれる新しいバイナリ化支援フィードバックネットワークを提案する。 さらに、bcsinetの変種は、カスタマイズされたトレーニングと推論スキームでパフォーマンスを向上させるように設計されている。 実験によると、bcsinet は csinet と比較して 30$\times$ のメモリ節約と ue のエンコーダに対する2$\times$ の推論アクセラレーションを提供している。 さらに、BCsiNetのフィードバック性能はオリジナルのCsiNetに匹敵する。 主な結果はhttps://github.com/kylin9511/bcsinetで再生できる。

In massive multiple-input multiple-output (MIMO) system, channel state information (CSI) is essential for the base station to achieve high performance gain. Recently, deep learning is widely used in CSI compression to fight against the growing feedback overhead brought by massive MIMO in frequency division duplexing system. However, applying neural network brings extra memory and computation cost, which is non-negligible especially for the resource limited user equipment (UE). In this paper, a novel binarization aided feedback network named BCsiNet is introduced. Moreover, BCsiNet variants are designed to boost the performance under customized training and inference schemes. Experiments shows that BCsiNet offers over 30$\times$ memory saving and around 2$\times$ inference acceleration for encoder at UE compared with CsiNet. Furthermore, the feedback performance of BCsiNet is comparable with original CsiNet. The key results can be reproduced with https://github.com/Kylin9511/BCsiNet.
翻訳日:2022-09-29 12:52:14 公開日:2020-11-05
# Slower-Growing Domain を持つモデルRBの励起相転移

Exact Phase Transitions of Model RB with Slower-Growing Domains ( http://arxiv.org/abs/2011.02700v1 )

ライセンス: Link先を確認
Jun Liu, Ke Xu, Guangyan Zhou(参考訳) 第2モーメント法は、多くのランダム制約満足度問題の満足度閾値を下げるための有効なツールである。 しかし、計算は通常実行し難いため、いくつかの緩やかな結果しか得られない。 本稿では、第2モーメント法のパワーをフル活用した微妙な解析に基づいて、より緩和された条件下、特に成長が遅い領域サイズにおいて、ランダムRBインスタンスが正確な位相遷移を示すことを示す。 これらの結果はsecond momentメソッドを使用することでベストであり、より良い結果を得るために新しいツールを導入するべきです。

The second moment method has always been an effective tool to lower bound the satisfiability threshold of many random constraint satisfaction problems. However, the calculation is usually hard to carry out and as a result, only some loose results can be obtained. In this paper, based on a delicate analysis which fully exploit the power of the second moment method, we prove that random RB instances can exhibit exact phase transition under more relaxed conditions, especially slower-growing domain size. These results are the best by using the second moment method, and new tools should be introduced for any better results.
翻訳日:2022-09-29 12:51:59 公開日:2020-11-05
# データ同化における高周波観測の確率近似

Stochastic Approximation for High-frequency Observations in Data Assimilation ( http://arxiv.org/abs/2011.02672v1 )

ライセンス: Link先を確認
Shushu Zhang, Vivak Patel(参考訳) 多くの生物学的および物理的システムにおける高周波センサの浸透の増加に伴い、観測結果の豊富さは、下流推定よりも高い統計的精度の機会を提供するが、それらの周波数はデータ同化タスクにおける多くの計算問題をもたらす。 これらの観測の高周波は、蓄積、平均化、サンプリングといったデータ修正戦略を用いて伝統的に対処されてきた。 しかし、これらのデータ修正戦略は、多くのシステムでは不可能な見積もりの質を低下させる。 そこで,データ同化における高周波観測の独特な課題に対処するために,確率近似法を適用した。 その結果, 上記の計算問題を回避し, 推定値の統計的精度を維持する方法で, 全観測値を活用する推定値を生成することができた。

With the increasing penetration of high-frequency sensors across a number of biological and physical systems, the abundance of the resulting observations offers opportunities for higher statistical accuracy of down-stream estimates, but their frequency results in a plethora of computational problems in data assimilation tasks. The high-frequency of these observations has been traditionally dealt with by using data modification strategies such as accumulation, averaging, and sampling. However, these data modification strategies will reduce the quality of the estimates, which may be untenable for many systems. Therefore, to ensure high-quality estimates, we adapt stochastic approximation methods to address the unique challenges of high-frequency observations in data assimilation. As a result, we are able to produce estimates that leverage all of the observations in a manner that avoids the aforementioned computational problems and preserves the statistical accuracy of the estimates.
翻訳日:2022-09-29 12:51:47 公開日:2020-11-05
# ワッサースタインganの統計的解析と時系列予測への応用

Statistical analysis of Wasserstein GANs with applications to time series forecasting ( http://arxiv.org/abs/2011.03074v1 )

ライセンス: Link先を確認
Moritz Haas, Stefan Richter(参考訳) 条件付きおよび非条件付きワッサースタイン生成逆逆ネットワーク(wgans)の統計理論を従属観測の枠組みで提供する。 我々は、wgan推定器の余剰ベイズリスクの上限を、修正ワッサースタイン型距離に関して証明する。 さらに、推定器の弱収束に関する文を形式化し、導出し、新しい観測のために信頼区間を発達させる。 この理論は高次元時系列予測の特別な場合に適用される。 本研究では, シミュレーションにおける推定器の挙動を合成データに基づいて解析し, 実データ例を温度データを用いて検討する。 データの依存関係は、完全に定期的なベータ混合係数で定量化される。

We provide statistical theory for conditional and unconditional Wasserstein generative adversarial networks (WGANs) in the framework of dependent observations. We prove upper bounds for the excess Bayes risk of the WGAN estimators with respect to a modified Wasserstein-type distance. Furthermore, we formalize and derive statements on the weak convergence of the estimators and use them to develop confidence intervals for new observations. The theory is applied to the special case of high-dimensional time series forecasting. We analyze the behavior of the estimators in simulations based on synthetic data and investigate a real data example with temperature data. The dependency of the data is quantified with absolutely regular beta-mixing coefficients.
翻訳日:2022-09-29 12:51:33 公開日:2020-11-05
# 映像情報を用いたH.265/HEVCビデオの多層化

A multi-level approach with visual information for encrypted H.265/HEVC videos ( http://arxiv.org/abs/2011.02620v1 )

ライセンス: Link先を確認
Wenying Wen, Rongxin Tu, Yushu Zhang, Yuming Fang, Yong Yang(参考訳) 高効率ビデオ符号化(HEVC)暗号は、ビデオ暗号化のために構文要素を暗号化するために提案されている。 高いビデオセキュリティを実現するために、私たちの知る限りでは、既存のhevc暗号化アルゴリズムのほとんどすべてが、主にビデオ全体を暗号化している。 しかし、これらの暗号化アルゴリズムは、ビデオ内の全情報を必要としない情報の一部を必要とする顧客のニーズを満たすことはできない。 プロの有料ビデオやビデオ会議など、多くの場合、ユーザーはオリジナルのビデオの暗号化ビデオで見える情報を観察して、日々の生活の要求を満たすことを望んでいる。 本報告では、この要求に応えるために、各暗号化レベルが異なる視覚情報を得ることができる軽量暗号化、中級暗号化、重厚暗号化からなるマルチレベル暗号化方式を提案する。 また,DCT係数符号の構文要素を暗号化して復号化することで,残像情報がまだ残されている歪みビデオのパフォーマンスを達成できると同時に,暗号化によって暗号化の強度を実現でき,視覚情報を得ることができないことがわかった。 実験結果は,各暗号化レベルに異なる量の視覚情報が存在することを示す。 一方、ユーザーは様々な要求に応じて柔軟に暗号化レベルを選択できる。

High-efficiency video coding (HEVC) encryption has been proposed to encrypt syntax elements for the purpose of video encryption. To achieve high video security, to the best of our knowledge, almost all of the existing HEVC encryption algorithms mainly encrypt the whole video, such that the user without permissions cannot obtain any viewable information. However, these encryption algorithms cannot meet the needs of customers who need part of the information but not the full information in the video. In many cases, such as professional paid videos or video meetings, users would like to observe some visible information in the encrypted video of the original video to satisfy their requirements in daily life. Aiming at this demand, this paper proposes a multi-level encryption scheme that is composed of lightweight encryption, medium encryption and heavyweight encryption, where each encryption level can obtain a different amount of visual information. It is found that both encrypting the luma intraprediction model (IPM) and scrambling the syntax element of the DCT coefficient sign can achieve the performance of a distorted video in which there is still residual visual information, while encrypting both of them can implement the intensity of encryption and one cannot gain any visual information. The experimental results meet our expectations appropriately, indicating that there is a different amount of visual information in each encryption level. Meanwhile, users can flexibly choose the encryption level according to their various requirements.
翻訳日:2022-09-29 12:51:24 公開日:2020-11-05
# CPR:部分回復を伴う深層学習勧告に対する耐障害性トレーニングの理解と改善

CPR: Understanding and Improving Failure Tolerant Training for Deep Learning Recommendation with Partial Recovery ( http://arxiv.org/abs/2011.02999v1 )

ライセンス: Link先を確認
Kiwan Maeng, Shivam Bharuka, Isabel Gao, Mark C. Jeffrey, Vikram Saraph, Bor-Yiing Su, Caroline Trippel, Jiyan Yang, Mike Rabbat, Brandon Lucia, Carole-Jean Wu(参考訳) 本稿では,リコメンデーションモデルのための部分的回復訓練システムであるCPRを提案し,最適化する。 CPRは、トレーニング中にノードが障害発生時にチェックポイントをロードすることなく、非障害ノードの進行を可能にすることで、一貫性要件を緩和する。 本稿は,レコメンデーションモデルに部分的リカバリを適用するというデータ駆動型詳細な分析を行い,精度と性能のトレードオフを特定するための,我々の知識の初めての試みである。 そこで本研究では,(1)部分回復の利点を推定し,(2)適切なチェックポイント保存区間を選択し,(3)より頻繁にアクセスされるパラメータの更新を優先することで,トレーニング時間を短縮し,所望のモデルの精度を維持する部分回復訓練システムであるcprを提案する。 CPR-MFUとCPR-SSUの2つのバリエーションは、プロダクションスケールクラスタの障害パターンとオーバーヘッドをエミュレートした構成で、チェックポイント関連のオーバーヘッドをフルリカバリと比較して8.2-8.5%から0.53-0.68%に削減している。 オーバーヘッドを大幅に削減しながら、CPRはより高価なフルリカバリスキームと同等のモデル品質を実現し、CriteoのAds CTRデータセットを使用して最先端のレコメンデーションモデルをトレーニングする。 予備的な結果は,CPRが実運用規模のクラスタでのトレーニングを,特に精度を低下させることなく高速化できることを示唆している。

The paper proposes and optimizes a partial recovery training system, CPR, for recommendation models. CPR relaxes the consistency requirement by enabling non-failed nodes to proceed without loading checkpoints when a node fails during training, improving failure-related overheads. The paper is the first to the extent of our knowledge to perform a data-driven, in-depth analysis of applying partial recovery to recommendation models and identified a trade-off between accuracy and performance. Motivated by the analysis, we present CPR, a partial recovery training system that can reduce the training time and maintain the desired level of model accuracy by (1) estimating the benefit of partial recovery, (2) selecting an appropriate checkpoint saving interval, and (3) prioritizing to save updates of more frequently accessed parameters. Two variants of CPR, CPR-MFU and CPR-SSU, reduce the checkpoint-related overhead from 8.2-8.5% to 0.53-0.68% compared to full recovery, on a configuration emulating the failure pattern and overhead of a production-scale cluster. While reducing overhead significantly, CPR achieves model quality on par with the more expensive full recovery scheme, training the state-of-the-art recommendation model using Criteo's Ads CTR dataset. Our preliminary results also suggest that CPR can speed up training on a real production-scale cluster, without notably degrading the accuracy.
翻訳日:2022-09-29 12:50:30 公開日:2020-11-05
# 情報セキュリティタスクのためのトレーニングトランスフォーマー:悪質なURL予測を事例として

Training Transformers for Information Security Tasks: A Case Study on Malicious URL Prediction ( http://arxiv.org/abs/2011.03040v1 )

ライセンス: Link先を確認
Ethan M. Rudd and Ahmed Abdallah(参考訳) 情報セキュリティ(InfoSec)のための機械学習(ML)は、生データの最適化/トレーニング時に異なる処理を必要とする異なるデータタイプとフォーマットを使用する。 本稿では,スクラッチからトレーニングしたトランスフォーマーアーキテクチャに基づいて,悪意のあるURL予測を行う。 従来の自然言語処理(NLP)変換器とは対照的に,このモデルは動作に異なるトレーニングアプローチを必要とする。 具体的には 1) 自動回帰作業のためのラベルなしURLデータの大量コーパスの事前訓練は、悪質/良質な予測に容易に移行しない。 2) 補助的自己回帰損失を用いることで, スクラッチからトレーニングを行う際の性能が向上する。 そこで本研究では,両損失項からの貢献を動的にバランスさせる混合目的最適化手法を提案する。 本手法は,複数のベンチマーク分類器に匹敵する性能を示す。

Machine Learning (ML) for information security (InfoSec) utilizes distinct data types and formats which require different treatments during optimization/training on raw data. In this paper, we implement a malicious/benign URL predictor based on a transformer architecture that is trained from scratch. We show that in contrast to conventional natural language processing (NLP) transformers, this model requires a different training approach to work well. Specifically, we show that 1) pre-training on a massive corpus of unlabeled URL data for an auto-regressive task does not readily transfer to malicious/benign prediction but 2) that using an auxiliary auto-regressive loss improves performance when training from scratch. We introduce a method for mixed objective optimization, which dynamically balances contributions from both loss terms so that neither one of them dominates. We show that this method yields performance comparable to that of several top-performing benchmark classifiers.
翻訳日:2022-09-29 12:50:01 公開日:2020-11-05
# 言語の親密さを定量化する

Quantifying Intimacy in Language ( http://arxiv.org/abs/2011.03020v1 )

ライセンス: Link先を確認
Jiaxin Pei and David Jurgens(参考訳) 親密性は、社会的設定における他者との関わりの基本的な側面である。 言語は、トピックスと他のより微妙な手がかり(言語的なヘッジや誓いなど)を通じて親密さの社会的情報を符号化する。 本稿では,質問の親密性レベルを正確に予測するためのデータセットとディープラーニングモデルを用いて,言語における親密性の表現を研究するための新しい計算フレームワークを提案する(Pearson's r=0.87)。 ソーシャルメディア、書籍、映画にまたがる80.5万の質問のデータセットを分析することで、個人が言語における対人的実践的行動を用いて、親密さと社会的設定を一致させることを示す。 次に,3つの研究において,個人が性,社会的距離,オーディエンスに関する社会的規範に適合するように親密性を調節し,それぞれが社会心理学における重要な知見を検証していることを示す。 私たちの研究は、親密性が広く、影響力のある言語の社会的側面であることを示しています。

Intimacy is a fundamental aspect of how we relate to others in social settings. Language encodes the social information of intimacy through both topics and other more subtle cues (such as linguistic hedging and swearing). Here, we introduce a new computational framework for studying expressions of the intimacy in language with an accompanying dataset and deep learning model for accurately predicting the intimacy level of questions (Pearson's r=0.87). Through analyzing a dataset of 80.5M questions across social media, books, and films, we show that individuals employ interpersonal pragmatic moves in their language to align their intimacy with social settings. Then, in three studies, we further demonstrate how individuals modulate their intimacy to match social norms around gender, social distance, and audience, each validating key findings from studies in social psychology. Our work demonstrates that intimacy is a pervasive and impactful social dimension of language.
翻訳日:2022-09-29 12:43:47 公開日:2020-11-05
# 合成スケーラブルオブジェクトSLAM

Compositional Scalable Object SLAM ( http://arxiv.org/abs/2011.02658v1 )

ライセンス: Link先を確認
Akash Sharma, Wei Dong, and Michael Kaess(参考訳) 本稿では,屋内シーンをオブジェクトのグラフとして表現する,高速でスケーラブルで正確な同時ローカライゼーション・マッピング(slam)システムを提案する。 人工環境が認識可能なオブジェクトによって構造化され占有されるという観測を生かして,複合スケーラブルなオブジェクトマッピングの定式化が,ドリフトフリー大規模室内再構築のためのロバストなslamソリューションに適していることを示す。 そこで本研究では,不明瞭な永続オブジェクトランドマークを求める意味論的データアソシエーション戦略と,信頼性の高いフレームツーモデル rgb-d トラッキングを実現する2.5次元合成レンダリング手法を提案する。 その結果、1枚のグラフィックカードでほぼフレームレートで実行できる最適化されたオンライン実装を提供し、アートベースラインの状態に対する包括的な評価を提供する。 オープンソース実装はhttps://placeholder.orgで提供される。

We present a fast, scalable, and accurate Simultaneous Localization and Mapping (SLAM) system that represents indoor scenes as a graph of objects. Leveraging the observation that artificial environments are structured and occupied by recognizable objects, we show that a compositional scalable object mapping formulation is amenable to a robust SLAM solution for drift-free large scale indoor reconstruction. To achieve this, we propose a novel semantically assisted data association strategy that obtains unambiguous persistent object landmarks, and a 2.5D compositional rendering method that enables reliable frame-to-model RGB-D tracking. Consequently, we deliver an optimized online implementation that can run at near frame rate with a single graphics card, and provide a comprehensive evaluation against state of the art baselines. An open source implementation will be provided at https://placeholder.
翻訳日:2022-09-29 12:42:58 公開日:2020-11-05
# マルチインスタンス学習を用いた病理組織像分類と局所化のためのマルチレゾリューションモデル

A Multi-resolution Model for Histopathology Image Classification and Localization with Multiple Instance Learning ( http://arxiv.org/abs/2011.02679v1 )

ライセンス: Link先を確認
Jiayun Li, Wenyuan Li, Anthony Sisk, Huihui Ye, W. Dean Wallace, William Speier, Corey W. Arnold(参考訳) 病理組織像は疾患診断に豊富な情報を提供する。 多数の病理組織像が高解像度のスライド画像にデジタル化され、病理医の作業負荷を削減し、観察者間および観察者間の合意を改善する計算画像解析ツールの開発の機会が開けた。 スライド画像解析におけるこれまでのほとんどの研究は、細粒度アノテーションが必要で、大規模なスライド解析を行うには簡単ではない、興味のある小さな領域の分類やセグメンテーションに重点を置いてきた。 本稿では,サリエンシーマップを用いて不審領域の検出を行い,粒度予測を行うマルチレゾリューションマルチインスタンス学習モデルを提案する。 高価なリージョンやピクセルレベルのアノテーションに頼るのではなく、スライドレベルラベルのみを使用してエンドツーエンドでトレーニングすることが可能です。 このモデルは、830人の患者から20,229のスライドを含む大規模前立腺生検データセットに基づいて開発された。 このモデルは92.7%の精度、81.8%の良性低等級(中等級群)のコーエンのカッパを達成した。 1)・高等級(等級群>=) 2) 悪性および良性スライドの鑑別において, 受信機動作特性曲線(AUROC)が98.2%, 平均精度(AP)が97.4%であった。 このモデルはAUROCの99.4%とAPの99.8%を外部データセットで取得した。

Histopathological images provide rich information for disease diagnosis. Large numbers of histopathological images have been digitized into high resolution whole slide images, opening opportunities in developing computational image analysis tools to reduce pathologists' workload and potentially improve inter- and intra- observer agreement. Most previous work on whole slide image analysis has focused on classification or segmentation of small pre-selected regions-of-interest, which requires fine-grained annotation and is non-trivial to extend for large-scale whole slide analysis. In this paper, we proposed a multi-resolution multiple instance learning model that leverages saliency maps to detect suspicious regions for fine-grained grade prediction. Instead of relying on expensive region- or pixel-level annotations, our model can be trained end-to-end with only slide-level labels. The model is developed on a large-scale prostate biopsy dataset containing 20,229 slides from 830 patients. The model achieved 92.7% accuracy, 81.8% Cohen's Kappa for benign, low grade (i.e. Grade group 1) and high grade (i.e. Grade group >= 2) prediction, an area under the receiver operating characteristic curve (AUROC) of 98.2% and an average precision (AP) of 97.4% for differentiating malignant and benign slides. The model obtained an AUROC of 99.4% and an AP of 99.8% for cancer detection on an external dataset.
翻訳日:2022-09-29 12:42:42 公開日:2020-11-05
# UAV-AdNet:空中サーベイランスのためのディープニューラルネットワークによる教師なし異常検出

UAV-AdNet: Unsupervised Anomaly Detection using Deep Neural Networks for Aerial Surveillance ( http://arxiv.org/abs/2011.02853v1 )

ライセンス: Link先を確認
Ilker Bozcan and Erdal Kayacan(参考訳) 異常検出は、異常な観測を警告できる自律監視システムの重要な目標である。 本稿では,無人航空機(UAV)を用いた重要インフラ(空港,港,倉庫など)の監視のために,ディープニューラルネットワークを用いた全体的異常検出システムを提案する。 まず,鳥視画像における物体の空間配置を明示的に表現するためのヒューリスティックな手法を提案する。 次に,バードビュー画像の環境表現とgpsラベルを共同で学習した,教師なし異常検出(uav-adnet)のためのディープニューラルネットワークアーキテクチャを提案する。 文献研究とは異なり、GPSと画像データを組み合わせて異常な観察を予測する。 我々は,航空監視データに基づく複数のベースラインに対するモデルの評価を行い,シーン再構成や異常検出タスクにおいて,より優れた性能を示すことを示す。 コード、トレーニングされたモデル、データセット、ビデオはhttps://bozcani.github.io/uavadnet.comから入手できる。

Anomaly detection is a key goal of autonomous surveillance systems that should be able to alert unusual observations. In this paper, we propose a holistic anomaly detection system using deep neural networks for surveillance of critical infrastructures (e.g., airports, harbors, warehouses) using an unmanned aerial vehicle (UAV). First, we present a heuristic method for the explicit representation of spatial layouts of objects in bird-view images. Then, we propose a deep neural network architecture for unsupervised anomaly detection (UAV-AdNet), which is trained on environment representations and GPS labels of bird-view images jointly. Unlike studies in the literature, we combine GPS and image data to predict abnormal observations. We evaluate our model against several baselines on our aerial surveillance dataset and show that it performs better in scene reconstruction and several anomaly detection tasks. The codes, trained models, dataset, and video will be available at https://bozcani.github.io/uavadnet.
翻訳日:2022-09-29 12:42:19 公開日:2020-11-05
# マルチタスク学習と位置損失による単眼画像のロボット把持の改善

Improving Robotic Grasping on Monocular Images Via Multi-Task Learning and Positional Loss ( http://arxiv.org/abs/2011.02888v1 )

ライセンス: Link先を確認
William Prew, Toby Breckon, Magnus Bordewich, Ulrik Beierholm(参考訳) 本稿では,エンドツーエンドCNNアーキテクチャにおける単色画像からリアルタイム物体把握性能を向上する2つの手法を提案する。 1つは、モデルトレーニング(マルチタスク学習)中に補助タスクを追加することです。 このマルチタスクcnnモデルは,補足的奥行き復元タスクを行う際に,ジャカード把持データセットのベースライン平均値が72.04%から78.14%に向上する。 2つめは、第2のパラメータ(グリッパー角度と幅)に対してピクセル当たりの損失を強調した位置損失関数を導入することである。 これにより、ベースライン平均72.04%から78.92%にパフォーマンスが向上し、必要なトレーニングエポックの数を削減できる。 これらの手法はタンデムでも実行でき、パフォーマンスは79.12%向上し、リアルタイムグリップ処理に十分な推論速度を維持した。

In this paper, we introduce two methods of improving real-time object grasping performance from monocular colour images in an end-to-end CNN architecture. The first is the addition of an auxiliary task during model training (multi-task learning). Our multi-task CNN model improves grasping performance from a baseline average of 72.04% to 78.14% on the large Jacquard grasping dataset when performing a supplementary depth reconstruction task. The second is introducing a positional loss function that emphasises loss per pixel for secondary parameters (gripper angle and width) only on points of an object where a successful grasp can take place. This increases performance from a baseline average of 72.04% to 78.92% as well as reducing the number of training epochs required. These methods can be also performed in tandem resulting in a further performance increase to 79.12% while maintaining sufficient inference speed to afford real-time grasp processing.
翻訳日:2022-09-29 12:42:05 公開日:2020-11-05
# CompressAI: エンドツーエンド圧縮研究のためのPyTorchライブラリと評価プラットフォーム

CompressAI: a PyTorch library and evaluation platform for end-to-end compression research ( http://arxiv.org/abs/2011.03029v1 )

ライセンス: Link先を確認
Jean B\'egaint, Fabien Racap\'e, Simon Feltman, Akshay Pushparaja(参考訳) 本稿では,エンド・ツー・エンドの画像圧縮コーデックと映像圧縮コーデックを研究,開発,評価するためのカスタム操作,レイヤ,モデル,ツールを提供するプラットフォームであるcompressaiを提案する。 特にcompressaiには、学習された方法と従来のコーデックを比較するための事前学習されたモデルと評価ツールが含まれている。 学習されたエンドツーエンド圧縮に関する最先端の複数のモデルがpytorchで再実装され、スクラッチからトレーニングされている。 また,PSNRとMS-SSIMの計測値とビットレートとの客観的比較結果を,Kodak画像データセットをテストセットとして報告する。 このフレームワークは現在、静止画圧縮のためのモデルを実装しているが、すぐにビデオ圧縮領域に拡張される予定である。

This paper presents CompressAI, a platform that provides custom operations, layers, models and tools to research, develop and evaluate end-to-end image and video compression codecs. In particular, CompressAI includes pre-trained models and evaluation tools to compare learned methods with traditional codecs. Multiple models from the state-of-the-art on learned end-to-end compression have thus been reimplemented in PyTorch and trained from scratch. We also report objective comparison results using PSNR and MS-SSIM metrics vs. bit-rate, using the Kodak image dataset as test set. Although this framework currently implements models for still-picture compression, it is intended to be soon extended to the video compression domain.
翻訳日:2022-09-29 12:41:21 公開日:2020-11-05
# morpheyes:quadrotorナビゲーションのための可変ベースラインステレオ

MorphEyes: Variable Baseline Stereo For Quadrotor Navigation ( http://arxiv.org/abs/2011.03077v1 )

ライセンス: Link先を確認
Nitin J. Sanket, Chahat Deep Singh, Varun Asthana, Cornelia Ferm\"uller, Yiannis Aloimonos(参考訳) モーファブルデザインと奥行きベースのビジュアルコントロールは、クワッドローター自律の分野における進歩につながる2つの新しいトレンドである。 ステレオカメラは、重量と深度推定の精度の完全なバランスをとってきたが、設計時に選択されたベースラインによって深度範囲が制限され、決定されるという問題に苦しんでいる。 本稿では,ベースラインをオンザフライで適用可能なステレオカメラシステムに基づく,四角形ナビゲーションのためのフレームワークを提案する。 本稿では,少数の個別ベースラインでシステムを校正し,ベースライン全体のパラメータを補間する手法を提案する。 本稿では,キャリブレーションと同期誤差の広範な理論的解析を行う。 このようなシステムの3つの異なる応用例を紹介します。 (a)森の中を飛ぶこと (b)未知の形状・位置・空隙を飛行し、 (c)独立して動く物体の正確な3次元ポーズ検出。 3つのシナリオすべてにおいて,可変ベースラインシステムはより正確かつ堅牢であることを示す。 私たちの知る限りでは、これは四角体上の可変ベースラインステレオビジョンシステムを達成するためにモーフィブルデザインの概念を適用した最初の作品である。

Morphable design and depth-based visual control are two upcoming trends leading to advancements in the field of quadrotor autonomy. Stereo-cameras have struck the perfect balance of weight and accuracy of depth estimation but suffer from the problem of depth range being limited and dictated by the baseline chosen at design time. In this paper, we present a framework for quadrotor navigation based on a stereo camera system whose baseline can be adapted on-the-fly. We present a method to calibrate the system at a small number of discrete baselines and interpolate the parameters for the entire baseline range. We present an extensive theoretical analysis of calibration and synchronization errors. We showcase three different applications of such a system for quadrotor navigation: (a) flying through a forest, (b) flying through an unknown shaped/location static/dynamic gap, and (c) accurate 3D pose detection of an independently moving object. We show that our variable baseline system is more accurate and robust in all three scenarios. To our knowledge, this is the first work that applies the concept of morphable design to achieve a variable baseline stereo vision system on a quadrotor.
翻訳日:2022-09-29 12:41:09 公開日:2020-11-05
# プログラムの完全自動修復における障害:調査

Obstacles in Fully Automatic Program Repair: A survey ( http://arxiv.org/abs/2011.02714v1 )

ライセンス: Link先を確認
S. Amirhossein Mousavi, Donya Azizi Babani, Francesco Flammini(参考訳) 本論文は,自動プログラム修復プロセスの解読のための学際的試みである。 このレビューは、回折と呼ばれる人間の科学に典型的な方法で行われます。 我々は、自己修復と自己修復作業の文献のギャップを見極め、直面する問題に対処するためのアプローチをさらに検討しようと試みる。 結論として,我々の目標を達成するために,プログラムの自動修復作業への現在のアプローチの転換を提案する。 このレビューの重点は、完全な自動化を達成することです。 現在のエッセイでいくつかの障害が言及されているが、その主な欠点は過度に適合する障害であり、この問題は修復プロセスの完全自動化に関連するストリームで調査されている。

The current article is an interdisciplinary attempt to decipher automatic program repair processes. The review is done by the manner typical to human science known as diffraction. We attempt to spot a gap in the literature of self-healing and self-repair operations and further investigate the approaches that would enable us to tackle the problems we face. As a conclusion, we suggest a shift in the current approach to automatic program repair operations in order to attain our goals. The emphasis of this review is to achieve full automation. Several obstacles are shortly mentioned in the current essay but the main shortage that is covered is the overfitting obstacle, and this particular problem is investigated in the stream that is related to full automation of the repair process.
翻訳日:2022-09-29 12:34:47 公開日:2020-11-05
# バイオメディカルフォト音響イメージングのための深層学習

Deep learning for biomedical photoacoustic imaging: A review ( http://arxiv.org/abs/2011.02744v1 )

ライセンス: Link先を確認
Janek Gr\"ohl, Melanie Schellenberg, Kris Dreher, Lena Maier-Hein(参考訳) 光音響イメージング(英: Photoacoustic Imaging, PAI)は、組織深度数センチの光学組織特性を空間的に分解し、多くのエキサイティングな臨床応用の可能性を秘めている。 しかし, 生データから関連組織パラメータを抽出するには, 逆画像再構成問題を解く必要があり, 解決が極めて困難であることが判明した。 近年, 深層学習の応用が盛んになり, 医用画像の分野では目覚ましい成功を収め, PAIの分野でも初歩的な利用が見られた。 ディープラーニングの手法は、非常に高速な計算時間や、特定の問題に適応できるという事実など、paiの臨床的翻訳を容易にするユニークな利点を持っている。 本稿では,paiにおけるディープラーニング技術の現状について検討し,臨床応用可能性の目標を達成するための研究の方向性を明らかにする。

Photoacoustic imaging (PAI) is a promising emerging imaging modality that enables spatially resolved imaging of optical tissue properties up to several centimeters deep in tissue, creating the potential for numerous exciting clinical applications. However, extraction of relevant tissue parameters from the raw data requires the solving of inverse image reconstruction problems, which have proven extremely difficult to solve. The application of deep learning methods has recently exploded in popularity, leading to impressive successes in the context of medical imaging and also finding first use in the field of PAI. Deep learning methods possess unique advantages that can facilitate the clinical translation of PAI, such as extremely fast computation times and the fact that they can be adapted to any given problem. In this review, we examine the current state of the art regarding deep learning in PAI and identify potential directions of research that will help to reach the goal of clinical applicability
翻訳日:2022-09-29 12:34:37 公開日:2020-11-05
# The State of AI Ethics Report (2020年10月)

The State of AI Ethics Report (October 2020) ( http://arxiv.org/abs/2011.02787v1 )

ライセンス: Link先を確認
Abhishek Gupta (1 and 2), Alexandrine Royer (1 and 3), Victoria Heath (1 and 4), Connor Wright (1 and 5), Camylle Lanteigne (1, 6, and 7), Allison Cohen (1, 8, and 9), Marianna Bergamaschi Ganapini (1 and 10), Muriam Fancy (1, 11, and 12), Erick Galinkin (1 and 13), Ryan Khurana (1), Mo Akif (1), Renjie Butalid (1), Falaah Arif Khan (1, 14, and 15), Masa Sweidan (1 and 16), Audrey Balogh (1 and 16) ((1) Montreal AI Ethics Institute, (2) Microsoft, (3) University of Cambridge, (4) Creative Commons, (5) University of Exeter, (6) Concordia University, (7) Algora Lab, (8) AI Global, (9) Mila, (10) Union College, (11) University of Toronto, (12) University of Ottawa, (13) Rapid7, (14) NYU Center for Responsible AI, (15) IIIT Hyderabad, (16) McGill University)(参考訳) モントリオールAI倫理研究所の「The State of AI Ethics」の第2版は、2020年7月以来のAI倫理分野における最も重要な発展を捉えている。 このレポートは、機械学習の専門家から人権活動家や政策立案者まで、あらゆる人が、この分野の絶えず変化する発展を素早く理解し理解することを目指している。 aiと社会、バイアスとアルゴリズムの正義、偽情報、人間とai、労働への影響、プライバシ、リスク、ai倫理の将来など、aiの倫理に関するさまざまな分野に関する研究と報告を、研究と記事要約を通じて精査する。 さらに、The State of AI Ethicsには、大学、研究機関、コンサルティング会社、政府からの世界クラスのAI倫理専門家によって書かれた排他的コンテンツが含まれている。 これらの専門家には、danit gal(国連の技術アドバイザー)、amba kak(nyu's ai now institute)、rumman chowdhury(責任あるaiとアクセントのグローバルリーダー)、brent barron(戦略プロジェクトと知識管理のディレクター、cifar)、adam murray(技術政策を担当する米国外交官、aiに関するoecdネットワークの議長)、thomas kochan(mit sloan managementのプロ)、katya klinova(aiと経済プログラムのリーダー、aiのパートナーシップ)がいる。 このレポートは、AI倫理の分野における最新の思考に関する参照と洞察のポイントとしてだけでなく、AIが世界に与える影響に関するより曖昧な会話を促進するために、イントロスペクションのツールとしても使われるべきです。

The 2nd edition of the Montreal AI Ethics Institute's The State of AI Ethics captures the most relevant developments in the field of AI Ethics since July 2020. This report aims to help anyone, from machine learning experts to human rights activists and policymakers, quickly digest and understand the ever-changing developments in the field. Through research and article summaries, as well as expert commentary, this report distills the research and reporting surrounding various domains related to the ethics of AI, including: AI and society, bias and algorithmic justice, disinformation, humans and AI, labor impacts, privacy, risk, and future of AI ethics. In addition, The State of AI Ethics includes exclusive content written by world-class AI Ethics experts from universities, research institutes, consulting firms, and governments. These experts include: Danit Gal (Tech Advisor, United Nations), Amba Kak (Director of Global Policy and Programs, NYU's AI Now Institute), Rumman Chowdhury (Global Lead for Responsible AI, Accenture), Brent Barron (Director of Strategic Projects and Knowledge Management, CIFAR), Adam Murray (U.S. Diplomat working on tech policy, Chair of the OECD Network on AI), Thomas Kochan (Professor, MIT Sloan School of Management), and Katya Klinova (AI and Economy Program Lead, Partnership on AI). This report should be used not only as a point of reference and insight on the latest thinking in the field of AI Ethics, but should also be used as a tool for introspection as we aim to foster a more nuanced conversation regarding the impacts of AI on the world.
翻訳日:2022-09-29 12:34:19 公開日:2020-11-05
# ゲート機構に基づくマルチアクセント適応

Multi-Accent Adaptation based on Gate Mechanism ( http://arxiv.org/abs/2011.02774v1 )

ライセンス: Link先を確認
Han Zhu, Li Wang, Pengyuan Zhang, Yonghong Yan(参考訳) アクセント付き音声データに限られる場合、マルチアクセント音声認識性能を促進するため、従来のアプローチはアクセント固有の適応であり、ベースラインモデルを複数のターゲットアクセントに独立に適応させる。 適応処理を簡略化するため,複数アクセント混合データと同時に,ベースラインモデルを複数のターゲットアクセントに適応する検討を行った。 そこで我々は,複数のアクセント適応を実現するために,アクセント特異的トップ層とゲート機構(AST-G)を提案する。 ベースラインモデルとアクセント特異的適応と比較して、AST-Gはそれぞれ9.8%と1.9%の平均相対的なWER減少を達成する。 しかし、現実の応用では、事前に推論のアクセントカテゴリーラベルを得ることはできない。 そこで,アクセント分類器を用いてアクセントラベルの予測を行う。 音響モデルとアクセント分類器を併用し,ゲート機構を用いたマルチタスク学習(MTL-G)を提案する。 アクセントラベル予測が不正確である可能性があるため、アクセント固有の適応よりも性能が劣る。 しかし、ベースラインモデルと比較して、MTL-G は平均相対 WER 減少率 5.1% に達する。

When only a limited amount of accented speech data is available, to promote multi-accent speech recognition performance, the conventional approach is accent-specific adaptation, which adapts the baseline model to multiple target accents independently. To simplify the adaptation procedure, we explore adapting the baseline model to multiple target accents simultaneously with multi-accent mixed data. Thus, we propose using accent-specific top layer with gate mechanism (AST-G) to realize multi-accent adaptation. Compared with the baseline model and accent-specific adaptation, AST-G achieves 9.8% and 1.9% average relative WER reduction respectively. However, in real-world applications, we can't obtain the accent category label for inference in advance. Therefore, we apply using an accent classifier to predict the accent label. To jointly train the acoustic model and the accent classifier, we propose the multi-task learning with gate mechanism (MTL-G). As the accent label prediction could be inaccurate, it performs worse than the accent-specific adaptation. Yet, in comparison with the baseline model, MTL-G achieves 5.1% average relative WER reduction.
翻訳日:2022-09-29 12:32:51 公開日:2020-11-05
# ロバスト音声認識におけるクラス類似性を用いたドメイン適応

Domain Adaptation Using Class Similarity for Robust Speech Recognition ( http://arxiv.org/abs/2011.02782v1 )

ライセンス: Link先を確認
Han Zhu, Jiangjiang Zhao, Yuling Ren, Li Wang, Pengyuan Zhang(参考訳) 限られた対象領域データしか利用できない場合、よく訓練されたソースモデルと対象領域データを活用することで、ディープニューラルネットワーク(dnn)音響モデルのパフォーマンスを促進するためにドメイン適応が使用できる。 しかし、ドメインミスマッチやデータの分散に苦しむドメイン適応は非常に難しい。 本稿では,クラス類似度を用いたDNN音響モデルの新しい適応法を提案する。 DNNモデルの出力分布は、ソースドメインとターゲットドメインの両方に適用可能なクラス間の類似性の知識を含んでいるため、性能改善のためにソースからターゲットモデルに転送することができる。 提案手法では,まずソースモデルを用いて,ソースサンプルのフレームレベル後部確率を計算する。 そして、各クラスに対して、このクラスの確率を用いて平均ベクトルを計算し、これを平均ソフトラベルと呼ぶ。 適応中、これらの平均ソフトラベルは、ターゲットモデルを訓練するために正規化用語で使用される。 実験により, アクセントと雑音適応の両タスクにおいて, 1ホットラベルを用いた微調整では, 特にソース領域とターゲット領域が高度に一致していない場合, 精度が向上することがわかった。

When only limited target domain data is available, domain adaptation could be used to promote performance of deep neural network (DNN) acoustic model by leveraging well-trained source model and target domain data. However, suffering from domain mismatch and data sparsity, domain adaptation is very challenging. This paper proposes a novel adaptation method for DNN acoustic model using class similarity. Since the output distribution of DNN model contains the knowledge of similarity among classes, which is applicable to both source and target domain, it could be transferred from source to target model for the performance improvement. In our approach, we first compute the frame level posterior probabilities of source samples using source model. Then, for each class, probabilities of this class are used to compute a mean vector, which we refer to as mean soft labels. During adaptation, these mean soft labels are used in a regularization term to train the target model. Experiments showed that our approach outperforms fine-tuning using one-hot labels on both accent and noise adaptation task, especially when source and target domain are highly mismatched.
翻訳日:2022-09-29 12:32:35 公開日:2020-11-05
# あいまいなトレーニングデータを用いたバイナリ分類

Binary classification with ambiguous training data ( http://arxiv.org/abs/2011.02598v1 )

ライセンス: Link先を確認
Naoya Otani, Yosuke Otsubo, Tetsuya Koike, Masashi Sugiyama(参考訳) 教師付き学習では、ドメインの専門家でさえラベル付けが難しい曖昧な(A)サンプルに直面します。 本稿では,このようなサンプルが存在する場合,二分分類の問題を考える。 この問題は、ラベルなしサンプルが必ずしも難しいサンプルではないため、半教師付き学習とは大きく異なる。 また、テストサンプルをaクラスに分類したくないので、正(p)、負(n)、a(a)の3クラス分類とは異なる。 提案手法は,0-1-$c$の損失とリジェクションコスト$c$に基づくpとnのサンプルを用いて,分類器とリジェクタを同時にトレーニングするrejectオプションでバイナリ分類を拡張する。 より具体的には、p, n を使って 0-1-$c$-$d$ の損失の下で分類器と拒絶器を訓練し、ここで $d$ は曖昧なサンプルに対する誤分類のペナルティである。 本実装では,0-1-$c$-$d$損失の凸上界を計算的トラクタビリティに使用する。 数値実験により,このようなトレーニングデータから得られた付加情報を有効活用できることが実証された。

In supervised learning, we often face with ambiguous (A) samples that are difficult to label even by domain experts. In this paper, we consider a binary classification problem in the presence of such A samples. This problem is substantially different from semi-supervised learning since unlabeled samples are not necessarily difficult samples. Also, it is different from 3-class classification with the positive (P), negative (N), and A classes since we do not want to classify test samples into the A class. Our proposed method extends binary classification with reject option, which trains a classifier and a rejector simultaneously using P and N samples based on the 0-1-$c$ loss with rejection cost $c$. More specifically, we propose to train a classifier and a rejector under the 0-1-$c$-$d$ loss using P, N, and A samples, where $d$ is the misclassification penalty for ambiguous samples. In our practical implementation, we use a convex upper bound of the 0-1-$c$-$d$ loss for computational tractability. Numerical experiments demonstrate that our method can successfully utilize the additional information brought by such A training data.
翻訳日:2022-09-29 12:26:04 公開日:2020-11-05
# 視覚認識レコメンダシステムのためのブラックボックス攻撃モデル

A Black-Box Attack Model for Visually-Aware Recommender Systems ( http://arxiv.org/abs/2011.02701v1 )

ライセンス: Link先を確認
Rami Cohen, Oren Sar Shalom, Dietmar Jannach and Amihood Amir(参考訳) ディープラーニングの進歩により、視覚認識レコメンデーションシステム(rs)は最近、研究の関心が高まっている。 このようなシステムは、事前に訓練された画像モデルによって出力される特徴ベクトルとして表現される画像と協調的な信号を組み合わせる。 アイテムカタログは巨大であるため、レコメンデーションサービスプロバイダは、アイテムプロバイダから提供されるイメージに依存することが多い。 本研究では,このような外部ソースに依存したRSを攻撃に対して脆弱にし,攻撃者の目的が特定のプッシュアイテムを不当に促進することであることを示す。 具体的には,新たな視覚的攻撃モデルがブラックボックスアプローチの項目スコアやランキングに,モデルのパラメータを知らずに効果的に影響を及ぼすことを示す。 主な考え方は、プッシュされたアイテムイメージの小さな人間の知覚できない摂動を体系的に生成し、プッシュされたアイテムのスコアを漸進的に上昇させる適切な勾配近似法を考案することである。 2つのデータセットを実験的に評価した結果,レコメンダシステム全体の性能に視覚的特徴が寄与しても,新たな攻撃モデルが有効であることがわかった。

Due to the advances in deep learning, visually-aware recommender systems (RS) have recently attracted increased research interest. Such systems combine collaborative signals with images, usually represented as feature vectors outputted by pre-trained image models. Since item catalogs can be huge, recommendation service providers often rely on images that are supplied by the item providers. In this work, we show that relying on such external sources can make an RS vulnerable to attacks, where the goal of the attacker is to unfairly promote certain pushed items. Specifically, we demonstrate how a new visual attack model can effectively influence the item scores and rankings in a black-box approach, i.e., without knowing the parameters of the model. The main underlying idea is to systematically create small human-imperceptible perturbations of the pushed item image and to devise appropriate gradient approximation methods to incrementally raise the pushed item's score. Experimental evaluations on two datasets show that the novel attack model is effective even when the contribution of the visual features to the overall performance of the recommender system is modest.
翻訳日:2022-09-29 12:25:11 公開日:2020-11-05
# Switching Scheme: 実世界のデータセットにおけるインクリメンタルコンセプトドリフト処理のための新しいアプローチ

Switching Scheme: A Novel Approach for Handling Incremental Concept Drift in Real-World Data Sets ( http://arxiv.org/abs/2011.02738v1 )

ライセンス: Link先を確認
Lucas Baier, Vincent Kellner, Niklas K\"uhl, Gerhard Satzger(参考訳) 近年、機械学習モデルは、ビジネスや産業における多くのアプリケーションにとって重要な役割を担っている。 しかし、モデルは本番環境にデプロイされるとすぐに価値を追加し始めます。 デプロイモデルの1つの課題は、時間とともにデータを変更することであり、コンセプトドリフト(concept drift)という用語でしばしば説明される。 その性質上、コンセプトドリフトは機械学習システムの予測性能に大きな影響を与える可能性がある。 本研究では,実世界のデータセットの文脈における概念ドリフトの効果を分析する。 効率的なドリフト処理のために,機械学習モデルのリトレーニングと更新の2つの原則を組み合わせたスイッチングスキームを導入する。 さらに,既存の適応を体系的に解析し,適応戦略を誘導する。 この切替方式はニューヨーク市のタクシーデータに基づいてインスタンス化されており、時間とともに需要パターンの変化の影響を強く受けている。 スイッチング方式は他の全てのベースラインよりも優れており、予測結果が期待できることを示すことができる。

Machine learning models nowadays play a crucial role for many applications in business and industry. However, models only start adding value as soon as they are deployed into production. One challenge of deployed models is the effect of changing data over time, which is often described with the term concept drift. Due to their nature, concept drifts can severely affect the prediction performance of a machine learning system. In this work, we analyze the effects of concept drift in the context of a real-world data set. For efficient concept drift handling, we introduce the switching scheme which combines the two principles of retraining and updating of a machine learning model. Furthermore, we systematically analyze existing regular adaptation as well as triggered adaptation strategies. The switching scheme is instantiated on New York City taxi data, which is heavily influenced by changing demand patterns over time. We can show that the switching scheme outperforms all other baselines and delivers promising prediction results.
翻訳日:2022-09-29 12:24:36 公開日:2020-11-05
# 最適ランキングの効率的なオンライン学習:勾配降下による次元性低減

Efficient Online Learning of Optimal Rankings: Dimensionality Reduction via Gradient Descent ( http://arxiv.org/abs/2011.02817v1 )

ライセンス: Link先を確認
Dimitris Fotakis, Thanasis Lianeas, Georgios Piliouras, Stratis Skoulakis(参考訳) R_1, R_2, \ldots, R_t$の各項目に$k_t$の要求を伴って, 優先項目のセットがオンラインに表示される, オンライン嗜好集約の自然なモデルを考える。 R_t, k_t)$の事前の知識がなければ、学習者は、$R_t$から少なくとも$k_t$のアイテムが$\pi_t$の上位に現れることを目標に、$\pi_t$のランクを維持する。 これは、例えば、ユーザのスクロールやクリックパターンに基づいて、Webページで製品やニュースアイテムを注文するアプリケーションに対する優先集約における根本的な問題である。 広く研究されている一般化Min-Sum-Set-Cover (GMSSC) 問題は、上記の設定の形式モデルとして機能する。 GMSSCはNPハードであり、非Regretオンライン学習アルゴリズムの標準的な応用は計算的に非効率である。 本研究では,GMSSCを多項式時間で低後悔にする方法を示す。 階数から2重確率行列空間への次元的還元を採用し、オンライングラディエントDescentを適用した。 鍵となるステップは、構成LPの双対を解くことで、過度を効率的に計算する方法を示すことである。 自明な決定論的、ランダムな丸めスキームを用いて、二重確率行列をgmsscの目的の損失が少なくランキングに戻す。

We consider a natural model of online preference aggregation, where sets of preferred items $R_1, R_2, \ldots, R_t$ along with a demand for $k_t$ items in each $R_t$, appear online. Without prior knowledge of $(R_t, k_t)$, the learner maintains a ranking $\pi_t$ aiming that at least $k_t$ items from $R_t$ appear high in $\pi_t$. This is a fundamental problem in preference aggregation with applications to, e.g., ordering product or news items in web pages based on user scrolling and click patterns. The widely studied Generalized Min-Sum-Set-Cover (GMSSC) problem serves as a formal model for the setting above. GMSSC is NP-hard and the standard application of no-regret online learning algorithms is computationally inefficient, because they operate in the space of rankings. In this work, we show how to achieve low regret for GMSSC in polynomial-time. We employ dimensionality reduction from rankings to the space of doubly stochastic matrices, where we apply Online Gradient Descent. A key step is to show how subgradients can be computed efficiently, by solving the dual of a configuration LP. Using oblivious deterministic and randomized rounding schemes, we map doubly stochastic matrices back to rankings with a small loss in the GMSSC objective.
翻訳日:2022-09-29 12:24:23 公開日:2020-11-05
# オートエンコーダによるリカレントニューラルネットワークの短期記憶最適化

Short-Term Memory Optimization in Recurrent Neural Networks by Autoencoder-based Initialization ( http://arxiv.org/abs/2011.02886v1 )

ライセンス: Link先を確認
Antonio Carta, Alessandro Sperduti, Davide Bacciu(参考訳) 長期的依存関係を学習するためのRNNのトレーニングは、勾配がなくなるため難しい。 シーケンスに対する線形オートエンコーダを用いた明示的な記憶に基づく代替解を探索し, 短期記憶を最大化し, バックプロパゲーションを伴わずにクローズドな解法で解くことができる。 本稿では,ニューラルネットワークの重みを事前学習し,入力列の線形オートエンコーダを近似する初期化スキーマを導入する。 我々は、逐次的かつ置換されたMNISTに対してアプローチをテストする。 提案手法は, 長いシーケンスの再構成誤差が大幅に低減され, 微調整段階での勾配伝播が向上することを示す。

Training RNNs to learn long-term dependencies is difficult due to vanishing gradients. We explore an alternative solution based on explicit memorization using linear autoencoders for sequences, which allows to maximize the short-term memory and that can be solved with a closed-form solution without backpropagation. We introduce an initialization schema that pretrains the weights of a recurrent neural network to approximate the linear autoencoder of the input sequences and we show how such pretraining can better support solving hard classification tasks with long sequences. We test our approach on sequential and permuted MNIST. We show that the proposed approach achieves a much lower reconstruction error for long sequences and a better gradient propagation during the finetuning phase.
翻訳日:2022-09-29 12:23:30 公開日:2020-11-05
# structured adversarial perturbationによるデータ拡張

Data Augmentation via Structured Adversarial Perturbations ( http://arxiv.org/abs/2011.03010v1 )

ライセンス: Link先を確認
Calvin Luo, Hossein Mobahi, Samy Bengio(参考訳) データ拡張は、最先端のパフォーマンスを持つ多くの機械学習手法の主要なコンポーネントである。 一般的な拡張戦略は、変換の空間からランダムサンプルを描くことで機能する。 残念ながら、このようなサンプリングアプローチは、次元性の呪いによって多くのパラメータに依存するリッチ変換にスケールできないため、表現性に制限がある。 逆の例は、データ拡張の代替スキームと見なすことができる。 入力の最も難しい修正を訓練することで、結果として得られるモデルは、他の、おそらくより簡単な修正も処理できることを願っている。 逆拡大の利点は、サンプリングを、最大に損失を増加させる単一の計算された摂動を用いて置き換えることである。 しかし欠点は、これらの生の対向的摂動は比較的非構造的に見えることであり、それらを適用すると、望ましいデータ拡張技術とは対照的に、しばしば自然な変換が起こらないことである。 そこで本研究では, 望ましい自然構造を維持できる逆例を生成する手法を提案する。 まず、所望の構造を持つ摂動のみを含む部分空間を構築する。 次に、この空間に生の逆勾配を投影し、適用した場合の損失を最大に増加させる構造化変換を選択する。 我々はこの手法を、測光と幾何の2種類の画像変換を通して実証する。 さらに、このような構造化逆画像のトレーニングにより一般化が向上することを示す。

Data augmentation is a major component of many machine learning methods with state-of-the-art performance. Common augmentation strategies work by drawing random samples from a space of transformations. Unfortunately, such sampling approaches are limited in expressivity, as they are unable to scale to rich transformations that depend on numerous parameters due to the curse of dimensionality. Adversarial examples can be considered as an alternative scheme for data augmentation. By being trained on the most difficult modifications of the inputs, the resulting models are then hopefully able to handle other, presumably easier, modifications as well. The advantage of adversarial augmentation is that it replaces sampling with the use of a single, calculated perturbation that maximally increases the loss. The downside, however, is that these raw adversarial perturbations appear rather unstructured; applying them often does not produce a natural transformation, contrary to a desirable data augmentation technique. To address this, we propose a method to generate adversarial examples that maintain some desired natural structure. We first construct a subspace that only contains perturbations with the desired structure. We then project the raw adversarial gradient onto this space to select a structured transformation that would maximally increase the loss when applied. We demonstrate this approach through two types of image transformations: photometric and geometric. Furthermore, we show that training on such structured adversarial images improves generalization.
翻訳日:2022-09-29 12:23:17 公開日:2020-11-05
# ハイパーグラフによる超現実的イメージインペインティング

Hyperrealistic Image Inpainting with Hypergraphs ( http://arxiv.org/abs/2011.02904v1 )

ライセンス: Link先を確認
Gourav Wadhwa, Abhinav Dhall, Subrahmanyam Murala, Usman Tariq(参考訳) 画像インペインティングは、画像のグローバル情報に依存する可能性のある、欠落したデータを埋める複数の可能性のために、コンピュータビジョンにおいて非自明なタスクである。 既存のアプローチのほとんどは、アテンションメカニズムを使用して、イメージのグローバルコンテキストを学ぶ。 この注意のメカニズムは、グローバルコンテキストを捉えることができないため、意味的に妥当だがぼやけた結果を生み出す。 本稿では,空間的特徴に関するハイパーグラフ畳み込みを導入し,データ間の複雑な関係を学習する。 ハイパーエッジを用いたハイパーグラフ畳み込みのためのノード接続機構を提案する。 私たちの知る限りでは、ハイパーグラフ畳み込みはコンピュータビジョンにおける画像から画像へのタスクの空間的特徴に一度も使われていない。 さらに,識別器にゲート畳み込みを導入し,予測画像の局所的一貫性を強制する。 Places2、CelebA-HQ、Paris Street View、Facadesのデータセットに対する実験は、我々のアプローチが最先端の結果を達成することを示している。

Image inpainting is a non-trivial task in computer vision due to multiple possibilities for filling the missing data, which may be dependent on the global information of the image. Most of the existing approaches use the attention mechanism to learn the global context of the image. This attention mechanism produces semantically plausible but blurry results because of incapability to capture the global context. In this paper, we introduce hypergraph convolution on spatial features to learn the complex relationship among the data. We introduce a trainable mechanism to connect nodes using hyperedges for hypergraph convolution. To the best of our knowledge, hypergraph convolution have never been used on spatial features for any image-to-image tasks in computer vision. Further, we introduce gated convolution in the discriminator to enforce local consistency in the predicted image. The experiments on Places2, CelebA-HQ, Paris Street View, and Facades datasets, show that our approach achieves state-of-the-art results.
翻訳日:2022-09-29 12:17:05 公開日:2020-11-05
# センサベースマルチレジデントアクティビティ認識における時間的特徴の完全化のための木構造畳み込みニューラルネットワーク

A Tree-structure Convolutional Neural Network for Temporal Features Exaction on Sensor-based Multi-resident Activity Recognition ( http://arxiv.org/abs/2011.03042v1 )

ライセンス: Link先を確認
Jingjing Cao, Fukang Guo, Xin Lai, Qiang Zhou, Jinshan Dai(参考訳) スマートホームでセンサーデバイスが普及するにつれ、アクティビティ認識は大きな関心を集めており、既存の作品の多くは1人しか住んでいないと仮定している。 実際には、家庭には複数の住民がいるため、活動を認識することが大きな課題となる。 さらに,イベントの固有特性やヒューリスティックな手作り特徴生成アルゴリズムを無視する手作業時系列データセグメンテーションにも依存する従来の手法では,特徴を生かして異なるアクティビティを正確に分類することは困難である。 これらの課題に対処するために,マルチレジデントアクティビティ認識(TSC-MRAR)のためのエンドツーエンドのツリー構造畳み込みニューラルネットワークフレームワークを提案する。 まず、各サンプルをイベントとして扱い、時系列データを分割することなく、スライディングウインドウに先行するセンサ読み取りを通じて現在のイベントを埋め込みます。 そして、時間的特徴を自動的に生成するために、木構造ネットワークを設計し、近くの読み物の時間的依存を導出する。 抽出された特徴は完全連結層に供給され、住民ラベルとアクティビティラベルを同時に学習することができる。 最後に,casasデータセットを用いた実験により,最先端技術と比較して,マルチレジデント行動認識における高い性能を示す。

With the propagation of sensor devices applied in smart home, activity recognition has ignited huge interest and most existing works assume that there is only one habitant. While in reality, there are generally multiple residents at home, which brings greater challenge to recognize activities. In addition, many conventional approaches rely on manual time series data segmentation ignoring the inherent characteristics of events and their heuristic hand-crafted feature generation algorithms are difficult to exploit distinctive features to accurately classify different activities. To address these issues, we propose an end-to-end Tree-Structure Convolutional neural network based framework for Multi-Resident Activity Recognition (TSC-MRAR). First, we treat each sample as an event and obtain the current event embedding through the previous sensor readings in the sliding window without splitting the time series data. Then, in order to automatically generate the temporal features, a tree-structure network is designed to derive the temporal dependence of nearby readings. The extracted features are fed into the fully connected layer, which can jointly learn the residents labels and the activity labels simultaneously. Finally, experiments on CASAS datasets demonstrate the high performance in multi-resident activity recognition of our model compared to state-of-the-art techniques.
翻訳日:2022-09-29 12:16:38 公開日:2020-11-05
# キーポイント誘導自己教師付き深さ推定に向けて

Towards Keypoint Guided Self-Supervised Depth Estimation ( http://arxiv.org/abs/2011.03091v1 )

ライセンス: Link先を確認
Kristijan Bartol and David Bojanic and Tomislav Petkovic and Tomislav Pribanic and Yago Diez Donoso(参考訳) 本稿では,入力画像の集合から深度マップ推定を学習するための自己超越的手がかりとしてキーポイントを用いることを提案する。 実画像からの地中真理深度を求めることは困難であるため,多くの教師なし・自己監督的な手法が提案されている。 これらの教師なしアプローチのほとんどは、深度マップとエゴモーション推定を使用して、現在の画像から画像収集から隣接画像へ画素を再投影する。 対応する原画素と再投影画素の画素強度差に基づいて深度とエゴモーションの推定を行う。 個々の画素を再投影する代わりに、まず両画像のキーポイントを選択し、次に対応する2つの画像のキーポイントを比較して比較する。 キーポイントは、特徴的なイメージの特徴をうまく記述するべきです。 キーポイント抽出手法を使わずに深層モデルを学ぶことで,キーポイントを用いた奥行き推定学習が向上することを示す。 また,キーポイント誘導型運動学習の今後の方向性について述べる。

This paper proposes to use keypoints as a self-supervision clue for learning depth map estimation from a collection of input images. As ground truth depth from real images is difficult to obtain, there are many unsupervised and self-supervised approaches to depth estimation that have been proposed. Most of these unsupervised approaches use depth map and ego-motion estimations to reproject the pixels from the current image into the adjacent image from the image collection. Depth and ego-motion estimations are evaluated based on pixel intensity differences between the correspondent original and reprojected pixels. Instead of reprojecting the individual pixels, we propose to first select image keypoints in both images and then reproject and compare the correspondent keypoints of the two images. The keypoints should describe the distinctive image features well. By learning a deep model with and without the keypoint extraction technique, we show that using the keypoints improve the depth estimation learning. We also propose some future directions for keypoint-guided learning of structure-from-motion problems.
翻訳日:2022-09-29 12:16:17 公開日:2020-11-05
# 関節検出予測モデルにおける不確実性を考慮した車両配向推定

Uncertainty-Aware Vehicle Orientation Estimation for Joint Detection-Prediction Models ( http://arxiv.org/abs/2011.03114v1 )

ライセンス: Link先を確認
Henggang Cui, Fang-Chieh Chou, Jake Charland, Carlos Vallespi-Gonzalez, Nemanja Djuric(参考訳) 物体検出は自動運転システムの重要な要素であり、周囲の交通機関の状態を推測する任務を担っている。 アクタの位置と形状を推測する問題には多くの研究があるが、アクタの向きを理解することは、既存の最先端の検出器にとって課題である。 オリエンテーションは自律システムの下流モジュールにとって重要な特性であり、特に現在のアプローチが困難である定常または反転アクターの動作予測に関係している。 本稿では,この課題に着目し,物体検出と運動予測を併用した既存モデルの拡張を行い,車両の向きを精度良く推定する手法を提案する。 さらに、このアプローチは予測の不確かさを定量化し、推定された向きが反転する確率を出力し、動きの予測を改善し、より安全な自律操作を可能にする。 実験結果は、このアプローチの利点を示し、オープンソースのnuscenesデータセットで最先端のパフォーマンスを得る。

Object detection is a critical component of a self-driving system, tasked with inferring the current states of the surrounding traffic actors. While there exist a number of studies on the problem of inferring the position and shape of vehicle actors, understanding actors' orientation remains a challenge for existing state-of-the-art detectors. Orientation is an important property for downstream modules of an autonomous system, particularly relevant for motion prediction of stationary or reversing actors where current approaches struggle. We focus on this task and present a method that extends the existing models that perform joint object detection and motion prediction, allowing us to more accurately infer vehicle orientations. In addition, the approach is able to quantify prediction uncertainty, outputting the probability that the inferred orientation is flipped, which allows for improved motion prediction and safer autonomous operations. Empirical results show the benefits of the approach, obtaining state-of-the-art performance on the open-sourced nuScenes data set.
翻訳日:2022-09-29 12:15:23 公開日:2020-11-05
# 100言語でのエンティティリンク

Entity Linking in 100 Languages ( http://arxiv.org/abs/2011.02690v1 )

ライセンス: Link先を確認
Jan A. Botha, Zifei Shan, Daniel Gillick(参考訳) 言語固有の言及を言語に依存しない知識ベースに分解する多言語エンティティリンクの新しい定式化を提案する。 本手法では, 特徴表現の改善, 負のマイニング, 補助的なエンティティペアリングタスクによる事前作業に基づいて, マルチエンコーダを訓練し, 100以上の言語と2000万のエンティティをカバーする単一のエンティティ検索モデルを得る。 このモデルは、はるかに制限された言語間リンクタスクの結果よりも優れています。 希少なエンティティと低リソース言語は、この大規模な課題を提起する。 この目的のために、当社の設定にマッチする大規模な多言語データセット(http://goo.gle/mewsli-dataset)であるmewsli-9を提供し、モデルとトレーニング強化に周波数ベースの分析がどのように重要な洞察を提供したかを示します。

We propose a new formulation for multilingual entity linking, where language-specific mentions resolve to a language-agnostic Knowledge Base. We train a dual encoder in this new setting, building on prior work with improved feature representation, negative mining, and an auxiliary entity-pairing task, to obtain a single entity retrieval model that covers 100+ languages and 20 million entities. The model outperforms state-of-the-art results from a far more limited cross-lingual linking task. Rare entities and low-resource languages pose challenges at this large-scale, so we advocate for an increased focus on zero- and few-shot evaluation. To this end, we provide Mewsli-9, a large new multilingual dataset (http://goo.gle/mewsli-dataset) matched to our setting, and show how frequency-based analysis provided key insights for our model and training enhancements.
翻訳日:2022-09-29 12:14:50 公開日:2020-11-05
# AML-SVM: サポートベクトルマシンによる適応型マルチレベル学習

AML-SVM: Adaptive Multilevel Learning with Support Vector Machines ( http://arxiv.org/abs/2011.02592v1 )

ライセンス: Link先を確認
Ehsan Sadrfaridpour, Korey Palmer, Ilya Safro (Clemson University)(参考訳) サポートベクターマシン(SVM)は、機械学習において最も広く使われ、実用的な最適化に基づく分類モデルの一つである。 しかし、ビッグデータは、最も洗練されたが比較的遅いバージョンのSVM、すなわち非線形SVMにある種の困難を課している。 非線形SVMソルバの複雑さとカーネル行列の要素数は、トレーニングデータ中のサンプルの数によって2次的に増加する。 したがって、ランタイムとメモリ要件の両方が負の影響を受ける。 さらに、パラメータフィッティングはチューニングする余分なカーネルパラメータを持ち、ランタイムをさらに悪化させる。 本稿では、これらの課題に対処し、改良プロセスにおける分類品質を改善し、マルチスレッド並列処理を活用して性能を向上させる非線形SVMのための適応型マルチレベル学習フレームワークを提案する。 階層的学習フレームワークにおけるパラメータフィッティングと不要な計算を止める適応プロセスの統合は、全体的なパフォーマンスを高めながら、実行時間を大幅に削減する。 実験結果から, 分類品質を低下させることなく, 従来の非線形SVMライブラリと比較して, 階層レベルの検証やテストデータに対する予測のばらつきを低減し, 大幅な高速化を図った。 コードはhttps://github.com/esadr/amlsvmでアクセスできる。

The support vector machines (SVM) is one of the most widely used and practical optimization based classification models in machine learning because of its interpretability and flexibility to produce high quality results. However, the big data imposes a certain difficulty to the most sophisticated but relatively slow versions of SVM, namely, the nonlinear SVM. The complexity of nonlinear SVM solvers and the number of elements in the kernel matrix quadratically increases with the number of samples in training data. Therefore, both runtime and memory requirements are negatively affected. Moreover, the parameter fitting has extra kernel parameters to tune, which exacerbate the runtime even further. This paper proposes an adaptive multilevel learning framework for the nonlinear SVM, which addresses these challenges, improves the classification quality across the refinement process, and leverages multi-threaded parallel processing for better performance. The integration of parameter fitting in the hierarchical learning framework and adaptive process to stop unnecessary computation significantly reduce the running time while increase the overall performance. The experimental results demonstrate reduced variance on prediction over validation and test data across levels in the hierarchy, and significant speedup compared to state-of-the-art nonlinear SVM libraries without a decrease in the classification quality. The code is accessible at https://github.com/esadr/amlsvm.
翻訳日:2022-09-29 12:14:33 公開日:2020-11-05
# Lets Play Music:オーディオによるパフォーマンスビデオ生成

Lets Play Music: Audio-driven Performance Video Generation ( http://arxiv.org/abs/2011.02631v1 )

ライセンス: Link先を確認
Hao Zhu, Yi Li, Feixia Zhu, Aihua Zheng, Ran He(参考訳) そこで我々は,特定の楽器を聴く人の映像を与えられたオーディオクリップで合成することを目的とした,APVG(Audio-driven Per-formance Video Generation)というタスクを提案する。 低次元オーディオモダリティから高次元の時間整合ビデオを生成するのは難しい課題である。 本稿では,この新たな課題を実現するために,与えられた音楽から現実的かつ同期的な演奏映像を生成するマルチステージ・フレームワークを提案する。 まず,各楽曲から粗い映像とキーポイントを生成することで,グローバルな外観と局所的な空間情報の両方を提供する。 そこで本研究では,生成したキーポイントを,より空間的な情報を提供するが音声から直接生成することが困難であるため,異種空間変換器を用いてヒートマップに変換することを提案する。 最後に、フレーム間構造化情報とフレーム間時間一貫性を抽出する構造化時間UNet(STU)を提案する。 それらはグラフベースの構造モジュールとCNN-GRUベースの高レベル時間モジュールによってそれぞれ得られる。 総合的な実験により,提案手法の有効性が検証された。

We propose a new task named Audio-driven Per-formance Video Generation (APVG), which aims to synthesizethe video of a person playing a certain instrument guided bya given music audio clip. It is a challenging task to gener-ate the high-dimensional temporal consistent videos from low-dimensional audio modality. In this paper, we propose a multi-staged framework to achieve this new task to generate realisticand synchronized performance video from given music. Firstly,we provide both global appearance and local spatial informationby generating the coarse videos and keypoints of body and handsfrom a given music respectively. Then, we propose to transformthe generated keypoints to heatmap via a differentiable spacetransformer, since the heatmap offers more spatial informationbut is harder to generate directly from audio. Finally, wepropose a Structured Temporal UNet (STU) to extract bothintra-frame structured information and inter-frame temporalconsistency. They are obtained via graph-based structure module,and CNN-GRU based high-level temporal module respectively forfinal video generation. Comprehensive experiments validate theeffectiveness of our proposed framework.
翻訳日:2022-09-29 12:08:03 公開日:2020-11-05
# 半教師付きフレーズ接地のための全画像オブジェクトの利用

Utilizing Every Image Object for Semi-supervised Phrase Grounding ( http://arxiv.org/abs/2011.02655v1 )

ライセンス: Link先を確認
Haidong Zhu, Arka Sadhu, Zhaoheng Zheng, Ram Nevatia(参考訳) フレーズグラウンドモデルでは、参照式が与えられた画像内のオブジェクトをローカライズする。 トレーニング中に利用可能な注釈付き言語クエリは限定的であり、トレーニング中にモデルを見ることができる言語の組み合わせのバリエーションも制限される。 本稿では,ラベル付きクエリを用いずにオブジェクトを適用する場合について検討する。 学習した位置と対象埋め込み予測器(LSEP)を用いて、トレーニングセットに注釈付きクエリが欠けているオブジェクトに対する対応する言語埋め込みを生成する。 また,検出器の助けを借りて,アノテーションを使わずに画像上の接地モデルをトレーニングするLSEPを適用した。 我々は3つの公開データセット(RefCOCO、RefCOCO+、RefCOCOg)に基づいてMAttNetに基づく手法を評価する。 提案手法では,クエリをラベル付けせずに対象から学習でき,検出結果と比較して精度が34.9\%向上することを示す。

Phrase grounding models localize an object in the image given a referring expression. The annotated language queries available during training are limited, which also limits the variations of language combinations that a model can see during training. In this paper, we study the case applying objects without labeled queries for training the semi-supervised phrase grounding. We propose to use learned location and subject embedding predictors (LSEP) to generate the corresponding language embeddings for objects lacking annotated queries in the training set. With the assistance of the detector, we also apply LSEP to train a grounding model on images without any annotation. We evaluate our method based on MAttNet on three public datasets: RefCOCO, RefCOCO+, and RefCOCOg. We show that our predictors allow the grounding system to learn from the objects without labeled queries and improve accuracy by 34.9\% relatively with the detection results.
翻訳日:2022-09-29 12:07:17 公開日:2020-11-05
# Augmentation-based Consistency Estimation を用いた深層能動学習

Deep Active Learning with Augmentation-based Consistency Estimation ( http://arxiv.org/abs/2011.02666v1 )

ライセンス: Link先を確認
SeulGi Hong, Heonjin Ha, Junmo Kim, Min-Kook Choi(参考訳) アクティブラーニングでは,次の学習サイクルの一般化能力を高めるためのラベルなしデータの選択戦略に重点が置かれている。 このため,様々な不確かさの測定方法が提案されている。 一方、一般深層学習における正規化要因としてデータ拡張メトリクスが出現すると、アクティブな学習シナリオにおいて、ラベルなしデータ選択法とデータ拡張に基づく正規化技術との間に相互に影響があることに気づく。 解析学習理論からの整合性に基づく正規化が,既存の不確実性測定法と組み合わせて分類器の一般化能力に影響を及ぼすことを確認した。 本研究では,データ拡張に基づく手法をアクティブな学習シナリオに適用することにより,一般化能力を向上させる手法を提案する。 データ拡張ベースの正規化損失に対して、カットアウト(co)とカットミックス(cm)戦略を定量的指標として再定義し、モデルトレーニングとラベルなしデータ選択ステップの両方に適用した。 強化型正規化器はアクティブラーニングのトレーニングステップにおけるパフォーマンス向上に寄与すると同時に,従来提案してきた不確実性測定指標と効果的に組み合わせることが可能である。 fashionmnist, cifar10, cifar100, stl10などのデータセットを用いて,複数の画像分類タスクにおけるアクティブラーニング手法の性能検証を行った。 実験では、データセットと予算シナリオ毎に一貫したパフォーマンス向上を示す。

In active learning, the focus is mainly on the selection strategy of unlabeled data for enhancing the generalization capability of the next learning cycle. For this, various uncertainty measurement methods have been proposed. On the other hand, with the advent of data augmentation metrics as the regularizer on general deep learning, we notice that there can be a mutual influence between the method of unlabeled data selection and the data augmentation-based regularization techniques in active learning scenarios. Through various experiments, we confirmed that consistency-based regularization from analytical learning theory could affect the generalization capability of the classifier in combination with the existing uncertainty measurement method. By this fact, we propose a methodology to improve generalization ability, by applying data augmentation-based techniques to an active learning scenario. For the data augmentation-based regularization loss, we redefined cutout (co) and cutmix (cm) strategies as quantitative metrics and applied at both model training and unlabeled data selection steps. We have shown that the augmentation-based regularizer can lead to improved performance on the training step of active learning, while that same approach can be effectively combined with the uncertainty measurement metrics proposed so far. We used datasets such as FashionMNIST, CIFAR10, CIFAR100, and STL10 to verify the performance of the proposed active learning technique for multiple image classification tasks. Our experiments show consistent performance gains for each dataset and budget scenario.
翻訳日:2022-09-29 12:07:02 公開日:2020-11-05
# AOT:フォージェリ検出のための最適輸送ベースアイデンティティスワッピング

AOT: Appearance Optimal Transport Based Identity Swapping for Forgery Detection ( http://arxiv.org/abs/2011.02674v1 )

ライセンス: Link先を確認
Hao Zhu, Chaoyou Fu, Qianyi Wu, Wayne Wu, Chen Qian, Ran He(参考訳) 近年の研究では、多様で挑戦的なdeepfakesデータセットによって偽造検出の性能が向上することが示されている。 しかし,近年のアイデンティティスワッピング法では発生しにくい,外観のばらつきが大きいディープフェイクデータセットの欠如により,この状況では検出アルゴリズムが失敗する可能性がある。 本研究では,顔偽造検出のための外観の差が大きい新しい識別スワップアルゴリズムを提案する。 外観のギャップは主に、現実世界のシナリオに広く存在する照明と肌の色の大きな違いから生じる。 しかし,複雑な外観マッピングのモデル化が困難であるため,アイデンティティ特性を保ちながら細粒度の外観を適応的に伝達することが困難である。 本稿では, 最適輸送問題として外観マッピングを定式化し, 潜時空間と画素空間の両方で外観最適輸送モデル(AOT)を提案する。 具体的には、最適輸送計画をシミュレートするリライト・ジェネレータが設計されている。 潜在空間における学習特徴のワッサースタイン距離を最小化することで、従来の最適化よりも優れた性能と少ない計算を可能にする。 最適な輸送計画の解をさらに洗練するために,画素空間におけるワッサースタイン距離を最小化するセグメンテーションゲームを開発した。 偽の部品を本物と偽のイメージパッチの混合と区別するために判別器が導入された。 広範な実験により,最先端の手法と比較した場合の手法の優位性と,生成したデータによる顔偽造検出の性能向上効果が示された。

Recent studies have shown that the performance of forgery detection can be improved with diverse and challenging Deepfakes datasets. However, due to the lack of Deepfakes datasets with large variance in appearance, which can be hardly produced by recent identity swapping methods, the detection algorithm may fail in this situation. In this work, we provide a new identity swapping algorithm with large differences in appearance for face forgery detection. The appearance gaps mainly arise from the large discrepancies in illuminations and skin colors that widely exist in real-world scenarios. However, due to the difficulties of modeling the complex appearance mapping, it is challenging to transfer fine-grained appearances adaptively while preserving identity traits. This paper formulates appearance mapping as an optimal transport problem and proposes an Appearance Optimal Transport model (AOT) to formulate it in both latent and pixel space. Specifically, a relighting generator is designed to simulate the optimal transport plan. It is solved via minimizing the Wasserstein distance of the learned features in the latent space, enabling better performance and less computation than conventional optimization. To further refine the solution of the optimal transport plan, we develop a segmentation game to minimize the Wasserstein distance in the pixel space. A discriminator is introduced to distinguish the fake parts from a mix of real and fake image patches. Extensive experiments reveal that the superiority of our method when compared with state-of-the-art methods and the ability of our generated data to improve the performance of face forgery detection.
翻訳日:2022-09-29 12:06:38 公開日:2020-11-05
# 詩作システムにおける社会バイアスの調査

Investigating Societal Biases in a Poetry Composition System ( http://arxiv.org/abs/2011.02686v1 )

ライセンス: Link先を確認
Emily Sheng and David Uthus(参考訳) 言語理解、生成、検索タスクにおける社会的偏見を分析し、緩和する作業は増えているが、創造的なタスクにおける偏見を調査する作業は未熟である。 創造的な言語アプリケーションはユーザとの直接的なインタラクションを目的としているため、これらのアプリケーションにおける社会的バイアスの定量化と緩和が重要である。 詩作システムにおいて,次の詩提案を検索する際の社会バイアスを軽減するためのパイプラインに関する新しい研究を紹介する。 以上の結果から,感情伝達によるデータ増大は社会的偏見を緩和する可能性が示唆された。

There is a growing collection of work analyzing and mitigating societal biases in language understanding, generation, and retrieval tasks, though examining biases in creative tasks remains underexplored. Creative language applications are meant for direct interaction with users, so it is important to quantify and mitigate societal biases in these applications. We introduce a novel study on a pipeline to mitigate societal biases when retrieving next verse suggestions in a poetry composition system. Our results suggest that data augmentation through sentiment style transfer has potential for mitigating societal biases.
翻訳日:2022-09-29 11:58:40 公開日:2020-11-05
# 質問応答における文脈認識型回答抽出

Context-Aware Answer Extraction in Question Answering ( http://arxiv.org/abs/2011.02687v1 )

ライセンス: Link先を確認
Yeon Seonwoo, Ji-Hoon Kim, Jung-Woo Ha, Alice Oh(参考訳) 抽出されたQAモデルは、与えられたパスに対する質問に対する正しい答えを予測する上で非常に有望な性能を示している。 しかし、正しい回答テキストを予測できる場合もあるが、与えられた質問とは無関係である。 この不一致は、文中の回答テキストの発生回数が増加するにつれて特に重要となる。 この問題を解決するために,多タスク学習の補助タスクとしてのコンテキスト予測と,コンテキスト予測タスクを学習するブロック注意法という2つの主アイデアに基づいて, \textbf{blanc} (\textbf{bl}ock \textbf{a}ttentio\textbf{n} for \textbf{c}ontext prediction)を提案する。 読解に関する実験により、BLANCは最先端のQAモデルよりも優れており、回答テキストの出現数が増加するにつれて、性能格差が増大することを示した。 また,squadを用いてモデルのトレーニングを行い,hotpotqa上でのサポート事実を予測する実験を行い,このゼロショット設定でブランがすべてのベースラインモデルを上回ることを示す。

Extractive QA models have shown very promising performance in predicting the correct answer to a question for a given passage. However, they sometimes result in predicting the correct answer text but in a context irrelevant to the given question. This discrepancy becomes especially important as the number of occurrences of the answer text in a passage increases. To resolve this issue, we propose \textbf{BLANC} (\textbf{BL}ock \textbf{A}ttentio\textbf{N} for \textbf{C}ontext prediction) based on two main ideas: context prediction as an auxiliary task in multi-task learning manner, and a block attention method that learns the context prediction task. With experiments on reading comprehension, we show that BLANC outperforms the state-of-the-art QA models, and the performance gap increases as the number of answer text occurrences increases. We also conduct an experiment of training the models using SQuAD and predicting the supporting facts on HotpotQA and show that BLANC outperforms all baseline models in this zero-shot setting.
翻訳日:2022-09-29 11:58:29 公開日:2020-11-05
# 単語プリズムを用いたタスク特化メタ埋め込みの学習

Learning Efficient Task-Specific Meta-Embeddings with Word Prisms ( http://arxiv.org/abs/2011.02944v1 )

ライセンス: Link先を確認
Jingyi He, KC Tsiolis, Kian Kenyon-Dean, Jackie Chi Kit Cheung(参考訳) 単語埋め込みは単語共起統計を予測するために訓練され、訓練時に定義された文脈の概念によって異なる語彙的特性(統語論、意味論など)を持つ。 これらの特性は、最も類似したベクトルに対する埋め込み空間のクエリや、下流のNLP問題を解決するためにトレーニングされたディープニューラルネットワークの入力層で使用されるときに現れる。 メタ埋め込みは、複数の異なる訓練された単語埋め込みを組み合わせ、単一のソース埋め込みのみを使用する等価モデルよりも本質的および外生的な性能を改善することが示されている。 本稿では,単語プリズム(Word prisms):手作業に応じてソース埋め込みを組み合わせることを学ぶ,シンプルで効率的なメタ埋め込み手法を提案する。 単語プリズムは直交変換を学び、入力源の埋め込みを線形に組み合わせ、推論時に非常に効率的にすることができる。 単語プリズムを6つの外部評価における他のメタ埋め込み法と比較して評価し、単語プリズムが全てのタスクのパフォーマンス改善をもたらすことを観察する。

Word embeddings are trained to predict word cooccurrence statistics, which leads them to possess different lexical properties (syntactic, semantic, etc.) depending on the notion of context defined at training time. These properties manifest when querying the embedding space for the most similar vectors, and when used at the input layer of deep neural networks trained to solve downstream NLP problems. Meta-embeddings combine multiple sets of differently trained word embeddings, and have been shown to successfully improve intrinsic and extrinsic performance over equivalent models which use just one set of source embeddings. We introduce word prisms: a simple and efficient meta-embedding method that learns to combine source embeddings according to the task at hand. Word prisms learn orthogonal transformations to linearly combine the input source embeddings, which allows them to be very efficient at inference time. We evaluate word prisms in comparison to other meta-embedding methods on six extrinsic evaluations and observe that word prisms offer improvements in performance on all tasks.
翻訳日:2022-09-29 11:57:29 公開日:2020-11-05
# 文脈対応変圧器モデルを用いたコンピテンスレベル予測と求人記述マッチング

Competence-Level Prediction and Resume & Job Description Matching Using Context-Aware Transformer Models ( http://arxiv.org/abs/2011.02998v1 )

ライセンス: Link先を確認
Changmao Li, Elaine Fisher, Rebecca Thomas, Steve Pittard, Vicki Hertzberg, Jinho D. Choi(参考訳) 本稿では,アプリケーション数を大幅に削減するために必要な時間と労力を削減し,適切な候補の選択を改善するため,履歴分類に関する総合的研究を行う。 臨床研究コーディネータ(crc)の4つのレベルに分類された252のポジションに対して、24,933の求人から合計6,492の履歴書を抽出する。 各履歴書は、ガイドラインを確立するために、専門家によって最も適切なCRCポジションに手動で注釈付けされる。 その結果、アノテータ間の合意に対して、高いカッパスコアが61%となる。 このデータセットが与えられた場合、第1のタスクは履歴書を取得してCRCレベルに分類し(T1)、第2のタスクは履歴書とジョブ記述の両方を受け取り、アプリケーションがジョブT2に適合しているかどうかを判断する。 セクションエンコーディングとマルチヘッドアテンションデコーディングを用いた最良のモデルでは、T1に対して73.3%、T2に対して79.2%の結果が得られる。 分析の結果,予測誤差は隣接するCRCレベルに大半を占めており,実際のHRプラットフォームにおけるモデルの実用的価値を示唆する専門家でさえ区別が難しいことがわかった。

This paper presents a comprehensive study on resume classification to reduce the time and labor needed to screen an overwhelming number of applications significantly, while improving the selection of suitable candidates. A total of 6,492 resumes are extracted from 24,933 job applications for 252 positions designated into four levels of experience for Clinical Research Coordinators (CRC). Each resume is manually annotated to its most appropriate CRC position by experts through several rounds of triple annotation to establish guidelines. As a result, a high Kappa score of 61% is achieved for inter-annotator agreement. Given this dataset, novel transformer-based classification models are developed for two tasks: the first task takes a resume and classifies it to a CRC level (T1), and the second task takes both a resume and a job description to apply and predicts if the application is suited to the job T2. Our best models using section encoding and multi-head attention decoding give results of 73.3% to T1 and 79.2% to T2. Our analysis shows that the prediction errors are mostly made among adjacent CRC levels, which are hard for even experts to distinguish, implying the practical value of our models in real HR platforms.
翻訳日:2022-09-29 11:56:56 公開日:2020-11-05
# スケーラブルディスタントセンチメントスーパービジョンによる構造と核性を有するMEGA RSTツリーバンク

MEGA RST Discourse Treebanks with Structure and Nuclearity from Scalable Distant Sentiment Supervision ( http://arxiv.org/abs/2011.03017v1 )

ライセンス: Link先を確認
Patrick Huber and Giuseppe Carenini(参考訳) 大規模で多様な談話木バンクの欠如は、深層学習のようなデータ駆動型アプローチをRTTスタイルの談話解析に適用することを妨げる。 本研究では,感情アノテートされたデータセットから遠ざかって,対話木バンクを自動生成するスケーラブルな手法を提案し,大規模談話アノテートコーパスであるMEGA-DTを作成し,公開する。 提案手法は, 任意の長さの文書に構造と核性を取り入れた談話木を, 確率成分で拡張した効率的なヒューリスティックビーム探索戦略に頼って生成する。 複数のデータセットにおける実験は、mega-dt treebankでトレーニングされた談話パーサが、人間の注釈付き談話コーパスでトレーニングされたパーサーと比較して、ドメイン間パフォーマンスの向上を期待できることを示している。

The lack of large and diverse discourse treebanks hinders the application of data-driven approaches, such as deep-learning, to RST-style discourse parsing. In this work, we present a novel scalable methodology to automatically generate discourse treebanks using distant supervision from sentiment-annotated datasets, creating and publishing MEGA-DT, a new large-scale discourse-annotated corpus. Our approach generates discourse trees incorporating structure and nuclearity for documents of arbitrary length by relying on an efficient heuristic beam-search strategy, extended with a stochastic component. Experiments on multiple datasets indicate that a discourse parser trained on our MEGA-DT treebank delivers promising inter-domain performance gains when compared to parsers trained on human-annotated discourse corpora.
翻訳日:2022-09-29 11:56:34 公開日:2020-11-05
# 談話増強による感性アノテーションから感性予測へ

From Sentiment Annotations to Sentiment Prediction through Discourse Augmentation ( http://arxiv.org/abs/2011.03021v1 )

ライセンス: Link先を確認
Patrick Huber and Giuseppe Carenini(参考訳) 知覚分析(特に長い文書の場合)は、複雑な言語学構造を捉える方法を必要とする。 そこで本研究では,感情分析のタスクにタスク関連談話を活用する新しい枠組みを提案する。 具体的には、大規模で感情に依存したMEGA-DTツリーバンクと、ハイブリッドのTreeLSTM階層的アテンションモデルに基づく、感情予測のための新しいニューラルアーキテクチャを組み合わせる。 実験の結果,感情関連談話の増補を感情予測に用いたフレームワークは,人間の注釈付きデータに基づいて訓練された定評ある談話パーサーを用いた従来の手法よりも,長い文書の全体的な性能を向上させることがわかった。 単純なアンサンブルアプローチは,文書長に応じて会話を選択的に使用することで,パフォーマンスをさらに向上できることを示す。

Sentiment analysis, especially for long documents, plausibly requires methods capturing complex linguistics structures. To accommodate this, we propose a novel framework to exploit task-related discourse for the task of sentiment analysis. More specifically, we are combining the large-scale, sentiment-dependent MEGA-DT treebank with a novel neural architecture for sentiment prediction, based on a hybrid TreeLSTM hierarchical attention model. Experiments show that our framework using sentiment-related discourse augmentations for sentiment prediction enhances the overall performance for long documents, even beyond previous approaches using well-established discourse parsers trained on human annotated data. We show that a simple ensemble approach can further enhance performance by selectively using discourse, depending on the document length.
翻訳日:2022-09-29 11:56:18 公開日:2020-11-05
# シンボリック音楽における音声分離のための音素レベルから和音レベルニューラルネットワークモデル

From Note-Level to Chord-Level Neural Network Models for Voice Separation in Symbolic Music ( http://arxiv.org/abs/2011.03028v1 )

ライセンス: Link先を確認
Patrick Gray and Razvan Bunescu(参考訳) 音楽はしばしば、音符や声の同時流れの進行として経験される。 これが起こる程度は、単音素からホモフォニック、ポリフォニックまで、音声を導く連続体に沿った位置に依存しており、これは自動音声分離モデルの設計を複雑にしている。 本稿では,他のストリームからの外部知覚分離度の高いストリームと,内部知覚一貫性度の高いストリームに楽曲を分解するタスクとして,音声分離を定義することで,この連続性に対処する。 提案する音声分離タスクは,複数の声に発散すると同時に,複数の声を同じ声に収束させる。 この柔軟なタスク定義を備えることで、手作業でポピュラー音楽のコーパスをアノテートし、和音(ノートレベル)の各音符に対して、あるいは和音(コードレベル)のすべての音符に対して、それぞれ別々に音符を割り当てるニューラルネットワークのトレーニングに使用しました。 訓練されたニューラルモデルは、様々な知覚的に情報を得た入力特徴を用いて、入力コードシーケンスの左右方向の音声に音符を優雅に割り当てる。 音符ペア内の連続的な抽出について評価すると,音符レベルモデルが一貫した和音レベルモデルによりエンベロープ抽出関数の反復的適用に基づいて,両モデルが強いベースラインを超える。 2つのモデルは、バッハ音楽における声を分離する以前のアプローチよりも優れていた。

Music is often experienced as a progression of concurrent streams of notes, or voices. The degree to which this happens depends on the position along a voice-leading continuum, ranging from monophonic, to homophonic, to polyphonic, which complicates the design of automatic voice separation models. We address this continuum by defining voice separation as the task of decomposing music into streams that exhibit both a high degree of external perceptual separation from the other streams and a high degree of internal perceptual consistency. The proposed voice separation task allows for a voice to diverge to multiple voices and also for multiple voices to converge to the same voice. Equipped with this flexible task definition, we manually annotated a corpus of popular music and used it to train neural networks that assign notes to voices either separately for each note in a chord (note-level), or jointly to all notes in a chord (chord-level). The trained neural models greedily assign notes to voices in a left to right traversal of the input chord sequence, using a diverse set of perceptually informed input features. When evaluated on the extraction of consecutive within voice note pairs, both models surpass a strong baseline based on an iterative application of an envelope extraction function, with the chord-level model consistently edging out the note-level model. The two models are also shown to outperform previous approaches on separating the voices in Bach music.
翻訳日:2022-09-29 11:50:01 公開日:2020-11-05
# LBGP:先進的な自律的追従のための学習目標計画

LBGP: Learning Based Goal Planning for Autonomous Following in Front ( http://arxiv.org/abs/2011.03125v1 )

ライセンス: Link先を確認
Payam Nikdel, Richard Vaughan, Mo Chen(参考訳) 本稿では,前処理における深層強化学習(rl)と古典的軌道計画を組み合わせたハイブリッドソリューションについて検討する。 ここでは、自律ロボットは、人が自由に歩き回るときに、人の前にとどまることを目指している。 ユーザの意図した軌道が未知であり、ロボットによって明示的に、あるいは暗黙的に推定される必要があるため、前者に従うことは難しい問題である。 さらに、ロボットは人間の軌道を安全に進むための実現可能な方法を見つける必要がある。 我々の深部RLモジュールは、人間の軌道を暗黙的に推定し、ロボットを誘導するための短期的な航法目標を生成する。 これらのゴールは、軌道プランナーがロボットを短期目標、最終的にはユーザの前でスムーズにナビゲートするために使用する。 我々は,deep rlモジュールでカリキュラム学習を行い,高いリターンを達成する。 本システムは,シミュレーションと実世界実験の両方において,エンド・ツー・エンドの代替品よりも信頼性が高い。 純粋に深いRLアプローチとは対照的に、訓練されたポリシーをシミュレーションから実世界へのゼロショット転送を実証する。

This paper investigates a hybrid solution which combines deep reinforcement learning (RL) and classical trajectory planning for the following in front application. Here, an autonomous robot aims to stay ahead of a person as the person freely walks around. Following in front is a challenging problem as the user's intended trajectory is unknown and needs to be estimated, explicitly or implicitly, by the robot. In addition, the robot needs to find a feasible way to safely navigate ahead of human trajectory. Our deep RL module implicitly estimates human trajectory and produces short-term navigational goals to guide the robot. These goals are used by a trajectory planner to smoothly navigate the robot to the short-term goals, and eventually in front of the user. We employ curriculum learning in the deep RL module to efficiently achieve a high return. Our system outperforms the state-of-the-art in following ahead and is more reliable compared to end-to-end alternatives in both the simulation and real world experiments. In contrast to a pure deep RL approach, we demonstrate zero-shot transfer of the trained policy from simulation to the real world.
翻訳日:2022-09-29 11:49:33 公開日:2020-11-05
# 半教師付き学習を伴う機能関連遺伝子マイニング

Mining Functionally Related Genes with Semi-Supervised Learning ( http://arxiv.org/abs/2011.03089v1 )

ライセンス: Link先を確認
Kaiyu Shen, Razvan Bunescu and Sarah E. Wyatt(参考訳) 生物学的プロセスの研究は、遺伝子機能を自動的に予測したり、共有機能に基づいて遺伝子を直接クラスタリングするツールの恩恵を受けることができる。 既存のデータマイニング手法は、高スループット実験や公開データベースからのメタスケール情報から得られたデータを活用してタンパク質の機能を予測する。 ほとんどの既存の予測ツールは、遺伝子オントロジー(go)に記述されたタンパク質の機能を予測することを目的としている。 しかし、多くの場合、生物学者はGO用語が不十分な機能関連遺伝子を発見したいと考えている。 本稿では,種遺伝子の初期セットをより大きな機能関連遺伝子群に拡張するために,半教師付き学習手法と併用して,豊富な特徴セットを紹介する。 評価された全ての半教師付き手法の中で、正およびラベルなし例(LPU)による学習の枠組みは機能的関連遺伝子をマイニングするのに特に適していることが示されている。 実験的に検証されたベンチマークデータで評価すると、LPU Approach1は標準的な教師付き学習アルゴリズムと確立された最先端の手法を著しく上回っている。 種遺伝子の初期セットが与えられた場合、機能的関連遺伝子を広範囲の生物でマイニングするために、我々の最も優れた方法が利用できる。

The study of biological processes can greatly benefit from tools that automatically predict gene functions or directly cluster genes based on shared functionality. Existing data mining methods predict protein functionality by exploiting data obtained from high-throughput experiments or meta-scale information from public databases. Most existing prediction tools are targeted at predicting protein functions that are described in the gene ontology (GO). However, in many cases biologists wish to discover functionally related genes for which GO terms are inadequate. In this paper, we introduce a rich set of features and use them in conjunction with semisupervised learning approaches in order to expand an initial set of seed genes to a larger cluster of functionally related genes. Among all the semi-supervised methods that were evaluated, the framework of learning with positive and unlabeled examples (LPU) is shown to be especially appropriate for mining functionally related genes. When evaluated on experimentally validated benchmark data, the LPU approaches1 significantly outperform a standard supervised learning algorithm as well as an established state-of-the-art method. Given an initial set of seed genes, our best performing approach could be used to mine functionally related genes in a wide range of organisms.
翻訳日:2022-09-29 11:48:39 公開日:2020-11-05
# 各種規模における極端事象の自動損傷検出のためのエンドツーエンドディープラーニング手法

End-to-end Deep Learning Methods for Automated Damage Detection in Extreme Events at Various Scales ( http://arxiv.org/abs/2011.03098v1 )

ライセンス: Link先を確認
Yongsheng Bai, Halil Sezen, Alper Yilmaz(参考訳) ロバストマスクr-cnn (mask regional convolu-tional neural network) 法を提案し,地球地震などの異常発生時に損傷する構造物やその構成要素のひび割れの自動検出法を検証した。 我々は、トレーニングと検証のために2,021のラベル付き画像を用いた新しいデータセットをキュレートし、フィールドのひび割れ検出のためのエンドツーエンドのディープニューラルネットワークを見つけることを目的とした。 空間的注意機構を備えたパス集約ネットワーク(PANet)と高分解能ネットワーク(HRNet)をMask R-CNNに導入した。 低解像度または高解像度の画像を持つ3つの公開データセットのテストは、提案手法が代替ネットワークよりも大きな改善を達成できることを示し、提案手法は、実アプリケーションにおける様々なスケールのクラック検出に十分である可能性がある。

Robust Mask R-CNN (Mask Regional Convolu-tional Neural Network) methods are proposed and tested for automatic detection of cracks on structures or their components that may be damaged during extreme events, such as earth-quakes. We curated a new dataset with 2,021 labeled images for training and validation and aimed to find end-to-end deep neural networks for crack detection in the field. With data augmentation and parameters fine-tuning, Path Aggregation Network (PANet) with spatial attention mechanisms and High-resolution Network (HRNet) are introduced into Mask R-CNNs. The tests on three public datasets with low- or high-resolution images demonstrate that the proposed methods can achieve a big improvement over alternative networks, so the proposed method may be sufficient for crack detection for a variety of scales in real applications.
翻訳日:2022-09-29 11:48:20 公開日:2020-11-05
# 脳卒中急性期発症時間を決定するためのドメイン内タスク適応伝達学習

Intra-Domain Task-Adaptive Transfer Learning to Determine Acute Ischemic Stroke Onset Time ( http://arxiv.org/abs/2011.03350v1 )

ライセンス: Link先を確認
Haoyue Zhang, Jennifer S Polson, Kambiz Nael, Noriko Salamon, Bryan Yoo, Suzie El-Saden, Fabien Scalzo, William Speier, Corey W Arnold(参考訳) 急性虚血性脳梗塞 (AIS) の治療は, 脳卒中発症 (TSS) 以降, ほぼ継続する。 しかし、tssは最大25%のais患者では容易には利用できない可能性がある。 原因不明のTSS患者に対する最近の臨床ガイドラインでは、MRIを用いて血栓溶解の適性を決定することが推奨されている。 本研究では,MRI拡散系列を利用した深層学習モデルを用いて,臨床的に検証された閾値に基づいてTSSを分類する。 そこで本研究では,より簡単な臨床タスク(ストローク検出)でモデルをトレーニングし,そのモデルをTSSの異なる二分しきい値で精製するドメイン内タスク適応型トランスファー学習法を提案する。 本手法を2次元CNNアーキテクチャと3次元CNNアーキテクチャの両方に適用し,ROC-AUC値0.74,感度0.70,特異度0.81,TSS < 4.5時間で分類する。 トレーニング済みのモデルは,スクラッチからトレーニングしたモデルよりも優れた分類基準を達成しています。 さらに, 臨床, 人口統計, 画像処理基準に基づく画像研究を除外しなかったため, これまでの研究よりも包括的患者コホートに対応できた。 この広い範囲の患者に適用すると, 深層学習モデルでは, TSS<4.5時間以内の分類では75.78%の精度が得られ, 未知の TSS 患者に対する治療効果が示唆された。

Treatment of acute ischemic strokes (AIS) is largely contingent upon the time since stroke onset (TSS). However, TSS may not be readily available in up to 25% of patients with unwitnessed AIS. Current clinical guidelines for patients with unknown TSS recommend the use of MRI to determine eligibility for thrombolysis, but radiology assessments have high inter-reader variability. In this work, we present deep learning models that leverage MRI diffusion series to classify TSS based on clinically validated thresholds. We propose an intra-domain task-adaptive transfer learning method, which involves training a model on an easier clinical task (stroke detection) and then refining the model with different binary thresholds of TSS. We apply this approach to both 2D and 3D CNN architectures with our top model achieving an ROC-AUC value of 0.74, with a sensitivity of 0.70 and a specificity of 0.81 for classifying TSS < 4.5 hours. Our pretrained models achieve better classification metrics than the models trained from scratch, and these metrics exceed those of previously published models applied to our dataset. Furthermore, our pipeline accommodates a more inclusive patient cohort than previous work, as we did not exclude imaging studies based on clinical, demographic, or image processing criteria. When applied to this broad spectrum of patients, our deep learning model achieves an overall accuracy of 75.78% when classifying TSS < 4.5 hours, carrying potential therapeutic implications for patients with unknown TSS.
翻訳日:2022-09-29 11:48:04 公開日:2020-11-05
# 最大確率のプロファイルに対するインスタンスベース近似

Instance Based Approximations to Profile Maximum Likelihood ( http://arxiv.org/abs/2011.02761v1 )

ライセンス: Link先を確認
Nima Anari, Moses Charikar, Kirankumar Shiragur, Aaron Sidford(参考訳) 本稿では,pml分布を近似的に計算する新しい効率的なアルゴリズムを提案する。 本稿では,PML分布を近似的に計算するアルゴリズムと一致し,各インスタンスにおける観測周波数の差が小さい場合に改善するアルゴリズムを提案する。 本研究では, PML分布に近似した新しい空間構造を利用して, 独立性のある行列ラウンドリングアルゴリズムを提案する。 この結果を利用して、幅広い対称特性のクラスを推定する一般的なフレームワークであるPseudoPMLの最初の証明可能な計算効率のよい実装を得る。 さらに,プロファイラエントロピーが小さい分布に対する効率的なpmlベースの推定器を得る。 さらに,このような推定器の最もよく知られた理論的な保証に合致する,よりシンプルで実用的なpseudompml実装を提供し,経験的に評価する。

In this paper we provide a new efficient algorithm for approximately computing the profile maximum likelihood (PML) distribution, a prominent quantity in symmetric property estimation. We provide an algorithm which matches the previous best known efficient algorithms for computing approximate PML distributions and improves when the number of distinct observed frequencies in the given instance is small. We achieve this result by exploiting new sparsity structure in approximate PML distributions and providing a new matrix rounding algorithm, of independent interest. Leveraging this result, we obtain the first provable computationally efficient implementation of PseudoPML, a general framework for estimating a broad class of symmetric properties. Additionally, we obtain efficient PML-based estimators for distributions with small profile entropy, a natural instance-based complexity measure. Further, we provide a simpler and more practical PseudoPML implementation that matches the best-known theoretical guarantees of such an estimator and evaluate this method empirically.
翻訳日:2022-09-29 11:47:17 公開日:2020-11-05
# 球面埋め込みによるDeep Metric Learning

Deep Metric Learning with Spherical Embedding ( http://arxiv.org/abs/2011.02785v1 )

ライセンス: Link先を確認
Dingyi Zhang, Yingming Li, Zhongfei Zhang(参考訳) 近年、距離メトリック学習とディープニューラルネットワークをシームレスに組み合わせることで、ディープメトリック学習に大きな注目を集めている。 多くの努力は、ベクトルを埋め込むための大きさと方向情報を分離し、トレーニングとテストの一貫性を保証するペアベースの角損失関数を設計することに費やされている。 しかし、これらの従来の角損失は、トレーニング期間中に全てのサンプル埋め込みが同じ超球面上にあることを保証できないため、バッチ最適化の不安定な勾配が生じ、埋め込み学習の迅速な収束に影響を与える可能性がある。 本稿では,まず,角距離の深部メートル法学習における埋め込みノルムの効果について検討し,その分布を正規化するための球面埋め込み制約(SEC)を提案する。 secは、埋め込みを適応的に同じハイパースフィアに調整し、よりバランスの取れた方向更新を実行する。 深層メトリック学習、顔認識、および対照的な自己教師付き学習に関する広範な実験は、secベースの角空間学習戦略が最先端のパフォーマンスを大幅に改善していることを示している。

Deep metric learning has attracted much attention in recent years, due to seamlessly combining the distance metric learning and deep neural network. Many endeavors are devoted to design different pair-based angular loss functions, which decouple the magnitude and direction information for embedding vectors and ensure the training and testing measure consistency. However, these traditional angular losses cannot guarantee that all the sample embeddings are on the surface of the same hypersphere during the training stage, which would result in unstable gradient in batch optimization and may influence the quick convergence of the embedding learning. In this paper, we first investigate the effect of the embedding norm for deep metric learning with angular distance, and then propose a spherical embedding constraint (SEC) to regularize the distribution of the norms. SEC adaptively adjusts the embeddings to fall on the same hypersphere and performs more balanced direction update. Extensive experiments on deep metric learning, face recognition, and contrastive self-supervised learning show that the SEC-based angular space learning strategy significantly improves the performance of the state-of-the-art.
翻訳日:2022-09-29 11:40:59 公開日:2020-11-05
# conflicting bundles: ディープニューラルネットワークのトレーニング改善に向けたアーキテクチャの適用

Conflicting Bundles: Adapting Architectures Towards the Improved Training of Deep Neural Networks ( http://arxiv.org/abs/2011.02956v1 )

ライセンス: Link先を確認
David Peer, Sebastian Stabinger, Antonio Rodriguez-Sanchez(参考訳) ニューラルネットワークアーキテクチャの設計は難しい課題であり、パフォーマンスを改善するために、モデルの特定のレイヤを適応させる必要があるかを知ることは、ほぼミステリーである。 本稿では,訓練モデルの試験精度を低下させるレイヤを同定するための新しい理論と計量を導入し,この同定を訓練開始時点で早めに行う。 最悪の場合、そのような層はトレーニングがまったくできないネットワークに繋がる可能性がある。 より正確には、これらの層がパフォーマンスを悪化させる原因は、我々の新しい理論分析で示されているように、矛盾するトレーニングバンドルを生成するためである。 これらの結果に基づき,性能低下層を自動的に除去する新しいアルゴリズムが導入された。 このアルゴリズムによって発見されたアーキテクチャは、最先端のアーキテクチャと比較すると、競合する精度を達成する。 このような精度を維持しながら、異なるコンピュータビジョンタスクのメモリ消費と推論時間を劇的に削減する。

Designing neural network architectures is a challenging task and knowing which specific layers of a model must be adapted to improve the performance is almost a mystery. In this paper, we introduce a novel theory and metric to identify layers that decrease the test accuracy of the trained models, this identification is done as early as at the beginning of training. In the worst-case, such a layer could lead to a network that can not be trained at all. More precisely, we identified those layers that worsen the performance because they produce conflicting training bundles as we show in our novel theoretical analysis, complemented by our extensive empirical studies. Based on these findings, a novel algorithm is introduced to remove performance decreasing layers automatically. Architectures found by this algorithm achieve a competitive accuracy when compared against the state-of-the-art architectures. While keeping such high accuracy, our approach drastically reduces memory consumption and inference time for different computer vision tasks.
翻訳日:2022-09-29 11:40:42 公開日:2020-11-05
# street to cloud:クラウドソーシングとセマンティックセグメンテーションによる洪水マップの改善

Street to Cloud: Improving Flood Maps With Crowdsourcing and Semantic Segmentation ( http://arxiv.org/abs/2011.08010v1 )

ライセンス: Link先を確認
Veda Sunkara, Matthew Purri, Bertrand Le Saux, Jennifer Adams(参考訳) 気候にやさしい地域での洪水による被害に対処するため,我々は,クラウドソーシングされた地上真実データを洪水の衛星画像のセグメンテーションに組み込む機械学習パイプラインであるStreet to Cloudを提案する。 我々は,このアプローチを,高品質で手書きのトレーニングデータを生成するという労働集約的な課題に対する解決策として提案し,異なるクラウドソーシング手法の成功と失敗を実証する。 Street to Cloudは、コミュニティレポートと機械学習を活用して、緊急対応に使用する洪水の程度に関する、新しいほぼリアルタイムな洞察を生成する。

To address the mounting destruction caused by floods in climate-vulnerable regions, we propose Street to Cloud, a machine learning pipeline for incorporating crowdsourced ground truth data into the segmentation of satellite imagery of floods. We propose this approach as a solution to the labor-intensive task of generating high-quality, hand-labeled training data, and demonstrate successes and failures of different plausible crowdsourcing approaches in our model. Street to Cloud leverages community reporting and machine learning to generate novel, near-real time insights into the extent of floods to be used for emergency response.
翻訳日:2022-09-29 11:40:29 公開日:2020-11-05
# テクストネットワークのための文脈認識型ネットワーク埋め込み

Adversarial Context Aware Network Embeddings for Textual Networks ( http://arxiv.org/abs/2011.02665v1 )

ライセンス: Link先を確認
Tony Gracious, Ambedkar Dukkipati(参考訳) テキストネットワークの表現学習は、2つのモダリティから集約された情報をキャプチャする上で重要な課題となる。 (i)基盤となるネットワーク構造、及び (ii)ノードのテキスト属性。 このため、既存のほとんどのアプローチは、接続されたノードの埋め込みを同様のものにすることで、テキストとネットワーク構造の埋め込みを学ぶ。 そして、モダリティ融合を達成するために、接続ノードの構造埋め込みとノードのテキスト埋め込みの類似性を使い、その逆も使う。 これは、これらのアプローチが組込みを学ぶためにエッジ情報を必要とし、見えないノードの組込みを学べないことを意味する。 本稿では,モダリティ融合と未知ノードの埋め込みを学習する能力の両方を実現する手法を提案する。 本モデルの主な特徴は,テキスト埋め込みベース識別器と構造埋め込みベースジェネレータの相反メカニズムを用いて効率的な表現を学習することである。 そして、未認識ノードの埋め込みを学ぶために、テキスト埋め込みベースの判別器によって提供される監督を利用する。 さらに, 相互注意と位相的注意機構を組み合わせることで, より柔軟なテキスト埋め込みを実現する, テキスト埋め込み学習のための新しいアーキテクチャを提案する。 実世界のデータセットに関する広範な実験を通じて、我々のモデルはいくつかの最先端ベンチマークよりも大幅に向上することを示した。 以前の最先端と比較すると、トレーニングで見られるノード間のリンクを予測する際のパフォーマンスが最大7%向上し、トレーニングで見られないノードを含むリンクを予測する際のパフォーマンスが最大12%向上した。 さらに、ノード分類タスクでは、パフォーマンスが最大2%向上する。

Representation learning of textual networks poses a significant challenge as it involves capturing amalgamated information from two modalities: (i) underlying network structure, and (ii) node textual attributes. For this, most existing approaches learn embeddings of text and network structure by enforcing embeddings of connected nodes to be similar. Then for achieving a modality fusion they use the similarities between text embedding of a node with the structure embedding of its connected node and vice versa. This implies that these approaches require edge information for learning embeddings and they cannot learn embeddings of unseen nodes. In this paper we propose an approach that achieves both modality fusion and the capability to learn embeddings of unseen nodes. The main feature of our model is that it uses an adversarial mechanism between text embedding based discriminator, and structure embedding based generator to learn efficient representations. Then for learning embeddings of unseen nodes, we use the supervision provided by the text embedding based discriminator. In addition this, we propose a novel architecture for learning text embedding that can combine both mutual attention and topological attention mechanism, which give more flexible text embeddings. Through extensive experiments on real-world datasets, we demonstrate that our model makes substantial gains over several state-of-the-art benchmarks. In comparison with previous state-of-the-art, it gives up to 7% improvement in performance in predicting links among nodes seen in the training and up to 12% improvement in performance in predicting links involving nodes not seen in training. Further, in the node classification task, it gives up to 2% improvement in performance.
翻訳日:2022-09-29 11:40:18 公開日:2020-11-05
# アライメント制限されたストリームリカレントニューラルネットワークトランスデューサ

Alignment Restricted Streaming Recurrent Neural Network Transducer ( http://arxiv.org/abs/2011.03072v1 )

ライセンス: Link先を確認
Jay Mahadeokar, Yuan Shangguan, Duc Le, Gil Keren, Hang Su, Thong Le, Ching-Feng Yeh, Christian Fuegen, Michael L. Seltzer(参考訳) 音声認識(ASR)アプリケーションのためのリカレントニューラルネットワークトランスデューサ(RNN-T)モデルの開発において,音声認識コミュニティへの関心が高まっている。 RNN-Tは、トレーニングスクリプトとオーディオの時間的アライメントを強制しない損失関数で訓練される。 その結果、一方向長短メモリ(LSTM)エンコーダで構築されたRNN-Tモデルは、既にデコードされたASRトークンをストリーミングする前に、入力オーディオの長いスパンを待つ傾向にある。 本稿では,rnn-t損失関数の修正と,音声テキストアライメント情報を用いて損失計算を導くアライメント制限rnn-t(ar-rnn-t)モデルの開発を提案する。 提案手法を,LibriSpeechおよび社内データセット上のモノトニックRNN-Tなどの既存手法と比較する。 本稿では,Ar-RNN-T損失が,トークン放出遅延とワードエラー率(WER)のトレードオフをナビゲートする洗練された制御を提供することを示す。 Ar-RNN-Tモデルは、任意の遅延範囲内でトークンの放出を保証することにより、ASRエンドポイントのような下流アプリケーションを改善する。 さらに、Ar-RNN-T損失により、LSTMモデルアーキテクチャのバッチサイズが大きくなり、スループットが4倍になり、GPUの高速なトレーニングと収束が可能になる。

There is a growing interest in the speech community in developing Recurrent Neural Network Transducer (RNN-T) models for automatic speech recognition (ASR) applications. RNN-T is trained with a loss function that does not enforce temporal alignment of the training transcripts and audio. As a result, RNN-T models built with uni-directional long short term memory (LSTM) encoders tend to wait for longer spans of input audio, before streaming already decoded ASR tokens. In this work, we propose a modification to the RNN-T loss function and develop Alignment Restricted RNN-T (Ar-RNN-T) models, which utilize audio-text alignment information to guide the loss computation. We compare the proposed method with existing works, such as monotonic RNN-T, on LibriSpeech and in-house datasets. We show that the Ar-RNN-T loss provides a refined control to navigate the trade-offs between the token emission delays and the Word Error Rate (WER). The Ar-RNN-T models also improve downstream applications such as the ASR End-pointing by guaranteeing token emissions within any given range of latency. Moreover, the Ar-RNN-T loss allows for bigger batch sizes and 4 times higher throughput for our LSTM model architecture, enabling faster training and convergence on GPUs.
翻訳日:2022-09-29 11:39:55 公開日:2020-11-05
# クレジットカード取引を利用した商品カテゴリー識別

Merchant Category Identification Using Credit Card Transactions ( http://arxiv.org/abs/2011.02602v1 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Zhongfang Zhuang, Yan Zheng, Liang Wang, Junpeng Wang, Wei Zhang(参考訳) 近年、中小企業やオンラインショップの急成長に伴い、デジタル決済の量が急増している。 これらのデジタルトランザクションを処理する場合、各商人の本当のアイデンティティ(すなわちビジネスタイプ)を認識することは、支払い処理システムの完全性を保証するために不可欠である。 従来,商取引履歴のみを用いた時系列分類問題として定式化されてきた。 しかし,データの大規模化,商人や消費者の行動の変化などにより,既成の分類手法による満足度の向上は極めて困難である。 本研究では,商店時系列データだけでなく,商商取引関係の情報(アフィニティ)を用いて,商店の自己報告型(商店カテゴリー)の検証を行うマルチモーダル学習の観点から,この問題にアプローチする。 具体的には、2つのエンコーダを設計、一方は時間情報エンコーディング、もう一方は親和性情報、もう一方は2つのエンコーダの出力を融合して識別タスクを行う機構を設計。 71,668商人と433,772,755顧客の実店舗におけるクレジットカード取引データに関する実験により,提案モデルの有効性と効率を実証した。

Digital payment volume has proliferated in recent years with the rapid growth of small businesses and online shops. When processing these digital transactions, recognizing each merchant's real identity (i.e., business type) is vital to ensure the integrity of payment processing systems. Conventionally, this problem is formulated as a time series classification problem solely using the merchant transaction history. However, with the large scale of the data, and changing behaviors of merchants and consumers over time, it is extremely challenging to achieve satisfying performance from off-the-shelf classification methods. In this work, we approach this problem from a multi-modal learning perspective, where we use not only the merchant time series data but also the information of merchant-merchant relationship (i.e., affinity) to verify the self-reported business type (i.e., merchant category) of a given merchant. Specifically, we design two individual encoders, where one is responsible for encoding temporal information and the other is responsible for affinity information, and a mechanism to fuse the outputs of the two encoders to accomplish the identification task. Our experiments on real-world credit card transaction data between 71,668 merchants and 433,772,755 customers have demonstrated the effectiveness and efficiency of the proposed model.
翻訳日:2022-09-29 11:39:28 公開日:2020-11-05
# 新型コロナウイルス(covid-19)パンデミックのための共同都市デジタルツイン:連合学習ソリューション

Collaborative City Digital Twin For Covid-19 Pandemic: A Federated Learning Solution ( http://arxiv.org/abs/2011.02883v1 )

ライセンス: Link先を確認
Junjie Pang, Jianbo Li, Zhenzhen Xie, Yan Huang, Zhipeng Cai(参考訳) 本研究では,複数の都市DTがタイムリーな方法で地域戦略と状況を共有できる新しいパラダイムであるFLに基づく協調型都市デジタルツインを提案する。 特に、FL中央サーバは、複数の共同作業者(シティDT)のローカル更新を管理し、異なる都市DTシステムで複数のイテレーションでトレーニングされたグローバルモデルを提供する。 つまり、FL技術に基づく協調的な都市DTパラダイムは、複数のDTから知識とパターンを取得し、最終的に都市危機管理のための「グローバルな視点」を確立することができる。 また、プライバシールールに違反することなく、他のdtのデータを統合することで、各都市のデジタル双生児の改善にも役立ちます。 提案するソリューションを検証するために、covid-19のパンデミックをケーススタディとして取り上げます。 各種応答計画を用いた実データセットにおける実験結果は,提案手法の有効性を検証し,優れた性能を示す。

In this work, we propose a collaborative city digital twin based on FL, a novel paradigm that allowing multiple city DT to share the local strategy and status in a timely manner. In particular, an FL central server manages the local updates of multiple collaborators (city DT), provides a global model which is trained in multiple iterations at different city DT systems, until the model gains the correlations between various response plan and infection trend. That means, a collaborative city DT paradigm based on FL techniques can obtain knowledge and patterns from multiple DTs, and eventually establish a `global view' for city crisis management. Meanwhile, it also helps to improve each city digital twin selves by consolidating other DT's respective data without violating privacy rules. To validate the proposed solution, we take COVID-19 pandemic as a case study. The experimental results on the real dataset with various response plan validate our proposed solution and demonstrate the superior performance.
翻訳日:2022-09-29 11:38:44 公開日:2020-11-05
# 報酬形成を利用した学習 : 報酬形成の新しいアプローチ

Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping ( http://arxiv.org/abs/2011.02669v1 )

ライセンス: Link先を確認
Yujing Hu, Weixun Wang, Hangtian Jia, Yixiang Wang, Yingfeng Chen, Jianye Hao, Feng Wu, Changjie Fan(参考訳) リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である。 ポテンシャルに基づく報酬形成のような既存のアプローチは、通常、所定の報酬関数をフル活用する。 しかしながら、人間の知識の数値的な報酬値への変換は、人間の認知バイアスなどの理由により不完全な場合が多いため、整形報酬関数を完全に活用することは、RLアルゴリズムの性能向上に失敗する可能性がある。 本稿では,所定の形状報酬関数を適応的に活用する問題を考察する。 両レベル最適化問題として, 整形報酬の活用を定式化し, 整形報酬を用いて政策を最適化し, 上層はパラメータ化整形重量関数を最適化し, 真の整形最大化を行う。 本稿では, 形状重み関数パラメータに対する期待真報酬の勾配を公式に導出し, 異なる仮定に基づく3つの学習アルゴリズムを提案する。 スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用し、不便な整形報酬を無視したり、有益な整形報酬に変換したりできることを示している。

Reward shaping is an effective technique for incorporating domain knowledge into reinforcement learning (RL). Existing approaches such as potential-based reward shaping normally make full use of a given shaping reward function. However, since the transformation of human knowledge into numeric reward values is often imperfect due to reasons such as human cognitive bias, completely utilizing the shaping reward function may fail to improve the performance of RL algorithms. In this paper, we consider the problem of adaptively utilizing a given shaping reward function. We formulate the utilization of shaping rewards as a bi-level optimization problem, where the lower level is to optimize policy using the shaping rewards and the upper level is to optimize a parameterized shaping weight function for true reward maximization. We formally derive the gradient of the expected true reward with respect to the shaping weight function parameters and accordingly propose three learning algorithms based on different assumptions. Experiments in sparse-reward cartpole and MuJoCo environments show that our algorithms can fully exploit beneficial shaping rewards, and meanwhile ignore unbeneficial shaping rewards or even transform them into beneficial ones.
翻訳日:2022-09-29 11:32:13 公開日:2020-11-05
# 品質と多様性を考慮した学習エージェントのハーネス分布比推定器

Harnessing Distribution Ratio Estimators for Learning Agents with Quality and Diversity ( http://arxiv.org/abs/2011.02614v1 )

ライセンス: Link先を確認
Tanmay Gangwani, Jian Peng, Yuan Zhou(参考訳) 品質多様性(QD)は神経進化のコンセプトであり、強化学習へのいくつかの興味深い応用がある。 各メンバーが同時にタスク・リターンを蓄積し、他のメンバーと比べて行動の多様性を示すように最適化されたエージェントの集団の学習を容易にする。 本稿では,スタイン変分勾配勾配をもつqdポリシーアンサンブルを訓練するためのカーネルベース手法を提案する。 ポリシーの定常分布間の$f$-divergenceに基づくカーネルでは、この問題をこれらの定常分布の比率の効率的な推定に変換する。 そこで,前回,オフ・ポリシー評価・模倣に用いた分布比推定器について検討し,その結果の個体群が多様で品質の高いアンサンブルにおいて,政策の勾配を計算するために再利用した。

Quality-Diversity (QD) is a concept from Neuroevolution with some intriguing applications to Reinforcement Learning. It facilitates learning a population of agents where each member is optimized to simultaneously accumulate high task-returns and exhibit behavioral diversity compared to other members. In this paper, we build on a recent kernel-based method for training a QD policy ensemble with Stein variational gradient descent. With kernels based on $f$-divergence between the stationary distributions of policies, we convert the problem to that of efficient estimation of the ratio of these stationary distributions. We then study various distribution ratio estimators used previously for off-policy evaluation and imitation and re-purpose them to compute the gradients for policies in an ensemble such that the resultant population is diverse and of high-quality.
翻訳日:2022-09-29 11:31:39 公開日:2020-11-05
# スパース指向非巡回グラフの構造学習のためのブレグマン法

A Bregman Method for Structure Learning on Sparse Directed Acyclic Graphs ( http://arxiv.org/abs/2011.02764v1 )

ライセンス: Link先を確認
Manon Romain and Alexandre d'Aspremont(参考訳) 線形構造因果モデルに基づく構造学習のためのBregman近位勾配法を開発した。 非凸であり、高い曲率を持ち、実際はNPハードであるが、ブレグマン勾配法は、高非線形カーネルに対して滑らかさを測定することで、曲率の影響の少なくとも一部を中和することができる。 これにより、より長いステップを踏むことができ、収束を大幅に改善できる。 各反復は、特定のカーネルの選択に対して凸で効率的に解けるブレグマン近位ステップを解く必要がある。 本手法を様々な合成データと実データでテストする。

We develop a Bregman proximal gradient method for structure learning on linear structural causal models. While the problem is non-convex, has high curvature and is in fact NP-hard, Bregman gradient methods allow us to neutralize at least part of the impact of curvature by measuring smoothness against a highly nonlinear kernel. This allows the method to make longer steps and significantly improves convergence. Each iteration requires solving a Bregman proximal step which is convex and efficiently solvable for our particular choice of kernel. We test our method on various synthetic and real data sets.
翻訳日:2022-09-29 11:30:49 公開日:2020-11-05
# 好きなステッカーで応答する学習:マルチターンダイアログにおけるマルチモダリティとユーザ嗜好を統一するフレームワーク

Learning to Respond with Your Favorite Stickers: A Framework of Unifying Multi-Modality and User Preference in Multi-Turn Dialog ( http://arxiv.org/abs/2011.03322v1 )

ライセンス: Link先を確認
Shen Gao, Xiuying Chen, Li Liu, Dongyan Zhao and Rui Yan(参考訳) オンラインメッセージングアプリでは、鮮やかで魅力的な表情のステッカーが人気を集めており、ステッカー画像と以前の発話をマッチさせることで、ステッカー応答を自動的に選択する作業もある。 しかし、既存の手法では、通常、ステッカーを使用するユーザの好みを無視したダイアログコンテキストとステッカーイメージの一致度を測定することに重点を置いている。 そこで本稿では,ユーザ履歴を用いたマルチターン対話コンテキストとステッカーに基づいて,ユーザに対して適切なステッカーを推奨する。 この課題には2つの大きな課題がある。 1つは、前のステッカー選択履歴に基づいてユーザのステッカー嗜好をモデル化することである。 もうひとつの課題は、ユーザの好みと、ダイアログコンテキストと候補ステッカーのマッチングを、最終予測作成に融合させることだ。 これらの課題に対処するため,我々は<emph{Preference Enhanced Sticker Response Selector} (PESRS) モデルを提案する。 具体的には、pesrはまず畳み込みベースのステッカー画像エンコーダとセルフアテンションベースのマルチターンダイアログエンコーダを使用して、ステッカーと発話の表現を得る。 次に、ステッカーと各発話間の深いマッチングを行うために、ディープインタラクションネットワークを提案する。 次に,最近選択したステッカーを入力としてユーザ嗜好をモデル化し,キー値メモリネットワークを用いて嗜好表現を格納する。 PESRSは、融合ネットワークによって全てのインタラクション結果間の短期的および長期的依存関係を学習し、ユーザの好み表現を最終ステッカー選択予測に動的に融合する。 大規模実世界のダイアログデータセットを用いて行った大規模な実験により、我々のモデルは、一般的に使用されるすべてのメトリクスに対して最先端のパフォーマンスを達成することを示す。 PESRSの各コンポーネントの有効性を検証する実験もある。

Stickers with vivid and engaging expressions are becoming increasingly popular in online messaging apps, and some works are dedicated to automatically select sticker response by matching the stickers image with previous utterances. However, existing methods usually focus on measuring the matching degree between the dialog context and sticker image, which ignores the user preference of using stickers. Hence, in this paper, we propose to recommend an appropriate sticker to user based on multi-turn dialog context and sticker using history of user. Two main challenges are confronted in this task. One is to model the sticker preference of user based on the previous sticker selection history. Another challenge is to jointly fuse the user preference and the matching between dialog context and candidate sticker into final prediction making. To tackle these challenges, we propose a \emph{Preference Enhanced Sticker Response Selector} (PESRS) model. Specifically, PESRS first employs a convolutional based sticker image encoder and a self-attention based multi-turn dialog encoder to obtain the representation of stickers and utterances. Next, deep interaction network is proposed to conduct deep matching between the sticker and each utterance. Then, we model the user preference by using the recently selected stickers as input, and use a key-value memory network to store the preference representation. PESRS then learns the short-term and long-term dependency between all interaction results by a fusion network, and dynamically fuse the user preference representation into the final sticker selection prediction. Extensive experiments conducted on a large-scale real-world dialog dataset show that our model achieves the state-of-the-art performance for all commonly-used metrics. Experiments also verify the effectiveness of each component of PESRS.
翻訳日:2022-09-29 11:30:16 公開日:2020-11-05
# 実生活におけるFew-Shot物体検出:オートハーベストの事例

Few-Shot Object Detection in Real Life: Case Study on Auto-Harvest ( http://arxiv.org/abs/2011.02719v1 )

ライセンス: Link先を確認
Kevin Riou, Jingwen Zhu, Suiyi Ling, Mathis Piquet, Vincent Truffault, Patrick Le Callet(参考訳) 新型コロナウイルス(COVID-19)による抑留は、世界中の農業に深刻な影響を及ぼしている。 効率的な解決策の1つとして,物体検出とロボット収穫に基づく機械収穫・自動収穫が急務となる。 オートハーベストシステムでは,新しい野菜・果物カテゴリーに対処するために必要なシステムや,新しいカテゴリすべてを対象とした大規模アノテートデータセットの収集が高価であるため,頑健な少数ショットオブジェクト検出モデルがボトルネックとなっている。 コミュニティによって開発された数少ないオブジェクト検出モデルが数多く存在する。 しかし、一般的に使われているトレーニングデータセットと、実生活の農業シナリオで収集された画像との間には、コンテキストギャップがあるため、現実の農業用途に直接適用できるかどうかはまだ疑わしい。 そこで本研究では,新しいcucumberデータセットを提案し,コンテキストギャップの橋渡しを支援する2つのデータ拡張戦略を提案する。 実験の結果 1) 最先端のマイノリティ・ショット・オブジェクト検出モデルは, 新規な ‘cucumber' カテゴリにおいて, 性能に乏しい。 2) 提案する拡張戦略は, 一般的に用いられるものよりも優れている。

Confinement during COVID-19 has caused serious effects on agriculture all over the world. As one of the efficient solutions, mechanical harvest/auto-harvest that is based on object detection and robotic harvester becomes an urgent need. Within the auto-harvest system, robust few-shot object detection model is one of the bottlenecks, since the system is required to deal with new vegetable/fruit categories and the collection of large-scale annotated datasets for all the novel categories is expensive. There are many few-shot object detection models that were developed by the community. Yet whether they could be employed directly for real life agricultural applications is still questionable, as there is a context-gap between the commonly used training datasets and the images collected in real life agricultural scenarios. To this end, in this study, we present a novel cucumber dataset and propose two data augmentation strategies that help to bridge the context-gap. Experimental results show that 1) the state-of-the-art few-shot object detection model performs poorly on the novel `cucumber' category; and 2) the proposed augmentation strategies outperform the commonly used ones.
翻訳日:2022-09-29 11:29:30 公開日:2020-11-05
# 複数の知識源に対するグラフに基づく反復検索によるコモンセンス質問応答の改善

Improving Commonsense Question Answering by Graph-based Iterative Retrieval over Multiple Knowledge Sources ( http://arxiv.org/abs/2011.02705v1 )

ライセンス: Link先を確認
Qianglong Chen, Feng Ji, Haiqing Chen and Yin Zhang(参考訳) 自然言語理解を促進するために鍵となるのは、常識や背景知識の関与である。 しかし,質問応答システムにおけるコモンセンスの効果的な関与方法はまだ研究学界と産業界の両方で検討中である。 本稿では,複数の知識ソース,すなわちconceptnet,wikipedia,cambridge dictionaryを統合した,新たな質問応答手法を提案する。 より具体的には、まず、与えられた質問とその選択に関する概念と実体を複数の知識ソースから反復的に検索するグラフベースの反復的知識検索モジュールを導入する。 その後、事前学習した言語モデルを用いて質問をエンコードし、知識と選択を検索し、以前のモジュールの隠れた表現を全て融合する回答選択認識注意機構を提案する。 最後に、特定のタスクに対する線形分類器を用いて回答を予測する。 CommonsenseQAデータセットによる実験結果から,本手法は他の競合手法よりも優れ,新たな最先端技術を実現していることがわかった。 さらに,複数の知識ソースから背景知識を検索・合成する際の,グラフに基づく反復的知識検索モジュールと回答選択対応注意モジュールの有効性について検討した。

In order to facilitate natural language understanding, the key is to engage commonsense or background knowledge. However, how to engage commonsense effectively in question answering systems is still under exploration in both research academia and industry. In this paper, we propose a novel question-answering method by integrating multiple knowledge sources, i.e. ConceptNet, Wikipedia, and the Cambridge Dictionary, to boost the performance. More concretely, we first introduce a novel graph-based iterative knowledge retrieval module, which iteratively retrieves concepts and entities related to the given question and its choices from multiple knowledge sources. Afterward, we use a pre-trained language model to encode the question, retrieved knowledge and choices, and propose an answer choice-aware attention mechanism to fuse all hidden representations of the previous modules. Finally, the linear classifier for specific tasks is used to predict the answer. Experimental results on the CommonsenseQA dataset show that our method significantly outperforms other competitive methods and achieves the new state-of-the-art. In addition, further ablation studies demonstrate the effectiveness of our graph-based iterative knowledge retrieval module and the answer choice-aware attention module in retrieving and synthesizing background knowledge from multiple knowledge sources.
翻訳日:2022-09-29 11:23:44 公開日:2020-11-05
# 必要な言語モデル - 質問への回答としての自然言語理解

Language Model is All You Need: Natural Language Understanding as Question Answering ( http://arxiv.org/abs/2011.03023v1 )

ライセンス: Link先を確認
Mahdi Namazifar, Alexandros Papangelis, Gokhan Tur, Dilek Hakkani-T\"ur(参考訳) トランスファーラーニングの異なるフレーバーは、機械学習の研究と応用の進展に大きな影響を与えている。 そこで本研究では,対象ドメインをソースドメインにマッピングする,転送学習の特定のファミリーの利用について検討する。 具体的には、自然言語理解(NLU)問題を質問回答(QA)問題にマッピングし、低データ構造において、このアプローチがNLUの他のアプローチと比較して大幅に改善されていることを示す。 さらに,NLU問題間での逐次移動学習により,これらのゲインを増大させることができることを示す。 当社のアプローチは、同じパフォーマンスで必要なデータ量を最大10倍に削減できることを示しました。

Different flavors of transfer learning have shown tremendous impact in advancing research and applications of machine learning. In this work we study the use of a specific family of transfer learning, where the target domain is mapped to the source domain. Specifically we map Natural Language Understanding (NLU) problems to QuestionAnswering (QA) problems and we show that in low data regimes this approach offers significant improvements compared to other approaches to NLU. Moreover we show that these gains could be increased through sequential transfer learning across NLU problems from different domains. We show that our approach could reduce the amount of required data for the same performance by up to a factor of 10.
翻訳日:2022-09-29 11:23:15 公開日:2020-11-05
# 音場規則化と周波数減衰に基づく音響シーン分類のための低複雑さモデル

Low-Complexity Models for Acoustic Scene Classification Based on Receptive Field Regularization and Frequency Damping ( http://arxiv.org/abs/2011.02955v1 )

ライセンス: Link先を確認
Khaled Koutini, Florian Henkel, Hamid Eghbal-zadeh, Gerhard Widmer(参考訳) ディープニューラルネットワークは、計算とメモリ要求の観点から非常に要求されていることが知られている。 組み込みシステムやモバイルデバイスが資源予算が限られているため、予測性能を犠牲にすることなく低複雑さのモデルを設計することが重要になった。 本研究では,ニューラルネットワークにおけるパラメータ数を削減するためのよく知られた手法について検討・比較する。 さらに、モデルの性能に対する受容場(RF)の影響に関する最近の研究の文脈にも適用し、パラメータ還元法と組み合わせて、RFに特定の制約を適用して高い性能の低複雑さモデルを実現することを実証的に示す。 さらに,モデルのRFを正規化するためのフィルタ減衰手法を提案する。 この手法を組み込むことで、プルーニングや分解畳み込みといった様々な低複雑さ設定のパフォーマンスが向上することを示す。 提案手法を用いて,低複雑音響シーン分類の課題として,DCASE-2020 Challengeで第1位を獲得した。

Deep Neural Networks are known to be very demanding in terms of computing and memory requirements. Due to the ever increasing use of embedded systems and mobile devices with a limited resource budget, designing low-complexity models without sacrificing too much of their predictive performance gained great importance. In this work, we investigate and compare several well-known methods to reduce the number of parameters in neural networks. We further put these into the context of a recent study on the effect of the Receptive Field (RF) on a model's performance, and empirically show that we can achieve high-performing low-complexity models by applying specific restrictions on the RFs, in combination with parameter reduction methods. Additionally, we propose a filter-damping technique for regularizing the RF of models, without altering their architecture and changing their parameter counts. We will show that incorporating this technique improves the performance in various low-complexity settings such as pruning and decomposed convolution. Using our proposed filter damping, we achieved the 1st rank at the DCASE-2020 Challenge in the task of Low-Complexity Acoustic Scene Classification.
翻訳日:2022-09-29 11:22:38 公開日:2020-11-05
# ナレッジグラフ埋め込みメソッドのランタイムパフォーマンスベンチマーク

Runtime Performances Benchmark for Knowledge Graph Embedding Methods ( http://arxiv.org/abs/2011.04275v1 )

ライセンス: Link先を確認
Angelica Sofia Valeriani(参考訳) 本稿では,kge alghoritmsの最先端実装のランタイム性能を,メモリフットプリントと実行時間の観点から評価することに注力する。 KGE手法への関心が急速に高まっているにもかかわらず、その比較と評価にはほとんど関心が向けられていない。 この点において、異なる特性を持つグラフに対して利用可能なKGE実装を評価するためのフレームワークが提案され、特に適用された最適化戦略の有効性に焦点が当てられている。 グラフとモデルは異なるアーキテクチャを活用して訓練され、モデルとそれらが訓練したアーキテクチャの両方の特徴と特性を啓蒙している。 この文書で実験によって啓発されたいくつかの結果は、マルチスレッディングが効率的であるという事実である。 GPUは、ベクトル化された命令を持つCPUがまだうまく動作していても、与えられたタスクに最適なアーキテクチャであることを証明しています。 最後に、グラフのロードにおけるRAM利用は、異なるアーキテクチャ間で決して変化せず、モデルではなくグラフの種類に依存します。

This paper wants to focus on providing a characterization of the runtime performances of state-of-the-art implementations of KGE alghoritms, in terms of memory footprint and execution time. Despite the rapidly growing interest in KGE methods, so far little attention has been devoted to their comparison and evaluation; in particular, previous work mainly focused on performance in terms of accuracy in specific tasks, such as link prediction. To this extent, a framework is proposed for evaluating available KGE implementations against graphs with different properties, with a particular focus on the effectiveness of the adopted optimization strategies. Graphs and models have been trained leveraging different architectures, in order to enlighten features and properties of both models and the architectures they have been trained on. Some results enlightened with experiments in this document are the fact that multithreading is efficient, but benefit deacreases as the number of threads grows in case of CPU. GPU proves to be the best architecture for the given task, even if CPU with some vectorized instructions still behaves well. Finally, RAM utilization for the loading of the graph never changes between different architectures and depends only on the type of graph, not on the model.
翻訳日:2022-09-29 11:22:18 公開日:2020-11-05
# アラビア語操作と偽ニュースの機械生成と検出

Machine Generation and Detection of Arabic Manipulated and Fake News ( http://arxiv.org/abs/2011.03092v1 )

ライセンス: Link先を確認
El Moatez Billah Nagoudi, AbdelRahim Elmadany, Muhammad Abdul-Mageed, Tariq Alhindi, Hasan Cavusoglu(参考訳) 偽ニュースと偽のマシン生成テキストは、アラブ世界を含む現代社会を脅かす深刻な問題である。 これは、オンライン上の偽りや操作されたストーリーを検出する作業を動機づける。 しかし、この研究のボトルネックは、検出モデルのトレーニングに十分なデータがないことである。 本稿では,アラビア語操作によるニュース記事の自動生成手法を提案する。 提案手法は単純で,オンラインに豊富に存在する真のストーリーと,音声タグ(pos)の一部にのみ依存する。 今後の作業を容易にするために,本棚外で使用可能な新規かつ大規模posタグ付きニュースデータセットであるaranewsを提供することで,これら2つの要件を完全に不要にする。 AraNewsをベースとしたストーリーを用いて、テキストの正確性に対する機械操作の影響に光を当てる人間のアノテーション研究を行う。 また,本手法により生成したアラビア機械操作テキストを検出する能力も測定した。 最後に,操作されたアラビア語ニュースを検出し,アラビア語偽ニュース検出(macro f1=70.06)の最先端結果を得るための最初のモデルを開発した。 私たちのモデルとデータは公開されています。

Fake news and deceptive machine-generated text are serious problems threatening modern societies, including in the Arab world. This motivates work on detecting false and manipulated stories online. However, a bottleneck for this research is lack of sufficient data to train detection models. We present a novel method for automatically generating Arabic manipulated (and potentially fake) news stories. Our method is simple and only depends on availability of true stories, which are abundant online, and a part of speech tagger (POS). To facilitate future work, we dispense with both of these requirements altogether by providing AraNews, a novel and large POS-tagged news dataset that can be used off-the-shelf. Using stories generated based on AraNews, we carry out a human annotation study that casts light on the effects of machine manipulation on text veracity. The study also measures human ability to detect Arabic machine manipulated text generated by our method. Finally, we develop the first models for detecting manipulated Arabic news and achieve state-of-the-art results on Arabic fake news detection (macro F1=70.06). Our models and data are publicly available.
翻訳日:2022-09-29 11:21:58 公開日:2020-11-05
# 証拠による説明: 質問応答のためのメモリベースニューラルネットワーク

Explain by Evidence: An Explainable Memory-based Neural Network for Question Answering ( http://arxiv.org/abs/2011.03096v1 )

ライセンス: Link先を確認
Quan Tran, Nhan Dam, Tuan Lai, Franck Dernoncourt, Trung Le, Nham Le and Dinh Phung(参考訳) ディープニューラルネットワークの解釈可能性と説明性は、その規模、複雑さ、そして説明プロセスが残留する相応しい概念のために困難である。 特に以前の研究は、人間にやさしい視覚と概念を通して、ニューラルネットワークの内部コンポーネントを表現することに重点を置いてきた。 一方、実生活では、意思決定をする際、人間は過去に類似した状況や関連に頼りがちである。 したがって、モデルを透明にするための有望なアプローチは、モデルが現在のサンプルと見ているサンプルを明示的に接続し、これらのサンプルに基づいて決定を下すように設計することである。 この原理に基づいて,本論文では,データセットを要約し,証拠を抽出して決定する,説明可能なエビデンスベースのメモリネットワークアーキテクチャを提案する。 本稿では,2つの質問応答データセット(TrecQAとWikiQA)の最先端性能を実現する。 さらなる分析を通じて、このモデルが検証ステップで犯したエラーを、これらのエラーを引き起こした可能性のあるトレーニングインスタンスに確実にトレースできることを示す。 このエラー追跡機能は、多くのアプリケーションのデータセット品質を改善する上で大きなメリットがあると考えています。

Interpretability and explainability of deep neural networks are challenging due to their scale, complexity, and the agreeable notions on which the explaining process rests. Previous work, in particular, has focused on representing internal components of neural networks through human-friendly visuals and concepts. On the other hand, in real life, when making a decision, human tends to rely on similar situations and/or associations in the past. Hence arguably, a promising approach to make the model transparent is to design it in a way such that the model explicitly connects the current sample with the seen ones, and bases its decision on these samples. Grounded on that principle, we propose in this paper an explainable, evidence-based memory network architecture, which learns to summarize the dataset and extract supporting evidences to make its decision. Our model achieves state-of-the-art performance on two popular question answering datasets (i.e. TrecQA and WikiQA). Via further analysis, we show that this model can reliably trace the errors it has made in the validation step to the training instances that might have caused these errors. We believe that this error-tracing capability provides significant benefit in improving dataset quality in many applications.
翻訳日:2022-09-29 11:21:39 公開日:2020-11-05
# 知識グラフを用いたリカレントニューラルネットワークを用いた半教師付きURLセグメンテーション

Semi-supervised URL Segmentation with Recurrent Neural Networks Pre-trained on Knowledge Graph Entities ( http://arxiv.org/abs/2011.03138v1 )

ライセンス: Link先を確認
Hao Zhang and Jae Ro and Richard Sproat(参考訳) Openresearchのようなドメイン名をコンポーネント語に分割し、研究することは、テキスト音声合成やWeb検索といったアプリケーションにとって重要である。 この問題を中国語単語分割の古典的な問題にリンクし、文字を入力として使用したリカレントニューラルネットワーク(RNN)に基づくタグ付けモデルの有効性を示す。 トレーニングデータの欠如を補うため,大規模な知識データベースにおけるエンティティ名統合のための事前学習手法を提案する。 事前トレーニングによってモデルが33%改善され、シーケンス精度が85%に向上した。

Breaking domain names such as openresearch into component words open and research is important for applications like Text-to-Speech synthesis and web search. We link this problem to the classic problem of Chinese word segmentation and show the effectiveness of a tagging model based on Recurrent Neural Networks (RNNs) using characters as input. To compensate for the lack of training data, we propose a pre-training method on concatenated entity names in a large knowledge database. Pre-training improves the model by 33% and brings the sequence accuracy to 85%.
翻訳日:2022-09-29 11:21:22 公開日:2020-11-05
# ユニバーサルマルチソースドメイン適応

Universal Multi-Source Domain Adaptation ( http://arxiv.org/abs/2011.02594v1 )

ライセンス: Link先を確認
Yueming Yin, Zhen Yang, Haifeng Hu, and Xiaofu Wu(参考訳) 教師なしのドメイン適応により、インテリジェントモデルは、ラベル付きソースドメインから類似しているがラベルなしのターゲットドメインに知識を転送することができる。 近年の研究では、知識はUniversal Domain Adaptation (UDA)と呼ばれる、あるソースドメインから別の未知のターゲットドメインに転送できることが明らかになっている。 しかし、現実世界のアプリケーションでは、複数のソースドメインがドメイン適応のために利用されることが多い。 本稿では,より一般的なドメイン適応設定であるumda(universal multi-source domain adaptation)を提案し,複数のソースドメインのラベル集合が異なる可能性があり,対象ドメインのラベル集合が完全に不明であることを示す。 umdaの主な課題は、各ソースドメインとターゲットドメインの間の共通のラベルセットを特定し、ソースドメインの数が増えるにつれてモデルをスケーラブルに保つことである。 これらの課題に対処するために,様々なUMDA設定におけるモデルの複雑さを増大させることなく,ドメイン適応問題を解決する汎用マルチソース適応ネットワーク(UMAN)を提案する。 UMANでは,共通ラベル集合内の各既知のクラスの信頼性を予測マージンで推定し,複数のソースドメインと共通ラベル集合内のターゲットドメインの分布の整合性を向上させる。 また、UMANの理論的保証も提供される。 大規模実験の結果,既存のUDAおよびマルチソースDA(MDA)手法はUMDAに直接適用できないことが明らかとなり,提案したUMANは様々なUMDA設定における最先端性能を実現する。

Unsupervised domain adaptation enables intelligent models to transfer knowledge from a labeled source domain to a similar but unlabeled target domain. Recent study reveals that knowledge can be transferred from one source domain to another unknown target domain, called Universal Domain Adaptation (UDA). However, in the real-world application, there are often more than one source domain to be exploited for domain adaptation. In this paper, we formally propose a more general domain adaptation setting, universal multi-source domain adaptation (UMDA), where the label sets of multiple source domains can be different and the label set of target domain is completely unknown. The main challenges in UMDA are to identify the common label set between each source domain and target domain, and to keep the model scalable as the number of source domains increases. To address these challenges, we propose a universal multi-source adaptation network (UMAN) to solve the domain adaptation problem without increasing the complexity of the model in various UMDA settings. In UMAN, we estimate the reliability of each known class in the common label set via the prediction margin, which helps adversarial training to better align the distributions of multiple source domains and target domain in the common label set. Moreover, the theoretical guarantee for UMAN is also provided. Massive experimental results show that existing UDA and multi-source DA (MDA) methods cannot be directly applied to UMDA and the proposed UMAN achieves the state-of-the-art performance in various UMDA settings.
翻訳日:2022-09-29 11:21:13 公開日:2020-11-05
# Latticed Multi-Scale Feature Fusion による高速物体検出

Fast Object Detection with Latticed Multi-Scale Feature Fusion ( http://arxiv.org/abs/2011.02780v1 )

ライセンス: Link先を確認
Yue Shi, Bo Jiang, Zhengping Che, Jian Tang(参考訳) スケール分散は、マルチスケールオブジェクト検出における重要な課題の1つである。 初期のアプローチでは、画像と特徴ピラミッドを利用してこの問題に対処し、計算負荷と固有のネットワーク構造からの制約により、最適以下の結果をもたらす。 パイオニアリングの作業は、問題を改善するためにマルチスケール(マルチレベルとマルチブランチ)の機能融合も提案し、進歩を奨励した。 しかし、既存の融合には、機能スケールの不整合、レベルごとの意味変換の無知、粗い粒度など、いくつかの制限がある。 本稿では,現行のマルチスケール融合手法の欠点を軽減し,マルチスケール物体検出を容易にする新しいモジュールであるfluffブロックを提案する。 具体的には、拡張畳み込みを伴うマルチレベルおよびマルチブランチのスキームを利用して、高速で効果的でよりきめ細かな特徴融合を行う。 さらに,F Fluff を SSD に統合し,FluffNet をマルチスケールオブジェクト検出のための強力なリアルタイム単一ステージ検出器とする。 MS COCO と PASCAL VOC の実証実験の結果,F FluffNet は最先端の精度で顕著な効率が得られることが示された。 さらに、他の広く使用されている検出器への埋め込み方法を示すことで、fluffブロックの大きな汎用性を示す。

Scale variance is one of the crucial challenges in multi-scale object detection. Early approaches address this problem by exploiting the image and feature pyramid, which raises suboptimal results with computation burden and constrains from inherent network structures. Pioneering works also propose multi-scale (i.e., multi-level and multi-branch) feature fusions to remedy the issue and have achieved encouraging progress. However, existing fusions still have certain limitations such as feature scale inconsistency, ignorance of level-wise semantic transformation, and coarse granularity. In this work, we present a novel module, the Fluff block, to alleviate drawbacks of current multi-scale fusion methods and facilitate multi-scale object detection. Specifically, Fluff leverages both multi-level and multi-branch schemes with dilated convolutions to have rapid, effective and finer-grained feature fusions. Furthermore, we integrate Fluff to SSD as FluffNet, a powerful real-time single-stage detector for multi-scale object detection. Empirical results on MS COCO and PASCAL VOC have demonstrated that FluffNet obtains remarkable efficiency with state-of-the-art accuracy. Additionally, we indicate the great generality of the Fluff block by showing how to embed it to other widely-used detectors as well.
翻訳日:2022-09-29 11:20:48 公開日:2020-11-05
# 対比トポグラフィーモデル:感覚符号化と皮質トポグラフィーの理解に応用したエネルギーベース密度モデル

Contrastive Topographic Models: Energy-based density models applied to the understanding of sensory coding and cortical topography ( http://arxiv.org/abs/2011.03535v1 )

ライセンス: Link先を確認
Simon Osindero(参考訳) 計算・アルゴリズム・構造・機械レベルでの視覚脳の機能解明を支援する理論モデルの構築の問題に対処する。 視覚皮質領域で見られる受容野と地形図が,根底にある計算デシダラタとどのように関連しているかを理解する。 我々は, 確率密度推定の一般的な視点から感覚系の発展を考察する。これは, 有効な内部表現スキームが, 生物が生活する環境の統計的構造を反映しやすいという考え方に動機づけられている。 我々は、そのモデルの要素に生物学的に制約を適用する。 論文は、神経生物学、理論神経科学、機械学習の分野から関連する文献を調査することから始まる。 我々は,エネルギーベースモデルと呼ぶ確率モデルクラスを提案し,マルコフ確率場や因子グラフといった他の確率モデルと等価性を示すとともに,エネルギーベースモデルにおいて最大確率学習と推論を行うための近似アルゴリズムを考案し,議論する。 論文の残りは、そのようなモデルの特定のインスタンス化を探求することに関するものである。 モデルパラメータの制約付き最適化を行い、適切な自然主義的データセットの確率を最大化することにより、インビボで見られる受容場やマップ特性の多くを質的に再現し、同時にデータの統計正則性について学ぶことができる。

We address the problem of building theoretical models that help elucidate the function of the visual brain at computational/algorithmic and structural/mechanistic levels. We seek to understand how the receptive fields and topographic maps found in visual cortical areas relate to underlying computational desiderata. We view the development of sensory systems from the popular perspective of probability density estimation; this is motivated by the notion that an effective internal representational scheme is likely to reflect the statistical structure of the environment in which an organism lives. We apply biologically based constraints on elements of the model. The thesis begins by surveying the relevant literature from the fields of neurobiology, theoretical neuroscience, and machine learning. After this review we present our main theoretical and algorithmic developments: we propose a class of probabilistic models, which we refer to as "energy-based models", and show equivalences between this framework and various other types of probabilistic model such as Markov random fields and factor graphs; we also develop and discuss approximate algorithms for performing maximum likelihood learning and inference in our energy based models. The rest of the thesis is then concerned with exploring specific instantiations of such models. By performing constrained optimisation of model parameters to maximise the likelihood of appropriate, naturalistic datasets we are able to qualitatively reproduce many of the receptive field and map properties found in vivo, whilst simultaneously learning about statistical regularities in the data.
翻訳日:2022-09-29 11:13:36 公開日:2020-11-05
# EXAMS: 言語横断・多言語質問応答のための多目的高校試験データセット

EXAMS: A Multi-Subject High School Examinations Dataset for Cross-Lingual and Multilingual Question Answering ( http://arxiv.org/abs/2011.03080v1 )

ライセンス: Link先を確認
Momchil Hardalov, Todor Mihaylov, Dimitrina Zlatkova, Yoan Dinkov, Ivan Koychev, Preslav Nakov(参考訳) 高校試験におけるクロスランガルおよび多言語質問応答のための新しいベンチマークデータセットEXAMSを提案する。 我々は16言語で24,000以上の高品質の高校試験質問を収集し、自然科学・社会科学の8つの言語家族と24の教科をカバーした。 EXAMSは、複数の言語と主題にわたるきめ細かい評価フレームワークを提供し、様々なモデルの正確な分析と比較を可能にする。 既存の多言語事前学習モデルを用いて様々な実験を行い、複数のドメインにおける多言語知識と推論を必要とする複数の課題をEXAMSがもたらすことを示した。 EXAMSによって、これまで不可能だった様々な言語での学校質問応答のための、難解な推論と知識伝達手法と事前学習モデルの探求が可能になることを願っている。 データ、コード、事前学習されたモデル、評価はhttps://github.com/mhardalov/exams-qaで利用可能である。

We propose EXAMS -- a new benchmark dataset for cross-lingual and multilingual question answering for high school examinations. We collected more than 24,000 high-quality high school exam questions in 16 languages, covering 8 language families and 24 school subjects from Natural Sciences and Social Sciences, among others. EXAMS offers a fine-grained evaluation framework across multiple languages and subjects, which allows precise analysis and comparison of various models. We perform various experiments with existing top-performing multilingual pre-trained models and we show that EXAMS offers multiple challenges that require multilingual knowledge and reasoning in multiple domains. We hope that EXAMS will enable researchers to explore challenging reasoning and knowledge transfer methods and pre-trained models for school question answering in various languages which was not possible before. The data, code, pre-trained models, and evaluation are available at https://github.com/mhardalov/exams-qa.
翻訳日:2022-09-29 11:13:13 公開日:2020-11-05
# 擬似グエンシングゲームにおける知覚情報に基づく接地概念表現

Imagining Grounded Conceptual Representations from Perceptual Information in Situated Guessing Games ( http://arxiv.org/abs/2011.02917v1 )

ライセンス: Link先を確認
Alessandro Suglia, Antonio Vergari, Ioannis Konstas, Yonatan Bisk, Emanuele Bastianelli, Andrea Vanzo, Oliver Lemon(参考訳) 視覚的な推測ゲームでは、GuesserはOracleに質問することで、シーン内のターゲットオブジェクトを特定する必要がある。 プレイヤーにとって効果的な戦略は、識別的かつ表現的なオブジェクトの概念表現を学習し、質問をし、正しく推測するのに十分である。 しかし、Suglia et al. (2020) が示すように、既存のモデルは真のマルチモーダル表現を学ばず、訓練時間と推論時間の両方でシーン内のオブジェクトのゴールドカテゴリーラベルに依存している。 これは、推論時のカテゴリがトレーニング時のカテゴリと一致した場合に不自然なパフォーマンス上の優位性をもたらし、ドメイン外のオブジェクトカテゴリが関与するより現実的な"ゼロショット"シナリオでモデルが失敗する。 この課題を克服するために,正規化オートエンコーダに基づく新しい「画像化」モジュールを導入し,推論時にカテゴリラベルに依存することなく,文脈認識とカテゴリ認識の潜在埋め込みを学習する。 われわれのイマジネーションモジュールは、CompGuessのゲームプレイ精度を8.26%上回っている。 ゼロショットシナリオ (suglia et al., 2020) は,oracle と guesser の精度を 2.08% と 12.86% 向上させる。 ベンチマーク 推論時にゴールドカテゴリが利用できない場合。 イマジネーションモジュールはまた、オブジェクトプロパティと属性に関する推論を促進する。

In visual guessing games, a Guesser has to identify a target object in a scene by asking questions to an Oracle. An effective strategy for the players is to learn conceptual representations of objects that are both discriminative and expressive enough to ask questions and guess correctly. However, as shown by Suglia et al. (2020), existing models fail to learn truly multi-modal representations, relying instead on gold category labels for objects in the scene both at training and inference time. This provides an unnatural performance advantage when categories at inference time match those at training time, and it causes models to fail in more realistic "zero-shot" scenarios where out-of-domain object categories are involved. To overcome this issue, we introduce a novel "imagination" module based on Regularized Auto-Encoders, that learns context-aware and category-aware latent embeddings without relying on category labels at inference time. Our imagination module outperforms state-of-the-art competitors by 8.26% gameplay accuracy in the CompGuessWhat?! zero-shot scenario (Suglia et al., 2020), and it improves the Oracle and Guesser accuracy by 2.08% and 12.86% in the GuessWhat?! benchmark, when no gold categories are available at inference time. The imagination module also boosts reasoning about object properties and attributes.
翻訳日:2022-09-29 11:12:58 公開日:2020-11-05
# スタイルGANの潜在空間の編集による実画像の顔重変換

Transforming Facial Weight of Real Images by Editing Latent Space of StyleGAN ( http://arxiv.org/abs/2011.02606v1 )

ライセンス: Link先を確認
V N S Rama Krishna Pinnimty, Matt Zhao, Palakorn Achananuparp, and Ee-Peng Lim(参考訳) 本稿では,GAN(Generative Adversarial Networks)の潜在空間に符号化された意味的顔属性を活用することにより,入力された顔画像の顔重量を,より薄くあるいは重くするために自動的に変換する逆・エディットフレームワークを提案する。 事前学習したStyleGANを基本ジェネレータとして、まず最適化に基づく埋め込み手法を用いて入力画像をStyleGAN潜在空間に反転させる。 そして、教師付き学習により潜伏空間の顔重み属性方向を特定し、抽出した特徴軸に沿って正あるいは負に移動して逆潜伏符号を編集する。 我々のフレームワークは、大量のラベル付き顔画像をスクラッチからトレーニングすることなく、高品質でリアルな顔重み変換を実現することを実証的に示している。 最終的に、我々の枠組みは、個人の行動が外見に与える影響を可視化することによって、より健康的な食品選択を促すための介入の一部として利用することができる。

We present an invert-and-edit framework to automatically transform facial weight of an input face image to look thinner or heavier by leveraging semantic facial attributes encoded in the latent space of Generative Adversarial Networks (GANs). Using a pre-trained StyleGAN as the underlying generator, we first employ an optimization-based embedding method to invert the input image into the StyleGAN latent space. Then, we identify the facial-weight attribute direction in the latent space via supervised learning and edit the inverted latent code by moving it positively or negatively along the extracted feature axis. Our framework is empirically shown to produce high-quality and realistic facial-weight transformations without requiring training GANs with a large amount of labeled face images from scratch. Ultimately, our framework can be utilized as part of an intervention to motivate individuals to make healthier food choices by visualizing the future impacts of their behavior on appearance.
翻訳日:2022-09-29 11:12:34 公開日:2020-11-05
# 分散マルチアームモーションプランナーの学習

Learning a Decentralized Multi-arm Motion Planner ( http://arxiv.org/abs/2011.02608v1 )

ライセンス: Link先を確認
Huy Ha, Jingxi Xu, Shuran Song(参考訳) 我々は,チームサイズに合わせてスケーラブルで柔軟性のあるクローズドループのマルチアームモーションプランナーを提案する。 従来のマルチアームロボットシステムは集中型モーションプランナーに依存しており、ランタイムはチームサイズと指数関数的にスケールするため、オープンループ制御による動的環境の処理に失敗することが多い。 本稿では,マルチエージェント強化学習において,マルチアームシステム内の1つのロボットアームを個別に制御し,ワークスペース状態とターゲットエンドエフェクタのポーズを与えられた場合の目標エンドエフェクタに到達するための分散型ポリシーを訓練する。 この方針はSoft Actor-Criticを用いて訓練され、サンプリングベースのモーションプランニングアルゴリズム(BiRRT)から専門家によるデモンストレーションが行われる。 従来の計画アルゴリズムを利用することで、ニューラルネットワークの高速推論時間を維持しながら強化学習アルゴリズムの学習効率を向上させることができる。 結果のポリシはサブラインでスケールされ,チームサイズが可変なマルチアームシステムにデプロイされる。 クローズドループと分散化された定式化により,静的な目標を持つ1~4個のアーム計画タスクのみを訓練しながら,5~10個のマルチアームシステムと動的移動目標(>90%の成功率)に一般化した。 コードとデータリンクはhttps://multiarm.cs.columbia.eduにある。

We present a closed-loop multi-arm motion planner that is scalable and flexible with team size. Traditional multi-arm robot systems have relied on centralized motion planners, whose runtimes often scale exponentially with team size, and thus, fail to handle dynamic environments with open-loop control. In this paper, we tackle this problem with multi-agent reinforcement learning, where a decentralized policy is trained to control one robot arm in the multi-arm system to reach its target end-effector pose given observations of its workspace state and target end-effector pose. The policy is trained using Soft Actor-Critic with expert demonstrations from a sampling-based motion planning algorithm (i.e., BiRRT). By leveraging classical planning algorithms, we can improve the learning efficiency of the reinforcement learning algorithm while retaining the fast inference time of neural networks. The resulting policy scales sub-linearly and can be deployed on multi-arm systems with variable team sizes. Thanks to the closed-loop and decentralized formulation, our approach generalizes to 5-10 multi-arm systems and dynamic moving targets (>90% success rate for a 10-arm system), despite being trained on only 1-4 arm planning tasks with static targets. Code and data links can be found at https://multiarm.cs.columbia.edu.
翻訳日:2022-09-29 11:11:42 公開日:2020-11-05
# 時間認識事前学習によるイベント継続時間予測の改善

Improving Event Duration Prediction via Time-aware Pre-training ( http://arxiv.org/abs/2011.02610v1 )

ライセンス: Link先を確認
Zonglin Yang, Xinya Du, Alexander Rush, Claire Cardie(参考訳) NLPのエンドツーエンドモデルは、時間の長さに関する外部世界の知識を符号化することは滅多にない。 本稿では,時間関連ニュース文(時間対応事前学習)を読むことで外部知識を取り入れた時間予測モデルを提案する。 具体的には、期間値が該当する範囲/単位(R−pred)を予測し、一方のモデルが正確な期間値E−predを予測する。 我々の最良のモデル -- E-pred は以前の作業よりも大幅に優れ、R-pred よりも正確に持続時間情報をキャプチャします。 また,本モデルでは教師なし設定で継続時間予測が可能であり,ベースラインを上回っていることを示す。

End-to-end models in NLP rarely encode external world knowledge about length of time. We introduce two effective models for duration prediction, which incorporate external knowledge by reading temporal-related news sentences (time-aware pre-training). Specifically, one model predicts the range/unit where the duration value falls in (R-pred); and the other predicts the exact duration value E-pred. Our best model -- E-pred, substantially outperforms previous work, and captures duration information more accurately than R-pred. We also demonstrate our models are capable of duration prediction in the unsupervised setting, outperforming the baselines.
翻訳日:2022-09-29 11:10:57 公開日:2020-11-05