このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200521となっている論文です。

PDF登録状況(公開日: 20200521)

TitleAuthorsAbstract論文公表日・翻訳日
# 会話アシスタントによる多目的インテリジェントプロセス自動化

Multipurpose Intelligent Process Automation via Conversational Assistant ( http://arxiv.org/abs/2001.02284v2 )

ライセンス: Link先を確認
Alena Moiseeva, Dietrich Trautmann, Michael Heimann, Hinrich Sch\"utze(参考訳) Intelligent Process Automation (IPA) は,反復的,ルーチン的,低認知的なタスクの処理によって知識労働者を支援することを目的とする新興技術である。 自然言語でユーザと対話できる会話エージェントは、IPAシステムの潜在的応用である。 このようなインテリジェントエージェントは、特定の質問に答え、自然言語(すなわちカスタマーサポート)で通常実行されるルーチンタスクを実行することで、ユーザを支援することができる。 本研究では、実世界の産業環境でのIPA対話アシスタントの実装に、構造化されたトレーニングデータがない課題に取り組む。 提案システムには2つの大きなメリットがある。第一に、反復的かつ時間のかかるアクティビティを削減し、従って労働者がよりインテリジェントなプロセスに集中できるようにする。 第二に、ユーザと対話することで、構造化されたリソースとある程度のラベル付きトレーニングデータを強化します。 本稿では,Transfer Learning (TL) 手法を用いて,システムのいくつかのコンポーネントを再実装することで,後者の使用例を示す。

Intelligent Process Automation (IPA) is an emerging technology with a primary goal to assist the knowledge worker by taking care of repetitive, routine and low-cognitive tasks. Conversational agents that can interact with users in a natural language are potential application for IPA systems. Such intelligent agents can assist the user by answering specific questions and executing routine tasks that are ordinarily performed in a natural language (i.e., customer support). In this work, we tackle a challenge of implementing an IPA conversational assistant in a real-world industrial setting with a lack of structured training data. Our proposed system brings two significant benefits: First, it reduces repetitive and time-consuming activities and, therefore, allows workers to focus on more intelligent processes. Second, by interacting with users, it augments the resources with structured and to some extent labeled training data. We showcase the usage of the latter by re-implementing several components of our system with Transfer Learning (TL) methods.
翻訳日:2023-01-13 20:07:45 公開日:2020-05-21
# 空間配向モードに対する入力ドロップアウト

Input Dropout for Spatially Aligned Modalities ( http://arxiv.org/abs/2002.02852v2 )

ライセンス: Link先を確認
S\'ebastien de Blois, Mathieu Garon, Christian Gagn\'e, Jean-Fran\c{c}ois Lalonde(参考訳) 色、深さ、熱的性質といった複数のモダリティを含むコンピュータビジョンデータセットが一般にアクセス可能になり、幅広い課題を解決するのに役立ちます。 しかし、多くのシナリオではマルチセンサーヘッドのデプロイは不可能である。 多くの実用的なソリューションは、コスト、単純さ、堅牢性を考慮して、より単純なセンサーに基づいている傾向にある。 本研究では,テスト時に使用できない場合でも,データセットで利用可能な追加のモダリティを活用するためのトレーニング手法を提案する。 モーダルが強い空間相関を持つと仮定することで、テスト時に標準(例えばRGB)モーダルのみを使用しながら、トレーニング時に1つまたは複数の入力モーダルを確率的に隠蔽する単純な手法である入力ドロップアウトを提案する。 入力ドロップアウトは、既存の深層畳み込みアーキテクチャと簡単に結合し、デハジング、6-DOFオブジェクトトラッキング、歩行者検出、オブジェクト分類などの幅広いコンピュータビジョンタスクにおける性能を向上させることを実証する。

Computer vision datasets containing multiple modalities such as color, depth, and thermal properties are now commonly accessible and useful for solving a wide array of challenging tasks. However, deploying multi-sensor heads is not possible in many scenarios. As such many practical solutions tend to be based on simpler sensors, mostly for cost, simplicity and robustness considerations. In this work, we propose a training methodology to take advantage of these additional modalities available in datasets, even if they are not available at test time. By assuming that the modalities have a strong spatial correlation, we propose Input Dropout, a simple technique that consists in stochastic hiding of one or many input modalities at training time, while using only the canonical (e.g. RGB) modalities at test time. We demonstrate that Input Dropout trivially combines with existing deep convolutional architectures, and improves their performance on a wide range of computer vision tasks such as dehazing, 6-DOF object tracking, pedestrian detection and object classification.
翻訳日:2023-01-03 04:35:22 公開日:2020-05-21
# 核主共変量回帰を伴う構造-プロパティマップ

Structure-Property Maps with Kernel Principal Covariates Regression ( http://arxiv.org/abs/2002.05076v2 )

ライセンス: Link先を確認
Benjamin A. Helfrecht, Rose K. Cersonsky, Guillaume Fraux, and Michele Ceriotti(参考訳) 線形手法に基づくデータ解析は、教師なしまたは教師なし機械学習モデルを構築するための大量のデータの自動処理に対する最も単純で最も堅牢で透明なアプローチを構成する。 主共変量回帰 (PCovR) は、主成分分析と線形回帰を補間する未熟な手法であり、簡単な解釈と低次元写像の観点で、構造と固有性の関係を明らかにするのに便利である。 ここでは,線形アプローチの利便性と単純さのほとんどを維持しつつ,非線形性の要素を導入するためのカーネルトリックの利用を含む,これらのデータ解析スキームの教育的概要を示す。 次に,pcovrの核化版とスパース化拡張を導入し,化学・材料科学における構造・物性関係の解明と予測におけるこの手法の性能を実証し,元素炭素,多孔質ケイ酸塩フレームワーク,有機分子,アミノ酸配座体,分子材料など様々な例を示す。

Data analyses based on linear methods constitute the simplest, most robust, and transparent approaches to the automatic processing of large amounts of data for building supervised or unsupervised machine learning models. Principal covariates regression (PCovR) is an underappreciated method that interpolates between principal component analysis and linear regression, and can be used to conveniently reveal structure-property relations in terms of simple-to-interpret, low-dimensional maps. Here we provide a pedagogic overview of these data analysis schemes, including the use of the kernel trick to introduce an element of non-linearity, while maintaining most of the convenience and the simplicity of linear approaches. We then introduce a kernelized version of PCovR and a sparsified extension, and demonstrate the performance of this approach in revealing and predicting structure-property relations in chemistry and materials science, showing a variety of examples including elemental carbon, porous silicate frameworks, organic molecules, amino acid conformers, and molecular materials.
翻訳日:2023-01-01 19:48:05 公開日:2020-05-21
# KoGuN:人間の準最適知識の統合による深層強化学習の促進

KoGuN: Accelerating Deep Reinforcement Learning via Integrating Human Suboptimal Knowledge ( http://arxiv.org/abs/2002.07418v2 )

ライセンス: Link先を確認
Peng Zhang, Jianye Hao, Weixun Wang, Hongyao Tang, Yi Ma, Yihai Duan, Yan Zheng(参考訳) 強化学習エージェントは、通常、スクラッチから学習する。 これは人間の学習過程とは全く異なる。 新しいタスクに直面したとき、人間は自然に常識を持ち、事前の知識を使って初期方針を導き、その後に学習プロセスを導く。 従来の知識が新しいタスクに完全には適用されないかもしれないが、初期方針が学習のクイックスタートを保証し、中間ガイダンスが不要な探索を回避できるため、学習プロセスは大幅に向上する。 このインスピレーションを生かした知識誘導型政策ネットワーク(KoGuN)は,人間の事前最適知識と強化学習を組み合わせた新しいフレームワークである。 私たちのフレームワークは、人間の知識を表現するファジィルールコントローラと、最適化された事前知識を微調整する精製モジュールで構成されています。 提案するフレームワークはエンドツーエンドであり,既存のポリシベースの強化学習アルゴリズムと組み合わせることができる。 離散制御と連続制御の両方で実験を行う。 実験の結果,人間の準最適知識とRLを組み合わせた手法は,低性能な人間の事前知識であっても,平坦なRLアルゴリズムの学習効率を大幅に向上することが示された。

Reinforcement learning agents usually learn from scratch, which requires a large number of interactions with the environment. This is quite different from the learning process of human. When faced with a new task, human naturally have the common sense and use the prior knowledge to derive an initial policy and guide the learning process afterwards. Although the prior knowledge may be not fully applicable to the new task, the learning process is significantly sped up since the initial policy ensures a quick-start of learning and intermediate guidance allows to avoid unnecessary exploration. Taking this inspiration, we propose knowledge guided policy network (KoGuN), a novel framework that combines human prior suboptimal knowledge with reinforcement learning. Our framework consists of a fuzzy rule controller to represent human knowledge and a refine module to fine-tune suboptimal prior knowledge. The proposed framework is end-to-end and can be combined with existing policy-based reinforcement learning algorithm. We conduct experiments on both discrete and continuous control tasks. The empirical results show that our approach, which combines human suboptimal knowledge and RL, achieves significant improvement on learning efficiency of flat RL algorithms, even with very low-performance human prior knowledge.
翻訳日:2022-12-30 20:10:20 公開日:2020-05-21
# チェックWorthy Factual Claim検出のための変圧器ネットワークの勾配学習

Gradient-Based Adversarial Training on Transformer Networks for Detecting Check-Worthy Factual Claims ( http://arxiv.org/abs/2002.07725v2 )

ライセンス: Link先を確認
Kevin Meng, Damian Jimenez, Fatma Arslan, Jacob Daniel Devasier, Daniel Obembe, Chengkai Li(参考訳) 本研究は, 変圧器ニューラルネットモデルに対する対人訓練の有効性について, チェック価値のあるクレームを検出するタスクについて検討する。 そこで本研究では,複数の難解なベンチマークで最先端の結果を得るための,最初の非正規化・変圧器ベースのクレームスポッターモデルを提案する。 我々は,ClaymBuster Dataset と CLEF2019 Dataset の現在の最先端モデルに対して,それぞれ4.70ポイントのF1スコア改善を実現した。 そこで本研究では,様々なテキスト分類タスクに一般化する可能性を持つトランスフォーマモデルに対して,逆訓練を適用する手法を提案する。 結果に加えて、コードベースと手作業でラベル付きデータセットもリリースしています。 また、ライブ公開APIを通じて、モデルの実世界の使用状況も紹介します。

We present a study on the efficacy of adversarial training on transformer neural network models, with respect to the task of detecting check-worthy claims. In this work, we introduce the first adversarially-regularized, transformer-based claim spotter model that achieves state-of-the-art results on multiple challenging benchmarks. We obtain a 4.70 point F1-score improvement over current state-of-the-art models on the ClaimBuster Dataset and CLEF2019 Dataset, respectively. In the process, we propose a method to apply adversarial training to transformer models, which has the potential to be generalized to many similar text classification tasks. Along with our results, we are releasing our codebase and manually labeled datasets. We also showcase our models' real world usage via a live public API.
翻訳日:2022-12-30 19:15:38 公開日:2020-05-21
# バイナリとスパイクニューラルネットワークの関連性を探る

Exploring the Connection Between Binary and Spiking Neural Networks ( http://arxiv.org/abs/2002.10064v3 )

ライセンス: Link先を確認
Sen Lu, Abhronil Sengupta(参考訳) オンチップのエッジインテリジェンスは、現在の機械学習フレームワークの計算要件を減らすためにアルゴリズム技術の探求を必要としている。 この研究は、バイナリニューラルネットワークとスパイキングニューラルネットワークのトレーニングにおける最近のアルゴリズムの進歩を橋渡しすることを目的としている。 極端量子化システムにおけるスパイキングニューラルネットワークのトレーニングは、CIFAR-$100$やImageNetのような大規模データセット上で、ほぼ完全な精度の精度が得られることを示す。 この研究の重要な意味は、バイナリスパイキングニューラルネットワークは、二項化による精度の劣化に苦しむことなく、バイナリニューラルネットワークを対象とする"インメモリ"ハードウェアアクセラレータによって実現可能であることである。 我々は、スパイキングネットワークを変換処理により生成する標準的なトレーニング手法を利用して、広範な経験的分析を行い、スパイキングネットワーク(バイナリモデルとフル精度モデルの両方)の推論遅延を前処理よりも桁違いに低減するシンプルな設計時および実行時最適化手法を探索する。

On-chip edge intelligence has necessitated the exploration of algorithmic techniques to reduce the compute requirements of current machine learning frameworks. This work aims to bridge the recent algorithmic progress in training Binary Neural Networks and Spiking Neural Networks - both of which are driven by the same motivation and yet synergies between the two have not been fully explored. We show that training Spiking Neural Networks in the extreme quantization regime results in near full precision accuracies on large-scale datasets like CIFAR-$100$ and ImageNet. An important implication of this work is that Binary Spiking Neural Networks can be enabled by "In-Memory" hardware accelerators catered for Binary Neural Networks without suffering any accuracy degradation due to binarization. We utilize standard training techniques for non-spiking networks to generate our spiking networks by conversion process and also perform an extensive empirical analysis and explore simple design-time and run-time optimization techniques for reducing inference latency of spiking networks (both for binary and full-precision models) by an order of magnitude over prior work.
翻訳日:2022-12-29 03:04:01 公開日:2020-05-21
# 教師なし領域適応による共変量シフトによる校正予測

Calibrated Prediction with Covariate Shift via Unsupervised Domain Adaptation ( http://arxiv.org/abs/2003.00343v2 )

ライセンス: Link先を確認
Sangdon Park, Osbert Bastani, James Weimer, Insup Lee(参考訳) 信頼できる不確実性推定は、自律エージェントや人間の意思決定者が予測モデルを理解し、活用するための重要なツールである。 しかしながら、不確かさを推定するための既存のアプローチは、実世界のデータ分布がトレーニング分布と異なる可能性のある共変シフトの可能性を大きく無視している。 その結果、既存のアルゴリズムは確実性を過大評価し、予測モデルに誤った信頼感をもたらす可能性がある。 本稿では,トレーニング分布のラベル付き例と実世界分布のラベルなし例から,共変量シフトの可能性を考慮した予測の校正アルゴリズムを提案する。 本アルゴリズムはトレーニングから実世界の分布へのシフトを補正するために重要度重み付けを用いる。 しかし、重み付けはトレーニングと現実世界の分布が十分近いことに依存している。 ドメイン適応のアイデアに基づいて、これらの2つの分布を等化しようとする特徴写像も学習する。 実験結果から,提案手法は,共変量シフトがある場合のキャリブレーション予測の既存手法よりも優れていることが示された。

Reliable uncertainty estimates are an important tool for helping autonomous agents or human decision makers understand and leverage predictive models. However, existing approaches to estimating uncertainty largely ignore the possibility of covariate shift--i.e., where the real-world data distribution may differ from the training distribution. As a consequence, existing algorithms can overestimate certainty, possibly yielding a false sense of confidence in the predictive model. We propose an algorithm for calibrating predictions that accounts for the possibility of covariate shift, given labeled examples from the training distribution and unlabeled examples from the real-world distribution. Our algorithm uses importance weighting to correct for the shift from the training to the real-world distribution. However, importance weighting relies on the training and real-world distributions to be sufficiently close. Building on ideas from domain adaptation, we additionally learn a feature map that tries to equalize these two distributions. In an empirical evaluation, we show that our proposed approach outperforms existing approaches to calibrated prediction when there is covariate shift.
翻訳日:2022-12-27 20:17:10 公開日:2020-05-21
# ワーウィック電子顕微鏡データセット

Warwick Electron Microscopy Datasets ( http://arxiv.org/abs/2003.01113v4 )

ライセンス: Link先を確認
Jeffrey M. Ede(参考訳) 大規模で慎重に分割されたデータセットは、ニューラルネットワークのトレーニングとパフォーマンスベンチマークの標準化に不可欠である。 その結果、我々は電子顕微鏡データセットをより広いコミュニティで利用できるようにするための新しいリポジトリを構築しました。 19769個の走査透過電子線、17266個の透過電子線、98340個の模擬出口波動関数を含む3つの主要なデータセットと、それぞれのデータセットの複数の変種がある。 画像データセットを可視化するために,変分オートエンコーダを訓練し,データを64次元の多変量正規分布として符号化した。 さらに,符号化正規化と正規化の導入,画像勾配損失の追加,符号化標準偏差を考慮したt分布確率的近傍埋め込みの拡張により,変分オートエンコーダによるデータセットの可視化を改善した。 データセット、ソースコード、事前トレーニングされたモデル、インタラクティブな視覚化はhttps://github.com/Jeffrey-Ede/datasets.comで公開されています。

Large, carefully partitioned datasets are essential to train neural networks and standardize performance benchmarks. As a result, we have set up new repositories to make our electron microscopy datasets available to the wider community. There are three main datasets containing 19769 scanning transmission electron micrographs, 17266 transmission electron micrographs, and 98340 simulated exit wavefunctions, and multiple variants of each dataset for different applications. To visualize image datasets, we trained variational autoencoders to encode data as 64-dimensional multivariate normal distributions, which we cluster in two dimensions by t-distributed stochastic neighbor embedding. In addition, we have improved dataset visualization with variational autoencoders by introducing encoding normalization and regularization, adding an image gradient loss, and extending t-distributed stochastic neighbor embedding to account for encoded standard deviations. Our datasets, source code, pretrained models, and interactive visualizations are openly available at https://github.com/Jeffrey-Ede/datasets.
翻訳日:2022-12-27 06:00:41 公開日:2020-05-21
# ベンガル文字パターンを模倣する合成誤差データセット生成

Synthetic Error Dataset Generation Mimicking Bengali Writing Pattern ( http://arxiv.org/abs/2003.03484v2 )

ライセンス: Link先を確認
Md. Habibur Rahman Sifat, Chowdhury Rafeed Rahman, Mohammad Rafsan, Md. Hasibur Rahman(参考訳) 英語のキーボードを使ってベンガルを書くとき、ユーザーはスペルミスをすることが多い。 任意のベンガルスペルチェッカーまたは段落補正モジュールの精度は、そのベースとするエラーデータセットの種類に大きく依存する。 このようなエラーデータセットの手動生成は面倒なプロセスです。 そこで本研究では,qwerty layout 英語キーボードを用いたベンガル文字パターンの分析により,正しい単語からベンガル単語の自動生成を行うアルゴリズムを提案する。 分析の一部として、最も一般的に使用されるベンガル語の単語のリスト、音声的に類似した置換可能なクラスタ、しばしば抑圧された置換可能なクラスタ、しばしば抑圧された挿入性プロンクラスタ、エラーを生成しながらjuktakkhar(constant letter clusters)を扱ういくつかのルールを作成しました。

While writing Bengali using English keyboard, users often make spelling mistakes. The accuracy of any Bengali spell checker or paragraph correction module largely depends on the kind of error dataset it is based on. Manual generation of such error dataset is a cumbersome process. In this research, We present an algorithm for automatic misspelled Bengali word generation from correct word through analyzing Bengali writing pattern using QWERTY layout English keyboard. As part of our analysis, we have formed a list of most commonly used Bengali words, phonetically similar replaceable clusters, frequently mispressed replaceable clusters, frequently mispressed insertion prone clusters and some rules for Juktakkhar (constant letter clusters) handling while generating errors.
翻訳日:2022-12-25 19:50:48 公開日:2020-05-21
# 論文に聞く: ニューラルネットワークによる質問応答を学術的検索に適用する

Talk to Papers: Bringing Neural Question Answering to Academic Search ( http://arxiv.org/abs/2004.02002v3 )

ライセンス: Link先を確認
Tianchang Zhao and Kyusong Lee(参考訳) 本稿では,近年のオープンドメイン質問応答(QA)技術を活用して,学術検索の現在の経験を改善する方法であるTalk to Papersを紹介する。 研究者が自然言語クエリを使って正確な答えを見つけ、大量の学術論文から洞察を抽出できるように設計されています。 我々は,いくつかの標準QAデータセットに対する古典的検索エンジンのベースラインを大幅に改善し,コミュニティの取り組みを通じて,最初の自然言語処理研究QAデータセットをキュレートするための協調データ収集ツールをコミュニティに提供する。

We introduce Talk to Papers, which exploits the recent open-domain question answering (QA) techniques to improve the current experience of academic search. It's designed to enable researchers to use natural language queries to find precise answers and extract insights from a massive amount of academic papers. We present a large improvement over classic search engine baseline on several standard QA datasets and provide the community a collaborative data collection tool to curate the first natural language processing research QA dataset via a community effort.
翻訳日:2022-12-16 22:33:27 公開日:2020-05-21
# BLEURT:テキスト生成のためのロバストなメトリクスの学習

BLEURT: Learning Robust Metrics for Text Generation ( http://arxiv.org/abs/2004.04696v5 )

ライセンス: Link先を確認
Thibault Sellam, Dipanjan Das, Ankur P. Parikh(参考訳) テキスト生成はここ数年で大きな進歩を遂げている。 しかし、最も一般的な選択(BLEUやROUGEなど)は人間の判断と相関が低いため、評価基準は後れを取っている。 我々は、人間の判断を数千のバイアスのあるトレーニング例でモデル化できるbertに基づく学習評価指標であるbleurtを提案する。 このアプローチの重要な側面は、モデルを一般化するために数百万の合成例を使用する、新しい事前学習方式である。 BLEURTは、WMT Metrics共有タスクとWebNLGコンペティションデータセットの最後の3年間、最先端の結果を提供する。 バニラBERTベースのアプローチとは対照的に、トレーニングデータが乏しく、配布外であっても優れた結果が得られる。

Text generation has made significant advances in the last few years. Yet, evaluation metrics have lagged behind, as the most popular choices (e.g., BLEU and ROUGE) may correlate poorly with human judgments. We propose BLEURT, a learned evaluation metric based on BERT that can model human judgments with a few thousand possibly biased training examples. A key aspect of our approach is a novel pre-training scheme that uses millions of synthetic examples to help the model generalize. BLEURT provides state-of-the-art results on the last three years of the WMT Metrics shared task and the WebNLG Competition dataset. In contrast to a vanilla BERT-based approach, it yields superior results even when the training data is scarce and out-of-distribution.
翻訳日:2022-12-15 02:54:35 公開日:2020-05-21
# 人-物体相互作用のための詳細2次元3次元関節表現

Detailed 2D-3D Joint Representation for Human-Object Interaction ( http://arxiv.org/abs/2004.08154v2 )

ライセンス: Link先を確認
Yong-Lu Li, Xinpeng Liu, Han Lu, Shiyi Wang, Junqi Liu, Jiefeng Li, Cewu Lu(参考訳) ヒューマン・オブジェクト・インタラクション(HOI)検出は行動理解の核心にある。 人間や物体の外観や位置などの2D情報に加えて、3DポーズはHOI学習で一般的に使用される。 しかし、粗い3Dボディジョイントはスパースボディ情報しか持たず、複雑な相互作用を理解するには不十分である。 そのため、さらに詳細な3dボディ形状が必要となる。 一方、3Dの相互作用対象はHOI学習では十分に研究されていない。 これらを踏まえ,詳細な2次元3次元表現学習法を提案する。 まず, 単視点人体撮影法を用いて, 3次元体, 顔, 手の形状を詳細に把握する。 次に,3次元オブジェクトの位置と大きさを,2次元オブジェクト空間構成と対象カテゴリーの先行点から推定する。 最後に,共同学習フレームワークとクロスモーダル整合性タスクを提案し,HOI表現を学習する。 モデルの2次元曖昧性処理能力をよりよく評価するために,硬明な画像からなるAmbiguous-HOIという新しいベンチマークを提案する。 大規模HOIベンチマークとAmbiguous-HOIの大規模な実験により,本手法の有効性が示された。 コードとデータはhttps://github.com/dirtyharrylyl/dj-rnで入手できる。

Human-Object Interaction (HOI) detection lies at the core of action understanding. Besides 2D information such as human/object appearance and locations, 3D pose is also usually utilized in HOI learning since its view-independence. However, rough 3D body joints just carry sparse body information and are not sufficient to understand complex interactions. Thus, we need detailed 3D body shape to go further. Meanwhile, the interacted object in 3D is also not fully studied in HOI learning. In light of these, we propose a detailed 2D-3D joint representation learning method. First, we utilize the single-view human body capture method to obtain detailed 3D body, face and hand shapes. Next, we estimate the 3D object location and size with reference to the 2D human-object spatial configuration and object category priors. Finally, a joint learning framework and cross-modal consistency tasks are proposed to learn the joint HOI representation. To better evaluate the 2D ambiguity processing capacity of models, we propose a new benchmark named Ambiguous-HOI consisting of hard ambiguous images. Extensive experiments in large-scale HOI benchmark and Ambiguous-HOI show impressive effectiveness of our method. Code and data are available at https://github.com/DirtyHarryLYL/DJ-RN.
翻訳日:2022-12-12 12:49:31 公開日:2020-05-21
# 不均衡属性分類のためのデータ拡張不均衡

Data Augmentation Imbalance For Imbalanced Attribute Classification ( http://arxiv.org/abs/2004.13628v3 )

ライセンス: Link先を確認
Yang Hu, Xiaying Bai, Pan Zhou, Fanhua Shang, Shengmei Shen(参考訳) 歩行者属性認識は重要な多ラベル分類問題である。 畳み込みニューラルネットワークは画像からの識別的特徴の学習において顕著であるが、細粒度タスクのマルチラベル設定におけるデータの不均衡は未解決の問題である。 本稿では,データ拡張不均衡(DAI)と呼ばれる新しい再サンプリングアルゴリズムを提案する。 基本的には、マルチラベルデータセットにオーバーサンプリングとアンダーサンプリングを同時に適用することで、豊富な属性を盗み、貧者を助けるという考え方がdaiに大きな貢献をした。 我々のDAIアルゴリズムは、歩行者属性データセット、すなわち標準PA-100KおよびPETAデータセットに基づいて、最先端の結果を達成することを示す。

Pedestrian attribute recognition is an important multi-label classification problem. Although the convolutional neural networks are prominent in learning discriminative features from images, the data imbalance in multi-label setting for fine-grained tasks remains an open problem. In this paper, we propose a new re-sampling algorithm called: data augmentation imbalance (DAI) to explicitly enhance the ability to discriminate the fewer attributes via increasing the proportion of labels accounting for a small part. Fundamentally, by applying over-sampling and under-sampling on the multi-label dataset at the same time, the thought of robbing the rich attributes and helping the poor makes a significant contribution to DAI. Extensive empirical evidence shows that our DAI algorithm achieves state-of-the-art results, based on pedestrian attribute datasets, i.e. standard PA-100K and PETA datasets.
翻訳日:2022-12-12 00:32:58 公開日:2020-05-21
# Inf-Net:CT画像による自動肺感染症分離

Inf-Net: Automatic COVID-19 Lung Infection Segmentation from CT Images ( http://arxiv.org/abs/2004.14133v4 )

ライセンス: Link先を確認
Deng-Ping Fan, Tao Zhou, Ge-Peng Ji, Yi Zhou, Geng Chen, Huazhu Fu, Jianbing Shen, Ling Shao(参考訳) コロナウイルス病2019(COVID-19)は2020年初頭に世界中に広まり、世界は既存の健康危機に直面している。 CT画像からの肺感染症の自動検出は、新型コロナウイルスに対処するための従来の医療戦略を強化する大きな可能性を秘めている。 しかし、CTスライスから感染部位を分離することは、感染特性のばらつきや、感染と正常な組織とのコントラストの低さなど、いくつかの課題に直面している。 さらに、短時間で大量のデータを収集することは不可能であり、深層モデルの訓練を阻害する。 これらの課題に対処するため, 胸部CTスライスから感染部位を自動的に同定する, 新規な肺感染症分離ディープネットワーク(Inf-Net)が提案されている。 Inf-Netでは、並列部分デコーダを使用して高レベルの特徴を集約し、グローバルマップを生成する。 そして、暗黙の逆の注意と明示的なエッジアテンションを用いて境界をモデル化し、表現を強化する。 さらに,ラベル付きデータの不足を軽減するために,ランダムに選択された伝播戦略に基づく半教師付きセグメンテーションフレームワークを提案する。 半教師付きフレームワークは、学習能力を向上し、より高いパフォーマンスを実現します。 Inf-Netは最先端のセグメンテーションモデルよりも優れており、最先端のパフォーマンスも向上している。

Coronavirus Disease 2019 (COVID-19) spread globally in early 2020, causing the world to face an existential health crisis. Automated detection of lung infections from computed tomography (CT) images offers a great potential to augment the traditional healthcare strategy for tackling COVID-19. However, segmenting infected regions from CT slices faces several challenges, including high variation in infection characteristics, and low intensity contrast between infections and normal tissues. Further, collecting a large amount of data is impractical within a short time period, inhibiting the training of a deep model. To address these challenges, a novel COVID-19 Lung Infection Segmentation Deep Network (Inf-Net) is proposed to automatically identify infected regions from chest CT slices. In our Inf-Net, a parallel partial decoder is used to aggregate the high-level features and generate a global map. Then, the implicit reverse attention and explicit edge-attention are utilized to model the boundaries and enhance the representations. Moreover, to alleviate the shortage of labeled data, we present a semi-supervised segmentation framework based on a randomly selected propagation strategy, which only requires a few labeled images and leverages primarily unlabeled data. Our semi-supervised framework can improve the learning ability and achieve a higher performance. Extensive experiments on our COVID-SemiSeg and real CT volumes demonstrate that the proposed Inf-Net outperforms most cutting-edge segmentation models and advances the state-of-the-art performance.
翻訳日:2022-12-10 18:05:37 公開日:2020-05-21
# 識別的コスト感応学習による胸部x線からのロバストスクリーニング

Robust Screening of COVID-19 from Chest X-ray via Discriminative Cost-Sensitive Learning ( http://arxiv.org/abs/2004.12592v2 )

ライセンス: Link先を確認
Tianyang Li, Zhongyi Han, Benzheng Wei, Yuanjie Zheng, Yanfei Hong, Jinyu Cong(参考訳) 新型コロナウイルスの感染拡大を早めるために緊急要求される胸部x線に基づく2019年(covid-19)自動スクリーニングの新たな課題について述べる。 しかし、胸部X線による新型コロナウイルスの検査は、2つのボトルネックがあるため、世界中で認識されている課題である。 1) 胸部X線上の他の肺炎と類似点のある新型コロナウイルスの画像特徴 2) 新型コロナウイルスの誤診率は非常に高く, 診断コストも高い。 先駆的な作品もいくつかあるが、どちらも重大なボトルネックを過小評価している。 本報告では, 臨床が胸部X線検査からCOVID-19のスクリーニングを補助する必要がある場合は, 差別的コスト感受性学習(DCSL)を選択すべきである。 DCSLは、きめ細かい分類とコスト感受性学習の両方の利点を兼ね備えている。 まず、DCSLは、深い識別表現を学習する条件中心損失を開発する。 次に、dcslはスコアレベルのコストセンシティブな学習を確立し、covid-19の例を他のクラスに誤分類するコストを適応的に拡大する。 DCSLは非常に柔軟で、どんなディープニューラルネットワークにも適用できます。 我々は,2,239例の胸部X線検査例,239例の新型コロナウイルス感染例,1,000例の細菌またはウイルス性肺炎例,1,000例の健常人を対象に,大規模なマルチクラスデータセットを収集した。 3-class分類に関する広範囲な実験により,本アルゴリズムが最先端アルゴリズムを著しく上回っていることが示された。 精度は97.01%、精度は97%、感度は97.09%、f1-scoreは96.98%である。 これらの結果から、我々のアルゴリズムは、COVID-19の高速な大規模スクリーニングのための効率的なツールとなった。

This paper addresses the new problem of automated screening of coronavirus disease 2019 (COVID-19) based on chest X-rays, which is urgently demanded toward fast stopping the pandemic. However, robust and accurate screening of COVID-19 from chest X-rays is still a globally recognized challenge because of two bottlenecks: 1) imaging features of COVID-19 share some similarities with other pneumonia on chest X-rays, and 2) the misdiagnosis rate of COVID-19 is very high, and the misdiagnosis cost is expensive. While a few pioneering works have made much progress, they underestimate both crucial bottlenecks. In this paper, we report our solution, discriminative cost-sensitive learning (DCSL), which should be the choice if the clinical needs the assisted screening of COVID-19 from chest X-rays. DCSL combines both advantages from fine-grained classification and cost-sensitive learning. Firstly, DCSL develops a conditional center loss that learns deep discriminative representation. Secondly, DCSL establishes score-level cost-sensitive learning that can adaptively enlarge the cost of misclassifying COVID-19 examples into other classes. DCSL is so flexible that it can apply in any deep neural network. We collected a large-scale multi-class dataset comprised of 2,239 chest X-ray examples: 239 examples from confirmed COVID-19 cases, 1,000 examples with confirmed bacterial or viral pneumonia cases, and 1,000 examples of healthy people. Extensive experiments on the three-class classification show that our algorithm remarkably outperforms state-of-the-art algorithms. It achieves an accuracy of 97.01%, a precision of 97%, a sensitivity of 97.09%, and an F1-score of 96.98%. These results endow our algorithm as an efficient tool for the fast large-scale screening of COVID-19.
翻訳日:2022-12-09 05:02:40 公開日:2020-05-21
# スタイルで編集する: GANのローカルセマンティクスを明らかにする

Editing in Style: Uncovering the Local Semantics of GANs ( http://arxiv.org/abs/2004.14367v2 )

ライセンス: Link先を確認
Edo Collins, Raja Bala, Bob Price, Sabine S\"usstrunk(参考訳) 近年,GAN画像合成の品質は飛躍的に向上しているが,出力の制御と条件付けは依然として限られている。 スタイルガンに着目して,局所的,意味的に認識可能な編集を目的とする出力画像に対して簡易かつ効果的な方法を提案する。 これは、スタイルベクトルの新たな操作を通じて、ソースイメージ、同じくGAN出力から要素を借りることによって達成される。 本手法では,外部モデルからの監視も複雑な空間変形操作も必要としない。 代わりに、トレーニング中にスタイルガンによって学習される意味オブジェクトの創発的な乱れに依存する。 意味的な編集は、人間の顔、屋内シーン、猫、車を作るガンで示される。 本手法で生成した編集の局所性とフォトリアリズムを測定し,両者が達成できることを見出す。

While the quality of GAN image synthesis has improved tremendously in recent years, our ability to control and condition the output is still limited. Focusing on StyleGAN, we introduce a simple and effective method for making local, semantically-aware edits to a target output image. This is accomplished by borrowing elements from a source image, also a GAN output, via a novel manipulation of style vectors. Our method requires neither supervision from an external model, nor involves complex spatial morphing operations. Instead, it relies on the emergent disentanglement of semantic objects that is learned by StyleGAN during its training. Semantic editing is demonstrated on GANs producing human faces, indoor scenes, cats, and cars. We measure the locality and photorealism of the edits produced by our method, and find that it accomplishes both.
翻訳日:2022-12-08 13:07:08 公開日:2020-05-21
# 単語予測モデルの言語横断的構文評価

Cross-Linguistic Syntactic Evaluation of Word Prediction Models ( http://arxiv.org/abs/2005.00187v2 )

ライセンス: Link先を確認
Aaron Mueller, Garrett Nicolai, Panayiota Petrou-Zeniou, Natalia Talmina, Tal Linzen(参考訳) ニューラルワード予測モデルは、非文法文と非文法文を高い精度で区別することができると結論付けている。 しかし、これらの研究は主に英語からの単言語的証拠に基づいている。 これらのモデルの構文学習能力が言語によってどのように変化するかを検討するために,単言語・多言語モデルのための構文評価スイート clams (cross-linguistic assessment of models on syntax) を導入する。 CLAMSには、私たちが開発している文法から生成された英語、フランス語、ドイツ語、ヘブライ語、ロシア語に対する主語合意の課題セットが含まれています。 CLAMSを用いてLSTM言語モデルと単言語および多言語BERTの評価を行う。 言語全体では、モノリンガルLSTMはアトラクタなしで依存物に対して高い精度を達成し、一般にオブジェクト相対節間での合意に関する精度は低い。 他の構成では、よりリッチな形態を持つ言語では、合意の精度が概して高かった。 多言語モデルは一般に単言語モデルに劣る。 多言語BERTは、英語では高い構文精度を示したが、他の言語では顕著な欠陥を示した。

A range of studies have concluded that neural word prediction models can distinguish grammatical from ungrammatical sentences with high accuracy. However, these studies are based primarily on monolingual evidence from English. To investigate how these models' ability to learn syntax varies by language, we introduce CLAMS (Cross-Linguistic Assessment of Models on Syntax), a syntactic evaluation suite for monolingual and multilingual models. CLAMS includes subject-verb agreement challenge sets for English, French, German, Hebrew and Russian, generated from grammars we develop. We use CLAMS to evaluate LSTM language models as well as monolingual and multilingual BERT. Across languages, monolingual LSTMs achieved high accuracy on dependencies without attractors, and generally poor accuracy on agreement across object relative clauses. On other constructions, agreement accuracy was generally higher in languages with richer morphology. Multilingual models generally underperformed monolingual models. Multilingual BERT showed high syntactic accuracy on English, but noticeable deficiencies in other languages.
翻訳日:2022-12-07 23:36:57 公開日:2020-05-21
# SentiBERT: 感性セマンティックスのための変換可能なトランスフォーマーベースアーキテクチャ

SentiBERT: A Transferable Transformer-Based Architecture for Compositional Sentiment Semantics ( http://arxiv.org/abs/2005.04114v4 )

ライセンス: Link先を確認
Da Yin, Tao Meng, Kai-Wei Chang(参考訳) 本稿では,感性セマンティクスを効果的にキャプチャするBERTの変種であるSentiBERTを提案する。 このモデルは、文脈化された表現を二分構成構文木に組み込んで意味合成をキャプチャする。 総合的な実験により、SentiBERTはフレーズレベルの感情分類において競争力を発揮することが示された。 さらに,sstのフレーズレベルのアノテーションから学習した感情構成を,感情分類タスクなどの関連タスクと同様に他の感情分析タスクに転送できることを実証する。 さらに,SentiBERTを理解するためのアブレーション研究や設計視覚化手法も実施する。 提案手法は,否定と対照関係を捉え,構成的感情セマンティクスをモデル化する上で,sentibertがベースラインアプローチよりも優れていることを示す。

We propose SentiBERT, a variant of BERT that effectively captures compositional sentiment semantics. The model incorporates contextualized representation with binary constituency parse tree to capture semantic composition. Comprehensive experiments demonstrate that SentiBERT achieves competitive performance on phrase-level sentiment classification. We further demonstrate that the sentiment composition learned from the phrase-level annotations on SST can be transferred to other sentiment analysis tasks as well as related tasks, such as emotion classification tasks. Moreover, we conduct ablation studies and design visualization methods to understand SentiBERT. We show that SentiBERT is better than baseline approaches in capturing negation and the contrastive relation and model the compositional sentiment semantics.
翻訳日:2022-12-05 12:33:07 公開日:2020-05-21
# 類似テキスト検索とランク付けのためのトランスフォーマーに基づく言語モデル

Transformer Based Language Models for Similar Text Retrieval and Ranking ( http://arxiv.org/abs/2005.04588v2 )

ライセンス: Link先を確認
Javed Qadrud-Din, Ashraf Bah Rabiou, Ryan Walker, Ravi Soni, Martin Gajek, Gabriel Pack, Akhil Rangaraj(参考訳) 類似したテキスト検索と長い自然言語クエリによるランキングのためのほとんどのアプローチは、単語が互いに共通しているクエリやレスポンスに依存する。 最近のトランスフォーマーベースのニューラルネットワークモデルのテキスト検索やランキング問題への応用は、非常に有望なものだったが、それでも2段階のプロセスで、まず単語の袋ベースのアプローチで結果の候補を取得し、次にニューラルネットワークトランスフォーマによってランク付けされる。 本稿では,ニューラルトランスフォーマーモデルに類似のテキスト検索とランキングを効果的に適用するための新しいアプローチを提案する。 bag-of-wordsベースのステップを除外することで、クエリに共通するノンストップワードがなくても、結果を正確に検索しランク付けすることができる。 本研究では、変換器(BERT)からの双方向エンコーダ表現を用いて文長テキストのベクトル化表現と、ベクトル近傍検索インデックスを作成する。 我々は、BERTを用いてこのタスクを遂行する、教師なしと教師なしの両方の手法を実証する。

Most approaches for similar text retrieval and ranking with long natural language queries rely at some level on queries and responses having words in common with each other. Recent applications of transformer-based neural language models to text retrieval and ranking problems have been very promising, but still involve a two-step process in which result candidates are first obtained through bag-of-words-based approaches, and then reranked by a neural transformer. In this paper, we introduce novel approaches for effectively applying neural transformer models to similar text retrieval and ranking without an initial bag-of-words-based step. By eliminating the bag-of-words-based step, our approach is able to accurately retrieve and rank results even when they have no non-stopwords in common with the query. We accomplish this by using bidirectional encoder representations from transformers (BERT) to create vectorized representations of sentence-length texts, along with a vector nearest neighbor search index. We demonstrate both supervised and unsupervised means of using BERT to accomplish this task.
翻訳日:2022-12-05 02:05:59 公開日:2020-05-21
# ファジィエントロピーを用いた特徴選択・分類フレームワークの性能最適化

Performance Optimization of a Fuzzy Entropy based Feature Selection and Classification Framework ( http://arxiv.org/abs/2005.04888v2 )

ライセンス: Link先を確認
Zixiao Shen, Xin Chen, Jonathan M. Garibaldi(参考訳) 本稿では,ファジィエントロピーの特徴選択フレームワークをベースとして,フレームワークの重要なコンポーネントを改善するために,異なる手法を実装し,比較した。 これらの方法には、3つの理想ベクトル計算、3つの極大類似性分類器、3つのファジィエントロピー関数の組み合わせが含まれる。 ファジィエントロピー値に基づく特徴除去順序も比較した。 提案手法は,3つの公開バイオメディカルデータセットを用いて評価した。 実験から,特徴選択のための理想ベクトル,類似度分類器,ファジィエントロピー関数の最適化組み合わせを結論付けた。 最適化されたフレームワークは他の6つの古典的なフィルタベースの特徴選択手法と比較された。 提案手法は,相関法とレリーフ法とともに,トップパフォーマーの1つに位置づけられた。 さらに,提案手法は,特徴が徐々に取り除かれた場合に,3つのデータセットに対して最も安定した性能を達成した。 これは他の比較方法よりも優れた機能ランキングパフォーマンスを示している。

In this paper, based on a fuzzy entropy feature selection framework, different methods have been implemented and compared to improve the key components of the framework. Those methods include the combinations of three ideal vector calculations, three maximal similarity classifiers and three fuzzy entropy functions. Different feature removal orders based on the fuzzy entropy values were also compared. The proposed method was evaluated on three publicly available biomedical datasets. From the experiments, we concluded the optimized combination of the ideal vector, similarity classifier and fuzzy entropy function for feature selection. The optimized framework was also compared with other six classical filter-based feature selection methods. The proposed method was ranked as one of the top performers together with the Correlation and ReliefF methods. More importantly, the proposed method achieved the most stable performance for all three datasets when the features being gradually removed. This indicates a better feature ranking performance than the other compared methods.
翻訳日:2022-12-04 19:34:44 公開日:2020-05-21
# ファジィ集合を用いた特徴選択のための軽量結合法

A Novel Weighted Combination Method for Feature Selection using Fuzzy Sets ( http://arxiv.org/abs/2005.05003v2 )

ライセンス: Link先を確認
Zixiao Shen, Xin Chen, Jonathan M. Garibaldi(参考訳) 本稿では,ブートストラップとファジィセットを用いた新しい重み付き組合せ特徴選択法を提案する。 提案手法は主に,ブートストラップを用いたファジィ集合生成,ファジィ集合の重み付け,デファジィ化に基づく特徴ランキングの3つのプロセスからなる。 提案手法は、4つの最先端特徴選択法を組み合わせて実装し、5倍のクロスバリデーションを用いた3つの公開バイオメディカルデータセットに基づく性能評価を行った。 提案手法は,特徴選択結果に基づいて,評価されたすべてのデータセットに対して,個々の特徴選択手法の最も優れた分類精度を作成した。 さらに, 標準偏差とピアソン相関を適用し, 手法の安定性を測定した。 顕著なことに,本手法は,データセットにばらつきとサイズ縮小を導入した場合の4つの手法に比べて,安定性が著しく向上した。

In this paper, we propose a novel weighted combination feature selection method using bootstrap and fuzzy sets. The proposed method mainly consists of three processes, including fuzzy sets generation using bootstrap, weighted combination of fuzzy sets and feature ranking based on defuzzification. We implemented the proposed method by combining four state-of-the-art feature selection methods and evaluated the performance based on three publicly available biomedical datasets using five-fold cross validation. Based on the feature selection results, our proposed method produced comparable (if not better) classification accuracies to the best of the individual feature selection methods for all evaluated datasets. More importantly, we also applied standard deviation and Pearson's correlation to measure the stability of the methods. Remarkably, our combination method achieved significantly higher stability than the four individual methods when variations and size reductions were introduced to the datasets.
翻訳日:2022-12-04 19:34:22 公開日:2020-05-21
# 単純でスケーラブルで安定した変分深いクラスタリング

Simple, Scalable, and Stable Variational Deep Clustering ( http://arxiv.org/abs/2005.08047v2 )

ライセンス: Link先を確認
Lele Cao, Sahar Asadi, Wenfei Zhu, Christian Schmidli, Michael Sj\"oberg(参考訳) ディープクラスタリング(dc)は、教師なしクラスタリングの最先端技術となっている。 原則としてDCは、基盤となるクラスタと非構造化データセットから直接潜在表現を共同で学習する、教師なしのさまざまなメソッドを表現している。 しかし、dc方式は運用コストが高く、スケーラビリティが低く、不安定な結果をもたらすため、一般的にはあまり適用されない。 本稿では, 産業応用の文脈において, 8つの経験的基準を用いていくつかのDC変種を評価した。 次に、単純さ、スケーラビリティ、安定性を除いて、これらの基準をほぼ満たしているため、変分深層クラスタリング(VDC)手法に焦点を合わせることにしました。 初期$\gamma$-training, periodic $\beta$-annealing, mini-batch GMM (Gaussian Mixed Model) 初期化, inverse min-max transform の4つのアルゴリズム改良を提案する。 また,これらの改良を取り入れたクラスタリングアルゴリズムS3VDC(単純,スケーラブル,安定なVDC)を提案する。 実験の結果,S3VDCは,基礎的真理ラベルのない大規模産業データセットとベンチマークタスクの両面において,最先端の処理性能を上回っていることがわかった。 また,S3VDCのユーザビリティと解釈性についても分析を行った。

Deep clustering (DC) has become the state-of-the-art for unsupervised clustering. In principle, DC represents a variety of unsupervised methods that jointly learn the underlying clusters and the latent representation directly from unstructured datasets. However, DC methods are generally poorly applied due to high operational costs, low scalability, and unstable results. In this paper, we first evaluate several popular DC variants in the context of industrial applicability using eight empirical criteria. We then choose to focus on variational deep clustering (VDC) methods, since they mostly meet those criteria except for simplicity, scalability, and stability. To address these three unmet criteria, we introduce four generic algorithmic improvements: initial $\gamma$-training, periodic $\beta$-annealing, mini-batch GMM (Gaussian mixture model) initialization, and inverse min-max transform. We also propose a novel clustering algorithm S3VDC (simple, scalable, and stable VDC) that incorporates all those improvements. Our experiments show that S3VDC outperforms the state-of-the-art on both benchmark tasks and a large unstructured industrial dataset without any ground truth label. In addition, we analytically evaluate the usability and interpretability of S3VDC.
翻訳日:2022-12-02 12:58:44 公開日:2020-05-21
# Batch Spectral Regularization を用いたクロスドメインFew-Shot分類のための特徴変換アンサンブルモデル

Feature Transformation Ensemble Model with Batch Spectral Regularization for Cross-Domain Few-Shot Classification ( http://arxiv.org/abs/2005.08463v3 )

ライセンス: Link先を確認
Bingyu Liu, Zhen Zhao, Zhenpeng Li, Jianan Jiang, Yuhong Guo, Jieping Ye(参考訳) 本稿では,cd-fsl(cross-domain few-shot learning)課題に対するバッチスペクトル正規化を伴う特徴変換アンサンブルモデルを提案する。 具体的には,特徴抽出ネットワークの後に多様な特徴変換を行うことで,アンサンブル予測モデルを構築することを提案する。 モデルの各分岐予測ネットワークでは、バッチスペクトル正規化項を用いて、事前学習中の特徴行列の特異値の抑制を行い、モデルの一般化能力を向上させる。 提案されたモデルはターゲットドメイン内で微調整され、少数ショットの分類に対処できる。 さらに,ラベル伝搬,エントロピー最小化,データ拡張を応用して,対象領域におけるラベルデータの不足を軽減する。 対象領域が4つあるCD-FSLベンチマークタスクについて実験を行い,提案モデルの有効性を実証した。

In this paper, we propose a feature transformation ensemble model with batch spectral regularization for the Cross-domain few-shot learning (CD-FSL) challenge. Specifically, we proposes to construct an ensemble prediction model by performing diverse feature transformations after a feature extraction network. On each branch prediction network of the model we use a batch spectral regularization term to suppress the singular values of the feature matrix during pre-training to improve the generalization ability of the model. The proposed model can then be fine tuned in the target domain to address few-shot classification. We also further apply label propagation, entropy minimization and data augmentation to mitigate the shortage of labeled data in target domains. Experiments are conducted on a number of CD-FSL benchmark tasks with four target domains and the results demonstrate the superiority of our proposed model.
翻訳日:2022-12-01 23:48:49 公開日:2020-05-21
# 低照度画像強調のための注意型ネットワーク

Attention-based network for low-light image enhancement ( http://arxiv.org/abs/2005.09829v2 )

ライセンス: Link先を確認
Cheng Zhang, Qingsen Yan, Yu zhu, Xianjun Li, Jinqiu Sun, Yanning Zhang(参考訳) 低い光条件下で撮影された画像は、しばしば明るさと悪名高いノイズに苦しむ。 したがって、低光度画像強調はコンピュータビジョンの重要な課題である。 このタスクには様々な手法が提案されているが、これらの手法は極端に低照度環境で失敗し、入力画像のノイズを増幅する。 そこで,本論文では,センサデータから高画質の低光度画像を生成するための注意型ニューラルネットワークを提案する。 具体的には,まず注意戦略(チャネル注意と空間注意モジュール)を用いて,望ましくない彩色収差と雑音を抑制する。 チャネルアテンションモジュールは、冗長な色特徴を洗練するためにネットワークをガイドする。 空間的注意モジュールは、画像内の非局所的相関を利用して雑音化に焦点を当てる。 さらに,従来の特徴から有用な情報を適応的に選択する,逆シャッフル層と呼ばれる新しいプーリング層を提案する。 広範にわたる実験は、特に低光度画像が激しいノイズを持つ場合において、強調における色収差やノイズアーティファクトの抑制の観点から、提案ネットワークの優位性を示す。

The captured images under low light conditions often suffer insufficient brightness and notorious noise. Hence, low-light image enhancement is a key challenging task in computer vision. A variety of methods have been proposed for this task, but these methods often failed in an extreme low-light environment and amplified the underlying noise in the input image. To address such a difficult problem, this paper presents a novel attention-based neural network to generate high-quality enhanced low-light images from the raw sensor data. Specifically, we first employ attention strategy (i.e. channel attention and spatial attention modules) to suppress undesired chromatic aberration and noise. The channel attention module guides the network to refine redundant colour features. The spatial attention module focuses on denoising by taking advantage of the non-local correlation in the image. Furthermore, we propose a new pooling layer, called inverted shuffle layer, which adaptively selects useful information from previous features. Extensive experiments demonstrate the superiority of the proposed network in terms of suppressing the chromatic aberration and noise artifacts in enhancement, especially when the low-light image has severe noise.
翻訳日:2022-12-01 05:57:01 公開日:2020-05-21
# Tor Darknetにおける注目コンテンツ分類

Classifying Suspicious Content in Tor Darknet ( http://arxiv.org/abs/2005.10086v2 )

ライセンス: Link先を確認
Eduardo Fidalgo Fernandez, Roberto Andr\'es Vasco Carofilis, Francisco J\'a\~nez Martino and Pablo Blanco Medina(参考訳) 法執行機関の任務の一つはダークネットで犯罪行為の証拠を見つけることである。 しかし、何千ものドメインを訪れて違法行為を含む視覚情報を見つけるには、かなりの時間とリソースが必要となる。 さらに、画像の背景は分類を行う際に課題となることがある。 本稿では,関心の対象に属さない画素レベルで,非重要な特徴をフィルタリングする戦略であるセマンティック・アテンション・キーポイント・フィルタリング(Semantic Attention Keypoint Filtering)を用いたTor Darknet画像の自動分類について検討する。 我々は、mobilenet v1、resnet50、bovwといったcnn機能に対応するカスタムtorイメージデータセットでsakfを評価し、87.98%の精度で、他のすべてのアプローチを上回った。

One of the tasks of law enforcement agencies is to find evidence of criminal activity in the Darknet. However, visiting thousands of domains to locate visual information containing illegal acts manually requires a considerable amount of time and resources. Furthermore, the background of the images can pose a challenge when performing classification. To solve this problem, in this paper, we explore the automatic classification Tor Darknet images using Semantic Attention Keypoint Filtering, a strategy that filters non-significant features at a pixel level that do not belong to the object of interest, by combining saliency maps with Bag of Visual Words (BoVW). We evaluated SAKF on a custom Tor image dataset against CNN features: MobileNet v1 and Resnet50, and BoVW using dense SIFT descriptors, achieving a result of 87.98% accuracy and outperforming all other approaches.
翻訳日:2022-12-01 05:40:09 公開日:2020-05-21
# Torドメイン認識における知覚ハッシュの適用

Perceptual Hashing applied to Tor domains recognition ( http://arxiv.org/abs/2005.10090v2 )

ライセンス: Link先を確認
Rubel Biswas, Roberto A. Vasco-Carofilis, Eduardo Fidalgo Fernandez, Francisco J\'a\~nez Martino and Pablo Blanco Medina(参考訳) torダークネットは、サイバーセキュリティ機関が監視する様々な種類の違法コンテンツをホストしている。 しかし、手動でTorコンテンツを分類するのは遅く、エラーを起こしやすい。 このタスクを支援するために、スクリーンショットでドメインを自動的に分類する新しい知覚的ハッシュ法であるF-DNS( Frequency-Dominant Neighborhood Structure)を導入する。 まず,様々なコンテンツ保存操作対象の画像を用いたF-DNSの評価を行った。 原画像と比較し,他の最先端法,特に回転の場合よりも良好な相関係数を得た。 次に、アクティブなTorサービスドメインのスクリーンショット付きデータセットであるDarknet Usage Service Images-2K(DUSI-2K)を用いて、Torドメインの分類にF-DNSを適用した。 最後に,画像分類手法と最先端ハッシュ法に対するF-DNSの性能を測定した。 提案手法はTor画像の98.75%の精度を達成し,他の手法を上回った。

The Tor darknet hosts different types of illegal content, which are monitored by cybersecurity agencies. However, manually classifying Tor content can be slow and error-prone. To support this task, we introduce Frequency-Dominant Neighborhood Structure (F-DNS), a new perceptual hashing method for automatically classifying domains by their screenshots. First, we evaluated F-DNS using images subject to various content preserving operations. We compared them with their original images, achieving better correlation coefficients than other state-of-the-art methods, especially in the case of rotation. Then, we applied F-DNS to categorize Tor domains using the Darknet Usage Service Images-2K (DUSI-2K), a dataset with screenshots of active Tor service domains. Finally, we measured the performance of F-DNS against an image classification approach and a state-of-the-art hashing method. Our proposal obtained 98.75% accuracy in Tor images, surpassing all other methods compared.
翻訳日:2022-12-01 05:39:52 公開日:2020-05-21
# データ合成とファジィ類似性を用いた特徴選択のための新しいメタ学習フレームワーク

A Novel Meta Learning Framework for Feature Selection using Data Synthesis and Fuzzy Similarity ( http://arxiv.org/abs/2005.09856v2 )

ライセンス: Link先を確認
Zixiao Shen, Xin Chen, Jonathan M. Garibaldi(参考訳) 本稿では,ファジィ類似性に基づく特徴選択(fs)のための新しいメタ学習フレームワークを提案する。 提案手法は、任意のデータセットに対して、4つの候補FSメソッドから最高のFSメソッドを推奨することを目的としている。 これはまず、データ合成を使用して大規模なトレーニングデータリポジトリを構築することで実現される。 次に、トレーニングデータセットの特徴を表す6つのメタ特徴を抽出する。 トレーニングデータセット毎に最適なFSメソッドがメタラベルとして使用される。 メタ特徴と対応するメタラベルは、ファジィ類似度尺度に基づくフレームワークを使用して分類モデルのトレーニングに使用される。 最後に、トレーニングされたモデルは、与えられた未確認データセットに対して最も適切なFSメソッドを推奨するために使用される。 提案手法は実世界の8つの公開データセットに基づいて評価した。 5つのデータセットのベストメソッドと1つのデータセットの2番目のベストメソッドをうまく推奨し、4つのFSメソッドのどれよりも優れていた。 また,提案手法はアルゴリズム選択に計算効率が高く,特徴選択プロセスに要する時間も不要である。 そこで本研究では,任意の新しいデータセットに対して,どの特徴選択方法を効果的に推奨する新しい手法を提案する。

This paper presents a novel meta learning framework for feature selection (FS) based on fuzzy similarity. The proposed method aims to recommend the best FS method from four candidate FS methods for any given dataset. This is achieved by firstly constructing a large training data repository using data synthesis. Six meta features that represent the characteristics of the training dataset are then extracted. The best FS method for each of the training datasets is used as the meta label. Both the meta features and the corresponding meta labels are subsequently used to train a classification model using a fuzzy similarity measure based framework. Finally the trained model is used to recommend the most suitable FS method for a given unseen dataset. This proposed method was evaluated based on eight public datasets of real-world applications. It successfully recommended the best method for five datasets and the second best method for one dataset, which outperformed any of the four individual FS methods. Besides, the proposed method is computationally efficient for algorithm selection, leading to negligible additional time for the feature selection process. Thus, the paper contributes a novel method for effectively recommending which feature selection method to use for any new given dataset.
翻訳日:2022-12-01 04:47:57 公開日:2020-05-21
# Q-NAV:水中無線ネットワークにおける強化学習に基づくNAV設定手法

Q-NAV: NAV Setting Method based on Reinforcement Learning in Underwater Wireless Networks ( http://arxiv.org/abs/2005.13521v1 )

ライセンス: Link先を確認
Seok-Hyeon Park, Ohyun Jo(参考訳) 水中の資源探索や海洋探検、環境研究において、水中での通信の需要は著しく増加しているが、水中環境の特徴から、無線通信には多くの問題がある。 特に、水中無線ネットワークでは、ノード間の距離によって避けられない遅延時間と空間的不平等が発生する。 これらの問題を解決するために,ALOHA-Qに基づく新しい解を提案する。 提案手法はランダムなNAV値を用いる。 環境はコミュニケーションの成功または失敗を通じて報奨を受けます。 その後、報酬からNAV値を設定する環境。 このモデルは、水中無線ネットワークにおけるエネルギーと計算資源の使用を最小化し、強烈な学習を通じてNAV値を学び、設定する。 シミュレーションの結果,NAV値は環境に適応し,環境に最適な値を選択することが可能であり,不必要な遅延時間や空間不平等を解消できることがわかった。 シミュレーションの結果、NAV時間はオリジナルのNAVと比較して17.5%減少した。

The demand on the underwater communications is extremely increasing in searching for underwater resources, marine expedition, or environmental researches, yet there are many problems with the wireless communications because of the characteristics of the underwater environments. Especially, with the underwater wireless networks, there happen inevitable delay time and spacial inequality due to the distances between the nodes. To solve these problems, this paper suggests a new solution based on ALOHA-Q. The suggested method use random NAV value. and Environments take reward through communications success or fail. After then, The environments setting NAV value from reward. This model minimizes usage of energy and computing resources under the underwater wireless networks, and learns and setting NAV values through intense learning. The results of the simulations show that NAV values can be environmentally adopted and select best value to the circumstances, so the problems which are unnecessary delay times and spacial inequality can be solved. Result of simulations, NAV time decreasing 17.5% compared with original NAV.
翻訳日:2022-12-01 00:12:36 公開日:2020-05-21
# 深層学習による単一時間点画像による開裂期胚発生の予測

Deep learning mediated single time-point image-based prediction of embryo developmental outcome at the cleavage stage ( http://arxiv.org/abs/2006.08346v1 )

ライセンス: Link先を確認
Manoj Kumar Kanakasabapathy, Prudhvi Thirumalaraju, Charles L Bormann, Raghav Gupta, Rohan Pooniwala, Hemanth Kandula, Irene Souter, Irene Dimitriadis, Hadi Shafiee(参考訳) 従来の体外受精の慣行では、胚は発生の開裂期か胚盤胞期のいずれかに移される。 特に開裂段階の移植は、比較的予後の悪い患者や、胚の胎生期における発達不全の確率が高い、資源制限された環境での妊婦中心の患者にとって有益である。 しかし、切断段階における胚選択の大きな制限の1つは、発達の結果を予測するために、非常に少ない数の手動で識別可能な特徴が利用できることである。 タイムラプスイメージングシステムは可能な解決策として提案されているが、コストが抑えられ、重厚で高価なハードウェアが必要であり、労働集約的である。 畳み込みニューラルネットワーク(CNN)の進歩は、多くの医学的および非医学的対象カテゴリの正確な分類を提供するために利用されてきた。 本稿では, 遺伝的アルゴリズムと併用した訓練CNNを用いて, 切断段階におけるヒト胚の分類と選択の自動化システムについて報告する。 このシステムでは,70時間後,70時間後の胚胚を選抜し,最終的に64%の精度で最高品質の胚盤胞に成長し,発生能の高い胚を同定する能力を上回った。 このようなシステムは、資源不足と資源豊富な設定の両方において、胚学者を正確で一貫した胚評価に活用することで、IVFの手順に大きな影響を与える可能性がある。

In conventional clinical in-vitro fertilization practices embryos are transferred either at the cleavage or blastocyst stages of development. Cleavage stage transfers, particularly, are beneficial for patients with relatively poor prognosis and at fertility centers in resource-limited settings where there is a higher chance of developmental failure in embryos in-vitro. However, one of the major limitations of embryo selections at the cleavage stage is the availability of very low number of manually discernable features to predict developmental outcomes. Although, time-lapse imaging systems have been proposed as possible solutions, they are cost-prohibitive and require bulky and expensive hardware, and labor-intensive. Advances in convolutional neural networks (CNNs) have been utilized to provide accurate classifications across many medical and non-medical object categories. Here, we report an automated system for classification and selection of human embryos at the cleavage stage using a trained CNN combined with a genetic algorithm. The system selected the cleavage stage embryo at 70 hours post insemination (hpi) that ultimately developed into top-quality blastocyst at 70 hpi with 64% accuracy, outperforming the abilities of embryologists in identifying embryos with the highest developmental potential. Such systems can have a significant impact on IVF procedures by empowering embryologists for accurate and consistent embryo assessment in both resource-poor and resource-rich settings.
翻訳日:2022-12-01 00:12:23 公開日:2020-05-21
# 限定データシナリオにおける言語間マルチスピーカー音声合成

Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario ( http://arxiv.org/abs/2005.10441v1 )

ライセンス: Link先を確認
Zexin Cai, Yaogen Yang, Ming Li(参考訳) 複数の話者と複数の言語に対する音声を1つのテキスト音声システムでモデル化することは、長い間困難であった。 本稿では,各言語に限られたデータが存在する場合に,多言語多話者音声合成を実現するため,Tacotron2の拡張を提案する。 単言語話者のための英語とマンダリンの間で,コードスイッチケースを含む言語間合成を実現する。 2つの言語は入力のための同じ音韻表現を共有し、言語属性と話者アイデンティティはそれぞれ言語トークンと話者埋め込みによって独立に制御される。 さらに,訓練中のバイリンガルデータセットの有無に関わらず,クロスリンガル合成におけるモデルの性能について検討した。 バイリンガルデータセットでは、モデルが話す言語に関するすべての話者に対して高忠実なスピーチを生成できるだけでなく、非母国語言語に関する単言語話者のためのアクセント付き、しかし、流動的で知性に富んだスピーチを生成できる。 例えば、マンダリン話者は英語を話すことができる。 さらに、バイリンガルデータセットでトレーニングされたモデルは、結果に示すように、テキストから音声へのコード切り換えに堅牢であり、サンプルも提供しています。 https://caizexin.github.io/mlms-syn-samples/index.html}

Modeling voices for multiple speakers and multiple languages in one text-to-speech system has been a challenge for a long time. This paper presents an extension on Tacotron2 to achieve bilingual multispeaker speech synthesis when there are limited data for each language. We achieve cross-lingual synthesis, including code-switching cases, between English and Mandarin for monolingual speakers. The two languages share the same phonemic representations for input, while the language attribute and the speaker identity are independently controlled by language tokens and speaker embeddings, respectively. In addition, we investigate the model's performance on the cross-lingual synthesis, with and without a bilingual dataset during training. With the bilingual dataset, not only can the model generate high-fidelity speech for all speakers concerning the language they speak, but also can generate accented, yet fluent and intelligible speech for monolingual speakers regarding non-native language. For example, the Mandarin speaker can speak English fluently. Furthermore, the model trained with bilingual dataset is robust for code-switching text-to-speech, as shown in our results and provided samples.{https://caizexin.github.io/mlms-syn-samples/index.html}.
翻訳日:2022-12-01 00:11:38 公開日:2020-05-21
# ベートーヴェン第10交響曲へのアプローチ

An approach to Beethoven's 10th Symphony ( http://arxiv.org/abs/2005.10539v1 )

ライセンス: Link先を確認
Paula Mu\~noz-Lago, Gonzalo M\'endez(参考訳) ルートヴィヒ・ファン・ベートーヴェン(ludwig van beethoven)は、1799年から1825年にかけて交響曲を作曲した。 本論文は、彼の作品に含まれる膨大なデータを取り扱うため、シンボリックデータから構成モデルのパターンを抽出し、最後の交響曲第10番となるものを生成する可能性を検討することを目的としている。 ニューラルネットワークモデルは、Long Short-Therm Memory (LSTM) ニューラルネットワークに基づいて構築されている。 モデルをトレーニングした後、入力データと結果を比較し、得られたトレーニングデータに基づいて生成された出力の差を確立することにより、生成された音楽を分析する。 出力の構造は、ネットワークを訓練するのに使用される交響曲に強く依存する。

Ludwig van Beethoven composed his symphonies between 1799 and 1825, when he was writing his Tenth symphony. As we dispose of a great amount of data belonging to his work, the purpose of this paper is to investigate the possibility of extracting patterns on his compositional model from symbolic data and generate what would have been his last symphony, the Tenth. A neural network model has been built based on the Long Short-Therm Memory (LSTM) neural networks. After training the model, the generated music has been analysed by comparing the input data with the results, and establishing differences between the generated outputs based on the training data used to obtain them. The structure of the outputs strongly depends on the symphonies used to train the network.
翻訳日:2022-12-01 00:07:06 公開日:2020-05-21
# 大規模MECシステムのための分散リソーススケジューリング:模倣高速化による深層強化学習のマルチエージェント化

Distributed Resource Scheduling for Large-Scale MEC Systems: A Multi-Agent Ensemble Deep Reinforcement Learning with Imitation Acceleration ( http://arxiv.org/abs/2005.12364v1 )

ライセンス: Link先を確認
Feibo Jiang and Li Dong and Kezhi Wang and Kun Yang and Cunhua Pan(参考訳) 我々は,大規模モバイルエッジコンピューティング(MEC)システムにおいて,IoTD(Internet of Things Device)のタスク遅延とエネルギー消費の総和を最小化するために,分散リソーススケジューリングの最適化を検討する。 この問題に対処するために,各MECサーバにデプロイされた各エージェントによるグローバル情報と分散意思決定に依存する集中型トレーニングを含む分散インテリジェントリソーススケジューリング(DIRS)フレームワークを提案する。 具体的には、まず、状態空間を分割することで各エージェントの全体的なニューラルネットワーク構造を簡素化し、全てのエージェントの判断を組み合わせることで単一のエージェントの性能を向上させることができる、新しいマルチエージェントアンサンブル支援分散強化学習(DRL)アーキテクチャを導入する。 第二に,提案する dirs フレームワークの探索能力を高めるために,新しい l\'evy 飛行探索法を用いて, 最適に近い状態-動作対を求める。 最後に,実演データからプロの体験を学習することで,提案フレームワークの学習過程を著しく高速化する,すべてのエージェントを事前訓練するための模倣促進スキームを提案する。 提案するdirsフレームワークが効率的であり,既存のベンチマーク手法を上回っていることを示すために,広範なシミュレーションを行った。

We consider the optimization of distributed resource scheduling to minimize the sum of task latency and energy consumption for all the Internet of things devices (IoTDs) in a large-scale mobile edge computing (MEC) system. To address this problem, we propose a distributed intelligent resource scheduling (DIRS) framework, which includes centralized training relying on the global information and distributed decision making by each agent deployed in each MEC server. More specifically, we first introduce a novel multi-agent ensemble-assisted distributed deep reinforcement learning (DRL) architecture, which can simplify the overall neural network structure of each agent by partitioning the state space and also improve the performance of a single agent by combining decisions of all the agents. Secondly, we apply action refinement to enhance the exploration ability of the proposed DIRS framework, where the near-optimal state-action pairs are obtained by a novel L\'evy flight search. Finally, an imitation acceleration scheme is presented to pre-train all the agents, which can significantly accelerate the learning process of the proposed framework through learning the professional experience from a small amount of demonstration data. Extensive simulations are conducted to demonstrate that the proposed DIRS framework is efficient and outperforms the existing benchmark schemes.
翻訳日:2022-12-01 00:06:55 公開日:2020-05-21
# 有限集団のプロファイルを外挿する

Extrapolating the profile of a finite population ( http://arxiv.org/abs/2005.10561v1 )

ライセンス: Link先を確認
Soham Jana, Yury Polyanskiy and Yihong Wu(参考訳) 我々は経験ベイズにおける原型的問題を研究する。 すなわち、$k$の個人からなる集団は、それぞれ$k$のタイプに属する(いくつかの型は空である)。 構造的な制限がなければ、m = o(k)$ の小さな(ランダムな)サブサンプルしか観測していない全人口の構成を知ることは不可能である。 それにもかかわらず、$m =\omega(k/\log k)$ の部分線型状態において、各タイプのサイズの経験的分布として定義される集団の全体の変動を一貫して推定することができ、その集団の多くの対称特性を決定することができる。 また、任意の定数 $c$ に対して $m=c k$ の線形レジームにおいて、最適レートは $\theta(1/\log k)$ であることが証明される。 我々の推定器は、Wolfowitzの最小距離法に基づいており、これは、長さ$k$の線形プログラム(LP)を解くことを必要とする。 最小距離推定器のリスクを同時に特徴づけ、その最小値の最適性を証明した単一の無限次元LPが存在することを示す。 このLPを複素解析法を用いて評価することにより, 鋭収束率を得る。

We study a prototypical problem in empirical Bayes. Namely, consider a population consisting of $k$ individuals each belonging to one of $k$ types (some types can be empty). Without any structural restrictions, it is impossible to learn the composition of the full population having observed only a small (random) subsample of size $m = o(k)$. Nevertheless, we show that in the sublinear regime of $m =\omega(k/\log k)$, it is possible to consistently estimate in total variation the \emph{profile} of the population, defined as the empirical distribution of the sizes of each type, which determines many symmetric properties of the population. We also prove that in the linear regime of $m=c k$ for any constant $c$ the optimal rate is $\Theta(1/\log k)$. Our estimator is based on Wolfowitz's minimum distance method, which entails solving a linear program (LP) of size $k$. We show that there is a single infinite-dimensional LP whose value simultaneously characterizes the risk of the minimum distance estimator and certifies its minimax optimality. The sharp convergence rate is obtained by evaluating this LP using complex-analytic techniques.
翻訳日:2022-12-01 00:06:18 公開日:2020-05-21
# 地域差分プライバシー下における漁業情報

Fisher information under local differential privacy ( http://arxiv.org/abs/2005.10783v1 )

ライセンス: Link先を確認
Leighton Pate Barnes, Wei-Ning Chen, and Ayfer Ozgur(参考訳) 我々は,統計サンプルからのフィッシャー情報が,局所的微分プライバシー制約下でのプライバシパラメータ$\varepsilon$でどのようにスケールできるかを記述するデータ処理不等式を開発した。 これらの境界は、統計モデルのスコアの分布に関する一般的な条件の下で有効であり、$\varepsilon$への依存が線型、二次、指数的である条件を解明する。 これらの不等式が、ガウス的位置モデルと全てのプライバシーレベルにおける離散分布推定の両方に対して最適な下限を導くことを示す。 さらに、これらの不等式をsparse bernoulliモデルに適用し、オーダーマッチの2乗の$\ell^2$エラーを持つプライバシメカニズムと推定子を示します。

We develop data processing inequalities that describe how Fisher information from statistical samples can scale with the privacy parameter $\varepsilon$ under local differential privacy constraints. These bounds are valid under general conditions on the distribution of the score of the statistical model, and they elucidate under which conditions the dependence on $\varepsilon$ is linear, quadratic, or exponential. We show how these inequalities imply order optimal lower bounds for private estimation for both the Gaussian location model and discrete distribution estimation for all levels of privacy $\varepsilon>0$. We further apply these inequalities to sparse Bernoulli models and demonstrate privacy mechanisms and estimators with order-matching squared $\ell^2$ error.
翻訳日:2022-12-01 00:05:58 公開日:2020-05-21
# 機械学習ソフトウェアのためのサポーザブルなテストデータ生成

Unsupposable Test-data Generation for Machine-learned Software ( http://arxiv.org/abs/2005.10442v1 )

ライセンス: Link先を確認
Naoto Sato, Hironobu Kuruma, and Hideto Ogawa(参考訳) 機械学習によるソフトウェア開発では、既存のデータセットの一部をテストデータとして使用して、トレーニングされたモデルを評価する。 しかし、既存のデータとは異なる特性を持つデータが入力された場合、モデルは常に期待通りに振る舞うとは限らない。 したがって、モデルの振る舞いをより厳密に確認するには、既存のデータとは異なるデータを作成し、そのデータでモデルをテストする必要がある。 テスト対象のデータには、開発者が推測できるデータ(サポーザブルデータ)だけでなく、想定できないデータ(サポーザブルデータ)も含まれている。 モデルの振舞いを厳密に確認するには、可能な限り予測不能なデータを作成することが重要である。 そこで本研究では,モデル開発者やテスタに提案できないデータを提供するための"unsupposable test-data generation"(utg)という手法を提案する。 UTGは可変オートエンコーダ(VAE)を使用して、供給不能なデータを生成する。 予測不能データは、vaeの事前分布において、低発生確率の潜在値を取得し、取得した潜在値をデコーダに入力することにより生成される。 デコーダが生成したデータにアンサポーザブルデータが含まれている場合、開発者はデータを参照して新しいアンサポーザブル機能を認識することができる。 これらのサポーザブルな機能に基づいて、開発者は同じ機能を持つ他のサポーザブルなデータを作成することができる。 提案されたUTGは、MNISTデータセットとHouse Sales Priceデータセットに適用された。 その結果,UTGの有効性が示された。

As for software development by machine learning, a trained model is evaluated by using part of an existing dataset as test data. However, if data with characteristics that differ from the existing data is input, the model does not always behave as expected. Accordingly, to confirm the behavior of the model more strictly, it is necessary to create data that differs from the existing data and test the model with that different data. The data to be tested includes not only data that developers can suppose (supposable data) but also data they cannot suppose (unsupposable data). To confirm the behavior of the model strictly, it is important to create as much unsupposable data as possible. In this study, therefore, a method called "unsupposable test-data generation" (UTG)---for giving suggestions for unsupposable data to model developers and testers---is proposed. UTG uses a variational autoencoder (VAE) to generate unsupposable data. The unsupposable data is generated by acquiring latent values with low occurrence probability in the prior distribution of the VAE and inputting the acquired latent values into the decoder. If unsupposable data is included in the data generated by the decoder, the developer can recognize new unsupposable features by referring to the data. On the basis of those unsupposable features, the developer will be able to create other unsupposable data with the same features. The proposed UTG was applied to the MNIST dataset and the House Sales Price dataset. The results demonstrate the feasibility of UTG.
翻訳日:2022-12-01 00:05:43 公開日:2020-05-21
# セルフ・アテインティブ・マルチ・アドバーサル・ネットワークを用いた逐次レコメンデーション

Sequential Recommendation with Self-Attentive Multi-Adversarial Network ( http://arxiv.org/abs/2005.10602v1 )

ライセンス: Link先を確認
Ruiyang Ren, Zhaoyang Liu, Yaliang Li, Wayne Xin Zhao, Hui Wang, Bolin Ding, Ji-Rong Wen(参考訳) 近年,シーケンシャルレコメンデーションの課題において,ディープラーニングが大きな進歩を遂げている。 既存のニューラルネットワークシーケンシャルリコメンデータは、通常、最大確率推定(mle)で訓練された生成的方法を採用する。 コンテキスト情報(ファクターと呼ばれる)が関与する場合、各要因が最終レコメンデーションのパフォーマンスにいつどのように影響するかを分析するのは難しい。 そこで我々は,新たな視点を採り,逐次的推薦に敵対的学習を導入する。 本稿では,コンテキスト情報が逐次レコメンデーションに与える影響を明示的にモデル化する多要素生成逆ネットワーク(mfgan)を提案する。 特に,提案するmfganには2種類のモジュールがある。ユーザ動作シーケンスを入力として次の項目を推薦するトランスフォーマティブ・ジェネレータと,生成したサブシーケンスを異なる要因の観点から評価する複数の因子特異的識別器である。 パラメータを学習するために、古典的なポリシー勾配法を採用し、識別器の報酬信号を用いて生成器の学習を誘導する。 当社のフレームワークは,複数種類の因子情報を組み込む柔軟性があり,各因子が推奨決定にどのように貢献するかを時間とともに追跡することができる。 実世界の3つのデータセットで実施した大規模な実験は,提案手法よりも有効性と解釈可能性の観点から,提案手法の優位性を実証している。

Recently, deep learning has made significant progress in the task of sequential recommendation. Existing neural sequential recommenders typically adopt a generative way trained with Maximum Likelihood Estimation (MLE). When context information (called factor) is involved, it is difficult to analyze when and how each individual factor would affect the final recommendation performance. For this purpose, we take a new perspective and introduce adversarial learning to sequential recommendation. In this paper, we present a Multi-Factor Generative Adversarial Network (MFGAN) for explicitly modeling the effect of context information on sequential recommendation. Specifically, our proposed MFGAN has two kinds of modules: a Transformer-based generator taking user behavior sequences as input to recommend the possible next items, and multiple factor-specific discriminators to evaluate the generated sub-sequence from the perspectives of different factors. To learn the parameters, we adopt the classic policy gradient method, and utilize the reward signal of discriminators for guiding the learning of the generator. Our framework is flexible to incorporate multiple kinds of factor information, and is able to trace how each factor contributes to the recommendation decision over time. Extensive experiments conducted on three real-world datasets demonstrate the superiority of our proposed model over the state-of-the-art methods, in terms of effectiveness and interpretability.
翻訳日:2022-12-01 00:04:59 公開日:2020-05-21
# ASAPP-ASR:SOTA音声認識のためのマルチストリームCNNと自己認識SRU

ASAPP-ASR: Multistream CNN and Self-Attentive SRU for SOTA Speech Recognition ( http://arxiv.org/abs/2005.10469v1 )

ライセンス: Link先を確認
Jing Pan, Joshua Shapiro, Jeremy Wohlwend, Kyu J. Han, Tao Lei and Tao Ma(参考訳) 本稿では,2つの新しいニューラルネットワークアーキテクチャ,音響モデリング用マルチストリームCNN,言語モデリング用自励的単純繰り返しユニット(SRU)を備えるLibriSpeechコーパス上でのSOTA(State-of-the-art)性能について述べる。 ハイブリッドasrフレームワークでは、マルチストリームcnn音響モデルは、各ストリームが多様性のためにユニークな拡張率を持つ複数の並列パイプラインで音声フレームの入力を処理する。 仕様データ拡張法で訓練され、相対的な単語誤り率(wer)がテストクリーンで4%、テストその他で14%改善される。 さらに,24層SRU言語モデルを用いてN-best再構成を行い,テストクリーンで1.75%,他で4.46%のWERを実現した。

In this paper we present state-of-the-art (SOTA) performance on the LibriSpeech corpus with two novel neural network architectures, a multistream CNN for acoustic modeling and a self-attentive simple recurrent unit (SRU) for language modeling. In the hybrid ASR framework, the multistream CNN acoustic model processes an input of speech frames in multiple parallel pipelines where each stream has a unique dilation rate for diversity. Trained with the SpecAugment data augmentation method, it achieves relative word error rate (WER) improvements of 4% on test-clean and 14% on test-other. We further improve the performance via N-best rescoring using a 24-layer self-attentive SRU language model, achieving WERs of 1.75% on test-clean and 4.46% on test-other.
翻訳日:2022-11-30 23:57:44 公開日:2020-05-21
# 残留ニューロンアテンションネットワークによる単一画像超解像

Single Image Super-Resolution via Residual Neuron Attention Networks ( http://arxiv.org/abs/2005.10455v1 )

ライセンス: Link先を確認
Wenjie Ai, Xiaoguang Tu, Shilei Cheng, Mei Xie(参考訳) deep convolutional neural networks (dcnns) はシングルイメージスーパーレゾリューション (sisr) で素晴らしい性能を達成している。 パフォーマンスをさらに向上するため、既存のCNNベースの手法は一般にネットワークのより深いアーキテクチャの設計に重点を置いている。 しかし,ネットワークの奥行きを盲目的に増やすことは,最も賢明な方法ではない。 本稿では、より効率的かつ効果的なSISRのための新しいエンド・ツー・エンド残留ニューロン注意ネットワーク(RNAN)を提案する。 構造的には、我々のRNANはよく設計されたGCRG(Global Context-enhanced Residual Groups)の逐次的な統合であり、粗い特徴から細かい特徴を抽出する。 私たちのGCRGは2つの斬新さで設計されています。 まず、GCRGの各ブロックにResidual Neuron Attention(RNA)機構を提案し、より優れた特徴表現のためのニューロンの関連を明らかにする。 さらに、グローバルコンテキスト(GC)ブロックを各GCRGの最後にRNANに埋め込み、グローバルコンテキスト情報を効果的にモデル化する。 実験の結果,rnanは定量的指標と視覚品質の両面で最先端の手法と同等の結果を得ることができたが,ネットワークアーキテクチャが簡略化された。

Deep Convolutional Neural Networks (DCNNs) have achieved impressive performance in Single Image Super-Resolution (SISR). To further improve the performance, existing CNN-based methods generally focus on designing deeper architecture of the network. However, we argue blindly increasing network's depth is not the most sensible way. In this paper, we propose a novel end-to-end Residual Neuron Attention Networks (RNAN) for more efficient and effective SISR. Structurally, our RNAN is a sequential integration of the well-designed Global Context-enhanced Residual Groups (GCRGs), which extracts super-resolved features from coarse to fine. Our GCRG is designed with two novelties. Firstly, the Residual Neuron Attention (RNA) mechanism is proposed in each block of GCRG to reveal the relevance of neurons for better feature representation. Furthermore, the Global Context (GC) block is embedded into RNAN at the end of each GCRG for effectively modeling the global contextual information. Experiments results demonstrate that our RNAN achieves the comparable results with state-of-the-art methods in terms of both quantitative metrics and visual quality, however, with simplified network architecture.
翻訳日:2022-11-30 23:57:04 公開日:2020-05-21
# SymJAX: シンボリックCPU/GPU/TPUプログラミング

SymJAX: symbolic CPU/GPU/TPU programming ( http://arxiv.org/abs/2005.10635v1 )

ライセンス: Link先を確認
Randall Balestriero(参考訳) SymJAXは、グラフ入力/出力/更新を簡単にし、一般的な機械学習およびディープラーニングアプリケーションのための追加機能を提供します。 ユーザの視点からは、SymJAXはLasagneのようなディープラーニング機能とともに、高速なグラフ最適化/コンパイルと幅広いハードウェアサポートを備えたLa Theanoエクスペリエンスを提供します。

SymJAX is a symbolic programming version of JAX simplifying graph input/output/updates and providing additional functionalities for general machine learning and deep learning applications. From an user perspective SymJAX provides a la Theano experience with fast graph optimization/compilation and broad hardware support, along with Lasagne-like deep learning functionalities.
翻訳日:2022-11-30 23:55:49 公開日:2020-05-21
# ハイブリッド特徴量を用いたDense Semantic 3D Mapに基づく長期視覚像定位

Dense Semantic 3D Map Based Long-Term Visual Localization with Hybrid Features ( http://arxiv.org/abs/2005.10766v1 )

ライセンス: Link先を確認
Tianxin Shi, Hainan Cui, Zhuo Song, Shuhan Shen(参考訳) 視覚的ローカライゼーションは多くのアプリケーションにおいて重要な役割を果たす。 しかし、季節や照明の変化や天気や昼夜の変動など、外観の変化が大きいため、長期の視覚的ローカライズアルゴリズムでは依然として大きな課題となっている。 本稿では,高密度なセマンティック3Dマップを用いたハイブリッドハンドクラフトと学習特徴を用いた視覚的位置決め手法を提案する。 ハイブリッドな特徴は、異なる画像条件下でそれらの強みをフル活用するのに役立ち、密密なセマンティックマップは、十分な2D-3Dマッチングペアとセマンティック一貫性スコアを構築するための信頼性と完全な幾何学的および意味情報を提供する。 パイプラインでは,高密度モデルと問合せ画像間のセマンティック一貫性を利用して,各候補データベース画像の検索とスコア付けを行う。 そして、重み付けされたRANSACベースのPnPポーズソルバにおいて、意味一貫性スコアをソフト制約として使用する。 長期ビジュアルローカライゼーションベンチマークによる実験結果から,本手法の有効性が示された。

Visual localization plays an important role in many applications. However, due to the large appearance variations such as season and illumination changes, as well as weather and day-night variations, it's still a big challenge for robust long-term visual localization algorithms. In this paper, we present a novel visual localization method using hybrid handcrafted and learned features with dense semantic 3D map. Hybrid features help us to make full use of their strengths in different imaging conditions, and the dense semantic map provide us reliable and complete geometric and semantic information for constructing sufficient 2D-3D matching pairs with semantic consistency scores. In our pipeline, we retrieve and score each candidate database image through the semantic consistency between the dense model and the query image. Then the semantic consistency score is used as a soft constraint in the weighted RANSAC-based PnP pose solver. Experimental results on long-term visual localization benchmarks demonstrate the effectiveness of our method compared with state-of-the-arts.
翻訳日:2022-11-30 23:49:06 公開日:2020-05-21
# セマンティクスセグメンテーションのための階層的マルチスケール注意

Hierarchical Multi-Scale Attention for Semantic Segmentation ( http://arxiv.org/abs/2005.10821v1 )

ライセンス: Link先を確認
Andrew Tao, Karan Sapra, Bryan Catanzaro(参考訳) マルチスケール推論は、セマンティックセグメンテーションの結果を改善するために一般的に使用される。 複数の画像スケールがネットワークに渡され、その結果が平均値や最大値のプーリングと組み合わされる。 本稿では,マルチスケール予測を組み合わせるための注意に基づくアプローチを提案する。 我々は,特定のスケールでの予測は特定の障害モードを解決するのに適しており,ネットワークはより優れた予測を生成するためにそのような場合のスケールを好むことを学習することを示す。 私たちのアテンション機構は階層的であり、他のアプローチよりもおよそ4倍のメモリ効率を実現しています。 より高速なトレーニングを可能にすることに加えて、より大きな作物サイズでトレーニングを行うことで、モデル精度が向上する。 提案手法は,CityscapesとMapillary Vistasの2つのデータセットで実証した。 弱ラベル画像が多数存在する都市景観では、一般化を改善するために自動ラベリングも活用している。 Mapillary (61.1 IOU val) と Cityscapes (85.1 IOU test) の両方で、新しい最先端の結果が得られる。

Multi-scale inference is commonly used to improve the results of semantic segmentation. Multiple images scales are passed through a network and then the results are combined with averaging or max pooling. In this work, we present an attention-based approach to combining multi-scale predictions. We show that predictions at certain scales are better at resolving particular failures modes, and that the network learns to favor those scales for such cases in order to generate better predictions. Our attention mechanism is hierarchical, which enables it to be roughly 4x more memory efficient to train than other recent approaches. In addition to enabling faster training, this allows us to train with larger crop sizes which leads to greater model accuracy. We demonstrate the result of our method on two datasets: Cityscapes and Mapillary Vistas. For Cityscapes, which has a large number of weakly labelled images, we also leverage auto-labelling to improve generalization. Using our approach we achieve a new state-of-the-art results in both Mapillary (61.1 IOU val) and Cityscapes (85.1 IOU test).
翻訳日:2022-11-30 23:48:50 公開日:2020-05-21
# インスタンス対応画像のカラー化

Instance-aware Image Colorization ( http://arxiv.org/abs/2005.10825v1 )

ライセンス: Link先を確認
Jheng-Wei Su, Hung-Kuo Chu, Jia-Bin Huang(参考訳) 画像のカラー化は本質的にマルチモーダル不確実性の問題である。 従来の方法はディープニューラルネットワークを利用して入力されたグレースケールの画像を直接可視色出力にマッピングする。 これらの学習に基づく手法は印象的な性能を示しているが、通常は複数のオブジェクトを含む入力画像で失敗する。 主な原因は、既存のモデルが画像全体の学習と彩色を行うことである。 明確な図形の分離がなければ、これらのモデルは意味のあるオブジェクトレベルの意味論を効果的に見つけ、学習することはできない。 本稿では,インスタンス認識カラー化を実現する手法を提案する。 当社のネットワークアーキテクチャは,既成のオブジェクト検出器を利用してクロッピングされたオブジェクトイメージを取得し,インスタンスカラー化ネットワークを使用してオブジェクトレベルの特徴を抽出する。 類似したネットワークを用いて全画像の特徴を抽出し、オブジェクトレベルと画像レベルの機能に融合モジュールを適用して最終的な色を予測する。 カラー化ネットワークと融合モジュールはどちらも、大規模なデータセットから学習される。 実験の結果,本研究は品質指標の既存手法よりも優れており,画像のカラー化における最先端性能を実現していることがわかった。

Image colorization is inherently an ill-posed problem with multi-modal uncertainty. Previous methods leverage the deep neural network to map input grayscale images to plausible color outputs directly. Although these learning-based methods have shown impressive performance, they usually fail on the input images that contain multiple objects. The leading cause is that existing models perform learning and colorization on the entire image. In the absence of a clear figure-ground separation, these models cannot effectively locate and learn meaningful object-level semantics. In this paper, we propose a method for achieving instance-aware colorization. Our network architecture leverages an off-the-shelf object detector to obtain cropped object images and uses an instance colorization network to extract object-level features. We use a similar network to extract the full-image features and apply a fusion module to full object-level and image-level features to predict the final colors. Both colorization networks and fusion modules are learned from a large-scale dataset. Experimental results show that our work outperforms existing methods on different quality metrics and achieves state-of-the-art performance on image colorization.
翻訳日:2022-11-30 23:48:31 公開日:2020-05-21
# 効率的なフィルタプルーニングを導く特徴統計

Feature Statistics Guided Efficient Filter Pruning ( http://arxiv.org/abs/2005.12193v1 )

ライセンス: Link先を確認
Hang Li, Chen Ma, Wei Xu and Xue Liu(参考訳) 信頼性のあるパフォーマンスでコンパクト畳み込みニューラルネットワーク(CNN)を構築することは、特に現実世界のアプリケーションにそれらをデプロイする場合、非常に難しい作業である。 CNNのサイズを減らすための一般的なアプローチとして、pruningメソッドは、$l1$-normなどのメトリクスに従ってCNNフィルタの一部を削除する。 しかし,従来の手法では,単一の特徴マップにおける情報分散や特徴マップ間の類似性をほとんど利用していなかった。 本稿では,多様性意識選択 (DFS) と類似性意識選択 (SFS) の2種類の特徴マップ選択を取り入れた新しいフィルタプルーニング法を提案する。 DFSは情報多様性の低い機能を見つけることを目的としており、SFSは他の機能と高い類似性を持つ機能を削除している。 我々は、公開データセット上で様々なCNNアーキテクチャを用いて広範な実験実験を行う。 実験結果から,本モデルでは最大91.6%のパラメータ減少と83.7%のFLOPs削減が得られた。

Building compact convolutional neural networks (CNNs) with reliable performance is a critical but challenging task, especially when deploying them in real-world applications. As a common approach to reduce the size of CNNs, pruning methods delete part of the CNN filters according to some metrics such as $l1$-norm. However, previous methods hardly leverage the information variance in a single feature map and the similarity characteristics among feature maps. In this paper, we propose a novel filter pruning method, which incorporates two kinds of feature map selections: diversity-aware selection (DFS) and similarity-aware selection (SFS). DFS aims to discover features with low information diversity while SFS removes features that have high similarities with others. We conduct extensive empirical experiments with various CNN architectures on publicly available datasets. The experimental results demonstrate that our model obtains up to 91.6% parameter decrease and 83.7% FLOPs reduction with almost no accuracy loss.
翻訳日:2022-11-30 23:47:16 公開日:2020-05-21
# Reddit上でのCOVID-19体験談話からの症状抽出

Symptom extraction from the narratives of personal experiences with COVID-19 on Reddit ( http://arxiv.org/abs/2005.10454v1 )

ライセンス: Link先を確認
Curtis Murray, Lewis Mitchell, Jonathan Tuke, Mark Mackay(参考訳) 新型コロナウイルスに関するソーシャルメディアの議論は、ウイルスが従来の公衆衛生データセットと質的に異なる人々の生活にどのように影響するかについての豊富な情報源を提供する。 特に、個人がウイルスの経験をソーシャルメディア上で自己報告する場合、患者が抱く症状の各段階の感情を識別することができる。 Redditのフォーラムr/COVID19 Positiveに投稿された投稿には、新型コロナウイルス陽性患者のファーストハンドアカウントが含まれている。 これらの投稿には、テキストが言及する症状を発症した後の日数を示す時間的構造が描かれることが多い。 トピックモデリングと感情分析を用いて、症状発生後最初の14日間の個人経験を通して、COVID-19に関する議論の変化を定量化する。 呼吸障害の言語は10日前後にピークを極めたが, 発熱, せき, 喉痛などの早期症状の経過は, 術後早期に集中した。 批判的なケースに関する会話も特定され、ほぼ一定の割合で現れた。 これらの症状の進化に伴うポジティブ感情とネガティブ感情の2つの明確なクラスターを同定し,それらの関係をマッピングした。 結果は、他の医療データの流れを補完し、精神的な健康問題がいつ現れるかを明らかにする新型コロナウイルスの患者体験を展望する。

Social media discussion of COVID-19 provides a rich source of information into how the virus affects people's lives that is qualitatively different from traditional public health datasets. In particular, when individuals self-report their experiences over the course of the virus on social media, it can allow for identification of the emotions each stage of symptoms engenders in the patient. Posts to the Reddit forum r/COVID19Positive contain first-hand accounts from COVID-19 positive patients, giving insight into personal struggles with the virus. These posts often feature a temporal structure indicating the number of days after developing symptoms the text refers to. Using topic modelling and sentiment analysis, we quantify the change in discussion of COVID-19 throughout individuals' experiences for the first 14 days since symptom onset. Discourse on early symptoms such as fever, cough, and sore throat was concentrated towards the beginning of the posts, while language indicating breathing issues peaked around ten days. Some conversation around critical cases was also identified and appeared at a roughly constant rate. We identified two clear clusters of positive and negative emotions associated with the evolution of these symptoms and mapped their relationships. Our results provide a perspective on the patient experience of COVID-19 that complements other medical data streams and can potentially reveal when mental health issues might appear.
翻訳日:2022-11-30 23:46:25 公開日:2020-05-21
# フランクフルト・ラテン文字レキシコン:形態素展開と単語埋め込みからセミグラフへ

The Frankfurt Latin Lexicon: From Morphological Expansion and Word Embeddings to SemioGraphs ( http://arxiv.org/abs/2005.10790v1 )

ライセンス: Link先を確認
Alexander Mehler, Bernhard Jussen, Tim Geelhaar, Alexander Henlein, Giuseppe Abrami, Daniel Baumartz, Tolga Uslu, Wahed Hemati(参考訳) 本稿では、ラテン文字の補題化と補題のポスト編集の両方に使用される中世ラテン語の語彙資料であるフランクフルト・ラテン・レシコン(fll)について述べる。 中世ラテン語の処理の基準として作られたコーパスであるCapitularies corpus(フランク王国の勅令である6世紀半ばから9世紀半ば)に対して、レムマタイザーの開発の最近の進歩について述べる。 また,fllの継続的なレビューと更新を目的とした限定的なクラウドソーシングプロセスを用いて,補間の修正後の検討を行う。 この補題化プロセスから得られたテキストから、単語埋め込みによるFLLの拡張を記述し、SemioGraphsによる対話的なトラバースにより、デジタル強化されたハーメニューティサークルが完成する。 このようにして、本論文は、古典的機械学習と知的後修正、特に基礎となる語彙資源のグラフ表現に基づく解釈過程の形での人間の計算を含む、より包括的かつ包括的なレムマティゼーションの理解を論じている。

In this article we present the Frankfurt Latin Lexicon (FLL), a lexical resource for Medieval Latin that is used both for the lemmatization of Latin texts and for the post-editing of lemmatizations. We describe recent advances in the development of lemmatizers and test them against the Capitularies corpus (comprising Frankish royal edicts, mid-6th to mid-9th century), a corpus created as a reference for processing Medieval Latin. We also consider the post-correction of lemmatizations using a limited crowdsourcing process aimed at continuous review and updating of the FLL. Starting from the texts resulting from this lemmatization process, we describe the extension of the FLL by means of word embeddings, whose interactive traversing by means of SemioGraphs completes the digital enhanced hermeneutic circle. In this way, the article argues for a more comprehensive understanding of lemmatization, encompassing classical machine learning as well as intellectual post-corrections and, in particular, human computation in the form of interpretation processes based on graph representations of the underlying lexical resources.
翻訳日:2022-11-30 23:40:36 公開日:2020-05-21
# サンスクリットにおける神経形態的タガーの評価

Evaluating Neural Morphological Taggers for Sanskrit ( http://arxiv.org/abs/2005.10893v1 )

ライセンス: Link先を確認
Ashim Gupta, Amrith Krishna, Pawan Goyal, Oliver Hellwig(参考訳) ニューラルシークエンスラベリングアプローチは、形態的タグ付けにおいて、技術結果の状態を達成している。 形態学的に豊かで融合的なインド語であるサンスクリット語における4つの標準配列ラベリングモデルの有効性を評価した。 ラベル空間は理論上4万以上のラベルを含むことができるため、ラベルの内部構造を明示的にモデル化するシステムは、トレーニング中に見えないラベルに一般化できるため、そのタスクに適している。 いくつかのニューラルモデルは他のモデルよりも優れた性能を示すが、これらのモデルのエラーの原因の1つはシンクレティズムによる誤予測である。

Neural sequence labelling approaches have achieved state of the art results in morphological tagging. We evaluate the efficacy of four standard sequence labelling models on Sanskrit, a morphologically rich, fusional Indian language. As its label space can theoretically contain more than 40,000 labels, systems that explicitly model the internal structure of a label are more suited for the task, because of their ability to generalise to labels not seen during training. We find that although some neural models perform better than others, one of the common causes for error for all of these models is mispredictions due to syncretism.
翻訳日:2022-11-30 23:40:13 公開日:2020-05-21
# スパイクネットワークとニューロモルフィックハードウェアを用いた定常PDEの解法

Solving a steady-state PDE using spiking networks and neuromorphic hardware ( http://arxiv.org/abs/2005.10904v1 )

ライセンス: Link先を確認
J. Darby Smith, William Severa, Aaron J. Hill, Leah Reeder, Brian Franke, Richard B. Lehoucq, Ojas D. Parekh, and James B. Aimone(参考訳) 広く並列でスパイクするニューロモルフィックプロセッサのニューラルネットワークは、計算的に強力な定式化を可能にする。 最近の関心は、主に機械学習タスクに焦点を当てているが、適切なアプリケーションの範囲は広く、継続的に拡大している。 ここでは、並列およびイベント駆動構造を利用してランダムウォーク法による定常熱方程式を解く。 ランダムウォークは確率的ニューロン挙動を用いてスパイクニューラルネットワーク内で完全に実行することができ、IBM TrueNorthとIntel Loihiの実装の結果を提供する。 さらに,このアルゴリズムをニューロモルフィックシステムのスケーラブルなベンチマークとして位置づける。

The widely parallel, spiking neural networks of neuromorphic processors can enable computationally powerful formulations. While recent interest has focused on primarily machine learning tasks, the space of appropriate applications is wide and continually expanding. Here, we leverage the parallel and event-driven structure to solve a steady state heat equation using a random walk method. The random walk can be executed fully within a spiking neural network using stochastic neuron behavior, and we provide results from both IBM TrueNorth and Intel Loihi implementations. Additionally, we position this algorithm as a potential scalable benchmark for neuromorphic systems.
翻訳日:2022-11-30 23:40:03 公開日:2020-05-21
# ブタにおけるpanoptic instance segmentation

Panoptic Instance Segmentation on Pigs ( http://arxiv.org/abs/2005.10499v1 )

ライセンス: Link先を確認
Johannes Br\"unger, Maria Gentz, Imke Traulsen and Reinhard Koch(参考訳) 自動認識システムを用いると豚の行動研究が大幅に単純化される。 特にコンピュータビジョンに基づくシステムは、動物の正常な行動に影響を与えずに評価できるという利点がある。 近年,深層学習に基づく手法が導入され,良好な結果が得られた。 特に物体やキーポイント検出器は個々の動物を検出するのに使われている。 良好な結果にもかかわらず、バウンディングボックスとスパースキーポイントは動物の輪郭を追跡せず、多くの情報が失われる。 したがって、この研究はパンオプティカルセグメンテーションの比較的新しい定義に従い、個々のブタのピクセルの正確なセグメンテーションを目標としている。 このために,セマンティックセグメンテーションのためのニューラルネットワークのフレームワークとして,異なるネットワークヘッドとポストプロセッシング手法を提案する。 結果として得られたサンプルセグメンテーションマスクにより、動物のサイズや重さなどのさらなる情報が推定できる。 本手法は,1000枚の手書き画像からなる特殊なデータセットを用いて,オクルージョンや汚れたレンズなどの障害にもかかわらず,約95%(F1スコア)の検出率を達成する。

The behavioural research of pigs can be greatly simplified if automatic recognition systems are used. Especially systems based on computer vision have the advantage that they allow an evaluation without affecting the normal behaviour of the animals. In recent years, methods based on deep learning have been introduced and have shown pleasingly good results. Especially object and keypoint detectors have been used to detect the individual animals. Despite good results, bounding boxes and sparse keypoints do not trace the contours of the animals, resulting in a lot of information being lost. Therefore this work follows the relatively new definition of a panoptic segmentation and aims at the pixel accurate segmentation of the individual pigs. For this a framework of a neural network for semantic segmentation, different network heads and postprocessing methods is presented. With the resulting instance segmentation masks further information like the size or weight of the animals could be estimated. The method is tested on a specially created data set with 1000 hand-labeled images and achieves detection rates of around 95% (F1 Score) despite disturbances such as occlusions and dirty lenses.
翻訳日:2022-11-30 23:38:57 公開日:2020-05-21
# 安定化共有パラメータプロキシを用いたワンショットトポロジカルNAS

Powering One-shot Topological NAS with Stabilized Share-parameter Proxy ( http://arxiv.org/abs/2005.10511v1 )

ライセンス: Link先を確認
Ronghao Guo, Chen Lin, Chuming Li, Keyu Tian, Ming Sun, Lu Sheng, Junjie Yan(参考訳) ワンショットnas法は、優れたトレーニング効率と高性能モデルの発見能力により、研究コミュニティから多くの関心を集めている。 しかし、以前のワンショットベースの作品の検索スペースは通常手作業による設計に依存しており、ネットワークトポロジの柔軟性に乏しかった。 本研究では,大規模トポロジー拡張探索空間(3.4*10^10以上の異なる位相構造)において,高パフォーマンスネットワークアーキテクチャを探索することで,ワンショットnasを強化する。 特に、このような複雑な空間におけるアーキテクチャ探索の難しさは、複雑な位相構造を持つ探索空間においても安定したアーキテクチャ性能の測定を実現するために、確率的勾配ランジュバンダイナミクスを用いた安定化共有パラメータプロキシによって排除されている。 The proposed method, Stablized Topological Neural Architecture Search (ST-NAS) は、ImageNet上でMultiply-Adds (MAdds) 制約下での最先端の性能を実現する。 直列モデルST-NAS-Aは76.4%の精度で326万マッドしか達成できない。 我々の中程度のモデルST-NAS-Bは、503M MAddsだけで77.9%のトップ-1精度が得られる。 どちらのモデルも、ワンショットNAS上の他の並行処理に比べて優れたパフォーマンスを提供する。

One-shot NAS method has attracted much interest from the research community due to its remarkable training efficiency and capacity to discover high performance models. However, the search spaces of previous one-shot based works usually relied on hand-craft design and were short for flexibility on the network topology. In this work, we try to enhance the one-shot NAS by exploring high-performing network architectures in our large-scale Topology Augmented Search Space (i.e., over 3.4*10^10 different topological structures). Specifically, the difficulties for architecture searching in such a complex space has been eliminated by the proposed stabilized share-parameter proxy, which employs Stochastic Gradient Langevin Dynamics to enable fast shared parameter sampling, so as to achieve stabilized measurement of architecture performance even in search space with complex topological structures. The proposed method, namely Stablized Topological Neural Architecture Search (ST-NAS), achieves state-of-the-art performance under Multiply-Adds (MAdds) constraint on ImageNet. Our lite model ST-NAS-A achieves 76.4% top-1 accuracy with only 326M MAdds. Our moderate model ST-NAS-B achieves 77.9% top-1 accuracy just required 503M MAdds. Both of our models offer superior performances in comparison to other concurrent works on one-shot NAS.
翻訳日:2022-11-30 23:38:40 公開日:2020-05-21
# semantic-apparent feature fusionによる教師なしセグメンテーション

Unsupervised segmentation via semantic-apparent feature fusion ( http://arxiv.org/abs/2005.10513v1 )

ライセンス: Link先を確認
Xi Li, Huimin Ma, Hongbing Ma, Yidong Wang(参考訳) 前景セグメンテーションは、画像理解の分野において不可欠なタスクである。 教師なしの条件下では、異なる画像やインスタンスは常に可変式を持ち、固定されたルールや単一タイプの機能に基づいて安定したセグメンテーション性能を達成するのが困難である。 そこで本研究では,意味論的特徴融合(SAFF)に基づく教師なし前景分割手法を提案する。 ここでは,前景オブジェクトのキー領域を意味的特徴によって正確に応答できるのに対し,見かけの特徴(塩分とエッジで表される)はより詳細な表現を提供する。 この2つのタイプの特徴の利点を組み合わせるために,2つの表現の包括的記述を実現するユニタリ領域特徴とバイナリコンテキスト特徴の符号化方法が確立される。 次に、最も適切な特徴重みを算出し、前景信頼度スコアマップを生成するための適応パラメータ学習法を提案する。 さらに、セグメンテーションネットワークは、異なるインスタンスから前景の共通機能を学ぶために使用される。 意味的特徴と明らかな特徴を融合させ、画像内適応的特徴量学習と画像間共通特徴学習のモジュールをカスケードすることにより、PASCAL VOC 2012データセットのベースラインをはるかに超える性能を達成する。

Foreground segmentation is an essential task in the field of image understanding. Under unsupervised conditions, different images and instances always have variable expressions, which make it difficult to achieve stable segmentation performance based on fixed rules or single type of feature. In order to solve this problem, the research proposes an unsupervised foreground segmentation method based on semantic-apparent feature fusion (SAFF). Here, we found that key regions of foreground object can be accurately responded via semantic features, while apparent features (represented by saliency and edge) provide richer detailed expression. To combine the advantages of the two type of features, an encoding method for unary region features and binary context features is established, which realizes a comprehensive description of the two types of expressions. Then, a method for adaptive parameter learning is put forward to calculate the most suitable feature weights and generate foreground confidence score map. Furthermore, segmentation network is used to learn foreground common features from different instances. By fusing semantic and apparent features, as well as cascading the modules of intra-image adaptive feature weight learning and inter-image common feature learning, the research achieves performance that significantly exceeds baselines on the PASCAL VOC 2012 dataset.
翻訳日:2022-11-30 23:38:17 公開日:2020-05-21
# スタンス予測とクレーム検証:アラビア語の視点

Stance Prediction and Claim Verification: An Arabic Perspective ( http://arxiv.org/abs/2005.10410v1 )

ライセンス: Link先を確認
Jude Khouja(参考訳) 本研究は,アラビア語の新しいコーパスを用いたニュースクレームの検証と姿勢予測におけるテキスト・エンテーメントの適用について検討する。 公式のコーパスには2つの視点がある:4,547の真偽のクレームと3,786のペア(立証、証拠)からなるバージョン。 コーパスを作成するための方法論とアノテーションプロセスについて述べる。 また,提案する2つのタスクに対する2つの機械学習ベースライン,すなわちクレーム検証とスタンス予測を開発した。 我々の最良のモデルは事前学習(BERT)を利用し、姿勢予測タスクで76.7 F1、クレーム検証タスクで64.3 F1を達成する。 我々の予備実験は、クレームテキストのみに依存する自動クレーム検証の限界に光を当てた。 結果は,事前学習中に習得した言語的特徴と世界知識はスタンス予測に有用であるが,事前学習からの学習表現は,文脈や証拠にアクセスせずにクレームを検証するには不十分であることを示唆している。

This work explores the application of textual entailment in news claim verification and stance prediction using a new corpus in Arabic. The publicly available corpus comes in two perspectives: a version consisting of 4,547 true and false claims and a version consisting of 3,786 pairs (claim, evidence). We describe the methodology for creating the corpus and the annotation process. Using the introduced corpus, we also develop two machine learning baselines for two proposed tasks: claim verification and stance prediction. Our best model utilizes pretraining (BERT) and achieves 76.7 F1 on the stance prediction task and 64.3 F1 on the claim verification task. Our preliminary experiments shed some light on the limits of automatic claim verification that relies on claims text only. Results hint that while the linguistic features and world knowledge learned during pretraining are useful for stance prediction, such learned representations from pretraining are insufficient for verifying claims without access to context or evidence.
翻訳日:2022-11-30 23:30:46 公開日:2020-05-21
# LaCulturaNonSiFerma -- Report uso e la diffusione degli hashtag delle istituzioni culturali italiane durante il periodo di lockdown

LaCulturaNonSiFerma -- Report su uso e la diffusione degli hashtag delle istituzioni culturali italiane durante il periodo di lockdown ( http://arxiv.org/abs/2005.10527v1 )

ライセンス: Link先を確認
Carola Carlino, Gennaro Nolano, Maria Pia di Buono, Johanna Monti(参考訳) 本報告では, イタリア文化遺産機関が, イタリアにおける新型コロナウイルスロックダウン期間中に, 文化コンテンツの普及・伝達に使用する#ハッシュタグの分析を行った。 ソーシャルメディアを利用したユーザ支援とエンゲージメントのための活動がいくつか提案されている。 これらのアクティビティには1つ以上の#hashtagsがあり、コンテンツを集約し、特定のトピックに関するコミュニティを作るのに役立ちます。 その結果,一方のイタリア機関はパンデミックのシナリオに適応する上で非常に積極的であり,他方のユーザの反応は,提案した活動への参加を非常に肯定的に増加させた。

This report presents an analysis of #hashtags used by Italian Cultural Heritage institutions to promote and communicate cultural content during the COVID-19 lock-down period in Italy. Several activities to support and engage users' have been proposed using social media. Most of these activities present one or more #hashtags which help to aggregate content and create a community on specific topics. Results show that on one side Italian institutions have been very proactive in adapting to the pandemic scenario and on the other side users' reacted very positively increasing their participation in the proposed activities.
翻訳日:2022-11-30 23:29:51 公開日:2020-05-21
# MultiMWE: Multi-lingual Multi-Word Expression (MWE) Parallel Corpora の構築

MultiMWE: Building a Multi-lingual Multi-Word Expression (MWE) Parallel Corpora ( http://arxiv.org/abs/2005.10583v1 )

ライセンス: Link先を確認
Lifeng Han, Gareth J.F. Jones and Alan F. Smeaton(参考訳) マルチワード式(MWEs)は、MWE検出、MWE分解、機械翻訳などの他のNLP分野におけるMWEの活用に関する研究など、自然言語処理(NLP)の研究においてホットなトピックである。 しかし、多言語または多言語mweコーポラの利用は限られている。 私たちが知っている唯一のバイリンガルMWEコーパスは、PARSEME (PARSing and Multi-word Expressions) EU Projectである。 これは、イギリスとドイツのMWEのわずか871組の小さなコレクションである。 本稿では,ルートパラレルコーパスから抽出した多言語MWEコーパスとバイリンガルMWEコーパスについて述べる。 我々のコレクションはドイツ語と中国語でそれぞれ3,159,226対と143,042対である。 MT実験において抽出したバイリンガルMWEの品質について検討した。 MTでMWEを適用した最初の実験では, 定性解析におけるMWEの翻訳性能が向上し, 定量的解析における総合評価スコアが向上した。 オンラインで利用可能なMultiMWEコーパスを作成するための、標準的な実験パイプラインに従います。 研究者はこの無料コーパスを自身のモデルに使用したり、ナレッジベースでモデル機能として使用することができる。

Multi-word expressions (MWEs) are a hot topic in research in natural language processing (NLP), including topics such as MWE detection, MWE decomposition, and research investigating the exploitation of MWEs in other NLP fields such as Machine Translation. However, the availability of bilingual or multi-lingual MWE corpora is very limited. The only bilingual MWE corpora that we are aware of is from the PARSEME (PARSing and Multi-word Expressions) EU Project. This is a small collection of only 871 pairs of English-German MWEs. In this paper, we present multi-lingual and bilingual MWE corpora that we have extracted from root parallel corpora. Our collections are 3,159,226 and 143,042 bilingual MWE pairs for German-English and Chinese-English respectively after filtering. We examine the quality of these extracted bilingual MWEs in MT experiments. Our initial experiments applying MWEs in MT show improved translation performances on MWE terms in qualitative analysis and better general evaluation scores in quantitative analysis, on both German-English and Chinese-English language pairs. We follow a standard experimental pipeline to create our MultiMWE corpora which are available online. Researchers can use this free corpus for their own models or use them in a knowledge base as model features.
翻訳日:2022-11-30 23:29:37 公開日:2020-05-21
# クルド人の有限状態形態論に向けて

Towards Finite-State Morphology of Kurdish ( http://arxiv.org/abs/2005.10652v1 )

ライセンス: Link先を確認
Sina Ahmadi, Hossein Hassani(参考訳) 形態素解析は、単語の形成と構造の研究である。 自然言語処理(NLP)や機械翻訳やテキスト、音声生成といった計算言語学(CL)における様々なタスクにおいて重要な役割を果たしている。 クルド語は多言語多言語言語であり、高い屈折形態を持つ。 本稿では,その最初の試みとして,計算の観点からクルド語(ソラニ方言)の形態について述べる。 単語の生成と解析のために有限状態トランスデューサに変換される形態素規則を抽出する。 本研究は、クルド語における言語生成の研究を支援し、クルド語nlpとclをより高度な計算レベルに活用しながら、言語における情報検索能力(ir)を向上させる。

Morphological analysis is the study of the formation and structure of words. It plays a crucial role in various tasks in Natural Language Processing (NLP) and Computational Linguistics (CL) such as machine translation and text and speech generation. Kurdish is a less-resourced multi-dialect Indo-European language with highly inflectional morphology. In this paper, as the first attempt of its kind, the morphology of the Kurdish language (Sorani dialect) is described from a computational point of view. We extract morphological rules which are transformed into finite-state transducers for generating and analyzing words. The result of this research assists in conducting studies on language generation for Kurdish and enhances the Information Retrieval (IR) capacity for the language while leveraging the Kurdish NLP and CL into a more advanced computational level.
翻訳日:2022-11-30 23:28:59 公開日:2020-05-21
# RuBQ:Wikidataに関する質問に対するロシアのデータセット

RuBQ: A Russian Dataset for Question Answering over Wikidata ( http://arxiv.org/abs/2005.10659v1 )

ライセンス: Link先を確認
Vladislav Korablinov and Pavel Braslavski(参考訳) 本稿では,ロシア初の知識ベース質問応答(KBQA)データセットであるRuBQについて述べる。 高品質のデータセットは、複雑さの異なる1500のロシアの質問、彼らの英語機械翻訳、WikidataへのSPARQLクエリ、参照回答、およびロシアのラベルを持つエンティティを含む3つ組のWikidataサンプルで構成されている。 データセットの作成は、オンラインクイズからの質問と回答のペアの大規模なコレクションから始まった。 データは、自動フィルタリング、クラウドアシストエンティティリンク、SPARQLクエリの自動生成、およびその後の社内検証が行われた。

The paper presents RuBQ, the first Russian knowledge base question answering (KBQA) dataset. The high-quality dataset consists of 1,500 Russian questions of varying complexity, their English machine translations, SPARQL queries to Wikidata, reference answers, as well as a Wikidata sample of triples containing entities with Russian labels. The dataset creation started with a large collection of question-answer pairs from online quizzes. The data underwent automatic filtering, crowd-assisted entity linking, automatic generation of SPARQL queries, and their subsequent in-house verification.
翻訳日:2022-11-30 23:28:46 公開日:2020-05-21
# あなたがここにいることを願う - コンテキストを意識した人間世代

Wish You Were Here: Context-Aware Human Generation ( http://arxiv.org/abs/2005.10663v1 )

ライセンス: Link先を確認
Oran Gafni, Lior Wolf(参考訳) 本研究では、シーンの意味的文脈を尊重しつつ、オブジェクト、特に人間を光現実的な方法でブレンドするように、既存の画像に挿入する新しい手法を提案する。 本手法は3つのサブネットワークから構成される: シーン内の他の人物のポーズとオプションのバウンディングボックス仕様を考慮し、最初の人物のセマンティックマップを生成する。 第2のネットワークは、複数の外観成分の仕様に基づいて、新規の人物とそのブレンディングマスクのピクセルをレンダリングする。 第3のネットワークは、対象者の顔と一致するように生成された顔を洗練する。 この新奇で挑戦的なアプリケーション領域における高解像度な出力を実証する実験を行った。 さらに、3つのネットワークを個別に評価し、例えば、ポーズ転送ベンチマークにおける技術結果の状況を示す。

We present a novel method for inserting objects, specifically humans, into existing images, such that they blend in a photorealistic manner, while respecting the semantic context of the scene. Our method involves three subnetworks: the first generates the semantic map of the new person, given the pose of the other persons in the scene and an optional bounding box specification. The second network renders the pixels of the novel person and its blending mask, based on specifications in the form of multiple appearance components. A third network refines the generated face in order to match those of the target person. Our experiments present convincing high-resolution outputs in this novel and challenging application domain. In addition, the three networks are evaluated individually, demonstrating for example, state of the art results in pose transfer benchmarks.
翻訳日:2022-11-30 23:22:25 公開日:2020-05-21
# 意味セグメンテーションにおける教師なし領域適応:レビュー

Unsupervised Domain Adaptation in Semantic Segmentation: a Review ( http://arxiv.org/abs/2005.10876v1 )

ライセンス: Link先を確認
Marco Toldo, Andrea Maracani, Umberto Michieli and Pietro Zanuttigh(参考訳) 本研究の目的は, セマンティックセグメンテーションのための深層ネットワークのUnsupervised Domain Adaptation (UDA) の最近の進歩について概説することである。 セマンティクスのセグメンテーションモデルには大量のラベル付きデータが必要であり、特定の要件に適合するデータがないことが、これらの技術のデプロイメントにおける主要な制限である。 この問題は近年研究され、多くのアドホックなアプローチで急速に成長している。 これは、提案手法の包括的な概要を構築し、明確な分類を提供することを動機付ける。 本稿では,問題とその定式化,および考慮すべき様々なシナリオを紹介することから始める。 次に,適応戦略が適用可能な異なるレベル,すなわち,入力(画像)レベル,内部特徴表現,出力レベルについて紹介する。 さらに,その分野における文献の詳細な概観を概観し,逆学習,生成型学習,分類器の判別分析,自己指導,エントロピー最小化,カリキュラム学習,マルチタスク学習という,(非排他的)カテゴリーに基づいて従来の手法を分割した。 この分野で興味深いオープン問題のヒントを提供するために、新しい研究の方向性も簡単に紹介されている。 最後に、広く使用されている自動運転シナリオにおける各種手法の性能の比較を行った。

The aim of this paper is to give an overview of the recent advancements in the Unsupervised Domain Adaptation (UDA) of deep networks for semantic segmentation. This task is attracting a wide interest, since semantic segmentation models require a huge amount of labeled data and the lack of data fitting specific requirements is the main limitation in the deployment of these techniques. This problem has been recently explored and has rapidly grown with a large number of ad-hoc approaches. This motivates us to build a comprehensive overview of the proposed methodologies and to provide a clear categorization. In this paper, we start by introducing the problem, its formulation and the various scenarios that can be considered. Then, we introduce the different levels at which adaptation strategies may be applied: namely, at the input (image) level, at the internal features representation and at the output level. Furthermore, we present a detailed overview of the literature in the field, dividing previous methods based on the following (non mutually exclusive) categories: adversarial learning, generative-based, analysis of the classifier discrepancies, self-teaching, entropy minimization, curriculum learning and multi-task learning. Novel research directions are also briefly introduced to give a hint of interesting open problems in the field. Finally, a comparison of the performance of the various methods in the widely used autonomous driving scenario is presented.
翻訳日:2022-11-30 23:21:36 公開日:2020-05-21
# 形態的品質に基づくヒト胚画像の分類における深部畳み込みニューラルネットワークの評価

Evaluation of deep convolutional neural networks in classifying human embryo images based on their morphological quality ( http://arxiv.org/abs/2005.10912v1 )

ライセンス: Link先を確認
Prudhvi Thirumalaraju, Manoj Kumar Kanakasabapathy, Charles L Bormann, Raghav Gupta, Rohan Pooniwala, Hemanth Kandula, Irene Souter, Irene Dimitriadis, Hadi Shafiee(参考訳) 体外受精(IVF)手順の成功に影響を及ぼす重要な要因は、移植された胚の品質である。 胚形態評価は, 従来は手作業による微視的解析によって行われてきたが, 胚学経験による実践の相違, 選択基準, 主観性に苦しむ。 畳み込みニューラルネットワーク(CNN)は強力で有望なアルゴリズムであり、多くの対象カテゴリで正確な分類が可能となる。 ネットワークアーキテクチャとハイパーパラメータは、任意のタスクに対するcnnの効率に影響する。 Inception v3, ResNET, Inception-ResNET-v2, Xceptionといった,スクラッチから発達した多層CNNを,その形態的品質に基づいて,113時間後(hpi)で評価した。 Xceptionは、その形態的品質に基づいて、胚間の差別化において最善を尽くした。

A critical factor that influences the success of an in-vitro fertilization (IVF) procedure is the quality of the transferred embryo. Embryo morphology assessments, conventionally performed through manual microscopic analysis suffer from disparities in practice, selection criteria, and subjectivity due to the experience of the embryologist. Convolutional neural networks (CNNs) are powerful, promising algorithms with significant potential for accurate classifications across many object categories. Network architectures and hyper-parameters affect the efficiency of CNNs for any given task. Here, we evaluate multi-layered CNNs developed from scratch and popular deep-learning architectures such as Inception v3, ResNET, Inception-ResNET-v2, and Xception in differentiating between embryos based on their morphological quality at 113 hours post insemination (hpi). Xception performed the best in differentiating between the embryos based on their morphological quality.
翻訳日:2022-11-30 23:21:14 公開日:2020-05-21
# 自動音声認識における重要度マップの大規模評価

Large scale evaluation of importance maps in automatic speech recognition ( http://arxiv.org/abs/2005.10929v1 )

ライセンス: Link先を確認
Viet Anh Trinh, Michael I Mandel(参考訳) 本稿では,音声の自動認識のための重要度マップを評価するために,SSBM(Structured Saliency benchmark)と呼ぶメトリクスを提案する。 これらの地図は、ターゲット語を正しく認識するために最も重要な発話の時間周波数ポイントを示す。 評価手法は,標準分類タスクだけでなく,シーケンス・ツー・シーケンスモデルなどの構造化予測タスクにも適している。 さらに,本手法を用いて,従来導入してきた「バブルノイズ」を用いた重要点マップの大規模比較を行い,スムーズな音声エネルギーと強制アライメントに基づくベースラインアプローチとの相関による重要点の同定を行う。 その結果,AMIコーパスからの100文のベースラインよりも,バブル解析手法が重要な音声領域の同定に有効であることが示唆された。

In this paper, we propose a metric that we call the structured saliency benchmark (SSBM) to evaluate importance maps computed for automatic speech recognizers on individual utterances. These maps indicate time-frequency points of the utterance that are most important for correct recognition of a target word. Our evaluation technique is not only suitable for standard classification tasks, but is also appropriate for structured prediction tasks like sequence-to-sequence models. Additionally, we use this approach to perform a large scale comparison of the importance maps created by our previously introduced technique using "bubble noise" to identify important points through correlation with a baseline approach based on smoothed speech energy and forced alignment. Our results show that the bubble analysis approach is better at identifying important speech regions than this baseline on 100 sentences from the AMI corpus.
翻訳日:2022-11-30 23:20:57 公開日:2020-05-21
# 辞書学習とディープラーニング: 限られたデータを用いた画像認識のためのディープ辞書学習と符号化ネットワーク

When Dictionary Learning Meets Deep Learning: Deep Dictionary Learning and Coding Network for Image Recognition with Limited Data ( http://arxiv.org/abs/2005.10940v1 )

ライセンス: Link先を確認
Hao Tang, Hong Liu, Wei Xiao, Nicu Sebe(参考訳) 本稿では,限られたデータを用いた画像認識タスクのための新しいDeep Dictionary Learning and Coding Network(DDLCN)を提案する。 提案したDDLCNは、標準的なディープラーニング層(例えば、入出力、プーリング、完全接続など)をほとんど持っているが、基本的な畳み込み層は、提案した複合辞書学習と符号化層に置き換えられる。 辞書学習は、入力訓練データのための過剰完全辞書を学習する。 深層符号化層では、活性化辞書ベースが互いに近接していることを保証するために局所性制約が付加される。 そして、活性化辞書原子が組み立てられ、複合辞書学習及び符号化層に渡される。 このようにして、第1層の活性化原子は第2辞書のより深い原子によって表される。 直感的には、第2辞書は入力辞書原子間で共有されるきめ細かい成分を学習するように設計されており、辞書原子のより情報的で識別性の高い低レベル表現を得ることができる。 DDLCNをいくつかの主要な辞書学習手法と深層学習モデルと比較した。 5つの一般的なデータセットに対する実験結果から,DDLCNはトレーニングデータに制限がある場合の最先端手法と比較して,競合的な結果が得られることが示された。 コードはhttps://github.com/Ha0Tang/DDLCNで入手できる。

We present a new Deep Dictionary Learning and Coding Network (DDLCN) for image recognition tasks with limited data. The proposed DDLCN has most of the standard deep learning layers (e.g., input/output, pooling, fully connected, etc.), but the fundamental convolutional layers are replaced by our proposed compound dictionary learning and coding layers. The dictionary learning learns an over-complete dictionary for input training data. At the deep coding layer, a locality constraint is added to guarantee that the activated dictionary bases are close to each other. Then the activated dictionary atoms are assembled and passed to the compound dictionary learning and coding layers. In this way, the activated atoms in the first layer can be represented by the deeper atoms in the second dictionary. Intuitively, the second dictionary is designed to learn the fine-grained components shared among the input dictionary atoms, thus a more informative and discriminative low-level representation of the dictionary atoms can be obtained. We empirically compare DDLCN with several leading dictionary learning methods and deep learning models. Experimental results on five popular datasets show that DDLCN achieves competitive results compared with state-of-the-art methods when the training data is limited. Code is available at https://github.com/Ha0Tang/DDLCN.
翻訳日:2022-11-30 23:20:43 公開日:2020-05-21
# ガウス過程の大域的最適化

Global Optimization of Gaussian processes ( http://arxiv.org/abs/2005.10902v1 )

ライセンス: Link先を確認
Artur M. Schweidtmann, Dominik Bongartz, Daniel Grothe, Tim Kerkenhoff, Xiaopeng Lin, Jaromil Najman, Alexander Mitsos(参考訳) gaussian process~(kriging)は、さまざまな分野に頻繁に適用されるデータ駆動モデルを補間する。 しばしば、ガウス過程はデータセットに基づいて訓練され、最適化問題において代理モデルとして組み込まれる。 これらの最適化問題は非凸であり、グローバル最適化が望まれる。 しかし、以前の文献では、決定論的大域的最適化を少数のデータポイントで訓練されたガウス過程に制限する計算負荷が観測された。 本稿では,ガウス過程を組み込んだ決定論的大域最適化のための低空間定式化を提案する。 最適化のために、分岐・境界ソルバは自由度にのみ分岐し、マコーミック緩和は明示的なガウス過程モデルを通じて伝播する。 このアプローチはまた、より小さく、計算的に安価なサブプロブレムを下界と上界に導く。 さらに収束を加速するために,gpsにおける共通共分散関数の包含と,期待値の改善,改善確率,信頼度率の低下などベイズ最適化に使用される獲得関数の厳密な緩和を導出する。 総じて計算時間を最先端法と比較して桁違いに削減し,従来の計算負荷を克服した。 提案手法の性能とスケーリングを実証し,獲得関数のグローバル最適化と確率制約型プログラミングを用いてベイズ最適化に適用する。 ガウスのプロセスモデル、取得関数、トレーニングスクリプトは、"MeLOn - Machine Learning Models for Optimization"ツールボックス~(https://git.rwth-aachen.de/avt.svt/public/MeLOn)でオープンソース公開されている。

Gaussian processes~(Kriging) are interpolating data-driven models that are frequently applied in various disciplines. Often, Gaussian processes are trained on datasets and are subsequently embedded as surrogate models in optimization problems. These optimization problems are nonconvex and global optimization is desired. However, previous literature observed computational burdens limiting deterministic global optimization to Gaussian processes trained on few data points. We propose a reduced-space formulation for deterministic global optimization with trained Gaussian processes embedded. For optimization, the branch-and-bound solver branches only on the degrees of freedom and McCormick relaxations are propagated through explicit Gaussian process models. The approach also leads to significantly smaller and computationally cheaper subproblems for lower and upper bounding. To further accelerate convergence, we derive envelopes of common covariance functions for GPs and tight relaxations of acquisition functions used in Bayesian optimization including expected improvement, probability of improvement, and lower confidence bound. In total, we reduce computational time by orders of magnitude compared to state-of-the-art methods, thus overcoming previous computational burdens. We demonstrate the performance and scaling of the proposed method and apply it to Bayesian optimization with global optimization of the acquisition function and chance-constrained programming. The Gaussian process models, acquisition functions, and training scripts are available open-source within the "MeLOn - Machine Learning Models for Optimization" toolbox~(https://git.rwth-aachen.de/avt.svt/public/MeLOn).
翻訳日:2022-11-30 23:13:25 公開日:2020-05-21
# 体性変異の関連性混合メンバーシップモデリング

Correlated Mixed Membership Modeling of Somatic Mutations ( http://arxiv.org/abs/2005.10919v1 )

ライセンス: Link先を確認
Rahul Mehta, Muge Karaman(参考訳) がん体性突然変異プロファイルの最近の研究は、パーソナライズドメディカルにおける標的治療のための突然変異を同定しようとしている。 しかし、各プロファイルは不均一であり、がん(sub)タイプ、生物学的過程、突然変異の総数、非線形突然変異相互作用など、がん遺伝子間の因果関係に影響を与える複数の結合因子が存在するため、プロファイルの解析は自明ではない。 さらに、がんは生物学的に冗長であり、すなわち、異なる突然変異が類似した生物学的過程の変化をもたらす可能性があるため、効果的な患者治療のために可能な全ての組み合わせ変異を同定することが重要である。 この現象をモデル化するために,潜伏表現による体性突然変異プロファイルの固有構造を推測する相関ゼロ膨張負二項法を提案する。 この確率過程は、相関したβ-ベルヌーリ過程と、プロファイルの不均一性をモデル化するための確率パラメータとを混合したプロファイル特異的な負二項分散パラメータを用いた、異なる相関の共起突然変異を考慮に入れている。 これらのモデルパラメータは、The Cancer Genomic Archive (TCGA)のPan Cancerデータセットを用いて、償却および確率的変動推論を通じて反復最適化によって推測される。 潜在空間を調べることで,体性突然変異の生物学的関連関係を明らかにする。

Recent studies of cancer somatic mutation profiles seek to identify mutations for targeted therapy in personalized medicine. Analysis of profiles, however, is not trivial, as each profile is heterogeneous and there are multiple confounding factors that influence the cause-and-effect relationships between cancer genes such as cancer (sub)type, biological processes, total number of mutations, and non-linear mutation interactions. Moreover, cancer is biologically redundant, i.e., distinct mutations can result in the alteration of similar biological processes, so it is important to identify all possible combinatorial sets of mutations for effective patient treatment. To model this phenomena, we propose the correlated zero-inflated negative binomial process to infer the inherent structure of somatic mutation profiles through latent representations. This stochastic process takes into account different, yet correlated, co-occurring mutations using profile-specific negative binomial dispersion parameters that are mixed with a correlated beta-Bernoulli process and a probability parameter to model profile heterogeneity. These model parameters are inferred by iterative optimization via amortized and stochastic variational inference using the Pan Cancer dataset from The Cancer Genomic Archive (TCGA). By examining the the latent space, we identify biologically relevant correlations between somatic mutations.
翻訳日:2022-11-30 23:13:02 公開日:2020-05-21
# リアルタイム交通予測による事故時の信号計画の推薦学習

Learning to Recommend Signal Plans under Incidents with Real-Time Traffic Prediction ( http://arxiv.org/abs/2005.13522v1 )

ライセンス: Link先を確認
Weiran Yao, Sean Qian(参考訳) 本論では,事故発生時の信号タイミング計画と,事故発生時の信号タイミング計画とを組み込んだドメイン知識を取り入れ,交通・信号タイミングの履歴データから学習することで,インシデント時の信号タイミングプランをリアルタイムに推薦することを目的とする。 交通インシデント管理の有効性は、しばしば、遅延応答時間と過度の作業負荷によって制限される。 本稿では,データとドメインの知識から,非リカレントトラフィックに対応するリアルタイムレコメンデーション・コンティンジェンシー・シグナルプランを学習し,少なくとも30分前にリアルタイムトラフィック予測から出力する,新たな意思決定フレームワークを提案する。 具体的には、インシデントに対する緊急信号計画の関与が稀であることを考慮し、エンドツーエンドのレコメンデーションタスクをリアルタイム交通予測とプランアソシエーションの2つの階層モデルに分解することを提案する。 この2つのモデル間の関係をメトリック学習を通じて学習し,過去の信号エンゲージメント記録から観測される部分次選好を補強する。 2019年にクランベリー郡区のトラヒックネットワーク上でこの枠組みをテストすることにより,本手法の有効性を実証した。 その結果,我々の推薦システムは精度96.75%,テストプラン87.5%をリコールし,平均22.5分リードタイムをWaze警告に先立って推奨していることがわかった。 その結果,トラヒックオペレータが条件にアクセスし,適切な応答を行うための時間窓が確保できることが示唆された。

The main question to address in this paper is to recommend optimal signal timing plans in real time under incidents by incorporating domain knowledge developed with the traffic signal timing plans tuned for possible incidents, and learning from historical data of both traffic and implemented signals timing. The effectiveness of traffic incident management is often limited by the late response time and excessive workload of traffic operators. This paper proposes a novel decision-making framework that learns from both data and domain knowledge to real-time recommend contingency signal plans that accommodate non-recurrent traffic, with the outputs from real-time traffic prediction at least 30 minutes in advance. Specifically, considering the rare occurrences of engagement of contingency signal plans for incidents, we propose to decompose the end-to-end recommendation task into two hierarchical models: real-time traffic prediction and plan association. We learn the connections between the two models through metric learning, which reinforces partial-order preferences observed from historical signal engagement records. We demonstrate the effectiveness of our approach by testing this framework on the traffic network in Cranberry Township in 2019. Results show that our recommendation system has a precision score of 96.75% and recall of 87.5% on the testing plan, and make recommendation of an average of 22.5 minutes lead time ahead of Waze alerts. The results suggest that our framework is capable of giving traffic operators a significant time window to access the conditions and respond appropriately.
翻訳日:2022-11-30 23:12:20 公開日:2020-05-21
# 不安定なソフトロボットハンドの動的モデル伝達の学習

Learning to Transfer Dynamic Models of Underactuated Soft Robotic Hands ( http://arxiv.org/abs/2005.10418v1 )

ライセンス: Link先を確認
Liam Schramm, Avishai Sintov, and Abdeslam Boularias(参考訳) 転送学習は、あるドメイン内のデータ制限を回避し、別のドメインのデータを活用する一般的なアプローチである。 これは、実践者が物理的ロボットによるデータ収集を減らすことができるため、ロボット工学において特に有用である。 これをニューラルネットワークで行う最も一般的な方法は、既存のニューラルネットワークを取り、単に新しいデータでトレーニングすることだ。 しかし、一部の状況では、単に適応せずに転送されたモデルを使うよりも、パフォーマンスが著しく悪化する可能性がある。 これらの問題の主な原因は、少量のデータで訓練されたモデルが、一部の地域でカオス的または散発的な振る舞いを持つ可能性があることにある。 我々は、訓練された遷移モデルのリアプノフ指数の上界を導出し、この知見を利用する2つのアプローチを実証する。 どちらも従来の微調整よりも大幅に改善されている。 実際のソフトロボットハンドで行った実験は、動的モデルを片手から別の手へと移す能力を明確に示している。

Transfer learning is a popular approach to bypassing data limitations in one domain by leveraging data from another domain. This is especially useful in robotics, as it allows practitioners to reduce data collection with physical robots, which can be time-consuming and cause wear and tear. The most common way of doing this with neural networks is to take an existing neural network, and simply train it more with new data. However, we show that in some situations this can lead to significantly worse performance than simply using the transferred model without adaptation. We find that a major cause of these problems is that models trained on small amounts of data can have chaotic or divergent behavior in some regions. We derive an upper bound on the Lyapunov exponent of a trained transition model, and demonstrate two approaches that make use of this insight. Both show significant improvement over traditional fine-tuning. Experiments performed on real underactuated soft robotic hands clearly demonstrate the capability to transfer a dynamic model from one hand to another.
翻訳日:2022-11-30 23:04:06 公開日:2020-05-21
# 1対1のクロスドメイン勧告に対する文脈不変性による伝達学習

Transfer Learning via Contextual Invariants for One-to-Many Cross-Domain Recommendation ( http://arxiv.org/abs/2005.10473v1 )

ライセンス: Link先を確認
Adit Krishnan, Mahashweta Das, Mangesh Bendre, Hao Yang, Hari Sundaram(参考訳) ソーシャルウェブ上の新規ユーザーやアイテムの急速な増加は、レコメンダシステムにおけるグレイシープユーザー/ロングテールアイテムチャレンジを悪化させた。 歴史的に、クロスドメインのコクラスタリング手法は、推論品質を改善するために、密でまばらなドメインにわたる共有ユーザやアイテムの活用に成功している。 しかし、それらは共有レーティングデータに依存しており、複数のスパースターゲットドメイン(すなわち1対多の転送設定)にスケールできない。 これは、ニューラルネットワークレコメンデータアーキテクチャの採用の増加と相まって、クロスドメイン学習のためのスケーラブルなニューラルネットワーク層トランスファーアプローチを開発する動機となります。 私たちの重要な直感は、密度の高い領域とスパースドメインで共有されるドメイン不変のコンポーネントによるニューラルネットワークの協調フィルタリングをガイドし、スパースドメインで学んだユーザとアイテム表現を改善することです。 これらの共有モジュールを開発するために、ドメイン間の文脈的不変性を利用し、ユーザ-テーマ間インタラクションコンテキストを用いて、スパースなインタラクションデータであっても、インフォメーション表現空間を学習・学習できることを実証する。 グローバル決済技術企業visa(アイテムリコール19%、各ドメインの個別モデルをトレーニングするよりも3倍高速)による大規模トランザクションデータセットと2つのパブリックデータセットに対するアプローチの有効性と拡張性を示す。 このアプローチは暗黙のフィードバック設定と明示的なフィードバック設定の両方に適用できる。

The rapid proliferation of new users and items on the social web has aggravated the gray-sheep user/long-tail item challenge in recommender systems. Historically, cross-domain co-clustering methods have successfully leveraged shared users and items across dense and sparse domains to improve inference quality. However, they rely on shared rating data and cannot scale to multiple sparse target domains (i.e., the one-to-many transfer setting). This, combined with the increasing adoption of neural recommender architectures, motivates us to develop scalable neural layer-transfer approaches for cross-domain learning. Our key intuition is to guide neural collaborative filtering with domain-invariant components shared across the dense and sparse domains, improving the user and item representations learned in the sparse domains. We leverage contextual invariances across domains to develop these shared modules, and demonstrate that with user-item interaction context, we can learn-to-learn informative representation spaces even with sparse interaction data. We show the effectiveness and scalability of our approach on two public datasets and a massive transaction dataset from Visa, a global payments technology company (19% Item Recall, 3x faster vs. training separate models for each domain). Our approach is applicable to both implicit and explicit feedback settings.
翻訳日:2022-11-30 23:03:50 公開日:2020-05-21
# グラフ連続リアプノフモデル

Graphical continuous Lyapunov models ( http://arxiv.org/abs/2005.10483v1 )

ライセンス: Link先を確認
Gherardo Varando and Niels Richard Hansen(参考訳) 共分散行列の線型リアプノフ方程式は確率過程の平衡共分散行列をパラメータ化する。 このパラメトリゼーションは新たなグラフィカルモデルクラスとして解釈でき、モデルクラスが疎外化の下でどのように振る舞うかを示し、$\ell_1$-penalized loss minimizationによる構造学習法を導入する。 提案手法は, シミュレーション研究において, 代替構造学習アルゴリズムよりも優れており, タンパク質リン酸化ネットワーク再構築への応用を示す。

The linear Lyapunov equation of a covariance matrix parametrizes the equilibrium covariance matrix of a stochastic process. This parametrization can be interpreted as a new graphical model class, and we show how the model class behaves under marginalization and introduce a method for structure learning via $\ell_1$-penalized loss minimization. Our proposed method is demonstrated to outperform alternative structure learning algorithms in a simulation study, and we illustrate its application for protein phosphorylation network reconstruction.
翻訳日:2022-11-30 23:03:23 公開日:2020-05-21
# ランクへの反事実学習のための加速収束

Accelerated Convergence for Counterfactual Learning to Rank ( http://arxiv.org/abs/2005.10615v1 )

ライセンス: Link先を確認
Rolf Jagerman and Maarten de Rijke(参考訳) counterfactual learning to rank (ltr)アルゴリズムは、ログされたユーザインタラクションからランキングモデルを学び、しばしばプロダクションシステムを使って収集する。 このようなオフライン学習アプローチを採用することは、オンラインアプローチに比べて多くのメリットがありますが、ユーザのフィードバックには高いレベルのバイアスが伴うため、これは難しいものです。 unbiased ltrはinverse propensity scoring(ips)を使用して、ログされたユーザインタラクションからの偏りのない学習を可能にする。 確率勾配 Descent (SGD) アプローチを対実的学習問題に適用する際の大きな難しさの1つは、確率重みによってもたらされる大きなばらつきである。 本稿では、IPS重み付き勾配を持つSGD手法の収束速度が、IPS重みによってもたらされる大きな分散に悩まされることを示す。 この制限を克服するために,標準のips重み付き勾配降下法よりも収束性が向上した,カウンターサンプルと呼ばれる新しい学習アルゴリズムを提案する。 カウンターサンプルはより高速に収束し、多くの偏りのあるltrシナリオで広範囲な実験を行うことで、経験的な結果で理論的な結果を補うことが証明されます。

Counterfactual Learning to Rank (LTR) algorithms learn a ranking model from logged user interactions, often collected using a production system. Employing such an offline learning approach has many benefits compared to an online one, but it is challenging as user feedback often contains high levels of bias. Unbiased LTR uses Inverse Propensity Scoring (IPS) to enable unbiased learning from logged user interactions. One of the major difficulties in applying Stochastic Gradient Descent (SGD) approaches to counterfactual learning problems is the large variance introduced by the propensity weights. In this paper we show that the convergence rate of SGD approaches with IPS-weighted gradients suffers from the large variance introduced by the IPS weights: convergence is slow, especially when there are large IPS weights. To overcome this limitation, we propose a novel learning algorithm, called CounterSample, that has provably better convergence than standard IPS-weighted gradient descent methods. We prove that CounterSample converges faster and complement our theoretical findings with empirical results by performing extensive experimentation in a number of biased LTR scenarios -- across optimizers, batch sizes, and different degrees of position bias.
翻訳日:2022-11-30 23:02:53 公開日:2020-05-21
# 浅いニューラルネットワークは次元の呪いに勝てるのか? 平均的フィールドトレーニング視点

Can Shallow Neural Networks Beat the Curse of Dimensionality? A mean field training perspective ( http://arxiv.org/abs/2005.10815v1 )

ライセンス: Link先を確認
Stephan Wojtowytsch and Weinan E(参考訳) 実験的・集団的リスクに対する2層ニューラルネットワークの勾配降下訓練は,平均場スケールで$t^{-4/(d-2)}$よりも早い順に人口リスクを減少させることはない。 したがって、適度に滑らかだが、真の高次元データは次元性の呪いの対象となる可能性がある。 一般リプシッツ対象関数を用いた勾配降下訓練は、次元が増加するにつれて遅くなるが、対象関数が2層reluネットワークの自然関数空間にある場合、全ての次元においてほぼ同じ速度で収束することを示す。

We prove that the gradient descent training of a two-layer neural network on empirical or population risk may not decrease population risk at an order faster than $t^{-4/(d-2)}$ under mean field scaling. Thus gradient descent training for fitting reasonably smooth, but truly high-dimensional data may be subject to the curse of dimensionality. We present numerical evidence that gradient descent training with general Lipschitz target functions becomes slower and slower as the dimension increases, but converges at approximately the same rate in all dimensions when the target function lies in the natural function space for two-layer ReLU networks.
翻訳日:2022-11-30 23:01:51 公開日:2020-05-21
# ディープラーニングを用いた新型コロナウイルス治療薬発見のためのオープンデータ活用

Repurpose Open Data to Discover Therapeutics for COVID-19 using Deep Learning ( http://arxiv.org/abs/2005.10831v1 )

ライセンス: Link先を確認
Xiangxiang Zeng, Xiang Song, Tengfei Ma, Xiaoqin Pan, Yadi Zhou, Yuan Hou, Zheng Zhang, George Karypis, and Feixiong Cheng(参考訳) 米国だけでも、新たに重症急性呼吸器症候群(sars-cov-2)が流行した2019年人新型コロナウイルス(covid-19)パンデミック(covid-19)で85万人以上が死亡している。 しかし、現在、新型コロナウイルスに対する有効な薬は存在していない。 薬物再資源化は、新型コロナウイルスの予防・治療戦略の開発に有望な手段となる。 本研究は、新型コロナウイルス(CoV-KGE)の再使用可能な薬物を同定するための統合的ネットワークベースのディープラーニング手法を報告した。 具体的には、薬物、疾患、遺伝子、経路、表現を繋ぐ39種類の関係の1500万のエッジを含む総合的な知識グラフを、2400万のPubMed出版物の大規模な科学コーパスから構築しました。 Amazon AWSのコンピューティングリソースを用いて,SARS-CoV-2感染ヒト細胞の転写学的およびプロテオミクス的データと,現在進行中の臨床試験データにより,COVID-19と治療関連が検証された41の再生可能な薬剤(インドメサシン,トレミフェン,ニクロサミド)を同定した。 この研究は、特定の薬を推奨するものではないが、既存の薬を優先してさらなる調査を行う強力なディープラーニング手法を示しており、covid-19の治療開発を加速する可能性を秘めている。

There have been more than 850,000 confirmed cases and over 48,000 deaths from the human coronavirus disease 2019 (COVID-19) pandemic, caused by novel severe acute respiratory syndrome coronavirus (SARS-CoV-2), in the United States alone. However, there are currently no proven effective medications against COVID-19. Drug repurposing offers a promising way for the development of prevention and treatment strategies for COVID-19. This study reports an integrative, network-based deep learning methodology to identify repurposable drugs for COVID-19 (termed CoV-KGE). Specifically, we built a comprehensive knowledge graph that includes 15 million edges across 39 types of relationships connecting drugs, diseases, genes, pathways, and expressions, from a large scientific corpus of 24 million PubMed publications. Using Amazon AWS computing resources, we identified 41 repurposable drugs (including indomethacin, toremifene and niclosamide) whose therapeutic association with COVID-19 were validated by transcriptomic and proteomic data in SARS-CoV-2 infected human cells and data from ongoing clinical trials. While this study, by no means recommends specific drugs, it demonstrates a powerful deep learning methodology to prioritize existing drugs for further investigation, which holds the potential of accelerating therapeutic development for COVID-19.
翻訳日:2022-11-30 23:01:42 公開日:2020-05-21
# 深層学習における自然勾配の局所性について

On the Locality of the Natural Gradient for Deep Learning ( http://arxiv.org/abs/2005.10791v1 )

ライセンス: Link先を確認
Nihat Ay(参考訳) ニューラルネットワークを含む深ベイズネットワークにおける自然勾配学習法について検討した。 視界と隠れた単位からなる学習システムに関連付けられた2つの自然測地が存在する。 1つの幾何学は全体系、もう1つは可視部分系と関連している。 これら2つの測地は、自然勾配を暗示する。 第1のステップでは,フィッシャー情報行列の局所性により,第1の幾何学における自然勾配の単純化が図られる。 この単純化は、第2の幾何学に関して対応する単純化に直接は翻訳されない。 自然勾配の2つのバージョンの関係を研究するための理論を開発し、第1のモデルに基づく第2の幾何学に関する自然勾配の単純化方法の概要を述べる。 本手法は,深層ネットワークにおける自然勾配法の効率的な適用のための補助モデルとして認識モデルを組み込むことを提案する。

We study the natural gradient method for learning in deep Bayesian networks, including neural networks. There are two natural geometries associated with such learning systems consisting of visible and hidden units. One geometry is related to the full system, the other one to the visible sub-system. These two geometries imply different natural gradients. In a first step, we demonstrate a great simplification of the natural gradient with respect to the first geometry, due to locality properties of the Fisher information matrix. This simplification does not directly translate to a corresponding simplification with respect to the second geometry. We develop the theory for studying the relation between the two versions of the natural gradient and outline a method for the simplification of the natural gradient with respect to the second geometry based on the first one. This method suggests to incorporate a recognition model as an auxiliary model for the efficient application of the natural gradient method in deep networks.
翻訳日:2022-11-30 22:54:53 公開日:2020-05-21
# CHEER: 知識注入による貧弱モデルを支援するリッチモデル

CHEER: Rich Model Helps Poor Model via Knowledge Infusion ( http://arxiv.org/abs/2005.10918v1 )

ライセンス: Link先を確認
Cao Xiao, Trong Nghia Hoang, Shenda Hong, Tengfei Ma, Jimeng Sun(参考訳) リッチデータ環境(集中治療ユニットなど)に複数の機能チャネルを持つデータの可用性によって、医療にディープラーニング(dl)を適用することへの関心が高まっている。 しかし、他の多くの実践的な状況では、貧弱なデータ環境(例えば家庭)において、機能チャネルがはるかに少ないデータしかアクセスできない。 関連環境でリッチデータを用いて訓練された既存モデルから抽出した知識を活用して、このような貧弱なデータ環境から学習したモデルの性能を向上させるにはどうすればよいか。 そこで我々は,このようなリッチなモデルを伝達可能な表現に簡潔に要約し,貧弱なモデルに組み込んで性能を向上させるための知識注入フレームワークである cheer を開発した。 融合モデルは理論的に解析され、いくつかのデータセットで実証的に評価される。 実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。

There is a growing interest in applying deep learning (DL) to healthcare, driven by the availability of data with multiple feature channels in rich-data environments (e.g., intensive care units). However, in many other practical situations, we can only access data with much fewer feature channels in a poor-data environments (e.g., at home), which often results in predictive models with poor performance. How can we boost the performance of models learned from such poor-data environment by leveraging knowledge extracted from existing models trained using rich data in a related environment? To address this question, we develop a knowledge infusion framework named CHEER that can succinctly summarize such rich model into transferable representations, which can be incorporated into the poor model to improve its performance. The infused model is analyzed theoretically and evaluated empirically on several datasets. Our empirical results showed that CHEER outperformed baselines by 5.60% to 46.80% in terms of the macro-F1 score on multiple physiological datasets.
翻訳日:2022-11-30 22:54:41 公開日:2020-05-21
# ヘキサポッドロボットの分散・適応ロコモーション制御のための分散型深部強化学習

Decentralized Deep Reinforcement Learning for a Distributed and Adaptive Locomotion Controller of a Hexapod Robot ( http://arxiv.org/abs/2005.11164v1 )

ライセンス: Link先を確認
Malte Schilling, Kai Konen, Frank W. Ohl, Timo Korthals(参考訳) locomotionは動物の適応行動の典型例であり、生物制御の原則は脚付きロボットの制御アーキテクチャに影響を与えた。 近年、機械学習が多くのタスクに適用されているが、Deep Reinforcement Learning(深層強化学習)のアプローチは、継続的な制御タスクにおいて現実世界のロボットに適用した場合、特に不確実性に対処できる堅牢なソリューションとして現れていない。 したがって、このような学習アーキテクチャに生物学的原理を組み込むことに新たな関心がある。 運動制御にみられる階層的な組織を誘導することは既に成功しているものの、本論文では異なる脚の協調のために昆虫の運動制御にみられる分散組織を提案する。 シミュレートされたヘキサポッドロボットには分散分散アーキテクチャが導入され、コントローラの詳細は深層強化学習によって学習される。 まず,このような同時的局所構造が歩行行動の学習に有効であることを示す。 第二に、より単純な組織は全体論的アプローチよりも速く学習されるということです。

Locomotion is a prime example for adaptive behavior in animals and biological control principles have inspired control architectures for legged robots. While machine learning has been successfully applied to many tasks in recent years, Deep Reinforcement Learning approaches still appear to struggle when applied to real world robots in continuous control tasks and in particular do not appear as robust solutions that can handle uncertainties well. Therefore, there is a new interest in incorporating biological principles into such learning architectures. While inducing a hierarchical organization as found in motor control has shown already some success, we here propose a decentralized organization as found in insect motor control for coordination of different legs. A decentralized and distributed architecture is introduced on a simulated hexapod robot and the details of the controller are learned through Deep Reinforcement Learning. We first show that such a concurrent local structure is able to learn better walking behavior. Secondly, that the simpler organization is learned faster compared to holistic approaches.
翻訳日:2022-11-30 22:54:23 公開日:2020-05-21
# AOWS:遅延制約付き適応的かつ最適なネットワーク幅探索

AOWS: Adaptive and optimal network width search with latency constraints ( http://arxiv.org/abs/2005.10481v1 )

ライセンス: Link先を確認
Maxim Berman, Leonid Pishchulin, Ning Xu, Matthew B. Blaschko, Gerard Medioni(参考訳) ニューラルアーキテクチャサーチ(NAS)アプローチは、ターゲットプラットフォーム上で優れたパフォーマンスを維持しながら、計算制約に適合する新しいCNNアーキテクチャを自動的に見つけることを目的としている。 本稿では,特定のハードウェア上での遅延制約を考慮し,チャネル番号を最適に検索する,新しいワンショットNAS手法を提案する。 まず,ブラックボックスアプローチを用いて,推論計算への低レベルアクセスを必要とせずに,特定の推論プラットフォームに対する現実的なレイテンシモデルを推定できることを示した。 次に,任意のチャネル構成をスコアするペアワイズmrfを設計し,動的プログラミングを用いて最適な構成を効率的に復号し,ネットワーク幅探索の最適解を得る。 最後に,対象の計算制約に対して訓練フェーズを徐々に特殊化する適応チャネル構成サンプリング方式を提案する。 イメージネットの分類実験により,ネットワークの精度を向上しつつ,異なるプラットフォーム上のリソース制約に適合するネットワークを見いだせることを示した。

Neural architecture search (NAS) approaches aim at automatically finding novel CNN architectures that fit computational constraints while maintaining a good performance on the target platform. We introduce a novel efficient one-shot NAS approach to optimally search for channel numbers, given latency constraints on a specific hardware. We first show that we can use a black-box approach to estimate a realistic latency model for a specific inference platform, without the need for low-level access to the inference computation. Then, we design a pairwise MRF to score any channel configuration and use dynamic programming to efficiently decode the best performing configuration, yielding an optimal solution for the network width search. Finally, we propose an adaptive channel configuration sampling scheme to gradually specialize the training phase to the target computational constraints. Experiments on ImageNet classification show that our approach can find networks fitting the resource constraints on different target platforms while improving accuracy over the state-of-the-art efficient networks.
翻訳日:2022-11-30 22:54:07 公開日:2020-05-21
# 逆境設定におけるオートエンコーダの役割の再検討

Revisiting Role of Autoencoders in Adversarial Settings ( http://arxiv.org/abs/2005.10750v1 )

ライセンス: Link先を確認
Byeong Cheon Kim, Jung Uk Kim, Hakmin Lee, Yong Man Ro(参考訳) 敵の攻撃に対抗するために、オートエンコーダ構造は勾配マスキングと見なされるデノイジングを行うために広く使われている。 本稿では,対戦環境におけるオートエンコーダの役割を再考する。 本研究は, 実験結果と解析を通じて, 自己エンコーダの対向ロバスト性の性質について述べる。 また, 自己エンコーダは, 対向的強靭性の原因となるロバストな特徴を用いることも見出した。 我々は,自己エンコーダの対角強靭性の発見は,今後の敵防衛研究や応用の手がかりとなると信じている。

To combat against adversarial attacks, autoencoder structure is widely used to perform denoising which is regarded as gradient masking. In this paper, we revisit the role of autoencoders in adversarial settings. Through the comprehensive experimental results and analysis, this paper presents the inherent property of adversarial robustness in the autoencoders. We also found that autoencoders may use robust features that cause inherent adversarial robustness. We believe that our discovery of the adversarial robustness of the autoencoders can provide clues to the future research and applications for adversarial defense.
翻訳日:2022-11-30 22:53:14 公開日:2020-05-21
# メモリ拡張横型トランスフォーマを用いたリップリードのためのスポットファストネットワーク

SpotFast Networks with Memory Augmented Lateral Transformers for Lipreading ( http://arxiv.org/abs/2005.10903v1 )

ライセンス: Link先を確認
Peratham Wiriyathammabhum(参考訳) 本稿では,単語レベルのリップリーディングのための新しいディープラーニングアーキテクチャを提案する。 従来の研究は、事前訓練された深部3次元畳み込みニューラルネットワークをフロントエンド特徴抽出器として組み込む可能性を示している。 我々は,行動認識のための最先端のスローファストネットワークの変種であるspotfast networksを紹介し,時間窓をスポットパスとし,全フレームを高速経路とする。 さらに,メモリ拡張横変圧器を組み込んで逐次特徴を学習し,分類を行う。 LRWデータセット上で提案したモデルを評価する。 実験により,提案モデルが様々な最先端モデルより優れ,メモリ拡張横型トランスフォーマーを組み込むことで,SpotFastネットワークの3.7%の改善が得られた。

This paper presents a novel deep learning architecture for word-level lipreading. Previous works suggest a potential for incorporating a pretrained deep 3D Convolutional Neural Networks as a front-end feature extractor. We introduce a SpotFast networks, a variant of the state-of-the-art SlowFast networks for action recognition, which utilizes a temporal window as a spot pathway and all frames as a fast pathway. We further incorporate memory augmented lateral transformers to learn sequential features for classification. We evaluate the proposed model on the LRW dataset. The experiments show that our proposed model outperforms various state-of-the-art models and incorporating the memory augmented lateral transformers makes a 3.7% improvement to the SpotFast networks.
翻訳日:2022-11-30 22:53:06 公開日:2020-05-21
# Trialstreamer: リアルタイムな医療エビデンスマッピングとブラウジング

Trialstreamer: Mapping and Browsing Medical Evidence in Real-Time ( http://arxiv.org/abs/2005.10865v1 )

ライセンス: Link先を確認
Benjamin E. Nye, Ani Nenkova, Iain J. Marshall, Byron C. Wallace(参考訳) 臨床試験レポートのリビングデータベースであるtrialstreamerを紹介する。 ここでは, バイオメディカルから抽出したエビデンス抽出成分について概説し, 文献評価において臨床医が必要とする重要な情報を抽出し, それらの関係について述べる。 具体的には、治験参加者の記述、各腕における治療の比較(介入)、どの結果が測定されたかを抽出する。 このシステムは、どの介入が最善であると報告されたかを、特定された試行結果指標との関係を判断することで推測しようとする。 個々の試行を要約することに加えて、抽出されたデータ要素は、同じトピックに関する多くの試行で結果の自動合成を可能にする。 本研究は,medlineで索引づけされた無作為化試験の報告すべてに大規模システムを適用し,エビデンスマップの自動生成を可能にし,関連するすべての臨床試験のデータを組み合わせたさまざまな介入の有効性をグローバルに把握する。 すべてのコードとモデルをWebインターフェースのデモと一緒に自由に利用できます。

We introduce Trialstreamer, a living database of clinical trial reports. Here we mainly describe the evidence extraction component; this extracts from biomedical abstracts key pieces of information that clinicians need when appraising the literature, and also the relations between these. Specifically, the system extracts descriptions of trial participants, the treatments compared in each arm (the interventions), and which outcomes were measured. The system then attempts to infer which interventions were reported to work best by determining their relationship with identified trial outcome measures. In addition to summarizing individual trials, these extracted data elements allow automatic synthesis of results across many trials on the same topic. We apply the system at scale to all reports of randomized controlled trials indexed in MEDLINE, powering the automatic generation of evidence maps, which provide a global view of the efficacy of different interventions combining data from all relevant clinical trials on a topic. We make all code and models freely available alongside a demonstration of the web interface.
翻訳日:2022-11-30 22:52:38 公開日:2020-05-21
# CPOT: 最適輸送によるチャネルプルーニング

CPOT: Channel Pruning via Optimal Transport ( http://arxiv.org/abs/2005.10451v1 )

ライセンス: Link先を確認
Yucong Shen, Li Shen, Hao-Zhi Huang, Xuan Wang, Wei Liu(参考訳) 近年のディープニューラルネットワーク(DNN)の進歩は、ネットワークパラメータを著しく増加させ、限られたリソースを持つプラットフォームへのDNNの展開を極めて困難にしている。 そのため、深層ネットワークアーキテクチャを圧縮し、推論プロセスを高速化する様々なプルーニング手法が開発されている。 既存のチャネルプルーニング手法のほとんどは、よく設計されたフィルタランキング基準に従って、重要でないフィルタを破棄する。 しかし、深層学習モデルの解釈性が限られているため、冗長フィルタを識別するための適切なランキング基準の設計は困難である。 このような課題に対処するため,CPOT と呼ばれる Optimal Transport を用いたチャネルプルーニング手法を提案する。 具体的には、最深部モデルにおける各層のチャネルに対するワッサーシュタイン・バリセンタ(Wasserstein barycenter)を、最適な輸送距離の下で確率分布の集合の平均とする。 次に、Wasserstein Barycentersにある冗長な情報を抽出する。 最後に,分類タスクにおいてCPOTはResNet-20,ResNet-32,ResNet-56,ResNet-110の最先端手法よりも優れていることを示す。 さらに,提案手法は,画像から画像への変換作業の難易度を抑えることで,StarGANモデルの圧縮に有効であることを示す。

Recent advances in deep neural networks (DNNs) lead to tremendously growing network parameters, making the deployments of DNNs on platforms with limited resources extremely difficult. Therefore, various pruning methods have been developed to compress the deep network architectures and accelerate the inference process. Most of the existing channel pruning methods discard the less important filters according to well-designed filter ranking criteria. However, due to the limited interpretability of deep learning models, designing an appropriate ranking criterion to distinguish redundant filters is difficult. To address such a challenging issue, we propose a new technique of Channel Pruning via Optimal Transport, dubbed CPOT. Specifically, we locate the Wasserstein barycenter for channels of each layer in the deep models, which is the mean of a set of probability distributions under the optimal transport metric. Then, we prune the redundant information located by Wasserstein barycenters. At last, we empirically demonstrate that, for classification tasks, CPOT outperforms the state-of-the-art methods on pruning ResNet-20, ResNet-32, ResNet-56, and ResNet-110. Furthermore, we show that the proposed CPOT technique is good at compressing the StarGAN models by pruning in the more difficult case of image-to-image translation tasks.
翻訳日:2022-11-30 22:46:21 公開日:2020-05-21
# hyperstar: ディープネットワークのためのタスクアウェアハイパーパラメータ

HyperSTAR: Task-Aware Hyperparameters for Deep Networks ( http://arxiv.org/abs/2005.10524v1 )

ライセンス: Link先を確認
Gaurav Mittal, Chang Liu, Nikolaos Karianakis, Victor Fragoso, Mei Chen, Yun Fu(参考訳) 深層ニューラルネットワークは視覚認識タスクの解法に優れていますが、最適なハイパーパラメータを見つけるにはかなりの努力が必要です。 ハイパーパラメータ最適化(hpo)アプローチは、優れたハイパーパラメータを見つけるプロセスを自動化するが、与えられたタスク(タスクに依存しない)に適応せず、計算効率が低下する。 HPO時間を短縮するため,深層ニューラルネットワークのためのタスク認識手法であるHyperSTAR(System for Task Aware Hyperparameter Recommendation)を提案する。 hyperstarはハイパーパラメータをランク付けし、ジョイントデータセット-ハイパーパラメータ空間で条件づけされたパフォーマンスを予測することで推奨する。 データセット(タスク)表現とパフォーマンス予測器を、エンド・ツー・エンドの方法で生画像から直接学習する。 このレコメンデーションは,既存のHPOメソッドと統合してタスク認識し,最適な性能を達成するための時間を著しく短縮する。 我々は,2つの異なるネットワークアーキテクチャ上で利用可能な10の大規模画像分類データセットについて広範な実験を行い,HyperSTARが既存の手法に比べて50%少ない構成を評価できることを確認した。 さらに,HyperSTARがHyperband(HB)タスク認識を実現し,バニラHBとベイジアン最適化HB(BOHB)の両方で要求される予算の25%の最適精度を実現することを実証した。

While deep neural networks excel in solving visual recognition tasks, they require significant effort to find hyperparameters that make them work optimally. Hyperparameter Optimization (HPO) approaches have automated the process of finding good hyperparameters but they do not adapt to a given task (task-agnostic), making them computationally inefficient. To reduce HPO time, we present HyperSTAR (System for Task Aware Hyperparameter Recommendation), a task-aware method to warm-start HPO for deep neural networks. HyperSTAR ranks and recommends hyperparameters by predicting their performance conditioned on a joint dataset-hyperparameter space. It learns a dataset (task) representation along with the performance predictor directly from raw images in an end-to-end fashion. The recommendations, when integrated with an existing HPO method, make it task-aware and significantly reduce the time to achieve optimal performance. We conduct extensive experiments on 10 publicly available large-scale image classification datasets over two different network architectures, validating that HyperSTAR evaluates 50% less configurations to achieve the best performance compared to existing methods. We further demonstrate that HyperSTAR makes Hyperband (HB) task-aware, achieving the optimal accuracy in just 25% of the budget required by both vanilla HB and Bayesian Optimized HB~(BOHB).
翻訳日:2022-11-30 22:45:57 公開日:2020-05-21
# MTSS: 複数のドメイン教師から学び、多ドメイン対話エキスパートになる

MTSS: Learn from Multiple Domain Teachers and Become a Multi-domain Dialogue Expert ( http://arxiv.org/abs/2005.10450v1 )

ライセンス: Link先を確認
Shuke Peng, Feng Ji, Zehao Lin, Shaobo Cui, Haiqing Chen, Yin Zhang(参考訳) ハイクオリティなマルチドメイン対話システムの構築は,各ドメイン間の複雑で絡み合った対話状態空間が,対話の質を著しく制限し,生成した応答にさらに影響を及ぼすため,困難な作業である。 本稿では,マルチドメイン設定において,満足のいく方針を得るための新しい手法を提案し,結び目対話状態表現問題を微妙に回避する。 実学教育のシナリオに触発された本手法は,複数のドメイン固有の教師と普遍的な学生から構成される。 各教師は、特定のドメインにのみ焦点をあて、その対応するドメイン知識と対話ポリシーを、正確に抽出された単一ドメイン対話状態表現に基づいて学習する。 そして、これらのドメイン固有の教師は、ドメインの知識とポリシーを普遍的な学生モデルに付与し、この学生モデルを多分野対話エキスパートとしてまとめる。 実験の結果,本手法はマルチドメインと単一ドメインの両方でSOTAと競合する結果を得た。

How to build a high-quality multi-domain dialogue system is a challenging work due to its complicated and entangled dialogue state space among each domain, which seriously limits the quality of dialogue policy, and further affects the generated response. In this paper, we propose a novel method to acquire a satisfying policy and subtly circumvent the knotty dialogue state representation problem in the multi-domain setting. Inspired by real school teaching scenarios, our method is composed of multiple domain-specific teachers and a universal student. Each individual teacher only focuses on one specific domain and learns its corresponding domain knowledge and dialogue policy based on a precisely extracted single domain dialogue state representation. Then, these domain-specific teachers impart their domain knowledge and policies to a universal student model and collectively make this student model a multi-domain dialogue expert. Experiment results show that our method reaches competitive results with SOTAs in both multi-domain and single domain setting.
翻訳日:2022-11-30 22:45:33 公開日:2020-05-21
# ニューラルネットワークがレオナルドのサルベータ・ムンディを見る

A Neural Network Looks at Leonardo's(?) Salvator Mundi ( http://arxiv.org/abs/2005.10600v1 )

ライセンス: Link先を確認
Steven J. Frank and Andrea M. Frank(参考訳) 我々は畳み込みニューラルネットワーク(CNN)を使って、レオナルド・ダ・ヴィンチの作品を取り巻く著者の質問を分析します。 研究中のアーティストの作品や、他のアーティストの視覚的に匹敵する作品に基づいてトレーニングされた私たちのシステムは、おそらく偽作を特定し、帰属論争に光を当てることができます。 レオナルドの数少ない現存する絵画は、我々のシステムの限界をテストし、テストと分析の相関技術を必要とする。

We use convolutional neural networks (CNNs) to analyze authorship questions surrounding the works of Leonardo da Vinci -- in particular, Salvator Mundi, the world's most expensive painting and among the most controversial. Trained on the works of an artist under study and visually comparable works of other artists, our system can identify likely forgeries and shed light on attribution controversies. Leonardo's few extant paintings test the limits of our system and require corroborative techniques of testing and analysis.
翻訳日:2022-11-30 22:45:16 公開日:2020-05-21
# 表現学習を用いた製品競争の研究

Studying Product Competition Using Representation Learning ( http://arxiv.org/abs/2005.10402v1 )

ライセンス: Link先を確認
Fanglin Chen, Xiao Liu, Davide Proserpio, Isamar Troncoso, Feiyu Xiong(参考訳) ブランドレベルではなく製品レベルでの競争と市場構造を研究することで、企業は共食いや製品ラインの最適化に関する洞察を得ることができる。 しかし、eコマースプラットフォームで利用可能な数百万の製品に対する製品レベルの競争を分析するのは、計算上困難である。 本研究では,表現学習アルゴリズム word2vec に基づく手法である product2vec を導入し,製品数が大きい場合に製品レベルの競争を研究する。 提案モデルでは,ショッピングバスケットを入力とし,各商品に対して重要な商品情報を保持する低次元埋め込みを生成する。 製品埋め込みが戦略的意思決定に役立つためには、経済理論と因果推論を活用し、Word2Vecに2つの修正を提案する。 まず第一に、相補性と交換性という2つの尺度を作成し、製品ペアが相補的か代替的かを判断できるようにします。 第二に、これらのベクトルをランダムなユーティリティベース選択モデルと組み合わせて需要を予測する。 価格の弾性、すなわち需要が価格の変化にどう反応するかを正確に推定するために、製品ベクトルから価格の影響を取り除いて、word2vecを修正します。 最先端モデルと比較して、我々のアプローチは高速であり、より正確な需要予測と価格弾力性を生み出すことができる。

Studying competition and market structure at the product level instead of brand level can provide firms with insights on cannibalization and product line optimization. However, it is computationally challenging to analyze product-level competition for the millions of products available on e-commerce platforms. We introduce Product2Vec, a method based on the representation learning algorithm Word2Vec, to study product-level competition, when the number of products is large. The proposed model takes shopping baskets as inputs and, for every product, generates a low-dimensional embedding that preserves important product information. In order for the product embeddings to be useful for firm strategic decision making, we leverage economic theories and causal inference to propose two modifications to Word2Vec. First of all, we create two measures, complementarity and exchangeability, that allow us to determine whether product pairs are complements or substitutes. Second, we combine these vectors with random utility-based choice models to forecast demand. To accurately estimate price elasticities, i.e., how demand responds to changes in price, we modify Word2Vec by removing the influence of price from the product vectors. We show that, compared with state-of-the-art models, our approach is faster, and can produce more accurate demand forecasts and price elasticities.
翻訳日:2022-11-30 22:45:06 公開日:2020-05-21
# 蒸留がなぜ役立つのか-統計的視点

Why distillation helps: a statistical perspective ( http://arxiv.org/abs/2005.10419v1 )

ライセンス: Link先を確認
Aditya Krishna Menon, Ankit Singh Rawat, Sashank J. Reddi, Seungyeon Kim, and Sanjiv Kumar(参考訳) 知識蒸留は、単純な「学生」モデルの性能を向上させる技術であり、複雑な「教師」モデルから得られたラベルを1ホットのトレーニングラベルに置き換えるものである。 この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。 本稿では,この問題に対処する蒸留の統計的視点を示し,超多クラス検索技術との新たなつながりを提供する。 私たちの中核的な観察は、教師が基礎となる(ベイズ)クラス確率関数を推定しようとすることである。 そこで,本研究では,授業確率の近似知識が学習にどのように寄与するかを定量化する,学生の目的におけるバイアス分散の基本的なトレードオフを定式化する。 最後に, 蒸留が既存の負の鉱業技術を補完して極端に多クラス検索を行う方法を示し, これらのアイデアを組み合わせた統一目的を提案する。

Knowledge distillation is a technique for improving the performance of a simple "student" model by replacing its one-hot training labels with a distribution over labels obtained from a complex "teacher" model. While this simple approach has proven widely effective, a basic question remains unresolved: why does distillation help? In this paper, we present a statistical perspective on distillation which addresses this question, and provides a novel connection to extreme multiclass retrieval techniques. Our core observation is that the teacher seeks to estimate the underlying (Bayes) class-probability function. Building on this, we establish a fundamental bias-variance tradeoff in the student's objective: this quantifies how approximate knowledge of these class-probabilities can significantly aid learning. Finally, we show how distillation complements existing negative mining techniques for extreme multiclass retrieval, and propose a unified objective which combines these ideas.
翻訳日:2022-11-30 22:44:46 公開日:2020-05-21
# Bernoulli変分オートエンコーダと自己制御勾配推定器を用いたペアワイズ監視ハッシュ

Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and Self-Control Gradient Estimator ( http://arxiv.org/abs/2005.10477v1 )

ライセンス: Link先を確認
Siamak Zamani Dadaneh, Shahin Boluki, Mingzhang Yin, Mingyuan Zhou, Xiaoning Qian(参考訳) 多くの大規模情報検索システム、特にテキストデータにおいて、セマンティックハッシュは高速類似検索の重要な構成要素となっている。 ハッシュコードとしてのバイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。 本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。 既存の偏り勾配推定器を頼りに最適化する代わりに、偏りのない低分散勾配推定器を用いて、2つの相関した2進ハッシュ符号上の非微分損失関数を評価してハッシュ関数を最適化し、勾配推定の分散を制御する。 この新たなセマンティックハッシュフレームワークは,我々の総合実験で示すように,最先端技術よりも優れた性能を実現する。

Semantic hashing has become a crucial component of fast similarity search in many large-scale information retrieval systems, in particular, for text data. Variational auto-encoders (VAEs) with binary latent variables as hashing codes provide state-of-the-art performance in terms of precision for document retrieval. We propose a pairwise loss function with discrete latent VAE to reward within-class similarity and between-class dissimilarity for supervised hashing. Instead of solving the optimization relying on existing biased gradient estimators, an unbiased low-variance gradient estimator is adopted to optimize the hashing function by evaluating the non-differentiable loss function over two correlated sets of binary hashing codes to control the variance of gradient estimates. This new semantic hashing framework achieves superior performance compared to the state-of-the-arts, as demonstrated by our comprehensive experiments.
翻訳日:2022-11-30 22:44:29 公開日:2020-05-21
# 表現学習におけるオートエンコーダの利用に関する分析 : 基礎, 学習課題事例研究, 説明可能性, 課題

An analysis on the use of autoencoders for representation learning: fundamentals, learning task case studies, explainability and challenges ( http://arxiv.org/abs/2005.10516v1 )

ライセンス: Link先を確認
David Charte, Francisco Charte, Mar\'ia J. del Jesus, Francisco Herrera(参考訳) 多くの機械学習タスクでは、データの優れた表現を学ぶことが、高性能なソリューションを構築する鍵となる。 これは、ほとんどの学習アルゴリズムが、データのモデルを見つけるために機能と共に動作するためである。 例えば、クラスが分離しやすい空間にデータがマッピングされた場合、分類性能が向上し、特徴空間内のデータの多様体を見つけることで回帰が容易になる。 一般的な規則として、特徴は主成分分析のような統計的手法や、isomapや局所線形埋め込みのような多様体学習技術によって変換される。 多くの表現学習手法から、最も汎用性の高いツールの1つはオートエンコーダである。 本稿では,その学習表現にどのように影響し,望ましい学習行動を達成するかを示す。 そこで本研究では,可視化のためのデータ埋め込み,画像分割,意味ハッシュ,異常動作の検出,インスタンス生成といった一連の学習タスクを提案する。 表現学習の観点から,各分野における技術方法論の状況に従ってモデル化する。 オートエンコーダを学習方法として用いた各タスクに対する解を提案する。 理論的発展は、異なる問題に対するデータセットの選択と各ソリューションの実装を用いて実践され、その後、各ケーススタディにおける結果に関する議論と、他の6つの学習アプリケーションに関する簡単な説明が続く。 オートエンコーダのコンテキストにおける現在の課題と説明可能性へのアプローチについても検討する。 これらすべてが、構造の変更と目的関数のおかげで、オートエンコーダは、機能空間の変換としてモデル化できる多くの問題に対する、可能な解決策の核となるかもしれない、と結論付けるのに役立つ。

In many machine learning tasks, learning a good representation of the data can be the key to building a well-performant solution. This is because most learning algorithms operate with the features in order to find models for the data. For instance, classification performance can improve if the data is mapped to a space where classes are easily separated, and regression can be facilitated by finding a manifold of data in the feature space. As a general rule, features are transformed by means of statistical methods such as principal component analysis, or manifold learning techniques such as Isomap or locally linear embedding. From a plethora of representation learning methods, one of the most versatile tools is the autoencoder. In this paper we aim to demonstrate how to influence its learned representations to achieve the desired learning behavior. To this end, we present a series of learning tasks: data embedding for visualization, image denoising, semantic hashing, detection of abnormal behaviors and instance generation. We model them from the representation learning perspective, following the state of the art methodologies in each field. A solution is proposed for each task employing autoencoders as the only learning method. The theoretical developments are put into practice using a selection of datasets for the different problems and implementing each solution, followed by a discussion of the results in each case study and a brief explanation of other six learning applications. We also explore the current challenges and approaches to explainability in the context of autoencoders. All of this helps conclude that, thanks to alterations in their structure as well as their objective function, autoencoders may be the core of a possible solution to many problems which can be modeled as a transformation of the feature space.
翻訳日:2022-11-30 22:44:11 公開日:2020-05-21
# 遠隔電気傾き最適化のためのオフポリシー学習

Off-policy Learning for Remote Electrical Tilt Optimization ( http://arxiv.org/abs/2005.10577v1 )

ライセンス: Link先を確認
Filippo Vannella, Jaeseong Jeong, Alexandre Proutiere(参考訳) 本稿では,遠隔型マルチアーマッド・バンディット(CMAB)技術を用いた遠隔電気ティルト(RET)最適化の問題に対処する。 RET最適化の目標は、アンテナの垂直傾き角度の向きを制御し、携帯電話ネットワークのユーザが知覚するQuality of Service(QoS)を表すキーパフォーマンス指標(KPI)を最適化することである。 改良されたtilt updateポリシーを学ぶのは難しい。 一方で、実際のネットワークでオンライン方式で新しいポリシーを思いつくには、これまで使われてこなかったティルト更新の探索が必要であり、運用上のリスクが高すぎる。 一方、シミュレーションによるこのポリシーの策定は、シミュレーションと現実のギャップに悩まされている。 本稿では,実ネットワーク上で収集した既存データを用いてオフラインで改善ポリシーを学習することで,これらの問題を回避した。 政治以外のCMABフレームワークを用いた政策策定の課題を定式化する。 データから最適な傾き更新ポリシーを抽出するためのCMAB学習アルゴリズムを提案する。 我々は、実世界の4G長期進化(LTE)セルネットワークデータに基づいて、これらのポリシーを訓練し、評価する。 我々のポリシーは、データ収集に使用されるルールベースのロギングポリシーに対して一貫した改善を示しています。

We address the problem of Remote Electrical Tilt (RET) optimization using off-policy Contextual Multi-Armed-Bandit (CMAB) techniques. The goal in RET optimization is to control the orientation of the vertical tilt angle of the antenna to optimize Key Performance Indicators (KPIs) representing the Quality of Service (QoS) perceived by the users in cellular networks. Learning an improved tilt update policy is hard. On the one hand, coming up with a new policy in an online manner in a real network requires exploring tilt updates that have never been used before, and is operationally too risky. On the other hand, devising this policy via simulations suffers from the simulation-to-reality gap. In this paper, we circumvent these issues by learning an improved policy in an offline manner using existing data collected on real networks. We formulate the problem of devising such a policy using the off-policy CMAB framework. We propose CMAB learning algorithms to extract optimal tilt update policies from the data. We train and evaluate these policies on real-world 4G Long Term Evolution (LTE) cellular network data. Our policies show consistent improvements over the rule-based logging policy used to collect the data.
翻訳日:2022-11-30 22:43:45 公開日:2020-05-21
# TASO:メモリ制約DNN推論のための時間と空間最適化

TASO: Time and Space Optimization for Memory-Constrained DNN Inference ( http://arxiv.org/abs/2005.10709v1 )

ライセンス: Link先を確認
Yuan Wen, Andrew Anderson, Valentin Radu, Michael F.P. O'Boyle, David Gregg(参考訳) 畳み込みニューラルネットワーク(cnns)は、産業用ロボットや自動化システムからモバイルデバイス上の生体認証まで、多くの組み込みアプリケーションで使用されている。 最先端の分類は通常、大きなネットワークによって実現され、メモリとエネルギーの予算が厳しく制限されたモバイルおよび組み込みデバイスで実行するのは非常に高価である。 本稿では、畳み込み層を実装するプリミティブ演算を選択するための整数線形プログラミング(ILP)に基づくCNNモデルの事前ドメイン固有最適化手法を提案する。 実行時間とメモリ消費のトレードオフを最適化します。 1)各層を実装するためのデータレイアウトとプリミティブ操作を選択することにより,ネットワーク全体の実行時間を最小化しようとする。 2) レイヤ毎のメモリフットプリントの上限を反映する適切なワークスペースの割り当て。 これら2つの最適化戦略は、Cコンパイラを持つ任意のプラットフォーム上でCNNを実行するために使用できる。 ARM Cortex-A15におけるImageNetニューラルアーキテクチャ(GoogleNet,AlexNet,VGG,ResNet,SqueezeNet)による評価では,greedyアルゴリズムに基づくプリミティブセレクションと比較して8倍のスピードアップが得られ,メモリ要求を2.2倍削減すると同時に,推論時間のみを考慮したソルバに比べて推論時間の15%を犠牲にする。 さらに、最適化アプローチでは、メモリと遅延トレードオフのParetoフロンティアにまたがるさまざまな構成のための最適なポイントが公開されており、任意のシステム制約の下で使用することができる。

Convolutional neural networks (CNNs) are used in many embedded applications, from industrial robotics and automation systems to biometric identification on mobile devices. State-of-the-art classification is typically achieved by large networks, which are prohibitively expensive to run on mobile and embedded devices with tightly constrained memory and energy budgets. We propose an approach for ahead-of-time domain specific optimization of CNN models, based on an integer linear programming (ILP) for selecting primitive operations to implement convolutional layers. We optimize the trade-off between execution time and memory consumption by: 1) attempting to minimize execution time across the whole network by selecting data layouts and primitive operations to implement each layer; and 2) allocating an appropriate workspace that reflects the upper bound of memory footprint per layer. These two optimization strategies can be used to run any CNN on any platform with a C compiler. Our evaluation with a range of popular ImageNet neural architectures (GoogleNet, AlexNet, VGG, ResNet and SqueezeNet) on the ARM Cortex-A15 yields speedups of 8x compared to a greedy algorithm based primitive selection, reduces memory requirement by 2.2x while sacrificing only 15% of inference time compared to a solver that considers inference time only. In addition, our optimization approach exposes a range of optimal points for different configurations across the Pareto frontier of memory and latency trade-off, which can be used under arbitrary system constraints.
翻訳日:2022-11-30 22:43:28 公開日:2020-05-21
# エッジとクラウドをまたいだ条件付きディープハイブリッドニューラルネットワーク

Conditionally Deep Hybrid Neural Networks Across Edge and Cloud ( http://arxiv.org/abs/2005.10851v1 )

ライセンス: Link先を確認
Yinghan Long, Indranil Chakraborty, Kaushik Roy(参考訳) 日々の生活における"インターネット"の浸透は、クラウドコンピューティングとエッジインテリジェンスとのコラボレーションを含む、近年の霧のコンピューティングの急増につながっている。 そのため、深層学習は、このようなインテリジェントなシステムを実現するための大きな原動力となっている。 しかし、ディープラーニングにおけるモデルサイズの増加は、リソース制約のあるエッジデバイスへのデプロイに重大な課題をもたらす。 さらに、分散インテリジェンス環境では、エッジシステムとクラウドシステムの間で効率的なワークロード分散が必要である。 そこで本研究では,aiベースのフォグコンピューティングを実現するための条件付き深層ハイブリッドニューラルネットワークを提案する。 提案するネットワークは、量子化されたレイヤとエッジの早期出口と、クラウド上の全精度レイヤで構成された分散配置が可能である。 推論中、早期のエグジットが分類結果に高い信頼を持てば、サンプルがエッジから出て、クラウドの深い層が条件付きで活性化され、エネルギー効率と推論遅延が向上する可能性がある。 エッジでのエネルギー消費を最小限に抑えるとともに,画像分類タスクにおける最先端の分類精度を実現し,広範な設計空間探索を行う。 両層をエッジに配置することで,条件付きハイブリッドネットワークがエッジでの推論の65%を処理でき,cifar-10データセット上では5.5倍の計算エネルギー削減が可能となる。 より複雑なデータセットCIFAR-100では、エッジで4ビット量子化を行うネットワークが、エッジで52%の早期分類を実現し、エネルギーを4.8倍削減する。 この分析により、エッジクラウドベースの分散インテリジェンスシステムのための完全精度ネットワークよりもはるかに高いエネルギー効率を実現する効率的なハイブリッドネットワークの設計に関する洞察が得られる。

The pervasiveness of "Internet-of-Things" in our daily life has led to a recent surge in fog computing, encompassing a collaboration of cloud computing and edge intelligence. To that effect, deep learning has been a major driving force towards enabling such intelligent systems. However, growing model sizes in deep learning pose a significant challenge towards deployment in resource-constrained edge devices. Moreover, in a distributed intelligence environment, efficient workload distribution is necessary between edge and cloud systems. To address these challenges, we propose a conditionally deep hybrid neural network for enabling AI-based fog computing. The proposed network can be deployed in a distributed manner, consisting of quantized layers and early exits at the edge and full-precision layers on the cloud. During inference, if an early exit has high confidence in the classification results, it would allow samples to exit at the edge, and the deeper layers on the cloud are activated conditionally, which can lead to improved energy efficiency and inference latency. We perform an extensive design space exploration with the goal of minimizing energy consumption at the edge while achieving state-of-the-art classification accuracies on image classification tasks. We show that with binarized layers at the edge, the proposed conditional hybrid network can process 65% of inferences at the edge, leading to 5.5x computational energy reduction with minimal accuracy degradation on CIFAR-10 dataset. For the more complex dataset CIFAR-100, we observe that the proposed network with 4-bit quantization at the edge achieves 52% early classification at the edge with 4.8x energy reduction. The analysis gives us insights on designing efficient hybrid networks which achieve significantly higher energy efficiency than full-precision networks for edge-cloud based distributed intelligence systems.
翻訳日:2022-11-30 22:37:22 公開日:2020-05-21
# 深層学習技術に基づく質問回答医療モデルの自動作成

Automated Question Answer medical model based on Deep Learning Technology ( http://arxiv.org/abs/2005.10416v1 )

ライセンス: Link先を確認
Abdelrahman Abdallah, Mahmoud Kasem, Mohamed Hamada, and Shaymaa Sdeek(参考訳) 人工知能は、特に医療分野において、さまざまな問題に対してより多くのソリューションを提供することができる。 これらの問題の1つは、特定の医療・健康関連の質問に対する回答の欠如である。 インターネットにはフォーラムがあり、特定の質問をしたり、素晴らしい回答を得たりすることができる。 それでも、同じような質問を見つけるためにこれらの質問をブラウズすることは、満足のいく回答を見つけることも困難で時間を要する作業です。 本研究は,これらの質問に対する資格ある回答を自動生成し,一種のデジタルドクターを作成することにより,この問題に対する解決策を提案する。 さらに、RNNのフレームワークとエンコーダデコーダを用いてエンドツーエンドモデルをトレーニングし、少数の医療・健康問題に対する賢明かつ有用な回答を生成する。 提案モデルは, webmd, healthtap, ehealthforums, icliniqなどのオンラインサービスから収集したデータを用いてトレーニングおよび評価を行った。

Artificial intelligence can now provide more solutions for different problems, especially in the medical field. One of those problems the lack of answers to any given medical/health-related question. The Internet is full of forums that allow people to ask some specific questions and get great answers for them. Nevertheless, browsing these questions in order to locate one similar to your own, also finding a satisfactory answer is a difficult and time-consuming task. This research will introduce a solution to this problem by automating the process of generating qualified answers to these questions and creating a kind of digital doctor. Furthermore, this research will train an end-to-end model using the framework of RNN and the encoder-decoder to generate sensible and useful answers to a small set of medical/health issues. The proposed model was trained and evaluated using data from various online services, such as WebMD, HealthTap, eHealthForums, and iCliniq.
翻訳日:2022-11-30 22:36:55 公開日:2020-05-21
# 隠れマルコフ鎖, エントロピックフォワードバック, パートオフ音声タギング

Hidden Markov Chains, Entropic Forward-Backward, and Part-Of-Speech Tagging ( http://arxiv.org/abs/2005.10629v1 )

ライセンス: Link先を確認
Elie Azeraf, Emmanuel Monfrini, Emmanuel Vignon, Wojciech Pieczynski(参考訳) 特徴を考慮に入れる能力 - 観察の特徴(features of observations)とも呼ばれることは、自然言語処理(nlp)の問題において不可欠である。 古典的な前方後方確率に関連する隠れマルコフ連鎖(HMC)モデルは、独立条件を除いて任意の大きさの接頭辞や接尾辞のような任意の特徴を扱えない。 20年間、このデフォルトは、任意の機能をエレガントに統合するMaximum Entropy Markov Model (MEMM)から始まる他のシーケンシャルモデルの開発を奨励してきた。 より一般的には、NLPはHMCを無視した。 本稿では, hmc自体の問題ではなく, その復元アルゴリズムの計算方法が問題であることを示す。 本稿では,従来のエントロピックフォワードとエントロピックバックワード(EFB)の確率を用いたHMCベースの復元計算手法を提案する。 提案手法は,MEMMフレームワークと同様に,HMCフレームワークの機能を考慮したものである。 本稿では,パートオフ音声タグにおけるEFBを用いたHMCの効率について述べる。 我々はまた、EFBを用いたHMCが、深いアーキテクチャでシーケンシャルデータを扱うために、リカレントニューラルネットワークの代替としてどのように見えるかという観点で指定する。

The ability to take into account the characteristics - also called features - of observations is essential in Natural Language Processing (NLP) problems. Hidden Markov Chain (HMC) model associated with classic Forward-Backward probabilities cannot handle arbitrary features like prefixes or suffixes of any size, except with an independence condition. For twenty years, this default has encouraged the development of other sequential models, starting with the Maximum Entropy Markov Model (MEMM), which elegantly integrates arbitrary features. More generally, it led to neglect HMC for NLP. In this paper, we show that the problem is not due to HMC itself, but to the way its restoration algorithms are computed. We present a new way of computing HMC based restorations using original Entropic Forward and Entropic Backward (EFB) probabilities. Our method allows taking into account features in the HMC framework in the same way as in the MEMM framework. We illustrate the efficiency of HMC using EFB in Part-Of-Speech Tagging, showing its superiority over MEMM based restoration. We also specify, as a perspective, how HMCs with EFB might appear as an alternative to Recurrent Neural Networks to treat sequential data with a deep architecture.
翻訳日:2022-11-30 22:36:25 公開日:2020-05-21
# パーソナライズされた再ランクによるオポチュニティなマルチアスペクトフェアネス

Opportunistic Multi-aspect Fairness through Personalized Re-ranking ( http://arxiv.org/abs/2005.12974v1 )

ライセンス: Link先を確認
Nasim Sonboli, Farzad Eskandanian, Robin Burke, Weiwen Liu, Bamshad Mobasher(参考訳) 推薦システムが広く普及し、雇用や住宅などの社会的影響が大きい地域へと移り変わるにつれ、研究者たちはそのようなシステムが生み出す結果の公平性を確保する方法を模索し始めている。 この研究は主に、フェアネス指標とレコメンデーション精度を共同で最適化するレコメンデーションアプローチの開発に重点を置いている。 しかし、以前の研究は、個人の好みが公正なレコメンデーションを生成するアルゴリズムの能力を制限することをほとんど無視していた。 さらに、少数の例外を除いて、研究者は、単一のセンシティブな特徴や属性(人種や性別など)に対して公平性を測定するシナリオのみを考慮してきた。 本稿では,複数のフェアネス次元にまたがる個人の嗜好を学習し,その結果のプロバイダのフェアネスを高めるための,フェアネス認識レコメンデーションの再ランキング手法を提案する。 具体的には、我々の正当性とメートル法に依存しないアプローチは、以前の再格付けアプローチよりも精度と公平性の間のトレードオフを良好に達成し、複数の公正性次元にわたってそれを行うことを示す。

As recommender systems have become more widespread and moved into areas with greater social impact, such as employment and housing, researchers have begun to seek ways to ensure fairness in the results that such systems produce. This work has primarily focused on developing recommendation approaches in which fairness metrics are jointly optimized along with recommendation accuracy. However, the previous work had largely ignored how individual preferences may limit the ability of an algorithm to produce fair recommendations. Furthermore, with few exceptions, researchers have only considered scenarios in which fairness is measured relative to a single sensitive feature or attribute (such as race or gender). In this paper, we present a re-ranking approach to fairness-aware recommendation that learns individual preferences across multiple fairness dimensions and uses them to enhance provider fairness in recommendation results. Specifically, we show that our opportunistic and metric-agnostic approach achieves a better trade-off between accuracy and fairness than prior re-ranking approaches and does so across multiple fairness dimensions.
翻訳日:2022-11-30 22:35:43 公開日:2020-05-21
# unconstrained optimizationによる公正分類

Fair Classification via Unconstrained Optimization ( http://arxiv.org/abs/2005.14621v1 )

ライセンス: Link先を確認
Ibrahim Alabdulmohsin(参考訳) ベイズ最適二分分類規則をグループフェアネス制約に従属させることは、ベイズレグレッサー上でグループ毎のしきい値規則を学習することに対して還元可能であることが知られている。 本稿では,ベイズ最適フェアラーニングルールがベイズレグレッサに対してグループ毎のしきい値規則であり続けるが,しきい値には(あり得る)ランダム化があることを証明することにより,この結果を拡張する。 これは、(1)予測器をまず学習し、(2)出力を調整してバイアスを除去する、公正な分類における後処理アプローチに対するより強い正当化を提供する。 この2段階アプローチにおける後処理ルールは,制約のない最適化問題を解くことで,極めて効率的に学習可能であることを示す。 提案アルゴリズムは、ディープニューラルネットワーク、ランダムフォレスト、サポートベクターマシンなど、任意のブラックボックス機械学習モデルに適用することができる。 さらに、同論文でこれまで提案されていた等化奇数や統計パリティなど、多くの公正性基準を満たすことができる。 さらに,複数の人口集団間での精度と公平性のトレードオフを定量化する不合理な結果によって,このアルゴリズムがベイズ整合性であることを証明した。 最後に、アダルトベンチマークデータセット上でアルゴリズムを検証することで結論付ける。

Achieving the Bayes optimal binary classification rule subject to group fairness constraints is known to be reducible, in some cases, to learning a group-wise thresholding rule over the Bayes regressor. In this paper, we extend this result by proving that, in a broader setting, the Bayes optimal fair learning rule remains a group-wise thresholding rule over the Bayes regressor but with a (possible) randomization at the thresholds. This provides a stronger justification to the post-processing approach in fair classification, in which (1) a predictor is learned first, after which (2) its output is adjusted to remove bias. We show how the post-processing rule in this two-stage approach can be learned quite efficiently by solving an unconstrained optimization problem. The proposed algorithm can be applied to any black-box machine learning model, such as deep neural networks, random forests and support vector machines. In addition, it can accommodate many fairness criteria that have been previously proposed in the literature, such as equalized odds and statistical parity. We prove that the algorithm is Bayes consistent and motivate it, furthermore, via an impossibility result that quantifies the tradeoff between accuracy and fairness across multiple demographic groups. Finally, we conclude by validating the algorithm on the Adult benchmark dataset.
翻訳日:2022-11-30 22:35:22 公開日:2020-05-21
# SemEval-2020 Task 8におけるチーム神経:マルチタスク学習を用いたミームのマルチモーダル微粒感情分類

Team Neuro at SemEval-2020 Task 8: Multi-Modal Fine Grain Emotion Classification of Memes using Multitask Learning ( http://arxiv.org/abs/2005.10915v1 )

ライセンス: Link先を確認
Sourya Dipta Das, Soumil Mandal(参考訳) 本稿では,memotion analysis challenge(smeval-2020のタスク8)で使用したシステムについて述べる。 この課題には、3つのサブタスクがあり、インテンシティとともに、ミームの感情分類の影響が要求された。 提案するシステムは,マルチラベル階層分類問題として3つのタスクを1つのタスクに結合し,マルチタスク学習あるいはジョイント学習手順を用いてモデルをトレーニングする。我々は,2つのチャネルを用いて,ディープニューラルネットワークバックボーンからテキストと画像に基づく特徴を抽出し,それらを集約してタスク固有の機能を作成する。 これらのタスク固有の集約型特徴ベクトルウェアは、密度の高い層を持つより小さなネットワークに渡され、それぞれが1種類の微細な感情ラベルを予測するために割り当てられる。 提案手法は,課題から得られる他のベストモデルに比べて,このシステムの優位性を示す。

In this article, we describe the system that we used for the memotion analysis challenge, which is Task 8 of SemEval-2020. This challenge had three subtasks where affect based sentiment classification of the memes was required along with intensities. The system we proposed combines the three tasks into a single one by representing it as multi-label hierarchical classification problem.Here,Multi-Task learning or Joint learning Procedure is used to train our model.We have used dual channels to extract text and image based features from separate Deep Neural Network Backbone and aggregate them to create task specific features. These task specific aggregated feature vectors ware then passed on to smaller networks with dense layers, each one assigned for predicting one type of fine grain sentiment label. Our Proposed method show the superiority of this system in few tasks to other best models from the challenge.
翻訳日:2022-11-30 22:35:00 公開日:2020-05-21
# ジェンダースロープ:属性操作によるコンピュータビジョンモデルの非現実的公正性

Gender Slopes: Counterfactual Fairness for Computer Vision Models by Attribute Manipulation ( http://arxiv.org/abs/2005.10430v1 )

ライセンス: Link先を確認
Jungseock Joo, Kimmo K\"arkk\"ainen(参考訳) 自動化されたコンピュータビジョンシステムは、セキュリティ、法執行機関、パーソナルデバイスを含む多くの領域で適用されてきたが、最近の報告によると、これらのシステムは偏った結果をもたらし、特定の人口集団の人々に差別を与える可能性がある。 しかし、現代のコンピュータビジョンシステムは、デコードが難しい複雑なブラックボックスモデルに依存しているため、モデルバイアスの根底にある真の原因の診断と理解は難しい課題である。 本稿では,画像属性の操作のために開発したエンコーダデコーダネットワークを用いて,性別や人種によって異なる顔画像の合成を行う。 これらの合成画像を用いて,これらの分類器が性別や人種的手がかりに左右される程度,例えば,女性の顔は看護婦の概念の高得点やstem関連の概念の低得点を誘発する可能性があるかを調べることにより,商業コンピュータビジョン分類器の非現実的公平性を測定する。 また,オンライン検索サービスにおける職業関連キーワードの歪んだ性表現について報告し,モデルに符号化されたバイアスの起源を説明する。

Automated computer vision systems have been applied in many domains including security, law enforcement, and personal devices, but recent reports suggest that these systems may produce biased results, discriminating against people in certain demographic groups. Diagnosing and understanding the underlying true causes of model biases, however, are challenging tasks because modern computer vision systems rely on complex black-box models whose behaviors are hard to decode. We propose to use an encoder-decoder network developed for image attribute manipulation to synthesize facial images varying in the dimensions of gender and race while keeping other signals intact. We use these synthesized images to measure counterfactual fairness of commercial computer vision classifiers by examining the degree to which these classifiers are affected by gender and racial cues controlled in the images, e.g., feminine faces may elicit higher scores for the concept of nurse and lower scores for STEM-related concepts. We also report the skewed gender representations in an online search service on profession-related keywords, which may explain the origin of the biases encoded in the models.
翻訳日:2022-11-30 22:34:43 公開日:2020-05-21
# 領域グルーピングによる解釈可能で高精度な細粒度認識

Interpretable and Accurate Fine-grained Recognition via Region Grouping ( http://arxiv.org/abs/2005.10411v1 )

ライセンス: Link先を確認
Zixuan Huang, Yin Li(参考訳) 微粒な視覚認識のための解釈可能な深層モデルを提案する。 私たちの手法の中核は、ディープニューラルネットワーク内での領域ベースの部分発見と帰属の統合です。 本モデルは,画像レベルのオブジェクトラベルを用いて学習し,対象部分のセグメンテーションとそれらの分類への貢献の識別を通じて,その結果を解釈する。 直接の監督なしに対象部品の学習を容易にするために,対象部品の発生に先立って簡単な方法を探る。 我々は、この先、地域ベースの部分発見と属性を組み合わせることで、高い精度で解釈可能なモデルが得られることを実証した。 本モデルは, CUB-200, CelebA, iNaturalistなど, 高精度な認識データセットを用いて評価した。 本手法は,分類タスクにおける最先端手法と好適に比較し,対象部品の局在化に対する従来のアプローチを上回っている。

We present an interpretable deep model for fine-grained visual recognition. At the core of our method lies the integration of region-based part discovery and attribution within a deep neural network. Our model is trained using image-level object labels, and provides an interpretation of its results via the segmentation of object parts and the identification of their contributions towards classification. To facilitate the learning of object parts without direct supervision, we explore a simple prior of the occurrence of object parts. We demonstrate that this prior, when combined with our region-based part discovery and attribution, leads to an interpretable model that remains highly accurate. Our model is evaluated on major fine-grained recognition datasets, including CUB-200, CelebA and iNaturalist. Our results compare favorably to state-of-the-art methods on classification tasks, and our method outperforms previous approaches on the localization of object parts.
翻訳日:2022-11-30 22:34:22 公開日:2020-05-21