このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200709となっている論文です。

PDF登録状況(公開日: 20200709)

TitleAuthorsAbstract論文公表日・翻訳日
# 数学における形式化演習の自動評価

Automatized Evaluation of Formalization Exercises in Mathematics ( http://arxiv.org/abs/2006.01800v2 )

ライセンス: Link先を確認
Merlin Carl(参考訳) 初級述語論理の形式化における文の表現における基礎的スキルの獲得を支援する2つのシステムについて述べる。第1のシステムは「数学ディクテーション」と呼ばれ、ユーザに与えられた自然言語文の形式化タスクを与え、第2のシステムは「defのゲーム」と呼ばれ、ユーザに表示された幾何学的パターンの組の形式的記述を与える。 どちらの場合でも自動チェックが行われる。

We describe two systems for supporting beginner students in acquiring basic skills in expressing statements in the formalism of first-order predicate logic; the first, called "math dictations", presents users with the task of formalizing a given natural-language sentence, while the second, called "Game of Def", challenges users to give a formal description of a set of a geometric pattern displayed to them. In both cases, an automatic checking takes place.
翻訳日:2022-11-26 00:46:51 公開日:2020-07-09
# 受容野における好ましい刺激の可視化によるresnetの解釈

Interpretation of ResNet by Visualization of Preferred Stimulus in Receptive Fields ( http://arxiv.org/abs/2006.01645v2 )

ライセンス: Link先を確認
Genta Kobayashi and Hayaru Shouno(参考訳) 画像認識で使用される手法の1つはディープ畳み込みニューラルネットワーク(DCNN)である。 DCNNはCNNの隠蔽層を深くすることで特徴の表現力を大幅に改善するモデルである。 CNNのアーキテクチャは哺乳類の視覚野のモデルに基づいて決定される。 Residual Network(ResNet)と呼ばれるモデルがあり、スキップ接続がある。 ResNetは学習法の観点からは高度なモデルであるが,生物学的観点からは解釈されていない。 本研究では,ImageNetの分類タスクにおけるResNetの受容領域について検討する。 ResNetは配向選択的ニューロンと二重反対色ニューロンを持つ。 さらに、ResNetの第1層における不活性ニューロンが分類タスクに影響を与えることを示唆する。

One of the methods used in image recognition is the Deep Convolutional Neural Network (DCNN). DCNN is a model in which the expressive power of features is greatly improved by deepening the hidden layer of CNN. The architecture of CNNs is determined based on a model of the visual cortex of mammals. There is a model called Residual Network (ResNet) that has a skip connection. ResNet is an advanced model in terms of the learning method, but it has not been interpreted from a biological viewpoint. In this research, we investigate the receptive fields of a ResNet on the classification task in ImageNet. We find that ResNet has orientation selective neurons and double opponent color neurons. In addition, we suggest that some inactive neurons in the first layer of ResNet affect the classification task.
翻訳日:2022-11-26 00:37:15 公開日:2020-07-09
# 新型コロナウイルス未報告症例数のデータによる同定-境界と限界

Data-driven Identification of Number of Unreported Cases for COVID-19: Bounds and Limitations ( http://arxiv.org/abs/2006.02127v5 )

ライセンス: Link先を確認
Ajitesh Srivastava and Viktor K. Prasanna(参考訳) 新型コロナウイルスの正確な予測は、より良い準備と資源管理のために必要である。 特に、数ヶ月から数ヶ月間の応答を決定するには、モデルエラーが時間とともに蓄積するので特に難しい、正確な長期予測が必要となる。 正確な長期予測を妨げる重要な要因は、報告されていない/症状のないケースの数である。 この数を推定する初期の血清学的試験はあったが、より信頼できる結果を得るためにさらに多くの試験を行う必要がある。 未報告/漸近症例の数を特定するために,疫学データ駆動アプローチを採用する。 報告された症例の要因として, 実例のこの比率の下位境界, 上限を同定できることが示唆された。 そこで本研究では, 既往の異種感染率モデルを拡張し, 非報告・無症状症例を取り入れた。 報告されていない症例の数は、流行データの一定期間からのみ確実に推定できることを示す。 そこで本研究では,学習率の信頼度を推定する固定感染率法というアルゴリズムを構築した。 また,この比率を学習し,シミュレーションデータの有効性を示す2つのヒューリスティックスを提案する。 当社のアプローチは,ニューヨークと米国のいくつかの州において,実例と報告事例の比率の上限を識別するために使用しています。 その結果,ニューヨークでは35回以上,イリノイでは40回,マサチューセッツ州では38回,ニュージャージー州では29回,ニューヨークでは35回は発生できないという確信が持たれた。

Accurate forecasts for COVID-19 are necessary for better preparedness and resource management. Specifically, deciding the response over months or several months requires accurate long-term forecasts which is particularly challenging as the model errors accumulate with time. A critical factor that can hinder accurate long-term forecasts, is the number of unreported/asymptomatic cases. While there have been early serology tests to estimate this number, more tests need to be conducted for more reliable results. To identify the number of unreported/asymptomatic cases, we take an epidemiology data-driven approach. We show that we can identify lower bounds on this ratio or upper bound on actual cases as a factor of reported cases. To do so, we propose an extension of our prior heterogeneous infection rate model, incorporating unreported/asymptomatic cases. We prove that the number of unreported cases can be reliably estimated only from a certain time period of the epidemic data. In doing so, we construct an algorithm called Fixed Infection Rate method, which identifies a reliable bound on the learned ratio. We also propose two heuristics to learn this ratio and show their effectiveness on simulated data. We use our approaches to identify the upper bounds on the ratio of actual to reported cases for New York City and several US states. Our results demonstrate with high confidence that the actual number of cases cannot be more than 35 times in New York, 40 times in Illinois, 38 times in Massachusetts and 29 times in New Jersey, than the reported cases.
翻訳日:2022-11-25 18:38:40 公開日:2020-07-09
# 大規模像定位のための自己監督型きめ細かい領域類似性

Self-supervising Fine-grained Region Similarities for Large-scale Image Localization ( http://arxiv.org/abs/2006.03926v2 )

ライセンス: Link先を確認
Yixiao Ge, Haibo Wang, Feng Zhu, Rui Zhao, Hongsheng Li(参考訳) 大規模検索ベース画像ローカライゼーションの課題は、都市規模のデータセットから最も近い参照画像を認識してクエリ画像の地理的位置を推定することである。 しかし、一般のベンチマークではトレーニング画像に関連するノイズの多いGPSラベルのみを提供しており、画像と画像の類似性を学ぶための弱い監督役として機能している。 このようなラベルノイズは、ディープニューラルネットワークが正確なローカライゼーションのために識別的特徴を学習することを妨げる。 そこで本研究では,画像と領域の類似性を自己監視し,それらのサブ領域と並行して,困難でポジティブな画像の可能性を十分に探究することを提案する。 推定された画像と地域間の類似性は、ネットワークを世代ごとに改善するための追加のトレーニング監督となり、結果として、最適な性能を達成するために徐々に細かな類似性を洗練することができる。 提案する自己強調画像から領域への類似性ラベルは,トレーニングと推論の両方において,追加パラメータや手動アノテーションを必要とせず,最先端パイプラインのトレーニングボトルネックを効果的に処理する。 本手法は,標準ローカライズベンチマークの最先端を目立ったマージンで上回り,複数の画像検索データセットにおいて優れた一般化能力を示す。

The task of large-scale retrieval-based image localization is to estimate the geographical location of a query image by recognizing its nearest reference images from a city-scale dataset. However, the general public benchmarks only provide noisy GPS labels associated with the training images, which act as weak supervisions for learning image-to-image similarities. Such label noise prevents deep neural networks from learning discriminative features for accurate localization. To tackle this challenge, we propose to self-supervise image-to-region similarities in order to fully explore the potential of difficult positive images alongside their sub-regions. The estimated image-to-region similarities can serve as extra training supervision for improving the network in generations, which could in turn gradually refine the fine-grained similarities to achieve optimal performance. Our proposed self-enhanced image-to-region similarity labels effectively deal with the training bottleneck in the state-of-the-art pipelines without any additional parameters or manual annotations in both training and inference. Our method outperforms state-of-the-arts on the standard localization benchmarks by noticeable margins and shows excellent generalization capability on multiple image retrieval datasets.
翻訳日:2022-11-24 21:51:03 公開日:2020-07-09
# 法廷におけるパフォーマンス:フランスにおける控訴裁判所判決の自動処理と可視化

Performance in the Courtroom: Automated Processing and Visualization of Appeal Court Decisions in France ( http://arxiv.org/abs/2006.06251v3 )

ライセンス: Link先を確認
Paul Boniol, George Panagopoulos, Christos Xypolopoulos, Rajaa El Hamdani, David Restrepo Amariles, Michalis Vazirgiannis(参考訳) 人工知能技術はすでに法的領域で人気があり、重要である。 司法判断から法的な指標を抽出し、法体系の情報の非対称性と不正アクセスギャップを低減させる。 我々はNLP法を用いて、弁護士や判決のネットワークを構築するために、判断から興味深いエンティティやデータを抽出する。 我々は,弁護士のネットワークにおける経験,勝利/損失比,およびその重要性に基づいて,弁護士のランク付けのための指標を提案する。 また,判断ネットワークにおけるコミュニティ検出を行い,コミュニティの特徴を活かしたケースの難易度を示す指標を提案する。

Artificial Intelligence techniques are already popular and important in the legal domain. We extract legal indicators from judicial judgment to decrease the asymmetry of information of the legal system and the access-to-justice gap. We use NLP methods to extract interesting entities/data from judgments to construct networks of lawyers and judgments. We propose metrics to rank lawyers based on their experience, wins/loss ratio and their importance in the network of lawyers. We also perform community detection in the network of judgments and propose metrics to represent the difficulty of cases capitalising on communities features.
翻訳日:2022-11-22 09:19:10 公開日:2020-07-09
# FinBERT:金融コミュニケーションのための事前訓練言語モデル

FinBERT: A Pretrained Language Model for Financial Communications ( http://arxiv.org/abs/2006.08097v2 )

ライセンス: Link先を確認
Yi Yang, Mark Christopher Siy UY, Allen Huang(参考訳) BERT(Devlin et al., 2019)のような事前訓練済み言語モデルは、大規模にラベル付けされていないテキストのリソースをトレーニングすることで、様々なNLPタスクにおいて大きなブレークスルーを遂げている。 本研究では,金融分野固有のBERTモデルであるFinBERTを,大規模な金融通信コーパスを用いて事前訓練することの必要性に対処する。 3つの財務感情分類タスクの実験は、一般的なドメインBERTモデルよりもFinBERTの利点を裏付ける。 コードと事前訓練されたモデルはhttps://github.com/yya518/FinBERT.comで入手できる。 金融NLPタスクに取り組む実践者や研究者にとって、これが役に立つことを願っています。

Contextual pretrained language models, such as BERT (Devlin et al., 2019), have made significant breakthrough in various NLP tasks by training on large scale of unlabeled text re-sources.Financial sector also accumulates large amount of financial communication text.However, there is no pretrained finance specific language models available. In this work,we address the need by pretraining a financial domain specific BERT models, FinBERT, using a large scale of financial communication corpora. Experiments on three financial sentiment classification tasks confirm the advantage of FinBERT over generic domain BERT model. The code and pretrained models are available at https://github.com/yya518/FinBERT. We hope this will be useful for practitioners and researchers working on financial NLP tasks.
翻訳日:2022-11-21 04:18:14 公開日:2020-07-09
# オーシャン:物体認識型アンカーレストラッキング

Ocean: Object-aware Anchor-free Tracking ( http://arxiv.org/abs/2006.10721v2 )

ライセンス: Link先を確認
Zhipeng Zhang, Houwen Peng, Jianlong Fu, Bing Li, Weiming Hu(参考訳) アンカーベースのシアムトラッカーは精度が著しく向上しているが、さらなる改善は遅れるトラッキングの堅牢性によって制限されている。 根底にある理由は、アンカーベースの手法の回帰ネットワークが正のアンカーボックス(例えば$IoU \geq0.6$)でのみ訓練されていることである。 この機構により、対象オブジェクトとの重なりが小さいアンカーを洗練することが難しくなる。 本稿では,この問題に対処する新しいオブジェクト認識型アンカーフリーネットワークを提案する。 まず、リファレンスアンカーボックスを洗練するのではなく、アンカーフリーでターゲットオブジェクトの位置とスケールを直接予測します。 基底ボックスの各ピクセルはよく訓練されているため、トラッカーは推論中にターゲットオブジェクトの不正確な予測を修正できる。 第二に、予測境界ボックスからオブジェクト認識機能を学ぶための機能アライメントモジュールを導入する。 オブジェクト認識機能は、ターゲットオブジェクトとバックグラウンドの分類にさらに貢献することができる。 さらに,アンカーフリーモデルに基づく新たなトラッキングフレームワークを提案する。 実験の結果, VOT-2018, VOT-2019, OTB-100, GOT-10k, LaSOTの5つのベンチマークにおいて, アンカーフリートラッカーが最先端の性能を達成することがわかった。 ソースコードはhttps://github.com/researchmm/TracKit.comで入手できる。

Anchor-based Siamese trackers have achieved remarkable advancements in accuracy, yet the further improvement is restricted by the lagged tracking robustness. We find the underlying reason is that the regression network in anchor-based methods is only trained on the positive anchor boxes (i.e., $IoU \geq0.6$). This mechanism makes it difficult to refine the anchors whose overlap with the target objects are small. In this paper, we propose a novel object-aware anchor-free network to address this issue. First, instead of refining the reference anchor boxes, we directly predict the position and scale of target objects in an anchor-free fashion. Since each pixel in groundtruth boxes is well trained, the tracker is capable of rectifying inexact predictions of target objects during inference. Second, we introduce a feature alignment module to learn an object-aware feature from predicted bounding boxes. The object-aware feature can further contribute to the classification of target objects and background. Moreover, we present a novel tracking framework based on the anchor-free model. The experiments show that our anchor-free tracker achieves state-of-the-art performance on five benchmarks, including VOT-2018, VOT-2019, OTB-100, GOT-10k and LaSOT. The source code is available at https://github.com/researchmm/TracKit.
翻訳日:2022-11-19 13:59:18 公開日:2020-07-09
# スタイルと空間アライメントによる多視点ドローンによる地理局所化

Multi-view Drone-based Geo-localization via Style and Spatial Alignment ( http://arxiv.org/abs/2006.13681v2 )

ライセンス: Link先を確認
Siyi Hu and Xiaojun Chang(参考訳) 本稿では,ドローンビュー画像と衛星ビュー画像とを事前アノテーション付きGPSタグでマッチングすることにより,GPS測位の重要な補助的手法として機能するマルチビューマルチソースジオローカライゼーションの課題に焦点を当てる。 この問題を解決するために、既存の手法では、重み付き分類ブロックでメトリックロスを採用し、異なる視点と視点ソースで共有される共通特徴空間の生成を強制している。 しかし,これらの手法は空間情報(特に視点差)に十分な注意を払わない。 この欠点に対処するために、パターンを整列させるエレガントな配向に基づく手法を提案し、整列部分特徴を抽出する新しい分岐を導入する。 さらに,画像スタイルにおけるばらつきを低減し,特徴統一性を高めるためのスタイルアライメント戦略を提案する。 提案手法の性能を示すために,大規模ベンチマークデータセットについて広範な実験を行った。 実験により,提案手法が最先端の代替案よりも優れていることを確認した。

In this paper, we focus on the task of multi-view multi-source geo-localization, which serves as an important auxiliary method of GPS positioning by matching drone-view image and satellite-view image with pre-annotated GPS tag. To solve this problem, most existing methods adopt metric loss with an weighted classification block to force the generation of common feature space shared by different view points and view sources. However, these methods fail to pay sufficient attention to spatial information (especially viewpoint variances). To address this drawback, we propose an elegant orientation-based method to align the patterns and introduce a new branch to extract aligned partial feature. Moreover, we provide a style alignment strategy to reduce the variance in image style and enhance the feature unification. To demonstrate the performance of the proposed approach, we conduct extensive experiments on the large-scale benchmark dataset. The experimental results confirm the superiority of the proposed approach compared to state-of-the-art alternatives.
翻訳日:2022-11-17 21:41:28 公開日:2020-07-09
# 心臓再同期治療反応予測のための解釈可能な深部モデル

Interpretable Deep Models for Cardiac Resynchronisation Therapy Response Prediction ( http://arxiv.org/abs/2006.13811v2 )

ライセンス: Link先を確認
Esther Puyol-Ant\'on, Chen Chen, James R. Clough, Bram Ruijsink, Baldeep S. Sidhu, Justin Gould, Bradley Porter, Mark Elliott, Vishal Mehta, Daniel Rueckert, Christopher A. Rinaldi, and Andrew P. King(参考訳) 深層学習(DL)の進歩は、いくつかの医学画像分類タスクにおいて顕著な精度をもたらすが、深層モデルには解釈性がないことが多い。 これらのモデルが彼らの決定を説明する能力は、臨床信頼の促進と臨床翻訳の促進に重要である。 さらに、医学における多くの問題に対して、既存の臨床知識が豊富に存在するため、説明書を作成するのに有用であるが、この知識がDLモデルにどのようにエンコードできるかは明らかではない。 本稿ではこれら2つの問題に対処する。 本稿では,可変オートエンコーダ(VAE)に基づく画像分類のための新しいDLフレームワークを提案する。 このフレームワークは、オートエンコーダの潜伏空間からの利子出力の予測と、決定境界を越える効果の可視化(画像領域における)を可能にし、分類器の解釈可能性を高める。 我々の重要な貢献は、VAEが既存の臨床知識から引き出された「説明」に基づいて潜伏空間を混乱させることである。 このフレームワークは、アウトプットを予測できるだけでなく、これらのアウトプットの説明もできる。また、既存の知識から分離(あるいは分離)された新しいバイオマーカーを発見する可能性も高めている。 そこで本研究では,心磁気共鳴画像からの心臓再同期療法(crt)に対する心筋症患者の反応予測に関する枠組みを実証する。 CRT応答予測の課題における提案モデルの感度と特異性はそれぞれ88.43%と84.39%であり,CRT応答に寄与する要因の理解を深める上での本モデルの可能性を示す。

Advances in deep learning (DL) have resulted in impressive accuracy in some medical image classification tasks, but often deep models lack interpretability. The ability of these models to explain their decisions is important for fostering clinical trust and facilitating clinical translation. Furthermore, for many problems in medicine there is a wealth of existing clinical knowledge to draw upon, which may be useful in generating explanations, but it is not obvious how this knowledge can be encoded into DL models - most models are learnt either from scratch or using transfer learning from a different domain. In this paper we address both of these issues. We propose a novel DL framework for image-based classification based on a variational autoencoder (VAE). The framework allows prediction of the output of interest from the latent space of the autoencoder, as well as visualisation (in the image domain) of the effects of crossing the decision boundary, thus enhancing the interpretability of the classifier. Our key contribution is that the VAE disentangles the latent space based on `explanations' drawn from existing clinical knowledge. The framework can predict outputs as well as explanations for these outputs, and also raises the possibility of discovering new biomarkers that are separate (or disentangled) from the existing knowledge. We demonstrate our framework on the problem of predicting response of patients with cardiomyopathy to cardiac resynchronization therapy (CRT) from cine cardiac magnetic resonance images. The sensitivity and specificity of the proposed model on the task of CRT response prediction are 88.43% and 84.39% respectively, and we showcase the potential of our model in enhancing understanding of the factors contributing to CRT response.
翻訳日:2022-11-17 10:16:11 公開日:2020-07-09
# DensePoseの高速化と軽量化

Making DensePose fast and light ( http://arxiv.org/abs/2006.15190v3 )

ライセンス: Link先を確認
Ruslan Rakhimov, Emil Bogomolov, Alexandr Notchenko, Fung Mao, Alexey Artemov, Denis Zorin, Evgeny Burnaev(参考訳) 高密度推定タスクは、拡張現実から布地への適合まで、ユーザエクスペリエンスのコンピュータビジョンアプリケーションを強化するための重要なステップである。 この課題を解決できる既存のニューラルネットワークモデルは、非常にパラメータ化されており、組み込みまたはモバイルデバイスへの転送には程遠い。 現在のモデルで端末のDense Pose推論を有効にするには、高価なサーバーサイドインフラストラクチャをサポートし、安定したインターネット接続が必要である。 さらに悪いことに、モバイルと組み込みデバイスは、必ずしも内部に強力なGPUを持っているとは限らない。 本研究では,r-cnnモデルのアーキテクチャを再設計し,最終的なネットワークの精度を保ちながら軽量化・高速化を図ることを目的とした。 そこで我々は近年,23の効率的なバックボーンアーキテクチャ,複数の2段階検出パイプライン修正,カスタムモデル量子化手法に関するアブレーション研究を行ってきた。 その結果,ベースラインモデルと比較して,モデルサイズ削減に17ドル,レイテンシ改善に2ドルを達成しました。

DensePose estimation task is a significant step forward for enhancing user experience computer vision applications ranging from augmented reality to cloth fitting. Existing neural network models capable of solving this task are heavily parameterized and a long way from being transferred to an embedded or mobile device. To enable Dense Pose inference on the end device with current models, one needs to support an expensive server-side infrastructure and have a stable internet connection. To make things worse, mobile and embedded devices do not always have a powerful GPU inside. In this work, we target the problem of redesigning the DensePose R-CNN model's architecture so that the final network retains most of its accuracy but becomes more light-weight and fast. To achieve that, we tested and incorporated many deep learning innovations from recent years, specifically performing an ablation study on 23 efficient backbone architectures, multiple two-stage detection pipeline modifications, and custom model quantization methods. As a result, we achieved $17\times$ model size reduction and $2\times$ latency improvement compared to the baseline model.
翻訳日:2022-11-16 21:21:35 公開日:2020-07-09
# 常用振動子ニューラル・デ・データとエンデレc{c}os

Normalizador Neural de Datas e Endere\c{c}os ( http://arxiv.org/abs/2007.04300v2 )

ライセンス: Link先を確認
Gustavo Plensack and Paulo Finardi(参考訳) あらゆる種類の文書には様々な日付と住所の形式があり、場合によっては日付は完全に完全あるいは異なる種類のセパレータで書かれることもある。 住所におけるパターン障害は、通り、地区、都市、州間の交流の可能性が大きいため、さらに大きい。 自然言語処理の文脈では、この性質の問題はReGexやDateParserのような厳密なツールによって処理される。 これらのアルゴリズムに予期しないフォーマットが与えられると、エラーと不要な出力が発生する。 この課題を回避するために、未設定の日付と住所のフォーマットを90%以上の精度で処理する、最先端のニューラルネットワーク技術T5のソリューションを提案する。 このモデルでは,提案手法は日付と住所を正規化するタスクに一般化をもたらす。 また、テキスト内のエラーをシミュレートするノイズの多いデータでこの問題に対処する。

Documents of any kind present a wide variety of date and address formats, in some cases dates can be written entirely in full or even have different types of separators. The pattern disorder in addresses is even greater due to the greater possibility of interchanging between streets, neighborhoods, cities and states. In the context of natural language processing, problems of this nature are handled by rigid tools such as ReGex or DateParser, which are efficient as long as the expected input is pre-configured. When these algorithms are given an unexpected format, errors and unwanted outputs happen. To circumvent this challenge, we present a solution with deep neural networks state of art T5 that treats non-preconfigured formats of dates and addresses with accuracy above 90% in some cases. With this model, our proposal brings generalization to the task of normalizing dates and addresses. We also deal with this problem with noisy data that simulates possible errors in the text.
翻訳日:2022-11-16 07:50:38 公開日:2020-07-09
# 日本語はTwitterで使われているか? 大規模な研究は

Is Japanese gendered language used on Twitter ? A large scale study ( http://arxiv.org/abs/2006.15935v2 )

ライセンス: Link先を確認
Tiziana Carpi and Stefano Maria Iacus(参考訳) 本研究は,日本語のtwitter上での利用状況を分析した。 2015年から2019年にかけての4億8800万ツイートの収集から始まり、さらに2355の手動でtwitterアカウントのタイムラインを性別やカテゴリー(政治、ミュージシャンなど)に分類した。 このコーパス上で大規模テキスト解析を行い、文末粒子(SFP)とテキストに現れる1人称代名詞を特定し、検討する。 性別付き言語は実際にはtwitterでも使用されており、ツイートの約6%を占めており、"male"と"female"言語への規範的な分類は、注目すべき例外を除いて常に期待を満たしているとは限らない。 さらに、SFPや代名詞は増加または減少傾向を示し、Twitterで使用される言語の進化を示している。

This study analyzes the usage of Japanese gendered language on Twitter. Starting from a collection of 408 million Japanese tweets from 2015 till 2019 and an additional sample of 2355 manually classified Twitter accounts timelines into gender and categories (politicians, musicians, etc). A large scale textual analysis is performed on this corpus to identify and examine sentence-final particles (SFPs) and first-person pronouns appearing in the texts. It turns out that gendered language is in fact used also on Twitter, in about 6% of the tweets, and that the prescriptive classification into "male" and "female" language does not always meet the expectations, with remarkable exceptions. Further, SFPs and pronouns show increasing or decreasing trends, indicating an evolution of the language used on Twitter.
翻訳日:2022-11-15 14:57:10 公開日:2020-07-09
# キャッシュ置換のための模倣学習手法

An Imitation Learning Approach for Cache Replacement ( http://arxiv.org/abs/2006.16239v2 )

ライセンス: Link先を確認
Evan Zheran Liu, Milad Hashemi, Kevin Swersky, Parthasarathy Ranganathan, Junwhan Ahn(参考訳) プログラムの実行速度はキャッシュヒットの増加に大きく依存する。 キャッシュヒットを増やすため、キャッシュ置換の問題に焦点をあて、新しい行を挿入すると、どのキャッシュラインを削除すべきかという問題に焦点をあてる。 これまでの計画が必要であり、現在、既知の実用的な解決策がないため、これは難しいことです。 その結果、現在の代替ポリシーは、特定の共通アクセスパターン用に設計されたヒューリスティックスに依存しており、より多様で複雑なアクセスパターンに失敗する。 これとは対照的に,将来のキャッシュアクセスに対して最適な消去決定を演算するオラクルポリシーであるBeladyを利用して,キャッシュアクセスパターンを自動的に学習する模倣学習手法を提案する。 ベラーディの直接適用は、未来が不明なため不可能であるが、過去のアクセスのみを条件とした政策を訓練し、多様な複雑なアクセスパターンにも正確に近似し、このアプローチをParrotと呼ぶ。 最もメモリ集約的なSPECアプリケーションの13で評価すると、Parrotは現在の技術よりもキャッシュミス率を20%向上させる。 さらに、大規模なWeb検索ベンチマークでは、従来のLRUポリシーよりもキャッシュヒット率を61%向上させる。 データは豊富であり、さらなる進歩は現実世界に大きな影響を与える可能性があるので、この分野の研究を促進するためのジム環境をリリースします。

Program execution speed critically depends on increasing cache hits, as cache hits are orders of magnitude faster than misses. To increase cache hits, we focus on the problem of cache replacement: choosing which cache line to evict upon inserting a new line. This is challenging because it requires planning far ahead and currently there is no known practical solution. As a result, current replacement policies typically resort to heuristics designed for specific common access patterns, which fail on more diverse and complex access patterns. In contrast, we propose an imitation learning approach to automatically learn cache access patterns by leveraging Belady's, an oracle policy that computes the optimal eviction decision given the future cache accesses. While directly applying Belady's is infeasible since the future is unknown, we train a policy conditioned only on past accesses that accurately approximates Belady's even on diverse and complex access patterns, and call this approach Parrot. When evaluated on 13 of the most memory-intensive SPEC applications, Parrot increases cache miss rates by 20% over the current state of the art. In addition, on a large-scale web search benchmark, Parrot increases cache hit rates by 61% over a conventional LRU policy. We release a Gym environment to facilitate research in this area, as data is plentiful, and further advancements can have significant real-world impact.
翻訳日:2022-11-15 14:22:38 公開日:2020-07-09
# ユニバーサルミソビームフォーミングのための深層学習法

Deep Learning Methods for Universal MISO Beamforming ( http://arxiv.org/abs/2007.00841v2 )

ライセンス: Link先を確認
Junbeom Kim, Hoon Lee, Seung-Eun Hong and Seok-Hwan Park(参考訳) 本文は,基地局での送信電力制限を任意に適用可能なダウンリンクマルチユーザマルチアンテナシステムにおいて,ビームフォーミングベクトルを最適化するための深層学習(DL)アプローチについて検討する。 我々は,ビームフォーミング最適化における電力制約の影響を,ディープニューラルネットワーク(DNN)が効果的に学習できるように,和電力予算をサイド情報として活用する。 その結果、単一のトレーニングプロセスが提案されたユニバーサルDLアプローチに十分であるのに対して、従来の手法では、可能なすべての電力予算レベルに対して複数のDNNをトレーニングする必要がある。 計算結果から,提案手法の既存方式に対する有効性を示した。

This letter studies deep learning (DL) approaches to optimize beamforming vectors in downlink multi-user multi-antenna systems that can be universally applied to arbitrarily given transmit power limitation at a base station. We exploit the sum power budget as side information so that deep neural networks (DNNs) can effectively learn the impact of the power constraint in the beamforming optimization. Consequently, a single training process is sufficient for the proposed universal DL approach, whereas conventional methods need to train multiple DNNs for all possible power budget levels. Numerical results demonstrate the effectiveness of the proposed DL methods over existing schemes.
翻訳日:2022-11-14 15:04:05 公開日:2020-07-09
# 確率最適化問題に対する適応バッチサイズによるバランシング率とばらつき

Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems ( http://arxiv.org/abs/2007.01219v2 )

ライセンス: Link先を確認
Zhan Gao and Alec Koppel and Alejandro Ribeiro(参考訳) 確率的勾配降下は、確率的最適化問題に対処する標準的なツールであり、現代の機械学習と統計の基盤を形成する。 本研究は, 漸近収束においてステップサイズの減衰が要求されるという事実と, 有限時間で誤差まで高速に学習するという事実のバランスをとることを目的とする。 そこで我々は,ミニバッチとステップサイズを最初から修正するのではなく,パラメータを適応的に進化させる戦略を提案する。 具体的には、バッチサイズを、適切なエラー基準が満たされたときに増加が生じる一括即時増加シーケンスとする。 さらに、ステップサイズを最も高速な収束値として選択する。 全体的なアルゴリズムである2つのスケール適応(TSA)スキームは、凸および非凸確率最適化問題に対して開発された。 これは確率勾配法の正確な漸近収束を継承する。 より重要なことに、最適誤差減少率と計算コストの全体的な削減が理論的に達成される。 実験では,tsaがミニバッチとステップサイズを固定する標準sgdと比較して好都合なトレードオフを達成できたか,あるいは単に増減を許すだけであった。

Stochastic gradient descent is a canonical tool for addressing stochastic optimization problems, and forms the bedrock of modern machine learning and statistics. In this work, we seek to balance the fact that attenuating step-size is required for exact asymptotic convergence with the fact that constant step-size learns faster in finite time up to an error. To do so, rather than fixing the mini-batch and the step-size at the outset, we propose a strategy to allow parameters to evolve adaptively. Specifically, the batch-size is set to be a piecewise-constant increasing sequence where the increase occurs when a suitable error criterion is satisfied. Moreover, the step-size is selected as that which yields the fastest convergence. The overall algorithm, two scale adaptive (TSA) scheme, is developed for both convex and non-convex stochastic optimization problems. It inherits the exact asymptotic convergence of stochastic gradient method. More importantly, the optimal error decreasing rate is achieved theoretically, as well as an overall reduction in computational cost. Experimentally, we observe that TSA attains a favorable tradeoff relative to standard SGD that fixes the mini-batch and the step-size, or simply allowing one to increase or decrease respectively.
翻訳日:2022-11-14 14:56:05 公開日:2020-07-09
# 動的・潜在的なヒューマンタスク能力を備えたロボットチーム調整:学習曲線によるスケジューリング

Human-Robot Team Coordination with Dynamic and Latent Human Task Proficiencies: Scheduling with Learning Curves ( http://arxiv.org/abs/2007.01921v2 )

ライセンス: Link先を確認
Ruisen Liu, Manisha Natarajan, and Matthew Gombolay(参考訳) ロボットが職場で普及するにつれて、人間とロボットのコラボレーションは直感的にも適応的にも不可欠である。 ロボットの品質は、人間の時間変化(学習曲線)と確率的能力について明確に推論する能力に基づいて改善され、人間の好みを判断しながら、作業負荷を調整して効率を向上する。 本稿では,ロボットが確率的かつ時間のかかる作業性能にロバストなスケジュールを構築することにより,人間のチームメイトの相対的な強みと学習能力を探索できる新しい資源協調アルゴリズムを提案する。 まず,ユーザ調査(n = 20)から収集したデータを用いてアルゴリズムアプローチを検証することで,最新の個々の作業者の習熟度を見出しながら,ロバストなスケジュールを迅速に生成し,評価できることを示す。 第2に、協調アルゴリズムの有効性を検証するために、対象間実験(n = 90)を行う。 人-オブジェクト実験の結果は、チーム流速の改善(p = 0.0438)とチームの効率の最大化(p < 0.001)により、探索に有利なスケジューリング戦略が人間-ロボットコラボレーションに有用であることを示している。

As robots become ubiquitous in the workforce, it is essential that human-robot collaboration be both intuitive and adaptive. A robot's quality improves based on its ability to explicitly reason about the time-varying (i.e. learning curves) and stochastic capabilities of its human counterparts, and adjust the joint workload to improve efficiency while factoring human preferences. We introduce a novel resource coordination algorithm that enables robots to explore the relative strengths and learning abilities of their human teammates, by constructing schedules that are robust to stochastic and time-varying human task performance. We first validate our algorithmic approach using data we collected from a user study (n = 20), showing we can quickly generate and evaluate a robust schedule while discovering the latest individual worker proficiency. Second, we conduct a between-subjects experiment (n = 90) to validate the efficacy of our coordinating algorithm. Results from the human-subjects experiment indicate that scheduling strategies favoring exploration tend to be beneficial for human-robot collaboration as it improves team fluency (p = 0.0438), while also maximizing team efficiency (p < 0.001).
翻訳日:2022-11-14 06:15:00 公開日:2020-07-09
# FMRIB変分ベイズ推定チュートリアルII:確率的変分ベイズ

The FMRIB Variational Bayesian Inference Tutorial II: Stochastic Variational Bayes ( http://arxiv.org/abs/2007.02725v2 )

ライセンス: Link先を確認
Michael A. Chappell and Mark W. Woolrich(参考訳) ベイズ法はデータからモデルパラメータを推定するための多くの応用において強力であることが証明されている。 これらの手法はベイズの定理に基づいている。 しかし、実際には必要な計算は単純な場合であっても難解である。 したがって、ベイズ推定の手法は歴史的にラプラス近似のようなかなり近似的であったり、マルコフ・チェイン・モンテカルロ法のような計算コストで正確な解からサンプルを得たりしてきた。 2000年ごろからベイズ推論に対するいわゆる変分的アプローチがますます展開されている。 最も一般的な形式である変分ベイズ (VB) では、真の後続確率分布を、より「管理可能な」分布で近似し、できるだけ良い近似を達成することが目的である。 最初のfmrib variational bayesチュートリアルでは、vbベースのアプローチを文書化し、近似後段を形成するために'mean field'アプローチを採り、事前と可能性の一致を必要とし、変動の微積分を活用して、期待の最大化に似た反復的な更新方程式を導出しました。 このチュートリアルではvbを再検討していますが、以前の方法論によって課された制限を回避できる可能性のある問題に対する確率的アプローチを取り上げています。 この新しいアプローチは、機械学習アルゴリズムに適用される計算方法に多くの類似性があり、利点がある。 しかし、ここで述べられているのは、古典的な意味でのベイズ推論であり、推論問題を解決するために機械学習をブラックボックスとして利用しようとする試みではない。

Bayesian methods have proved powerful in many applications for the inference of model parameters from data. These methods are based on Bayes' theorem, which itself is deceptively simple. However, in practice the computations required are intractable even for simple cases. Hence methods for Bayesian inference have historically either been significantly approximate, e.g., the Laplace approximation, or achieve samples from the exact solution at significant computational expense, e.g., Markov Chain Monte Carlo methods. Since around the year 2000 so-called Variational approaches to Bayesian inference have been increasingly deployed. In its most general form Variational Bayes (VB) involves approximating the true posterior probability distribution via another more 'manageable' distribution, the aim being to achieve as good an approximation as possible. In the original FMRIB Variational Bayes tutorial we documented an approach to VB based that took a 'mean field' approach to forming the approximate posterior, required the conjugacy of prior and likelihood, and exploited the Calculus of Variations, to derive an iterative series of update equations, akin to Expectation Maximisation. In this tutorial we revisit VB, but now take a stochastic approach to the problem that potentially circumvents some of the limitations imposed by the earlier methodology. This new approach bears a lot of similarity to, and has benefited from, computational methods applied to machine learning algorithms. Although, what we document here is still recognisably Bayesian inference in the classic sense, and not an attempt to use machine learning as a black-box to solve the inference problem.
翻訳日:2022-11-14 06:12:57 公開日:2020-07-09
# 深部画像圧縮の知覚的最適化

Perceptually Optimizing Deep Image Compression ( http://arxiv.org/abs/2007.02711v2 )

ライセンス: Link先を確認
Li-Heng Chen and Christos G. Bampis and Zhi Li and Andrey Norkin and Alan C. Bovik(参考訳) 平均二乗誤差(MSE)と$\ell_p$ノルムは、その単純さと解析的性質から、ニューラルネットワークの損失の測定に大きく依存している。 しかしながら、視覚情報損失を評価するために使用される場合、これらの単純な規範は人間の知覚とあまり一致しない。 本稿では,定量的知覚モデルに対して,画像解析ネットワークを最適化するための異なるプロキシ手法を提案する。 具体的には、ネットワークの損失層として機能しながら知覚モデルを模倣したプロキシネットワークを構築し、この最適化フレームワークをエンドツーエンドの最適化画像圧縮ネットワークのトレーニングに適用する方法を実験的に実証する。 最新の深部画像圧縮モデルの上に構築することにより、特定の知覚品質(VMAF)レベルを考慮し、MSE最適化よりも平均28.7\%のビットレート削減を実証することができる。

Mean squared error (MSE) and $\ell_p$ norms have largely dominated the measurement of loss in neural networks due to their simplicity and analytical properties. However, when used to assess visual information loss, these simple norms are not highly consistent with human perception. Here, we propose a different proxy approach to optimize image analysis networks against quantitative perceptual models. Specifically, we construct a proxy network, which mimics the perceptual model while serving as a loss layer of the network.We experimentally demonstrate how this optimization framework can be applied to train an end-to-end optimized image compression network. By building on top of a modern deep image compression models, we are able to demonstrate an averaged bitrate reduction of $28.7\%$ over MSE optimization, given a specified perceptual quality (VMAF) level.
翻訳日:2022-11-14 06:03:40 公開日:2020-07-09
# 高速注意を伴うリアルタイム意味セグメンテーション

Real-time Semantic Segmentation with Fast Attention ( http://arxiv.org/abs/2007.03815v2 )

ライセンス: Link先を確認
Ping Hu, Federico Perazzi, Fabian Caba Heilbron, Oliver Wang, Zhe Lin, Kate Saenko, Stan Sclaroff(参考訳) セマンティックセグメンテーションのためのディープCNNベースのモデルでは、高い精度はリッチな空間コンテキスト(大きな受容場)と細かな空間詳細(高解像度)に依存し、どちらも高い計算コストを発生させる。 本稿では,高分解能画像と映像をリアルタイムにセグメンテーションするための,最先端のパフォーマンスを実現する新しいアーキテクチャを提案する。 提案したアーキテクチャは,従来の自己認識機構の簡易かつ効率的な変更であり,演算の順序を変化させることで,計算コストのごく一部で同じリッチな空間コンテキストをキャプチャする。 さらに,高分解能入力を効率的に処理するために,ファスト・アテンション・モジュールのヒューズ機能の利用により,ネットワークの中間特徴段階に最小限の精度で空間縮小を施す。 提案手法を一連の実験で検証し,複数のデータセットにおける結果が,既存の意味セマンティクスセグメンテーション手法と比較して精度と速度に優れることを示した。 都市景観において、我々のネットワークは72 fpsで74.4$\%$ miou、単一のtitan x gpu上で58 fpsで75.5$\%$ miouを達成する。

In deep CNN based models for semantic segmentation, high accuracy relies on rich spatial context (large receptive fields) and fine spatial details (high resolution), both of which incur high computational costs. In this paper, we propose a novel architecture that addresses both challenges and achieves state-of-the-art performance for semantic segmentation of high-resolution images and videos in real-time. The proposed architecture relies on our fast spatial attention, which is a simple yet efficient modification of the popular self-attention mechanism and captures the same rich spatial context at a small fraction of the computational cost, by changing the order of operations. Moreover, to efficiently process high-resolution input, we apply an additional spatial reduction to intermediate feature stages of the network with minimal loss in accuracy thanks to the use of the fast attention module to fuse features. We validate our method with a series of experiments, and show that results on multiple datasets demonstrate superior performance with better accuracy and speed compared to existing approaches for real-time semantic segmentation. On Cityscapes, our network achieves 74.4$\%$ mIoU at 72 FPS and 75.5$\%$ mIoU at 58 FPS on a single Titan X GPU, which is~$\sim$50$\%$ faster than the state-of-the-art while retaining the same accuracy.
翻訳日:2022-11-12 20:45:40 公開日:2020-07-09
# one-shot hard thresholdingによる1ビット圧縮センシング

One-Bit Compressed Sensing via One-Shot Hard Thresholding ( http://arxiv.org/abs/2007.03641v2 )

ライセンス: Link先を確認
Jie Shen(参考訳) 本論文は1ビット圧縮センシングの問題に対処し,その目的は,その2進数の測定値からスパース信号を推定することである。 本研究では,非凸スパルシティー拘束型プログラムについて検討し,ガウス幅の概念から遠ざかる新しい簡潔な解析法を提案する。 高確率では、単純なアルゴリズムが$\ell_2$-metric の下で正規化信号の正確な近似を生成することが保証される。 その上で,ノルム推定,リカバリ支援,モデルの誤特定に対処する新たな結果のアンサンブルを確立する。 計算側では、非凸プログラムは時間複雑性とメモリフットプリントの観点から劇的に効率的である1段階のハードしきい値で解くことができることを示した。 統計的には, 標準条件下では最適に近い誤差率を評価できることがわかった。 理論的結果は数値実験によって裏付けられる。

This paper concerns the problem of 1-bit compressed sensing, where the goal is to estimate a sparse signal from a few of its binary measurements. We study a non-convex sparsity-constrained program and present a novel and concise analysis that moves away from the widely used notion of Gaussian width. We show that with high probability a simple algorithm is guaranteed to produce an accurate approximation to the normalized signal of interest under the $\ell_2$-metric. On top of that, we establish an ensemble of new results that address norm estimation, support recovery, and model misspecification. On the computational side, it is shown that the non-convex program can be solved via one-step hard thresholding which is dramatically efficient in terms of time complexity and memory footprint. On the statistical side, it is shown that our estimator enjoys a near-optimal error rate under standard conditions. The theoretical results are substantiated by numerical experiments.
翻訳日:2022-11-12 19:25:04 公開日:2020-07-09
# ディープニューラルネットワークにおける階層的核生成

Hierarchical nucleation in deep neural networks ( http://arxiv.org/abs/2007.03506v2 )

ライセンス: Link先を確認
Diego Doimo, Aldo Glielmo, Alessio Ansuini, Alessandro Laio(参考訳) 深層畳み込みネットワーク(DCN)は、同じ抽象的特徴を共有するデータがより近く、より近い位置にある意味のある表現を学習する。 これらの表現とその生成方法を理解することは、疑わしい実践的で理論的な関心事である。 本研究では,いくつかの最先端DCNの隠蔽層にまたがるImageNetデータセットの確率密度の進化について検討する。 その結果,初期層は分類に無関係な構造を取り除き,一様確率密度を生成することがわかった。 その後の層では、密度ピークは概念の意味的階層を反映する階層的な方法で発生する。 単一のカテゴリに対応する密度ピークは出力と非常に鋭い遷移を通してのみ現れ、これは不均質な液体の核生成過程に似ている。 このプロセスは、ピークのトポグラフィーがカテゴリの意味的関係を再構築できる出力層の確率密度のフットプリントを残している。

Deep convolutional networks (DCNs) learn meaningful representations where data that share the same abstract characteristics are positioned closer and closer. Understanding these representations and how they are generated is of unquestioned practical and theoretical interest. In this work we study the evolution of the probability density of the ImageNet dataset across the hidden layers in some state-of-the-art DCNs. We find that the initial layers generate a unimodal probability density getting rid of any structure irrelevant for classification. In subsequent layers density peaks arise in a hierarchical fashion that mirrors the semantic hierarchy of the concepts. Density peaks corresponding to single categories appear only close to the output and via a very sharp transition which resembles the nucleation process of a heterogeneous liquid. This process leaves a footprint in the probability density of the output layer where the topography of the peaks allows reconstructing the semantic relationships of the categories.
翻訳日:2022-11-12 18:29:49 公開日:2020-07-09
# 無バイアス自由度バイディングシステム

Unbiased Lift-based Bidding System ( http://arxiv.org/abs/2007.04002v2 )

ライセンス: Link先を確認
Daisuke Moriwaki and Yuta Hayakawa and Isshu Munemasa and Yuta Saito and Akira Matsui(参考訳) オンラインディスプレイ広告オークションの従来の入札戦略は、クリックや変換のような観察されたパフォーマンス指標に大きく依存している。 しかし、これらの容易に観測可能な指標をナビゲート的に追求する入札戦略は、広告主の利益率の最適化に失敗する。 むしろ、最大の収益につながる入札戦略は、特定のユーザーに広告を表示するというパフォーマンス向上を追求する戦略だ。 したがって、ログデータから、ターゲット変数上の各ユーザに広告を表示することのリフト効果を予測することが不可欠である。 しかし,過去の入札戦略で収集したトレーニングデータは,入賞印象に対して強いバイアスを持つ可能性があるため,リフト効果の予測は困難である。 本研究では、偏りのあるログデータから昇降効果を正確に予測し、広告主の利益を最大化するUnbiased Liftベースの入札システムを開発する。 提案方式は,理論上はログ内固有のバイアスを軽減し,高パフォーマンスなリフトベース入札戦略を実現する最初のシステムである。 実世界の大規模A/Bテストは,提案システムの優位性と実用性を示す。

Conventional bidding strategies for online display ad auction heavily relies on observed performance indicators such as clicks or conversions. A bidding strategy naively pursuing these easily observable metrics, however, fails to optimize the profitability of the advertisers. Rather, the bidding strategy that leads to the maximum revenue is a strategy pursuing the performance lift of showing ads to a specific user. Therefore, it is essential to predict the lift-effect of showing ads to each user on their target variables from observed log data. However, there is a difficulty in predicting the lift-effect, as the training data gathered by a past bidding strategy may have a strong bias towards the winning impressions. In this study, we develop Unbiased Lift-based Bidding System, which maximizes the advertisers' profit by accurately predicting the lift-effect from biased log data. Our system is the first to enable high-performing lift-based bidding strategy by theoretically alleviating the inherent bias in the log. Real-world, large-scale A/B testing successfully demonstrates the superiority and practicability of the proposed system.
翻訳日:2022-11-12 12:47:09 公開日:2020-07-09
# 基板特異的有機反応条件予測のためのグラフニューラルネットワーク

Graph Neural Networks for the Prediction of Substrate-Specific Organic Reaction Conditions ( http://arxiv.org/abs/2007.04275v2 )

ライセンス: Link先を確認
Serim Ryou, Michael R. Maser, Alexander Y. Cui, Travis J. DeLano, Yisong Yue, Sarah E. Reisman(参考訳) 有機化学反応をモデル化するためにグラフニューラルネットワーク(GNN)を用いた系統的研究を行った。 そこで,有機化学文献から得られた4つのユビキタス反応のデータセットを作成した。 実験試薬と条件の識別に関わる分類タスクに対して、7つの異なるGNNアーキテクチャを評価した。 モデルは反応条件に影響を及ぼし正確な予測につながる特定のグラフの特徴を特定できる。 その結果、分子機械学習の進歩に大きな期待が持たれている。

We present a systematic investigation using graph neural networks (GNNs) to model organic chemical reactions. To do so, we prepared a dataset collection of four ubiquitous reactions from the organic chemistry literature. We evaluate seven different GNN architectures for classification tasks pertaining to the identification of experimental reagents and conditions. We find that models are able to identify specific graph features that affect reaction conditions and lead to accurate predictions. The results herein show great promise in advancing molecular machine learning.
翻訳日:2022-11-12 10:09:19 公開日:2020-07-09
# 音響シーン分類における深層構造を用いた分散識別情報の取得

Capturing scattered discriminative information using a deep architecture in acoustic scene classification ( http://arxiv.org/abs/2007.04631v1 )

ライセンス: Link先を確認
Hye-jin Shim, Jee-weon Jung, Ju-ho Kim, Ha-jin Yu(参考訳) 音響シーン分類(ASC)には、多くの一般的な音響特性を共有するクラスが頻繁に存在する。 このようなクラスを区別するためには、データ全体に散らばる自明な詳細が重要な手がかりになり得る。 しかし、これらの詳細は目立たず、従来の非線形アクティベーション(ReLUなど)で容易に取り除かれる。 さらに、設計上の選択を自明な細部を強調することは、システムが十分に一般化されていない場合、容易に過度に適合する。 そこで本研究では,ascタスクの特徴の分析に基づいて,識別情報を取り込む様々な手法を考察し,オーバーフィッティング問題を同時に緩和する。 深層ニューラルネットワークにおける従来の非線形活性化を置き換えるために,最大特徴写像法を採用し,畳み込み層の出力の異なるフィルタ間の要素ワイズ比較を適用した。 2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。 音響シーンの検出と分類を行い,2020 Task1-aデータセットを用いて提案手法の検証を行った。 その結果,提案方式はベースラインの65.1%に対して,最高性能のシステムは70.4%の精度でベースラインを一貫して上回ることがわかった。

Frequently misclassified pairs of classes that share many common acoustic properties exist in acoustic scene classification (ASC). To distinguish such pairs of classes, trivial details scattered throughout the data could be vital clues. However, these details are less noticeable and are easily removed using conventional non-linear activations (e.g. ReLU). Furthermore, making design choices to emphasize trivial details can easily lead to overfitting if the system is not sufficiently generalized. In this study, based on the analysis of the ASC task's characteristics, we investigate various methods to capture discriminative information and simultaneously mitigate the overfitting problem. We adopt a max feature map method to replace conventional non-linear activations in a deep neural network, and therefore, we apply an element-wise comparison between different filters of a convolution layer's output. Two data augment methods and two deep architecture modules are further explored to reduce overfitting and sustain the system's discriminative power. Various experiments are conducted using the detection and classification of acoustic scenes and events 2020 task1-a dataset to validate the proposed methods. Our results show that the proposed system consistently outperforms the baseline, where the single best performing system has an accuracy of 70.4% compared to 65.1% of the baseline.
翻訳日:2022-11-12 05:27:02 公開日:2020-07-09
# 音声キャプションのための頻繁な授業に基づくマルチタスク正規化

Multi-task Regularization Based on Infrequent Classes for Audio Captioning ( http://arxiv.org/abs/2007.04660v1 )

ライセンス: Link先を確認
Emre \c{C}ak{\i}r and Konstantinos Drossos and Tuomas Virtanen(参考訳) 音声キャプションはマルチモーダルタスクであり、一般的な音声の内容を自然言語で記述することに焦点を当てている。 ほとんどの音声キャプションはディープニューラルネットワークに基づいており、エンコーダ-デコーダスキームとオーディオクリップと対応する自然言語記述(キャプション)を備えたデータセットを使用している。 音声キャプションにおける重要な課題は、字幕内の単語の分布である:いくつかの単語は非常に頻繁であるが、音響的に非形式的、すなわち、機能語(例えば「a」や「the」)と他の単語は稀だが情報的、すなわち内容語(例えば形容詞、名詞)である。 本稿では,このクラス不均衡問題を緩和する2つの方法を提案する。 まず、音声キャプションのための自動エンコーダ設定において、各単語の学習損失に対する寄与度を、データセット全体の発生回数に反比例する重み付けを行う。 次に,マルチクラス音声キャプションタスクに加えて,個別のデコーダを訓練することにより,クリップレベルコンテンツワード検出に基づくマルチラベルサイドタスクを定義する。 音声キャプションタスクのための共同訓練エンコーダを正規化するために,第2タスクからの損失を利用する。 提案手法は,最近公開された大規模音声キャプションデータセットであるClosoを用いて評価し,本手法よりもSPIDEr法の方が375%向上したことを示す。

Audio captioning is a multi-modal task, focusing on using natural language for describing the contents of general audio. Most audio captioning methods are based on deep neural networks, employing an encoder-decoder scheme and a dataset with audio clips and corresponding natural language descriptions (i.e. captions). A significant challenge for audio captioning is the distribution of words in the captions: some words are very frequent but acoustically non-informative, i.e. the function words (e.g. "a", "the"), and other words are infrequent but informative, i.e. the content words (e.g. adjectives, nouns). In this paper we propose two methods to mitigate this class imbalance problem. First, in an autoencoder setting for audio captioning, we weigh each word's contribution to the training loss inversely proportional to its number of occurrences in the whole dataset. Secondly, in addition to multi-class, word-level audio captioning task, we define a multi-label side task based on clip-level content word detection by training a separate decoder. We use the loss from the second task to regularize the jointly trained encoder for the audio captioning task. We evaluate our method using Clotho, a recently published, wide-scale audio captioning dataset, and our results show an increase of 37\% relative improvement with SPIDEr metric over the baseline method.
翻訳日:2022-11-12 05:26:41 公開日:2020-07-09
# Green Lighting ML: デプロイメントにおけるマシンラーニングシステムの信頼性、統合性、可用性

Green Lighting ML: Confidentiality, Integrity, and Availability of Machine Learning Systems in Deployment ( http://arxiv.org/abs/2007.04693v1 )

ライセンス: Link先を確認
Abhishek Gupta, Erick Galinkin(参考訳) セキュリティと倫理の両方が、機械学習システムが信頼できることを保証するための核心である。 プロダクション機械学習では、一般的にモデルを構築している人からモデルをデプロイしている人への手引きがある。 このハンドオフでは、モデル展開を担当するエンジニアは、しばしば、モデルの詳細に依存しないため、その使用、露出、妥協に関連する潜在的な脆弱性が引き起こされる。 モデル盗難、モデル逆転、モデル誤用といったテクニックはモデルデプロイメントでは考慮されないため、データサイエンティストや機械学習エンジニアがこれらの潜在的なリスクを理解して、モデルをデプロイし、ホストするエンジニアに伝えることが可能である。 これは機械学習コミュニティのオープンな問題であり、この問題を軽減するためには、モデルのプライバシとセキュリティを検証する自動化システムを開発する必要がある。

Security and ethics are both core to ensuring that a machine learning system can be trusted. In production machine learning, there is generally a hand-off from those who build a model to those who deploy a model. In this hand-off, the engineers responsible for model deployment are often not privy to the details of the model and thus, the potential vulnerabilities associated with its usage, exposure, or compromise. Techniques such as model theft, model inversion, or model misuse may not be considered in model deployment, and so it is incumbent upon data scientists and machine learning engineers to understand these potential risks so they can communicate them to the engineers deploying and hosting their models. This is an open problem in the machine learning community and in order to help alleviate this issue, automated systems for validating privacy and security of models need to be developed, which will help to lower the burden of implementing these hand-offs and increasing the ubiquity of their adoption.
翻訳日:2022-11-12 05:26:15 公開日:2020-07-09
# グラフニューラルネットワークトポロジー攻撃に対するノードコピー

Node Copying for Protection Against Graph Neural Network Topology Attacks ( http://arxiv.org/abs/2007.06704v1 )

ライセンス: Link先を確認
Florence Regol, Soumyasundar Pal and Mark Coates(参考訳) 敵攻撃は既存のディープラーニングモデルの性能に影響を与える可能性がある。 グラフベースの機械学習技術への関心が高まり、これらのモデルが攻撃にも脆弱であることを示唆する調査が行われた。 特に、グラフトポロジの破損は、グラフベースの学習アルゴリズムの性能を著しく低下させる可能性がある。 これは、これらのアルゴリズムの予測能力が、グラフ接続によって課される類似性構造に大きく依存しているためである。 したがって、汚職の位置を検出し、発生したエラーを修正することが重要である。 近年,検出問題に対処する研究がいくつかあるが,これらの手法は下流学習課題に対する攻撃の影響に対処していない。 本研究では,敵の攻撃による分類の劣化を軽減するために,ノードコピーを用いたアルゴリズムを提案する。 提案手法は,ダウンストリームタスクのモデルがトレーニングされた後にのみ適用され,追加した計算コストは大規模グラフに対して十分にスケールする。 実験の結果,いくつかの実世界のデータセットに対するアプローチの有効性が示された。

Adversarial attacks can affect the performance of existing deep learning models. With the increased interest in graph based machine learning techniques, there have been investigations which suggest that these models are also vulnerable to attacks. In particular, corruptions of the graph topology can degrade the performance of graph based learning algorithms severely. This is due to the fact that the prediction capability of these algorithms relies mostly on the similarity structure imposed by the graph connectivity. Therefore, detecting the location of the corruption and correcting the induced errors becomes crucial. There has been some recent work which tackles the detection problem, however these methods do not address the effect of the attack on the downstream learning task. In this work, we propose an algorithm that uses node copying to mitigate the degradation in classification that is caused by adversarial attacks. The proposed methodology is applied only after the model for the downstream task is trained and the added computation cost scales well for large graphs. Experimental results show the effectiveness of our approach for several real world datasets.
翻訳日:2022-11-12 05:25:26 公開日:2020-07-09
# ASPのTreewidth-Aware Complexity: すべての正のサイクルが等しく難しいわけではない

Treewidth-Aware Complexity in ASP: Not all Positive Cycles are Equally Hard ( http://arxiv.org/abs/2007.04620v1 )

ライセンス: Link先を確認
Markus Hecher, Jorge Fandinno(参考訳) 正規解集合プログラム(ASP)の整合性を決定することはNP完全であり、古典命題論理(SAT)の満足度問題と同じくらい難しいことはよく知られている。 これらの問題を解決する最良のアルゴリズムは、最悪の場合指数関数的な時間がかかる。 指数時間仮説 (eth) は、この結果がsat、すなわちsatがサブ指数時間で解くことができないことを示唆する。 これにより、ASP.NETの一貫性の問題にも結果がきついことがすぐに証明される。 しかし、問題のツリー幅を考慮すると、ASP の一貫性問題は SAT よりもわずかに難しい:SAT は木幅 k において指数時間で実行されるアルゴリズムによって解けるが、最近、ASP は k \cdot log(k) において指数時間を必要とすることを示した。 この追加コストは、プログラムの正のサイクルのために自己支持の真の原子が存在しないことをチェックするためである。 本稿では,上述の結果を洗練し,プログラムの正の依存性グラフにおける最大強連結成分の最小値である k \cdot log({\lambda}) において,asp の一貫性問題を指数関数時間で解くことができることを示す。 上述の制限に従うASPからSATへのツリー幅対応の削減と問題を解く動的プログラミングアルゴリズムを提供する。

It is well-know that deciding consistency for normal answer set programs (ASP) is NP-complete, thus, as hard as the satisfaction problem for classical propositional logic (SAT). The best algorithms to solve these problems take exponential time in the worst case. The exponential time hypothesis (ETH) implies that this result is tight for SAT, that is, SAT cannot be solved in subexponential time. This immediately establishes that the result is also tight for the consistency problem for ASP. However, accounting for the treewidth of the problem, the consistency problem for ASP is slightly harder than SAT: while SAT can be solved by an algorithm that runs in exponential time in the treewidth k, it was recently shown that ASP requires exponential time in k \cdot log(k). This extra cost is due checking that there are no self-supported true atoms due to positive cycles in the program. In this paper, we refine the above result and show that the consistency problem for ASP can be solved in exponential time in k \cdot log({\lambda}) where {\lambda} is the minimum between the treewidth and the size of the largest strongly-connected component in the positive dependency graph of the program. We provide a dynamic programming algorithm that solves the problem and a treewidth-aware reduction from ASP to SAT that adhere to the above limit.
翻訳日:2022-11-12 05:20:57 公開日:2020-07-09
# 知識コンパイルを用いた知的輸送システムの説明可能性:交通灯制御器ケース

Explainability of Intelligent Transportation Systems using Knowledge Compilation: a Traffic Light Controller Case ( http://arxiv.org/abs/2007.04916v1 )

ライセンス: Link先を確認
Salom\'on Wollenstein-Betech, Christian Muise, Christos G. Cassandras, Ioannis Ch. Paschalidis, Yasaman Khazaeni(参考訳) 環境上で意思決定を行う自動コントローラの使用は広く、ブラックボックスモデルに基づくことが多い。 我々は,システムの状態からコントローラの判断に説明可能性をもたらすために知識コンパイル理論を用いる。 このために,シミュレートされた過去の状態動作データを入力として使用し,状態とアクションを関連付けたコンパクトで構造化された表現を構築する。 本手法は,道路の異なる地域で車両の存在(または不在)を観測することにより,制御器が光サイクルを選択する,交通光制御のシナリオに実装する。

Usage of automated controllers which make decisions on an environment are widespread and are often based on black-box models. We use Knowledge Compilation theory to bring explainability to the controller's decision given the state of the system. For this, we use simulated historical state-action data as input and build a compact and structured representation which relates states with actions. We implement this method in a Traffic Light Control scenario where the controller selects the light cycle by observing the presence (or absence) of vehicles in different regions of the incoming roads.
翻訳日:2022-11-12 05:20:31 公開日:2020-07-09
# 無人Kalman Smootherを用いたBluetooth低エネルギーRSSIからの近接推定

Inferring proximity from Bluetooth Low Energy RSSI with Unscented Kalman Smoothers ( http://arxiv.org/abs/2007.05057v1 )

ライセンス: Link先を確認
Tom Lovett, Mark Briers, Marcos Charalambides, Radka Jersakova, James Lomax and Chris Holmes(参考訳) コビッドウイルスのパンデミックは、国際人口の感染拡大を管理する様々なアプローチをもたらした。 例えば、携帯電話のアプリケーションでは、感染リスクの2つの重要な要素、感染している可能性のある個人との近接と近接期間を自動的に推測することで、感染した個人とその接触者を警告する。 前者のコンポーネントである near は、距離センサとして bluetooth low energy (ble) 受信信号強度インジケータ (rssi) に依存しており、デバイスタイプの違い、オンボディのデバイス位置、デバイス方向、ローカル環境、電波伝搬に関連する一般的なノイズなど、予測不能な変動が原因で問題となっている。 本稿では,RSSI値の与えられた距離列よりも後方確率を推定する手法を提案する。 非線型状態空間モデリングに単次元アンセントカルマン・スモーザー(UKS)を用い、変動源を直接キャプチャする生成モデルや、距離と感染リスクの両方を最適化目的関数として用いたトレーニングデータから適切な観測関数を学習する識別モデルなど、いくつかのガウス過程観察変換を概説する。 その結果、実世界のデータセット上では$\mathcal{o}(n)$ timeで優れたリスク予測が可能となり、同じトレーニングデータから得られた従来の分類方法よりも英国の方が優れていることがわかった。

The Covid-19 pandemic has resulted in a variety of approaches for managing infection outbreaks in international populations. One example is mobile phone applications, which attempt to alert infected individuals and their contacts by automatically inferring two key components of infection risk: the proximity to an individual who may be infected, and the duration of proximity. The former component, proximity, relies on Bluetooth Low Energy (BLE) Received Signal Strength Indicator(RSSI) as a distance sensor, and this has been shown to be problematic; not least because of unpredictable variations caused by different device types, device location on-body, device orientation, the local environment and the general noise associated with radio frequency propagation. In this paper, we present an approach that infers posterior probabilities over distance given sequences of RSSI values. Using a single-dimensional Unscented Kalman Smoother (UKS) for non-linear state space modelling, we outline several Gaussian process observation transforms, including: a generative model that directly captures sources of variation; and a discriminative model that learns a suitable observation function from training data using both distance and infection risk as optimisation objective functions. Our results show that good risk prediction can be achieved in $\mathcal{O}(n)$ time on real-world data sets, with the UKS outperforming more traditional classification methods learned from the same training data.
翻訳日:2022-11-12 05:19:59 公開日:2020-07-09
# 5Gネットワークセキュリティにおける人工知能と機械学習 : 機会、利点、今後の研究動向

Artificial Intelligence and Machine Learning in 5G Network Security: Opportunities, advantages, and future research trends ( http://arxiv.org/abs/2007.04490v1 )

ライセンス: Link先を確認
Noman Haider, Muhammad Zeeshan Baig, Muhammad Imran(参考訳) 5Gネットワークの最近の技術とアーキテクチャの進歩は、世界中に展開が始まって以来、その価値が証明されている。 コアネットワークへのアクセスによるパフォーマンス向上要因は、主要なネットワーク機能のソフトウェア化、クラウド化、仮想化である。 急速な進化とともに、システムのリスクや脅威、脆弱性がもたらされます。 したがって、不正な証明のエンドツーエンド(E2E)セキュリティを確保することが重要な問題となる。 人工知能(AI)と機械学習(ML)は、多種多様な脅威に対する効率的なセキュリティプロトコルの設計、モデリング、自動化において重要な役割を果たす。 AIとMLはすでに、高い精度で分類、識別、自動化の分野でその効果を証明している。 5Gネットワークの第一のセールスポイントはデータレートと速度の向上であり、一般的な防犯対策を用いて異なるポイントからの幅広い脅威に対処することは困難である。 したがって、aiとmlは、高度にデータ駆動のソフトウェアと仮想化されたネットワークコンポーネントを保護する上で中心的な役割を果たすことができる。 本稿では、5GネットワークセキュリティのためのAIおよびML駆動アプリケーション、その意味と研究の方向性について述べる。 また,脅威分類と異常検出のための5Gアーキテクチャにおけるキーデータ収集点の概要について述べる。

Recent technological and architectural advancements in 5G networks have proven their worth as the deployment has started over the world. Key performance elevating factor from access to core network are softwareization, cloudification and virtualization of key enabling network functions. Along with the rapid evolution comes the risks, threats and vulnerabilities in the system for those who plan to exploit it. Therefore, ensuring fool proof end-to-end (E2E) security becomes a vital concern. Artificial intelligence (AI) and machine learning (ML) can play vital role in design, modelling and automation of efficient security protocols against diverse and wide range of threats. AI and ML has already proven their effectiveness in different fields for classification, identification and automation with higher accuracy. As 5G networks' primary selling point has been higher data rates and speed, it will be difficult to tackle wide range of threats from different points using typical/traditional protective measures. Therefore, AI and ML can play central role in protecting highly data-driven softwareized and virtualized network components. This article presents AI and ML driven applications for 5G network security, their implications and possible research directions. Also, an overview of key data collection points in 5G architecture for threat classification and anomaly detection are discussed.
翻訳日:2022-11-12 05:19:33 公開日:2020-07-09
# ナップサック制約を受ける高速適応型非単調サブモジュラー最大化

Fast Adaptive Non-Monotone Submodular Maximization Subject to a Knapsack Constraint ( http://arxiv.org/abs/2007.05014v1 )

ライセンス: Link先を確認
Georgios Amanatidis, Federico Fusco, Philip Lazos, Stefano Leonardi, Rebecca Reiffenh\"auser(参考訳) 制限付きサブモジュラー最大化問題は、パーソナライズドレコメンデーション、チーム形成、バイラルマーケティングによる収益最大化など、幅広い応用を包含している。 現代のアプリケーションで発生する巨大なインスタンスは、既存のアルゴリズムを違法に遅くするが、それらのインスタンスは本質的に確率的でもある。 これらの課題に着目し,ナップサック制約を受ける(多分単調でない)部分モジュラー関数を最大化する古典的な問題を再考する。 5.83$の近似を達成し、o(n \log n)$の時間、すなわち、他の最先端のアルゴリズムよりも少なくとも1倍の速さで実行される単純なランダム化グリーディアルゴリズムを提案する。 私たちのアプローチの堅牢性は、問題を確率的なバージョンにさらに移すことを可能にします。 そこでは,非単調な目的に対する最初の定数近似である最適適応ポリシーに対する9ドル近似を得る。 提案アルゴリズムの実験的評価は,実データおよび合成データの性能向上を示す。

Constrained submodular maximization problems encompass a wide variety of applications, including personalized recommendation, team formation, and revenue maximization via viral marketing. The massive instances occurring in modern day applications can render existing algorithms prohibitively slow, while frequently, those instances are also inherently stochastic. Focusing on these challenges, we revisit the classic problem of maximizing a (possibly non-monotone) submodular function subject to a knapsack constraint. We present a simple randomized greedy algorithm that achieves a $5.83$ approximation and runs in $O(n \log n)$ time, i.e., at least a factor $n$ faster than other state-of-the-art algorithms. The robustness of our approach allows us to further transfer it to a stochastic version of the problem. There, we obtain a $9$-approximation to the best adaptive policy, which is the first constant approximation for non-monotone objectives. Experimental evaluation of our algorithms showcases their improved performance on real and synthetic data.
翻訳日:2022-11-12 05:17:55 公開日:2020-07-09
# SARS-CoV-2ウイルスRNA配列分類と畳み込みニューラルネットワークによる地理的解析

SARS-CoV-2 virus RNA sequence classification and geographical analysis with convolutional neural networks approach ( http://arxiv.org/abs/2007.05055v1 )

ライセンス: Link先を確認
Selcuk Yazar(参考訳) 2019年12月に世界中に広まり、現在も活動しているコビッドウイルスは、今日世界で2万5000人以上の死者を出した。 この課題に関する研究は、ウイルスの遺伝子構造、ワクチンの開発、疾患の経過、およびその発生源の分析に焦点が当てられている。 本研究では,sars-cov-2ウイルスに属するrna配列を2つの画像処理アルゴリズムを用いて遺伝子モチーフに変換し,畳み込みニューラルネットワーク(cnn)モデルに分類した。 CNNモデルはアジア、ヨーロッパ、アメリカ、オセアニアに分類されたRNA配列で平均98%の面積曲線(AUC)値を達成した。 その結果得られたニューラルネットワークモデルは、トルコで分離されたウイルスの変異の系統解析に用いられた。 その結果,SARS-CoV-2ウイルスの記録を世界中に保持するGISAIDデータベースの遺伝子アライメント値と比較した。 実験結果から,cnnモデルを用いたウイルスの地理的分布の検出が効率的である可能性が示唆された。

Covid-19 infection, which spread to the whole world in December 2019 and is still active, caused more than 250 thousand deaths in the world today. Researches on this subject have been focused on analyzing the genetic structure of the virus, developing vaccines, the course of the disease, and its source. In this study, RNA sequences belonging to the SARS-CoV-2 virus are transformed into gene motifs with two basic image processing algorithms and classified with the convolutional neural network (CNN) models. The CNN models achieved an average of 98% Area Under Curve(AUC) value was achieved in RNA sequences classified as Asia, Europe, America, and Oceania. The resulting artificial neural network model was used for phylogenetic analysis of the variant of the virus isolated in Turkey. The classification results reached were compared with gene alignment values in the GISAID database, where SARS-CoV-2 virus records are kept all over the world. Our experimental results have revealed that now the detection of the geographic distribution of the virus with the CNN models might serve as an efficient method.
翻訳日:2022-11-12 05:17:35 公開日:2020-07-09
# ラベル付けの負担を軽減する:注意分岐エンコーダ-デコーダネットワークによる文生成

Alleviating the Burden of Labeling: Sentence Generation by Attention Branch Encoder-Decoder Network ( http://arxiv.org/abs/2007.04557v1 )

ライセンス: Link先を確認
Tadashi Ogura, Aly Magassouba, Komei Sugiura, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi, and Hisashi Kawai(参考訳) 家庭内サービスロボット(DSR)は、在宅勤務者の不足に対する有望な解決策である。 しかし、DSRの主な制限の1つは、言語を通して自然に相互作用できないことである。 近年、この制限に対処するためにデータ駆動アプローチが有効であることが示されているが、コストのかかる大規模なデータセットを必要とすることが多い。 この背景から、例えば「テーブルの上に緑茶瓶をくれ」など、フェッチング命令の自動文生成を目標としています。 適切な表現は対象のオブジェクトやその周辺に依存するため、これは特に困難である。 本稿では,視覚入力から文を生成するためのアテンションブランチエンコーダ-デコーダネットワーク(ABEN)を提案する。 他のアプローチとは異なり、ABENはサブワードレベルのアテンションを使用し、サブワード埋め込みに基づいた文を生成するマルチモーダルアテンションブランチを持つ。 実験では,画像キャプションにおける4つの標準指標を用いて,ABENをベースライン法と比較した。 その結果、ABENはこれらの指標でベースラインを上回りました。

Domestic service robots (DSRs) are a promising solution to the shortage of home care workers. However, one of the main limitations of DSRs is their inability to interact naturally through language. Recently, data-driven approaches have been shown to be effective for tackling this limitation; however, they often require large-scale datasets, which is costly. Based on this background, we aim to perform automatic sentence generation of fetching instructions: for example, "Bring me a green tea bottle on the table." This is particularly challenging because appropriate expressions depend on the target object, as well as its surroundings. In this paper, we propose the attention branch encoder--decoder network (ABEN), to generate sentences from visual inputs. Unlike other approaches, the ABEN has multimodal attention branches that use subword-level attention and generate sentences based on subword embeddings. In experiments, we compared the ABEN with a baseline method using four standard metrics in image captioning. Results show that the ABEN outperformed the baseline in terms of these metrics.
翻訳日:2022-11-12 05:12:38 公開日:2020-07-09
# マルチスケールモーション補償と時空間モデルを用いたニューラルビデオ符号化

Neural Video Coding using Multiscale Motion Compensation and Spatiotemporal Context Model ( http://arxiv.org/abs/2007.04574v1 )

ライセンス: Link先を確認
Haojie Liu, Ming Lu, Zhan Ma, Fan Wang, Zhihuang Xie, Xun Cao, Yao Wang(参考訳) 過去20年間で、従来のブロックベースのビデオコーディングは顕著な進歩を遂げ、MPEG-4、H.264/AVC、H.265/HEVCといった有名な標準が生まれた。 一方で、ディープニューラルネットワーク(dnn)は、視覚的コンテンツ理解、特徴抽出、コンパクト表現に強力な能力を示している。 以前のいくつかの研究は、学習されたビデオ符号化アルゴリズムをエンドツーエンドで検討しており、従来の方法と比べて大きな可能性を示している。 本稿では, フレーム内画素, フレーム間動き, フレーム間補償残差の相関を利用するために, 共同空間および時間的事前集約(PA)を用いた可変オートエンコーダ(VAE)を用いたエンドツーエンドのディープビデオ符号化フレームワークを提案する。 NVCの新機能には以下のものがある。 1) 広い範囲にわたる動きを推定・補償するために, マルチスケール流れ場を生成する動き特徴の符号化のためのVAEのピラミッドデコーダとともに, 教師なしマルチスケール運動補償ネットワーク(MS-MCN)を提案する。 2) 運動情報の効率的なエントロピー符号化のための新しい適応時空間文脈モデルを設計する。 3)vaesのボトルネックである非局所的注意モジュール(nlam)を暗黙的適応的特徴抽出とアクティベーションのために採用し,その高い変換能力とグローバル情報と局所情報との重み付けの不等さを生かした。 4) Pフレーム間の時間誤差の伝播を最小限に抑えるため, マルチモジュール最適化とマルチフレームトレーニング戦略を導入する。 NVCは低遅延因果条件で評価され、一般的なテスト条件に従ってH.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮手法と比較され、PSNRおよびMS-SSIMの歪み測定値において、すべての一般的なテストシーケンスに対して一貫した利得を示す。

Over the past two decades, traditional block-based video coding has made remarkable progress and spawned a series of well-known standards such as MPEG-4, H.264/AVC and H.265/HEVC. On the other hand, deep neural networks (DNNs) have shown their powerful capacity for visual content understanding, feature extraction and compact representation. Some previous works have explored the learnt video coding algorithms in an end-to-end manner, which show the great potential compared with traditional methods. In this paper, we propose an end-to-end deep neural video coding framework (NVC), which uses variational autoencoders (VAEs) with joint spatial and temporal prior aggregation (PA) to exploit the correlations in intra-frame pixels, inter-frame motions and inter-frame compensation residuals, respectively. Novel features of NVC include: 1) To estimate and compensate motion over a large range of magnitudes, we propose an unsupervised multiscale motion compensation network (MS-MCN) together with a pyramid decoder in the VAE for coding motion features that generates multiscale flow fields, 2) we design a novel adaptive spatiotemporal context model for efficient entropy coding for motion information, 3) we adopt nonlocal attention modules (NLAM) at the bottlenecks of the VAEs for implicit adaptive feature extraction and activation, leveraging its high transformation capacity and unequal weighting with joint global and local information, and 4) we introduce multi-module optimization and a multi-frame training strategy to minimize the temporal error propagation among P-frames. NVC is evaluated for the low-delay causal settings and compared with H.265/HEVC, H.264/AVC and the other learnt video compression methods following the common test conditions, demonstrating consistent gains across all popular test sequences for both PSNR and MS-SSIM distortion metrics.
翻訳日:2022-11-12 05:12:21 公開日:2020-07-09
# 水路のゴミ検知のための注意ニューラルネットワーク

Attention Neural Network for Trash Detection on Water Channels ( http://arxiv.org/abs/2007.04639v1 )

ライセンス: Link先を確認
Mohbat Tharani, Abdul Wahab Amin, Mohammad Maaz and Murtaza Taj(参考訳) 都市を流れる川や運河はしばしばゴミを捨てるために違法に使用される。 これは淡水の水路を汚染し、下水道の閉塞を引き起こして都市洪水を引き起こす。 この汚染された水が農地に達すると、土壌が劣化し、重要な環境と経済的脅威が生じる。 捨てられたゴミは、しばしば水面に浮かんでいる。 ゴミは分解され、部分的に沈められ、小さな破片に分解され、その形状を曖昧にし、困難な検出問題を生じさせる他の物体と組み合わされた。 本稿では,都市部における運河水面に浮かぶ可視性ゴミの検出手法を提案する。 また、オブジェクトレベルのアノテーションを含む大規模なデータセットも提供しています。 より小さな物体の検出を改善する新しいアテンション層が提案されている。 本研究の終了に向けて,本手法と最先端物体検出器との詳細な比較を行い,本手法が小型物体の検出を著しく改善することを示す。 データセットは一般公開される予定だ。

Rivers and canals flowing through cities are often used illegally for dumping the trash. This contaminates freshwater channels as well as causes blockage in sewerage resulting in urban flooding. When this contaminated water reaches agricultural fields, it results in degradation of soil and poses critical environmental as well as economic threats. The dumped trash is often found floating on the water surface. The trash could be disfigured, partially submerged, decomposed into smaller pieces, clumped together with other objects which obscure its shape and creates a challenging detection problem. This paper proposes a method for the detection of visible trash floating on the water surface of the canals in urban areas. We also provide a large dataset, first of its kind, trash in water channels that contains object-level annotations. A novel attention layer is proposed that improves the detection of smaller objects. Towards the end of this paper, we provide a detailed comparison of our method with state-of-the-art object detectors and show that our method significantly improves the detection of smaller objects. The dataset will be made publicly available.
翻訳日:2022-11-12 05:11:43 公開日:2020-07-09
# 精密視覚サーボのためのモデル非依存メタ学習によるcnn切替学習

Learning to Switch CNNs with Model Agnostic Meta Learning for Fine Precision Visual Servoing ( http://arxiv.org/abs/2007.04645v1 )

ライセンス: Link先を確認
Prem Raj, Vinay P. Namboodiri and L. Behera(参考訳) 畳み込みニューラルネットワーク(cnns)は、手作業による特徴やカメラ固有のパラメータ、深度情報を必要としない、ラベル付きイメージペアデータからの相対的なカメラポーズ推定に成功している。 トレーニングされたCNNは、ポーズベースのビジュアルサーボ制御(PBVS)を実行するために使用できる。 視覚サーボ出力の品質を向上させる方法の1つは、相対ポーズ推定のためのcnnの精度を向上させることである。 相対的ポーズ回帰のための与えられた最先端CNNでは、視覚サーボ制御の性能向上をどうやって達成できるのか? 本稿では,視覚サーボ制御の精度を向上させるために,CNNの切り替えを検討する。 cnnを切り替えるという考えは、視覚サーボ制御のための相対カメラポーズレグレッサーを訓練するためのデータセットが、非常に小さなスケールから、最終的には大きなスケールまで、相対姿勢のバリエーションを含む必要があるためである。 cnnの2つの異なるインスタンスをトレーニングすると、lsd(large-scale-displacements)とssd(small-scale-displacements)の2つが、視覚サーボ実行中にそれらを切り替えることで、単一のcnnをlsd+ssdデータでトレーニングするよりも優れた結果が得られることがわかった。 しかし、追加のストレージオーバヘッドが発生し、手動で設定したしきい値によってスイッチング決定が行われるため、すべてのシーンで最適ではない可能性がある。 これらの欠点を解消するために,モデル非依存メタ学習(MAML)アルゴリズムに基づく効率的なスイッチング戦略を提案する。 このモデルでは、複数のタスクに同時に適するパラメータ、すなわちスイッチング決定のためのバイナリ分類、LSDデータに対する6DOFポーズ回帰、SSDデータに対する6DOFポーズ回帰を学習するために、単一のモデルを訓練する。 提案手法は、ストレージと実行時のオーバーヘッドがほとんど無視されるのに対して、単純なアプローチよりもはるかに優れている。

Convolutional Neural Networks (CNNs) have been successfully applied for relative camera pose estimation from labeled image-pair data, without requiring any hand-engineered features, camera intrinsic parameters or depth information. The trained CNN can be utilized for performing pose based visual servo control (PBVS). One of the ways to improve the quality of visual servo output is to improve the accuracy of the CNN for estimating the relative pose estimation. With a given state-of-the-art CNN for relative pose regression, how can we achieve an improved performance for visual servo control? In this paper, we explore switching of CNNs to improve the precision of visual servo control. The idea of switching a CNN is due to the fact that the dataset for training a relative camera pose regressor for visual servo control must contain variations in relative pose ranging from a very small scale to eventually a larger scale. We found that, training two different instances of the CNN, one for large-scale-displacements (LSD) and another for small-scale-displacements (SSD) and switching them during the visual servo execution yields better results than training a single CNN with the combined LSD+SSD data. However, it causes extra storage overhead and switching decision is taken by a manually set threshold which may not be optimal for all the scenes. To eliminate these drawbacks, we propose an efficient switching strategy based on model agnostic meta learning (MAML) algorithm. In this, a single model is trained to learn parameters which are simultaneously good for multiple tasks, namely a binary classification for switching decision, a 6DOF pose regression for LSD data and also a 6DOF pose regression for SSD data. The proposed approach performs far better than the naive approach, while storage and run-time overheads are almost negligible.
翻訳日:2022-11-12 05:11:28 公開日:2020-07-09
# latent regularized adversarial networkを用いた脳腫瘍の異常検出

Brain Tumor Anomaly Detection via Latent Regularized Adversarial Network ( http://arxiv.org/abs/2007.04734v1 )

ライセンス: Link先を確認
Nan Wang, Chengwei Chen, Yuan Xie, Lizhuang Ma(参考訳) 医用画像技術の発展に伴い、医用画像は患者を診断するための重要な基盤となっている。 収集されたデータの脳構造は複雑で、脳の異常の診断には医師や医師が多量のエネルギーを消費する必要がある。 脳腫瘍データの不均衡と稀な量のラベル付きデータを目指して,革新的な脳腫瘍異常検出アルゴリズムを提案する。 健常な(正常な)脳画像のみを訓練する半教師付き異常検出モデルを提案する。 モデルは、トレーニング過程における通常の画像の共通パターンをキャプチャし、潜在空間の再構成誤差に基づいて異常を検出する。 さらに,本手法ではまず特異値を用いて遅延空間を制約し,複数の損失関数を用いて画像空間を共同最適化することにより,特徴レベルの正常サンプルと異常サンプルを分離しやすくする。 本稿では,BraTS,HCP,MNIST,CIFAR-10データセットを用いて,その有効性と実践性を総合的に評価する。 我々の半教師あり手法は, 最先端の教師あり手法に比較して, 性能や性能に優れることを示した。

With the development of medical imaging technology, medical images have become an important basis for doctors to diagnose patients. The brain structure in the collected data is complicated, thence, doctors are required to spend plentiful energy when diagnosing brain abnormalities. Aiming at the imbalance of brain tumor data and the rare amount of labeled data, we propose an innovative brain tumor abnormality detection algorithm. The semi-supervised anomaly detection model is proposed in which only healthy (normal) brain images are trained. Model capture the common pattern of the normal images in the training process and detect anomalies based on the reconstruction error of latent space. Furthermore, the method first uses singular value to constrain the latent space and jointly optimizes the image space through multiple loss functions, which make normal samples and abnormal samples more separable in the feature-level. This paper utilizes BraTS, HCP, MNIST, and CIFAR-10 datasets to comprehensively evaluate the effectiveness and practicability. Extensive experiments on intra- and cross-dataset tests prove that our semi-supervised method achieves outperforms or comparable results to state-of-the-art supervised techniques.
翻訳日:2022-11-12 05:10:54 公開日:2020-07-09
# 2次元スライスVAEを用いた3次元脳MRIの分布のモデル化

Modelling the Distribution of 3D Brain MRI using a 2D Slice VAE ( http://arxiv.org/abs/2007.04780v1 )

ライセンス: Link先を確認
Anna Volokitin, Ertunc Erdil, Neerav Karani, Kerem Can Tezcan, Xiaoran Chen, Luc Van Gool, Ender Konukoglu(参考訳) 確率論的モデリングは医用画像解析、特に脳磁気共鳴画像(MRI)解析において重要なツールである。 近年,高次元分布,特に変分オートエンコーダ(VAE)を推定するためのディープラーニング技術が,確率的モデリングのための新たな道を開いた。 ボリュームデータのモデリングは、利用可能な計算とトレーニングデータに制約があるため、2次元画像で十分に開発されたVAEを効果的に活用することは困難である。 2次元スライスvaeと,スライス間の関係を捉えるガウスモデルを組み合わせた3次元mr脳容積分布のモデル化法を提案する。 2次元モデルの潜在空間におけるサンプル平均と共分散をスライス方向上で推定することで,その評価を行う。 この組み合わせモデルにより、潜在変数の新しいコヒーレントスタックをサンプリングして、ボリュームのスライスにデコードできます。 また,本研究では,脳解剖学に適合するセグメンテーションの精度を定量的に評価する新たなボリューム評価手法を提案する。 提案手法は,従来の測定値と提案した評価値の両方に基づいて,高品質なボリュームを高解像度で生成する上で競合することを示す。

Probabilistic modelling has been an essential tool in medical image analysis, especially for analyzing brain Magnetic Resonance Images (MRI). Recent deep learning techniques for estimating high-dimensional distributions, in particular Variational Autoencoders (VAEs), opened up new avenues for probabilistic modeling. Modelling of volumetric data has remained a challenge, however, because constraints on available computation and training data make it difficult effectively leverage VAEs, which are well-developed for 2D images. We propose a method to model 3D MR brain volumes distribution by combining a 2D slice VAE with a Gaussian model that captures the relationships between slices. We do so by estimating the sample mean and covariance in the latent space of the 2D model over the slice direction. This combined model lets us sample new coherent stacks of latent variables to decode into slices of a volume. We also introduce a novel evaluation method for generated volumes that quantifies how well their segmentations match those of true brain anatomy. We demonstrate that our proposed model is competitive in generating high quality volumes at high resolutions according to both traditional metrics and our proposed evaluation.
翻訳日:2022-11-12 05:10:34 公開日:2020-07-09
# 深層学習と埋め込みを用いた文脈認識型推薦システムに関する体系的レビュー

A Systematic Review on Context-Aware Recommender Systems using Deep Learning and Embeddings ( http://arxiv.org/abs/2007.04782v1 )

ライセンス: Link先を確認
Igor Andr\'e Pegoraro Santana, Marcos Aurelio Domingues(参考訳) Recommender Systemsは、ユーザがWebシステムで関連する情報を見つける方法を改善するツールである。 より良いレコメンデーションを生成するためには、レコメンデーションプロセスで情報コンテキストを使用する必要がある。 コンテキスト対応レコメンダシステムは、最先端の結果を達成し、従来のレコメンダシステムを改善する。 推奨システムを構築するための多くのアプローチがあり、最も顕著な進歩の1つは、レコメンデーションシステムでデータを表現するための埋め込みの使用と、ユーザにレコメンデーションを生成するためのディープラーニングアーキテクチャの使用である。 体系的なレビューは、書誌レビューを行うための形式的で体系的な方法を採用しており、関連する研究を分析して、特定の研究領域におけるすべての研究を特定し評価するために用いられる。 コンテキスト認識レコメンダシステムを改善するために、ディープラーニングと埋め込み技術がどのように適用されているかを理解するために、体系的なレビューが行われた。 私たちはそれらを作成するのに使用されるアーキテクチャとそれらが使われるドメインをまとめた。

Recommender Systems are tools that improve how users find relevant information in web systems, so they do not face too much information. In order to generate better recommendations, the context of information should be used in the recommendation process. Context-Aware Recommender Systems were created, accomplishing state-of-the-art results and improving traditional recommender systems. There are many approaches to build recommender systems, and two of the most prominent advances in area have been the use of Embeddings to represent the data in the recommender system, and the use of Deep Learning architectures to generate the recommendations to the user. A systematic review adopts a formal and systematic method to perform a bibliographic review, and it is used to identify and evaluate all the research in certain area of study, by analyzing the relevant research published. A systematic review was conducted to understand how the Deep Learning and Embeddings techniques are being applied to improve Context-Aware Recommender Systems. We summarized the architectures that are used to create those and the domains that they are used.
翻訳日:2022-11-12 05:10:13 公開日:2020-07-09
# StyPath:ロバストな組織像分類のためのスタイル変換データ拡張

StyPath: Style-Transfer Data Augmentation For Robust Histology Image Classification ( http://arxiv.org/abs/2007.05008v1 )

ライセンス: Link先を確認
Pietro Antonio Cicalese, Aryan Mobiny, Pengyu Yuan, Jan Becker, Chandra Mohan, Hien Van Nguyen(参考訳) 腎移植例においても, 抗AMRの分類は困難であり, 組織組織染色は低サーバ間一致と低再現性が特徴である。 オブザーバ間不一致の原因の1つは、病理研究所(および内部)間の組織染色の質の変動と、アーカイブセクションの段階的な縮小である。 染色色や強度の変化は、病理学者にとって組織評価を困難にし、最終的に関連する形態的特徴を記述する能力に影響を及ぼす。 腎臓組織像に基づくamr状態を正確に予測できることは、患者の治療と治療を改善する上で重要である。 そこで本研究では,amr分類のためのロバストな深層ニューラルネットワークを構築するための新しいパイプラインを提案する。 それぞれの画像はGTX TITAN V gpuとpytorchを使って1.84 +0.03秒で生成され、他の一般的な組織学的データ拡張技術よりも高速になった。 我々は,モンテカルロ (MC) のベイズ性能の推定値を用いてモデル評価を行い,ベースラインモデルとStyPath拡張モデルを比較した。 また,経験的神経病理医が評価した結果のGrad-CAM表現も生成し,この定性解析を用いて各モデルによる仮定の解明を行った。 その結果,本手法は組織学的分類性能(誤差を14.8%から11.5%に低減)と一般化能力を向上させることが示唆された。

The classification of Antibody Mediated Rejection (AMR) in kidney transplant remains challenging even for experienced nephropathologists; this is partly because histological tissue stain analysis is often characterized by low inter-observer agreement and poor reproducibility. One of the implicated causes for inter-observer disagreement is the variability of tissue stain quality between (and within) pathology labs, coupled with the gradual fading of archival sections. Variations in stain colors and intensities can make tissue evaluation difficult for pathologists, ultimately affecting their ability to describe relevant morphological features. Being able to accurately predict the AMR status based on kidney histology images is crucial for improving patient treatment and care. We propose a novel pipeline to build robust deep neural networks for AMR classification based on StyPath, a histological data augmentation technique that leverages a light weight style-transfer algorithm as a means to reduce sample-specific bias. Each image was generated in 1.84 +- 0.03 seconds using a single GTX TITAN V gpu and pytorch, making it faster than other popular histological data augmentation techniques. We evaluated our model using a Monte Carlo (MC) estimate of Bayesian performance and generate an epistemic measure of uncertainty to compare both the baseline and StyPath augmented models. We also generated Grad-CAM representations of the results which were assessed by an experienced nephropathologist; we used this qualitative analysis to elucidate on the assumptions being made by each model. Our results imply that our style-transfer augmentation technique improves histological classification performance (reducing error from 14.8% to 11.5%) and generalization ability.
翻訳日:2022-11-12 05:09:23 公開日:2020-07-09
# カメラ-ライダー統合:意味マッピングのための確率論的センサ融合

Camera-Lidar Integration: Probabilistic sensor fusion for semantic mapping ( http://arxiv.org/abs/2007.05490v1 )

ライセンス: Link先を確認
Julie Stephany Berrio, Mao Shan, Stewart Worrall, Eduardo Nebot(参考訳) 都市環境で動作する自動車両は、常に変化する環境の中でナビゲートしながら、3次元の世界における物体/オブスタクルを認識・認識できなければならない。 高精度な運転操作を計画し実行するためには、周囲の高レベルの文脈的理解が不可欠である。 近年の画像処理の進歩により、単眼カメラから2dで高精細な意味情報を得ることができるようになったが、レーザーによる高精度な3d情報を確実に提供できない。 これら2つのセンサーの融合は個々のセンサーの欠点を克服することができるが、確率的な方法で対処する必要がある重要な課題はいくつかある。 本稿では,完全に確率論的にアプローチされることがほとんどない,一般的な,しかし難しい,ライダー/カメラ/セマンティック融合問題に対処する。 提案手法では,マルチセンサプラットフォームを用いて,関連するすべてのプロセスの不確実性を考慮した3次元セマンティックなボキシ化マップを構築する。 本稿では,センサリーダ(カメラ,ライダー,IMU,ホイールエンコーダ)の不確実性,車両の動作に対する補償,セマンティックイメージに対するヒューリスティックラベルの確率を組み込んだ確率パイプラインを提案する。 また,カメラフレームからのオクルージョンをチェックするための新しい効率的な視点検証アルゴリズムを提案する。 カメラ画像からライダー点雲への確率的投射を行う。 ラベル付きlidarスキャンはoctreeマップ構築アルゴリズムにフィードされ、新たな観測が利用可能になる度に、マップボクセルのクラス確率を更新する。 我々は,USyd Dataset上で定性的かつ定量的な実験を行い,本手法の有効性を検証した。

An automated vehicle operating in an urban environment must be able to perceive and recognise object/obstacles in a three-dimensional world while navigating in a constantly changing environment. In order to plan and execute accurate sophisticated driving maneuvers, a high-level contextual understanding of the surroundings is essential. Due to the recent progress in image processing, it is now possible to obtain high definition semantic information in 2D from monocular cameras, though cameras cannot reliably provide the highly accurate 3D information provided by lasers. The fusion of these two sensor modalities can overcome the shortcomings of each individual sensor, though there are a number of important challenges that need to be addressed in a probabilistic manner. In this paper, we address the common, yet challenging, lidar/camera/semantic fusion problems which are seldom approached in a wholly probabilistic manner. Our approach is capable of using a multi-sensor platform to build a three-dimensional semantic voxelized map that considers the uncertainty of all of the processes involved. We present a probabilistic pipeline that incorporates uncertainties from the sensor readings (cameras, lidar, IMU and wheel encoders), compensation for the motion of the vehicle, and heuristic label probabilities for the semantic images. We also present a novel and efficient viewpoint validation algorithm to check for occlusions from the camera frames. A probabilistic projection is performed from the camera images to the lidar point cloud. Each labelled lidar scan then feeds into an octree map building algorithm that updates the class probabilities of the map voxels every time a new observation is available. We validate our approach using a set of qualitative and quantitative experimental tests on the USyd Dataset.
翻訳日:2022-11-12 05:08:54 公開日:2020-07-09
# DECAPS: 詳細指向のカプセルネットワーク

DECAPS: Detail-Oriented Capsule Networks ( http://arxiv.org/abs/2007.05343v1 )

ライセンス: Link先を確認
Aryan Mobiny, Pengyu Yuan, Pietro Antonio Cicalese, Hien Van Nguyen(参考訳) Capsule Networks(CapsNets)は、CNN(Convolutional Neural Networks)に代わる有望な選択肢であることを実証している。 しかし、それらはしばしば大規模高次元データセットの最先端の精度に欠ける。 本稿では,CapsNetsの強度といくつかの新しい手法を組み合わせたDetail-Oriented Capsule Network(DECAPS)を提案する。 第一に、DECAPSは逆動的ルーティング(Inverted Dynamic Routing、IDR)機構を使用して、低レベルのカプセルを高レベルのカプセルに送る前に頭部にグループ化する。 この戦略により、カプセルはcnnのプール操作中に失われる可能性のあるデータの中で、小さくて有意義な詳細に選択的に対処できる。 第2に、DECAPSはPeekabooトレーニング手順を採用しており、第2レベルのアテンションスキームを通じて詳細な情報に集中するようネットワークに促している。 最後に、蒸留工程は、原画像及び随伴画像領域予測を平均化することにより、脱キャップのロバスト性を向上させる。 DECAPSの有効性を検証するため,CheXpertおよびRSNA肺炎データセットについて広範な実験を行った。 我々のネットワークは、分類(ROC曲線の平均面積を87.24%から92.82%に増加させる)だけでなく、疾患領域の弱い監督された局在化(RSNA肺炎検出データセットの平均精度を41.7%から80%に向上させる)において、最先端の精度を達成する。

Capsule Networks (CapsNets) have demonstrated to be a promising alternative to Convolutional Neural Networks (CNNs). However, they often fall short of state-of-the-art accuracies on large-scale high-dimensional datasets. We propose a Detail-Oriented Capsule Network (DECAPS) that combines the strength of CapsNets with several novel techniques to boost its classification accuracies. First, DECAPS uses an Inverted Dynamic Routing (IDR) mechanism to group lower-level capsules into heads before sending them to higher-level capsules. This strategy enables capsules to selectively attend to small but informative details within the data which may be lost during pooling operations in CNNs. Second, DECAPS employs a Peekaboo training procedure, which encourages the network to focus on fine-grained information through a second-level attention scheme. Finally, the distillation process improves the robustness of DECAPS by averaging over the original and attended image region predictions. We provide extensive experiments on the CheXpert and RSNA Pneumonia datasets to validate the effectiveness of DECAPS. Our networks achieve state-of-the-art accuracies not only in classification (increasing the average area under ROC curves from 87.24% to 92.82% on the CheXpert dataset) but also in the weakly-supervised localization of diseased areas (increasing average precision from 41.7% to 80% for the RSNA Pneumonia detection dataset).
翻訳日:2022-11-12 05:03:08 公開日:2020-07-09
# 遺伝的アルゴリズムを用いた複雑な相互作用ネットワークの効率的な制御の同定

Identifying efficient controls of complex interaction networks using genetic algorithms ( http://arxiv.org/abs/2007.04853v1 )

ライセンス: Link先を確認
Victor-Bogdan Popescu and Krishna Kanhaiya and Iulian N\u{a}stac and Eugen Czeizler and Ion Petre(参考訳) 制御理論は近年、ネットワーク科学、特にネットワーク医学の応用との結びつきにおいて、大きな影響を与えている。 研究の重要なトピックは、ネットワーク制御性として知られるネットワークのダイナミクスを制御できる最小限の外部介入を見つけることである。 本稿では,遺伝的アルゴリズムに基づくこの問題に対する新しい解法を提案する。 我々は、特定の疾患特異的タンパク質間相互作用ネットワークにおいてFDAが承認した薬物標的の使用を最大化するために、計算薬物再資源化の応用のためのソリューションを調整する。 我々のアルゴリズムは乳がん、卵巣がん、膵癌に有効な薬物を多数同定する方法を示す。 提案手法は,がん医学,ソーシャルネットワーク,電子回路,およびerd\h{o}s-r\'{e}nyi,small-world,スケールフリー特性に応じてエッジを分散したランダムネットワークなど,いくつかのベンチマークネットワーク上で実証する。 全体として,本アルゴリズムは疾患ネットワークにおける薬物標的の同定に有効であり,新しい治療法と薬物再資源化アプローチに必要な計算ソリューションを進歩させる。

Control theory has seen recently impactful applications in network science, especially in connections with applications in network medicine. A key topic of research is that of finding minimal external interventions that offer control over the dynamics of a given network, a problem known as network controllability. We propose in this article a new solution for this problem based on genetic algorithms. We tailor our solution for applications in computational drug repurposing, seeking to maximise its use of FDA-approved drug targets in a given disease-specific protein-protein interaction network. We show how our algorithm identifies a number of potentially efficient drugs for breast, ovarian, and pancreatic cancer. We demonstrate our algorithm on several benchmark networks from cancer medicine, social networks, electronic circuits, and several random networks with their edges distributed according to the Erd\H{o}s-R\'{e}nyi, the small-world, and the scale-free properties. Overall, we show that our new algorithm is more efficient in identifying relevant drug targets in a disease network, advancing the computational solutions needed for new therapeutic and drug repurposing approaches.
翻訳日:2022-11-12 05:02:39 公開日:2020-07-09
# 脳インスパイア強化学習アルゴリズムの信頼性と一般化性について

On the Reliability and Generalizability of Brain-inspired Reinforcement Learning Algorithms ( http://arxiv.org/abs/2007.04578v1 )

ライセンス: Link先を確認
Dongjae Kim and Jee Hang Lee, Jae Hoon Shin, Minsu Abel Yang, Sang Wan Lee(参考訳) 深いrlモデルは、最小限の監督で様々な種類のタスクを解決できる大きな可能性を示しているが、限られた経験から学ぶこと、環境の変化に適応すること、ひとつのタスクから学習を一般化することといったいくつかの重要な課題は残っている。 意思決定神経科学の最近の証拠は、人間の脳がこれらの問題を解決する能力を持っていることを示しており、標本効率と一般化可能なRLアルゴリズムに対する神経科学にインスパイアされた解決策の開発に関する楽観主義を導いている。 先行的rlと呼ばれるモデルベース制御とモデルフリー制御を組み合わせた計算モデルは、人間が学習したハイレベルなポリシーの情報を確実にエンコードし、学習したポリシーを幅広いタスクに一般化できることを示す。 まず,82件の被験者のデータに基づいて前頭前野のRLと深部RLアルゴリズムを訓練し,人間の被験者が2段階のマルコフ決定タスクを行い,その目標,状態遷移の不確実性,状態空間の複雑さを操作した。 潜在行動プロファイルとパラメータ回復性テストを含む信頼性テストでは、前頭前RLが人間の潜伏政策を確実に学習し、他の全てのモデルが失敗することを示した。 第二に、これらのモデルが元のタスクから学んだことを一般化する能力をテストするために、環境変動の文脈でそれらを配置する。 具体的には,10のマルコフ決定タスクを用いた大規模シミュレーションを行い,時間とともに潜在コンテキスト変数が変化する。 情報理論解析の結果,前頭前野RLは適応性とエピソードエンコーディングの有効性が最も高かった。 これは、脳が一般的な問題を解決する方法を模倣する計算モデルが機械学習の重要な課題に対する実践的な解決につながる可能性を正式にテストする最初の試みである。

Although deep RL models have shown a great potential for solving various types of tasks with minimal supervision, several key challenges remain in terms of learning from limited experience, adapting to environmental changes, and generalizing learning from a single task. Recent evidence in decision neuroscience has shown that the human brain has an innate capacity to resolve these issues, leading to optimism regarding the development of neuroscience-inspired solutions toward sample-efficient, and generalizable RL algorithms. We show that the computational model combining model-based and model-free control, which we term the prefrontal RL, reliably encodes the information of high-level policy that humans learned, and this model can generalize the learned policy to a wide range of tasks. First, we trained the prefrontal RL, and deep RL algorithms on 82 subjects' data, collected while human participants were performing two-stage Markov decision tasks, in which we manipulated the goal, state-transition uncertainty and state-space complexity. In the reliability test, which includes the latent behavior profile and the parameter recoverability test, we showed that the prefrontal RL reliably learned the latent policies of the humans, while all the other models failed. Second, to test the ability to generalize what these models learned from the original task, we situated them in the context of environmental volatility. Specifically, we ran large-scale simulations with 10 Markov decision tasks, in which latent context variables change over time. Our information-theoretic analysis showed that the prefrontal RL showed the highest level of adaptability and episodic encoding efficacy. This is the first attempt to formally test the possibility that computational models mimicking the way the brain solves general problems can lead to practical solutions to key challenges in machine learning.
翻訳日:2022-11-12 05:02:21 公開日:2020-07-09
# グル、パートナー、鉛筆の研削? インテリジェントクリエイティビティ支援ツールに対するデザイナーの態度を理解する

Guru, Partner, or Pencil Sharpener? Understanding Designers' Attitudes Towards Intelligent Creativity Support Tools ( http://arxiv.org/abs/2007.04848v1 )

ライセンス: Link先を確認
Angus Main, Mick Grierson(参考訳) クリエイティビティサポートツール(cst)は、人間の創造性を高めることを目標としているが、クリエイティビティの深い個人的、主観的な性質は、普遍的なサポートツールの設計を困難にする。 個人は創造性に対する個人的アプローチ、特に署名スタイルやテクニックが価値のある商品である商業デザインの文脈で発展する。 人工知能(AI)と機械学習(ML)技術は、個人の創造スタイルを学習し適応する「知的な」CSTを作成する手段を提供する。 このようなツールがデザインプロセスでどのような役割を果たすかを特定するには、設計者がAIで作業する際の態度や、それを個人的な創造プロセスに組み込む意思をよりよく理解する必要がある。 本稿では、AIツールとの協調に対する肯定的かつ実践的な態度を示すプロのデザイナーによる調査結果と、デザインプロジェクトの研究段階にそれらを組み込む特別な機会について述べる。

Creativity Support Tools (CST) aim to enhance human creativity, but the deeply personal and subjective nature of creativity makes the design of universal support tools challenging. Individuals develop personal approaches to creativity, particularly in the context of commercial design where signature styles and techniques are valuable commodities. Artificial Intelligence (AI) and Machine Learning (ML) techniques could provide a means of creating 'intelligent' CST which learn and adapt to personal styles of creativity. Identifying what kind of role such tools could play in the design process requires a better understanding of designers' attitudes towards working with AI, and their willingness to include it in their personal creative process. This paper details the results of a survey of professional designers which indicates a positive and pragmatic attitude towards collaborating with AI tools, and a particular opportunity for incorporating them in the research stages of a design project.
翻訳日:2022-11-12 05:01:46 公開日:2020-07-09
# ソーシャルロボットのためのリファレンスソフトウェアアーキテクチャ

A Reference Software Architecture for Social Robots ( http://arxiv.org/abs/2007.04933v1 )

ライセンス: Link先を確認
Luigi Asprino, Paolo Ciancarini, Andrea Giovanni Nuzzolese, Valentina Presutti, Alessandro Russo(参考訳) Social Roboticsは、アクセシビリティ、ロボットの信頼、そしてロボットがユーザーと個人化された対話を確立することなど、難しいアーキテクチャ上のドライバーの世話をしなければならないソフトウェアデザイナーに難しい課題を提起する。 さらに、このコンテキストでは、相互運用性の確保、再利用性の改善、ソフトウェアコンポーネントのカスタマイズ性といった、ソフトウェア設計の問題を繰り返す。 社会ロボットソフトウェアアーキテクチャの設計と実装は、多分野の専門知識を必要とする時間を要する活動であり、ロボットソリューションの迅速な開発、カスタマイズ、パーソナライズは困難である。 これらの課題は、特定のアーキテクチャスタイルを選択し、特定のアーキテクチャパターンを実装し、特定の技術を使用することによって、設計時に緩和される。 本稿では,マリオプロジェクトにおける我々の経験を活かし,ソーシャルロボットが利益を享受できる一連の原則を提案する。 これらの原則は、社会ロボットのためのリファレンスソフトウェアアーキテクチャの設計の基礎でもある。 この研究の最終的な目標は、社会ロボットを迅速に開発、実装、パーソナライズするために、ロボットソフトウェアコンポーネントを簡単に再利用できるように、リファレンスソフトウェアアーキテクチャに基づいた共通基盤を確立することである。

Social Robotics poses tough challenges to software designers who are required to take care of difficult architectural drivers like acceptability, trust of robots as well as to guarantee that robots establish a personalised interaction with their users. Moreover, in this context recurrent software design issues such as ensuring interoperability, improving reusability and customizability of software components also arise. Designing and implementing social robotic software architectures is a time-intensive activity requiring multi-disciplinary expertise: this makes difficult to rapidly develop, customise, and personalise robotic solutions. These challenges may be mitigated at design time by choosing certain architectural styles, implementing specific architectural patterns and using particular technologies. Leveraging on our experience in the MARIO project, in this paper we propose a series of principles that social robots may benefit from. These principles lay also the foundations for the design of a reference software architecture for Social Robots. The ultimate goal of this work is to establish a common ground based on a reference software architecture to allow to easily reuse robotic software components in order to rapidly develop, implement, and personalise Social Robots.
翻訳日:2022-11-12 05:01:30 公開日:2020-07-09
# あいまいなゲームにおける個人的・集団的後方・前方的責任度とその社会的選択問題への応用

Degrees of individual and groupwise backward and forward responsibility in extensive-form games with ambiguity, and their application to social choice problems ( http://arxiv.org/abs/2007.07352v1 )

ライセンス: Link先を確認
Jobst Heitzig and Sarah Hiller(参考訳) 倫理的関連性の多くの現実的な状況、特に気候変動の緩和のような大規模な社会的選択の状況は、決定が複雑な方法で相互作用する多くのエージェントだけでなく、定量化可能なリスクや不確実性を含む様々な不確実性も含む。 このような問題では、倫理的に望まれない結果に対する個人的・集団的道徳的責任の評価やそれを避ける責任は困難であり、責任の過小評価や過度な決定のリスクが伴う。 厳密な因果関係に基づく既存のアプローチや、'責任'と'責任なし'のバイナリ分類に焦点を当てたある種のデオン論理とは対照的に、ここでは確率の単位における責任度を評価するいくつかの異なる量的責任度指標を示す。 そこで我々は,広義のゲームツリーの適応バージョンに基づくフレームワークと,そのようなメトリクスの潜在的に望ましいプロパティを多数定義した公理的アプローチを用いて,開発候補のメトリクスを複数のパラダイム的社会的選択状況に適用して検証する。 ほとんどの特性は、そのような責任計量を望んでも、ある変種によって達成できるが、他の指標より明らかに優れている最適な計量は見つからない。

Many real-world situations of ethical relevance, in particular those of large-scale social choice such as mitigating climate change, involve not only many agents whose decisions interact in complicated ways, but also various forms of uncertainty, including quantifiable risk and unquantifiable ambiguity. In such problems, an assessment of individual and groupwise moral responsibility for ethically undesired outcomes or their responsibility to avoid such is challenging and prone to the risk of under- or overdetermination of responsibility. In contrast to existing approaches based on strict causation or certain deontic logics that focus on a binary classification of `responsible' vs `not responsible', we here present several different quantitative responsibility metrics that assess responsibility degrees in units of probability. For this, we use a framework based on an adapted version of extensive-form game trees and an axiomatic approach that specifies a number of potentially desirable properties of such metrics, and then test the developed candidate metrics by their application to a number of paradigmatic social choice situations. We find that while most properties one might desire of such responsibility metrics can be fulfilled by some variant, an optimal metric that clearly outperforms others has yet to be found.
翻訳日:2022-11-12 05:00:53 公開日:2020-07-09
# 深層残留ニューラルネットワークにおける不確かさの定量化

Uncertainty Quantification in Deep Residual Neural Networks ( http://arxiv.org/abs/2007.04905v1 )

ライセンス: Link先を確認
Lukasz Wandzik, Raul Vicente Garcia, J\"org Kr\"uger(参考訳) 不確実性定量化はディープラーニングにおいて重要かつ困難な問題である。 以前の方法は、現代のディープアーキテクチャやバッチサイズに敏感なバッチ正規化には存在しないドロップアウト層に依存していた。 本研究では, 確率深度と呼ばれる正規化手法を用いて, ディープ残差ネットワークにおける不確実性定量化の問題に対処する。 確率的深度を用いた残差ネットワークのトレーニングは、ベイズニューラルネットワークの重みに対する難解な後部への変動近似として解釈できることを示す。 深さと共有重みの異なる残差ネットワークの分布からサンプリングすることで,有意義な不確実性推定が得られることを示す。 さらに, 残差ネットワークの元々の定式化と比較して, ネットワーク構造にわずかな変更を加えるだけで十分なソフトマックス確率を生成する。 我々は,一般的なコンピュータビジョンデータセットに対するアプローチを評価し,不確実性評価の質を計測する。 また,領域シフトに対するロバスト性をテストし,分布外サンプルに対して高い予測不確実性を示すことができることを示した。 最後に,提案手法を用いて顔認証アプリケーションにおける不確実性推定を行う方法を示す。

Uncertainty quantification is an important and challenging problem in deep learning. Previous methods rely on dropout layers which are not present in modern deep architectures or batch normalization which is sensitive to batch sizes. In this work, we address the problem of uncertainty quantification in deep residual networks by using a regularization technique called stochastic depth. We show that training residual networks using stochastic depth can be interpreted as a variational approximation to the intractable posterior over the weights in Bayesian neural networks. We demonstrate that by sampling from a distribution of residual networks with varying depth and shared weights, meaningful uncertainty estimates can be obtained. Moreover, compared to the original formulation of residual networks, our method produces well-calibrated softmax probabilities with only minor changes to the network's structure. We evaluate our approach on popular computer vision datasets and measure the quality of uncertainty estimates. We also test the robustness to domain shift and show that our method is able to express higher predictive uncertainty on out-of-distribution samples. Finally, we demonstrate how the proposed approach could be used to obtain uncertainty estimates in facial verification applications.
翻訳日:2022-11-12 04:53:18 公開日:2020-07-09
# 教師の知識伝達に基づく高速光流に対する患者特化領域適応

Patient-Specific Domain Adaptation for Fast Optical Flow Based on Teacher-Student Knowledge Transfer ( http://arxiv.org/abs/2007.04928v1 )

ライセンス: Link先を確認
Sontje Ihler and Max-Heinrich Laves and Tobias Ortmaier(参考訳) 高速運動フィードバックは移動組織に対するコンピュータ支援手術 (cas) において重要である。 安全クリティカルな視覚応用におけるイメージアシストには、組織の動きの濃密な追跡が必要である。 これは光学フロー(OF)を用いて行うことができる。 高い処理速度での正確な動作予測は、患者の安全性を高める。 現在のモデルの深層学習は、共通速度と精度のトレードオフを示している。 高い処理速度で高い精度を達成するために,高速モデルの患者固有の微調整を提案する。 これにより、トレーニングとアプリケーションデータの間のドメイン間ギャップを最小限に抑え、ターゲットドメインをより複雑な高速モデルの能力に還元する。 手術室で術前に訓練シーケンスを取得することを提案する。 私たちは教師-学生の学習を生かして、真実の欠如に対処する。 教師モデルflownet2からのフロー推定を用いて、患者固有のドメインに高速学生モデルflownet2を特殊化する。 hamlynデータセットからのシーケンスで評価を行う。 我々の学生モデルは微調整後に非常に良い成績を示す。 追跡精度は6倍の速度で教師モデルに匹敵する。 微調整は数分で行うことができ、手術室で行うことができる。 提案手法では,従来この課題には適していなかったリアルタイムモデルの活用が可能であった。 この方法はCASにおける患者固有の動作推定を改善するための経路を敷設する。

Fast motion feedback is crucial in computer-aided surgery (CAS) on moving tissue. Image-assistance in safety-critical vision applications requires a dense tracking of tissue motion. This can be done using optical flow (OF). Accurate motion predictions at high processing rates lead to higher patient safety. Current deep learning OF models show the common speed vs. accuracy trade-off. To achieve high accuracy at high processing rates, we propose patient-specific fine-tuning of a fast model. This minimizes the domain gap between training and application data, while reducing the target domain to the capability of the lower complex, fast model. We propose to obtain training sequences pre-operatively in the operation room. We handle missing ground truth, by employing teacher-student learning. Using flow estimations from teacher model FlowNet2 we specialize a fast student model FlowNet2S on the patient-specific domain. Evaluation is performed on sequences from the Hamlyn dataset. Our student model shows very good performance after fine-tuning. Tracking accuracy is comparable to the teacher model at a speed up of factor six. Fine-tuning can be performed within minutes, making it feasible for the operation room. Our method allows to use a real-time capable model that was previously not suited for this task. This method is laying the path for improved patient-specific motion estimation in CAS.
翻訳日:2022-11-12 04:53:02 公開日:2020-07-09
# 修正指紋解析のための単一アーキテクチャとマルチタスクディープニューラルネットワーク

Single architecture and multiple task deep neural network for altered fingerprint analysis ( http://arxiv.org/abs/2007.04931v1 )

ライセンス: Link先を確認
Oliver Giudice (1), Mattia Litrico (1), Sebastiano Battiato (1 and 2) ((1) University of Catania, (2) iCTLab s.r.l. - Spin-off of University of Catania)(参考訳) 指紋は犯罪現場で最も厳しい証拠の一つであり、そのために警察によって個人を特定するために頻繁に使用されている。 しかし、指紋は変更できる。 「変質指紋」とは、意図的に摩擦隆起のパターンを損なうことであり、法執行を逃れるために賢い犯罪者がしばしば使用する。 我々は、inception-v3アーキテクチャをトレーニングするディープニューラルネットワークアプローチを使用する。 本稿では,変化指紋の検出,変化の種類の同定,性別,手,指の認識を行う手法を提案する。 また、ニューラルネットワークが注目している指紋の一部を表示するアクティベーションマップを作成し、変化の位置を検出する。 提案手法は,SO.CO.FINGの偽造,変化,性別,手指の分類において,98.21%,98.46%,92.52%,97.53%,92,18%の精度を達成している。 データセット。

Fingerprints are one of the most copious evidence in a crime scene and, for this reason, they are frequently used by law enforcement for identification of individuals. But fingerprints can be altered. "Altered fingerprints", refers to intentionally damage of the friction ridge pattern and they are often used by smart criminals in hope to evade law enforcement. We use a deep neural network approach training an Inception-v3 architecture. This paper proposes a method for detection of altered fingerprints, identification of types of alterations and recognition of gender, hand and fingers. We also produce activation maps that show which part of a fingerprint the neural network has focused on, in order to detect where alterations are positioned. The proposed approach achieves an accuracy of 98.21%, 98.46%, 92.52%, 97.53% and 92,18% for the classification of fakeness, alterations, gender, hand and fingers, respectively on the SO.CO.FING. dataset.
翻訳日:2022-11-12 04:52:46 公開日:2020-07-09
# 誰かいるか? 室内占有度を計測するスマート内蔵低解像度全方位ビデオセンサ

Anyone here? Smart embedded low-resolution omnidirectional video sensor to measure room occupancy ( http://arxiv.org/abs/2007.04934v1 )

ライセンス: Link先を確認
Timothy Callemein, Kristof Van Beeck and Toon Goedem\'e(参考訳) 本稿では,独特な特性を有する部屋占有感センサソリューションを提案する。 (一)全方位視覚カメラをベースとし、広い角度から豊かな風景情報を捉え、部屋にいる人の数や位置まで数えることができる。 (ii)カメラ入力を使用しているが、画像解像度が極端に低いためプライバシー上の問題は発生しない。 (iii)ニューラルネットワーク推論は、センサに埋め込まれた低コストな処理プラットフォーム上で完全に実行されるため、プライバシリスクはさらに低減される。 (4) 提案する自己学習方式のため, 限定的な手動データアノテーションが必要である。 このようなスマートルーム占有率センサは、例えば会議室やフレックスデスクで使用することができる。 実際、flex-deskingを奨励することで、必要なオフィススペースを大幅に削減できます。 ただし、保留されているフレックスデスクは、保留制度の更新なしには占められていない場合もある。 同様の問題は会議室で起こり、しばしば不足している。 占有率を最適化することで、コストを大幅に削減することができる。 そこで本稿では,オフィスのフレキシブルデスクや会議室に居住する人数を決定するシステムを開発した。 天井に取り付けられた全方位カメラと人検知器を組み合わせることで、同社は測定された占有状況に基づいて予約システムをインテリジェントに更新することができる。 そこで本研究では,この自己学習型全方位人物検出アルゴリズムの最適化と組込みにより,空間的および時間的画像データを組み合わせて,極端低解像度画像におけるシステムの性能を向上させる新しい手法を提案する。

In this paper, we present a room occupancy sensing solution with unique properties: (i) It is based on an omnidirectional vision camera, capturing rich scene info over a wide angle, enabling to count the number of people in a room and even their position. (ii) Although it uses a camera-input, no privacy issues arise because its extremely low image resolution, rendering people unrecognisable. (iii) The neural network inference is running entirely on a low-cost processing platform embedded in the sensor, reducing the privacy risk even further. (iv) Limited manual data annotation is needed, because of the self-training scheme we propose. Such a smart room occupancy rate sensor can be used in e.g. meeting rooms and flex-desks. Indeed, by encouraging flex-desking, the required office space can be reduced significantly. In some cases, however, a flex-desk that has been reserved remains unoccupied without an update in the reservation system. A similar problem occurs with meeting rooms, which are often under-occupied. By optimising the occupancy rate a huge reduction in costs can be achieved. Therefore, in this paper, we develop such system which determines the number of people present in office flex-desks and meeting rooms. Using an omnidirectional camera mounted in the ceiling, combined with a person detector, the company can intelligently update the reservation system based on the measured occupancy. Next to the optimisation and embedded implementation of such a self-training omnidirectional people detection algorithm, in this work we propose a novel approach that combines spatial and temporal image data, improving performance of our system on extreme low-resolution images.
翻訳日:2022-11-12 04:52:28 公開日:2020-07-09
# phong surface: lifted optimization を用いた効率的な3dモデルフィッティング

The Phong Surface: Efficient 3D Model Fitting using Lifted Optimization ( http://arxiv.org/abs/2007.04940v1 )

ライセンス: Link先を確認
Jingjing Shen, Thomas J. Cashman, Qi Ye, Tim Hutton, Toby Sharp, Federica Bogo, Andrew William Fitzgibbon, Jamie Shotton(参考訳) 複合現実におけるリアルタイムの知覚と相互作用の能力は、ヘッドマウントデバイスのようなリソース制約のあるハードウェア上で低レイテンシで解決する必要がある。 実際、アプリケーション用にCPUとGPUが残されているHoloLens 2のようなデバイスでは、単一のDigital Signal Processorを共有しながら、継続的にリアルタイムに複数のトラッキングサブシステムを実行する必要がある。 計算予算がiphone 7の約100倍小さいhololens 2ハンドトラッキングのモデルフィッティング問題を解決するため、新しいサーフェスモデルである 'phong surface' を導入する。 コンピュータグラフィックスのアイデアを用いて、Phong面は三角形メッシュモデルと同じ3次元形状を記述しているが、リフトベース最適化を可能とし、ICPベースの手法よりも大きな効率向上をもたらす連続表面正規化がある。 三角形メッシュは成立しないが,Pong曲面は滑らかな曲面モデルの収束効果を保っていることを示す。

Realtime perceptual and interaction capabilities in mixed reality require a range of 3D tracking problems to be solved at low latency on resource-constrained hardware such as head-mounted devices. Indeed, for devices such as HoloLens 2 where the CPU and GPU are left available for applications, multiple tracking subsystems are required to run on a continuous, real-time basis while sharing a single Digital Signal Processor. To solve model-fitting problems for HoloLens 2 hand tracking, where the computational budget is approximately 100 times smaller than an iPhone 7, we introduce a new surface model: the `Phong surface'. Using ideas from computer graphics, the Phong surface describes the same 3D shape as a triangulated mesh model, but with continuous surface normals which enable the use of lifting-based optimization, providing significant efficiency gains over ICP-based methods. We show that Phong surfaces retain the convergence benefits of smoother surface models, while triangle meshes do not.
翻訳日:2022-11-12 04:52:05 公開日:2020-07-09
# 買い物行動分析のためのリアルタイム組込み人物検出と追跡

Real-time Embedded Person Detection and Tracking for Shopping Behaviour Analysis ( http://arxiv.org/abs/2007.04942v1 )

ライセンス: Link先を確認
Robin Schrijvers, Steven Puttemans, Timothy Callemein and Toon Goedem\'e(参考訳) 店舗のような環境下での人々のカウントと追跡による行動分析は、店員にとって貴重な情報を提供し、店舗のレイアウト(頻繁に訪れるスポットなど)において重要な洞察を提供する。 このためにスタッフを追加する代わりに、自動化されたオンプレミスソリューションが望ましい。 これらの自動化システムはコスト効率が高く、より軽量な組み込みハードウェアで、非常に困難な状況(例えばオクルージョンの処理)で動作し、好ましくはリアルタイムに動作する。 我々は、リアルタイムのTensorRT最適化されたYOLOv3ベースの歩行者検出器をJetson TX2ハードウェアプラットフォーム上に実装することで、この問題を解決する。 検知器とスパース光フロートラッカーを組み合わせることで、各顧客にユニークなIDを割り当て、部分的に隠された顧客を略奪する問題に取り組む。 検出器追跡方式では,処理速度10 fpsで平均81.59%の精度を実現する。 貴重な統計に加えて、頻繁に訪れるスポットのヒートマップが抽出され、ビデオストリームのオーバーレイとして使用される。

Shopping behaviour analysis through counting and tracking of people in shop-like environments offers valuable information for store operators and provides key insights in the stores layout (e.g. frequently visited spots). Instead of using extra staff for this, automated on-premise solutions are preferred. These automated systems should be cost-effective, preferably on lightweight embedded hardware, work in very challenging situations (e.g. handling occlusions) and preferably work real-time. We solve this challenge by implementing a real-time TensorRT optimized YOLOv3-based pedestrian detector, on a Jetson TX2 hardware platform. By combining the detector with a sparse optical flow tracker we assign a unique ID to each customer and tackle the problem of loosing partially occluded customers. Our detector-tracker based solution achieves an average precision of 81.59% at a processing speed of 10 FPS. Besides valuable statistics, heat maps of frequently visited spots are extracted and used as an overlay on the video stream.
翻訳日:2022-11-12 04:51:48 公開日:2020-07-09
# 脳細胞分類のためのタスク強化型アクティブメタラーニング

Few Is Enough: Task-Augmented Active Meta-Learning for Brain Cell Classification ( http://arxiv.org/abs/2007.05009v1 )

ライセンス: Link先を確認
Pengyu Yuan, Aryan Mobiny, Jahandar Jahanipour, Xiaoyang Li, Pietro Antonio Cicalese, Badrinath Roysam, Vishal Patel, Maric Dragan, and Hien Van Nguyen(参考訳) ディープニューラルネットワーク(またはDNN)は、関心のあるタスクやデータ収集プロトコルが変更されたとき、入力データの分散変化に常に対処しなければならない。 ネットワークをゼロからトレーニングしてこの問題に対処することは、かなりのコストになる。 メタ学習は、これらの基本的な分散変化に敏感な適応モデルを提供することを目的としている。 本稿では,少数のトレーニング例を用いて,新しいタスクにdnnを効率的に適応させるタスク適応型アクティブメタラーニング(agile)手法を提案する。 AGILEはメタ学習アルゴリズムと,初期適応モデルを生成するための新しいタスク拡張手法を組み合わせる。 次に、ベイジアンドロップアウトの不確実性推定を用いて、モデルを新しいタスクに更新する際に最も難しいサンプルを積極的に選択する。 これにより、少ないタスクで学習し、限られたデータセットでハイパフォーマンスを達成することができる。 我々は、脳細胞分類タスクを用いて実験を行い、その結果をスクラッチからトレーニングした単純なメタラーニングモデルと比較する。 提案するタスク強化メタラーニングフレームワークは,学習サンプル数に制限のある単一勾配段階の後に,新たな細胞タイプを分類することができることを示す。 ベイズの不確実性を持つアクティブラーニングは,トレーニングサンプル数が非常に少ない場合,さらにパフォーマンスを向上させることができる。 トレーニングデータの1%と1回の更新ステップのみを用いて,新しい細胞型分類タスクにおいて90%の精度を達成し,最先端メタ学習アルゴリズムよりも50%ポイント改善した。

Deep Neural Networks (or DNNs) must constantly cope with distribution changes in the input data when the task of interest or the data collection protocol changes. Retraining a network from scratch to combat this issue poses a significant cost. Meta-learning aims to deliver an adaptive model that is sensitive to these underlying distribution changes, but requires many tasks during the meta-training process. In this paper, we propose a tAsk-auGmented actIve meta-LEarning (AGILE) method to efficiently adapt DNNs to new tasks by using a small number of training examples. AGILE combines a meta-learning algorithm with a novel task augmentation technique which we use to generate an initial adaptive model. It then uses Bayesian dropout uncertainty estimates to actively select the most difficult samples when updating the model to a new task. This allows AGILE to learn with fewer tasks and a few informative samples, achieving high performance with a limited dataset. We perform our experiments using the brain cell classification task and compare the results to a plain meta-learning model trained from scratch. We show that the proposed task-augmented meta-learning framework can learn to classify new cell types after a single gradient step with a limited number of training samples. We show that active learning with Bayesian uncertainty can further improve the performance when the number of training samples is extremely small. Using only 1% of the training data and a single update step, we achieved 90% accuracy on the new cell type classification task, a 50% points improvement over a state-of-the-art meta-learning algorithm.
翻訳日:2022-11-12 04:51:31 公開日:2020-07-09
# DCANet:畳み込みニューラルネットワークのためのコネクテッドアテンション学習

DCANet: Learning Connected Attentions for Convolutional Neural Networks ( http://arxiv.org/abs/2007.05099v1 )

ライセンス: Link先を確認
Xu Ma, Jingda Guo, Sihai Tang, Zhinan Qiao, Qi Chen, Qing Yang, Song Fu(参考訳) 自己認識機構は多くのビジョンタスクに対して有望な結果を示したが、同時に現在の機能のみを考慮する。 このような方法では注意機構を十分に活用できないことを示す。 本稿では,cnnモデルにおいて,内部構造を変更せずにアテンションモジュールを高速化する新しい設計であるdeep connected attention network (dcanet)を提案する。 これを実現するために,隣接した注意ブロックを相互接続し,注意ブロック間の情報フローを可能にする。 DCANetでは、CNNモデルのすべてのアテンションブロックが共同で訓練され、アテンション学習の能力が改善される。 DCANetは汎用的です。 特定のアテンションモジュールやベースネットワークアーキテクチャに限定されない。 ImageNetとMS COCOベンチマークの実験結果から、DCANetは、すべてのテストケースで最小限の計算オーバーヘッドで、最先端の注目モジュールを一貫して上回っていることがわかった。 すべてのコードとモデルは公開されています。

While self-attention mechanism has shown promising results for many vision tasks, it only considers the current features at a time. We show that such a manner cannot take full advantage of the attention mechanism. In this paper, we present Deep Connected Attention Network (DCANet), a novel design that boosts attention modules in a CNN model without any modification of the internal structure. To achieve this, we interconnect adjacent attention blocks, making information flow among attention blocks possible. With DCANet, all attention blocks in a CNN model are trained jointly, which improves the ability of attention learning. Our DCANet is generic. It is not limited to a specific attention module or base network architecture. Experimental results on ImageNet and MS COCO benchmarks show that DCANet consistently outperforms the state-of-the-art attention modules with a minimal additional computational overhead in all test cases. All code and models are made publicly available.
翻訳日:2022-11-12 04:50:47 公開日:2020-07-09
# 自律的な隠しカメラクルー

The autonomous hidden camera crew ( http://arxiv.org/abs/2007.04657v1 )

ライセンス: Link先を確認
Timothy Callemein, Wiebe Van Ranst and Toon Goedem\'e(参考訳) 現実的なテレビ番組では、日々の生活の中で人をフォローすることは新しい概念ではない。 しかし、業界で使われる伝統的な方法には多くの手作業が必要であり、少なくとも1人の物理的カメラマンの存在が必要である。 このため、被写体は記録されていることに気付くと異なる振る舞いをする傾向がある。 本論文は, 日常生活において, 長期間(月~年)にわたって, 可能な限り控えめでありながら, 人々をフォローするためのアプローチを提案する。 これを実現するために、人の家に隠された無人撮影用カメラを使用する。 まず、マルチチャネルレコーダと組み合わせて、ビデオスイッチマトリックスをインテリジェントに制御することにより、記録データ量を制限するシステムを構築する。 第2に、PTZカメラを制御して仮想カメラマンを作成し、自動的に撮影を楽しませます。 この論文を通して、私たちは本物のカメラクルーと密接に協力しました。 これにより、我々のシステムの結果を訓練された専門家の仕事と比較できるようになりました。

Reality TV shows that follow people in their day-to-day lives are not a new concept. However, the traditional methods used in the industry require a lot of manual labour and need the presence of at least one physical camera man. Because of this, the subjects tend to behave differently when they are aware of being recorded. This paper will present an approach to follow people in their day-to-day lives, for long periods of time (months to years), while being as unobtrusive as possible. To do this, we use unmanned cinematographically-aware cameras hidden in people's houses. Our contribution in this paper is twofold: First, we create a system to limit the amount of recorded data by intelligently controlling a video switch matrix, in combination with a multi-channel recorder. Second, we create a virtual camera man by controlling a PTZ camera to automatically make cinematographically pleasing shots. Throughout this paper, we worked closely with a real camera crew. This enabled us to compare the results of our system to the work of trained professionals.
翻訳日:2022-11-12 04:44:31 公開日:2020-07-09
# 転送学習と単一パスディープラーニングアーキテクチャを用いたロバストな産業応用オブジェクト検出モデルの構築

Building Robust Industrial Applicable Object Detection Models Using Transfer Learning and Single Pass Deep Learning Architectures ( http://arxiv.org/abs/2007.04666v1 )

ライセンス: Link先を確認
Steven Puttemans, Timothy Callemein and Toon Goedem\'e(参考訳) コンピュータビジョンと人工知能におけるディープラーニングの台頭傾向は、単に無視できない。 認識や検出からセグメンテーションまで、最も多様なタスクにおいて、ディープラーニングは最先端の結果を得ることができ、最高パフォーマンスに達する。 本稿では、darknetのような最先端のオープンソースディープラーニングフレームワークを用いて、オブジェクト検出タスクに特化した深い畳み込みニューラルネットワークが、産業指向のオブジェクト検出パイプラインをどのように改善するかを検討する。 地域提案,分類,確率推定を単一実行で統合したディープラーニングアーキテクチャを用いて,リアルタイム性能の獲得を目標とする。 我々は、高い平均精度を維持しつつ、転送学習を探求することで、必要なトレーニングデータの量を大幅に削減することに注力する。 さらに,これらのアルゴリズムを2つの産業関連アプリケーションに適用し,1つはアイトラッキングデータ中のプロモーションボードの検出と,もう1つは拡張広告のための倉庫製品のパッケージの検出と認識を行う。

The uprising trend of deep learning in computer vision and artificial intelligence can simply not be ignored. On the most diverse tasks, from recognition and detection to segmentation, deep learning is able to obtain state-of-the-art results, reaching top notch performance. In this paper we explore how deep convolutional neural networks dedicated to the task of object detection can improve our industrial-oriented object detection pipelines, using state-of-the-art open source deep learning frameworks, like Darknet. By using a deep learning architecture that integrates region proposals, classification and probability estimation in a single run, we aim at obtaining real-time performance. We focus on reducing the needed amount of training data drastically by exploring transfer learning, while still maintaining a high average precision. Furthermore we apply these algorithms to two industrially relevant applications, one being the detection of promotion boards in eye tracking data and the other detecting and recognizing packages of warehouse products for augmented advertisements.
翻訳日:2022-11-12 04:44:17 公開日:2020-07-09
# 視線追跡に基づく人間-人間相互作用研究の自動分析

Automated analysis of eye-tracker-based human-human interaction studies ( http://arxiv.org/abs/2007.04671v1 )

ライセンス: Link先を確認
Timothy Callemein, Kristof Van Beeck, Geert Br\^one, Toon Goedem\'e(参考訳) モバイルの視線追跡システムは10年ほど前から利用されており、マーケティング、社会学、ユーザビリティ研究、言語学など、さまざまな分野のアプリケーションで人気が高まっている。 ハードウェアのユーザフレンドリさやエルゴノミクスは急速に発展しているが、モバイルの視線追跡データを分析するためのソフトウェアはまだ堅牢性や機能に欠ける。 本稿では,移動眼球追跡データの自動解析に最先端のコンピュータビジョンアルゴリズムが用いられているかを検討する。 本稿では,人間と人間の対面インタラクション中に作成された移動型アイトラッカ記録に着目した。 最近公開された2つのフレームワーク(yolov2とopenpose)を比較して、視線追跡装置が生成した視線位置を、シーンカメラデータで見える頭部と手とに関連付けた。 本稿では,この単一パイプラインフレームワークを用いることで,現場での作業よりも正確かつ高速な結果が得られることを示す。 さらに,この手法では手作業による介入は行わない。

Mobile eye-tracking systems have been available for about a decade now and are becoming increasingly popular in different fields of application, including marketing, sociology, usability studies and linguistics. While the user-friendliness and ergonomics of the hardware are developing at a rapid pace, the software for the analysis of mobile eye-tracking data in some points still lacks robustness and functionality. With this paper, we investigate which state-of-the-art computer vision algorithms may be used to automate the post-analysis of mobile eye-tracking data. For the case study in this paper, we focus on mobile eye-tracker recordings made during human-human face-to-face interactions. We compared two recent publicly available frameworks (YOLOv2 and OpenPose) to relate the gaze location generated by the eye-tracker to the head and hands visible in the scene camera data. In this paper we will show that the use of this single-pipeline framework provides robust results, which are both more accurate and faster than previous work in the field. Moreover, our approach does not rely on manual interventions during this process.
翻訳日:2022-11-12 04:43:58 公開日:2020-07-09
# どのくらい低く行けますか。 全方位カメラによるプライバシー保護者検出

How low can you go? Privacy-preserving people detection with an omni-directional camera ( http://arxiv.org/abs/2007.04678v1 )

ライセンス: Link先を確認
Timothy Callemein, Kristof Van Beeck, and Toon Goedem\'e(参考訳) 本研究では,天井搭載全方位カメラを用いて室内の人を検出する。 これは会議室の占有度を測定し、利用可能なフレキシブルデスク作業スペースの量をカウントするためのセンサーとして使用できる。 これらのデバイスが組み込みの低消費電力センサーに統合できれば、オフィス環境における自動予約システムの理想的な拡張となる。 私たちがここで狙う主な課題は、撮影された人々のプライバシーを確保することです。 提案するアプローチは、人物を認識したり、潜在的に機密文書を読むことが不可能な画像解像度を極端に低くする。 そこで我々は,自動生成された基底真理を用いた単発低解像度人物検出ネットワークを再訓練した。 本稿では,この手法の機能を実証し,認識精度とプライバシー保護の最適なトレードオフを決定するために,解決率の低さについて検討する。 低解像度のため、結果として、組み込みハードウェアにデプロイ可能な軽量ネットワークになる可能性がある。 このような組み込み実装により、必要なメタデータ(つまり会議室にいる人の数)のみを出力する分散型スマートカメラの開発が可能になる。

In this work, we use a ceiling-mounted omni-directional camera to detect people in a room. This can be used as a sensor to measure the occupancy of meeting rooms and count the amount of flex-desk working spaces available. If these devices can be integrated in an embedded low-power sensor, it would form an ideal extension of automated room reservation systems in office environments. The main challenge we target here is ensuring the privacy of the people filmed. The approach we propose is going to extremely low image resolutions, such that it is impossible to recognise people or read potentially confidential documents. Therefore, we retrained a single-shot low-resolution person detection network with automatically generated ground truth. In this paper, we prove the functionality of this approach and explore how low we can go in resolution, to determine the optimal trade-off between recognition accuracy and privacy preservation. Because of the low resolution, the result is a lightweight network that can potentially be deployed on embedded hardware. Such embedded implementation enables the development of a decentralised smart camera which only outputs the required meta-data (i.e. the number of persons in the meeting room).
翻訳日:2022-11-12 04:43:39 公開日:2020-07-09
# Pollen13K: 大規模な顕微鏡ポーレングラインド画像データセット

Pollen13K: A Large Scale Microscope Pollen Grain Image Dataset ( http://arxiv.org/abs/2007.04690v1 )

ライセンス: Link先を確認
Sebastiano Battiato, Alessandro Ortis, Francesca Trenta, Lorenzo Ascari, Mara Politi, Consolata Siniscalco(参考訳) 花粉の分類は医学から生物学、農業まで多くの分野において顕著な役割を担っている。 実際、花粉の自動分類は、関連するすべてのアプリケーションや領域にとって重要な課題である。 この研究は、13万以上のオブジェクトを含む、最初の大規模な花粉粒画像データセットを提示している。 花粉の粒度分類の問題とその動機について紹介した後,本論文では,大気学的サンプリング,顕微鏡画像取得,物体検出,セグメンテーション,ラベリングなどのデータ取得手順に注目した。 さらに, 構築したデータセットにおける花粉分類のタスクに関する基礎実験評価を行い, 得られた結果について考察した。

Pollen grain classification has a remarkable role in many fields from medicine to biology and agronomy. Indeed, automatic pollen grain classification is an important task for all related applications and areas. This work presents the first large-scale pollen grain image dataset, including more than 13 thousands objects. After an introduction to the problem of pollen grain classification and its motivations, the paper focuses on the employed data acquisition steps, which include aerobiological sampling, microscope image acquisition, object detection, segmentation and labelling. Furthermore, a baseline experimental assessment for the task of pollen classification on the built dataset, together with discussion on the achieved results, is presented.
翻訳日:2022-11-12 04:43:01 公開日:2020-07-09
# 適応色局所テーブル管理によるアニメーションGIF最適化

Animated GIF optimization by adaptive color local table management ( http://arxiv.org/abs/2007.04717v1 )

ライセンス: Link先を確認
Oliver Giudice (1 and 2), Dario Allegra (1), Francesco Guarnera (1 and 2), Filippo Stanco (1), Sebastiano Battiato (1 and 2) ((1) University of Catania, (2) iCTLab s.r.l. - Spin-off of University of Catania)(参考訳) GIFファイルフォーマットの30年が経ち、今日(米国時間10/12)は、これまで以上に人気が高まっている。 GIF画像をエンコードするオリジナルの圧縮法は、とても人気があるが、少しは変わっていない。 一方、人気は、ホスティングプラットフォームではストレージの節約が問題になることを意味する。 本稿では,アニメーションGIFのパラメトリック最適化手法を提案する。 提案手法はローカルカラーテーブルの選択とカラーリマッピングに基づいて,元のフォーマットを保存しながら,最適化されたアニメーションGIFを作成する。 この技術は、知覚された色質を損なうことなく、バイト削減の観点で良好な結果が得られる。 1000個のGIFファイルで行ったテストは,提案手法の有効性を示した。

After thirty years of the GIF file format, today is becoming more popular than ever: being a great way of communication for friends and communities on Instant Messengers and Social Networks. While being so popular, the original compression method to encode GIF images have not changed a bit. On the other hand popularity means that storage saving becomes an issue for hosting platforms. In this paper a parametric optimization technique for animated GIFs will be presented. The proposed technique is based on Local Color Table selection and color remapping in order to create optimized animated GIFs while preserving the original format. The technique achieves good results in terms of byte reduction with limited or no loss of perceived color quality. Tests carried out on 1000 GIF files demonstrate the effectiveness of the proposed optimization strategy.
翻訳日:2022-11-12 04:42:49 公開日:2020-07-09
# RGB-Dサルエント物体検出のためのクロスモーダル重み付けネットワーク

Cross-Modal Weighting Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2007.04901v1 )

ライセンス: Link先を確認
Gongyang Li, Zhi Liu, Linwei Ye, Yang Wang, Haibin Ling(参考訳) 深度マップには、Salient Object Detection (SOD) を支援する幾何学的手がかりが含まれている。 本稿では,RGB-D SODの深度チャネルとRGB-D SODの包括的相互作用を促進するために,新しいCMW戦略を提案する。 具体的には,cmw-l,cmw-m,cmw-hという3つのrgb深層相互作用モジュールを用いて,低レベル,中レベル,高レベルなクロスモーダル情報融合を実現する。 これらのモジュールはDW(Depth-to-RGB Weighing)とRW(RGB-to-RGB Weighting)を使用して、異なるネットワークブロックによって生成された機能層間のリッチなクロスモーダルおよびクロススケールな相互作用を可能にする。 提案するクロスモーダル重み付けネットワーク(cmwnet)を効果的にトレーニングするために,中間予測と基底真理の誤差を異なるスケールで要約する複合損失関数を設計した。 これらの新しいコンポーネントがすべて一緒に動作するため、CMWNetはRGBとディープチャネルからの情報を効果的に融合し、オブジェクトのローカライゼーションとスケールの細部を探究する。 CMWNetは、7つの人気のあるベンチマークで15の最先端のRGB-D SOD法を一貫して上回っている。

Depth maps contain geometric clues for assisting Salient Object Detection (SOD). In this paper, we propose a novel Cross-Modal Weighting (CMW) strategy to encourage comprehensive interactions between RGB and depth channels for RGB-D SOD. Specifically, three RGB-depth interaction modules, named CMW-L, CMW-M and CMW-H, are developed to deal with respectively low-, middle- and high-level cross-modal information fusion. These modules use Depth-to-RGB Weighing (DW) and RGB-to-RGB Weighting (RW) to allow rich cross-modal and cross-scale interactions among feature layers generated by different network blocks. To effectively train the proposed Cross-Modal Weighting Network (CMWNet), we design a composite loss function that summarizes the errors between intermediate predictions and ground truth over different scales. With all these novel components working together, CMWNet effectively fuses information from RGB and depth channels, and meanwhile explores object localization and details across scales. Thorough evaluations demonstrate CMWNet consistently outperforms 15 state-of-the-art RGB-D SOD methods on seven popular benchmarks.
翻訳日:2022-11-12 04:42:04 公開日:2020-07-09
# 循環型対向ネットワークを用いたロボット手術における機器セグメンテーションの教師なし学習に向けて

Towards Unsupervised Learning for Instrument Segmentation in Robotic Surgery with Cycle-Consistent Adversarial Networks ( http://arxiv.org/abs/2007.04505v1 )

ライセンス: Link先を確認
Daniil Pakhomov, Wei Shen, Nassir Navab(参考訳) 内視鏡画像における外科的ツールセグメンテーションは重要な問題であり,全機器のポーズ推定への重要なステップであり,術前および術中画像の内視鏡視への統合に使用される。 畳み込みニューラルネットワークに基づく最近の多くのアプローチは大きな成果を上げているが、進歩の鍵となる障壁は、さまざまな手術シナリオにおいてアルゴリズムが一般化し、うまく機能するために必要な、多数の手動注釈画像の取得にある。 外科画像データと異なり、アノテーションの取得は困難であり、品質が変動する可能性がある。 一方,ロボットの前方運動モデルとCADモデルを用いて,画像平面上に投影することで,合成アノテーションを自動的に生成することができる。 残念ながら、このモデルは不正確であり、画像分割モデルの教師あり学習には使用できない。 生成したアノテーションは誤りによる内視鏡画像と直接対応しないため,入力された内視鏡画像と対応するアノテーションとのマッピングを敵モデルを用いて学習することを目的として,画像から画像への非対訳として問題を定式化する。 本手法は,高価なアノテーションを必要とせずに画像セグメンテーションモデルを訓練することを可能にし,画像/注釈データの注釈分布の外側で大きなラベルのない内視鏡的画像収集を活用できる。 提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。

Surgical tool segmentation in endoscopic images is an important problem: it is a crucial step towards full instrument pose estimation and it is used for integration of pre- and intra-operative images into the endoscopic view. While many recent approaches based on convolutional neural networks have shown great results, a key barrier to progress lies in the acquisition of a large number of manually-annotated images which is necessary for an algorithm to generalize and work well in diverse surgical scenarios. Unlike the surgical image data itself, annotations are difficult to acquire and may be of variable quality. On the other hand, synthetic annotations can be automatically generated by using forward kinematic model of the robot and CAD models of tools by projecting them onto an image plane. Unfortunately, this model is very inaccurate and cannot be used for supervised learning of image segmentation models. Since generated annotations will not directly correspond to endoscopic images due to errors, we formulate the problem as an unpaired image-to-image translation where the goal is to learn the mapping between an input endoscopic image and a corresponding annotation using an adversarial model. Our approach allows to train image segmentation models without the need to acquire expensive annotations and can potentially exploit large unlabeled endoscopic image collection outside the annotated distributions of image/annotation data. We test our proposed method on Endovis 2017 challenge dataset and show that it is competitive with supervised segmentation methods.
翻訳日:2022-11-12 04:36:07 公開日:2020-07-09
# 空間と時間におけるビデオのアライメント

Aligning Videos in Space and Time ( http://arxiv.org/abs/2007.04515v1 )

ライセンス: Link先を確認
Senthil Purushwalkam, Tian Ye, Saurabh Gupta, Abhinav Gupta(参考訳) 本稿では,ビデオ間の視覚的対応を抽出する作業に焦点を当てる。 アクションクラスからのクェリビデオクリップが与えられた場合、スペースと時間のトレーニングビデオに合わせることを目的としている。 このようなきめ細かい調整作業のためのトレーニングデータを取得することは難しく、しばしば曖昧です。 そこで我々は,クロスビデオ・サイクル整合性により,空間と時間でそのような対応を学習する新しいアライメント手法を提案する。 トレーニング中、一対のビデオが与えられると、最初のビデオの所定のフレームのパッチを第2のビデオのフレームでマッチングして接続するサイクルを計算します。 重なり合うパッチを繋ぐサイクルは、重複しないパッチを繋ぐサイクルよりも高いスコアを得られる。 Penn Action and Pouring データセットに関する実験により,提案手法はビデオ間で意味論的に類似したパッチに対応し,対象状態や行動状態に敏感な表現を学習できることを示した。

In this paper, we focus on the task of extracting visual correspondences across videos. Given a query video clip from an action class, we aim to align it with training videos in space and time. Obtaining training data for such a fine-grained alignment task is challenging and often ambiguous. Hence, we propose a novel alignment procedure that learns such correspondence in space and time via cross video cycle-consistency. During training, given a pair of videos, we compute cycles that connect patches in a given frame in the first video by matching through frames in the second video. Cycles that connect overlapping patches together are encouraged to score higher than cycles that connect non-overlapping patches. Our experiments on the Penn Action and Pouring datasets demonstrate that the proposed method can successfully learn to correspond semantically similar patches across videos, and learns representations that are sensitive to object and action states.
翻訳日:2022-11-12 04:35:26 公開日:2020-07-09
# ESA-ReID:人物再IDのためのエントロピーに基づく意味的特徴アライメント

ESA-ReID: Entropy-Based Semantic Feature Alignment for Person re-ID ( http://arxiv.org/abs/2007.04644v1 )

ライセンス: Link先を確認
Chaoping Tu, Yin Zhao, Longjun Cai(参考訳) 人物の再識別(re-ID)は現実世界の課題である。 監視システムの典型的な応用に加えて、re-idはコンテンツビデオ(テレビや映画)における人物識別のリコール率を向上させる重要な価値を持っている。 しかし、オクルージョン、ショット角度の変化、複雑な背景は、特にコンテンツビデオにおいて、応用から遠く離れている。 本稿では,人間の意味的特徴の詳細な情報を活用するエントロピーに基づく意味的特徴のアライメントモデルを提案する。 セグメンテーションの不確実性を考慮すると,マスクセグメンテーション誤差の負の効果を低減できるエントロピーベースのマスクとのセマンティックアライメントを導入する。 咬合や身体部位の欠如が多いコンテンツビデオに基づく新しいre-idデータセットを構築し,今後公開する予定である。 既存のデータセットと新しいデータセットの両方に関する広範な研究は、提案モデルの優れた性能を示している。

Person re-identification (re-ID) is a challenging task in real-world. Besides the typical application in surveillance system, re-ID also has significant values to improve the recall rate of people identification in content video (TV or Movies). However, the occlusion, shot angle variations and complicated background make it far away from application, especially in content video. In this paper we propose an entropy based semantic feature alignment model, which takes advantages of the detailed information of the human semantic feature. Considering the uncertainty of semantic segmentation, we introduce a semantic alignment with an entropy-based mask which can reduce the negative effects of mask segmentation errors. We construct a new re-ID dataset based on content videos with many cases of occlusion and body part missing, which will be released in future. Extensive studies on both existing datasets and the new dataset demonstrate the superior performance of the proposed model.
翻訳日:2022-11-12 04:34:12 公開日:2020-07-09
# 最大エントロピー正規化と中国語テキスト認識

Maximum Entropy Regularization and Chinese Text Recognition ( http://arxiv.org/abs/2007.04651v1 )

ライセンス: Link先を確認
Changxu Cheng, Wuheng Xu, Xiang Bai, Bin Feng, and Wenyu Liu(参考訳) 中国語の文字認識がラテン文字よりも難しいのは、きめ細かい漢字が多すぎることと、クラスに対する大きな不均衡が原因で、深刻な過度な問題を引き起こしている。 本稿では,学習過程の正則化に最大エントロピー正規化を適用し,モデルのパラメータや修正を伴わずに,正準クロスエントロピー損失に負のエントロピー項を単に付加することを提案する。 理論的には収束確率分布を与え、正規化が学習過程に与える影響を分析する。 認識モデルの一般化と頑健性には正則化が有効であることを証明し,漢字認識,中国語テキスト行認識,細粒度画像分類の実験により一貫した改善が得られた。

Chinese text recognition is more challenging than Latin text due to the large amount of fine-grained Chinese characters and the great imbalance over classes, which causes a serious overfitting problem. We propose to apply Maximum Entropy Regularization to regularize the training process, which is to simply add a negative entropy term to the canonical cross-entropy loss without any additional parameters and modification of a model. We theoretically give the convergence probability distribution and analyze how the regularization influence the learning process. Experiments on Chinese character recognition, Chinese text line recognition and fine-grained image classification achieve consistent improvement, proving that the regularization is beneficial to generalization and robustness of a recognition model.
翻訳日:2022-11-12 04:33:27 公開日:2020-07-09
# 膝重み付きコーンビームCTにおける運動補償の慣性計測

Inertial Measurements for Motion Compensation in Weight-bearing Cone-beam CT of the Knee ( http://arxiv.org/abs/2007.04655v1 )

ライセンス: Link先を確認
Jennifer Maier, Marlies Nitschke, Jang-Hwan Choi, Garry Gold, Rebecca Fahrig, Bjoern M. Eskofier, Andreas Maier(参考訳) 膝関節X線CT検査における不随意運動は, 再建ボリュームのアーチファクトを生じ, 臨床診断には使用できない。 現在、この動きを補正するためにイメージベースまたはマーカーベースの手法が適用されているが、長い実行や準備時間を必要とすることが多い。 本稿では,加速度計とジャイロスコープを装着した慣性測定装置(IMU)を被験者の脚に装着し,スキャン中の運動を測定する。 そこで本研究では,光学式3次元トラッキングシステムを用いて実動を用いたシミュレーション実験を行った。 この動きにより、XCAT数値的な膝ファントムは、運動破壊プロジェクションを生成する模擬CTスキャン中に厳格に変形する。 生体力学モデルは、膝の下に置かれたIMUの測定値を生成するために、同じ追従運動でアニメーションされる。 提案する多段階アルゴリズムでは,これらの信号をCTスキャンのグローバル座標系に変換し,再構成時の動作補償に応用する。 提案手法は,復元したボリュームの運動アーチファクトを効果的に削減する。 運動崩壊の場合と比較して, 運動なしの場合の平均構造類似度指数と根平均二乗誤差はそれぞれ13-21%, 68-70%改善した。 これらの結果は,最先端のマーカーベース手法と同等の質的,定量的に比較した。 本研究は、本手法の有効性を示し、C-arm CTにおける純粋IMUに基づく運動補償に向けた有望な結果をもたらす。

Involuntary motion during weight-bearing cone-beam computed tomography (CT) scans of the knee causes artifacts in the reconstructed volumes making them unusable for clinical diagnosis. Currently, image-based or marker-based methods are applied to correct for this motion, but often require long execution or preparation times. We propose to attach an inertial measurement unit (IMU) containing an accelerometer and a gyroscope to the leg of the subject in order to measure the motion during the scan and correct for it. To validate this approach, we present a simulation study using real motion measured with an optical 3D tracking system. With this motion, an XCAT numerical knee phantom is non-rigidly deformed during a simulated CT scan creating motion corrupted projections. A biomechanical model is animated with the same tracked motion in order to generate measurements of an IMU placed below the knee. In our proposed multi-stage algorithm, these signals are transformed to the global coordinate system of the CT scan and applied for motion compensation during reconstruction. Our proposed approach can effectively reduce motion artifacts in the reconstructed volumes. Compared to the motion corrupted case, the average structural similarity index and root mean squared error with respect to the no-motion case improved by 13-21% and 68-70%, respectively. These results are qualitatively and quantitatively on par with a state-of-the-art marker-based method we compared our approach to. The presented study shows the feasibility of this novel approach, and yields promising results towards a purely IMU-based motion compensation in C-arm CT.
翻訳日:2022-11-12 04:33:13 公開日:2020-07-09
# 強化学習に基づくサイバースペース構成の弱さ解析

Weakness Analysis of Cyberspace Configuration Based on Reinforcement Learning ( http://arxiv.org/abs/2007.04614v1 )

ライセンス: Link先を確認
Lei Zhang, Wei Bai, Shize Guo, Shiming Xia, Hongmei Li and Zhisong Pan(参考訳) 本研究では,サイバー空間構成の分析に学習に基づくアプローチを提案する。 従来の方法とは異なり、私たちのアプローチは過去の経験から学び、時間とともに改善する能力を持っています。 特に,攻撃者としてより多くのエージェントを訓練するにつれて,これまで隠されていたパス,特に複数のドメインサイバースペースにおいて,攻撃経路を迅速に見つける方法が向上する。 これらの結果を達成するために,強化学習(rl)問題として攻撃経路の探索を行い,エージェントに複数のドメイン攻撃経路を見つけるように訓練する。 RLポリシーをより隠れた攻撃経路を見つけるために、RLに複数のドメインアクション選択モジュールを導入する。 この手法を検証するために サイバー空間実験環境を 設計することで 我々の目標は、サイバースペース構成の弱点を分析するために、より隠れた攻撃経路を見つけることである。 実験の結果,本手法は既存のベースライン手法よりも隠れた複数のドメイン攻撃経路を見つけることができた。

In this work, we present a learning-based approach to analysis cyberspace configuration. Unlike prior methods, our approach has the ability to learn from past experience and improve over time. In particular, as we train over a greater number of agents as attackers, our method becomes better at rapidly finding attack paths for previously hidden paths, especially in multiple domain cyberspace. To achieve these results, we pose finding attack paths as a Reinforcement Learning (RL) problem and train an agent to find multiple domain attack paths. To enable our RL policy to find more hidden attack paths, we ground representation introduction an multiple domain action select module in RL. By designing a simulated cyberspace experimental environment to verify our method. Our objective is to find more hidden attack paths, to analysis the weakness of cyberspace configuration. The experimental results show that our method can find more hidden multiple domain attack paths than existing baselines methods.
翻訳日:2022-11-12 04:26:10 公開日:2020-07-09
# 非拘束型クロスワードノズル生成の自動化戦略

Automation Strategies for Unconstrained Crossword Puzzle Generation ( http://arxiv.org/abs/2007.04663v1 )

ライセンス: Link先を確認
Charu Agarwal, Rushikesh K. Joshi(参考訳) 制約なしクロスワードパズルは制約付きクロスワード問題の一般化である。 この問題では、語彙のみであり、任意に格子次元が知られている。 したがって、単語の位置を決定するためにアルゴリズムを必要とするだけでなく、グリッドの幾何学も考え出す必要がある。 本稿では,このような制約のない環境での自動クロスワードパズル生成のためのアルゴリズム戦略について論じる。 提案した戦略は、与えられた語彙からの単語の選択、グリッドサイズの選択、グリッドサイズと調整、ワードフィッティングのメトリクス、バックトラッキング技術、および手がかり生成のタスクをカバーする。 これらの戦略は、単語列の置換順序がグリッドフィッティングに与える影響の研究に基づいて定式化されている。 これらの戦略を組み合わせたエンドツーエンドのアルゴリズムを示し、その性能を解析する。 この技術は、非常に大きなサイズのよく詰め込まれたパズルを素早く作成することに成功している。 最後に,本アルゴリズムで生成したいくつかのパズルについても述べる。

An unconstrained crossword puzzle is a generalization of the constrained crossword problem. In this problem, only the word vocabulary, and optionally the grid dimensions are known. Hence, it not only requires the algorithm to determine the word locations, but it also needs to come up with the grid geometry. This paper discusses algorithmic strategies for automatic crossword puzzle generation in such an unconstrained setting. The strategies proposed cover the tasks of selection of words from a given vocabulary, selection of grid sizes, grid resizing and adjustments, metrics for word fitting, back-tracking techniques, and also clue generation. The strategies have been formulated based on a study of the effect of word sequence permutation order on grid fitting. An end-to-end algorithm that combines these strategies is presented, and its performance is analyzed. The techniques have been found to be successful in quickly producing well-packed puzzles of even large sizes. Finally, a few example puzzles generated by our algorithm are also provided.
翻訳日:2022-11-12 04:25:56 公開日:2020-07-09
# トラベリングセールスマン問題の解法のための生成グラフ法

A Generative Graph Method to Solve the Travelling Salesman Problem ( http://arxiv.org/abs/2007.04949v1 )

ライセンス: Link先を確認
Amal Nammouchi, Hakim Ghazzai, and Yehia Massoud(参考訳) トラベリングセールスマン問題(TSP)は、局所ノード近傍とグローバルグラフ構造の両方の推論を必要とする組合せ最適化における挑戦的なグラフタスクである。 本稿では,生成的手法である新しいグラフ学習ネットワーク(gln)を用いて,tspの近似解法を提案する。 GLNモデルは、トレーニングデータセットとしてTSPインスタンスのパターンを直接学習し、グラフプロパティをエンコードし、各ノードの埋め込みをマージして、ノードからノードへの最適なツアーを直接出力するか、最終ツアーを検証するグラフ検索技術を介して行う。 提案手法の予備結果は, 最適解と比較し, 計算量を大幅に節約し, 最適ギャップの少ない課題に適用可能であることを証明した。

The Travelling Salesman Problem (TSP) is a challenging graph task in combinatorial optimization that requires reasoning about both local node neighborhoods and global graph structure. In this paper, we propose to use the novel Graph Learning Network (GLN), a generative approach, to approximately solve the TSP. GLN model learns directly the pattern of TSP instances as training dataset, encodes the graph properties, and merge the different node embeddings to output node-to-node an optimal tour directly or via graph search technique that validates the final tour. The preliminary results of the proposed novel approach proves its applicability to this challenging problem providing a low optimally gap with significant computation saving compared to the optimal solution.
翻訳日:2022-11-12 04:25:04 公開日:2020-07-09
# 受入エンジンの評価

Evaluating the Apperception Engine ( http://arxiv.org/abs/2007.05367v1 )

ライセンス: Link先を確認
Richard Evans, Jose Hernandez-Orallo, Johannes Welbl, Pushmeet Kohli, Marek Sergot(参考訳) Apperception Engineは教師なし学習システムである。 感覚入力の列が与えられたとき、感覚のシーケンスを説明すると同時に一連の統一条件を満たす象徴的因果理論を構築する。 統一条件は、理論の構成要素(対象、性質、および法則)は、コヒーレントな全体に統合されなければならないと主張する。 理論が構築されると、将来のセンサーの読み出し、事前の読み戻し、あるいは欠落した読み出しの予測に応用できる。 本稿では,セルオートマトン,リズム,簡単な保育音,マルチモーダル結合問題,オクルージョンタスク,シーケンス誘導知能テストなど多種多様な領域において,apperception engineを評価する。 それぞれの領域で、将来のセンサー値を予測するエンジンの能力、以前のセンサー値の回帰、センサーデータの欠如をテストします。 エンジンはこれらの領域すべてで良好に動作し、ニューラルネットベースラインとアート帰納論理プログラミングシステムの状態を大きく上回っている。 これらの結果は、ニューラルネットが結合問題(異なるモダリティの情報を何らかの形で結合して一つの統一されたオブジェクトの異なる側面にまとめる必要がある)を解こうとするのに苦労し、閉塞タスクを解こうとしないため重要である。 特にシーケンスインジェクションインテリジェンステストにおいて,本システムは人間レベルの性能を達成した。 これは、我々のシステムは知能検査に特化して設計されたbespokeシステムではなく、あらゆる感覚シーケンスを理解するために設計された汎用システムであるからである。

The Apperception Engine is an unsupervised learning system. Given a sequence of sensory inputs, it constructs a symbolic causal theory that both explains the sensory sequence and also satisfies a set of unity conditions. The unity conditions insist that the constituents of the theory - objects, properties, and laws - must be integrated into a coherent whole. Once a theory has been constructed, it can be applied to predict future sensor readings, retrodict earlier readings, or impute missing readings. In this paper, we evaluate the Apperception Engine in a diverse variety of domains, including cellular automata, rhythms and simple nursery tunes, multi-modal binding problems, occlusion tasks, and sequence induction intelligence tests. In each domain, we test our engine's ability to predict future sensor values, retrodict earlier sensor values, and impute missing sensory data. The engine performs well in all these domains, significantly outperforming neural net baselines and state of the art inductive logic programming systems. These results are significant because neural nets typically struggle to solve the binding problem (where information from different modalities must somehow be combined together into different aspects of one unified object) and fail to solve occlusion tasks (in which objects are sometimes visible and sometimes obscured from view). We note in particular that in the sequence induction intelligence tests, our system achieved human-level performance. This is notable because our system is not a bespoke system designed specifically to solve intelligence tests, but a general-purpose system that was designed to make sense of any sensory sequence.
翻訳日:2022-11-12 04:24:51 公開日:2020-07-09
# 適応物理学インフォームドニューラルネットワークを用いたallen-cahnおよびcahn-hilliard方程式の解法

Solving Allen-Cahn and Cahn-Hilliard Equations using the Adaptive Physics Informed Neural Networks ( http://arxiv.org/abs/2007.04542v1 )

ライセンス: Link先を確認
Colby L. Wight and Jia Zhao(参考訳) 位相場モデル、特にアレン・カーン型とカーン・ヒリアード型方程式は界面の動的問題の研究に広く用いられている。 位相場モデルを解くための正確で効率的で安定な数値アルゴリズムの設計は、何十年も前から活発な分野だった。 本稿では,改良型物理学インフォームドニューラルネットワーク (pinn) の提案により,allen-cahn および cahn-hilliard 方程式の自動数値解法の設計にディープニューラルネットワークを用いた。 PINNは多くの微分方程式問題を調べるために採用されてきたが、位相場方程式の解法におけるPINNの直接的な応用は、多くの場合、正確な解を提供しない。 そこで,我々はピンの近似パワーを付加する様々な手法を提案する。 本論文の主な貢献として,位相場方程式の解法におけるPINNの効率と正確性を向上させるために,空間と時間の両方で適応的アイデアを取り入れ,様々なサンプリング戦略を導入することを提案する。 さらに、改良されたPINNは、PDEの明示的な形式に制限を持たず、より広範なPDE問題に適応し、他のPDEの数値近似に光を当てる。

Phase field models, in particular, the Allen-Cahn type and Cahn-Hilliard type equations, have been widely used to investigate interfacial dynamic problems. Designing accurate, efficient, and stable numerical algorithms for solving the phase field models has been an active field for decades. In this paper, we focus on using the deep neural network to design an automatic numerical solver for the Allen-Cahn and Cahn-Hilliard equations by proposing an improved physics informed neural network (PINN). Though the PINN has been embraced to investigate many differential equation problems, we find a direct application of the PINN in solving phase-field equations won't provide accurate solutions in many cases. Thus, we propose various techniques that add to the approximation power of the PINN. As a major contribution of this paper, we propose to embrace the adaptive idea in both space and time and introduce various sampling strategies, such that we are able to improve the efficiency and accuracy of the PINN on solving phase field equations. In addition, the improved PINN has no restriction on the explicit form of the PDEs, making it applicable to a wider class of PDE problems, and shedding light on numerical approximations of other PDEs in general.
翻訳日:2022-11-12 04:24:22 公開日:2020-07-09
# 神経にインスパイアされたヒト-スワーム相互作用の理論

A Neuro-inspired Theory of Joint Human-Swarm Interaction ( http://arxiv.org/abs/2007.04882v1 )

ライセンス: Link先を確認
Jonas D. Hasbach, Maren Bennewitz(参考訳) HSI(Human-Swarm Interaction)は、ロボット工学とヒューマンファクター工学の領域における積極的な研究課題である。 本稿では、認知システム工学の観点を適用し、HSIの神経誘発ジョイントシステム理論を導入する。 この考え方は適応的で堅牢でスケーラブルなHSIダイナミクスの予測を定義しており、従って人間の警告ループ設計を知らせる可能性がある。

Human-swarm interaction (HSI) is an active research challenge in the realms of swarm robotics and human-factors engineering. Here we apply a cognitive systems engineering perspective and introduce a neuro-inspired joint systems theory of HSI. The mindset defines predictions for adaptive, robust and scalable HSI dynamics and therefore has the potential to inform human-swarm loop design.
翻訳日:2022-11-12 04:23:44 公開日:2020-07-09
# 無線交通センサデータを用いた主要高速道路混雑事象の自動検出:機械学習によるアプローチ

Automatic Detection of Major Freeway Congestion Events Using Wireless Traffic Sensor Data: A Machine Learning Approach ( http://arxiv.org/abs/2007.05079v1 )

ライセンス: Link先を確認
Sanaz Aliari, Kaveh F. Sadabadi(参考訳) 主要回廊における交通動態のモニタリングは、交通計画の目的に対して貴重な洞察を与えることができる。 このモニタリングの重要な要件は、主要なトラフィックイベントを自動的に検出し、旅行データに注釈を付ける方法が利用可能であることである。 本稿では,数百時間単位の交通速度データから,道路交通渋滞イベントの信頼性の高い検出と特徴付けのための機械学習手法を提案する。 実際、提案手法は、任意の時系列の変化を検出するための一般的なアプローチであり、これは現在の研究における無線交通センサデータである。 速度データは最初10時間のスライディングウィンドウでタイムウインドされ、各ウィンドウにおける混雑イベント(スローダウン)の存在と持続時間を検出するために使用される3つのニューラルネットワークに入力される。 スライディングウィンドウは、各スローダウンイベントを複数回キャプチャし、渋滞検出の信頼性を高める。 トレーニングとパラメータチューニングは168のスローダウンイベントを含む17,483時間のデータで実行される。 このデータは、メリーランド大学のCenter for Advanced Transportation Technologies(CATT)で進行中のプローブデータ検証研究の一部として収集され、ラベル付けされている。 ニューラルネットワークは、トレーニングデータに過剰に適合する可能性を減らすために慎重に訓練される。 実験結果から,本手法は混雑事象の大部分を検出できる一方で,ヒューリスティックなルールベースアプローチを著しく上回る結果が得られた。 さらに,渋滞イベントの開始時刻と終了時刻を推定する上で,提案手法がより正確であることを示す。

Monitoring the dynamics of traffic in major corridors can provide invaluable insight for traffic planning purposes. An important requirement for this monitoring is the availability of methods to automatically detect major traffic events and to annotate the abundance of travel data. This paper introduces a machine learning based approach for reliable detection and characterization of highway traffic congestion events from hundreds of hours of traffic speed data. Indeed, the proposed approach is a generic approach for detection of changes in any given time series, which is the wireless traffic sensor data in the present study. The speed data is initially time-windowed by a ten-hour long sliding window and fed into three Neural Networks that are used to detect the existence and duration of congestion events (slowdowns) in each window. The sliding window captures each slowdown event multiple times and results in increased confidence in congestion detection. The training and parameter tuning are performed on 17,483 hours of data that includes 168 slowdown events. This data is collected and labeled as part of the ongoing probe data validation studies at the Center for Advanced Transportation Technologies (CATT) at the University of Maryland. The Neural networks are carefully trained to reduce the chances of over-fitting to the training data. The experimental results show that this approach is able to successfully detect most of the congestion events, while significantly outperforming a heuristic rule-based approach. Moreover, the proposed approach is shown to be more accurate in estimation of the start-time and end-time of the congestion events.
翻訳日:2022-11-12 04:18:14 公開日:2020-07-09
# 対価第一価格オークションにおける最適かつ効率的な入札の学習

Learning to Bid Optimally and Efficiently in Adversarial First-price Auctions ( http://arxiv.org/abs/2007.04568v1 )

ライセンス: Link先を確認
Yanjun Han, Zhengyuan Zhou, Aaron Flores, Erik Ordentlich, Tsachy Weissman(参考訳) 第一価オークションはオンライン広告業界を席巻し、多くのプラットフォームで第二価オークションが支配的なオークションメカニズムとなっている。 この変化は、入札者にとって重要な課題を引き起こした: 第1の価格オークションにおいて、第2価格オークションとは異なり、他人の入札行動を知るのが困難で、他人のプライベート価値を競うのがもはや最適ではない、どのように入札すべきなのか? 本稿では,オンライン学習の角度から,入札者の私的評価と他の入札者の入札の両方が任意にできる1次オークションの入札を繰り返すことの学習の基本問題に対処する。 我々は,全てのリプシッツ入札ポリシーの集合と競合するときに,$\widetilde{O}(\sqrt{T})$の後悔を達成する,最初のミニマックス最適オンライン入札アルゴリズムを開発した。 この新しいアルゴリズムは、優れたエキスパートの存在がパフォーマンスを向上させるために活用できるという洞察と、オンライン学習に独立した関心を持つような、オリジナルの階層的なエキスパート連鎖構造に基づいている。 さらに,この問題に存在する積構造を生かして,このアルゴリズムを統計的に最適だが計算不可能であるバニラ形式から,同じ$\widetilde{o}(\sqrt{t})$ minimax の最適後悔保証を保った計算効率と空間効率のよいアルゴリズムに変更する。 さらに、不可能性の結果を通じて、より強力なオラクル(リプシッツ入札ポリシーが考慮されている)と有利に競合する可能性は低いことを強調する。 最後に,verizon mediaから得られた3つの実世界の1価オークションデータセット上でアルゴリズムをテストし,既存の入札アルゴリズムと比較して,アルゴリズムの優れた性能を示す。

First-price auctions have very recently swept the online advertising industry, replacing second-price auctions as the predominant auction mechanism on many platforms. This shift has brought forth important challenges for a bidder: how should one bid in a first-price auction, where unlike in second-price auctions, it is no longer optimal to bid one's private value truthfully and hard to know the others' bidding behaviors? In this paper, we take an online learning angle and address the fundamental problem of learning to bid in repeated first-price auctions, where both the bidder's private valuations and other bidders' bids can be arbitrary. We develop the first minimax optimal online bidding algorithm that achieves an $\widetilde{O}(\sqrt{T})$ regret when competing with the set of all Lipschitz bidding policies, a strong oracle that contains a rich set of bidding strategies. This novel algorithm is built on the insight that the presence of a good expert can be leveraged to improve performance, as well as an original hierarchical expert-chaining structure, both of which could be of independent interest in online learning. Further, by exploiting the product structure that exists in the problem, we modify this algorithm--in its vanilla form statistically optimal but computationally infeasible--to a computationally efficient and space efficient algorithm that also retains the same $\widetilde{O}(\sqrt{T})$ minimax optimal regret guarantee. Additionally, through an impossibility result, we highlight that one is unlikely to compete this favorably with a stronger oracle (than the considered Lipschitz bidding policies). Finally, we test our algorithm on three real-world first-price auction datasets obtained from Verizon Media and demonstrate our algorithm's superior performance compared to several existing bidding algorithms.
翻訳日:2022-11-12 04:17:02 公開日:2020-07-09
# データから動的システムを学ぶ:単純な相互検証の観点から

Learning dynamical systems from data: a simple cross-validation perspective ( http://arxiv.org/abs/2007.05074v1 )

ライセンス: Link先を確認
Boumediene Hamzi and Houman Owhadi(参考訳) 有限個の観測状態から力学系のベクトル場を回帰することは、そのような系の代理モデルを学ぶ自然な方法である。 我々は、これらのエミュレータで使用されるカーネルを学習するための簡単なアプローチとして、クロスバリデーションの変種(Kernel Flows \cite{Owhadi19} とその変種(Maximum Mean Discrepancy および Lyapunov exponents )を提示する。

Regressing the vector field of a dynamical system from a finite number of observed states is a natural way to learn surrogate models for such systems. We present variants of cross-validation (Kernel Flows \cite{Owhadi19} and its variants based on Maximum Mean Discrepancy and Lyapunov exponents) as simple approaches for learning the kernel used in these emulators.
翻訳日:2022-11-12 04:16:27 公開日:2020-07-09
# 主語ベクトル

Principal Word Vectors ( http://arxiv.org/abs/2007.04629v1 )

ライセンス: Link先を確認
Ali Basirat, Christian Hardmeier, Joakim Nivre(参考訳) 単語をベクトル空間に埋め込むための主成分分析を一般化する。 一般化は2つの大きなレベルで行われる。 1つ目は、コーパスの概念を3つのキー要素の語彙集合、特徴(注釈)集合、文脈によって定義される数え上げ過程として一般化することである。 この一般化により、コーパスに提供される異なる種類の文脈と異なるタイプのアノテーションに関して、主語埋め込み法がワードベクトルを生成することができる。 2つ目は、ほとんどの単語埋め込みメソッドで使われる変換ステップを一般化することである。 この目的のために、変換の2つのレベルを定義します。 1つは二次変換であり、語彙単位と文脈的特徴に対する異なる種類の重み付けを考慮に入れている。 2つ目は適応非線形変換であり、主成分分析に意味のあるデータ分布を再構成する。 これらの一般化が単語ベクトルに与える影響は、単語ベクトルの拡散と識別性に関して本質的に研究されている。 また,単語類似度ベンチマークにおける主語ベクトルの寄与度と係り受け解析のタスクについて,極端な評価を行う。 本実験は,一般的な単語埋め込み法で生成する主語ベクトルと他の単語ベクトル集合の比較によって最終化される。 その結果,主語ベクトルの拡散と判別性は,他の単語埋め込み法よりも高いことがわかった。 評価指標から得られた結果から, 主語ベクトルは, 単語埋め込み法より優れており, 一般的な単語埋め込み法と同等であることがわかった。

We generalize principal component analysis for embedding words into a vector space. The generalization is made in two major levels. The first is to generalize the concept of the corpus as a counting process which is defined by three key elements vocabulary set, feature (annotation) set, and context. This generalization enables the principal word embedding method to generate word vectors with regard to different types of contexts and different types of annotations provided for a corpus. The second is to generalize the transformation step used in most of the word embedding methods. To this end, we define two levels of transformations. The first is a quadratic transformation, which accounts for different types of weighting over the vocabulary units and contextual features. Second is an adaptive non-linear transformation, which reshapes the data distribution to be meaningful to principal component analysis. The effect of these generalizations on the word vectors is intrinsically studied with regard to the spread and the discriminability of the word vectors. We also provide an extrinsic evaluation of the contribution of the principal word vectors on a word similarity benchmark and the task of dependency parsing. Our experiments are finalized by a comparison between the principal word vectors and other sets of word vectors generated with popular word embedding methods. The results obtained from our intrinsic evaluation metrics show that the spread and the discriminability of the principal word vectors are higher than that of other word embedding methods. The results obtained from the extrinsic evaluation metrics show that the principal word vectors are better than some of the word embedding methods and on par with popular methods of word embedding.
翻訳日:2022-11-12 04:15:47 公開日:2020-07-09
# 離散的および連続的なスーパータグ機能を備えたgreedy transition-based dependency parse

Greedy Transition-Based Dependency Parsing with Discrete and Continuous Supertag Features ( http://arxiv.org/abs/2007.04686v1 )

ライセンス: Link先を確認
Ali Basirat, Joakim Nivre(参考訳) グリーディ遷移に基づく依存性解析における豊富なスーパータグ特徴の影響について検討した。 従来の研究では、単語の1-bestスーパータグを表すスパースブール特徴がパース精度を向上させることが示されているが、単語のスーパータグ分布全体の連続ベクトル表現を追加することで、さらなる改善が期待できることを示す。 このようにして、私たちは8.6 %$ LAS と90.9 %$ UASon のスーパータグ機能を備えたエレディ・トランジションベースの構文解析の最良の結果を得る。

We study the effect of rich supertag features in greedy transition-based dependency parsing. While previous studies have shown that sparse boolean features representing the 1-best supertag of a word can improve parsing accuracy, we show that we can get further improvements by adding a continuous vector representation of the entire supertag distribution for a word. In this way, we achieve the best results for greedy transition-based parsing with supertag features with $88.6\%$ LAS and $90.9\%$ UASon the English Penn Treebank converted to Stanford Dependencies.
翻訳日:2022-11-12 04:15:24 公開日:2020-07-09
# CompRes:ニュースにおける物語構造のためのデータセット

CompRes: A Dataset for Narrative Structure in News ( http://arxiv.org/abs/2007.04874v1 )

ライセンス: Link先を確認
Effi Levi, Guy Mor, Shaul Shenhav, Tamir Sheafer(参考訳) 本稿では,原文中のナラティブ構造を自動的に検出するタスクについて述べる。 以前の作品では、ラボフとワルツキーによる口頭物語理論を利用して、個人的な物語のテキスト中の様々な物語要素を同定している。 その代わり、我々は、その社会的影響の高まりと、世論の創造と形成における役割に動機づけられたニュース記事に焦点をあてる。 ニュースメディアにおける物語構造のための最初のデータセットであるCompResを紹介する。 まず、我々は、ラボフとワレツキーの物語理論から要素を適応させ、独自の物語要素を追加することによって、ニュースメディアに適した新しい物語論法を設計し、その後、ニュースやパルチザンのウェブサイトから収集された29の英ニュース記事(1,099文を含む)を注釈付けするために、その手法を用いた。 注釈付きデータセットを使用して、いくつかの教師付きモデルをトレーニングし、異なる物語要素を識別し、最大0.7のF_1$スコアを達成します。 我々は、将来の仕事のためにいくつかの有望な方向を提案して締めくくる。

This paper addresses the task of automatically detecting narrative structures in raw texts. Previous works have utilized the oral narrative theory by Labov and Waletzky to identify various narrative elements in personal stories texts. Instead, we direct our focus to news articles, motivated by their growing social impact as well as their role in creating and shaping public opinion. We introduce CompRes -- the first dataset for narrative structure in news media. We describe the process in which the dataset was constructed: first, we designed a new narrative annotation scheme, better suited for news media, by adapting elements from the narrative theory of Labov and Waletzky (Complication and Resolution) and adding a new narrative element of our own (Success); then, we used that scheme to annotate a set of 29 English news articles (containing 1,099 sentences) collected from news and partisan websites. We use the annotated dataset to train several supervised models to identify the different narrative elements, achieving an $F_1$ score of up to 0.7. We conclude by suggesting several promising directions for future work.
翻訳日:2022-11-12 04:15:12 公開日:2020-07-09
# ディープニューラルネットワークの表現性

Expressivity of Deep Neural Networks ( http://arxiv.org/abs/2007.04759v1 )

ライセンス: Link先を確認
Ingo G\"uhring, Mones Raslan, Gitta Kutyniok(参考訳) 本稿では,ニューラルネットワークの多種多様な近似結果について概観する。 古典関数空間に対する近似率と、特に構造化関数クラスに対する浅層関数に対するディープニューラルネットワークの利点について論じた。 既存の結果は、一般的なフィードフォワードアーキテクチャのためのものだが、畳み込み、残留、反復するニューラルネットワークの近似結果も記述する。

In this review paper, we give a comprehensive overview of the large variety of approximation results for neural networks. Approximation rates for classical function spaces as well as benefits of deep neural networks over shallow ones for specifically structured function classes are discussed. While the mainbody of existing results is for general feedforward architectures, we also depict approximation results for convolutional, residual and recurrent neural networks.
翻訳日:2022-11-12 04:09:02 公開日:2020-07-09
# Boltzmann MachinesとGenerative Adversarial Networksによる取引戦略バックテストのロバスト性向上

Improving the Robustness of Trading Strategy Backtesting with Boltzmann Machines and Generative Adversarial Networks ( http://arxiv.org/abs/2007.04838v1 )

ライセンス: Link先を確認
Edmond Lezmi, Jules Roche, Thierry Roncalli, Jiali Xu(参考訳) この記事では、マーケットジェネレータ構築における機械学習モデルの利用について説明する。 基礎となる考え方は、統計的性質が金融市場に見られるものと同じである人工多次元金融時系列をシミュレートすることである。 特に、これらの合成データは資産返却の確率分布、異なる資産間の確率的依存と時間的自己相関を保存する必要がある。 そこで本稿では,バックテスト統計の確率分布を推定する新しい手法を提案する。 最後の目標は、定量的投資戦略、特にスマートベータ、ファクター投資、代替リスクプレアの分野におけるリスク管理を改善するためのフレームワークを開発することである。

This article explores the use of machine learning models to build a market generator. The underlying idea is to simulate artificial multi-dimensional financial time series, whose statistical properties are the same as those observed in the financial markets. In particular, these synthetic data must preserve the probability distribution of asset returns, the stochastic dependence between the different assets and the autocorrelation across time. The article proposes then a new approach for estimating the probability distribution of backtest statistics. The final objective is to develop a framework for improving the risk management of quantitative investment strategies, in particular in the space of smart beta, factor investing and alternative risk premia.
翻訳日:2022-11-12 04:08:57 公開日:2020-07-09
# 生体力学的に学習したディープニューラルネットワークを用いた非構造ノードの前立腺運動モデリング

Prostate motion modelling using biomechanically-trained deep neural networks on unstructured nodes ( http://arxiv.org/abs/2007.04972v1 )

ライセンス: Link先を確認
Shaheer U. Saeed, Zeike A. Taylor, Mark A. Pinnock, Mark Emberton, Dean C. Barratt, Yipeng Hu(参考訳) 本稿では,バイオメカニカルシミュレーションを用いて深部ニューラルネットワークを訓練し,超音波ガイド下介入時の前立腺運動を予測することを提案する。 本応用では, 解剖学的領域を表すために, セグメント化術前MR画像から非構造点をサンプリングする。 点集合は点固有の材料特性と変位荷重に割り当てられ、非順序の入力特徴ベクトルを形成する。 適応されたPointNetは、有限要素(FE)シミュレーションを地平線データとして使用して、夜間変位を予測することができる。 さらに、トレーニング時ブートストラップサンプリングと平均推定モデルからなる、異なる患者ジオメトリによる特徴ベクトルの変動数に対応するために、多目的ブートストラップ集約機構を検証した。 これにより、被験者固有のソリッドメッシュを必要とせずに、FE溶液を高速かつ正確に近似することができる。 320名の患者の臨床像データに対する160,000個の非線形FEシミュレーションに基づいて, トレーニングされたネットワークは, ホールドアウト患者セグメンテーションから直接サンプリングされた非構造点集合に一般化し, 予測された結節変位においてほぼリアルタイムに推定され, 予測誤差は0.017mmであった。

In this paper, we propose to train deep neural networks with biomechanical simulations, to predict the prostate motion encountered during ultrasound-guided interventions. In this application, unstructured points are sampled from segmented pre-operative MR images to represent the anatomical regions of interest. The point sets are then assigned with point-specific material properties and displacement loads, forming the un-ordered input feature vectors. An adapted PointNet can be trained to predict the nodal displacements, using finite element (FE) simulations as ground-truth data. Furthermore, a versatile bootstrap aggregating mechanism is validated to accommodate the variable number of feature vectors due to different patient geometries, comprised of a training-time bootstrap sampling and a model averaging inference. This results in a fast and accurate approximation to the FE solutions without requiring subject-specific solid meshing. Based on 160,000 nonlinear FE simulations on clinical imaging data from 320 patients, we demonstrate that the trained networks generalise to unstructured point sets sampled directly from holdout patient segmentation, yielding a near real-time inference and an expected error of 0.017 mm in predicted nodal displacement.
翻訳日:2022-11-12 04:08:46 公開日:2020-07-09
# 尻尾のアタック: はい 連合学習をバックドアで

Attack of the Tails: Yes, You Really Can Backdoor Federated Learning ( http://arxiv.org/abs/2007.05084v1 )

ライセンス: Link先を確認
Hongyi Wang, Kartik Sreenivasan, Shashank Rajput, Harit Vishwakarma, Saurabh Agarwal, Jy-yong Sohn, Kangwook Lee, Dimitris Papailiopoulos(参考訳) 分散学習(federated learning, ffl)は、その性質上、訓練中のバックドアという形での敵の攻撃に寄与する。 バックドアの目標は、訓練されたモデルの特定のサブタスク(例えば、グリーンカーをカエルとして分類することで)のパフォーマンスを損なうことである。 文献には様々なFLバックドア攻撃が紹介されているが、それらに対して防御する方法もあり、現在、FLシステムはバックドアに対して堅牢であるように調整できるかどうか、未解決の問題である。 この作品では、我々は反対の証拠を提示する。 まず、一般的に、バックドアへのロバスト性は、敵の例に対するモデルのロバスト性を意味するが、それ自体は大きなオープン問題である。 さらに、flモデルにおけるバックドアの存在を検出することは、一階のオラクルや多項式時間と仮定する可能性は低い。 理論的結果は、新たなバックドア攻撃のファミリーと組み合わせて、エッジケースバックドアと呼んでいる。 エッジケースのバックドアは、トレーニングの一部としてはありそうにない一見簡単な入力、すなわち入力分布の尾に生息するテストデータに対して、モデルに誤った分類を強制する。 これらのエッジケースのバックドアが不便な失敗を招き、フェアネスに深刻な反感を与える可能性があることを説明し、敵側の注意深いチューニングによって、さまざまな機械学習タスク(画像分類、OCR、テキスト予測、感情分析など)にそれらを挿入できることを示す。

Due to its decentralized nature, Federated Learning (FL) lends itself to adversarial attacks in the form of backdoors during training. The goal of a backdoor is to corrupt the performance of the trained model on specific sub-tasks (e.g., by classifying green cars as frogs). A range of FL backdoor attacks have been introduced in the literature, but also methods to defend against them, and it is currently an open question whether FL systems can be tailored to be robust against backdoors. In this work, we provide evidence to the contrary. We first establish that, in the general case, robustness to backdoors implies model robustness to adversarial examples, a major open problem in itself. Furthermore, detecting the presence of a backdoor in a FL model is unlikely assuming first order oracles or polynomial time. We couple our theoretical results with a new family of backdoor attacks, which we refer to as edge-case backdoors. An edge-case backdoor forces a model to misclassify on seemingly easy inputs that are however unlikely to be part of the training, or test data, i.e., they live on the tail of the input distribution. We explain how these edge-case backdoors can lead to unsavory failures and may have serious repercussions on fairness, and exhibit that with careful tuning at the side of the adversary, one can insert them across a range of machine learning tasks (e.g., image classification, OCR, text prediction, sentiment analysis).
翻訳日:2022-11-12 04:08:23 公開日:2020-07-09
# 注意に基づく顔生成のための残留音声画像モデル

Attention-based Residual Speech Portrait Model for Speech to Face Generation ( http://arxiv.org/abs/2007.04536v1 )

ライセンス: Link先を確認
Jianrong Wang, Xiaosheng Hu, Li Liu, Wei Liu, Mei Yu, Tianyi Xu(参考訳) 話者の話し方を考えると、この話者の顔を生成することができるかどうかが興味深い。 このタスクの主な課題は、顔と音声の自然なミスマッチを緩和することである。 そこで本研究では,残差の理想をハイブリッドエンコーダ・デコーダアーキテクチャに導入し,音声エンコーダの出力と顔前の特徴をマージして最終的な顔特徴を形成する,アテンションベースのResidual Speech Portrait Model(AR-SPM)を提案する。 特に,L2-ノルム,L1-ノルム,負コサイン損失の重み付き線形結合である三重項損失関数を革新的に確立し,最終顔特徴と真顔特徴を比較してモデルの訓練を行う。 avspeechデータセットの評価は,提案モデルがトレーニングの収束を加速し,生成した顔の質において最先端を上回り,基礎的真理と比較して性別と年齢の認識精度が優れていることを示す。

Given a speaker's speech, it is interesting to see if it is possible to generate this speaker's face. One main challenge in this task is to alleviate the natural mismatch between face and speech. To this end, in this paper, we propose a novel Attention-based Residual Speech Portrait Model (AR-SPM) by introducing the ideal of the residual into a hybrid encoder-decoder architecture, where face prior features are merged with the output of speech encoder to form the final face feature. In particular, we innovatively establish a tri-item loss function, which is a weighted linear combination of the L2-norm, L1-norm and negative cosine loss, to train our model by comparing the final face feature and true face feature. Evaluation on AVSpeech dataset shows that our proposed model accelerates the convergence of training, outperforms the state-of-the-art in terms of quality of the generated face, and achieves superior recognition accuracy of gender and age compared with the ground truth.
翻訳日:2022-11-12 04:07:54 公開日:2020-07-09
# 対向画像の効率的な検出

Efficient detection of adversarial images ( http://arxiv.org/abs/2007.04564v1 )

ライセンス: Link先を確認
Darpan Kumar Yadav, Kartik Mundra, Rahul Modpur, Arpan Chattopadhyay and Indra Narayan Kar(参考訳) 本稿では,自律型およびサイバー物理システムにおけるディープニューラルネットワーク(DNN)に基づく画像分類による偽造攻撃の検出について考察する。 いくつかの研究は、悪意のある詐欺攻撃に対するDNNの脆弱性を示している。 このような攻撃では、画像の画素値の一部または全ては外部攻撃者によって修正されるため、変更はほとんど人間の目では見えないが、DNNベースの分類器がそれを誤分類するには十分である。 本稿では,DNNベースの画像分類器とアタッカーモデルを用いて,このような修正画像の検出を容易にする新しい前処理手法を提案する。 提案する前処理アルゴリズムは、主成分分析(pca)に基づく画像の分解とランダム摂動に基づく検出を組み合わせて計算複雑性を低減する。 次に、このアルゴリズムの適応バージョンを提案し、二重閾値ポリシーを用いてランダムな数の摂動を適応的に選択し、そのしきい値が確率近似によって学習され、誤報や検出確率の欠落に制約された摂動の期待数を最小化する。 数値実験により,提案手法は計算複雑性を十分低く抑えながら,競合するアルゴリズムより優れていることが示された。

In this paper, detection of deception attack on deep neural network (DNN) based image classification in autonomous and cyber-physical systems is considered. Several studies have shown the vulnerability of DNN to malicious deception attacks. In such attacks, some or all pixel values of an image are modified by an external attacker, so that the change is almost invisible to the human eye but significant enough for a DNN-based classifier to misclassify it. This paper first proposes a novel pre-processing technique that facilitates the detection of such modified images under any DNN-based image classifier as well as the attacker model. The proposed pre-processing algorithm involves a certain combination of principal component analysis (PCA)-based decomposition of the image, and random perturbation based detection to reduce computational complexity. Next, an adaptive version of this algorithm is proposed where a random number of perturbations are chosen adaptively using a doubly-threshold policy, and the threshold values are learnt via stochastic approximation in order to minimize the expected number of perturbations subject to constraints on the false alarm and missed detection probabilities. Numerical experiments show that the proposed detection scheme outperforms a competing algorithm while achieving reasonably low computational complexity.
翻訳日:2022-11-12 04:06:52 公開日:2020-07-09
# 未知カメラ内在性と歪み係数を用いたクラウドソーシング3次元トラヒックサイン位置決め

Monocular Vision based Crowdsourced 3D Traffic Sign Positioning with Unknown Camera Intrinsics and Distortion Coefficients ( http://arxiv.org/abs/2007.04592v1 )

ライセンス: Link先を確認
Hemang Chawla, Matti Jukola, Elahe Arani, and Bahram Zonooz(参考訳) 自動運転車と運転支援システムは、3Dセマンティックなランドマークの地図を利用して意思決定を改善する。 しかし、マッピングプロセスのスケーリングや、そのようなマップの定期的な更新には、膨大なコストがかかる。 交通標識の位置のようなこれらのランドマークのクラウドソーシングマッピングは、魅力的な代替手段となります。 クラウドソースマッピングに対する最先端のアプローチでは、地上の真理カメラパラメータが使用されている。 本研究では,カメラの焦点長,主点,歪み係数を事前に知ることなく3次元トラヒックサイン位置を計算する手法を提案する。 提案手法をKITTIにおける交通標識の公開データセット上で検証する。 単色カメラとGPSのみを用いて、平均的な1回の移動距離と絶対位置の精度をそれぞれ0.26mと1.38mとする。

Autonomous vehicles and driver assistance systems utilize maps of 3D semantic landmarks for improved decision making. However, scaling the mapping process as well as regularly updating such maps come with a huge cost. Crowdsourced mapping of these landmarks such as traffic sign positions provides an appealing alternative. The state-of-the-art approaches to crowdsourced mapping use ground truth camera parameters, which may not always be known or may change over time. In this work, we demonstrate an approach to computing 3D traffic sign positions without knowing the camera focal lengths, principal point, and distortion coefficients a priori. We validate our proposed approach on a public dataset of traffic signs in KITTI. Using only a monocular color camera and GPS, we achieve an average single journey relative and absolute positioning accuracy of 0.26 m and 1.38 m, respectively.
翻訳日:2022-11-12 04:06:31 公開日:2020-07-09
# JBFnet -- トレーニング可能な双方向フィルタによる低線量CT

JBFnet -- Low Dose CT Denoising by Trainable Joint Bilateral Filtering ( http://arxiv.org/abs/2007.04754v1 )

ライセンス: Link先を確認
Mayank Patwari, Ralf Gutjahr, Rainer Raupach, Andreas Maier(参考訳) 深層ニューラルネットワークは低線量ctで大きな成功を収めている。 しかし、これらのディープニューラルネットワークのほとんどは、数十万のトレーニング可能なパラメータを持つ。 これにより、ニューラルネットワーク固有の非線形性と組み合わせることで、深いニューラルネットワークは説明責任を低く理解しやすくなる。 本研究では低線量CT用ニューラルネットワークであるJBFnetを紹介する。 JBFnetのアーキテクチャは繰り返し二元フィルタリングを実装している。 ジョイントバイラテラルフィルタ(jbf)のフィルタ機能は、浅い畳み込みネットワークを通じて学習される。 誘導画像はディープニューラルネットワークによって推定される。 JBFnetは4つのフィルタブロックに分割され、それぞれがジョイントバイラテラルフィルタを実行する。 各JBFブロックは112のトレーニング可能なパラメータで構成されており、ノイズ除去プロセスは理解可能である。 ノイズマップ(NM)は、高次特徴を保存するためにフィルタ後に追加される。 我々は10名の患者の身体スキャンデータを用いてjbfnetを訓練し、aapm low dose ct grand challengeデータセットでテストした。 JBFnetと最先端のディープラーニングネットワークを比較した。 JBFnetは、CPCE3D、GAN、ディープGFnetを、構造を保ちながらノイズ除去の観点から上回る。 我々は,ネットワークアーキテクチャとトレーニング手法の性能をテストするため,いくつかのアブレーション研究を行っている。 現在のセットアップでは、動作説明責任を維持しながら、最高のパフォーマンスを実現しています。

Deep neural networks have shown great success in low dose CT denoising. However, most of these deep neural networks have several hundred thousand trainable parameters. This, combined with the inherent non-linearity of the neural network, makes the deep neural network diffcult to understand with low accountability. In this study we introduce JBFnet, a neural network for low dose CT denoising. The architecture of JBFnet implements iterative bilateral filtering. The filter functions of the Joint Bilateral Filter (JBF) are learned via shallow convolutional networks. The guidance image is estimated by a deep neural network. JBFnet is split into four filtering blocks, each of which performs Joint Bilateral Filtering. Each JBF block consists of 112 trainable parameters, making the noise removal process comprehendable. The Noise Map (NM) is added after filtering to preserve high level features. We train JBFnet with the data from the body scans of 10 patients, and test it on the AAPM low dose CT Grand Challenge dataset. We compare JBFnet with state-of-the-art deep learning networks. JBFnet outperforms CPCE3D, GAN and deep GFnet on the test dataset in terms of noise removal while preserving structures. We conduct several ablation studies to test the performance of our network architecture and training method. Our current setup achieves the best performance, while still maintaining behavioural accountability.
翻訳日:2022-11-12 04:06:17 公開日:2020-07-09
# 結合型バイラテラルフィルタとインテリジェントパラメータ最適化による低線量CT診断

Low Dose CT Denoising via Joint Bilateral Filtering and Intelligent Parameter Optimization ( http://arxiv.org/abs/2007.04768v1 )

ライセンス: Link先を確認
Mayank Patwari, Ralf Gutjahr, Rainer Raupach, Andreas Maier(参考訳) 臨床CT画像の復調は深層学習研究の活発な領域である。 現在の臨床試験では,CT画像のノイズ低減に反復的再構成法が用いられている。 反復的再構成技術は、時間と計算コストのかかる複数の前方および後方投影を必要とする。 近年,CT画像の難読化に深層学習が成功している。 しかし、従来のディープラーニング手法は「ブラックボックス」の問題に苦しんでいる。 それらは説明責任が低く、臨床画像の状況での使用には必要である。 本稿では,JBF (Joint Bilateral Filter) を用いてCT画像の識別を行う。 JBFの誘導画像は、ディープ残差畳み込みニューラルネットワーク(CNN)を用いて推定される。 JBFのレンジ平滑化および空間平滑化パラメータは、深い強化学習タスクによって調整される。 アクターは最初にパラメータを選択し、その後パラメータの値をチューニングするアクションを選択します。 報酬ネットワークは強化学習タスクを指示するために設計されている。 提案手法は,構造情報を保持しつつ,優れたデノージング性能を示す。 本手法は深層ニューラルネットワークの精度を著しく向上させる。 さらに,本手法は2つのパラメータしか持たず,より解釈しやすく,「ブラックボックス」問題を低減した。 我々は知的パラメータ最適化と報酬ネットワークの効果を実験的に測定した。 本研究は, 構造保存の観点から, 現状の設備が最適であることを示す。

Denoising of clinical CT images is an active area for deep learning research. Current clinically approved methods use iterative reconstruction methods to reduce the noise in CT images. Iterative reconstruction techniques require multiple forward and backward projections, which are time-consuming and computationally expensive. Recently, deep learning methods have been successfully used to denoise CT images. However, conventional deep learning methods suffer from the 'black box' problem. They have low accountability, which is necessary for use in clinical imaging situations. In this paper, we use a Joint Bilateral Filter (JBF) to denoise our CT images. The guidance image of the JBF is estimated using a deep residual convolutional neural network (CNN). The range smoothing and spatial smoothing parameters of the JBF are tuned by a deep reinforcement learning task. Our actor first chooses a parameter, and subsequently chooses an action to tune the value of the parameter. A reward network is designed to direct the reinforcement learning task. Our denoising method demonstrates good denoising performance, while retaining structural information. Our method significantly outperforms state of the art deep neural networks. Moreover, our method has only two parameters, which makes it significantly more interpretable and reduces the 'black box' problem. We experimentally measure the impact of our intelligent parameter optimization and our reward network. Our studies show that our current setup yields the best results in terms of structural preservation.
翻訳日:2022-11-12 04:06:01 公開日:2020-07-09
# AI(Luskin)における公平性のための透明性ツール

Transparency Tools for Fairness in AI (Luskin) ( http://arxiv.org/abs/2007.04484v1 )

ライセンス: Link先を確認
Mingliang Chen, Aria Shahverdi, Sarah Anderson, Se Yong Park, Justin Zhang, Dana Dachman-Soled, Kristin Lauter, Min Wu(参考訳) 本稿では,aiアルゴリズムにおける公平性とバイアスの評価と修正に使用するポリシメーカのための新しいツールを提案する。 3つのツールは以下のとおりである。 - 保護された特徴とフィルタの選択に関して「制御された公正」と呼ばれる新しい公正の定義。 この定義は、データセットに関するアルゴリズムの公平性の簡単なテストを提供する。 この公平性の概念は、正確性よりも公平性が優先される場合、例えば「根拠真理」データがない場合、過去の決定でラベル付けされたデータのみ(偏りがあったかもしれない)に適合する。 -特徴やフィルタの選択に関して「制御された公平性」を達成するために与えられた分類器を再訓練するアルゴリズム。 2つのアルゴリズムが提示され、実装され、テストされる。 これらのアルゴリズムは2段階の異なるモデルを訓練する必要がある。 我々は,第1ステージと第2ステージの様々なモデルの組み合わせを実験し,公正さと精度の観点からどの組み合わせが最適かを報告する。 -「分類パリティ」と呼ばれる公平性の概念を達成するためにモデルパラメータを調整するアルゴリズム。 この公平性の概念は、精度が優先される場合に適している。 2つのアルゴリズムが提示され、1つは、テスト中に保護された機能がモデルにアクセス可能であると仮定し、もう1つは、保護された機能がテスト中にアクセスできないと仮定する。 ツールを3つの異なる公開データセットで評価する。 これらのツールは様々なバイアスの次元を理解するのに有用であり、実際に新しいデータでテストした場合、与えられたバイアスを著しく低減するアルゴリズムが有効であることがわかった。

We propose new tools for policy-makers to use when assessing and correcting fairness and bias in AI algorithms. The three tools are: - A new definition of fairness called "controlled fairness" with respect to choices of protected features and filters. The definition provides a simple test of fairness of an algorithm with respect to a dataset. This notion of fairness is suitable in cases where fairness is prioritized over accuracy, such as in cases where there is no "ground truth" data, only data labeled with past decisions (which may have been biased). - Algorithms for retraining a given classifier to achieve "controlled fairness" with respect to a choice of features and filters. Two algorithms are presented, implemented and tested. These algorithms require training two different models in two stages. We experiment with combinations of various types of models for the first and second stage and report on which combinations perform best in terms of fairness and accuracy. - Algorithms for adjusting model parameters to achieve a notion of fairness called "classification parity". This notion of fairness is suitable in cases where accuracy is prioritized. Two algorithms are presented, one which assumes that protected features are accessible to the model during testing, and one which assumes protected features are not accessible during testing. We evaluate our tools on three different publicly available datasets. We find that the tools are useful for understanding various dimensions of bias, and that in practice the algorithms are effective in starkly reducing a given observed bias when tested on new data.
翻訳日:2022-11-12 03:59:59 公開日:2020-07-09
# 凸凸min-max最適化の高次法と単調変分不等式

Higher-order methods for convex-concave min-max optimization and monotone variational inequalities ( http://arxiv.org/abs/2007.04528v1 )

ライセンス: Link先を確認
Brian Bullins and Kevin A. Lai(参考訳) 制約付き凸凹 min-max 問題に対する収束率の改善と高次滑らかな単調変分不等式を提供する。 p^{th}$次微分がリプシッツ連続であるmin-maxの設定では、$p^{th}$次方程式の不動点を見つけるためにオラクルへのアクセスが与えられると、反復複雑性が$o(1/t^{\frac{p+1}{2}}) となるアルゴリズムhigherordermirrorproxを与える。 弱単調変分不等式問題に対して類似率を与える。 p>2$の場合、nemirovski [2004] の 1-order mirror prox 法と monteiro と svaiter [2012] の 2-order method の反復複雑性を改善する。 さらに、制約のない$p=2$ケースでアルゴリズム全体をインスタンス化する。

We provide improved convergence rates for constrained convex-concave min-max problems and monotone variational inequalities with higher-order smoothness. In min-max settings where the $p^{th}$-order derivatives are Lipschitz continuous, we give an algorithm HigherOrderMirrorProx that achieves an iteration complexity of $O(1/T^{\frac{p+1}{2}})$ when given access to an oracle for finding a fixed point of a $p^{th}$-order equation. We give analogous rates for the weak monotone variational inequality problem. For $p>2$, our results improve upon the iteration complexity of the first-order Mirror Prox method of Nemirovski [2004] and the second-order method of Monteiro and Svaiter [2012]. We further instantiate our entire algorithm in the unconstrained $p=2$ case.
翻訳日:2022-11-12 03:59:13 公開日:2020-07-09
# NTKを超える過パラメータ2層ReLUニューラルネットワークの学習

Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK ( http://arxiv.org/abs/2007.04596v1 )

ライセンス: Link先を確認
Yuanzhi Li, Tengyu Ma, Hongyang R. Zhang(参考訳) 2層ニューラルネットワークを学習する際の勾配降下のダイナミクスを考察する。 入力 $x\in\mathbb{R}^d$ はガウス分布から引き出され、$x$ satisfies $f^{\star}(x) = a^{\top}|W^{\star}x|$, ここで $a\in\mathbb{R}^d$ は非負ベクトル、$W^{\star} \in\mathbb{R}^{d\times d}$ は正則正規行列である。 ランダム初期化からの勾配降下によって学習されたrelu活性化を持つ超パラメータ2層ニューラルネットワークは、多項式サンプルを用いた多項式時間で最大$o(1/d)$の人口損失を持つ基底真理ネットワークを確実に学習できる。 一方、Neural Tangent Kernelを含むカーネル手法は、$d$の多項式数を持つ場合、少なくとも$\Omega(1 / d)$の人口減少があることを示す。

We consider the dynamic of gradient descent for learning a two-layer neural network. We assume the input $x\in\mathbb{R}^d$ is drawn from a Gaussian distribution and the label of $x$ satisfies $f^{\star}(x) = a^{\top}|W^{\star}x|$, where $a\in\mathbb{R}^d$ is a nonnegative vector and $W^{\star} \in\mathbb{R}^{d\times d}$ is an orthonormal matrix. We show that an over-parametrized two-layer neural network with ReLU activation, trained by gradient descent from random initialization, can provably learn the ground truth network with population loss at most $o(1/d)$ in polynomial time with polynomial samples. On the other hand, we prove that any kernel method, including Neural Tangent Kernel, with a polynomial number of samples in $d$, has population loss at least $\Omega(1 / d)$.
翻訳日:2022-11-12 03:58:13 公開日:2020-07-09
# asdを持つティーンエイジャーのための自動ジェスチャー模倣ゲームの構築

Building an Automated Gesture Imitation Game for Teenagers with ASD ( http://arxiv.org/abs/2007.04604v1 )

ライセンス: Link先を確認
Linda Nanan Vall\'ee (ESATIC), Christophe Lohr, Sao Mai Nguyen (IMT Atlantique), Ioannis Kanellos (IMT Atlantique - INFO), O. Asseu (ESATIC)(参考訳) 自閉症スペクトラム障害(Autism spectrum disorder)は、コミュニケーションや社会的相互作用の問題を含む神経発達状態である。 ASDを持つ人は、しばしば興味や反復行動に制限がある。 本稿では,ASDを持つ10代の若者との社会的交流を改善することを目的とした,自動ジェスチャー模倣ゲームの予備的ブロックを構築する。 ゲームの構造や、スケルトン検出や模倣学習のための支援ツールや方法が提示されている。 ゲームは後に対話型ロボットを用いて実施される。

Autism spectrum disorder is a neurodevelopmental condition that includes issues with communication and social interactions. People with ASD also often have restricted interests and repetitive behaviors. In this paper we build preliminary bricks of an automated gesture imitation game that will aim at improving social interactions with teenagers with ASD. The structure of the game is presented, as well as support tools and methods for skeleton detection and imitation learning. The game shall later be implemented using an interactive robot.
翻訳日:2022-11-12 03:57:51 公開日:2020-07-09
# 空間効率モデルにおける確率的値選択

Probabilistic Value Selection for Space Efficient Model ( http://arxiv.org/abs/2007.04641v1 )

ライセンス: Link先を確認
Gunarto Sindoro Njoo, Baihua Zheng, Kuo-Wei Hsu, and Wen-Chih Peng(参考訳) 現在の主流のプリプロセッシング手法の代替として、Value Selection (VS) が提案されている。 インスタンスを削除する機能やインスタンス選択を削除する機能選択のような既存の方法とは異なり、バリューセレクションはデータセット内の値(各機能に関して)を2つの目的で削除する。 情報理論の計量に基づく2つの確率的手法が提案されている: PVS と P + VS。 これらの結果は、機能選択、特徴変換、インスタンス選択といった既存の前処理方法と比較される。 実験結果から,値選択は精度とモデルサイズ削減のバランスがとれることがわかった。

An alternative to current mainstream preprocessing methods is proposed: Value Selection (VS). Unlike the existing methods such as feature selection that removes features and instance selection that eliminates instances, value selection eliminates the values (with respect to each feature) in the dataset with two purposes: reducing the model size and preserving its accuracy. Two probabilistic methods based on information theory's metric are proposed: PVS and P + VS. Extensive experiments on the benchmark datasets with various sizes are elaborated. Those results are compared with the existing preprocessing methods such as feature selection, feature transformation, and instance selection methods. Experiment results show that value selection can achieve the balance between accuracy and model size reduction.
翻訳日:2022-11-12 03:57:44 公開日:2020-07-09
# 効率的な最適化のための資源認識多要素アクティブラーニング

Resource Aware Multifidelity Active Learning for Efficient Optimization ( http://arxiv.org/abs/2007.04674v1 )

ライセンス: Link先を確認
Francesco Grassi, Giorgio Manganini, Michele Garraffa, Laura Mainini(参考訳) ブラックボックス最適化の伝統的な手法は、正確な表現と高価なモデルに依存する多くのエンジニアリングアプリケーションにおいて、時間消費、非実用的、しばしば実現不可能な、かなりの数の評価を必要とする。 ベイズ最適化(bo)法は探索経路に沿って目的関数のサロゲートモデルを段階的に(アクティブに)学習することで大域的最適を探索する。 ベイズ最適化は、計算的に安価に評価できるが、検索タスクに関連情報を提供する対象関数の複数のブラックボックス近似を利用するマルチフィデリティアプローチによって加速することができる。 さらなる計算上の利点は、並列および分散コンピューティングアーキテクチャの可用性によって提供され、最適な使用法はアクティブラーニングの文脈におけるオープンな機会である。 本稿では,ブラックボックス関数の最適化を高速化する多要素ベイズ方式であるResource Aware Active Learning (RAAL)戦略を紹介する。 各最適化ステップにおいて、raalプロシージャは、限られた計算予算を考慮しつつ、目的関数の並列/分散評価中に取得する情報ゲインを最大化する最良サンプル位置と関連する忠実度源のセットを算出する。 このスキームは様々なベンチマーク問題に対して実証され、結果は単一忠実度と複数忠実度の設定の両方で議論される。 特に、RAAL戦略は、最適化タスクの大幅な高速化を可能にするため、各イテレーションで複数の点を最適にシードする。

Traditional methods for black box optimization require a considerable number of evaluations which can be time consuming, unpractical, and often unfeasible for many engineering applications that rely on accurate representations and expensive models to evaluate. Bayesian Optimization (BO) methods search for the global optimum by progressively (actively) learning a surrogate model of the objective function along the search path. Bayesian optimization can be accelerated through multifidelity approaches which leverage multiple black-box approximations of the objective functions that can be computationally cheaper to evaluate, but still provide relevant information to the search task. Further computational benefits are offered by the availability of parallel and distributed computing architectures whose optimal usage is an open opportunity within the context of active learning. This paper introduces the Resource Aware Active Learning (RAAL) strategy, a multifidelity Bayesian scheme to accelerate the optimization of black box functions. At each optimization step, the RAAL procedure computes the set of best sample locations and the associated fidelity sources that maximize the information gain to acquire during the parallel/distributed evaluation of the objective function, while accounting for the limited computational budget. The scheme is demonstrated for a variety of benchmark problems and results are discussed for both single fidelity and multifidelity settings. In particular we observe that the RAAL strategy optimally seeds multiple points at each iteration allowing for a major speed up of the optimization task.
翻訳日:2022-11-12 03:57:33 公開日:2020-07-09
# ベイズ学習則を用いたバイナリシナプス付き制限ボルツマン機械の訓練

Training Restricted Boltzmann Machines with Binary Synapses using the Bayesian Learning Rule ( http://arxiv.org/abs/2007.04676v1 )

ライセンス: Link先を確認
Xiangming Meng(参考訳) 低精度シナプスを持つ制限ボルツマン機械(RBM)は高エネルギー効率で非常に魅力的である。 しかし,バイナリシナプスを用いたrbmsの訓練は,シナプスの離散的な性質から困難である。 最近Huang氏は、変分推論フレームワークの下で勾配上昇とメッセージパッシングアルゴリズムの組み合わせを用いて、バイナリシナプスでRBMを訓練する1つの効率的な方法を提案した。 しかし,追加のヒューリスティッククリッピング操作が必要である。 本稿では,huangの研究に着想を得て,自然勾配変分推定法の一つであるベイズ学習則を用いた代替最適化手法を提案する。 黄の手法とは対照的に, 変動対称ベルヌーイ分布の自然パラメータを期待パラメータよりもむしろ更新する。 自然パラメータは実領域全体の値を取るので、追加のクリッピングは不要である。 興味深いことに、 \cite{huang2019data} のアルゴリズムは提案アルゴリズムの一階近似と見なすことができ、ヒューリスティックなクリッピングの有効性を正当化することができる。

Restricted Boltzmann machines (RBMs) with low-precision synapses are much appealing with high energy efficiency. However, training RBMs with binary synapses is challenging due to the discrete nature of synapses. Recently Huang proposed one efficient method to train RBMs with binary synapses by using a combination of gradient ascent and the message passing algorithm under the variational inference framework. However, additional heuristic clipping operation is needed. In this technical note, inspired from Huang's work , we propose one alternative optimization method using the Bayesian learning rule, which is one natural gradient variational inference method. As opposed to Huang's method, we update the natural parameters of the variational symmetric Bernoulli distribution rather than the expectation parameters. Since the natural parameters take values in the entire real domain, no additional clipping is needed. Interestingly, the algorithm in \cite{huang2019data} could be viewed as one first-order approximation of the proposed algorithm, which justifies its efficacy with heuristic clipping.
翻訳日:2022-11-12 03:57:09 公開日:2020-07-09
# PointMask: 解釈可能でバイアス耐性のあるポイントクラウド処理を目指す

PointMask: Towards Interpretable and Bias-Resilient Point Cloud Processing ( http://arxiv.org/abs/2007.04525v1 )

ライセンス: Link先を確認
Saeid Asgari Taghanaki, Kaveh Hassani, Pradeep Kumar Jayaraman, Amir Hosein Khasahmadi, Tonya Custis(参考訳) 深層分類器は、いくつかの識別的な入力変数と目的関数を関連付ける傾向があり、それによって一般化能力が損なわれる。 これに対処するために、システマティックな実験をデザインしたり、解釈可能性メソッドを通じてモデルを検査したりすることができる。 本稿では,これら2つの戦略について,ポイントクラウド上で動作する深層モデルについて検討する。 ポイントクラウドモデルにおける帰属に対するモデル非依存な解釈可能な情報ボトルネックアプローチであるpointmaskを提案する。 ポイントマスクは、徐々に一般的な解に収束しながら、入力空間の変動係数の大部分を探索することを奨励する。 より具体的に言うと、PointMaskは、無関係な変数をマスクするのに使われる入力と潜在機能の間の相互情報を最小化する正規化用語を導入している。 任意のモデルとポイントマスク層を結合することで、予測スコアに最も寄与する入力空間内の点を識別し、解釈可能となることを示す。 また, 設計バイアス実験により, 漸進的マスキング機能により, 提案手法がデータバイアスの処理に有効であることを示す。

Deep classifiers tend to associate a few discriminative input variables with their objective function, which in turn, may hurt their generalization capabilities. To address this, one can design systematic experiments and/or inspect the models via interpretability methods. In this paper, we investigate both of these strategies on deep models operating on point clouds. We propose PointMask, a model-agnostic interpretable information-bottleneck approach for attribution in point cloud models. PointMask encourages exploring the majority of variation factors in the input space while gradually converging to a general solution. More specifically, PointMask introduces a regularization term that minimizes the mutual information between the input and the latent features used to masks out irrelevant variables. We show that coupling a PointMask layer with an arbitrary model can discern the points in the input space which contribute the most to the prediction score, thereby leading to interpretability. Through designed bias experiments, we also show that thanks to its gradual masking feature, our proposed method is effective in handling data bias.
翻訳日:2022-11-12 03:50:29 公開日:2020-07-09
# 画像から画像への変換におけるスタイル内容の絡み合いの改善

Improving Style-Content Disentanglement in Image-to-Image Translation ( http://arxiv.org/abs/2007.04964v1 )

ライセンス: Link先を確認
Aviv Gabbay and Yedid Hoshen(参考訳) 教師なしの画像から画像への翻訳手法は近年大きな成功を収めている。 しかし、これらのモデルには翻訳性能を損なう重要な絡み合いがあることは容易に観察できる。 本研究では,画像から画像への変換におけるスタイル内容の絡み合いを改善するための原則的アプローチを提案する。 各表現への情報の流れを考慮することで、コンテンツボトルネックとして機能する追加の損失項を導入する。 提案手法は,現在の手法で生成した手法よりもかなり不連続であり,さらに視覚品質や翻訳の多様性も向上した。

Unsupervised image-to-image translation methods have achieved tremendous success in recent years. However, it can be easily observed that their models contain significant entanglement which often hurts the translation performance. In this work, we propose a principled approach for improving style-content disentanglement in image-to-image translation. By considering the information flow into each of the representations, we introduce an additional loss term which serves as a content-bottleneck. We show that the results of our method are significantly more disentangled than those produced by current methods, while further improving the visual quality and translation diversity.
翻訳日:2022-11-12 03:50:12 公開日:2020-07-09
# 空間的インフォームド肺組織学習に基づく肺気腫の新しいサブタイプ

Novel Subtypes of Pulmonary Emphysema Based on Spatially-Informed Lung Texture Learning ( http://arxiv.org/abs/2007.04978v1 )

ライセンス: Link先を確認
Jie Yang, Elsa D. Angelini, Pallavi P. Balte, Eric A. Hoffman, John H.M. Austin, Benjamin M. Smith, R. Graham Barr, and Andrew F. Laine(参考訳) 肺気腫は慢性閉塞性肺疾患(copd)とかなり重複しており、伝統的に3つの亜型に分類される。 CT(Computed tomography)における気腫サブタイプの教師なし学習は、気腫サブタイプの新たな定義への道を開き、徹底的な手動ラベリングの必要性を排除する。 しかし,CTによる気腫のサブタイプは空間的位置を考慮せずにテクスチャベースのパターンに制限されている。 本研究では,肺のテクスチャ位置を定量的に研究するための標準化された空間マッピングを提案するとともに,空間情報とテクスチャ情報を組み合わせて,新しい気腫のサブタイプを表す空間的インフォームド肺テクスチャパターン(sLTP)を発見するための新しい枠組みを提案する。 MESA COPD と EMCAP によるフル肺CTの2つのコホートを探索し,その空間マッピングにより,肺気腫の空間的位置を全人口で調査できることを示した。 次に,MESA COPDで発見されたsLTPの特性を評価し,再現性を示し,標準的な気腫のサブタイプをコード化でき,生理的症状と関連していることを示した。

Pulmonary emphysema overlaps considerably with chronic obstructive pulmonary disease (COPD), and is traditionally subcategorized into three subtypes previously identified on autopsy. Unsupervised learning of emphysema subtypes on computed tomography (CT) opens the way to new definitions of emphysema subtypes and eliminates the need of thorough manual labeling. However, CT-based emphysema subtypes have been limited to texture-based patterns without considering spatial location. In this work, we introduce a standardized spatial mapping of the lung for quantitative study of lung texture location, and propose a novel framework for combining spatial and texture information to discover spatially-informed lung texture patterns (sLTPs) that represent novel emphysema subtypes. Exploiting two cohorts of full-lung CT scans from the MESA COPD and EMCAP studies, we first show that our spatial mapping enables population-wide study of emphysema spatial location. We then evaluate the characteristics of the sLTPs discovered on MESA COPD, and show that they are reproducible, able to encode standard emphysema subtypes, and associated with physiological symptoms.
翻訳日:2022-11-12 03:50:02 公開日:2020-07-09
# 給与予測のための$n$-reference transfer learning

$n$-Reference Transfer Learning for Saliency Prediction ( http://arxiv.org/abs/2007.05104v1 )

ライセンス: Link先を確認
Yan Luo, Yongkang Wong, Mohan S. Kankanhalli, and Qi Zhao(参考訳) ディープラーニングの研究と大規模なデータセットから恩恵を受けることで、この10年で大きな成功を収めた。 しかし、データハングリーモデルに十分なデータがない新しいドメインのイメージに対して、サリエンシマップを予測することは依然として困難である。 そこで本研究では,既存の大規模サリエンシデータセットから学習した知識を,限定的なラベル付き例で対象領域に効率的に転送する,サリエンシ予測のための数発転送学習パラダイムを提案する。 特に、ターゲットドメインの例はごくわずかであり、ソースドメインデータセットでモデルをトレーニングする参照として使われ、トレーニングプロセスがターゲットドメインに有利なローカル最小限に収束できるようにします。 そして、その参照により学習したモデルをさらに微調整する。 提案するフレームワークは勾配ベースでモデルに依存しない。 種々の源領域および対象領域対に関する包括的実験およびアブレーション研究を行う。 その結果,提案フレームワークの性能は大幅に向上した。 コードは \url{https://github.com/luoyan407/n-reference} で公開されている。

Benefiting from deep learning research and large-scale datasets, saliency prediction has achieved significant success in the past decade. However, it still remains challenging to predict saliency maps on images in new domains that lack sufficient data for data-hungry models. To solve this problem, we propose a few-shot transfer learning paradigm for saliency prediction, which enables efficient transfer of knowledge learned from the existing large-scale saliency datasets to a target domain with limited labeled examples. Specifically, very few target domain examples are used as the reference to train a model with a source domain dataset such that the training process can converge to a local minimum in favor of the target domain. Then, the learned model is further fine-tuned with the reference. The proposed framework is gradient-based and model-agnostic. We conduct comprehensive experiments and ablation study on various source domain and target domain pairs. The results show that the proposed framework achieves a significant performance improvement. The code is publicly available at \url{https://github.com/luoyan407/n-reference}.
翻訳日:2022-11-12 03:49:27 公開日:2020-07-09
# 製品質問に対する信頼性の低いレビューを拒否する

Less is More: Rejecting Unreliable Reviews for Product Question Answering ( http://arxiv.org/abs/2007.04526v1 )

ライセンス: Link先を確認
Shiwei Zhang, Xiuzhen Zhang, Jey Han Lau, Jeffrey Chan, and Cecile Paris(参考訳) 製品に関する質問を迅速かつ正確に答えることは、eコマースアプリケーションにとって重要である。 手動で製品質問に答える(例えば、コミュニティの質問に答えるプラットフォーム)と、反応が遅くスケールしない。 最近の研究では、製品レビューがリアルタイムの自動製品質問応答(pqa)に適した情報源であることが示されている。 文献では、PQAは検索問題として定式化され、最も関連性の高いレビューを検索して、与えられた製品質問に答えることを目的としている。 本稿では、レビューを用いたPQAの回答可能性と回答信頼性の問題に焦点を当てる。 我々の調査は、多くの質問が限定的なレビューで答えられないという直感に基づいている。 質問が回答できない場合、システムは無関係なレビューのリストを提供するのではなく、nilの回答を返すべきである。 さらに、回答可能な質問に対しては、質問に回答する最も関連するレビューのみを結果に含めるべきである。 本稿では,PQAシステムの信頼性を向上させるための適合予測に基づくフレームワークを提案する。このフレームワークでは,不確実な質問に対する nil 回答の返却を含む,返却結果がより簡潔で正確であるように,信頼できない回答を拒否する。 広く使われているAmazonデータセットの実験は、提案したフレームワークの結果を奨励している。 より広い意味では,コンフォメーション法を検索タスクに新規かつ効果的に適用することを示す。

Promptly and accurately answering questions on products is important for e-commerce applications. Manually answering product questions (e.g. on community question answering platforms) results in slow response and does not scale. Recent studies show that product reviews are a good source for real-time, automatic product question answering (PQA). In the literature, PQA is formulated as a retrieval problem with the goal to search for the most relevant reviews to answer a given product question. In this paper, we focus on the issue of answerability and answer reliability for PQA using reviews. Our investigation is based on the intuition that many questions may not be answerable with a finite set of reviews. When a question is not answerable, a system should return nil answers rather than providing a list of irrelevant reviews, which can have significant negative impact on user experience. Moreover, for answerable questions, only the most relevant reviews that answer the question should be included in the result. We propose a conformal prediction based framework to improve the reliability of PQA systems, where we reject unreliable answers so that the returned results are more concise and accurate at answering the product question, including returning nil answers for unanswerable questions. Experiments on a widely used Amazon dataset show encouraging results of our proposed framework. More broadly, our results demonstrate a novel and effective application of conformal methods to a retrieval task.
翻訳日:2022-11-12 03:48:31 公開日:2020-07-09
# IoTのための無線ネットワークにおけるAIの課題

Challenges of AI in Wireless Networks for IoT ( http://arxiv.org/abs/2007.04705v1 )

ライセンス: Link先を確認
Ijaz Ahmad, Shahriar Shahabuddin, Tanesh Kumar, Erkki Harjula, Marcus Meisel, Markku Juntti, Thilo Sauter, Mika Ylianttila(参考訳) モノのインターネット(iot)は、次の産業革命の実現者として評価され、ユビキタスな接続、コンテキスト認識、動的サービスモビリティ、ワイヤレスネットワークインフラストラクチャを通じた極端なセキュリティを必要とする。 したがって、基盤となるネットワークインフラストラクチャにおいて、人工知能(AI)が重要な役割を果たします。 しかし、IoTが使用する無線ネットワークにおいて、AIの概念、ツール、アルゴリズムを使用することで、多くの課題が浮かび上がる。 本稿では、エンドツーエンドのiot通信を容易にするワイヤレスネットワークインフラストラクチャでaiを使用する際の主な課題を、潜在的な汎用ソリューションと今後の研究方向で強調する。

The Internet of Things (IoT), hailed as the enabler of the next industrial revolution, will require ubiquitous connectivity, context-aware and dynamic service mobility, and extreme security through the wireless network infrastructure. Artificial Intelligence (AI), thus, will play a major role in the underlying network infrastructure. However, a number of challenges will surface while using the concepts, tools and algorithms of AI in wireless networks used by IoT. In this article, the main challenges in using AI in the wireless network infrastructure that facilitate end-to-end IoT communication are highlighted with potential generalized solution and future research directions.
翻訳日:2022-11-12 03:48:10 公開日:2020-07-09
# 最適地域利用のための知的倉庫アロケータ

Intelligent Warehouse Allocator for Optimal Regional Utilization ( http://arxiv.org/abs/2007.05081v1 )

ライセンス: Link先を確認
Girish Sathyanarayana and Arun Patro(参考訳) 本稿では,ファッションインベントリの最適倉庫配分を計算するための新しいソリューションについて述べる。 調達された在庫は、倉庫周辺の地域需要に応じて最適に倉庫に割り当てられなければならない。 これにより、最も近い倉庫で需要が満たされ、配送物流コストと配送時間の最小化が図られる。 これらはそれぞれ、収益性と顧客エクスペリエンスを促進するための重要な指標です。 倉庫には容量の制約があり、在庫の倉庫間再分配コストを最小化しなければならない。 これは最大地域利用率(RU)につながる。 この倉庫割り当て問題に対する効率的なソリューションを構築するために、機械学習と最適化手法を使用します。 私たちは機械学習モデルを使用して、すべての製品に対する需要の地理的分割を見積もっています。 キャパシティ制約を考慮した最適倉庫割り当てを計算するために整数計画法を用いる。 この解を用いてバックテストを行い,2つの主要な指標である地域利用率 (ru) と2日配送率 (2dd) の大幅な上昇を示すことにより,このモデルの効率性を検証する。 私たちはこのプロセスを使用して、オンラインファッション小売のトップであるmyntraの倉庫割り当てによる購入注文をインテリジェントに作成します。

In this paper, we describe a novel solution to compute optimal warehouse allocations for fashion inventory. Procured inventory must be optimally allocated to warehouses in proportion to the regional demand around the warehouse. This will ensure that demand is fulfilled by the nearest warehouse thereby minimizing the delivery logistics cost and delivery times. These are key metrics to drive profitability and customer experience respectively. Warehouses have capacity constraints and allocations must minimize inter warehouse redistribution cost of the inventory. This leads to maximum Regional Utilization (RU). We use machine learning and optimization methods to build an efficient solution to this warehouse allocation problem. We use machine learning models to estimate the geographical split of the demand for every product. We use Integer Programming methods to compute the optimal feasible warehouse allocations considering the capacity constraints. We conduct a back-testing by using this solution and validate the efficiency of this model by demonstrating a significant uptick in two key metrics Regional Utilization (RU) and Percentage Two-day-delivery (2DD). We use this process to intelligently create purchase orders with warehouse assignments for Myntra, a leading online fashion retailer.
翻訳日:2022-11-12 03:47:59 公開日:2020-07-09
# グラフ認識ロジスティック回帰とプリエンプティブクエリ生成による有意グラフ上のアクティブラーニング

Active Learning on Attributed Graphs via Graph Cognizant Logistic Regression and Preemptive Query Generation ( http://arxiv.org/abs/2007.05003v1 )

ライセンス: Link先を確認
Florence Regol and Soumyasundar Pal and Yingxue Zhang and Mark Coates(参考訳) 属性付きグラフのノード分類は、複数の実用的な設定において重要なタスクであるが、ラベルを取得するのが難しい場合や費用がかかる場合が多い。 アクティブラーニングは、クエリされたラベルの数に基づいて、所定の予算の達成された分類性能を改善することができる。 既存の最良の手法はグラフニューラルネットワークに基づいているが、良質なハイパーパラメータを選択するためにラベル付きノードの大規模な検証セットが利用可能でない限り、性能は低いことが多い。 本稿では,属性付きグラフにおけるノード分類処理のための新しいグラフベース能動学習アルゴリズムを提案する。このアルゴリズムは,線形化グラフ畳み込みニューラルネットワーク(GCN)と等価なグラフ認識ロジスティック回帰を用いて,クエリフェーズにおける予測誤差低減を最大化する。 システムと対話するラベルラが経験する遅延を軽減するため,ラベル処理中に新しいクエリを計算したプリエンプティブクエリシステムを考案し,ラベル付きデータがほとんどない状態で学習を開始する設定に対処するため,ラベルの伝搬と線形化GCN推論の適応モデル平均化を行うハイブリッドアルゴリズムを開発した。 我々は,5つのベンチマークデータセットについて実験を行い,最先端の手法よりも大幅に改善したことを示すとともに,プライベートマイクロ波リンクネットワークデータセットに適用することにより,手法の実用的価値を示す。

Node classification in attributed graphs is an important task in multiple practical settings, but it can often be difficult or expensive to obtain labels. Active learning can improve the achieved classification performance for a given budget on the number of queried labels. The best existing methods are based on graph neural networks, but they often perform poorly unless a sizeable validation set of labelled nodes is available in order to choose good hyperparameters. We propose a novel graph-based active learning algorithm for the task of node classification in attributed graphs; our algorithm uses graph cognizant logistic regression, equivalent to a linearized graph convolutional neural network (GCN), for the prediction phase and maximizes the expected error reduction in the query phase. To reduce the delay experienced by a labeller interacting with the system, we derive a preemptive querying system that calculates a new query during the labelling process, and to address the setting where learning starts with almost no labelled data, we also develop a hybrid algorithm that performs adaptive model averaging of label propagation and linearized GCN inference. We conduct experiments on five public benchmark datasets, demonstrating a significant improvement over state-of-the-art approaches and illustrate the practical value of the method by applying it to a private microwave link network dataset.
翻訳日:2022-11-12 03:41:30 公開日:2020-07-09
# ガウスカーネルと不均衡データを用いた支持ベクトルマシン分類器の挙動解析

Behavioral analysis of support vector machine classifier with Gaussian kernel and imbalanced data ( http://arxiv.org/abs/2007.05042v1 )

ライセンス: Link先を確認
Alaa Tharwat(参考訳) ペナルティパラメータやカーネルパラメータなどのサポートベクトルマシン(SVM)のパラメータは、SVMモデルの分類精度と複雑さに大きな影響を与える。 したがって、SVMにおけるモデル選択は、これらのパラメータのチューニングを伴う。 しかし、これらのパラメータは通常、数学的背景や内部詳細を理解せずに、ブラックボックスとしてチューニングされ使用される。 本稿では,これらのパラメータがバランスの取れたデータと不均衡なデータで異なる値を取る場合に,SVM分類モデルの挙動を解析する。 この分析には、可視化、数学的および幾何学的解釈、およびSVMによるガウスおよび線型カーネル関数の基礎を提供するための図式的な数値例が含まれる。 そこで本研究では,新しい探索アルゴリズムを提案する。 本研究では,2次元空間を探索する代わりに,最適SVMパラメータを2次元空間に探索する。 これにより計算時間が大幅に短縮される。 さらに,本アルゴリズムでは,データの解析からカーネル関数の範囲が期待できる。 これにより探索空間も減少し、必要な計算時間を短縮できる。 異なるバランスデータセットと不均衡データセットを用いて検索アルゴリズムを評価するために異なる実験を行った。 その結果,提案手法が他の探索戦略よりも高速かつ効果的であることを実証した。

The parameters of support vector machines (SVMs) such as the penalty parameter and the kernel parameters have a great impact on the classification accuracy and the complexity of the SVM model. Therefore, the model selection in SVM involves the tuning of these parameters. However, these parameters are usually tuned and used as a black box, without understanding the mathematical background or internal details. In this paper, the behavior of the SVM classification model is analyzed when these parameters take different values with balanced and imbalanced data. This analysis including visualization, mathematical and geometrical interpretations and illustrative numerical examples with the aim of providing the basics of the Gaussian and linear kernel functions with SVM. From this analysis, we proposed a novel search algorithm. In this algorithm, we search for the optimal SVM parameters into two one-dimensional spaces instead of searching into one two-dimensional space. This reduces the computational time significantly. Moreover, in our algorithm, from the analysis of the data, the range of kernel function can be expected. This also reduces the search space and hence reduces the required computational time. Different experiments were conducted to evaluate our search algorithm using different balanced and imbalanced datasets. The results demonstrated how the proposed strategy is fast and effective than other searching strategies.
翻訳日:2022-11-12 03:40:54 公開日:2020-07-09
# 予測値一般化境界

Predictive Value Generalization Bounds ( http://arxiv.org/abs/2007.05073v1 )

ライセンス: Link先を確認
Keshav Vemuri, Nathan Srebro(参考訳) 本稿では,二項分類の文脈におけるスコアリング関数の評価のためのビクテリオンフレームワークについて検討する。 正と負の予測値(それぞれppvとnpv)は、分類器の予測ラベルと一致する真のラベルの条件付き確率である。 通常の分類誤差率はこれらの確率の線形結合であり、したがって誤差率の濃度不等式は2つの別々の予測値に対する信頼区間を生じさせない。 本研究では,新しい分布自由大偏差と一様収束境界を導出することにより,予測値に対するスコアリング関数の一般化特性について検討する。 後者の境界は、順序係数(order coefficient)と呼ばれる関数クラスの複雑性の測度として述べられ、この組合せ量とvc-subgraph次元を関連付ける。

In this paper, we study a bi-criterion framework for assessing scoring functions in the context of binary classification. The positive and negative predictive values (ppv and npv, respectively) are conditional probabilities of the true label matching a classifier's predicted label. The usual classification error rate is a linear combination of these probabilities, and therefore, concentration inequalities for the error rate do not yield confidence intervals for the two separate predictive values. We study generalization properties of scoring functions with respect to predictive values by deriving new distribution-free large deviation and uniform convergence bounds. The latter bound is stated in terms of a measure of function class complexity that we call the order coefficient; we relate this combinatorial quantity to the VC-subgraph dimension.
翻訳日:2022-11-12 03:40:34 公開日:2020-07-09
# 民間予測のトレードオフ

The Trade-Offs of Private Prediction ( http://arxiv.org/abs/2007.05089v1 )

ライセンス: Link先を確認
Laurens van der Maaten and Awni Hannun(参考訳) 機械学習モデルは、予測を公開するたびにトレーニングデータに関する情報をリークする。 トレーニングデータがプライベートのままである必要がある場合、これは問題となる。 プライベート予測手法は、各予測によってトレーニングデータに関する情報リーク量を制限する。 プライベートな予測は、プライベートなトレーニング手法でトレーニングされたモデルを使って達成することもできる。 プライベート予測では、プライベートトレーニングとプライベート予測の両方の方法が、プライバシ、プライバシ障害確率、トレーニングデータ量、推論予算の間のトレードオフを示している。 これらのトレードオフは理論的によく理解されているものの、実証的な研究はほとんど行われていない。 本稿では,個人予測のトレードオフに関する最初の実証研究を行う。 我々の研究は、どの学習環境に最も適した方法に光を当てている。 意外なことに、プライベートなトレーニング手法は、幅広いプライベートな予測設定においてプライベートな予測方法よりも優れています。

Machine learning models leak information about their training data every time they reveal a prediction. This is problematic when the training data needs to remain private. Private prediction methods limit how much information about the training data is leaked by each prediction. Private prediction can also be achieved using models that are trained by private training methods. In private prediction, both private training and private prediction methods exhibit trade-offs between privacy, privacy failure probability, amount of training data, and inference budget. Although these trade-offs are theoretically well-understood, they have hardly been studied empirically. This paper presents the first empirical study into the trade-offs of private prediction. Our study sheds light on which methods are best suited for which learning setting. Perhaps surprisingly, we find private training methods outperform private prediction methods in a wide range of private prediction settings.
翻訳日:2022-11-12 03:39:46 公開日:2020-07-09
# AdaScale SGD: 分散トレーニングのためのユーザフレンドリーなアルゴリズム

AdaScale SGD: A User-Friendly Algorithm for Distributed Training ( http://arxiv.org/abs/2007.05105v1 )

ライセンス: Link先を確認
Tyler B. Johnson, Pulkit Agrawal, Haijie Gu, Carlos Guestrin(参考訳) 大規模バッチトレーニングを使用して確率的勾配降下をスピードアップする場合、学習速度は、スピードアップを最大化し、モデル品質を維持するために、新しいバッチサイズに適応する必要がある。 再チューニングの学習レートはリソース集約であり、固定されたスケーリングルールはモデル品質を劣化させることが多い。 本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。 勾配の分散に継続的に適応することで、adascaleは広範囲のバッチサイズで自動的にスピードアップを実現する。 バッチサイズが大きくなり、イテレーション数が減少しても最終目的値を維持するadascaleの収束境界でこの品質を正式に記述する。 経験的比較において、adascaleは一般的な"線形学習率スケーリング"ルールのバッチサイズ制限をはるかに超えている。 これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。 アダスケールの質的行動は「ウォームアップ」のヒューリスティックと似ているが、ウォームアップとは異なり、この行動は原理的なメカニズムから自然に現れる。 このアルゴリズムは無視できる計算オーバーヘッドを導入し、新しいハイパーパラメーターは導入しないため、AdaScaleは実際に大規模なトレーニングを行う上で魅力的な選択肢となる。

When using large-batch training to speed up stochastic gradient descent, learning rates must adapt to new batch sizes in order to maximize speed-ups and preserve model quality. Re-tuning learning rates is resource intensive, while fixed scaling rules often degrade model quality. We propose AdaScale SGD, an algorithm that reliably adapts learning rates to large-batch training. By continually adapting to the gradient's variance, AdaScale automatically achieves speed-ups for a wide range of batch sizes. We formally describe this quality with AdaScale's convergence bound, which maintains final objective values, even as batch sizes grow large and the number of iterations decreases. In empirical comparisons, AdaScale trains well beyond the batch size limits of popular "linear learning rate scaling" rules. This includes large-batch training with no model degradation for machine translation, image classification, object detection, and speech recognition tasks. AdaScale's qualitative behavior is similar to that of "warm-up" heuristics, but unlike warm-up, this behavior emerges naturally from a principled mechanism. The algorithm introduces negligible computational overhead and no new hyperparameters, making AdaScale an attractive choice for large-scale training in practice.
翻訳日:2022-11-12 03:39:13 公開日:2020-07-09
# データ拡張の未解決可能性:ドメインの一般化の観点から

Untapped Potential of Data Augmentation: A Domain Generalization Viewpoint ( http://arxiv.org/abs/2007.04662v1 )

ライセンス: Link先を確認
Vihari Piratla, Shiv Shankar(参考訳) データ拡張は、一般化精度を改善するための一般的な前処理トリックである。 拡張入力を元の入力と直交して処理することで、モデルは元の入力と増進入力の間で共有されるより堅牢な特徴集合を学習すると考えられている。 しかし,最高の拡張手法であってもそうではないことを示す。 本稿では,拡張ベース手法の領域一般化の観点から考察する。 この新たな視点により、オーバーフィッティングとデライン化が改善のために可能となった。 最先端の強化手法による探索は、学習された表現が訓練中に使用する歪みに対してさえ頑健でないことを示す。 これは拡張例の未解決の可能性の証拠を示唆する。

Data augmentation is a popular pre-processing trick to improve generalization accuracy. It is believed that by processing augmented inputs in tandem with the original ones, the model learns a more robust set of features which are shared between the original and augmented counterparts. However, we show that is not the case even for the best augmentation technique. In this work, we take a Domain Generalization viewpoint of augmentation based methods. This new perspective allowed for probing overfitting and delineating avenues for improvement. Our exploration with the state-of-art augmentation method provides evidence that the learned representations are not as robust even towards distortions used during training. This suggests evidence for the untapped potential of augmented examples.
翻訳日:2022-11-12 03:32:31 公開日:2020-07-09
# 非定常帯域に対するリカレントニューラルLinear Posterior Smpling

Recurrent Neural-Linear Posterior Sampling for Non-Stationary Contextual Bandits ( http://arxiv.org/abs/2007.04750v1 )

ライセンス: Link先を確認
Aditya Ramesh, Paulo Rauber, J\"urgen Schmidhuber(参考訳) 非定常的文脈的包帯問題のエージェントは、探索と以前の経験に存在する(周期的または構造化された)パターンの活用のバランスをとるべきである。 適切な歴史的文脈を手作りすることは、非定常問題を効率的に解決できる定常問題に変換する魅力的な方法である。 しかし、慎重に設計された歴史的文脈でさえ、急激な関係や重要な情報の便利な表現が欠如している可能性がある。 これらの課題に対処するために,エージェントと環境間の相互作用の生履歴のみに基づいて,意思決定の関連文脈を表現することを学ぶアプローチを提案する。 このアプローチは、リカレントニューラルネットワークによって抽出された特徴と、後続サンプリングに基づく文脈線形帯域アルゴリズムの組み合わせに依存する。 文脈的および非文脈的非定常問題の多様な選択に関する実験は、我々の再帰的アプローチが、従来の非定常バンディットアルゴリズムよりも広く適用されながら、手作りの歴史的文脈を必要とするフィードフォワードのアプローチを一貫して上回っていることを示している。

An agent in a non-stationary contextual bandit problem should balance between exploration and the exploitation of (periodic or structured) patterns present in its previous experiences. Handcrafting an appropriate historical context is an attractive alternative to transform a non-stationary problem into a stationary problem that can be solved efficiently. However, even a carefully designed historical context may introduce spurious relationships or lack a convenient representation of crucial information. In order to address these issues, we propose an approach that learns to represent the relevant context for a decision based solely on the raw history of interactions between the agent and the environment. This approach relies on a combination of features extracted by recurrent neural networks with a contextual linear bandit algorithm based on posterior sampling. Our experiments on a diverse selection of contextual and non-contextual non-stationary problems show that our recurrent approach consistently outperforms its feedforward counterpart, which requires handcrafted historical contexts, while being more widely applicable than conventional non-stationary bandit algorithms.
翻訳日:2022-11-12 03:31:50 公開日:2020-07-09
# 低スイッチングコストのマルチノードロジットバンド

Multinomial Logit Bandit with Low Switching Cost ( http://arxiv.org/abs/2007.04876v1 )

ライセンス: Link先を確認
Kefan Dong, Yingkai Li, Qin Zhang, Yuan Zhou(参考訳) 適応性が限定されたマルチノミナルロジットバンディットについて検討し, アルゴリズムは, ほとんど最適のミニマックス後悔を達成する際に, 探索動作をできるだけ頻繁に変更する。 適応性の尺度として, 仕分け切替コストと細粒度切換コストの2つを提案する。 我々は、$O(N \log T)$ Assortment switchsで、下限の$\Omega(\frac{N \log T}{ \log \log T})$とほぼ一致する任意のアルゴリズム(AT-DUCB)を示す。 固定水平設定では、FH-DUCBアルゴリズムは、漸近的下界に一致する$O(N \log \log T)$アソートスイッチを発生させる。 また,アイテム切替コストを$O(N \log^2T)$とするESACBアルゴリズムを提案する。

We study multinomial logit bandit with limited adaptivity, where the algorithms change their exploration actions as infrequently as possible when achieving almost optimal minimax regret. We propose two measures of adaptivity: the assortment switching cost and the more fine-grained item switching cost. We present an anytime algorithm (AT-DUCB) with $O(N \log T)$ assortment switches, almost matching the lower bound $\Omega(\frac{N \log T}{ \log \log T})$. In the fixed-horizon setting, our algorithm FH-DUCB incurs $O(N \log \log T)$ assortment switches, matching the asymptotic lower bound. We also present the ESUCB algorithm with item switching cost $O(N \log^2 T)$.
翻訳日:2022-11-12 03:30:46 公開日:2020-07-09
# ダイアグラム帯域の影響:構造帯域問題に対する変分トンプソンサンプリング

Influence Diagram Bandits: Variational Thompson Sampling for Structured Bandit Problems ( http://arxiv.org/abs/2007.04915v1 )

ライセンス: Link先を確認
Tong Yu, Branislav Kveton, Zheng Wen, Ruiyi Zhang, Ole J. Mengshoel(参考訳) 本稿では,構造付きバンディットの新しい枠組みを提案し,これをインフルエンスダイアグラムバンディットと呼ぶ。 本フレームワークは, 動作, 潜伏変数, 観測の複雑な統計的依存関係を捉え, 組み合わせ半帯域, カスケードバンド, ローランクバンディットなど, 既存のモデルの多くを統一・拡張する。 我々のモデルで効率的に行動することを学ぶ新しいオンライン学習アルゴリズムを開発した。 キーとなる考え方は、モデルパラメータの構造的後部分布を正確にあるいはほぼ追跡することである。 動作するために、モデルパラメータを後部からサンプリングし、次に影響図の構造を用いて、サンプリングされたパラメータの下で最も楽観的なアクションを見つける。 我々は3つの構造化バンディット問題において,アルゴリズムを経験的に評価し,問題に固有のベースラインよりも優れた性能を示す。

We propose a novel framework for structured bandits, which we call an influence diagram bandit. Our framework captures complex statistical dependencies between actions, latent variables, and observations; and thus unifies and extends many existing models, such as combinatorial semi-bandits, cascading bandits, and low-rank bandits. We develop novel online learning algorithms that learn to act efficiently in our models. The key idea is to track a structured posterior distribution of model parameters, either exactly or approximately. To act, we sample model parameters from their posterior and then use the structure of the influence diagram to find the most optimistic action under the sampled parameters. We empirically evaluate our algorithms in three structured bandit problems, and show that they perform as well as or better than problem-specific state-of-the-art baselines.
翻訳日:2022-11-12 03:30:18 公開日:2020-07-09
# コンフォーマライズドパフォーマンス予測を用いた学習の透明化

Making learning more transparent using conformalized performance prediction ( http://arxiv.org/abs/2007.04486v1 )

ライセンス: Link先を確認
Matthew J. Holland(参考訳) 本研究では、より透明で正確で実用的な性能保証を機械学習で提供する問題に対する共形推論手法の新たな応用について検討する。 我々は,任意の学習アルゴリズムの今後の性能について,有効かつ適切に評価された予測文を作成することができるように,従来の共形予測フレームワークの自然な拡張を提供する。 さらに、潜在的な応用を示す実験例をいくつか紹介する。

In this work, we study some novel applications of conformal inference techniques to the problem of providing machine learning procedures with more transparent, accurate, and practical performance guarantees. We provide a natural extension of the traditional conformal prediction framework, done in such a way that we can make valid and well-calibrated predictive statements about the future performance of arbitrary learning algorithms, when passed an as-yet unseen training set. In addition, we include some nascent empirical examples to illustrate potential applications.
翻訳日:2022-11-12 03:23:28 公開日:2020-07-09
# 深層学習における勾配変動の検討

A Study of Gradient Variance in Deep Learning ( http://arxiv.org/abs/2007.04532v1 )

ライセンス: Link先を確認
Fartash Faghri, David Duvenaud, David J. Fleet, Jimmy Ba(参考訳) 深層モデルの訓練における勾配雑音の影響は広く認識されているが,よく理解されていない。 この文脈では,トレーニング中の勾配分布について検討する。 階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。 勾配空間における重み付きクラスタリングから要素をサンプリングした場合, 平均ミニバッチ勾配の分散が最小となることを示す。 一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加し、より小さい学習率がより高い分散と一致することを観察する。 さらに,正規化勾配分散を,勾配分散と比較して収束速度によく相関する統計として導入する。

The impact of gradient noise on training deep models is widely acknowledged but not well understood. In this context, we study the distribution of gradients during training. We introduce a method, Gradient Clustering, to minimize the variance of average mini-batch gradient with stratified sampling. We prove that the variance of average mini-batch gradient is minimized if the elements are sampled from a weighted clustering in the gradient space. We measure the gradient variance on common deep learning benchmarks and observe that, contrary to common assumptions, gradient variance increases during training, and smaller learning rates coincide with higher variance. In addition, we introduce normalized gradient variance as a statistic that better correlates with the speed of convergence compared to gradient variance.
翻訳日:2022-11-12 03:23:11 公開日:2020-07-09
# ユーザ認証モデルのフェデレーション学習

Federated Learning of User Authentication Models ( http://arxiv.org/abs/2007.04618v1 )

ライセンス: Link先を確認
Hossein Hosseini, Sungrack Yun, Hyunsin Park, Christos Louizos, Joseph Soriaga and Max Welling(参考訳) マシンラーニングベースのユーザ認証(UA)モデルは、スマートデバイスに広くデプロイされている。 UAモデルは、異なるユーザの入力データを高度に分離可能な埋め込みベクトルにマッピングするように訓練され、テスト時に新しい入力を受け入れたり拒否するために使用される。 UAモデルのトレーニングには、ユーザの生の入力と埋め込みベクターに直接アクセスする必要がある。 本稿では,UAモデルのプライバシー保護のためのフレームワークであるFederated User Authentication (FedUA)を提案する。 FedUAは、フェデレートされた学習フレームワークを採用し、ユーザが生の入力を共有することなく、共同でモデルをトレーニングできるようにする。 また、ユーザはランダムなバイナリベクターとして埋め込みを生成することができ、サーバによるスプレッドアウト埋め込みを構築する既存のアプローチとは異なり、埋め込みベクターもプライベートに保持される。 提案手法は,プライバシ保存性が高く,ユーザ数にも拡張性があり,新たなユーザがアウトプット層を変更することなくトレーニングに追加できることを示す。 話者検証のためのVoxCelebデータセットに関する実験結果から,本手法は未確認ユーザのデータを極めて高い正の確率で確実に拒否することを示す。

Machine learning-based User Authentication (UA) models have been widely deployed in smart devices. UA models are trained to map input data of different users to highly separable embedding vectors, which are then used to accept or reject new inputs at test time. Training UA models requires having direct access to the raw inputs and embedding vectors of users, both of which are privacy-sensitive information. In this paper, we propose Federated User Authentication (FedUA), a framework for privacy-preserving training of UA models. FedUA adopts federated learning framework to enable a group of users to jointly train a model without sharing the raw inputs. It also allows users to generate their embeddings as random binary vectors, so that, unlike the existing approach of constructing the spread out embeddings by the server, the embedding vectors are kept private as well. We show our method is privacy-preserving, scalable with number of users, and allows new users to be added to training without changing the output layer. Our experimental results on the VoxCeleb dataset for speaker verification shows our method reliably rejects data of unseen users at very high true positive rates.
翻訳日:2022-11-12 03:22:39 公開日:2020-07-09
# 最大結合ネットワーク

Maximum-and-Concatenation Networks ( http://arxiv.org/abs/2007.04630v1 )

ライセンス: Link先を確認
Xingyu Xie, Hao Kong, Jianlong Wu, Wayne Zhang, Guangcan Liu, Zhouchen Lin(参考訳) 多くの分野で成功しているにもかかわらず、ディープニューラルネットワーク(DNN)は、悪い局所ミニマや不満足な一般化性能などのオープンな問題に悩まされている。 本研究では,ローカルな最小値の削減と一般化能力の向上を図るため,MCN(Maximum-and-Concatenation Networks)と呼ばれる新しいアーキテクチャを提案する。 驚くべきことに、mcnは非常に良い性質を持っていることを証明している。すなわち、 \emph{ every local minimum of a $(l+1)$-layer mcnは、少なくとも、最初の$l$ layer}からなるネットワークのグローバルミニマより優れている。 言い換えれば、ネットワークの深さを増やすことで、mcnはローカルのミニマの良さを自律的に改善することができる。 最後に、穏やかな条件下では、MCN は任意の連続関数を \emph{high efficiency} と任意に近似できることを示し、すなわち、MCN の被覆数は、ディープReLU のような既存の DNN よりもはるかに小さい。 これに基づいて、テストサンプルを扱う際のMCNの推論能力を保証するための厳密な一般化も提供する。

While successful in many fields, deep neural networks (DNNs) still suffer from some open problems such as bad local minima and unsatisfactory generalization performance. In this work, we propose a novel architecture called Maximum-and-Concatenation Networks (MCN) to try eliminating bad local minima and improving generalization ability as well. Remarkably, we prove that MCN has a very nice property; that is, \emph{every local minimum of an $(l+1)$-layer MCN can be better than, at least as good as, the global minima of the network consisting of its first $l$ layers}. In other words, by increasing the network depth, MCN can autonomously improve its local minima's goodness, what is more, \emph{it is easy to plug MCN into an existing deep model to make it also have this property}. Finally, under mild conditions, we show that MCN can approximate certain continuous functions arbitrarily well with \emph{high efficiency}; that is, the covering number of MCN is much smaller than most existing DNNs such as deep ReLU. Based on this, we further provide a tight generalization bound to guarantee the inference ability of MCN when dealing with testing samples.
翻訳日:2022-11-12 03:22:19 公開日:2020-07-09
# シミュレーション型非iidクライアントによるフェデレーション学習の改善

Client Adaptation improves Federated Learning with Simulated Non-IID Clients ( http://arxiv.org/abs/2007.04806v1 )

ライセンス: Link先を確認
Laura Rieger, Rasmus M. Th. H{\o}egh, and Lars K. Hansen(参考訳) クライアント間でデータを独立に分散する(非IID)場合、クライアント適応的で堅牢なモデルを学ぶための連合学習手法を提案する。 ヘテロジニアスクライアントをシミュレートすることにより,学習したクライアント固有のコンディショニングによりモデルの性能が向上し,音声領域と画像領域のバランスのとれた不均衡なデータを扱うことができることを示した。 クライアント適応は条件付きゲート型アクティベーションユニットによって実装され、フェデレーション学習における一般的なシナリオである各クライアントのデータ分散に大きな違いがある場合、特に有益である。

We present a federated learning approach for learning a client adaptable, robust model when data is non-identically and non-independently distributed (non-IID) across clients. By simulating heterogeneous clients, we show that adding learned client-specific conditioning improves model performance, and the approach is shown to work on balanced and imbalanced data set from both audio and image domains. The client adaptation is implemented by a conditional gated activation unit and is particularly beneficial when there are large differences between the data distribution for each client, a common scenario in federated learning.
翻訳日:2022-11-12 03:14:46 公開日:2020-07-09
# 可逆ゼロショット認識流れ

Invertible Zero-Shot Recognition Flows ( http://arxiv.org/abs/2007.04873v1 )

ライセンス: Link先を確認
Yuming Shen, Jie Qin, Lei Huang(参考訳) 深層生成モデルはZSL(Zero-Shot Learning)に適用されている。 しかし、GANとVAEの根本的な欠点(例えば、ZSL指向の正則化器によるトレーニングの難しさと、限られた生成品質)は、既存の生成的ZSLモデルを完全に無視することを妨げる。 上記の制限に対処するために、この研究は初めて新しい生成モデル(フローベースモデル)のファミリーをZSLに組み込む。 提案する可逆ゼロショットフロー(izf)は、可逆フローネットワークのフォワードパスと因果化データ埋め込み(すなわち、意味的要因と非意味的要素)を学習し、逆パスはデータサンプルを生成する。 この手順は理論的に従来の生成フローを因子化条件スキームに拡張する。 バイアス問題を明示的に解くために, 負のサンプルベース距離測定に基づいて, 観測対象の分布差を拡大する。 特に、IZFは、単純ベイズ分類器またはゼロショット認識のためのホールドアウト訓練可能なものと柔軟に機能する。 広く評価されたZSLベンチマークの実験は、古典的および一般化された設定の両方において、既存のメソッドよりもIZFの大幅な性能向上を示す。

Deep generative models have been successfully applied to Zero-Shot Learning (ZSL) recently. However, the underlying drawbacks of GANs and VAEs (e.g., the hardness of training with ZSL-oriented regularizers and the limited generation quality) hinder the existing generative ZSL models from fully bypassing the seen-unseen bias. To tackle the above limitations, for the first time, this work incorporates a new family of generative models (i.e., flow-based models) into ZSL. The proposed Invertible Zero-shot Flow (IZF) learns factorized data embeddings (i.e., the semantic factors and the non-semantic ones) with the forward pass of an invertible flow network, while the reverse pass generates data samples. This procedure theoretically extends conventional generative flows to a factorized conditional scheme. To explicitly solve the bias problem, our model enlarges the seen-unseen distributional discrepancy based on negative sample-based distance measurement. Notably, IZF works flexibly with either a naive Bayesian classifier or a held-out trainable one for zero-shot recognition. Experiments on widely-adopted ZSL benchmarks demonstrate the significant performance gain of IZF over existing methods, in both classic and generalized settings.
翻訳日:2022-11-12 03:14:34 公開日:2020-07-09
# すべてをコントロールするための1つのポリシー:エージェント非依存制御のための共有モジュールポリシー

One Policy to Control Them All: Shared Modular Policies for Agent-Agnostic Control ( http://arxiv.org/abs/2007.04976v1 )

ライセンス: Link先を確認
Wenlong Huang, Igor Mordatch, Deepak Pathak(参考訳) 強化学習は通常、特定のエージェントに適した学習制御ポリシーに関係している。 We investigate whether there exists a single global policy that can generalize to control a wide variety of agent morphologies -- ones in which even dimensionality of state and action spaces changes. We propose to express this global policy as a collection of identical modular neural networks, dubbed as Shared Modular Policies (SMP), that correspond to each of the agent's actuators. Every module is only responsible for controlling its corresponding actuator and receives information from only its local sensors. In addition, messages are passed between modules, propagating information between distant modules. We show that a single modular policy can successfully generate locomotion behaviors for several planar agents with different skeletal structures such as monopod hoppers, quadrupeds, bipeds, and generalize to variants not seen during training -- a process that would normally require training and manual hyperparameter tuning for each morphology. 我々は、強化学習目的から純粋に分散モジュール間のメッセージパッシングを通じて、形態学を横断する多様なロコモーションスタイルと集中的なコーディネーションが出現することを観察した。 ビデオとコード: https://huangwl18.github.io/modular-rl/

Reinforcement learning is typically concerned with learning control policies tailored to a particular agent. We investigate whether there exists a single global policy that can generalize to control a wide variety of agent morphologies -- ones in which even dimensionality of state and action spaces changes. We propose to express this global policy as a collection of identical modular neural networks, dubbed as Shared Modular Policies (SMP), that correspond to each of the agent's actuators. Every module is only responsible for controlling its corresponding actuator and receives information from only its local sensors. In addition, messages are passed between modules, propagating information between distant modules. We show that a single modular policy can successfully generate locomotion behaviors for several planar agents with different skeletal structures such as monopod hoppers, quadrupeds, bipeds, and generalize to variants not seen during training -- a process that would normally require training and manual hyperparameter tuning for each morphology. We observe that a wide variety of drastically diverse locomotion styles across morphologies as well as centralized coordination emerges via message passing between decentralized modules purely from the reinforcement learning objective. Videos and code at https://huangwl18.github.io/modular-rl/
翻訳日:2022-11-12 03:14:09 公開日:2020-07-09
# 多視点直交正規化部分最小方形:正規化と深部拡張

Multi-view Orthonormalized Partial Least Squares: Regularizations and Deep Extensions ( http://arxiv.org/abs/2007.05028v1 )

ライセンス: Link先を確認
Li Wang and Ren-Cang Li and Wen-Wei(参考訳) 最小二乗法を基本として,マルチビュー学習のためのサブスペースベース学習手法のファミリを確立する。 具体的には,正規正規化部分最小二乗法(opls)について検討し,多変量回帰と分類におけるその重要な性質について検討した。 OPLSの最小二乗再構成に基づいて,すべてのビューで共有される共通潜在空間上の分類器を学習するための統合された多視点学習フレームワークを提案する。 正規化手法は, モデルパラメータ, 決定値, 潜在投射点など, 固有成分に3種類の汎用型正規化器を提供することにより, 提案フレームワークのパワーを解き放つためにさらに活用されている。 様々な事前の観点で正規化器のセットをインスタンス化する。 正規化器を適切に選択したフレームワークは、既存のメソッドを再キャストできるだけでなく、新しいモデルを刺激することができる。 複雑な実問題に対する提案フレームワークの性能をさらに高めるため,深層ネットワークでパラメータ化された非線形変換を学習する。 特徴抽出法とクロスモーダル検索法の両方の観点から,9つのデータセットの様々な手法を異なる数のビューで比較した。

We establish a family of subspace-based learning method for multi-view learning using the least squares as the fundamental basis. Specifically, we investigate orthonormalized partial least squares (OPLS) and study its important properties for both multivariate regression and classification. Building on the least squares reformulation of OPLS, we propose a unified multi-view learning framework to learn a classifier over a common latent space shared by all views. The regularization technique is further leveraged to unleash the power of the proposed framework by providing three generic types of regularizers on its inherent ingredients including model parameters, decision values and latent projected points. We instantiate a set of regularizers in terms of various priors. The proposed framework with proper choices of regularizers not only can recast existing methods, but also inspire new models. To further improve the performance of the proposed framework on complex real problems, we propose to learn nonlinear transformations parameterized by deep networks. Extensive experiments are conducted to compare various methods on nine data sets with different numbers of views in terms of both feature extraction and cross-modal retrieval.
翻訳日:2022-11-12 03:13:54 公開日:2020-07-09
# 短期記憶スパイキングネットワークとその応用

Long Short-Term Memory Spiking Networks and Their Applications ( http://arxiv.org/abs/2007.04779v1 )

ライセンス: Link先を確認
Ali Lotfi Rezaabad and Sriram Vishwanath(参考訳) 事象ベースのニューロモルフィックシステムの最近の進歩は、スパイキングニューラルネットワーク(SNN)の使用と開発に大きな関心を寄せている。 しかし、スパイキングニューロンの非分化性により、SNNは従来のバックプロパゲーション技術と相容れない。 従来のディープニューラルネットワーク(DNN)のトレーニングでは大きな進歩があったが、SNNのトレーニング方法はまだよく分かっていない。 本稿では,繰り返しSNNをトレーニングするための新しいフレームワークを提案する。 DNN内の学習時系列モデルにおいて、リカレントニューラルネットワーク(RNN)がもたらす利点に類似して、長い短期記憶(LSTM)ネットワークに基づくSNNを開発する。 LSTMスパイクネットワークはスパイクのタイミングと時間的依存性を学習する。 また,LSTMに基づくSNNにおいて,エラーのバックプロパゲーションを行う手法を開発した。 LSTMベースのSNN内でのバックプロパゲーションのためのアーキテクチャと手法により、従来のLSTMに匹敵する長期的な依存関係を学習することができる。

Recent advances in event-based neuromorphic systems have resulted in significant interest in the use and development of spiking neural networks (SNNs). However, the non-differentiable nature of spiking neurons makes SNNs incompatible with conventional backpropagation techniques. In spite of the significant progress made in training conventional deep neural networks (DNNs), training methods for SNNs still remain relatively poorly understood. In this paper, we present a novel framework for training recurrent SNNs. Analogous to the benefits presented by recurrent neural networks (RNNs) in learning time series models within DNNs, we develop SNNs based on long short-term memory (LSTM) networks. We show that LSTM spiking networks learn the timing of the spikes and temporal dependencies. We also develop a methodology for error backpropagation within LSTM-based SNNs. The developed architecture and method for backpropagation within LSTM-based SNNs enable them to learn long-term dependencies with comparable results to conventional LSTMs.
翻訳日:2022-11-12 03:12:49 公開日:2020-07-09
# 有罪判決の予測: 裁判官による決定における法外的要因の回避と理解不能なAIモデル

Predicting Court Decisions for Alimony: Avoiding Extra-legal Factors in Decision made by Judges and Not Understandable AI Models ( http://arxiv.org/abs/2007.04824v1 )

ライセンス: Link先を確認
Fabrice Muhlenbach, Long Nguyen Phuoc and Isabelle Sayn(参考訳) 機械学習技術の出現により、従来の法的慣行を覆す予測システムを得ることが可能になった。 しかしながら、人間を置き換えるシステムに導かれるのではなく、裁判所の決定における決定要因の探索は、裁判官が行う決定機構をよりよく理解することを可能にしている。 フランスの司法管轄区域が生み出した離婚問題における大量の裁判所決定と、アリモニーの割り当てを許可する変数を見て、その量を定義することで、裁判官が下した決定には法外的要因があるかどうかを判断する。 この観点から、我々は、ランダム森林と回帰モデルを組み合わせた分類を、既存の意思決定尺度や実践者が作成したガイドラインに補完するツールとして設計した説明可能なAIモデルを提案する。

The advent of machine learning techniques has made it possible to obtain predictive systems that have overturned traditional legal practices. However, rather than leading to systems seeking to replace humans, the search for the determinants in a court decision makes it possible to give a better understanding of the decision mechanisms carried out by the judge. By using a large amount of court decisions in matters of divorce produced by French jurisdictions and by looking at the variables that allow to allocate an alimony or not, and to define its amount, we seek to identify if there may be extra-legal factors in the decisions taken by the judges. From this perspective, we present an explainable AI model designed in this purpose by combining a classification with random forest and a regression model, as a complementary tool to existing decision-making scales or guidelines created by practitioners.
翻訳日:2022-11-12 03:12:18 公開日:2020-07-09
# 強化学習による深層ニューラルネットワークの創出学習

Learning to Prune Deep Neural Networks via Reinforcement Learning ( http://arxiv.org/abs/2007.04756v1 )

ライセンス: Link先を確認
Manas Gupta, Siddharth Aravindan, Aleksandra Kalisz, Vijay Chandrasekhar, Lin Jie(参考訳) 本稿では,ニューラルネットワークの深部強化学習(RL)に基づくアルゴリズムであるPuRLを提案する。 現在のRLベースのモデル圧縮アプローチとは異なり、フィードバックは各エピソードの最後にのみエージェントに与えられる。 これにより、PuRLは、より短いトレーニングサイクルを持ちながら、現在の最先端のメソッドに匹敵する幅と精度を達成することができる。 PuRLはResNet-50モデルで80%以上の間隔を実現し、ImageNetデータセットでトップ1の精度は75.37%である。 実験を通じて、PuRLはMobileNet-V2のような既に効率的なアーキテクチャをスパース化できることを示した。 性能特性化実験に加えて,pullの基盤となるマルコフ決定プロセスのチューニングを行った様々なrl設計に関する議論と分析も行なっている。 最後に、PuRLは簡単に使用でき、様々なアーキテクチャに容易に適応できると指摘する。

This paper proposes PuRL - a deep reinforcement learning (RL) based algorithm for pruning neural networks. Unlike current RL based model compression approaches where feedback is given only at the end of each episode to the agent, PuRL provides rewards at every pruning step. This enables PuRL to achieve sparsity and accuracy comparable to current state-of-the-art methods, while having a much shorter training cycle. PuRL achieves more than 80% sparsity on the ResNet-50 model while retaining a Top-1 accuracy of 75.37% on the ImageNet dataset. Through our experiments we show that PuRL is also able to sparsify already efficient architectures like MobileNet-V2. In addition to performance characterisation experiments, we also provide a discussion and analysis of the various RL design choices that went into the tuning of the Markov Decision Process underlying PuRL. Lastly, we point out that PuRL is simple to use and can be easily adapted for various architectures.
翻訳日:2022-11-12 03:06:20 公開日:2020-07-09
# 検索からの学習による教師なしテキスト生成

Unsupervised Text Generation by Learning from Search ( http://arxiv.org/abs/2007.08557v1 )

ライセンス: Link先を確認
Jingjing Li, Zichao Li, Lili Mou, Xin Jiang, Michael R. Lyu, Irwin King(参考訳) 本研究では,検索からの学習による教師なしテキスト生成のための新しいフレームワークTGLSを提案する。 まず,(概して)文の品質を推定するヒューリスティックに定義された目的に対して,強い探索アルゴリズム(特にシミュレートアニーリング)を適用することから始める。 そして、条件付き生成モデルは、検索結果から学習し、一方、探索のノイズを滑らかにする。 検索と学習の交替は、パフォーマンスブートストラップのために繰り返すことができる。 実世界の自然言語生成タスクであるパラフレーズ生成とテキスト形式化におけるTGLSの有効性を示す。 我々のモデルは両タスクにおいて教師なしのベースライン法を著しく上回る。 特に、パラフレーズ生成における最先端の教師付き手法と同等の性能を発揮する。

In this work, we present TGLS, a novel framework to unsupervised Text Generation by Learning from Search. We start by applying a strong search algorithm (in particular, simulated annealing) towards a heuristically defined objective that (roughly) estimates the quality of sentences. Then, a conditional generative model learns from the search results, and meanwhile smooth out the noise of search. The alternation between search and learning can be repeated for performance bootstrapping. We demonstrate the effectiveness of TGLS on two real-world natural language generation tasks, paraphrase generation and text formalization. Our model significantly outperforms unsupervised baseline methods in both tasks. Especially, it achieves comparable performance with the state-of-the-art supervised methods in paraphrase generation.
翻訳日:2022-11-12 03:05:28 公開日:2020-07-09
# コーディアル同期:マルチエージェント具体化タスクの限界ポリシーを超える

A Cordial Sync: Going Beyond Marginal Policies for Multi-Agent Embodied Tasks ( http://arxiv.org/abs/2007.04979v1 )

ライセンス: Link先を確認
Unnat Jain, Luca Weihs, Eric Kolve, Ali Farhadi, Svetlana Lazebnik, Aniruddha Kembhavi, Alexander Schwing(参考訳) 自律的なエージェントは協力することを学ぶ必要があります。 タスクの難しさが1つのエージェントの能力を上回る度に、新しい集中型エージェントを開発するのはスケーラビリティがない。 マルチエージェントコラボレーションの研究はグリッドワールドのような環境で盛んに行われているが、視覚的にリッチなドメインを考慮に入れた研究は比較的少ない。 そこで我々は,リビングルーム内の家具を目標に移動させるために,エージェントが協力して作業する新しいタスクFurnMoveを紹介した。 既存のタスクとは異なり、FurnMoveはエージェントが各タイミングで調整する必要がある。 既存の分散アクションサンプリング手順では,協調的な行動方針の表現が認められず,緊密な調整を必要とするタスクでは,失敗した行動の数が成功した行動を支配する。 これらの課題に対処するために、SynC-policies(行動の同期)とCORDIAL(コーディネーションロス)を導入します。 SynC-policiesとCORDIALを用いて、我々のエージェントはFurnMoveで58%の完成率を達成する。 私たちのデータセット、コード、事前トレーニングされたモデルは、https://unnat.github.io/cordial-sync で利用可能です。

Autonomous agents must learn to collaborate. It is not scalable to develop a new centralized agent every time a task's difficulty outpaces a single agent's abilities. While multi-agent collaboration research has flourished in gridworld-like environments, relatively little work has considered visually rich domains. Addressing this, we introduce the novel task FurnMove in which agents work together to move a piece of furniture through a living room to a goal. Unlike existing tasks, FurnMove requires agents to coordinate at every timestep. We identify two challenges when training agents to complete FurnMove: existing decentralized action sampling procedures do not permit expressive joint action policies and, in tasks requiring close coordination, the number of failed actions dominates successful actions. To confront these challenges we introduce SYNC-policies (synchronize your actions coherently) and CORDIAL (coordination loss). Using SYNC-policies and CORDIAL, our agents achieve a 58% completion rate on FurnMove, an impressive absolute gain of 25 percentage points over competitive decentralized baselines. Our dataset, code, and pretrained models are available at https://unnat.github.io/cordial-sync .
翻訳日:2022-11-12 03:04:15 公開日:2020-07-09