このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210723となっている論文です。

PDF登録状況(公開日: 20210723)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) GSVMA:Z-Alizadeh Saniデータセットに基づくCAD診断のための遺伝的支援ベクトルマシン-Anova法 [全文訳有]

GSVMA: A Genetic-Support Vector Machine-Anova method for CAD diagnosis based on Z-Alizadeh Sani dataset ( http://arxiv.org/abs/2108.08292v1 )

ライセンス: CC BY-SA 4.0
Javad Hassannataj Joloudari, Faezeh Azizi, Mohammad Ali Nematollahi, Roohallah Alizadehsani, Edris Hassannataj, Amir Mosavi(参考訳) 冠動脈疾患 (CAD) は, 世界中の中年者において, 心臓血管死の重要な原因の1つである。 最も一般的なツールはCAD診断のための血管造影である。 血管造影によるCAD診断の課題は費用がかかり副作用がある。 代替ソリューションの1つは、CAD診断に機械学習ベースのパターンを使用することである。 そこで本研究では,遺伝的支援ベクトルマシンと可変解析(GSVMA)と呼ばれるハイブリッド機械学習モデルを提案する。 ANOVAはSVMのカーネル関数として知られている。 提案モデルはz-alizadeh saniデータセットに基づいて実行される。 遺伝的最適化アルゴリズムは重要な特徴の選択に使用される。 さらに、データセットの分類には、Anova、Linear SVM、LibSVM、radial basis functionメソッドを使用したSVMを適用した。 その結果,GSVMAハイブリッド法は他の方法よりも優れた性能を示した。 提案手法は,z-alizadeh saniデータセット上で選択された35の特徴を持つ10倍のクロスバリデーション手法により,89.45%の精度を持つ。 したがって、遺伝的最適化アルゴリズムは精度を向上させるのに非常に効果的である。 コンピュータ支援GSVMA法はCAD診断で臨床医を助けることができる。

Coronary heart disease (CAD) is one of the crucial reasons for cardiovascular mortality in middle-aged people worldwide. The most typical tool is angiography for diagnosing CAD. The challenges of CAD diagnosis using angiography are costly and have side effects. One of the alternative solutions is the use of machine learning-based patterns for CAD diagnosis. Hence, this paper provides a new hybrid machine learning model called Genetic Support Vector Machine and Analysis of Variance (GSVMA). The ANOVA is known as the kernel function for SVM. The proposed model is performed based on the Z-Alizadeh Sani dataset. A genetic optimization algorithm is used to select crucial features. In addition, SVM with Anova, Linear SVM, and LibSVM with radial basis function methods were applied to classify the dataset. As a result, the GSVMA hybrid method performs better than other methods. This proposed method has the highest accuracy of 89.45% through a 10-fold cross-validation technique with 35 selected features on the Z-Alizadeh Sani dataset. Therefore, the genetic optimization algorithm is very effective for improving accuracy. The computer-aided GSVMA method can be helped clinicians with CAD diagnosis.
翻訳日:2021-08-22 17:04:57 公開日:2021-07-23
# gaussモデルとニューラルネットワークによる石炭燃焼過程における余剰空気係数の推定

Estimation of excess air coefficient on coal combustion processes via gauss model and artificial neural network ( http://arxiv.org/abs/2108.04180v1 )

ライセンス: Link先を確認
Sedat Golgiyaz, Muhammed Fatih Talu, Mahmut Daskin, Cem Onat(参考訳) 石炭燃焼熱システムのグローバル効率の最も重要な原因が燃焼効率であることは間違いない。 本研究では,CCDカメラで得られた炎像と余剰空気係数({\lambda})の関係をモデル化した。 データ収集と同期: 直径10cmの観測ポートに装着したCCDカメラで火炎画像を取得することにより, フラワーガス分析装置により, フラワーデータを協調的に測定し, 記録する。 2)特徴抽出:炎像を格子状に配置し、小片に分割する。 最適火炎画像に対する各ピースの均一性は、単変量および多変量ガウスのモデリング、色確率の計算、ガウス混合アプローチによって計算されている。 3)マッチングとテスト:多層人工ニューラルネットワーク(ANN)が機能-{\lambda}のマッチングに使用されている。

It is no doubt that the most important contributing cause of global efficiency of coal fired thermal systems is combustion efficiency. In this study, the relationship between the flame image obtained by a CCD camera and the excess air coefficient ({\lambda}) has been modelled. The model has been obtained with a three-stage approach: 1) Data collection and synchronization: Obtaining the flame images by means of a CCD camera mounted on a 10 cm diameter observation port, {\lambda} data has been coordinately measured and recorded by the flue gas analyzer. 2) Feature extraction: Gridding the flame image, it is divided into small pieces. The uniformity of each piece to the optimal flame image has been calculated by means of modelling with single and multivariable Gaussian, calculating of color probabilities and Gauss mixture approach. 3) Matching and testing: A multilayer artificial neural network (ANN) has been used for the matching of feature-{\lambda}.
翻訳日:2021-08-15 11:30:42 公開日:2021-07-23
# (参考訳) 会話場面における医学文献のマイニングと検索 [全文訳有]

Medical Literature Mining and Retrieval in a Conversational Setting ( http://arxiv.org/abs/2108.01436v1 )

ライセンス: CC BY 4.0
Souvik Das, Sougata Saha, and Rohini K. Srihari(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、医学研究の文献に刺激を与えた。 ウイルスを理解するための新たな研究の進展により、簡潔で消費可能な方法で文献から回答を処理、抽出、提示できる堅牢なテキストマイニングツールが必要である。 本稿では,ダイアロGPTをベースとしたマルチターン会話生成モジュールとBM-25 \&ニューラル埋め込みを用いたアンサンブル情報検索モジュールを用いて,豊かな医療文献から新型コロナウイルス関連クエリを検索・回答できる対話システムを提案し,ユーザとの会話環境で提示する。 さらに,ニューラルネットワークを用いた文書検索と従来のBM25検索アルゴリズムを比較し,結果を報告する。

The Covid-19 pandemic has caused a spur in the medical research literature. With new research advances in understanding the virus, there is a need for robust text mining tools which can process, extract and present answers from the literature in a concise and consumable way. With a DialoGPT based multi-turn conversation generation module, and BM-25 \& neural embeddings based ensemble information retrieval module, in this paper we present a conversational system, which can retrieve and answer coronavirus-related queries from the rich medical literature, and present it in a conversational setting with the user. We further perform experiments to compare neural embedding-based document retrieval and the traditional BM25 retrieval algorithm and report the results.
翻訳日:2021-08-08 11:36:12 公開日:2021-07-23
# 軟弱隣接損失のアニーリングによるテキスト分類とクラスタリング

Text Classification and Clustering with Annealing Soft Nearest Neighbor Loss ( http://arxiv.org/abs/2107.14597v1 )

ライセンス: Link先を確認
Abien Fred Agarap(参考訳) 我々は,クラス差分データポイント間の距離を,クラス差分データポイント間の距離と定義する。 表現学習中に絡み合いを最大化すると、データポイントのクラスメンバシップが保存される変換された特徴表現が得られる。 データポイントのクラスメンバシップが保存されている場合、最寄りのクラス化子やクラスタリングアルゴリズムがうまく機能する特徴表現空間を持つことになります。 この手法を利用して、より優れた自然言語表現を学習し、テキスト分類やテキストクラスタリングタスクに活用する。 乱れにより,クラスタ性が向上したテキスト表現を得るとともに,テキスト分類性能を向上させる。 我々のアプローチでは、テスト分類の精度は90.11%、テストクラスタリングの精度は88%で、私たちのベースラインモデルよりも優れています。

We define disentanglement as how far class-different data points from each other are, relative to the distances among class-similar data points. When maximizing disentanglement during representation learning, we obtain a transformed feature representation where the class memberships of the data points are preserved. If the class memberships of the data points are preserved, we would have a feature representation space in which a nearest neighbour classifier or a clustering algorithm would perform well. We take advantage of this method to learn better natural language representation, and employ it on text classification and text clustering tasks. Through disentanglement, we obtain text representations with better-defined clusters and improve text classification performance. Our approach had a test classification accuracy of as high as 90.11% and test clustering accuracy of 88% on the AG News dataset, outperforming our baseline models -- without any other training tricks or regularization.
翻訳日:2021-08-08 11:05:17 公開日:2021-07-23
# 集中治療における連続的非侵襲眼球追跡

Continuous Non-Invasive Eye Tracking In Intensive Care ( http://arxiv.org/abs/2108.01439v1 )

ライセンス: Link先を確認
Ahmed Al-Hindawi, Marcela Paula Vizcaychipi, Yiannis Demiris(参考訳) デリリウムは急激な混乱状態であり、ICU(Intensive Care Units)でよく見られる。 デリリウムを発症する患者は、そうでない患者よりも全世界的に予後が悪く、デリウムの診断が重要である。 現在の診断法にはいくつかの制限があり、眼球追跡による診断の提案につながっている。 成人ICUにおける視線追跡システムの要件を確認するため,チェルシー・アンド・ウェストミンスター病院 NHS Foundation Trust で測定を行った。 臨床基準は侵襲性とキャリブレーション法の経験的要求を指導し, 正確性と正確性を測定した。 患者向けrgbカメラとシーン向けrgbdカメラを利用した非侵襲システムを開発した。 このシステムの性能は,非侵襲的かつキャリブレーションフリーであると同時に,必要以上の精度と精度を呈する健康なボランティアによる再現実験環境で測定された。 このシステムは、ICUに配備された最初のアイトラッキングシステムである。

Delirium, an acute confusional state, is a common occurrence in Intensive Care Units (ICUs). Patients who develop delirium have globally worse outcomes than those who do not and thus the diagnosis of delirium is of importance. Current diagnostic methods have several limitations leading to the suggestion of eye-tracking for its diagnosis through in-attention. To ascertain the requirements for an eye-tracking system in an adult ICU, measurements were carried out at Chelsea & Westminster Hospital NHS Foundation Trust. Clinical criteria guided empirical requirements of invasiveness and calibration methods while accuracy and precision were measured. A non-invasive system was then developed utilising a patient-facing RGB-camera and a scene-facing RGBD-camera. The system's performance was measured in a replicated laboratory environment with healthy volunteers revealing an accuracy and precision that outperforms what is required while simultaneously being non-invasive and calibration-free The system was then deployed as part CONfuSED, a clinical feasibility study where we report aggregated data from 5 patients as well as the acceptability of the system to bedside nursing staff. The system is the first eye-tracking system to be deployed in an ICU.
翻訳日:2021-08-08 11:04:41 公開日:2021-07-23
# 畳み込みニューラルネットワークを用いたコーカサス性2次元フットプリント

Sexing Caucasian 2D footprints using convolutional neural networks ( http://arxiv.org/abs/2108.01554v1 )

ライセンス: Link先を確認
Marcin Budka, Matthew R. Bennet, Sally Reynolds, Shelby Barefoot, Sarah Reel, Selina Reidy, Jeremy Walker(参考訳) 足跡は、犯罪現場から人類学的調査まで、様々なシナリオで残されたり、得られたりする。 足跡の性別を決定することは、シングルまたはマルチランドマーク距離、形状解析、摩擦隆起の密度を用いてこのような印象や試みをスクリーニングするのに有用である。 ここでは,2次元足の印象,すなわちサイズ,形状,テクスチャの性差における異なる成分の相対的重要性について検討する。 機械学習のアプローチを使って、これを従来の差別方法と比較します。 2つのデータセット、ボーンマス大学の学生から収集されたパイロットデータセット(n=196)、シェフィールドnhs教育病院のポディアトリストによって収集されたより大きなデータセット(n=2677)が使用される。 我々の畳み込みニューラルネットワークは、すべての画像成分を用いてN=267フットプリント画像のテストセット上で、90%の精度でフットプリントをセックスすることができます。 しかし、印象の質は、この成功率に影響を及ぼすが、結果は有望であり、いずれは、どんな種類の医師(医学的または法医学的)でも、2次元の足跡の1次性交を得ることができる自動スクリーニングアルゴリズムを作成できるかもしれない。

Footprints are left, or obtained, in a variety of scenarios from crime scenes to anthropological investigations. Determining the sex of a footprint can be useful in screening such impressions and attempts have been made to do so using single or multi landmark distances, shape analyses and via the density of friction ridges. Here we explore the relative importance of different components in sexing two-dimensional foot impressions namely, size, shape and texture. We use a machine learning approach and compare this to more traditional methods of discrimination. Two datasets are used, a pilot data set collected from students at Bournemouth University (N=196) and a larger data set collected by podiatrists at Sheffield NHS Teaching Hospital (N=2677). Our convolutional neural network can sex a footprint with accuracy of around 90% on a test set of N=267 footprint images using all image components, which is better than an expert can achieve. However, the quality of the impressions impacts on this success rate, but the results are promising and in time it may be possible to create an automated screening algorithm in which practitioners of whatever sort (medical or forensic) can obtain a first order sexing of a two-dimensional footprint.
翻訳日:2021-08-08 11:04:25 公開日:2021-07-23
# 神経常微分方程式を用いたスピントロニクス実験の結果予測

Forecasting the outcome of spintronic experiments with Neural Ordinary Differential Equations ( http://arxiv.org/abs/2108.02318v1 )

ライセンス: Link先を確認
Xing Chen, Flavio Abreu Araujo, Mathieu Riou, Jacob Torrejon, Dafin\'e Ravelosona, Wang Kang, Weisheng Zhao, Julie Grollier, Damien Querlioz(参考訳) ディープラーニングは、例えば新しい素材の発見を可能にするなど、研究を支援する効果が増大している。 しかしこれまで、これらの人工知能技術は、実験的な物理システムの完全な微分方程式の発見に至らなかった。 ここでは、最小限のデータ量に基づいてトレーニングされた動的ニューラルネットワークが、通常モデル化に使用される電磁シミュレーションと比較して、高精度で極めて効率的なシミュレーション時間でスピントロニクスデバイスの挙動を予測することができることを示す。 この目的のために、神経常微分方程式(英語版)(odes)の形式をスピントロニクスの制約(計測された出力、複数の入力、内部パラメータ)に再構成する。 複雑な問題に対するマイクロ磁気シミュレーションと比較し,200以上の加速度係数をスピンニューラルodesを用いて実証した。 第2の実現法では,実験スピントロニクスナノオシレータの雑音応答を,異なる励起に対する測定応答の5ミリ秒のスピンニューラルODEのトレーニング後に予測できることが示されている。 スピンニューラルodeは、マイクロ磁気シミュレーションを補完するスピントロニクス応用を開発するための破壊的ツールであり、ノイズや不完全な場合の実験には適さない。 スピンニューラルodeは、ダイナミクスを含む他の電子機器に一般化することもできる。

Deep learning has an increasing impact to assist research, allowing, for example, the discovery of novel materials. Until now, however, these artificial intelligence techniques have fallen short of discovering the full differential equation of an experimental physical system. Here we show that a dynamical neural network, trained on a minimal amount of data, can predict the behavior of spintronic devices with high accuracy and an extremely efficient simulation time, compared to the micromagnetic simulations that are usually employed to model them. For this purpose, we re-frame the formalism of Neural Ordinary Differential Equations (ODEs) to the constraints of spintronics: few measured outputs, multiple inputs and internal parameters. We demonstrate with Spin-Neural ODEs an acceleration factor over 200 compared to micromagnetic simulations for a complex problem -- the simulation of a reservoir computer made of magnetic skyrmions (20 minutes compared to three days). In a second realization, we show that we can predict the noisy response of experimental spintronic nano-oscillators to varying inputs after training Spin-Neural ODEs on five milliseconds of their measured response to different excitations. Spin-Neural ODE is a disruptive tool for developing spintronic applications in complement to micromagnetic simulations, which are time-consuming and cannot fit experiments when noise or imperfections are present. Spin-Neural ODE can also be generalized to other electronic devices involving dynamics.
翻訳日:2021-08-08 11:03:34 公開日:2021-07-23
# (参考訳) ProtoTransformer: 学生のフィードバックを提供するメタラーニングアプローチ [全文訳有]

ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback ( http://arxiv.org/abs/2107.14035v1 )

ライセンス: CC BY 4.0
Mike Wu, Noah Goodman, Chris Piech, Chelsea Finn(参考訳) 高品質なコンピュータサイエンス教育は、大規模な学生にインストラクターのフィードバックを提供することの難しさによって制限されている。 このフィードバックは原則として自動化される可能性があるが、正しいフィードバックを予測するための教師付きアプローチは、大量の学生コードの注釈付けの難しさによってボトルネックとなる。 そこで,本研究では,メタラーナーが,教師が注釈付けしたいくつかの例から,新たなプログラミング問題に対する学生コードへのフィードバックをフィードバックするために適応する。 メタトレーニングのためのデータは限られているため、合成タスクを作成するタスク拡張や、各タスクに関するより強力な事前情報を構築するためのサイド情報など、典型的な数ショット学習フレームワークに対する多くの修正を提案する。 これらの追加は、離散シーケンス(例えば)を埋め込むトランスフォーマーアーキテクチャと組み合わせられる。 コード) フィードバッククラスラベルのプロトタイプ表現へ。 数ショットの自然言語処理タスクのスイートでは、最先端のパフォーマンスにマッチするか、向上します。 そして,初等教育課程の受験問題に対する学生ソリューションのコレクションにおいて,学習指導者の82%の精度を上回って,見当たらない質問に対して平均88%の精度に到達したことを示す。 本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。 これは、私たちの知る限りでは、機械学習ベースのフィードバックをオープンエンドの学生コードに展開する最初の成功例です。

High-quality computer science education is limited by the difficulty of providing instructor feedback to students at scale. While this feedback could in principle be automated, supervised approaches to predicting the correct feedback are bottlenecked by the intractability of annotating large quantities of student code. In this paper, we instead frame the problem of providing feedback as few-shot classification, where a meta-learner adapts to give feedback to student code on a new programming question from just a few examples annotated by instructors. Because data for meta-training is limited, we propose a number of amendments to the typical few-shot learning framework, including task augmentation to create synthetic tasks, and additional side information to build stronger priors about each task. These additions are combined with a transformer architecture to embed discrete sequences (e.g. code) to a prototypical representation of a feedback class label. On a suite of few-shot natural language processing tasks, we match or outperform state-of-the-art performance. Then, on a collection of student solutions to exam questions from an introductory university course, we show that our approach reaches an average precision of 88% on unseen questions, surpassing the 82% precision of teaching assistants. Our approach was successfully deployed to deliver feedback to 16,000 student exam-solutions in a programming course offered by a tier 1 university. This is, to the best of our knowledge, the first successful deployment of a machine learning based feedback to open-ended student code.
翻訳日:2021-08-01 12:01:39 公開日:2021-07-23
# パフォーマンスのギャップを意識する - 予測バリデーション中のデータセットシフトの検討

Mind the Performance Gap: Examining Dataset Shift During Prospective Validation ( http://arxiv.org/abs/2107.13964v1 )

ライセンス: Link先を確認
Erkin \"Otle\c{s}, Jeeheh Oh, Benjamin Li, Michelle Bochinski, Hyeon Joo, Justin Ortwine, Erica Shenoy, Laraine Washer, Vincent B. Young, Krishna Rao, Jenna Wiens(参考訳) 臨床医療に統合されると、患者のリスク階層化モデルは、振り返りのパフォーマンスよりも悪化する可能性がある。 現在までに、ケアプロセスや患者人口の変化により、パフォーマンスが経時的に低下することが広く受け入れられている。 しかし、将来的な検証性能を報告する研究者はほとんどいないため、この現象の程度はよく分かっていない。 本研究では,2020-2021('20-'21)の医療関連感染症予測のための患者リスク階層化モデルの性能を,同じモデルに対する2019-2020('19-'20)のふりかえり検証と比較した。 私たちは、レトロスペクティブと将来のパフォーマンスの違いをパフォーマンスのギャップとして定義します。 i)「時間的変化」,すなわち臨床ワークフローと患者人口の変化,ii)「インフラシフト」,すなわちデータのアクセス・抽出・変換の変化が,ともにパフォーマンスギャップに寄与していると推定する。 2020年7月から2021年6月までの12カ月間26,864件の病院通院を前向きに適用し、受信機動作特性曲線(AUROC)が0.767(95%信頼区間(CI):0.737,0.801)、ブライアスコアが0.189(95%CI:0.186,0. 191)であった。 前向きのパフォーマンスは、AUROCが0.778(95% CI: 0.744, 0.815)、Brierスコアが0.163(95% CI: 0.161, 0.165)である'19-'20の振り返りのパフォーマンスと比べてわずかに低下した。 結果として生じるパフォーマンスギャップは、主にインフラストラクチャシフトによるものであり、時間シフトによるものではない。 大規模な研究データウェアハウスに格納されたデータを使用してモデルの開発と検証を続ける限り、データアクセスの方法と時期の違いを検討し、これらの違いが将来のパフォーマンスにどのように影響するかを計測し、これらの違いを緩和するために取り組む必要があります。

Once integrated into clinical care, patient risk stratification models may perform worse compared to their retrospective performance. To date, it is widely accepted that performance will degrade over time due to changes in care processes and patient populations. However, the extent to which this occurs is poorly understood, in part because few researchers report prospective validation performance. In this study, we compare the 2020-2021 ('20-'21) prospective performance of a patient risk stratification model for predicting healthcare-associate d infections to a 2019-2020 ('19-'20) retrospective validation of the same model. We define the difference in retrospective and prospective performance as the performance gap. We estimate how i) "temporal shift", i.e., changes in clinical workflows and patient populations, and ii) "infrastructure shift", i.e., changes in access, extraction and transformation of data, both contribute to the performance gap. Applied prospectively to 26,864 hospital encounters during a twelve-month period from July 2020 to June 2021, the model achieved an area under the receiver operating characteristic curve (AUROC) of 0.767 (95% confidence interval (CI): 0.737, 0.801) and a Brier score of 0.189 (95% CI: 0.186, 0.191). Prospective performance decreased slightly compared to '19-'20 retrospective performance, in which the model achieved an AUROC of 0.778 (95% CI: 0.744, 0.815) and a Brier score of 0.163 (95% CI: 0.161, 0.165). The resulting performance gap was primarily due to infrastructure shift and not temporal shift. So long as we continue to develop and validate models using data stored in large research data warehouses, we must consider differences in how and when data are accessed, measure how these differences may affect prospective performance, and work to mitigate those differences.
翻訳日:2021-08-01 11:05:51 公開日:2021-07-23
# 持続可能な開発目標達成のための人工知能

Artificial Intelligence in Achieving Sustainable Development Goals ( http://arxiv.org/abs/2107.13966v1 )

ライセンス: Link先を確認
Hoe-Han Goh(参考訳) この視点は、SDGの達成を加速できるAIアプリケーションの一部を示し、また、それらに対する取り組みを妨げる可能性がある考慮事項を強調している。 これは、AIの有益な応用のための標準AIガイドラインと規則を確立することの重要性を強調している。

This perspective illustrates some of the AI applications that can accelerate the achievement of SDGs and also highlights some of the considerations that could hinder the efforts towards them. This emphasizes the importance of establishing standard AI guidelines and regulations for the beneficial applications of AI.
翻訳日:2021-08-01 11:04:50 公開日:2021-07-23
# (参考訳) 食料価格予測における予言と深層学習と有馬の比較 [全文訳有]

Comparing Prophet and Deep Learning to ARIMA in Forecasting Wholesale Food Prices ( http://arxiv.org/abs/2107.12770v1 )

ライセンス: CC BY 4.0
Lorenzo Menculini, Andrea Marini, Massimiliano Proietti, Alberto Garinei, Alessio Bozza, Cecilia Moretti, Marcello Marconi(参考訳) 販売価格を正しく設定することは企業にとって非常に重要であり、価格時系列の研究と予測は、データサイエンスの観点からだけでなく、経済的かつ応用的な視点からも関連する話題である。 本稿では,イタリア食品問屋が適用する食品3種の販売価格を予測するための異なる手法について検討する。 我々は、ARIMAモデルを検討し、それらを、Facebookが開発した拡張予測ツールであるProphetと、Long Short-Term Memory (LSTM)とConvolutional Neural Networks (CNN)に基づくディープラーニングモデルと比較する。 アリマモデルは計量分析でよく使われ、研究中の問題に良いベキマークを与えている。 この結果から, ARIMA は LSTM ニューラルネットワークと同等に動作し, CNN と LSTM を組み合わせることで, 全体的な精度は向上するが, 調整に要する時間が増大することがわかった。 逆にProphetは非常に速く使えるが、正確ではない。

Setting sale prices correctly is of great importance for firms, and the study and forecast of prices time series is therefore a relevant topic not only from a data science perspective but also from an economic and applicative one. In this paper we exhamine different techniques to forecast the sale prices of three food products applied by an Italian food wholesaler, as a step towards the automation of pricing tasks usually taken care by human workforce. We consider ARIMA models and compare them to Prophet, a scalable forecasting tool developed by Facebook and based on a generalized additive model, and to deep learning models based on Long Short--Term Memory (LSTM) and Convolutional Neural Networks (CNNs). ARIMA models are frequently used in econometric analyses, providing a good bechmark for the problem under study. Our results indicate that ARIMA performs similarly to LSTM neural networks for the problem under study, while the combination of CNNs and LSTMs attains the best overall accuracy, but requires more time to be tuned. On the contrary, Prophet is very fast to use, but less accurate.
翻訳日:2021-07-29 06:17:02 公開日:2021-07-23
# (参考訳) ラベル雑音学習のための現実的なシミュレーションフレームワーク [全文訳有]

A Realistic Simulation Framework for Learning with Label Noise ( http://arxiv.org/abs/2107.11413v1 )

ライセンス: CC BY 4.0
Keren Gu, Xander Masotto, Vandana Bachani, Balaji Lakshminarayanan, Jack Nikodem, Dong Yin(参考訳) 擬似ラベル手法を用いて実例依存型ノイズラベルを生成するためのシミュレーションフレームワークを提案する。 提案手法は,cifar10-hデータセットとの比較により,ラベルノイズの重要な特性を示す合成雑音ラベルを生成する。 制御可能なラベルノイズを伴って,いくつかの現実的な環境におけるノイズラベルの負の影響について検討し,ラベルノイズがより問題となる場合を理解する。 また、ノイズの多いラベルで学習するための既存のアルゴリズムをベンチマークし、我々の合成データセットとデータセットの振る舞いを独立したランダムなラベルノイズと比較する。 さらに,シミュレーションフレームワークからアノテータ情報の提供により,アノテータ機能を利用したノイズラベルの予測と修正を行う新しい手法であるラベル品質モデル(LQM)を提案する。 既存の雑音ラベル技術を適用する前にラベル補正ステップとしてLQMを追加することで、モデルの性能をさらに改善できることを示す。

We propose a simulation framework for generating realistic instance-dependent noisy labels via a pseudo-labeling paradigm. We show that this framework generates synthetic noisy labels that exhibit important characteristics of the label noise in practical settings via comparison with the CIFAR10-H dataset. Equipped with controllable label noise, we study the negative impact of noisy labels across a few realistic settings to understand when label noise is more problematic. We also benchmark several existing algorithms for learning with noisy labels and compare their behavior on our synthetic datasets and on the datasets with independent random label noise. Additionally, with the availability of annotator information from our simulation framework, we propose a new technique, Label Quality Model (LQM), that leverages annotator features to predict and correct against noisy labels. We show that by adding LQM as a label correction step before applying existing noisy label techniques, we can further improve the models' performance.
翻訳日:2021-07-28 14:15:52 公開日:2021-07-23
# (参考訳) グローバル非定常多腕バンディットの有限時間解析

Finite-time Analysis of Globally Nonstationary Multi-Armed Bandits ( http://arxiv.org/abs/2107.11419v1 )

ライセンス: CC BY 4.0
Junpei Komiyama, Edouard Fouch\'e, Junya Honda(参考訳) アームのモデルパラメータが時間とともに変化する非定常なマルチアームバンディット問題を考える。 本稿では,データストリームコミュニティの適応ウィンドウ技術を活用した帯域幅アルゴリズムのクラスであるAdaptive Resetting Bandit(ADR-bandit)を紹介する。 まず、データマイニングコミュニティに独立した関心を持つ、適応型ウィンドウ技術による推定器の品質に関する新たな保証を提供する。 さらに,ADR帯域の有限時間解析を2つの典型的な環境 – 変化が瞬時に発生する急激な環境と,変化が徐々に起こる段階的環境 – で実施する。 adr-banditは、突然あるいは大域的な変化が、地球規模の変化と呼ばれる協調的な方法で起こる場合に、ほぼ最適なパフォーマンスを示す。 グローバルな変化に対する関心を制限する場合、強制探査は不要であることを示す。 既存の非定常バンディットアルゴリズムとは異なり、adr-banditは静止環境だけでなく、グローバルに変化のある非定常環境においても最適な性能を持つ。 実験の結果,提案アルゴリズムは,合成環境や実環境において,既存の手法よりも優れていることがわかった。

We consider nonstationary multi-armed bandit problems where the model parameters of the arms change over time. We introduce the adaptive resetting bandit (ADR-bandit), which is a class of bandit algorithms that leverages adaptive windowing techniques from the data stream community. We first provide new guarantees on the quality of estimators resulting from adaptive windowing techniques, which are of independent interest in the data mining community. Furthermore, we conduct a finite-time analysis of ADR-bandit in two typical environments: an abrupt environment where changes occur instantaneously and a gradual environment where changes occur progressively. We demonstrate that ADR-bandit has nearly optimal performance when the abrupt or global changes occur in a coordinated manner that we call global changes. We demonstrate that forced exploration is unnecessary when we restrict the interest to the global changes. Unlike the existing nonstationary bandit algorithms, ADR-bandit has optimal performance in stationary environments as well as nonstationary environments with global changes. Our experiments show that the proposed algorithms outperform the existing approaches in synthetic and real-world environments.
翻訳日:2021-07-28 13:51:58 公開日:2021-07-23
# (参考訳) HierMUD: 橋梁間の階層的マルチタスク非教師領域適応による損傷診断 [全文訳有]

HierMUD: Hierarchical Multi-task Unsupervised Domain Adaptation between Bridges for Drive-by Damage Diagnosis ( http://arxiv.org/abs/2107.11435v1 )

ライセンス: CC BY-SA 4.0
Jingxiao Liu, Susu Xu, Mario Berg\'es, Hae Young Noh(参考訳) 車両の振動を利用した橋梁の健康モニタリングには、橋に直接センサーを設置し維持する必要がないなど、様々な利点がある。 しかしながら、既存のdrive-by監視アプローチの多くは、すべての関心橋からのラベル付きデータを必要とする教師付き学習モデルに基づいている。 そこで本研究では,ある橋梁から学習したモデルを伝達し,対象橋のラベルを使わずに別の橋梁の損傷を診断する新しい枠組みを提案する。 我々のフレームワークは、複数の診断タスクに有用なタスク共有およびタスク固有の特徴を抽出し、複数のブリッジで不変な階層型ニューラルネットワークモデルを訓練する。 2つの橋と3台の車両から収集した実験データに関する枠組みを評価する。 被害検出の精度は95%,局所化の93%,定量化の最大72%であり,ベースライン法に比べて約2倍改善されている。

Monitoring bridge health using vibrations of drive-by vehicles has various benefits, such as no need for directly installing and maintaining sensors on the bridge. However, many of the existing drive-by monitoring approaches are based on supervised learning models that require labeled data from every bridge of interest, which is expensive and time-consuming, if not impossible, to obtain. To this end, we introduce a new framework that transfers the model learned from one bridge to diagnose damage in another bridge without any labels from the target bridge. Our framework trains a hierarchical neural network model in an adversarial way to extract task-shared and task-specific features that are informative to multiple diagnostic tasks and invariant across multiple bridges. We evaluate our framework on experimental data collected from 2 bridges and 3 vehicles. We achieve accuracies of 95% for damage detection, 93% for localization, and up to 72% for quantification, which are ~2 times improvements from baseline methods.
翻訳日:2021-07-28 13:50:48 公開日:2021-07-23
# (参考訳) ニューラルネットワークの圧縮:最適層分解の決定に向けて [全文訳有]

Compressing Neural Networks: Towards Determining the Optimal Layer-wise Decomposition ( http://arxiv.org/abs/2107.11442v1 )

ライセンス: CC BY 4.0
Lucas Liebenwein, Alaa Maalouf, Oren Gal, Dan Feldman, Daniela Rus(参考訳) 本稿では,各層を自動的に解析して最適な層間圧縮比を同定し,同時に所望の全体圧縮を実現するディープニューラルネットワークのための新しいグローバル圧縮フレームワークを提案する。 提案手法は,各畳み込み層(あるいは完全連結層)を複数のグループにスライスし,低ランク分解により各グループを分解する手法に依拠する。 アルゴリズムの核心は、エッカート・ヤング・ミルスキーの定理による層分解誤差境界の導出である。 次に、これらの境界を利用して圧縮問題を最適化問題とし、層間の最大圧縮誤差を最小限に抑え、解に対する効率的なアルゴリズムを提案する。 実験の結果,提案手法は,既存の低ランク圧縮手法を,幅広いネットワークやデータセットで採用している。 我々は,現代のニューラルネットワークのグローバルなパフォーマンス-サイズトレードオフに関する今後の研究の新たな道を開くと信じている。 私たちのコードはhttps://github.com/l ucaslie/torchpruneで利用可能です。

We present a novel global compression framework for deep neural networks that automatically analyzes each layer to identify the optimal per-layer compression ratio, while simultaneously achieving the desired overall compression. Our algorithm hinges on the idea of compressing each convolutional (or fully-connected) layer by slicing its channels into multiple groups and decomposing each group via low-rank decomposition. At the core of our algorithm is the derivation of layer-wise error bounds from the Eckart Young Mirsky theorem. We then leverage these bounds to frame the compression problem as an optimization problem where we wish to minimize the maximum compression error across layers and propose an efficient algorithm towards a solution. Our experiments indicate that our method outperforms existing low-rank compression approaches across a wide range of networks and data sets. We believe that our results open up new avenues for future research into the global performance-size trade-offs of modern neural networks. Our code is available at https://github.com/l ucaslie/torchprune.
翻訳日:2021-07-28 13:12:38 公開日:2021-07-23
# (参考訳) 深層学習に基づく心臓MRIのセグメンテーション:専門家は必要か? [全文訳有]

Deep Learning Based Cardiac MRI Segmentation: Do We Need Experts? ( http://arxiv.org/abs/2107.11447v1 )

ライセンス: CC BY 4.0
Youssef Skandarani, Pierre-Marc Jodoin and Alain Lalande(参考訳) ディープ・ラーニング(Deep Learning)は、医療画像解析タスクのデファクト・ソリューションである。 心臓MRIセグメント化(Cardiac MRI segmentation)は、他の多くのアプリケーションと同様に、トレーニングされたネットワークが適切に一般化できるように、大量の注釈付きデータを必要とするアプリケーションである。 残念なことに、医療専門家による大量の手作業による画像のキュレーションプロセスは、遅くて全く高価である。 本稿では、機械学習がうまくトレーニングできる注釈付きデータセットの作成において、専門家の知識が厳しい要件であるかどうかを検討する。 そこで我々は,U-Net,Attention U-Net,ENetの3つのセグメンテーションモデルの性能評価を行った。 心室吐出率や心筋量など,古典的セグメンテーション測定値(Dice index, Hausdorff distance)と臨床測定値を用いて評価を行った。 その結果,非熟練の基幹データで訓練されたセグメンテーションニューラルネットの一般化性能は,専門家の基幹データと同等に実用的であり,特に非熟練者が適正なトレーニングレベルを得た場合において,心臓データセットのためのアノテーションを効率的かつ安価に作成する機会を浮き彫りにした。

Deep learning methods are the de-facto solutions to a multitude of medical image analysis tasks. Cardiac MRI segmentation is one such application which, like many others, requires a large number of annotated data so a trained network can generalize well. Unfortunately, the process of having a large number of manually curated images by medical experts is both slow and utterly expensive. In this paper, we set out to explore whether expert knowledge is a strict requirement for the creation of annotated datasets that machine learning can successfully train on. To do so, we gauged the performance of three segmentation models, namely U-Net, Attention U-Net, and ENet, trained with different loss functions on expert and non-expert groundtruth for cardiac cine-MRI segmentation. Evaluation was done with classic segmentation metrics (Dice index and Hausdorff distance) as well as clinical measurements, such as the ventricular ejection fractions and the myocardial mass. Results reveal that generalization performances of a segmentation neural network trained on non-expert groundtruth data is, to all practical purposes, as good as on expert groundtruth data, in particular when the non-expert gets a decent level of training, highlighting an opportunity for the efficient and cheap creation of annotations for cardiac datasets.
翻訳日:2021-07-28 12:36:20 公開日:2021-07-23
# (参考訳) 機械学習を用いた射撃場における騒音事象の自動検出 [全文訳有]

Automatic Detection Of Noise Events at Shooting Range Using Machine Learning ( http://arxiv.org/abs/2107.11453v1 )

ライセンス: CC BY-SA 4.0
Jon Nordby, Fabian Nemazi, Dag Rieber(参考訳) 屋外射撃場は、地方や国家当局の騒音規制の対象となっている。 これらの規則で見出される制限には、活動時間、ノイズイベントの全体数、ノイズの種類やアクティビティのクラスによるイベント数制限が含まれる。 騒音監視システムは、全体の音レベルを追跡するために用いられるが、このような規制と直接比較するために必要な活動を検出したり、イベント数を数えたりすることは滅多にない。 本研究では,ノイズイベントをカウントする自動検出システムの実現可能性と性能について検討する。 新たに構築した射撃場と訓練施設でデータを収集し,実験的な評価を行った。 このデータには、小火器から高口径ライフルや爆発物まで、複数のソース位置で複数の武器構成をテストし、異なる日に収集するテストが含まれている。 いくつかの機械学習モデルがテストされ、A重音レベルや1/3オクターブスペクトログラムなどの標準音響指標と、ロジスティック回帰や畳み込みニューラルネットワークのような分類器の入力として使用される。 様々な代替案のパフォーマンスは偽陽性率と偽陰性率で報告される。 検出性能はトレーニング活動を伴う時間の自動記録に有効であることが判明した。

Outdoor shooting ranges are subject to noise regulations from local and national authorities. Restrictions found in these regulations may include limits on times of activities, the overall number of noise events, as well as limits on number of events depending on the class of noise or activity. A noise monitoring system may be used to track overall sound levels, but rarely provide the ability to detect activity or count the number of events, required to compare directly with such regulations. This work investigates the feasibility and performance of an automatic detection system to count noise events. An empirical evaluation was done by collecting data at a newly constructed shooting range and training facility. The data includes tests of multiple weapon configurations from small firearms to high caliber rifles and explosives, at multiple source positions, and collected on multiple different days. Several alternative machine learning models are tested, using as inputs time-series of standard acoustic indicators such as A-weighted sound levels and 1/3 octave spectrogram, and classifiers such as Logistic Regression and Convolutional Neural Networks. Performance for the various alternatives are reported in terms of the False Positive Rate and False Negative Rate. The detection performance was found to be satisfactory for use in automatic logging of time-periods with training activity.
翻訳日:2021-07-28 12:22:38 公開日:2021-07-23
# (参考訳) 畳み込みオートエンコーダを用いた多孔質媒質中の自然対流の非侵入的減少次数モデリング:線形部分空間法との比較

Non-intrusive reduced order modeling of natural convection in porous media using convolutional autoencoders: comparison with linear subspace techniques ( http://arxiv.org/abs/2107.11460v1 )

ライセンス: CC BY 4.0
T. Kadeethum, F. Ballarin, Y. Cho, D. O'Malley, H. Yoon, N. Bouklas(参考訳) 多孔質媒質中の自然対流は、多くの工学的応用(例えば$\mathrm{CO_2}$Sequestration)に関連する非常に非線形な多物理問題である。 本稿では, 圧縮・再構成に深い畳み込み自己エンコーダを用いた多孔質媒体の自然対流の非侵襲的縮小秩序モデルと, 対応する非線形多様体上の偏微分方程式 (PDE) のパラメータに対する放射基底関数 (RBF) 補間あるいは人工ニューラルネットワーク (ANN) について述べる。 また, 線形圧縮と再構成プロセスについて, 正規直交分解 (POD) と ANN を用いて検討した。 3つのベンチマーク問題を通じて,異なるモデル間の包括的比較を行う。 還元次数モデル、線形および非線形アプローチは有限要素モデルよりもはるかに高速であり、我々のフレームワークはCourant-Friedrichs-L ewy条件に縛られないため、最大速度は7 \times 10^{6}$となる。 我々のモデルの精度は、最悪のシナリオでは平均2乗誤差0.07(有限要素結果の最大値より2桁低い)の範囲内にある。 我々は、特定の設定において、非線形アプローチが線形アプローチよりも優れており、逆もまた可能であることを示す。 主成分分析 (PCA) と t-Distributed Stochastic Neighbor Embedding (T-SNE) の視覚的比較は, 特定の圧縮戦略を採用する前にどの手法がより良く動作するかを示すことができる。

Natural convection in porous media is a highly nonlinear multiphysical problem relevant to many engineering applications (e.g., the process of $\mathrm{CO_2}$ sequestration). Here, we present a non-intrusive reduced order model of natural convection in porous media employing deep convolutional autoencoders for the compression and reconstruction and either radial basis function (RBF) interpolation or artificial neural networks (ANNs) for mapping parameters of partial differential equations (PDEs) on the corresponding nonlinear manifolds. To benchmark our approach, we also describe linear compression and reconstruction processes relying on proper orthogonal decomposition (POD) and ANNs. We present comprehensive comparisons among different models through three benchmark problems. The reduced order models, linear and nonlinear approaches, are much faster than the finite element model, obtaining a maximum speed-up of $7 \times 10^{6}$ because our framework is not bound by the Courant-Friedrichs-L ewy condition; hence, it could deliver quantities of interest at any given time contrary to the finite element model. Our model's accuracy still lies within a mean squared error of 0.07 (two-order of magnitude lower than the maximum value of the finite element results) in the worst-case scenario. We illustrate that, in specific settings, the nonlinear approach outperforms its linear counterpart and vice versa. We hypothesize that a visual comparison between principal component analysis (PCA) or t-Distributed Stochastic Neighbor Embedding (t-SNE) could indicate which method will perform better prior to employing any specific compression strategy.
翻訳日:2021-07-28 12:14:06 公開日:2021-07-23
# (参考訳) 線形プローブのクロスタスクグリッドを用いた網膜画像上のCNNモデル予測の解釈 [全文訳有]

Using a Cross-Task Grid of Linear Probes to Interpret CNN Model Predictions On Retinal Images ( http://arxiv.org/abs/2107.11468v1 )

ライセンス: CC BY 4.0
Katy Blumer, Subhashini Venugopalan, Michael P. Brenner, Jon Kleinberg(参考訳) 網膜画像のデータセットを線形プローブを用いて解析する: ある"ターゲット"タスクでトレーニングされた線形回帰モデル、ある"ソース"タスクでトレーニングされたディープ畳み込み(cnn)モデルからの埋め込みを入力として使用する。 我々はこの手法を、UK Biobankの網膜画像データセットにおける93タスクの可能な全てのペアリングに使用し、約164kの異なるモデルに導いた。 我々は,これらの線形プローブの性能を,震源および対象タスクと層深さで解析する。 ネットワークの中間層からの表現がより一般化可能であることを観察する。 対象タスクのいくつかは、ソースタスクに関係なく容易に予測でき、他の対象タスクは、同じタスクでトレーニングされた組込みよりも、相関したソースタスクからより正確に予測できる。

We analyze a dataset of retinal images using linear probes: linear regression models trained on some "target" task, using embeddings from a deep convolutional (CNN) model trained on some "source" task as input. We use this method across all possible pairings of 93 tasks in the UK Biobank dataset of retinal images, leading to ~164k different models. We analyze the performance of these linear probes by source and target task and by layer depth. We observe that representations from the middle layers of the network are more generalizable. We find that some target tasks are easily predicted irrespective of the source task, and that some other target tasks are more accurately predicted from correlated source tasks than from embeddings trained on the same task.
翻訳日:2021-07-28 12:12:38 公開日:2021-07-23
# (参考訳) plinko: 統計的学習とメンタルモデル更新のための事前の理論自由行動尺度 [全文訳有]

Plinko: A Theory-Free Behavioral Measure of Priors for Statistical Learning and Mental Model Updating ( http://arxiv.org/abs/2107.11477v1 )

ライセンス: CC BY 4.0
Peter A. V. DiBerardino, Alexandre L. S. Filipowicz, James Danckert, Britt Anderson(参考訳) 確率分布はベイズ人の認知的説明の中心であるが、行動評価はそれらを直接測定しない。 後部分布は通常、個々の参加者の行動の集合から計算されるが、参加者の信念の内部構造に関する結論を引き出すために用いられる。 また、明確に測定されていないのは、ベイズ模型と他者とを区別する以前の分布である。 代わりに、事前は実験者の直観やモデル仮定から導き出され、全ての参加者に等しく適用される。 本稿では,すべての結果に対してボール滴の分布を推定し,観察前に分布を明示的に測定する行動課題である「plinko」を用いた3つの実験について述べる。 実験1では,主観的確率分布(ガウス,バイモーダルなど)に先行する参加者が集まることを示す。 また,事前クラスタメンバシップは学習能力を示す可能性がある。 実験2では,発表されていない分布の変化に更新する能力と,環境操作による影響を強調する。 最後に,実験3では,個々の参加者が信頼できる表現であり,個々の参加者の入力に応じて動的に定義されたボールドロップ分布に直面すると,学習が妨げられなくなることを検証した。 この課題は、より伝統的な計算モデリング手法による仮定の多くを必要とせずに、統計学習とメンタルモデル更新のメカニズムをより精査する上で有用である。

Probability distributions are central to Bayesian accounts of cognition, but behavioral assessments do not directly measure them. Posterior distributions are typically computed from collections of individual participant actions, yet are used to draw conclusions about the internal structure of participant beliefs. Also not explicitly measured are the prior distributions that distinguish Bayesian models from others by representing initial states of belief. Instead, priors are usually derived from experimenters' intuitions or model assumptions and applied equally to all participants. Here we present three experiments using "Plinko", a behavioral task in which participants estimate distributions of ball drops over all available outcomes and where distributions are explicitly measured before any observations. In Experiment 1, we show that participant priors cluster around prototypical probability distributions (Gaussian, bimodal, etc.), and that prior cluster membership may indicate learning ability. In Experiment 2, we highlight participants' ability to update to unannounced changes of presented distributions and how this ability is affected by environmental manipulation. Finally, in Experiment 3, we verify that individual participant priors are reliable representations and that learning is not impeded when faced with a physically implausible ball drop distribution that is dynamically defined according to individual participant input. This task will prove useful in more closely examining mechanisms of statistical learning and mental model updating without requiring many of the assumptions made by more traditional computational modeling methodologies.
翻訳日:2021-07-28 11:22:40 公開日:2021-07-23
# (参考訳) 類似性に基づく対話生成のためのラベル平滑化 [全文訳有]

Similarity Based Label Smoothing For Dialogue Generation ( http://arxiv.org/abs/2107.11481v1 )

ライセンス: CC BY 4.0
Sougata Saha, Souvik Das, Rohini Srihari(参考訳) 生成的神経会話システムは一般に、訓練対象の「堅い」目標と予測ロジットの間のエントロピー損失を最小限に抑える目的で訓練される。 しばしば、"ハード"ターゲットを"ソフト"ターゲットに変換するラベル平滑化のような正規化技術を使うことで、パフォーマンスの向上と一般化が達成される。 しかし、ラベルの平滑化は、不正なトレーニング目標に対するデータ独立の均一分布を強制し、各目標に対して不適切な確率的不正確なターゲットを誤った仮定に導く。 本稿では,ラベルの平滑化における不正確な対象確率の均一分布を意味論に基づくより自然な分布に変換するために,データ依存語類似度に基づく重み付け手法を提案する。 また,2つの標準オープンドメイン対話コーパスを用いて,標準ラベルの平滑化に基づく損失をトレーニングしたネットワークに対して,高い性能向上を報告した。

Generative neural conversational systems are generally trained with the objective of minimizing the entropy loss between the training "hard" targets and the predicted logits. Often, performance gains and improved generalization can be achieved by using regularization techniques like label smoothing, which converts the training "hard" targets to "soft" targets. However, label smoothing enforces a data independent uniform distribution on the incorrect training targets, which leads to an incorrect assumption of equi-probable incorrect targets for each correct target. In this paper we propose and experiment with incorporating data dependent word similarity based weighing methods to transforms the uniform distribution of the incorrect target probabilities in label smoothing, to a more natural distribution based on semantics. We introduce hyperparameters to control the incorrect target distribution, and report significant performance gains over networks trained using standard label smoothing based loss, on two standard open domain dialogue corpora.
翻訳日:2021-07-28 10:56:38 公開日:2021-07-23
# Robust Explainability:Deep Neural Networksのためのグラディエントベース属性法に関するチュートリアル

Robust Explainability: A Tutorial on Gradient-Based Attribution Methods for Deep Neural Networks ( http://arxiv.org/abs/2107.11400v1 )

ライセンス: Link先を確認
Ian E. Nielsen, Ghulam Rasool, Dimah Dera, Nidhal Bouaynaya, Ravi P. Ramachandran(参考訳) ディープニューラルネットワークの台頭に伴い、これらのネットワークの予測を説明するという課題がますます認識されるようになった。 ディープニューラルネットワークの判断を説明する多くの方法が存在するが、それらを評価する方法についてのコンセンサスはない。 一方、堅牢性は深層学習研究において一般的な話題であるが、説明可能性についてはごく最近までほとんど語られていない。 本稿では,勾配に基づく解釈可能性法を提案することから始める。 これらの手法は、入力特徴に対する決定の重み付けに勾配信号を使用する。 その後,そのロバスト性について,勾配に基づく手法がどのように評価されるか,また,逆ロバスト性が有意義な説明に果たす役割について論じる。 また,勾配に基づく手法の限界についても論じる。 最後に,説明可能性を選択する前に検討すべきベストプラクティスと属性を紹介する。 我々は、堅牢性と説明可能性の収束における研究の今後の方向性を結論づける。

With the rise of deep neural networks, the challenge of explaining the predictions of these networks has become increasingly recognized. While many methods for explaining the decisions of deep neural networks exist, there is currently no consensus on how to evaluate them. On the other hand, robustness is a popular topic for deep learning research; however, it is hardly talked about in explainability until very recently. In this tutorial paper, we start by presenting gradient-based interpretability methods. These techniques use gradient signals to assign the burden of the decision on the input features. Later, we discuss how gradient-based methods can be evaluated for their robustness and the role that adversarial robustness plays in having meaningful explanations. We also discuss the limitations of gradient-based methods. Finally, we present the best practices and attributes that should be examined before choosing an explainability method. We conclude with the future directions for research in the area at the convergence of robustness and explainability.
翻訳日:2021-07-27 16:27:56 公開日:2021-07-23
# egg:eigen-gap guide search\\ make subspace clustering

EGGS: Eigen-Gap Guided Search\\ Making Subspace Clustering Easy ( http://arxiv.org/abs/2107.12183v1 )

ライセンス: Link先を確認
Jicong Fan, Yiheng Tu, Zhao Zhang, Mingbo Zhao(参考訳) スペクトルクラスタリングの性能は親和性マトリックスの品質に大きく依存する。 様々な親和性-行列-構成法が提案されているが、前もって決定するハイパーパラメータがあり、特にクラスタ間類似度が高い場合やデータセットが大きい場合、特に実際のアプリケーションでは困難となる。 一方、経験に依存している線形モデルや非線形モデルを使うかどうかを判断する必要があることが多い。 本稿では,これら2つの問題を解決するために,部分空間クラスタリングのための固有ガップ誘導探索法を提案する。 主アイデアは、線形回帰と核回帰によって構築された候補群の中で最も信頼性の高い親和性行列を見出すことであり、ここでは、この論文で定義されたグラフラプラシアンの \textit{relative-eigen-gap} によって信頼性を定量化する。 理論的および数値的に、相対固有ギャップが大きいラプラシアン行列は、クラスタリングの精度と安定性が高くなることが示されている。 本手法は,事前定義された空間における最良モデルとハイパーパラメータを自動的に探索することができる。 探索空間は非常に容易に決定でき、任意に大きいが、比較的コンパクトな探索空間は、非常に不要な計算を減らすことができる。 提案手法は実アプリケーションにおいて高い柔軟性と利便性を有し,また,アフィニティ行列が反復最適化によって計算されないため,計算コストも低い。 本手法をmnistなどの大規模データセットに拡張し,時間コストが90秒未満でクラスタリング精度が最先端であることを示す。 自然画像クラスタリングの広範な実験により,本手法はベースライン法よりも安定で精度が高く,効率的であることが判明した。

The performance of spectral clustering heavily relies on the quality of affinity matrix. A variety of affinity-matrix-cons truction methods have been proposed but they have hyper-parameters to determine beforehand, which requires strong experience and lead to difficulty in real applications especially when the inter-cluster similarity is high or/and the dataset is large. On the other hand, we often have to determine to use a linear model or a nonlinear model, which still depends on experience. To solve these two problems, in this paper, we present an eigen-gap guided search method for subspace clustering. The main idea is to find the most reliable affinity matrix among a set of candidates constructed by linear and kernel regressions, where the reliability is quantified by the \textit{relative-eigen-gap} of graph Laplacian defined in this paper. We show, theoretically and numerically, that the Laplacian matrix with a larger relative-eigen-gap often yields a higher clustering accuracy and stability. Our method is able to automatically search the best model and hyper-parameters in a pre-defined space. The search space is very easy to determine and can be arbitrarily large, though a relatively compact search space can reduce the highly unnecessary computation. Our method has high flexibility and convenience in real applications, and also has low computational cost because the affinity matrix is not computed by iterative optimization. We extend the method to large-scale datasets such as MNIST, on which the time cost is less than 90s and the clustering accuracy is state-of-the-art. Extensive experiments of natural image clustering show that our method is more stable, accurate, and efficient than baseline methods.
翻訳日:2021-07-27 16:21:48 公開日:2021-07-23
# 制限放射を用いた自由双曲型ニューラルネットワーク

Free Hyperbolic Neural Networks with Limited Radii ( http://arxiv.org/abs/2107.11472v1 )

ライセンス: Link先を確認
Yunhui Guo and Xudong Wang and Yubei Chen and Stella X. Yu(参考訳) 一定の負の曲率を持つ非ユークリッド幾何学、すなわち双曲空間は、機械学習のコミュニティにおいて引き続き注目を集めている。 階層構造を低歪みで連続的に埋め込む能力により、双曲空間は木のような構造を持つデータ学習に応用されている。 双曲型空間で直接動作する双曲型ニューラルネットワーク(HNN)も近年、双曲型表現の可能性をさらに活用するために提案されている。 HNNは、暗黙の階層構造を持つデータセット上でのユークリッドニューラルネットワーク(ENN)よりも優れたパフォーマンスを実現しているが、CIFARやImageNetのような標準分類ベンチマークでは依然としてパフォーマンスが低い。 従来の知恵は、データがHNNを適用する際に双曲幾何学を尊重することが重要であるということである。 本稿では,まず,標準認識データセットにおけるhnnの劣る性能は,悪名高い消失勾配問題に起因していることを示す実証研究を行う。 さらに、この問題はHNNのハイブリッドアーキテクチャに由来することが判明した。 この手法は,標準値が与えられたしきい値を超えるといつでも,双曲的埋め込みを規則化する。 提案手法は, バックプロパゲーションによるHNNのトレーニングにおいて, 消失する勾配問題を回避することができることを示す。 改良されたHNNは、MNIST、CIFAR10、CIFAR100、ImageNetなどの標準画像認識データセット上で、ENNと同等のパフォーマンスを達成できると同時に、より敵対的な堅牢性とより強力な分布検出能力を示すことができる。

Non-Euclidean geometry with constant negative curvature, i.e., hyperbolic space, has attracted sustained attention in the community of machine learning. Hyperbolic space, owing to its ability to embed hierarchical structures continuously with low distortion, has been applied for learning data with tree-like structures. Hyperbolic Neural Networks (HNNs) that operate directly in hyperbolic space have also been proposed recently to further exploit the potential of hyperbolic representations. While HNNs have achieved better performance than Euclidean neural networks (ENNs) on datasets with implicit hierarchical structure, they still perform poorly on standard classification benchmarks such as CIFAR and ImageNet. The traditional wisdom is that it is critical for the data to respect the hyperbolic geometry when applying HNNs. In this paper, we first conduct an empirical study showing that the inferior performance of HNNs on standard recognition datasets can be attributed to the notorious vanishing gradient problem. We further discovered that this problem stems from the hybrid architecture of HNNs. Our analysis leads to a simple yet effective solution called Feature Clipping, which regularizes the hyperbolic embedding whenever its norm exceeding a given threshold. Our thorough experiments show that the proposed method can successfully avoid the vanishing gradient problem when training HNNs with backpropagation. The improved HNNs are able to achieve comparable performance with ENNs on standard image recognition datasets including MNIST, CIFAR10, CIFAR100 and ImageNet, while demonstrating more adversarial robustness and stronger out-of-distribution detection capability.
翻訳日:2021-07-27 16:20:16 公開日:2021-07-23
# TargetNet: ディープニューラルネットワークによる機能的マイクロRNAターゲット予測

TargetNet: Functional microRNA Target Prediction with Deep Neural Networks ( http://arxiv.org/abs/2107.11381v1 )

ライセンス: Link先を確認
Seonwoo Min, Byunghan Lee, and Sungroh Yoon(参考訳) マイクロRNA(miRNA)はメッセンジャーRNA(mRNA)の標的部位に結合することで遺伝子発現調節に重要な役割を果たす。 miRNAの機能的標的を特定することは最も重要であるが、その予測は依然として大きな課題である。 従来の計算アルゴリズムには大きな制限がある。 彼らは、主に標準サイトタイプに焦点をあてた保守的候補標的サイト(CTS)の選択基準を使用し、手間と時間を要する手動の特徴抽出に依存しており、miRNA-CTS相互作用の根底にある情報を十分に活用していない。 本稿では,機能的miRNAターゲット予測のための新しいディープラーニングベースのアルゴリズムであるTargetNetを紹介する。 従来のアプローチの限界に対処するため、TargetNetは、(1)種子領域の不規則性を調節するCTS選択基準の緩和、(2)拡張種子領域アライメントを組み込んだ新しいmiRNA-CTSシークエンシングスキーム、(3)深い残留ネットワークベースの予測モデル、の3つの重要な要素を有している。 提案モデルは,miRNA-CTSペアデータセットを用いて訓練し,miRNA-mRNAペアデータセットを用いて評価した。 TargetNetは、機能的miRNAターゲット分類で使用される以前の最先端アルゴリズムを前進させる。 さらに、高機能なmiRNAターゲットを識別する大きな可能性を示す。

MicroRNAs (miRNAs) play pivotal roles in gene expression regulation by binding to target sites of messenger RNAs (mRNAs). While identifying functional targets of miRNAs is of utmost importance, their prediction remains a great challenge. Previous computational algorithms have major limitations. They use conservative candidate target site (CTS) selection criteria mainly focusing on canonical site types, rely on laborious and time-consuming manual feature extraction, and do not fully capitalize on the information underlying miRNA-CTS interactions. In this paper, we introduce TargetNet, a novel deep learning-based algorithm for functional miRNA target prediction. To address the limitations of previous approaches, TargetNet has three key components: (1) relaxed CTS selection criteria accommodating irregularities in the seed region, (2) a novel miRNA-CTS sequence encoding scheme incorporating extended seed region alignments, and (3) a deep residual network-based prediction model. The proposed model was trained with miRNA-CTS pair datasets and evaluated with miRNA-mRNA pair datasets. TargetNet advances the previous state-of-the-art algorithms used in functional miRNA target classification. Furthermore, it demonstrates great potential for distinguishing high-functional miRNA targets.
翻訳日:2021-07-27 16:18:16 公開日:2021-07-23
# バニラ政策勾配の一般的なサンプル複雑性解析

A general sample complexity analysis of vanilla policy gradient ( http://arxiv.org/abs/2107.11433v1 )

ライセンス: Link先を確認
Rui Yuan, Robert M. Gower, Alessandro Lazaric(参考訳) 政策勾配(PG)は強化学習(RL)問題を解く最も一般的な方法の1つである。 しかしながら、"バニラ" PG さえもしっかりとした理論的理解は長い間解明され続けている。 本稿では、非凸最適化におけるSGD解析のために開発された最近のツールを適用し、推定勾配のノルムの第2モーメントにおける目的関数と弱条件の滑らか性仮定の下で、REINFORCEとGPOMDPの収束保証を得る。 ポリシー空間の一般的な仮定の下でインスタンス化されると、我々の一般的な結果は、既存の$\widetilde{\mathcal{O}}(\epsilon^{-4})$サンプルの複雑さを保証するが、以前の文献では幅広いパラメータ(例えば、ステップサイズとバッチサイズ$m$)に対して直ちに回復する。 特に、この結果には単一の軌道の場合(例えば$m=1$)が含まれており、文献で利用可能な以前の結果を修正することで、問題固有のパラメータへの依存性をより正確に分析することができる。 非凸最適化による最先端ツールの統合は、pg法が強い理論的保証を享受するより広い範囲の問題を特定できると信じている。

The policy gradient (PG) is one of the most popular methods for solving reinforcement learning (RL) problems. However, a solid theoretical understanding of even the "vanilla" PG has remained elusive for long time. In this paper, we apply recent tools developed for the analysis of SGD in non-convex optimization to obtain convergence guarantees for both REINFORCE and GPOMDP under smoothness assumption on the objective function and weak conditions on the second moment of the norm of the estimated gradient. When instantiated under common assumptions on the policy space, our general result immediately recovers existing $\widetilde{\mathcal{O}}(\epsilon^{-4})$ sample complexity guarantees, but for wider ranges of parameters (e.g., step size and batch size $m$) with respect to previous literature. Notably, our result includes the single trajectory case (i.e., $m=1$) and it provides a more accurate analysis of the dependency on problem-specific parameters by fixing previous results available in the literature. We believe that the integration of state-of-the-art tools from non-convex optimization may lead to identify a much broader range of problems where PG methods enjoy strong theoretical guarantees.
翻訳日:2021-07-27 16:15:26 公開日:2021-07-23
# wav2vec 2.0を用いたポルトガル語音声認識

Brazilian Portuguese Speech Recognition Using Wav2vec 2.0 ( http://arxiv.org/abs/2107.11414v1 )

ライセンス: Link先を確認
Lucas Rafael Stefanel Gris, Edresson Casanova, Frederico Santos de Oliveira, Anderson da Silva Soares, Arnaldo Candido Junior(参考訳) 深層学習技術は様々なタスクにおいて効率的であることが示されており、特に音声認識システム、すなわち音声の文を一連の単語で書き起こすシステムの開発において有効であることが示されている。 この地域の進歩にもかかわらず、特にブラジルポルトガル語のように利用可能なデータを持たない言語では、音声認識は依然として難しいと考えられている。 本研究は,ブラジルのポルトガル語データを用いた多くの言語で事前訓練されたWav2vec 2.0 XLSR-53モデルの微調整から,オープンな音声データのみを用いた公開音声認識システムの開発について述べる。 最終モデルはワードエラー率11.95%(共通音声データセット)である。 これは、我々の知る限り、ブラジルのポルトガル語における最高のオープン自動音声認識モデルよりも13%少ない。 一般に、この研究は、利用可能なデータが少ない言語であっても、堅牢なシステムの開発において、特にWav2vec 2.0アーキテクチャを使用した自己監督学習技術の使用を検証する。

Deep learning techniques have been shown to be efficient in various tasks, especially in the development of speech recognition systems, that is, systems that aim to transcribe a sentence in audio in a sequence of words. Despite the progress in the area, speech recognition can still be considered difficult, especially for languages lacking available data, as Brazilian Portuguese. In this sense, this work presents the development of an public Automatic Speech Recognition system using only open available audio data, from the fine-tuning of the Wav2vec 2.0 XLSR-53 model pre-trained in many languages over Brazilian Portuguese data. The final model presents a Word Error Rate of 11.95% (Common Voice Dataset). This corresponds to 13% less than the best open Automatic Speech Recognition model for Brazilian Portuguese available according to our best knowledge, which is a promising result for the language. In general, this work validates the use of self-supervising learning techniques, in special, the use of the Wav2vec 2.0 architecture in the development of robust systems, even for languages having few available data.
翻訳日:2021-07-27 16:12:53 公開日:2021-07-23
# 多エージェント深部強化学習のための協調探索

Cooperative Exploration for Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2107.11444v1 )

ライセンス: Link先を確認
Iou-Jen Liu, Unnat Jain, Raymond A. Yeh, Alexander G. Schwing(参考訳) 探索は深い強化学習のよい結果に不可欠であり、多くの注目を集めている。 しかし、既存のマルチエージェントディープ強化学習アルゴリズムは、主にノイズベースの手法を用いている。 近年,複数エージェント間の連携を考慮した探索手法が開発されている。 エージェントは探索する価値のある状態を特定するのに苦労し、それらの州に対する探検活動の調整をほとんど行わない。 本稿では,協調型マルチエージェント探索(CMAE):エージェントが探索中に共通の目標を共有することを提案する。 ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。 そしてエージェントは、この目標を協調的に達成するように訓練される。 CMAEは多粒子環境(MPE)のスパース・リワード版やスタークラフト・マルチエージェント・チャレンジ(SMAC)など,様々なタスクのベースラインを一貫して上回ることを示す。

Exploration is critical for good results in deep reinforcement learning and has attracted much attention. However, existing multi-agent deep reinforcement learning algorithms still use mostly noise-based techniques. Very recently, exploration methods that consider cooperation among multiple agents have been developed. However, existing methods suffer from a common challenge: agents struggle to identify states that are worth exploring, and hardly coordinate exploration efforts toward those states. To address this shortcoming, in this paper, we propose cooperative multi-agent exploration (CMAE): agents share a common goal while exploring. The goal is selected from multiple projected state spaces via a normalized entropy-based technique. Then, agents are trained to reach this goal in a coordinated manner. We demonstrate that CMAE consistently outperforms baselines on various tasks, including a sparse-reward version of the multiple-particle environment (MPE) and the Starcraft multi-agent challenge (SMAC).
翻訳日:2021-07-27 16:11:31 公開日:2021-07-23
# 映像活動における時間的・意味的関係

Cross-Sentence Temporal and Semantic Relations in Video Activity Localisation ( http://arxiv.org/abs/2107.11443v1 )

ライセンス: Link先を確認
Jiabo Huang, Yang Liu, Shaogang Gong and Hailin Jin(参考訳) ビデオのアクティビティのローカライゼーションは、言語記述(文)に対応する最も健全な視覚セグメントを、非トリミングビデオや非構造化ビデオから自動的にローカライズするという実用的価値から、近年注目を集めている。 教師付きモデルトレーニングには、文(ビデオモーメント)に対する各ビデオセグメントの開始時と終了時のインデックスの時間アノテーションを与える必要がある。 これは非常に高価であるだけでなく、曖昧さや主観的アノテーションバイアスにも敏感である。 本研究では、映像モーメントの提案生成にCRM(クロス・センテンス・リレーションズ・マイニング)を導入し、時間単位のアノテーションのないアクティビティの項記述のみを利用できるようにすることで、より正確な教師付きソリューションを開発する。 具体的には,(1)時間的順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つについて検討する。 既存の弱教師付き手法は, クロス文節文脈を考慮せずに, トレーニングにおけるシーン内ビデオセグメントの相関についてのみ検討する。 これは、視覚的にビデオモーメントの提案を別々に区別しない個々の文のあいまいな表現のために誤解を招く可能性がある。 2つの公に利用可能なアクティビティローカライズデータセットに関する実験は、最先端の弱い教師付きメソッド、特にビデオアクティビティの記述がより複雑になる場合に、このアプローチの利点を示しています。

Video activity localisation has recently attained increasing attention due to its practical values in automatically localising the most salient visual segments corresponding to their language descriptions (sentences) from untrimmed and unstructured videos. For supervised model training, a temporal annotation of both the start and end time index of each video segment for a sentence (a video moment) must be given. This is not only very expensive but also sensitive to ambiguity and subjective annotation bias, a much harder task than image labelling. In this work, we develop a more accurate weakly-supervised solution by introducing Cross-Sentence Relations Mining (CRM) in video moment proposal generation and matching when only a paragraph description of activities without per-sentence temporal annotation is available. Specifically, we explore two cross-sentence relational constraints: (1) Temporal ordering and (2) semantic consistency among sentences in a paragraph description of video activities. Existing weakly-supervised techniques only consider within-sentence video segment correlations in training without considering cross-sentence paragraph context. This can mislead due to ambiguous expressions of individual sentences with visually indiscriminate video moment proposals in isolation. Experiments on two publicly available activity localisation datasets show the advantages of our approach over the state-of-the-art weakly supervised methods, especially so when the video activity descriptions become more complex.
翻訳日:2021-07-27 16:10:11 公開日:2021-07-23
# 3次元物体検出用マルチエコーライダー

Multi-Echo LiDAR for 3D Object Detection ( http://arxiv.org/abs/2107.11470v1 )

ライセンス: Link先を確認
Yunze Man, Xinshuo Weng, Prasanna Kumar Sivakuma, Matthew O'Toole, Kris Kitani(参考訳) LiDARセンサーは、単純な3Dポイントクラウド以外の幅広い計測信号を得るために使用することができ、これらの信号を利用して3Dオブジェクト検出のような知覚タスクを改善することができる。 単一レーザーパルスはその経路に沿って複数の物体によって部分的に反射され、エコーと呼ばれる複数の測定結果が得られる。 マルチエコ計測は、オブジェクトの輪郭や半透明な表面に関する情報を提供することができる。 lidarはまた、表面反射率(レーザーパルスリターンの強度)や、シーンの周囲光(物体が反射する太陽光)を測定することもできる。 これらの信号は、既に商用のLiDARデバイスで利用可能であるが、ほとんどのLiDARベースの検出モデルでは使用されていない。 本稿では,LiDARによる計測信号の全スペクトルを利用する3次元物体検出モデルを提案する。 まず,(1)2次元CNNで抽出した反射特性と周囲特徴と,(2)3次元グラフニューラルネットワーク(GNN)を用いて抽出した点雲特徴とを組み合わせた多信号融合(MSF)モジュールを提案する。 次に,異なるエコー点の集合に符号化された情報を組み合わせたマルチエコアグリゲーション(MEA)モジュールを提案する。 従来の単一エコーポイントクラウド法と比較して,提案手法では,より広い範囲のセンシング計測からよりリッチなコンテキスト情報を抽出し,より正確な3次元物体検出を実現する。 実験の結果,LiDARのマルチモーダリティを組み込むことで,最先端の技術を最大9.1%向上させることができることがわかった。

LiDAR sensors can be used to obtain a wide range of measurement signals other than a simple 3D point cloud, and those signals can be leveraged to improve perception tasks like 3D object detection. A single laser pulse can be partially reflected by multiple objects along its path, resulting in multiple measurements called echoes. Multi-echo measurement can provide information about object contours and semi-transparent surfaces which can be used to better identify and locate objects. LiDAR can also measure surface reflectance (intensity of laser pulse return), as well as ambient light of the scene (sunlight reflected by objects). These signals are already available in commercial LiDAR devices but have not been used in most LiDAR-based detection models. We present a 3D object detection model which leverages the full spectrum of measurement signals provided by LiDAR. First, we propose a multi-signal fusion (MSF) module to combine (1) the reflectance and ambient features extracted with a 2D CNN, and (2) point cloud features extracted using a 3D graph neural network (GNN). Second, we propose a multi-echo aggregation (MEA) module to combine the information encoded in different set of echo points. Compared with traditional single echo point cloud methods, our proposed Multi-Signal LiDAR Detector (MSLiD) extracts richer context information from a wider range of sensing measurements and achieves more accurate 3D object detection. Experiments show that by incorporating the multi-modality of LiDAR, our method outperforms the state-of-the-art by up to 9.1%.
翻訳日:2021-07-27 16:09:48 公開日:2021-07-23
# GANイントラモード崩壊におけるブラックボックス診断と校正 : パイロット研究

Black-Box Diagnosis and Calibration on GAN Intra-Mode Collapse: A Pilot Study ( http://arxiv.org/abs/2107.12202v1 )

ライセンス: Link先を確認
Zhenyu Wu, Zhaowen Wang, Ye Yuan, Jianming Zhang, Zhangyang Wang, Hailin Jin(参考訳) 現在、gans(generative adversarial network)は驚くべきリアリズムのイメージを生み出すことができる。 懸念の1つは、最先端のGANの学習分布が依然としてモード崩壊に悩まされているかどうか、そしてもしそうならどうするべきかである。 ganからのサンプルの既存の多様性テストは通常、小規模で定性的に実施され、/または訓練されたモデルパラメータと同様に元のトレーニングデータへのアクセスに依存する。 本稿では,GANのモード内崩壊を診断し,新たなブラックボックス設定で,トレーニングデータやトレーニングされたモデルパラメータへのアクセスが想定されないことを校正する。 新しい設定は実質的に要求されるが、ほとんど探究されず、はるかに困難である。 最初のスタブとして,サンプリングに基づく統計ツールセットを考案し,モード内崩壊の可視化,定量化,修正を行う。 提案手法は,非条件GAN画像生成(例えば,顔と車体)における広範囲なシミュレーションと実験を通じて,診断・校正手法の有効性を示す。 本研究により, モード内崩壊は依然として最先端のGANにおいて大きな問題であり, モード崩壊はブラックボックス設定で診断可能で校正可能であることが明らかとなった。 私たちのコードは、https://github.com/V ITA-Group/BlackBoxGA NCollapse.comで利用可能です。

Generative adversarial networks (GANs) nowadays are capable of producing images of incredible realism. One concern raised is whether the state-of-the-art GAN's learned distribution still suffers from mode collapse, and what to do if so. Existing diversity tests of samples from GANs are usually conducted qualitatively on a small scale, and/or depends on the access to original training data as well as the trained model parameters. This paper explores to diagnose GAN intra-mode collapse and calibrate that, in a novel black-box setting: no access to training data, nor the trained model parameters, is assumed. The new setting is practically demanded, yet rarely explored and significantly more challenging. As a first stab, we devise a set of statistical tools based on sampling, that can visualize, quantify, and rectify intra-mode collapse. We demonstrate the effectiveness of our proposed diagnosis and calibration techniques, via extensive simulations and experiments, on unconditional GAN image generation (e.g., face and vehicle). Our study reveals that the intra-mode collapse is still a prevailing problem in state-of-the-art GANs and the mode collapse is diagnosable and calibratable in black-box settings. Our codes are available at: https://github.com/V ITA-Group/BlackBoxGA NCollapse.
翻訳日:2021-07-27 15:56:50 公開日:2021-07-23
# コンピュータ支援による肺分画法による肺癌早期診断

Early Diagnosis of Lung Cancer Using Computer Aided Detection via Lung Segmentation Approach ( http://arxiv.org/abs/2107.12205v1 )

ライセンス: Link先を確認
Abhir Bhandary, Ananth Prabhu G, Mustafa Basthikodi, Chaitra K M(参考訳) 肺がんは肺から発生し、発生人口の減少に伴ってがんが消失する原因となる。 アメリカがん学会によると、がんによる死者の約27%が死亡している。 進化の初期段階では、肺がんは通常何の症状も起こさない。 多くの患者は、症状がより顕著になる発達段階において診断されており、治療が不十分で死亡率が高い。 コンピュータ支援検出システムは、肺癌の診断の精度を高めるために用いられる。 本研究では,能動輪郭モデルのファジィc平均クラスタリング,適応しきい値,セグメンテーションに基づいて,肺のセグメンテーションを行う新しい手法を提案する。 実験結果は分析され提示される。

Lung cancer begins in the lungs and leading to the reason of cancer demise amid population in the creation. According to the American Cancer Society, which estimates about 27% of the deaths because of cancer. In the early phase of its evolution, lung cancer does not cause any symptoms usually. Many of the patients have been diagnosed in a developed phase where symptoms become more prominent, that results in poor curative treatment and high mortality rate. Computer Aided Detection systems are used to achieve greater accuracies for the lung cancer diagnosis. In this research exertion, we proposed a novel methodology for lung Segmentation on the basis of Fuzzy C-Means Clustering, Adaptive Thresholding, and Segmentation of Active Contour Model. The experimental results are analysed and presented.
翻訳日:2021-07-27 15:52:58 公開日:2021-07-23
# 自己修復型ニューラルネットワーク:動的修復によるディープネットワークの安全性の証明

Self-Repairing Neural Networks: Provable Safety for Deep Networks via Dynamic Repair ( http://arxiv.org/abs/2107.11445v1 )

ライセンス: Link先を確認
Klas Leino, Aymeric Fromherz, Ravi Mangal, Matt Fredrikson, Bryan Parno, Corina P\u{a}s\u{a}reanu(参考訳) ニューラルネットワークは、安全が重要な懸念事項である状況において、ますます展開されている。 本研究では,安全オーダリングプロパティと呼ばれる非リレーショナル安全制約の違反を動的に修復するニューラルネットワーク分類器を構築する手法を提案する。 安全な順序付け特性は、ネットワークの出力指標の順序付け要求と入力条件を関連付け、分類器の非関係安全性の最も有用な概念を表現するのに十分である。 提案手法は, 入力の特性に関わらず, 確実に安全な出力が得られる新しい自己修復層に基づいている。 このレイヤを既存のネットワークで構成し、自己修復ネットワーク(SR-Net)を構築し、安全な出力を提供するとともに、SR-Netが元のネットワークの精度を維持することを保証していることを示す。 特に,本手法はネットワークのサイズや構造によらず,ネットワークの出力の特定の特性や寸法にのみ依存するので,大規模で最先端のネットワークに対してスケーラブルである。 このアプローチは,数十万のニューロンと数百万のパラメータを含む大規模で広く使用されているネットワーク上でさえ,現在のハードウェア上で1ミリ秒未満の実行時のオーバーヘッドを導入して,GPU上で効率的に実行されるベクトル化された計算を使用して実装可能であることを示す。

Neural networks are increasingly being deployed in contexts where safety is a critical concern. In this work, we propose a way to construct neural network classifiers that dynamically repair violations of non-relational safety constraints called safe ordering properties. Safe ordering properties relate requirements on the ordering of a network's output indices to conditions on their input, and are sufficient to express most useful notions of non-relational safety for classifiers. Our approach is based on a novel self-repairing layer, which provably yields safe outputs regardless of the characteristics of its input. We compose this layer with an existing network to construct a self-repairing network (SR-Net), and show that in addition to providing safe outputs, the SR-Net is guaranteed to preserve the accuracy of the original network. Notably, our approach is independent of the size and architecture of the network being repaired, depending only on the specified property and the dimension of the network's output; thus it is scalable to large state-of-the-art networks. We show that our approach can be implemented using vectorized computations that execute efficiently on a GPU, introducing run-time overhead of less than one millisecond on current hardware -- even on large, widely-used networks containing hundreds of thousands of neurons and millions of parameters.
翻訳日:2021-07-27 15:51:08 公開日:2021-07-23
# 深層学習技術と推論音声統計を用いたAI合成音声認識

Using Deep Learning Techniques and Inferential Speech Statistics for AI Synthesised Speech Recognition ( http://arxiv.org/abs/2107.11412v1 )

ライセンス: Link先を確認
Arun Kumar Singh (1), Priyanka Singh (2), Karan Nathwani (1) ((1) Indian Institute of Technology Jammu, (2) Dhirubhai Ambani Institute of Information and Communication Technology)(参考訳) 最近の技術開発は、TACOTRONやWAVENETSのような素晴らしいオーディオ合成モデルで私たちを再び巻き込んだ。 他方では、音声クローンやディープフェイクといった、検出されない可能性のある大きな脅威を引き起こす。 このような危機的状況に対処するためには、合成音声と実際の人間の音声を区別し、その合成の源を識別するためのモデルを提案する必要がある。 本稿では、上記両方の目的を達成するために、畳み込みニューラルネットワーク(CNN)と双方向リカレントニューラルネットワーク(Bi direction Recurrent Neural Network)に基づくモデルを提案する。 AI合成音声における時間依存性を双方向RNNとCNNを用いて活用する。 このモデルは、AI合成音声を実際の人間の音声から1.9%の誤差率で分類し、基礎となるアーキテクチャを97%の精度で検出することで、最先端のアプローチよりも優れている。

The recent developments in technology have re-warded us with amazing audio synthesis models like TACOTRON and WAVENETS. On the other side, it poses greater threats such as speech clones and deep fakes, that may go undetected. To tackle these alarming situations, there is an urgent need to propose models that can help discriminate a synthesized speech from an actual human speech and also identify the source of such a synthesis. Here, we propose a model based on Convolutional Neural Network (CNN) and Bidirectional Recurrent Neural Network (BiRNN) that helps to achieve both the aforementioned objectives. The temporal dependencies present in AI synthesized speech are exploited using Bidirectional RNN and CNN. The model outperforms the state-of-the-art approaches by classifying the AI synthesized audio from real human speech with an error rate of 1.9% and detecting the underlying architecture with an accuracy of 97%.
翻訳日:2021-07-27 15:47:06 公開日:2021-07-23
# 非同期フェデレーション学習のためのデバイススケジューリングと更新集約ポリシー

Device Scheduling and Update Aggregation Policies for Asynchronous Federated Learning ( http://arxiv.org/abs/2107.11415v1 )

ライセンス: Link先を確認
Chung-Hsuan Hu, Zheng Chen, Erik G. Larsson(参考訳) Federated Learning(FL)は、デバイス上でのローカルトレーニングとサーバベースのモデル同期を組み合わせて、分散ノード上で集中型MLモデルをトレーニングする、新たに登場した分散機械学習(ML)フレームワークである。 本稿では,flシステムにおけるストラグラー問題を排除するために,周期的アグリゲーションを伴う非同期flフレームワークを提案する。 提案モデルでは,複数のデバイススケジューリングとアグリゲーションポリシを調査し,デバイスがヘテロジニアスな計算能力とトレーニングデータ分布を持つ場合の性能を比較する。 シミュレーション結果から,非同期FLのスケジューリングとアグリゲーション設計は同期の場合とはかなり異なることが判明した。 例えば、ノルムベースの意味認識スケジューリングポリシーは非同期fl設定では効率的ではなく、モデル集約のための適切な「年齢認識」重み付け設計は、そのようなシステムの学習性能を大幅に向上させることができる。

Federated Learning (FL) is a newly emerged decentralized machine learning (ML) framework that combines on-device local training with server-based model synchronization to train a centralized ML model over distributed nodes. In this paper, we propose an asynchronous FL framework with periodic aggregation to eliminate the straggler issue in FL systems. For the proposed model, we investigate several device scheduling and update aggregation policies and compare their performances when the devices have heterogeneous computation capabilities and training data distributions. From the simulation results, we conclude that the scheduling and aggregation design for asynchronous FL can be rather different from the synchronous case. For example, a norm-based significance-aware scheduling policy might not be efficient in an asynchronous FL setting, and an appropriate "age-aware" weighting design for the model aggregation can greatly improve the learning performance of such systems.
翻訳日:2021-07-27 15:42:54 公開日:2021-07-23
# (参考訳) 構成モデル:モジュールネットワークを用いたマルチタスク学習と知識伝達 [全文訳有]

Compositional Models: Multi-Task Learning and Knowledge Transfer with Modular Networks ( http://arxiv.org/abs/2107.10963v1 )

ライセンス: CC BY 4.0
Andrey Zhmoginov, Dina Bashkirova and Mark Sandler(参考訳) 近年,複数の再利用可能な計算ブロックに問題解決を分解する手段として,マルチタスク学習などの問題に対して,条件計算とモジュールネットワークが提案されている。 本論文では,同じ構成とパラメータ数を持つ残差ブロックを全て含むresnetの等尺版に基づいて,モジュールネットワークを学習するための新しい手法を提案する。 このアーキテクチャの選択は、残余ブロックの追加、削除、変更を可能にする。 本手法では,モジュールを繰り返し呼び出すことができ,計算順序を調整することで,新しいタスクへの知識伝達を可能にする。 これにより、パラメータ数がわずかに増加するだけでタスク間のソフトウェイト共有が可能になる。 提案手法は,マルチタスク学習や移動学習,ドメイン適応などにおいて,モジュールの自己組織を解釈可能とし,それらのタスクにおいて競合的な結果が得られることを示す。 From practical perspective, our approach allows to: (a) reuse existing modules for learning new task by adjusting the computation order, (b) use it for unsupervised multi-source domain adaptation to illustrate that adaptation to unseen data can be achieved by only manipulating the order of pretrained modules, (c) show how our approach can be used to increase accuracy of existing architectures for image classification tasks such as ImageNet, without any parameter increase, by reusing the same block multiple times.

Conditional computation and modular networks have been recently proposed for multitask learning and other problems as a way to decompose problem solving into multiple reusable computational blocks. We propose a new approach for learning modular networks based on the isometric version of ResNet with all residual blocks having the same configuration and the same number of parameters. This architectural choice allows adding, removing and changing the order of residual blocks. In our method, the modules can be invoked repeatedly and allow knowledge transfer to novel tasks by adjusting the order of computation. This allows soft weight sharing between tasks with only a small increase in the number of parameters. We show that our method leads to interpretable self-organization of modules in case of multi-task learning, transfer learning and domain adaptation while achieving competitive results on those tasks. From practical perspective, our approach allows to: (a) reuse existing modules for learning new task by adjusting the computation order, (b) use it for unsupervised multi-source domain adaptation to illustrate that adaptation to unseen data can be achieved by only manipulating the order of pretrained modules, (c) show how our approach can be used to increase accuracy of existing architectures for image classification tasks such as ImageNet, without any parameter increase, by reusing the same block multiple times.
翻訳日:2021-07-26 22:16:38 公開日:2021-07-23
# (参考訳) リワードマシンを用いた四足歩行政策の学習 [全文訳有]

Learning Quadruped Locomotion Policies with Reward Machines ( http://arxiv.org/abs/2107.10969v1 )

ライセンス: CC BY 4.0
David DeFazio and Shiqi Zhang(参考訳) 脚のあるロボットは非構造環境の航行に有効であることが示されている。 四足歩行ロボットのロコモーションポリシーの学習は成功したが、この学習プロセスを促進するために人間の知識を組み込む方法についてはほとんど研究されていない。 本稿では,LTL式形式の人間の知識が,リワードマシン(RM)フレームワーク内の4つの移動学習に適用可能であることを実証する。 シミュレーション実験の結果,提案手法は多様なロコモーションスタイルを容易に定義でき,ロコモーションポリシーを効率的に学習できることがわかった。

Legged robots have been shown to be effective in navigating unstructured environments. Although there has been much success in learning locomotion policies for quadruped robots, there is little research on how to incorporate human knowledge to facilitate this learning process. In this paper, we demonstrate that human knowledge in the form of LTL formulas can be applied to quadruped locomotion learning within a Reward Machine (RM) framework. Experimental results in simulation show that our RM-based approach enables easily defining diverse locomotion styles, and efficiently learning locomotion policies of the defined styles.
翻訳日:2021-07-26 21:54:59 公開日:2021-07-23
# (参考訳) プログラムデータ分散シフトによる予測不確かさの推定 [全文訳有]

Estimating Predictive Uncertainty Under Program Data Distribution Shift ( http://arxiv.org/abs/2107.10989v1 )

ライセンス: CC BY-SA 4.0
Yufei Li, Simin Chen, Wei Yang(参考訳) 深層学習(DL)技術は様々なタスクにおいて予測精度に大きな成功を収めているが、深層ニューラルネットワーク(DNN)は異常なサンプルであっても高い過度なスコアを得られる。 明確に定義された不確実性は、モデルのアウトプットを信頼すべき(あるいは信頼すべきでない)かどうかを示し、多くの要因により通常シフトした入力分布を伴う現実のシナリオにおいて重要なものとなる。 既存の不確実性アプローチでは、異なるデータ分布からの試験サンプルが信頼性の低いモデル予測を誘導すると仮定している。 dlモデルの入力に対する信頼度を校正し、コンピュータビジョン(cv)および自然言語処理(nlp)関連タスクの有効性を評価することにより、モデルの不確実性を定量化する。 しかしながら、それらの方法論の信頼性は、データ表現とシフトパターンの違いにより、プログラミングタスクの下で損なわれる可能性がある。 本稿ではまず,プログラムデータの分散シフトを3種類定義し,大規模にシフトしたJavaデータセットを構築する。 2つの共通プログラミング言語タスクをデータセットに実装し,各分散シフトがdlモデル性能に与える影響について検討した。 また,プログラムタスクにおける現状予測の不確実性の大規模ベンチマークを提案し,データ分散シフト下での有効性について検討する。 実験により、プログラム分布シフトはDLモデルの性能を様々な程度に低下させ、既存の不確実性手法は全て、プログラムデータセットにおける不確実性の定量化に一定の制限を与えることを示した。

Deep learning (DL) techniques have achieved great success in predictive accuracy in a variety of tasks, but deep neural networks (DNNs) are shown to produce highly overconfident scores for even abnormal samples. Well-defined uncertainty indicates whether a model's output should (or should not) be trusted and thus becomes critical in real-world scenarios which typically involves shifted input distributions due to many factors. Existing uncertainty approaches assume that testing samples from a different data distribution would induce unreliable model predictions thus have higher uncertainty scores. They quantify model uncertainty by calibrating DL model's confidence of a given input and evaluate the effectiveness in computer vision (CV) and natural language processing (NLP)-related tasks. However, their methodologies' reliability may be compromised under programming tasks due to difference in data representations and shift patterns. In this paper, we first define three different types of distribution shift in program data and build a large-scale shifted Java dataset. We implement two common programming language tasks on our dataset to study the effect of each distribution shift on DL model performance. We also propose a large-scale benchmark of existing state-of-the-art predictive uncertainty on programming tasks and investigate their effectiveness under data distribution shift. Experiments show that program distribution shift does degrade the DL model performance to varying degrees and that existing uncertainty methods all present certain limitations in quantifying uncertainty on program dataset.
翻訳日:2021-07-26 21:44:11 公開日:2021-07-23
# (参考訳) 単一光子カメラを用いた光子飢餓シーン推定 [全文訳有]

Photon-Starved Scene Inference using Single Photon Cameras ( http://arxiv.org/abs/2107.11001v1 )

ライセンス: CC0 1.0
Bhavya Goyal, Mohit Gupta(参考訳) 低照度条件下でのシーン理解は難しい問題である。 これは、カメラによって捕捉される少数の光子と、結果として生じる低信号対雑音比(SNR)に起因する。 単一光子カメラ(SPC)は、高感度で画像をキャプチャできる、新たなセンシングモダリティである。 最小の読み取りノイズにもかかわらず、光子餓死状態のspcによって撮影された画像は依然として強いショットノイズに苦しめられ、信頼できるシーン推論ができない。 我々は,低光子フラックス画像上での推論モデルをトレーニングするためのガイドとして,広帯域の光子/ピクセル(PPP)レベルにまたがる高SNR画像の集合体を提案する。 特徴表現空間において、異なる照明レベルの画像を互いに近接させる訓練手法を開発した。 鍵となるアイデアは、トレーニング中に異なる輝度レベルのスペクトルを持つことが効果的な指導を可能にし、極端なノイズケースでもショットノイズに対する堅牢性を高めることだ。 提案手法に基づいて,SPADカメラを用いたシミュレーションおよび実実験により,超低光下での画像分類や単眼深度推定などの様々な推論タスクの高性能化を実現した。

Scene understanding under low-light conditions is a challenging problem. This is due to the small number of photons captured by the camera and the resulting low signal-to-noise ratio (SNR). Single-photon cameras (SPCs) are an emerging sensing modality that are capable of capturing images with high sensitivity. Despite having minimal read-noise, images captured by SPCs in photon-starved conditions still suffer from strong shot noise, preventing reliable scene inference. We propose photon scale-space a collection of high-SNR images spanning a wide range of photons-per-pixel (PPP) levels (but same scene content) as guides to train inference model on low photon flux images. We develop training techniques that push images with different illumination levels closer to each other in feature representation space. The key idea is that having a spectrum of different brightness levels during training enables effective guidance, and increases robustness to shot noise even in extreme noise cases. Based on the proposed approach, we demonstrate, via simulations and real experiments with a SPAD camera, high-performance on various inference tasks such as image classification and monocular depth estimation under ultra low-light, down to < 1 PPP.
翻訳日:2021-07-26 21:24:41 公開日:2021-07-23
# (参考訳) supercaustics: ディープラーニングアプリケーションのための透明オブジェクトのリアルタイムオープンソースシミュレーション [全文訳有]

SuperCaustics: Real-time, open-source simulation of transparent objects for deep learning applications ( http://arxiv.org/abs/2107.11008v1 )

ライセンス: CC BY 4.0
Mehdi Mousavi, Rolando Estrada(参考訳) 透明物体はコンピュータビジョンにおいて非常に難しい問題である。 正確な境界の欠如のため、セグメント化や分類が難しいため、ディープニューラルネットワークのトレーニングに利用可能なデータは限られている。 そのため、現在のソリューションでは、柔軟性に欠ける厳密な合成データセットが採用されており、現実のシナリオにデプロイするとパフォーマンスが大幅に低下する。 特に、これらの合成データセットは、レンダリングパイプラインの制限により、屈折、分散、因果といった特徴を省略する。 この問題に対処するため,我々は,ディープラーニングアプリケーション用に設計された透明オブジェクトのリアルタイムオープンソースシミュレーションであるsupercausticsを提案する。 SuperCausticsは確率的環境生成のための広範なモジュールを備え、ハードウェアレイトレーシングを使用して因果性、分散、屈折をサポートし、マルチモーダル、ピクセル完全基底真理アノテーションで巨大なデータセットを生成する。 提案システムを検証するため,難解な照明シナリオにおいて,スクラッチから透明物体をセグメント化するディープニューラルネットワークを訓練した。 私たちのニューラルネットワークは、トレーニングデータの10%とトレーニング時間のごく一部を使用して、実世界のデータセットにおける最先端のパフォーマンスを達成しました。 さらに実験により、複数の重なり合う透明物体を持つ画像においても、SuperCausticsでトレーニングされたモデルが異なる種類の因果関係を分割できることが示されている。 我々の知る限りでは、これは合成データに基づいて訓練されたモデルにとって初めての結果である。 オープンソースコードと実験データの両方がオンラインで無料で利用可能です。

Transparent objects are a very challenging problem in computer vision. They are hard to segment or classify due to their lack of precise boundaries, and there is limited data available for training deep neural networks. As such, current solutions for this problem employ rigid synthetic datasets, which lack flexibility and lead to severe performance degradation when deployed on real-world scenarios. In particular, these synthetic datasets omit features such as refraction, dispersion and caustics due to limitations in the rendering pipeline. To address this issue, we present SuperCaustics, a real-time, open-source simulation of transparent objects designed for deep learning applications. SuperCaustics features extensive modules for stochastic environment creation; uses hardware ray-tracing to support caustics, dispersion, and refraction; and enables generating massive datasets with multi-modal, pixel-perfect ground truth annotations. To validate our proposed system, we trained a deep neural network from scratch to segment transparent objects in difficult lighting scenarios. Our neural network achieved performance comparable to the state-of-the-art on a real-world dataset using only 10% of the training data and in a fraction of the training time. Further experiments show that a model trained with SuperCaustics can segment different types of caustics, even in images with multiple overlapping transparent objects. To the best of our knowledge, this is the first such result for a model trained on synthetic data. Both our open-source code and experimental data are freely available online.
翻訳日:2021-07-26 21:06:14 公開日:2021-07-23
# (参考訳) 危機が発生した場合: 新型コロナウイルスによる感情分析と検出 [全文訳有]

When a crisis strikes: Emotion analysis and detection during COVID-19 ( http://arxiv.org/abs/2107.11020v1 )

ライセンス: CC BY 4.0
Alexander Tekle, Chau Pham, Cornelia Caragea, Junyi Jessy Li(参考訳) 自然災害、世界的なパンデミック、社会不安といった危機は、我々の世界を脅かし続け、世界中の何百万人もの人々に異なる方法で感情的に影響を及ぼす。 大規模危機の間に人々が表現する感情を理解することは、政策立案者や第一応答者に対して、人口の感情状態について知らせるだけでなく、そのような支援を必要とする人々に感情的な支援を提供する。 感情をラベル付けした1万ツイートのCovidEmoを紹介します。 新型コロナウイルス(covid-19)の文脈における感情予測のタスクにおいて,事前学習された言語モデルがドメインや危機にまたがっていかにうまく一般化するかを検討する。 その結果,既存のモデルが災害タイプから他のモデルへ直接転送するのではなく,ラベル付き感情コーパスを用いてドメイン適応を行うことが有益であることがわかった。

Crises such as natural disasters, global pandemics, and social unrest continuously threaten our world and emotionally affect millions of people worldwide in distinct ways. Understanding emotions that people express during large-scale crises helps inform policy makers and first responders about the emotional states of the population as well as provide emotional support to those who need such support. We present CovidEmo, ~1K tweets labeled with emotions. We examine how well large pre-trained language models generalize across domains and crises in the task of perceived emotion prediction in the context of COVID-19. Our results show that existing models do not directly transfer from one disaster type to another but using labeled emotional corpora for domain adaptation is beneficial.
翻訳日:2021-07-26 20:55:28 公開日:2021-07-23
# (参考訳) 消防環境における深層学習と拡張現実の統合による状況認識の促進

Integrating Deep Learning and Augmented Reality to Enhance Situational Awareness in Firefighting Environments ( http://arxiv.org/abs/2107.11043v1 )

ライセンス: CC BY-SA 4.0
Manish Bhattarai(参考訳) 文献の中では,消防士の状況認識を構築するための新たな4つのアプローチを提案する。 我々は,消防隊が緊急対応設定で行う救助任務の安全性,効率,及び成功率を高めるために,相互上に構築された一連の深層学習フレームワークを構築した。 まず、深層畳み込みニューラルネットワーク(CNN)システムを用いて、熱画像から興味のある物体をリアルタイムで分類、同定した。 次に,オブジェクト検出,追跡,セグメンテーションのためのcnnフレームワークをマスクrcnnフレームワークで拡張し,マルチモーダル自然言語処理(nlp)フレームワークを用いてシーン記述を行った。 第3に,ストレスによる不整合や不安に対して免疫を付与する深層Q学習エージェントを構築し,実火環境における観測および保存された事実に基づいて,明確なナビゲーション決定を行うことができた。 最後に,テンソル分解と呼ばれる低計算非教師学習手法を用いて,異常検出のための有意義な特徴抽出を行った。 このようなアドホックなディープラーニング構造によって、消防士の状況認識のための人工知能システムのバックボーンを構築しました。 本研究では,消防士が設計したシステムを消防士が活用するための物理的な構造を設計し,その処理結果を,救助活動に欠かせない位置や周辺の特徴を消防士にアドバイスできる拡張現実(AR)の創出のインプットとして用いるとともに,意図しないファーストレスポンダの安全回復を支援する仮想ガイドとして機能する経路計画機能を設計した。 これら4つのアプローチを組み合わせることで、消防士の反応と効果を劇的に改善し、寿命を減少させる情報理解、伝達、合成への新しいアプローチが示される。

We present a new four-pronged approach to build firefighter's situational awareness for the first time in the literature. We construct a series of deep learning frameworks built on top of one another to enhance the safety, efficiency, and successful completion of rescue missions conducted by firefighters in emergency first response settings. First, we used a deep Convolutional Neural Network (CNN) system to classify and identify objects of interest from thermal imagery in real-time. Next, we extended this CNN framework for object detection, tracking, segmentation with a Mask RCNN framework, and scene description with a multimodal natural language processing(NLP) framework. Third, we built a deep Q-learning-based agent, immune to stress-induced disorientation and anxiety, capable of making clear navigation decisions based on the observed and stored facts in live-fire environments. Finally, we used a low computational unsupervised learning technique called tensor decomposition to perform meaningful feature extraction for anomaly detection in real-time. With these ad-hoc deep learning structures, we built the artificial intelligence system's backbone for firefighters' situational awareness. To bring the designed system into usage by firefighters, we designed a physical structure where the processed results are used as inputs in the creation of an augmented reality capable of advising firefighters of their location and key features around them, which are vital to the rescue operation at hand, as well as a path planning feature that acts as a virtual guide to assist disoriented first responders in getting back to safety. When combined, these four approaches present a novel approach to information understanding, transfer, and synthesis that could dramatically improve firefighter response and efficacy and reduce life loss.
翻訳日:2021-07-26 20:48:32 公開日:2021-07-23
# (参考訳) 風の構造を学習する:大気境界層に対するデータ駆動非局所乱流モデル [全文訳有]

Learning the structure of wind: A data-driven nonlocal turbulence model for the atmospheric boundary layer ( http://arxiv.org/abs/2107.11046v1 )

ライセンス: CC BY 4.0
Brendan Keith, Ustim Khristenko, Barbara Wohlmuth(参考訳) 大気境界層をモデル化する新しいデータ駆動手法を開発した。 このアプローチは、我々がディープ・ラピッド・歪(drd)モデルと呼ぶ非局所的異方性合成乱流モデルに繋がる。 提案手法は,ニューラルネットワークによってパラメータ化された非局所共分散カーネルの一般族における最適適合候補を特徴付ける演算子回帰問題に依存する。 この共分散核の族はフーリエ空間で表現され、非常に高いレイノルズ数でのナビエ-ストークス方程式の近似解から得られる。 ファミリーの各メンバーは、質量保存や現実的なエネルギーカスケードといった重要な物理的性質を取り入れている。 DRDモデルは、フィールド実験からノイズの多いデータで校正することができる。 キャリブレーション後、モデルは合成乱流速度場を生成するために使用できる。 そこで本研究では,DRDモデルだけでなく,スケーラブルでメモリ効率のよい乱流生成を実現する,ドメイン分解に基づく新しい数値手法を提案する。 1968年のカンザス州空軍ケンブリッジ研究所の実験から得られたフィルタデータとノイズデータの両方を用いて,我々のアプローチの堅牢性を実証した。 このデータを用いて、特に国際電気技術委員会標準と比較した場合、ddrモデルにおいて異常な精度を示す。

We develop a novel data-driven approach to modeling the atmospheric boundary layer. This approach leads to a nonlocal, anisotropic synthetic turbulence model which we refer to as the deep rapid distortion (DRD) model. Our approach relies on an operator regression problem which characterizes the best fitting candidate in a general family of nonlocal covariance kernels parameterized in part by a neural network. This family of covariance kernels is expressed in Fourier space and is obtained from approximate solutions to the Navier--Stokes equations at very high Reynolds numbers. Each member of the family incorporates important physical properties such as mass conservation and a realistic energy cascade. The DRD model can be calibrated with noisy data from field experiments. After calibration, the model can be used to generate synthetic turbulent velocity fields. To this end, we provide a new numerical method based on domain decomposition which delivers scalable, memory-efficient turbulence generation with the DRD model as well as others. We demonstrate the robustness of our approach with both filtered and noisy data coming from the 1968 Air Force Cambridge Research Laboratory Kansas experiments. Using this data, we witness exceptional accuracy with the DRD model, especially when compared to the International Electrotechnical Commission standard.
翻訳日:2021-07-26 20:45:19 公開日:2021-07-23
# (参考訳) MCDAL: アクティブラーニングのための最大分類法 [全文訳有]

MCDAL: Maximum Classifier Discrepancy for Active Learning ( http://arxiv.org/abs/2107.11049v1 )

ライセンス: CC BY 4.0
Jae Won Cho, Dong-Jin Kim, Yunjae Jung, In So Kweon(参考訳) 最近の最先端アクティブラーニング手法は、ほとんどがgan(generative adversarial network)をサンプル取得に利用しているが、ganは通常、不安定とハイパーパラメータに対する感度に苦しむことが知られている。 これらの手法とは対照的に,本研究では,複数の分類器間での予測の相違を考慮した,MCDAL(Maximum Classifier Discrepancy for Active Learning)と呼ぶ,新たなアクティブラーニングフレームワークを提案する。 特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。 直観的には、補助分類層の予測の相違は予測の不確実性を示す。 そこで本研究では,能動学習のための獲得関数に対する分類器の相違を利用した新しい手法を提案する。 また、既存のGANベースのアクティブラーニング手法やドメイン適応フレームワークに関連して、私たちのアイデアを解釈する。 さらに,本手法の有効性を実証し,アクティブラーニングにおける画像分類と意味セグメンテーションデータセットの性能が最先端手法を上回っていることを示す。

Recent state-of-the-art active learning methods have mostly leveraged Generative Adversarial Networks (GAN) for sample acquisition; however, GAN is usually known to suffer from instability and sensitivity to hyper-parameters. In contrast to these methods, we propose in this paper a novel active learning framework that we call Maximum Classifier Discrepancy for Active Learning (MCDAL) which takes the prediction discrepancies between multiple classifiers. In particular, we utilize two auxiliary classification layers that learn tighter decision boundaries by maximizing the discrepancies among them. Intuitively, the discrepancies in the auxiliary classification layers' predictions indicate the uncertainty in the prediction. In this regard, we propose a novel method to leverage the classifier discrepancies for the acquisition function for active learning. We also provide an interpretation of our idea in relation to existing GAN based active learning methods and domain adaptation frameworks. Moreover, we empirically demonstrate the utility of our approach where the performance of our approach exceeds the state-of-the-art methods on several image classification and semantic segmentation datasets in active learning setups.
翻訳日:2021-07-26 20:22:53 公開日:2021-07-23
# (参考訳) ビデオセマンティクスセグメンテーションのための教師なし領域適応 [全文訳有]

Unsupervised Domain Adaptation for Video Semantic Segmentation ( http://arxiv.org/abs/2107.11052v1 )

ライセンス: CC BY 4.0
Inkyu Shin, Kwanyong Park, Sanghyun Woo, In So Kweon(参考訳) セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションから実(Sim2Real)へ知識を伝達できるため、実際のピクセル単位のラベリングの労力を大幅に削減できるため、大きな人気を集めている。 本稿では,ビデオ意味セグメンテーションのための教師なし領域適応という,この課題の新しいビデオ拡張を提案する。 シミュレーションにより大規模ビデオラベルの取得が容易になったため,Sim2Realの知識伝達可能性の最大化は,ビデオの基本的データ不足を解決する上で有望な方法の1つであると信じている。 この問題に対処するため,新しい2相適応方式を提案する。 最初のステップでは、教師付き損失関数を用いて、ソースドメインの知識を徹底的に蒸留する。 同時に、ビデオコンテキストを利用して、ソースからターゲットへ特徴を調整するために、VAT(Video Adversarial Training)が使用される。 第2のステップでは,対象データのみに焦点を当てたビデオ自己学習(vst)を適用する。 頑健な擬似ラベルを構築するには,従来の画像に基づく自己学習手法ではめったに研究されていない映像の時間的情報を利用する。 我々は,「VIPER to CityscapeVPS」適応シナリオに強い基準スコアを設定した。 提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。

Unsupervised Domain Adaptation for semantic segmentation has gained immense popularity since it can transfer knowledge from simulation to real (Sim2Real) by largely cutting out the laborious per pixel labeling efforts at real. In this work, we present a new video extension of this task, namely Unsupervised Domain Adaptation for Video Semantic Segmentation. As it became easy to obtain large-scale video labels through simulation, we believe attempting to maximize Sim2Real knowledge transferability is one of the promising directions for resolving the fundamental data-hungry issue in the video. To tackle this new problem, we present a novel two-phase adaptation scheme. In the first step, we exhaustively distill source domain knowledge using supervised loss functions. Simultaneously, video adversarial training (VAT) is employed to align the features from source to target utilizing video context. In the second step, we apply video self-training (VST), focusing only on the target data. To construct robust pseudo labels, we exploit the temporal information in the video, which has been rarely explored in the previous image-based self-training approaches. We set strong baseline scores on 'VIPER to CityscapeVPS' adaptation scenario. We show that our proposals significantly outperform previous image-based UDA methods both on image-level (mIoU) and video-level (VPQ) evaluation metrics.
翻訳日:2021-07-26 20:08:18 公開日:2021-07-23
# (参考訳) グレー画像セグメンテーションのための貯留層計算手法 [全文訳有]

Reservoir Computing Approach for Gray Images Segmentation ( http://arxiv.org/abs/2107.11077v1 )

ライセンス: CC BY 4.0
Petia Koprinkova-Hristova(参考訳) 本稿では,グレースケール画像セグメンテーションのための新しいアプローチを提案する。 これは、Echo状態ネットワークを使用して、画像画素当たりの単一特徴、すなわちその強度値から抽出された複数の特徴に基づいている。 新たに抽出された機能 -- 貯水池平衡状態 -- は、クラスタリングアルゴリズムによるセグメンテーションを改善する隠れたイメージ特性を明らかにする。 さらに,貯水池の固有塑性調整法は,原画像強度分布と平衡状態に適合し,より優れたセグメンテーションを可能にすることを示した。 提案手法はベンチマーク画像のLenaで検証される。

The paper proposes a novel approach for gray scale images segmentation. It is based on multiple features extraction from single feature per image pixel, namely its intensity value, using Echo state network. The newly extracted features -- reservoir equilibrium states -- reveal hidden image characteristics that improve its segmentation via a clustering algorithm. Moreover, it was demonstrated that the intrinsic plasticity tuning of reservoir fits its equilibrium states to the original image intensity distribution thus allowing for its better segmentation. The proposed approach is tested on the benchmark image Lena.
翻訳日:2021-07-26 19:54:04 公開日:2021-07-23
# (参考訳) データ駆動深部密度推定

Data-driven deep density estimation ( http://arxiv.org/abs/2107.11085v1 )

ライセンス: CC BY 4.0
Patrik Puchert, Pedro Hermosilla, Tobias Ritschel, Timo Ropinski(参考訳) 密度推定は多くのデータ解析タスクにおいて重要な役割を担い、離散サンプルから連続確率密度関数(PDF)を推定する。 したがって、人口データの解析や2dセンサーによる読み出しの空間的位置、あるいは3dスキャンからシーンを再構築するなど、様々なタスクで使用される。 本稿では,領域次元やサンプルサイズに依存せず,PDFを高精度かつ効率的に推定するための,学習されたデータ駆動深度推定(DDE)を提案する。 さらに、推定中に元のPDFにアクセスする必要はなく、パラメトリック形式でも、事前形式でも、多くのサンプルの形でもありません。 これは、無限の合成PDFストリーム上の非構造化畳み込みニューラルネットワークをトレーニングすることで実現される。 このように、我々の公開DDE法は、離散的な観測から連続的なモデルを推定するデータ分析の多くの分野において有益であることを期待している。

Density estimation plays a crucial role in many data analysis tasks, as it infers a continuous probability density function (PDF) from discrete samples. Thus, it is used in tasks as diverse as analyzing population data, spatial locations in 2D sensor readings, or reconstructing scenes from 3D scans. In this paper, we introduce a learned, data-driven deep density estimation (DDE) to infer PDFs in an accurate and efficient manner, while being independent of domain dimensionality or sample size. Furthermore, we do not require access to the original PDF during estimation, neither in parametric form, nor as priors, or in the form of many samples. This is enabled by training an unstructured convolutional neural network on an infinite stream of synthetic PDFs, as unbound amounts of synthetic training data generalize better across a deck of natural PDFs than any natural finite training data will do. Thus, we hope that our publicly available DDE method will be beneficial in many areas of data analysis, where continuous models are to be estimated from discrete observations.
翻訳日:2021-07-26 19:46:48 公開日:2021-07-23
# (参考訳) マルチモーダル学習による早期セプシス予測の改善 [全文訳有]

Improving Early Sepsis Prediction with Multi Modal Learning ( http://arxiv.org/abs/2107.11094v1 )

ライセンス: CC0 1.0
Fred Qin, Vivek Madan, Ujjwal Ratan, Zohar Karnin, Vishaal Kapoor, Parminder Bhatia, and Taha Kass-Hout(参考訳) 敗血症は死亡率、死亡率、医療費が高い生命を脅かす病気である。 抗生物質と静脈内液の早期予測と管理は、敗血症の治療に不可欠であり、数百万人の命と数十億ドルの医療費を節約できると考えられている。 専門医は敗血症の早期発見を支援する臨床基準を提案したが、その性能は限られていることが多い。 臨床テキストは、構造的な臨床データに加えて、敗血症の重症度を推定するための必須情報を提供する。 本研究では, 臨床テキストが構造化データを早期敗血症予測タスクに補完する方法について検討する。 本稿では,患者測定の形式で構造化されたデータと,患者のテキストノートを組み込んだマルチモーダルモデルを提案する。 Amazon Comprehend MedicalではBERTのような最先端のNLPモデルと高度に専門化されたNLPモデルを用いてテキストを表現している。 ICU入院記録を含むMIMIC-IIIデータセットにおいて、これらのメモを用いて、Sepsis予測のための標準的なユーティリティスコアの6.07ポイント、AUROCスコアの2.89%の改善が達成されている。 本手法は, セプシス予測のためのPhystoNet Computing in Cardiology Challengeの勝利モデルとともに, 専門医であるqSOFAが提案する臨床基準を著しく上回っている。

Sepsis is a life-threatening disease with high morbidity, mortality and healthcare costs. The early prediction and administration of antibiotics and intravenous fluids is considered crucial for the treatment of sepsis and can save potentially millions of lives and billions in health care costs. Professional clinical care practitioners have proposed clinical criterion which aid in early detection of sepsis; however, performance of these criterion is often limited. Clinical text provides essential information to estimate the severity of the sepsis in addition to structured clinical data. In this study, we explore how clinical text can complement structured data towards early sepsis prediction task. In this paper, we propose multi modal model which incorporates both structured data in the form of patient measurements as well as textual notes on the patient. We employ state-of-the-art NLP models such as BERT and a highly specialized NLP model in Amazon Comprehend Medical to represent the text. On the MIMIC-III dataset containing records of ICU admissions, we show that by using these notes, one achieves an improvement of 6.07 points in a standard utility score for Sepsis prediction and 2.89% in AUROC score. Our methods significantly outperforms a clinical criteria suggested by experts, qSOFA, as well as the winning model of the PhysioNet Computing in Cardiology Challenge for predicting Sepsis.
翻訳日:2021-07-26 19:32:56 公開日:2021-07-23
# (参考訳) 時系列における生成的逆ネットワーク:調査と分類 [全文訳有]

Generative adversarial networks in time series: A survey and taxonomy ( http://arxiv.org/abs/2107.11098v1 )

ライセンス: CC BY 4.0
Eoin Brophy, Zhengwei Wang, Qi She, Tomas Ward(参考訳) 過去数年間、gans(generative adversarial networks)の研究は指数関数的に増加している。 その影響は、主に写実的な画像とビデオ操作、特に生成を伴うコンピュータビジョンの分野で見られ、大きな進歩を遂げている。 これらのコンピュータビジョンの進歩は注目されているが、GANアプリケーションは時系列やシーケンス生成といった分野に多様化している。 GANの比較的新しいニッチとして、フィールドワークは高品質で多様性があり、プライベートな時系列データの開発を続けている。 本稿では,時系列関連アプリケーション用に設計されたGAN変種についてレビューする。 本稿では,ganが離散時系列と連続時系列データを扱う離散変数ganと連続変数ganの分類法を提案する。 ここでは,この分野の最新かつ最も人気のある文献,そのアーキテクチャ,結果,アプリケーションを紹介する。 また、最も人気のある評価指標とアプリケーション間の適合性のリストも提供します。 また、これらのGANのプライバシー対策と、機密データを扱うためのさらなる保護と方向性についても議論する。 我々は,この領域における最新かつ最先端の研究の明確かつ簡潔な枠組みと実世界の技術への応用を目指しています。

Generative adversarial networks (GANs) studies have grown exponentially in the past few years. Their impact has been seen mainly in the computer vision field with realistic image and video manipulation, especially generation, making significant advancements. While these computer vision advances have garnered much attention, GAN applications have diversified across disciplines such as time series and sequence generation. As a relatively new niche for GANs, fieldwork is ongoing to develop high quality, diverse and private time series data. In this paper, we review GAN variants designed for time series related applications. We propose a taxonomy of discrete-variant GANs and continuous-variant GANs, in which GANs deal with discrete time series and continuous time series data. Here we showcase the latest and most popular literature in this field; their architectures, results, and applications. We also provide a list of the most popular evaluation metrics and their suitability across applications. Also presented is a discussion of privacy measures for these GANs and further protections and directions for dealing with sensitive data. We aim to frame clearly and concisely the latest and state-of-the-art research in this area and their applications to real-world technologies.
翻訳日:2021-07-26 19:17:45 公開日:2021-07-23
# (参考訳) 距離正規化レベルセットに基づく心臓CTのセグメンテーション [全文訳有]

Cardiac CT segmentation based on distance regularized level set ( http://arxiv.org/abs/2107.11119v1 )

ライセンス: CC BY 4.0
Xinyang Wu(参考訳) analy z ing の前には、心臓画像の分割が非常に重要であり、左大静脈(lv)の内膜および外膜分割は最も重要な内容の1つである。 しかし、手動セグメンテーションは退屈で時間がかかります。 医師が疾患解析や診断などのハイテクなタスクに集中できるようにするためには、迅速かつ正確なセグメント化法を開発することが重要である[1]。 本稿では, 距離正規化レベルセット(drl se)を用いて, 心内膜と心内膜2のセグメンテーション効果について検討する。 最後に,提案手法の検証に5つのCT画像を用い,ディススコアやハウスドルフ距離などの画像品質評価指標を用いてセグメンテーション効果を評価する。 その結果,me tho dは内膜と外膜を非常によく分離できた(endocardium dice = 0.9253, hausdorff = 7.8740, epicardium hausdorff = 0.9687, hausdorff = 6)。

Before analy z ing the CT image, it is very important to segment the heart image, and the left ve ntricular (LV) inner and outer membrane segmentation is one of the most important contents. However, manual segmentation is tedious and time consuming. In order to facilitate doctors to focus on high tech tasks such as disease analysis and diagnosis, it is crucial to develop a fast and accurate segmentation method [1]. In view of this phenomenon, this paper uses distance regularized level set (DRL SE) to explore the segmentation effect of epicardium and endocardium 2 ]], which includes a distance regula riz ed t erm and an external energy term. Finally, five CT images are used to verify the proposed method, and image quality evaluation indexes such as dice score and Hausdorff distance are used to evaluate the segmentation effect. The results showed that the me tho d could separate the inner and outer membrane very well (endocardium dice = 0.9253, Hausdorff = 7.8740; epicardium Hausdorff = 0.9687, Hausdorff = 6 .
翻訳日:2021-07-26 18:43:26 公開日:2021-07-23
# (参考訳) 重み付きデータを用いた高次元微分プライベート確率最適化 [全文訳有]

High Dimensional Differentially Private Stochastic Optimization with Heavy-tailed Data ( http://arxiv.org/abs/2107.11136v1 )

ライセンス: CC BY 4.0
Lijie Hu and Shuo Ni and Hanshen Xiao and Di Wang(参考訳) 機械学習、統計学、微分プライバシーにおける最も基本的な問題の1つとして、ディファレンシャル・プライベート・確率凸最適化(DP-SCO)が近年広く研究されている。 しかし、以前の研究のほとんどは、低次元空間の場合の正規データ分布または不規則データのみを扱うことができる。 本稿では,不規則なデータ分布から生じる課題をよりよく理解するために,高次元空間における重み付きデータを用いたDP-SCO問題に関する最初の研究を行う。 最初の部分では、ポリトープ制約($\ell_1$-norm ボールなど)よりも問題に焦点を当てています。 損失関数が滑らかで、その勾配が2次モーメントに有界であれば、$n$がサンプルサイズであり、$d$が基礎空間の次元である$\epsilon$-dpモデルにおいて、$\tilde{o}(\frac{\log d}{(n\epsilon)^\frac{1}{3}})$の(高い確率)誤差バウンド(外人口リスク)を得ることができる。 次に、LASSO に対して、4階のモーメントが有界なデータ分布は $(\epsilon, \delta)$-DP モデルにおいて $\tilde{O}(\frac{\log d}{(n\epsilon)^\frac{2}{5}})$ となる。 論文の第2部では,重み付きデータを用いたスパース学習について検討した。 まず、スパース線形モデルを再検討し、出力が$\tilde{o}(\frac{s^{*2}\log d}{n\epsilon})$(ここで$s^*$ はパラメータのスパース性である)の誤差を達成することのできる切断dp-iht法を提案する。 次に、スパーシリティ上のより一般的な問題 ({\em i.e.,} $\ell_0$-norm) について研究し、損失関数が滑らかで強凸であれば、$\tilde{O}(\frac{s^{*\frac{3}{2}}\log d}{n\epsilon})$が$\tilde{O}{(\sqrt{s^*})}$に近く最適であることを示す。

As one of the most fundamental problems in machine learning, statistics and differential privacy, Differentially Private Stochastic Convex Optimization (DP-SCO) has been extensively studied in recent years. However, most of the previous work can only handle either regular data distribution or irregular data in the low dimensional space case. To better understand the challenges arising from irregular data distribution, in this paper we provide the first study on the problem of DP-SCO with heavy-tailed data in the high dimensional space. In the first part we focus on the problem over some polytope constraint (such as the $\ell_1$-norm ball). We show that if the loss function is smooth and its gradient has bounded second order moment, it is possible to get a (high probability) error bound (excess population risk) of $\tilde{O}(\frac{\log d}{(n\epsilon)^\frac{1}{3}})$ in the $\epsilon$-DP model, where $n$ is the sample size and $d$ is the dimensionality of the underlying space. Next, for LASSO, if the data distribution that has bounded fourth-order moments, we improve the bound to $\tilde{O}(\frac{\log d}{(n\epsilon)^\frac{2}{5}})$ in the $(\epsilon, \delta)$-DP model. In the second part of the paper, we study sparse learning with heavy-tailed data. We first revisit the sparse linear model and propose a truncated DP-IHT method whose output could achieve an error of $\tilde{O}(\frac{s^{*2}\log d}{n\epsilon})$, where $s^*$ is the sparsity of the underlying parameter. Then we study a more general problem over the sparsity ({\em i.e.,} $\ell_0$-norm) constraint, and show that it is possible to achieve an error of $\tilde{O}(\frac{s^{*\frac{3}{2}}\log d}{n\epsilon})$, which is also near optimal up to a factor of $\tilde{O}{(\sqrt{s^*})}$, if the loss function is smooth and strongly convex.
翻訳日:2021-07-26 18:39:10 公開日:2021-07-23
# (参考訳) ユーザの嗜好と最短経路 [全文訳有]

User Preferences and the Shortest Path ( http://arxiv.org/abs/2107.11150v1 )

ライセンス: CC BY 4.0
Isabella Kreller and Bernd Ludwig(参考訳) 屋内ナビゲーションシステムは最短経路アルゴリズムを利用して経路を計算する。 最短経路”を定義するには、アプリケーション領域の理論とヒューリスティックスに基づいてコスト関数を指定する必要がある。 屋内ルーティングの領域について,文献から人間の経路計画に不可欠な理論と基準を考察する。 私たちは量的定義を推進し、それらをそれぞれの基準を個別に重み付けするコスト関数に統合します。 次に、理想的なコスト関数につながる重みを見つけるために網羅的なグリッド探索を適用する。 ここでのIdealは、人間が選択したルートと最もよく似たルートを計画するアルゴリズムを導くものである。 改良されたパスフィニングアルゴリズムにおいてどの基準を考慮すべきかを検討するため、過去の研究で経路選択に有利な影響を及ぼす要因を11種類検討した。 各因子はディヒクストラのアルゴリズムに別々に含められ、その結果、レーゲンスブルク大学の学生が選択した実際のルートとの類似性が決定された。 これにより、要因の影響を定量的に評価し、直接比較する方法を構成することができる。 ターン数、道路数、回転ドア数、入口数、エレベーター数、および上記要因の組み合わせは、肯定的な効果を示し、最短経路上で好まれる経路を生成することが判明した。 ターンと基準の組み合わせが最も影響があることが判明した。

Indoor navigation systems leverage shortest path algorithms to calculate routes. In order to define the "shortest path", a cost function has to be specified based on theories and heuristics in the application domain. For the domain of indoor routing, we survey theories and criteria identified in the literature as essential for human path planning. We drive quantitative definitions and integrate them into a cost function that weights each of the criteria separately. We then apply an exhaustive grid search to find weights that lead to an ideal cost function. "Ideal" here is defined as guiding the algorithm to plan routes that are most similar to those chosen by humans. To explore which criteria should be taken into account in an improved pathfinding algorithm, eleven different factors whose favorable impact on route selection has been established in past research were considered. Each factor was included separately in the Dijkstra algorithm and the similarity of thus calculated routes to the actual routes chosen by students at the University of Regensburg was determined. This allows for a quantitative assessment of the factors' impact and further constitutes a way to directly compare them. A reduction of the number of turns, streets, revolving doors, entryways, elevators as well as the combination of the aforementioned factors was found to have a positive effect and generate paths that were favored over the shortest path. Turns and the combination of criteria turned out to be most impactful.
翻訳日:2021-07-26 17:42:25 公開日:2021-07-23
# (参考訳) 複数ラベル画像認識のための学習識別表現 [全文訳有]

Learning Discriminative Representations for Multi-Label Image Recognition ( http://arxiv.org/abs/2107.11159v1 )

ライセンス: CC BY 4.0
Mohammed Hassanin, Ibrahim Radwan, Salman Khan, Murat Tahtali(参考訳) マルチラベル認識は基本的なものであり、コンピュータビジョンでは難しい課題である。 近年,ディープラーニングモデルは入力画像から識別的特徴を学習する上で大きな進歩を遂げている。 しかし、従来の手法では、画像レベルの特徴識別のために設計されているため、マルチラベル画像の特徴間のクラス間差異をモデル化できない。 本稿では,マルチラベルタスクの識別特徴を学習するための統合深層ネットワークを提案する。 マルチラベル画像が与えられた場合、提案手法はまず異なるクラスに対応する特徴を分離する。 そして、出力空間におけるクラス内差を小さくしながら、クラス間距離を増大させ、これらのクラス間での識別を行う。 ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。 COCO-2014、VOC2007、VOC2012データセットで大規模な実験が行われ、提案手法は大規模COCOデータセットでは3:5%の差で最先端のアプローチより優れていることを示した。 さらに,識別的特徴学習手法の解析により,汎用モジュールとして様々な種類のマルチラベルメソッドにプラグインできることが示されている。

Multi-label recognition is a fundamental, and yet is a challenging task in computer vision. Recently, deep learning models have achieved great progress towards learning discriminative features from input images. However, conventional approaches are unable to model the inter-class discrepancies among features in multi-label images, since they are designed to work for image-level feature discrimination. In this paper, we propose a unified deep network to learn discriminative features for the multi-label task. Given a multi-label image, the proposed method first disentangles features corresponding to different classes. Then, it discriminates between these classes via increasing the inter-class distance while decreasing the intra-class differences in the output space. By regularizing the whole network with the proposed loss, the performance of applying the wellknown ResNet-101 is improved significantly. Extensive experiments have been performed on COCO-2014, VOC2007 and VOC2012 datasets, which demonstrate that the proposed method outperforms state-of-the-art approaches by a significant margin of 3:5% on large-scale COCO dataset. Moreover, analysis of the discriminative feature learning approach shows that it can be plugged into various types of multi-label methods as a general module.
翻訳日:2021-07-26 17:29:21 公開日:2021-07-23
# (参考訳) スマートフォンデータと機械学習を用いたモバイルマルウェアの動的検出 [全文訳有]

Dynamic detection of mobile malware using smartphone data and machine learning ( http://arxiv.org/abs/2107.11167v1 )

ライセンス: CC BY-SA 4.0
J.S. Panman de Wit, J. van der Ham, D. Bucur(参考訳) モバイルマルウェアは、モバイルデバイスをターゲットにした悪意のあるプログラムである。 毎年検出されるモバイルマルウェアのサンプルが増加しているように、これらはますます問題になっている。 アクティブなスマートフォンユーザーの数は増加すると予想され、モバイルマルウェアの検出に関する研究の重要性を強調している。 モバイルマルウェアの検出方法は存在するが、まだ限られている。 本稿では,特権アクセスを使わずに,Android上でマルウェアを検出する機械学習(ML)技術の性能について概説する。 ML分類器は、CPU使用量、バッテリ使用量、メモリ使用量などのデバイス情報を使用して、Android Operating System (OS)上で10のMobile Trojansのサブタイプを検出する。 我々は1年(2016年)に47ユーザーのデバイスとマルウェアのデータを含む実生活データセットを使用する。 私たちはどの特徴、すなわち、どの特徴を検証します。 デバイスのアスペクトは、モバイルのトロイの木馬を検出する(サブタイプ)のに最も重要である。 本論文の焦点は、動的ハードウェア機能である。 これらの動的機能を使用して、Random Forest、K-Nearest Neighbour、AdaBoostといった最先端の機械学習分類器を適用します。 我々は、異なる機能セットで分類結果を示し、グローバルデバイス機能と特定のアプリ機能とを区別する。 測定された機能セットには特権アクセスは必要ない。 その結果,ランダムフォレスト分類器は10種類の移動トロイの木馬のF1スコアを0.09の偽陽性率(FPR)と0.380の偽陰性率(FNR)で達成し,一般的なマルウェア分類器として最適であることがわかった。 ランダムフォレスト(Random Forest)、K-Nearest Neighbours(K-Nearest Neighbours)、AdaBoost分類器(AdaBoost分類器)は0.72以上のF1スコア、0.02以下のFPR、0.33以下のFNRをそれぞれ別々に訓練し、移動トロイの木の各サブタイプを検出する。

Mobile malware are malicious programs that target mobile devices. They are an increasing problem, as seen in the rise of detected mobile malware samples per year. The number of active smartphone users is expected to grow, stressing the importance of research on the detection of mobile malware. Detection methods for mobile malware exist but are still limited. In this paper, we provide an overview of the performance of machine learning (ML) techniques to detect malware on Android, without using privileged access. The ML-classifiers use device information such as the CPU usage, battery usage, and memory usage for the detection of 10 subtypes of Mobile Trojans on the Android Operating System (OS). We use a real-life dataset containing device and malware data from 47 users for a year (2016). We examine which features, i.e. aspects, of a device, are most important to monitor to detect (subtypes of) Mobile Trojans. The focus of this paper is on dynamic hardware features. Using these dynamic features we apply state-of-the-art machine learning classifiers: Random Forest, K-Nearest Neighbour, and AdaBoost. We show classification results on different feature sets, making a distinction between global device features, and specific app features. None of the measured feature sets require privileged access. Our results show that the Random Forest classifier performs best as a general malware classifier: across 10 subtypes of Mobile Trojans, it achieves an F1 score of 0.73 with a False Positive Rate (FPR) of 0.009 and a False Negative Rate (FNR) of 0.380. The Random Forest, K-Nearest Neighbours, and AdaBoost classifiers achieve F1 scores above 0.72, an FPR below 0.02 and, an FNR below 0.33, when trained separately to detect each subtype of Mobile Trojans.
翻訳日:2021-07-26 17:11:36 公開日:2021-07-23
# (参考訳) リカレントグラフ畳み込みによるばらばらな慣性測定による人間のポーズ推定 [全文訳有]

Human Pose Estimation from Sparse Inertial Measurements through Recurrent Graph Convolution ( http://arxiv.org/abs/2107.11214v1 )

ライセンス: CC BY-SA 4.0
Patrik Puchert, Timo Ropinski(参考訳) 6つの測定単位から得られたスパース慣性測定から人のポーズ推定のためのアジャシアン適応グラフ畳み込み長短メモリネットワーク(AAGC-LSTM)を提案する。 AAGC-LSTMは、単一ネットワーク操作における空間的および時間的依存を結合する。 グラフ畳み込みに隣接適応性を持たせることで、人間の関節の未知の依存関係を学習することができる。 さらに精度を高めるために,自然運動パターンを考慮した縦断損失重み付けと,体認識による対側データ拡張を提案する。 これらの貢献を組み合わせることで、人体の固有のグラフの性質を生かして、少ない慣性測定から人間のポーズ推定の技術を上回ることができる。

We propose the adjacency adaptive graph convolutional long-short term memory network (AAGC-LSTM) for human pose estimation from sparse inertial measurements, obtained from only 6 measurement units. The AAGC-LSTM combines both spatial and temporal dependency in a single network operation. This is made possible by equipping graph convolutions with adjacency adaptivity, which also allows for learning unknown dependencies of the human body joints. To further boost accuracy, we propose longitudinal loss weighting to consider natural movement patterns, as well as body-aware contralateral data augmentation. By combining these contributions, we are able to utilize the inherent graph nature of the human body, and can thus outperform the state of the art for human pose estimation from sparse inertial measurements.
翻訳日:2021-07-26 16:49:51 公開日:2021-07-23
# (参考訳) 深層登録ラテントスペースの探索 [全文訳有]

Exploring Deep Registration Latent Spaces ( http://arxiv.org/abs/2107.11238v1 )

ライセンス: CC BY-SA 4.0
Th\'eo Estienne, Maria Vakalopoulou, Stergios Christodoulidis, Enzo Battistella, Th\'eophraste Henry, Marvin Lerousseau, Amaury Leroy, Guillaume Chassagnon, Marie-Pierre Revel, Nikos Paragios and Eric Deutsch(参考訳) ディープニューラルネットワークの説明は、この分野で最も困難で興味深い問題の1つだ。 本研究では,深層学習に基づく登録手法の解釈可能性に着目した話題について検討する。 特に、適切なモデルアーキテクチャと単純な線形射影を用いて、符号化空間を分解し、新しい基底を生成し、この基底が解剖学的に認識された様々な幾何学的変換を捉えることを実証的に示す。 肺と海馬MRIに焦点を当てた2つの異なるデータセットを用いて実験を行った。 このような手法は、いくつかの興味深い性質を持つ直交空間において、非常に複雑な登録パイプラインの潜在空間を分解できることを示す。 この研究が深層学習に基づく登録方法の理解を深めることを願っている。

Explainability of deep neural networks is one of the most challenging and interesting problems in the field. In this study, we investigate the topic focusing on the interpretability of deep learning-based registration methods. In particular, with the appropriate model architecture and using a simple linear projection, we decompose the encoding space, generating a new basis, and we empirically show that this basis captures various decomposed anatomically aware geometrical transformations. We perform experiments using two different datasets focusing on lungs and hippocampus MRI. We show that such an approach can decompose the highly convoluted latent spaces of registration pipelines in an orthogonal space with several interesting properties. We hope that this work could shed some light on a better understanding of deep learning-based registration methods.
翻訳日:2021-07-26 16:32:48 公開日:2021-07-23
# (参考訳) テンソル代数を用いたマルチチャネル自動音楽転写

Multi-Channel Automatic Music Transcription Using Tensor Algebra ( http://arxiv.org/abs/2107.11250v1 )

ライセンス: CC BY-SA 4.0
Marmoret Axel, Bertin Nancy, Cohen Jeremy(参考訳) 音楽は芸術であり、すべてのリスナーによって独特な方法で知覚され、音響信号から来る。 その間、音楽の楽譜としての基準が存在している。 たとえ人間がこの書き起こしができるとしても、時間と努力の面ではコストがかかる。 その意味では、研究は音楽の自動転写の方向に向けられている。 単音符の場合、このタスクは解決されると考えられるが、音符が自身を重ね合わせ、和音を形成するときはまだ開いている。 本報告は,既存の音楽転写技術,特に行列分解技術を開発し,マルチチャンネル自動音楽転写の概念を導入することを目的とする。 この概念はテンソルと呼ばれる数学的対象で探求される。

Music is an art, perceived in unique ways by every listener, coming from acoustic signals. In the meantime, standards as musical scores exist to describe it. Even if humans can make this transcription, it is costly in terms of time and efforts, even more with the explosion of information consecutively to the rise of the Internet. In that sense, researches are driven in the direction of Automatic Music Transcription. While this task is considered solved in the case of single notes, it is still open when notes superpose themselves, forming chords. This report aims at developing some of the existing techniques towards Music Transcription, particularly matrix factorization, and introducing the concept of multi-channel automatic music transcription. This concept will be explored with mathematical objects called tensors.
翻訳日:2021-07-26 16:22:14 公開日:2021-07-23
# (参考訳) 低分解能コンディショニングによる画像間変換 [全文訳有]

Image-to-Image Translation with Low Resolution Conditioning ( http://arxiv.org/abs/2107.11262v1 )

ライセンス: CC BY 4.0
Mohamed Abderrahmen Abid, Ihsen Hedhli, Jean-Fran\c{c}ois Lalonde, Christian Gagne(参考訳) ほとんどの画像から画像への翻訳手法は、画像がコンテンツ(例えばポーズ)を共有することを前提として、ドメイン間のマッピングの学習に焦点を当てているが、スタイルとして知られる独自のドメイン固有の情報を持っている。 対象画像に条件付けされた場合、そのような手法はターゲットのスタイルを抽出し、ソース画像の内容と組み合わせることを目的としている。 本研究では,対象画像の解像度が極めて低いシナリオについて考察する。 より具体的には、ターゲットの粗い低解像度(LR)画像表現に適合させるために、高解像度(HR)画像から細部を転送することを目的としている。 したがって、HRとLRの両方の入力から特徴を共有するHR画像を生成する。 これは、ある画像スタイルを対象コンテンツに変換することに焦点を当てた従来の方法とは異なり、我々の翻訳アプローチは、そのスタイルを同時に模倣し、LRターゲットの構造情報をマージすることができる。 提案手法は, HRターゲット画像を生成するための生成モデルをトレーニングすることに依存し, 1) 対応するソース画像の固有情報を共有すること, 2) ダウンスケール時のLRターゲット画像と正しく一致させることである。 我々は,CelebA-HQとAFHQのデータセットを用いて,視覚的品質,多様性,カバレッジの面での改善を示す。 質的・定量的な結果から,stargan-v2 のような最先端の手法と比較して,ドメイン内画像翻訳を扱う場合,より現実的なサンプルを生成することが判明した。

Most image-to-image translation methods focus on learning mappings across domains with the assumption that images share content (e.g., pose) but have their own domain-specific information known as style. When conditioned on a target image, such methods aim to extract the style of the target and combine it with the content of the source image. In this work, we consider the scenario where the target image has a very low resolution. More specifically, our approach aims at transferring fine details from a high resolution (HR) source image to fit a coarse, low resolution (LR) image representation of the target. We therefore generate HR images that share features from both HR and LR inputs. This differs from previous methods that focus on translating a given image style into a target content, our translation approach being able to simultaneously imitate the style and merge the structural information of the LR target. Our approach relies on training the generative model to produce HR target images that both 1) share distinctive information of the associated source image; 2) correctly match the LR target image when downscaled. We validate our method on the CelebA-HQ and AFHQ datasets by demonstrating improvements in terms of visual quality, diversity and coverage. Qualitative and quantitative results show that when dealing with intra-domain image translation, our method generates more realistic samples compared to state-of-the-art methods such as Stargan-v2
翻訳日:2021-07-26 16:21:19 公開日:2021-07-23
# (参考訳) 都市・シーンセグメンテーションにおける未予測道路障害物の簡易かつ効果的な同定手法 [全文訳有]

Standardized Max Logits: A Simple yet Effective Approach for Identifying Unexpected Road Obstacles in Urban-Scene Segmentation ( http://arxiv.org/abs/2107.11264v1 )

ライセンス: CC BY 4.0
Sanghun Jung, Jungsoo Lee, Daehoon Gwak, Sungha Choi, Jaegul Choo(参考訳) セマンティックセグメンテーション(例えば、道路上の犬を識別する)における道路上の予期せぬ物体の同定は、安全クリティカルな応用において不可欠である。 既存のアプローチでは、外部データセットからの予期せぬオブジェクトの画像を使用するか、追加のトレーニング(セグメンテーションネットワークの再トレーニングや余分なネットワークのトレーニングなど)を必要とする。 考えられる選択肢の1つは、事前訓練されたネットワークの予測スコア(例えば、max logits(最終softmax層前のクラス間の最大値)を使用して、そのようなオブジェクトを検出することである。 しかし,各予測クラスにおける最大ロジットの分布は,都市間セグメンテーションにおける予期せぬ対象の識別性能を低下させるため,大きく異なる。 この問題に対処するために,我々は,各予測クラスにおけるmaxロジットの相対的意味を反映するために,maxロジットを標準化する単純かつ効果的なアプローチを提案する。 さらに,隣接画素が類似した意味情報を共有するという直観に基づいて,二つの異なる視点から局所領域を考える。 従来のアプローチとは対照的に,本手法では外部データセットは使用せず,追加のトレーニングも必要とせず,既存の事前学習されたセグメンテーションモデルに広く適用できる。 このような直接的なアプローチは、広く入手可能なfishyscapes lost & found leaderboardにおける最先端のパフォーマンスを、大きなマージンで達成する。

Identifying unexpected objects on roads in semantic segmentation (e.g., identifying dogs on roads) is crucial in safety-critical applications. Existing approaches use images of unexpected objects from external datasets or require additional training (e.g., retraining segmentation networks or training an extra network), which necessitate a non-trivial amount of labor intensity or lengthy inference time. One possible alternative is to use prediction scores of a pre-trained network such as the max logits (i.e., maximum values among classes before the final softmax layer) for detecting such objects. However, the distribution of max logits of each predicted class is significantly different from each other, which degrades the performance of identifying unexpected objects in urban-scene segmentation. To address this issue, we propose a simple yet effective approach that standardizes the max logits in order to align the different distributions and reflect the relative meanings of max logits within each predicted class. Moreover, we consider the local regions from two different perspectives based on the intuition that neighboring pixels share similar semantic information. In contrast to previous approaches, our method does not utilize any external datasets or require additional training, which makes our method widely applicable to existing pre-trained segmentation models. Such a straightforward approach achieves a new state-of-the-art performance on the publicly available Fishyscapes Lost & Found leaderboard with a large margin.
翻訳日:2021-07-26 16:08:51 公開日:2021-07-23
# (参考訳) 3次元点雲上の弱い教師付きセマンティクスセグメンテーションに対する密集した監督伝播 [全文訳有]

Dense Supervision Propagation for Weakly Supervised Semantic Segmentation on 3D Point Clouds ( http://arxiv.org/abs/2107.11267v1 )

ライセンス: CC BY 4.0
Jiacheng Wei, Guosheng Lin, Kim-Hui Yap, Fayao Liu, Tzu-Yi Hung(参考訳) 3Dポイントクラウド上のセマンティックセグメンテーションは、3Dシーン理解の重要なタスクである。 3dデータへの密なラベリングは高価で時間がかかりますが、よりシンプルで安価なラベルから学習することでラベリングコストを和らげるために、弱い教師付きセマンティックポイントクラウドセグメンテーションメソッドに対処できる作業はごくわずかです。 一方、既存の弱教師付きメソッドと最先端の完全教師付きメソッドの間には、依然として大きなパフォーマンスギャップがある。 本稿では,少数のポイントをラベル付けした意味点クラウドセグメンテーションネットワークを訓練する。 我々は、ラベル付き点から入力サンプル内および他の点への監督信号を密に伝播するので、限られた監視情報をより有効に活用することができると論じる。 具体的には,類似した特徴を伝達し,共通クラスを持つ2つのサンプル間の勾配を再ルーティングするクロスサンプル機能再配置モジュールと,非ラベル点の監視信号を点群内および点群内へ伝達するサンプル機能再分配モジュールを提案する。 公開データセットS3DISとScanNetについて広範な実験を行った。 ラベルの10 % と 1 % しか持たない弱教師付き手法では,完全教師付き手法と互換性のある結果が得られる。

Semantic segmentation on 3D point clouds is an important task for 3D scene understanding. While dense labeling on 3D data is expensive and time-consuming, only a few works address weakly supervised semantic point cloud segmentation methods to relieve the labeling cost by learning from simpler and cheaper labels. Meanwhile, there are still huge performance gaps between existing weakly supervised methods and state-of-the-art fully supervised methods. In this paper, we train a semantic point cloud segmentation network with only a small portion of points being labeled. We argue that we can better utilize the limited supervision information as we densely propagate the supervision signal from the labeled points to other points within and across the input samples. Specifically, we propose a cross-sample feature reallocating module to transfer similar features and therefore re-route the gradients across two samples with common classes and an intra-sample feature redistribution module to propagate supervision signals on unlabeled points across and within point cloud samples. We conduct extensive experiments on public datasets S3DIS and ScanNet. Our weakly supervised method with only 10\% and 1\% of labels can produce compatible results with the fully supervised counterpart.
翻訳日:2021-07-26 15:54:39 公開日:2021-07-23
# (参考訳) テキスト分類器における微分言語モデル逆攻撃 [全文訳有]

A Differentiable Language Model Adversarial Attack on Text Classifiers ( http://arxiv.org/abs/2107.11275v1 )

ライセンス: CC BY 4.0
Ivan Fursov, Alexey Zaytsev, Pavel Burnyshev, Ekaterina Dmitrieva, Nikita Klyuchnikov, Andrey Kravchenko, Ekaterina Artemova, Evgeny Burnaev(参考訳) 自然言語処理のための巨大なTransformerベースのモデルのロバストさは、その能力と広範な採用のために重要な問題である。 これらのモデルのロバスト性を理解し、改善する方法の1つは、敵対的な攻撃シナリオを探求することである。 テキストデータの離散的な性質のため、コンピュータビジョンで広く使われている勾配に基づく逆法は適用できない。 この問題を解決するための標準的な戦略は、文全体を考慮しないトークンレベルの変換を開発することである。 本稿では,新しいブラックボックス文レベル攻撃を提案する。 本手法は,事前学習した言語モデルを微調整し,逆例を生成する。 提案する微分可能損失関数は、置換分類子スコアと、ディープラーニングモデルで計算された近似編集距離に依存する。 提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。 さらに、微調整言語モデルの使用により、生成した逆数例は検出が困難であるため、現在のモデルは堅牢ではない。 したがって、提案された攻撃から防御することは困難であり、他の攻撃はそうではない。

Robustness of huge Transformer-based models for natural language processing is an important issue due to their capabilities and wide adoption. One way to understand and improve robustness of these models is an exploration of an adversarial attack scenario: check if a small perturbation of an input can fool a model. Due to the discrete nature of textual data, gradient-based adversarial methods, widely used in computer vision, are not applicable per~se. The standard strategy to overcome this issue is to develop token-level transformations, which do not take the whole sentence into account. In this paper, we propose a new black-box sentence-level attack. Our method fine-tunes a pre-trained language model to generate adversarial examples. A proposed differentiable loss function depends on a substitute classifier score and an approximate edit distance computed via a deep learning model. We show that the proposed attack outperforms competitors on a diverse set of NLP problems for both computed metrics and human evaluation. Moreover, due to the usage of the fine-tuned language model, the generated adversarial examples are hard to detect, thus current models are not robust. Hence, it is difficult to defend from the proposed attack, which is not the case for other attacks.
翻訳日:2021-07-26 15:42:52 公開日:2021-07-23
# (参考訳) リジェクトオプションによる機械学習: 調査

Machine Learning with a Reject Option: A survey ( http://arxiv.org/abs/2107.11277v1 )

ライセンス: CC BY 4.0
Kilian Hendrickx, Lorenzo Perini, Dries Van der Plas, Wannes Meert, Jesse Davis(参考訳) 機械学習モデルは、不正確になりやすい場合でも、常に予測を行う。 この振る舞いは、多くの意思決定支援アプリケーションで避けるべきであり、ミスが深刻な結果をもたらす可能性がある。 1970年にはすでに勉強していたが、リジェクションオプション付きの機械学習が最近注目を集めた。 この機械学習サブフィールドにより、機械学習モデルは、間違いを犯す可能性のある予測を控えることができる。 この調査は、リジェクションオプションによる機械学習の概要を提供することを目的としている。 我々は, 曖昧さと新規性拒絶という2種類の拒絶につながる条件を紹介する。 さらに,モデルの既存アーキテクチャを拒絶オプションで定義し,モデルをトレーニングするための標準学習戦略を記述し,従来の機械学習手法を拒絶に関連付ける。 さらに,モデルの予測的かつ拒絶的品質を評価する戦略について検討する。 最後に、関連するアプリケーションドメインの例を示し、機械学習が他の機械学習研究領域とどのように関係しているかを示す。

Machine learning models always make a prediction, even when it is likely to be inaccurate. This behavior should be avoided in many decision support applications, where mistakes can have severe consequences. Albeit already studied in 1970, machine learning with a reject option recently gained interest. This machine learning subfield enables machine learning models to abstain from making a prediction when likely to make a mistake. This survey aims to provide an overview on machine learning with a reject option. We introduce the conditions leading to two types of rejection, ambiguity and novelty rejection. Moreover, we define the existing architectures for models with a reject option, describe the standard learning strategies to train such models and relate traditional machine learning techniques to rejection. Additionally, we review strategies to evaluate a model's predictive and rejective quality. Finally, we provide examples of relevant application domains and show how machine learning with rejection relates to other machine learning research areas.
翻訳日:2021-07-26 15:29:59 公開日:2021-07-23
# (参考訳) surfacenet:単一の画像による逆svbrdf推定 [全文訳有]

SurfaceNet: Adversarial SVBRDF Estimation from a Single Image ( http://arxiv.org/abs/2107.11298v1 )

ライセンス: CC BY 4.0
Giuseppe Vecchio, Simone Palazzo, Concetto Spampinato(参考訳) 本稿では,空間変動型双方向反射率分布関数(svbrdf)の材料特性を単一画像から推定する手法であるsurfacenetを提案する。 画像翻訳タスクとしてこの問題に対処し、高品質で高解像度な表面反射率マップを作成可能な、パッチベースの新規な生成対向ネットワーク(GAN)を提案する。 ganパラダイムの雇用は、1)モデルが標準翻訳モデルよりも細かい詳細を回復すること、2)合成データと実データ分布の間のドメインシフトを教師なしの方法で低減することの2つの目的を持っている。 異なる照明条件下での合成画像と実画像の公開ベンチマークにより、SurfaceNetは既存のSVBRDF再構築手法よりも定量的かつ定性的に優れていることを示す。 さらにsurfacenetは、トレーニング時に監視することなく、実際のサンプルから高品質なマップを生成する素晴らしい能力を示している。

In this paper we present SurfaceNet, an approach for estimating spatially-varying bidirectional reflectance distribution function (SVBRDF) material properties from a single image. We pose the problem as an image translation task and propose a novel patch-based generative adversarial network (GAN) that is able to produce high-quality, high-resolution surface reflectance maps. The employment of the GAN paradigm has a twofold objective: 1) allowing the model to recover finer details than standard translation models; 2) reducing the domain shift between synthetic and real data distributions in an unsupervised way. An extensive evaluation, carried out on a public benchmark of synthetic and real images under different illumination conditions, shows that SurfaceNet largely outperforms existing SVBRDF reconstruction methods, both quantitatively and qualitatively. Furthermore, SurfaceNet exhibits a remarkable ability in generating high-quality maps from real samples without any supervision at training time.
翻訳日:2021-07-26 15:29:04 公開日:2021-07-23
# (参考訳) robust adaptive submodular maximization [全文訳有]

Robust Adaptive Submodular Maximization ( http://arxiv.org/abs/2107.11333v1 )

ライセンス: CC BY 4.0
Shaojie Tang(参考訳) 適応的部分モジュラー最適化に関する既存の研究の多くは、平均ケース、すなわち、その目的は、既知の実現の分布よりも期待される効用を最大化するポリシーを見つけることである。 しかし、平均的なパフォーマンスが良いポリシーは、最悪のケースではパフォーマンスが非常に悪いかもしれない。 本研究では,適応部分モジュラー最適化問題の2つの変種,すなわち,最悪の場合適応部分モジュラー最大化とロバスト部分モジュラー最大化について検討する。 最初の問題は、最悪のケースのユーティリティを最大化するポリシーを見つけることであり、後者は、少なくとも、最適な平均ケースのユーティリティと最悪のケースのユーティリティの両方を同時に達成するポリシーを見つけることを目的としている。 確率関数の新しいクラスである \emph{worst-case submodular function} を導入する。 p$-system制約を受ける最悪のケース適応サブモジュラー最大化問題に対して、ユーティリティ関数が最悪のケースサブモジュラーである場合、最適なワーストケースユーティリティに対する$\frac{1}{p+1}$近似比を達成する適応的最悪のケースグリーディポリシーを開発する。 基数制約を受けるロバスト適応部分モジュラー最大化問題に対して、実用関数が最悪ケース部分モジュラーかつ適応部分モジュラーの両方である場合、最悪のケース設定と平均ケース設定の両方で1-e^{-\frac{1}{2}}$に近い近似を同時に達成するハイブリッド適応ポリシーを開発する。 また、プールベースアクティブラーニング、確率的サブモジュール集合被覆、適応的バイラルマーケティングなど、理論的結果のいくつかの応用について述べる。

Most of existing studies on adaptive submodular optimization focus on the average-case, i.e., their objective is to find a policy that maximizes the expected utility over a known distribution of realizations. However, a policy that has a good average-case performance may have very poor performance under the worst-case realization. In this study, we propose to study two variants of adaptive submodular optimization problems, namely, worst-case adaptive submodular maximization and robust submodular maximization. The first problem aims to find a policy that maximizes the worst-case utility and the latter one aims to find a policy, if any, that achieves both near optimal average-case utility and worst-case utility simultaneously. We introduce a new class of stochastic functions, called \emph{worst-case submodular function}. For the worst-case adaptive submodular maximization problem subject to a $p$-system constraint, we develop an adaptive worst-case greedy policy that achieves a $\frac{1}{p+1}$ approximation ratio against the optimal worst-case utility if the utility function is worst-case submodular. For the robust adaptive submodular maximization problem subject to a cardinality constraint, if the utility function is both worst-case submodular and adaptive submodular, we develop a hybrid adaptive policy that achieves an approximation close to $1-e^{-\frac{1}{2}}$ under both worst case setting and average case setting simultaneously. We also describe several applications of our theoretical results, including pool-base active learning, stochastic submodular set cover and adaptive viral marketing.
翻訳日:2021-07-26 15:17:51 公開日:2021-07-23
# (参考訳) 気候知識ベースによる効果的な気候コミュニケーションの活用 [全文訳有]

Powering Effective Climate Communication with a Climate Knowledge Base ( http://arxiv.org/abs/2107.11351v1 )

ライセンス: CC BY 4.0
Kameron B. Rodrigues, Shweta Khushu, Mukut Mukherjee, Andrew Banister, Anthony Hevia, Sampath Duddu, Nikita Bhutani(参考訳) 多くの人は気候変動とその拡大する影響を受け入れるが、それに対応するのに必要な社会的変化の採用速度を制限し、それについてうまく議論する人は少ない。 効果的な気候コミュニケーションを容易にするため、我々は、個人が予測する気候情報を最良の動機付けとして提示し、独自の個人的価値観から行動を起こすよう促すシステムの構築を目指している。 コールドスタート問題を緩和するため、このシステムは気候変動の原因と影響の知識ベース(クライメートKB)と、その個人的価値との関連に依存する。 このような総合的なClimateKBは存在しないため、知識ベース構築技術を再考し、フリーテキストからClimateKBを構築する。 climatekbと関連するコードをオープンソースにして、今後の研究と応用を促進する予定です。

While many accept climate change and its growing impacts, few converse about it well, limiting the adoption speed of societal changes necessary to address it. In order to make effective climate communication easier, we aim to build a system that presents to any individual the climate information predicted to best motivate and inspire them to take action given their unique set of personal values. To alleviate the cold-start problem, the system relies on a knowledge base (ClimateKB) of causes and effects of climate change, and their associations to personal values. Since no such comprehensive ClimateKB exists, we revisit knowledge base construction techniques and build a ClimateKB from free text. We plan to open source the ClimateKB and associated code to encourage future research and applications.
翻訳日:2021-07-26 14:53:29 公開日:2021-07-23
# (参考訳) ジョイントシェープリー値:ジョイント特徴重要度尺度 [全文訳有]

Joint Shapley values: a measure of joint feature importance ( http://arxiv.org/abs/2107.11357v1 )

ライセンス: CC BY 4.0
Chris Harris, Richard Pymar, Colin Rowat(参考訳) シャプリー値は、説明可能なAIにおける機能の重要性を最も広く認識する尺度の1つであり、公理的基盤が明確であり、一意の存在が保証され、モデルの予測に対する機能の平均的な影響として明確な解釈を持つ。 結合Shapley値を導入し、Shapley公理を直接拡張する。 これは古典的なシェープリー値の直観を保存する: ジョイントシェープリー値はモデルの予測に対する特徴のセットの平均効果を測定する。 任意の説明の順序で、共同シェープ値の特異性を証明する。 ゲームの結果、ジョイントシェープの値は既存の相互作用指標とは異なる洞察を示し、特徴セット内の特徴の効果を評価する。 ml帰属問題におけるジョイント・シャプリー値の導出により,モデル予測における特徴集合のジョイント効果の第一尺度が得られた。 バイナリ機能を持つデータセットでは、効率性を保持するグローバル値を計算するための存在調整法を提案する。

The Shapley value is one of the most widely used model-agnostic measures of feature importance in explainable AI: it has clear axiomatic foundations, is guaranteed to uniquely exist, and has a clear interpretation as a feature's average effect on a model's prediction. We introduce joint Shapley values, which directly extend the Shapley axioms. This preserves the classic Shapley value's intuitions: joint Shapley values measure a set of features' average effect on a model's prediction. We prove the uniqueness of joint Shapley values, for any order of explanation. Results for games show that joint Shapley values present different insights from existing interaction indices, which assess the effect of a feature within a set of features. Deriving joint Shapley values in ML attribution problems thus gives us the first measure of the joint effect of sets of features on model predictions. In a dataset with binary features, we present a presence-adjusted method for calculating global values that retains the efficiency property.
翻訳日:2021-07-26 14:36:53 公開日:2021-07-23
# 不確定な動的環境に対する3次元レーダー速度マップ

3D Radar Velocity Maps for Uncertain Dynamic Environments ( http://arxiv.org/abs/2107.11039v1 )

ライセンス: Link先を確認
Ransalu Senanayake, Kyle Beltran Hatch, Jason Zheng and Mykel J. Kochenderfer(参考訳) 将来の都市交通の概念には、密集した環境で様々な自律性を持つ地上車両と航空車両の混合が含まれる。 このような動的な環境では、占有マップだけでは安全な経路計画には不十分である。 安全で効率的な輸送には、交通の3次元流れを推論し、不確実性を適切にモデル化する必要がある。 3次元速度マップの開発にはいくつかの異なるアプローチが考えられる。 本稿では,訓練データから不確かさを捉えたベイズ的アプローチについて検討する。 このアプローチでは、空間座標を高次元特徴空間に投影し、ベイズ線形回帰を適用して予測を行い、推定の不確かさを定量化する。 航空や地上のデータセットの収集において、このアプローチはいくつかの代替手法よりも効果的でスケーラブルであることを示す。

Future urban transportation concepts include a mixture of ground and air vehicles with varying degrees of autonomy in a congested environment. In such dynamic environments, occupancy maps alone are not sufficient for safe path planning. Safe and efficient transportation requires reasoning about the 3D flow of traffic and properly modeling uncertainty. Several different approaches can be taken for developing 3D velocity maps. This paper explores a Bayesian approach that captures our uncertainty in the map given training data. The approach involves projecting spatial coordinates into a high-dimensional feature space and then applying Bayesian linear regression to make predictions and quantify uncertainty in our estimates. On a collection of air and ground datasets, we demonstrate that this approach is effective and more scalable than several alternative approaches.
翻訳日:2021-07-26 14:17:07 公開日:2021-07-23
# 手術報告作成のための平滑化と校正によるクラスインクリメンタルドメイン適応

Class-Incremental Domain Adaptation with Smoothing and Calibration for Surgical Report Generation ( http://arxiv.org/abs/2107.11091v1 )

ライセンス: Link先を確認
Mengya Xu, Mobarakol Islam, Chwee Ming Lim, Hongliang Ren(参考訳) ロボット支援手術における外科的シーン理解を目的とした手術報告の生成は,作業の文書化や術後分析に寄与する。 印象的な結果にも関わらず、ディープラーニングモデルは、ドメインシフトに遭遇するさまざまなドメインに適用される場合のパフォーマンスを低下させる。 さらに、ロボット手術に現れる外科組織には、新しい器具やバリエーションがある。 そこで本研究では,多層トランスフォーマーモデルを用いたクラスインクリメンタルドメイン適応(CIDA)を提案し,対象領域の新たなクラスとドメインシフトに対処し,手術時の手術報告を生成する。 インクリメンタルなクラスに適応し、ドメイン不変の特徴を抽出するために、教師付きコントラスト(SupCon)損失を持つクラス増分学習法を特徴抽出器に組み込む。 抽出された特徴からキャプションを生成するために、一次元ガウス平滑化(cbs)によるカリキュラムを多層トランスフォーマーに基づくキャプション予測モデルに統合する。 CBSはアンチエイリアスを使って機能を埋め込み、モデルがドメイン不変の機能を学ぶのに役立つ。 また,ラベルスムーシング(LS)を用いて予測確率の調整を行い,特徴抽出モデルとキャプションモデルの両方で特徴表現を改善する。 本手法は腎摘出術と経口腔的ロボット手術の2つの手術領域のデータセットを用いて経験的に評価する。 ドメイン不変機能学習とネットワークの高度化は,単発学習と少数発学習の手法で,ドメインシフトと未認識クラスの下でのソースとターゲットドメインの双方における手術レポート生成性能を向上させる。 コードはhttps://github.com/X uMengyaAmy/CIDACapti oning.comで公開されている。

Generating surgical reports aimed at surgical scene understanding in robot-assisted surgery can contribute to documenting entry tasks and post-operative analysis. Despite the impressive outcome, the deep learning model degrades the performance when applied to different domains encountering domain shifts. In addition, there are new instruments and variations in surgical tissues appeared in robotic surgery. In this work, we propose class-incremental domain adaptation (CIDA) with a multi-layer transformer-based model to tackle the new classes and domain shift in the target domain to generate surgical reports during robotic surgery. To adapt incremental classes and extract domain invariant features, a class-incremental (CI) learning method with supervised contrastive (SupCon) loss is incorporated with a feature extractor. To generate caption from the extracted feature, curriculum by one-dimensional gaussian smoothing (CBS) is integrated with a multi-layer transformer-based caption prediction model. CBS smoothes the features embedding using anti-aliasing and helps the model to learn domain invariant features. We also adopt label smoothing (LS) to calibrate prediction probability and obtain better feature representation with both feature extractor and captioning model. The proposed techniques are empirically evaluated by using the datasets of two surgical domains, such as nephrectomy operations and transoral robotic surgery. We observe that domain invariant feature learning and the well-calibrated network improves the surgical report generation performance in both source and target domain under domain shift and unseen classes in the manners of one-shot and few-shot learning. The code is publicly available at https://github.com/X uMengyaAmy/CIDACapti oning.
翻訳日:2021-07-26 14:16:56 公開日:2021-07-23
# 事前学習畳み込みニューラルネットワークを用いた移動ロボットのロバストシーン認識のための効率的な転送学習戦略の開発

Developing efficient transfer learning strategies for robust scene recognition in mobile robotics using pre-trained convolutional neural networks ( http://arxiv.org/abs/2107.11187v1 )

ライセンス: Link先を確認
Hermann Baumgartl and Ricardo Buettner(参考訳) 本稿では,ロバストな移動シーン認識のための4種類のロバスト転送学習とデータ拡張戦略を提案する。 広く利用可能なEvent8、Scene15、Stanford40、MIT67データセット上で、3つのモバイル対応(EfficientNetB0、MobileNetV2、MobileNetV3)と2つの大規模なベースライン(VGG16、ResNet50)の畳み込みニューラルネットワークアーキテクチャをトレーニングすることにより、移行学習戦略の一般化能力を示す。 さらに,KTH-Idol2データベースを用いて,視点および照明変化下での移動学習戦略の堅牢性を検証した。 また, 予測最適化手法が一般化性能および異なる移動学習戦略下での堅牢性に及ぼす影響を評価する。 実験結果から,移動シーン認識におけるファインチューニングと拡張データの組み合わせは,移動シーン認識における一般的な精度と堅牢性を向上させることが示された。 我々は,様々なベースライン畳み込みニューラルネットワークを用いて最先端の成果を達成し,移動ロボットの位置認識に挑戦する際の照明や視点変化に対する頑健さを示した。

We present four different robust transfer learning and data augmentation strategies for robust mobile scene recognition. By training three mobile-ready (EfficientNetB0, MobileNetV2, MobileNetV3) and two large-scale baseline (VGG16, ResNet50) convolutional neural network architectures on the widely available Event8, Scene15, Stanford40, and MIT67 datasets, we show the generalization ability of our transfer learning strategies. Furthermore, we tested the robustness of our transfer learning strategies under viewpoint and lighting changes using the KTH-Idol2 database. Also, the impact of inference optimization techniques on the general performance and the robustness under different transfer learning strategies is evaluated. Experimental results show that when employing transfer learning, Fine-Tuning in combination with extensive data augmentation improves the general accuracy and robustness in mobile scene recognition. We achieved state-of-the-art results using various baseline convolutional neural networks and showed the robustness against lighting and viewpoint changes in challenging mobile robot place recognition.
翻訳日:2021-07-26 14:16:27 公開日:2021-07-23
# 高度な運転支援システムのための夜間の車両検出

Provident Vehicle Detection at Night for Advanced Driver Assistance Systems ( http://arxiv.org/abs/2107.11302v1 )

ライセンス: Link先を確認
Lukas Ewecker and Ebubekir Asan and Lars Ohnemus and Sascha Saralajew(参考訳) 近年、コンピュータビジョンアルゴリズムはますます強力になり、自動運転などの技術が急速に進化するようになっている。 しかし、現在のアルゴリズムは、主に1つの制限を共有している。 これは人間の行動と比較して大きな欠点であり、実際の物体(例えば影)によって引き起こされる間接的な視覚的手がかりは、情報検索や発生した物体の予測に直感的に既に使われている。 現在の物体検出システムは、接近する車両の直接視認性に依存しているのに対して、人間はすでに、接近する車両によって引き起こされる光アーティファクトを処理して、将来の外観を想定している。 本稿では,先行研究に基づいて,夜間に対向車を検出するための課題を,その原因となる光アーティファクトに基づいて完全に解決するシステムを提案する。 そのため,画像空間における光人工物の検出,三次元空間における物体の局所化,時間とともに物体の検証など,全アルゴリズムアーキテクチャの概要を述べる。 適用性を示すため,システムを試験車両に展開し,有効に検出された車両の情報を用いて,グラアフリー高ビームシステムを積極的に制御する。 本実験では, 実運用型コンピュータビジョンシステムと比較して, 提供車検出システムが提供する時間的メリットを定量化する。 さらに、glare-free high beamユースケースは、検出結果のリアルタイムおよび実世界の可視化インターフェースを提供する。 この貢献により、提案する物体検出の非従来的センシングタスクに意識を置き、人間の行動とコンピュータビジョンアルゴリズムのパフォーマンスギャップをさらに埋めて、自律運転と自動運転を一歩前進させたいと思っています。

In recent years, computer vision algorithms have become more and more powerful, which enabled technologies such as autonomous driving to evolve with rapid pace. However, current algorithms mainly share one limitation: They rely on directly visible objects. This is a major drawback compared to human behavior, where indirect visual cues caused by the actual object (e.g., shadows) are already used intuitively to retrieve information or anticipate occurring objects. While driving at night, this performance deficit becomes even more obvious: Humans already process the light artifacts caused by oncoming vehicles to assume their future appearance, whereas current object detection systems rely on the oncoming vehicle's direct visibility. Based on previous work in this subject, we present with this paper a complete system capable of solving the task to providently detect oncoming vehicles at nighttime based on their caused light artifacts. For that, we outline the full algorithm architecture ranging from the detection of light artifacts in the image space, localizing the objects in the three-dimensional space, and verifying the objects over time. To demonstrate the applicability, we deploy the system in a test vehicle and use the information of providently detected vehicles to control the glare-free high beam system proactively. Using this experimental setting, we quantify the time benefit that the provident vehicle detection system provides compared to an in-production computer vision system. Additionally, the glare-free high beam use case provides a real-time and real-world visualization interface of the detection results. With this contribution, we want to put awareness on the unconventional sensing task of provident object detection and further close the performance gap between human behavior and computer vision algorithms in order to bring autonomous and automated driving a step forward.
翻訳日:2021-07-26 14:16:06 公開日:2021-07-23
# 一般化移動ピークベンチマークを用いた大規模動的最適化問題の生成

Generating Large-scale Dynamic Optimization Problem Instances Using the Generalized Moving Peaks Benchmark ( http://arxiv.org/abs/2107.11019v1 )

ライセンス: Link先を確認
Mohammad Nabi Omidvar, Danial Yazdani, Juergen Branke, Xiaodong Li, Shengxiang Yang, Xin Yao(参考訳) 本論文は、GMPB(Generalized moving peaks benchmark)と、連続した大規模動的最適化問題に対する問題インスタンスの生成方法について述べる。 15のベンチマーク問題、関連するソースコード、および大規模動的最適化における比較研究と競合のために設計されたパフォーマンス指標を提示する。 その主な目的は、競争を実行するための一貫性のある基盤を提供することであるが、その汎用性により、興味のある読者は、この文書をカスタマイズされた問題インスタンスを設計して、提示されたベンチマークスイートの範囲を超えて問題を調査するためのガイドとして使うことができる。 そこで本研究では,gmpbのモジュラー構造と,その構成成分を組み立てることで,ユニモーダルから高マルチモーダル,対称,高非対称,滑らか,高不規則,多変量相互作用や不定形化といった様々な制御可能な特性を持つ問題インスタンスを形成する方法について述べる。

This document describes the generalized moving peaks benchmark (GMPB) and how it can be used to generate problem instances for continuous large-scale dynamic optimization problems. It presents a set of 15 benchmark problems, the relevant source code, and a performance indicator, designed for comparative studies and competitions in large-scale dynamic optimization. Although its primary purpose is to provide a coherent basis for running competitions, its generality allows the interested reader to use this document as a guide to design customized problem instances to investigate issues beyond the scope of the presented benchmark suite. To this end, we explain the modular structure of the GMPB and how its constituents can be assembled to form problem instances with a variety of controllable characteristics ranging from unimodal to highly multimodal, symmetric to highly asymmetric, smooth to highly irregular, and various degrees of variable interaction and ill-conditioning.
翻訳日:2021-07-26 14:15:39 公開日:2021-07-23
# 多様体上の最適化:シンプレクティックアプローチ

Optimization on manifolds: A symplectic approach ( http://arxiv.org/abs/2107.11231v1 )

ライセンス: Link先を確認
Guilherme Fran\c{c}a, Alessandro Barp, Mark Girolami, Michael I. Jordan(参考訳) 動的システムからのツールの使用や微分方程式の数値解析による新しい最適化手法の理解と構築に大きな関心が寄せられている。 特に近年、ユークリッド空間上の加速最適化法を得るために力学と幾何積分のアイデアを適用する新しいパラダイムが出現している。 高速化メソッドが多くの機械学習アプリケーションを支えるワークホースであることを考えると、これは重要な結果となる。 本稿では, 任意の滑らかな多様体上での最適化問題を解くのに適した, 散逸的かつ制約的ハミルトニアン系の枠組みを提案する。 重要なことに、このことはシンプレクティック積分の確立された理論を利用して「レートマッチング」散逸積分子を導出することができる。 このことは多様体上の最適化の新しい視点をもたらし、収束保証はシンプレクティック幾何や後方誤差解析における古典的議論から導かれる。 さらに, 抽出可能な測地流や退化に依存するリー群と同次空間, 有名なRATTLE積分器の散逸一般化に基づく制約付き部分多様体の2つの散逸的一般化を構築した。

There has been great interest in using tools from dynamical systems and numerical analysis of differential equations to understand and construct new optimization methods. In particular, recently a new paradigm has emerged that applies ideas from mechanics and geometric integration to obtain accelerated optimization methods on Euclidean spaces. This has important consequences given that accelerated methods are the workhorses behind many machine learning applications. In this paper we build upon these advances and propose a framework for dissipative and constrained Hamiltonian systems that is suitable for solving optimization problems on arbitrary smooth manifolds. Importantly, this allows us to leverage the well-established theory of symplectic integration to derive "rate-matching" dissipative integrators. This brings a new perspective to optimization on manifolds whereby convergence guarantees follow by construction from classical arguments in symplectic geometry and backward error analysis. Moreover, we construct two dissipative generalizations of leapfrog that are straightforward to implement: one for Lie groups and homogeneous spaces, that relies on the tractable geodesic flow or a retraction thereof, and the other for constrained submanifolds that is based on a dissipative generalization of the famous RATTLE integrator.
翻訳日:2021-07-26 14:14:53 公開日:2021-07-23
# 臓器マッチングのための適応重み付きトップN勧告

Adaptively Weighted Top-N Recommendation for Organ Matching ( http://arxiv.org/abs/2107.10971v1 )

ライセンス: Link先を確認
Parshin Shojaee, Xiaoyu Chen and Ran Jin(参考訳) 臓器移植では,待ち行列の患者のニーズを満たすための臓器提供の不足が大きな課題となっている。 この不足のため、臓器マッチングの決定は、最も適切な患者に限られた臓器を割り当てる最も重要な決定である。 現在、オルガンマッチングの決定は、最初の原則によって構築されたスコアモデルによって計算されたスコアのマッチングによってのみ行われています。 しかし、これらのモデルは移植後マッチングのパフォーマンス(例えば、患者の移植後品質(QoL)や移植後の故障測定など)に矛盾する可能性がある。 本稿では,臓器マッチング決定をトップNレコメンデーション問題として定式化し,適応重み付きトップNレコメンデーション(AWTR)法を提案する。 AWTRは,臓器提供者や患者からの収集した共変量だけでなく,過去のデータセットにおける実際のマッチング性能の制限を利用して,現在のスコアリングモデルの性能を向上させる。 AWTRは、トップNマッチング患者の推奨とランキングの精度を強調することで、全体的なレコメンデーション精度を犠牲にする。 KAS[60]を用いて臓器-患者の推奨応答をシミュレートするシミュレーション実験で,本手法の有効性を検証した。 その結果,提案手法は,最先端の7つの提案手法よりも優れていることがわかった。

Reducing the shortage of organ donations to meet the demands of patients on the waiting list has being a major challenge in organ transplantation. Because of the shortage, organ matching decision is the most critical decision to assign the limited viable organs to the most suitable patients. Currently, organ matching decisions were only made by matching scores calculated via scoring models, which are built by the first principles. However, these models may disagree with the actual post-transplantation matching performance (e.g., patient's post-transplant quality of life (QoL) or graft failure measurements). In this paper, we formulate the organ matching decision-making as a top-N recommendation problem and propose an Adaptively Weighted Top-N Recommendation (AWTR) method. AWTR improves performance of the current scoring models by using limited actual matching performance in historical data set as well as the collected covariates from organ donors and patients. AWTR sacrifices the overall recommendation accuracy by emphasizing the recommendation and ranking accuracy for top-N matched patients. The proposed method is validated in a simulation study, where KAS [60] is used to simulate the organ-patient recommendation response. The results show that our proposed method outperforms seven state-of-the-art top-N recommendation benchmark methods.
翻訳日:2021-07-26 14:14:33 公開日:2021-07-23
# 深層学習による全太陽放射の再構成

Deep Learning Based Reconstruction of Total Solar Irradiance ( http://arxiv.org/abs/2107.11042v1 )

ライセンス: Link先を確認
Yasser Abduallah, Jason T. L. Wang, Yucong Shen, Khalid A. Alobaid, Serena Criscuoli, Haimin Wang(参考訳) 地球の主要なエネルギー源は、太陽が生成する放射エネルギーであり、全放射を測定する際に太陽放射(英語版)または全太陽放射(英語版) (TSI) と呼ばれる。 太陽の光のわずかな変化は、地球の気候や大気に大きな影響を与える可能性がある。 その結果、太陽放射能の研究と測定は、気候変動と太陽変動を理解する上で重要である。 太陽の照度を長く短期間に再現するためにいくつかの方法が開発されてきたが、物理学に基づくものであり、9000年以上経たないデータの可用性に依存している。 本稿では,TSInetと呼ばれる新しい手法を提案し,物理モデルのデータ利用範囲を超えて,短時間・長期間にわたって深層学習により全太陽放射を再構成する。 利用可能なデータについては、現状の物理に基づく復元モデルとよく一致している。 私たちの知る限りでは、9000年以上にわたって太陽の照度を再現するためにディープラーニングが使われたのは今回が初めてです。

The Earth's primary source of energy is the radiant energy generated by the Sun, which is referred to as solar irradiance, or total solar irradiance (TSI) when all of the radiation is measured. A minor change in the solar irradiance can have a significant impact on the Earth's climate and atmosphere. As a result, studying and measuring solar irradiance is crucial in understanding climate changes and solar variability. Several methods have been developed to reconstruct total solar irradiance for long and short periods of time; however, they are physics-based and rely on the availability of data, which does not go beyond 9,000 years. In this paper we propose a new method, called TSInet, to reconstruct total solar irradiance by deep learning for short and long periods of time that span beyond the physical models' data availability. On the data that are available, our method agrees well with the state-of-the-art physics-based reconstruction models. To our knowledge, this is the first time that deep learning has been used to reconstruct total solar irradiance for more than 9,000 years.
翻訳日:2021-07-26 14:14:14 公開日:2021-07-23
# 睡眠ステージスコアリングのための不均一信号に対する畳み込みニューラルネットワークのアンサンブル

Ensemble of Convolution Neural Networks on Heterogeneous Signals for Sleep Stage Scoring ( http://arxiv.org/abs/2107.11045v1 )

ライセンス: Link先を確認
Enrique Fernandez-Blanco, Carlos Fernandez-Lozano, Alejandro Pazos, Daniel Rivero(参考訳) ここ数年、睡眠ステージの自動スコアリングを行うという問題にいくつかのアプローチが取り組まれてきた。 ポリソノグラフィーは通常、12以上の異なる信号を収集するが、これらの記録に示される脳電図のみを用いて、この問題に対処してきた。 一方、他の録音信号は主に多くの作品で無視されている。 本稿では脳波以外の追加信号の利便性について検討し比較する。 具体的には、2つの脳波として同時に記録された筋電図を含む5,804人の患者でSHHS-1データセットを使用する。 結果を比較するために、最初に同じアーキテクチャを異なる入力信号とそれらのすべての組み合わせで評価した。 これらのテストでは、特に異なるソースの信号が複数の信号を使用することで、分類結果が改善されることを示す。 さらに、1つ以上の信号の組み合わせごとに得られる最良のモデルがアンサンブルモデルで使用され、その性能はこれらの多信号モデルを用いて分類を改善する利便性を示している。 最も優れたモデルである深部分離畳み込みニューラルネットワークのアンサンブルは、Cohen's Kappa の 0.80 と$F_{1}$ の 0.77 で 86.06 % の精度を達成した。 これまでのところ、これらは完全なデータセットの最高の結果であり、データセットで最も珍しいクラスの精度とリコールが大幅に改善されていることを示している。

Over the years, several approaches have tried to tackle the problem of performing an automatic scoring of the sleeping stages. Although any polysomnography usually collects over a dozen of different signals, this particular problem has been mainly tackled by using only the Electroencephalogram s presented in those records. On the other hand, the other recorded signals have been mainly ignored by most works. This paper explores and compares the convenience of using additional signals apart from electroencephalogram s. More specifically, this work uses the SHHS-1 dataset with 5,804 patients containing an electromyogram recorded simultaneously as two electroencephalogram s. To compare the results, first, the same architecture has been evaluated with different input signals and all their possible combinations. These tests show how, using more than one signal especially if they are from different sources, improves the results of the classification. Additionally, the best models obtained for each combination of one or more signals have been used in ensemble models and, its performance has been compared showing the convenience of using these multi-signal models to improve the classification. The best overall model, an ensemble of Depth-wise Separational Convolutional Neural Networks, has achieved an accuracy of 86.06\% with a Cohen's Kappa of 0.80 and a $F_{1}$ of 0.77. Up to date, those are the best results on the complete dataset and it shows a significant improvement in the precision and recall for the most uncommon class in the dataset.
翻訳日:2021-07-26 14:13:59 公開日:2021-07-23
# 紹介:DeepHead, Wide-band Electromagnetic Imaging Paradigm

Introducing: DeepHead, Wide-band Electromagnetic Imaging Paradigm ( http://arxiv.org/abs/2107.11107v1 )

ライセンス: Link先を確認
A. Al-Saffar, L. Guo, A. Abbosh(参考訳) マイクロ波領域の電磁医用イメージングは、1)不安定性2)低決定性で悪名高い問題である。 この二段階問題の解決法は、二段階圧縮を用いて、安価な未ラベルデータ(a)を最大限に活用し、下決定性の緩和に必要な事前情報を提供し、b)入力に対する推論の感度を低下させる。 その結果,高分解能出力の安定解法が得られた。 deepheadはマイクロ波脳イメージングの文脈で提案されたパラダイムの完全なデータ駆動実装である。 幅広い周波数帯に広がる入力を用いて、所望の単一周波数での脳の誘電率分布を推定する。 モデルの性能はシミュレーションと人間のボランティア実験の両方で評価される。 シミュレーションケースにおける地中誘電率分布と、実世界の被験者の金型mri/ct画像モダリティとを重ね合わせて推定する。

Electromagnetic medical imaging in the microwave regime is a hard problem notorious for 1) instability 2) under-determinism. This two-pronged problem is tackled with a two-pronged solution that uses double compression to maximally utilizing the cheap unlabelled data to a) provide a priori information required to ease under-determinism and b) reduce sensitivity of inference to the input. The result is a stable solver with a high resolution output. DeepHead is a fully data-driven implementation of the paradigm proposed in the context of microwave brain imaging. It infers the dielectric distribution of the brain at a desired single frequency while making use of an input that spreads over a wide band of frequencies. The performance of the model is evaluated with both simulations and human volunteers experiments. The inference made is juxtaposed with ground-truth dielectric distribution in simulation case, and the golden MRI / CT imaging modalities of the volunteers in real-world case.
翻訳日:2021-07-26 14:13:36 公開日:2021-07-23
# Structack: グラフニューラルネットワーク上の構造に基づく逆攻撃

Structack: Structure-based Adversarial Attacks on Graph Neural Networks ( http://arxiv.org/abs/2107.11327v1 )

ライセンス: Link先を確認
Hussain Hussain, Tomislav Duricic, Elisabeth Lex, Denis Helic, Markus Strohmaier, Roman Kern(参考訳) 近年の研究では、グラフニューラルネットワーク(GNN)がグラフデータに対する敵攻撃に対して脆弱であることが示されている。 一般的な攻撃アプローチは一般的には情報である。 彼らはラベルや特徴ベクトルなどのノード属性に関する情報にアクセスできる。 本研究では,攻撃者がグラフ構造にのみアクセスできるが,ノード属性に関する情報が得られない非インフォームな攻撃について検討する。 ここで攻撃者は、GNNモデルがグラフデータで生み出す構造的知識と仮定を活用することを目指している。 特に、構造ノードの中央性と類似性はGNNによる学習に強い影響を与えることが文献で示されている。 そこで我々は,GNNに対する敵対的攻撃に対する中心性と類似性の影響について検討した。 我々は,この情報を利用して,類似度の低いノード間のリンクの注入に注目することで,gnnの性能を低下させることを実証する。 構造に基づく非情報攻撃は情報攻撃の性能に近づき、計算効率が良くなることを示す。 本稿では,GNNに対する新たな攻撃戦略について述べる。 Structackは、厳密な計算制約の下で動作しながら、非常に限られた情報でGNNのパフォーマンスをうまく操作できる。 私たちの研究は、グラフ上でより堅牢な機械学習アプローチの構築に寄与します。

Recent work has shown that graph neural networks (GNNs) are vulnerable to adversarial attacks on graph data. Common attack approaches are typically informed, i.e. they have access to information about node attributes such as labels and feature vectors. In this work, we study adversarial attacks that are uninformed, where an attacker only has access to the graph structure, but no information about node attributes. Here the attacker aims to exploit structural knowledge and assumptions, which GNN models make about graph data. In particular, literature has shown that structural node centrality and similarity have a strong influence on learning with GNNs. Therefore, we study the impact of centrality and similarity on adversarial attacks on GNNs. We demonstrate that attackers can exploit this information to decrease the performance of GNNs by focusing on injecting links between nodes of low similarity and, surprisingly, low centrality. We show that structure-based uninformed attacks can approach the performance of informed attacks, while being computationally more efficient. With our paper, we present a new attack strategy on GNNs that we refer to as Structack. Structack can successfully manipulate the performance of GNNs with very limited information while operating under tight computational constraints. Our work contributes towards building more robust machine learning approaches on graphs.
翻訳日:2021-07-26 14:13:21 公開日:2021-07-23
# マルコフ決定過程に対する適応的状態集約アルゴリズム

An Adaptive State Aggregation Algorithm for Markov Decision Processes ( http://arxiv.org/abs/2107.11053v1 )

ライセンス: Link先を確認
Guanting Chen, Johann Demetrio Gaebler, Matt Peng, Chunlin Sun, Yinyu Ye(参考訳) 値反復はマルコフ決定過程(MDP)を解く方法としてよく知られている。 しかし、状態空間のサイズが大きくなるにつれて、価値反復の計算コストは急速に高くなる。 大規模状態と動作空間のmdpにおける価値反復に関するこの問題を克服するために、様々な方法が提案されているが、多くの場合、一般化可能性とアルゴリズムの単純さである。 本稿では,同様のコスト対ゴー値の状態を動的にグループ化することで,価値反復更新のコストを削減できるMDPの直感的解法を提案する。 また、このアルゴリズムは \(\ell^\infty\) ノルムにおける真の最適値の \(2\varepsilon / (1 - \gamma)\) 内でほぼ確実に収束することを証明し、ここで \(\gamma\) は割引係数であり、集約状態は少なくとも \(\varepsilon\) で異なることを証明する。 各種シミュレーション環境における数値実験により,提案アルゴリズムのロバスト性と,特にMDP問題の規模が大きくなるにつれて,より安価にMDPを解く能力が確認された。

Value iteration is a well-known method of solving Markov Decision Processes (MDPs) that is simple to implement and boasts strong theoretical convergence guarantees. However, the computational cost of value iteration quickly becomes infeasible as the size of the state space increases. Various methods have been proposed to overcome this issue for value iteration in large state and action space MDPs, often at the price, however, of generalizability and algorithmic simplicity. In this paper, we propose an intuitive algorithm for solving MDPs that reduces the cost of value iteration updates by dynamically grouping together states with similar cost-to-go values. We also prove that our algorithm converges almost surely to within \(2\varepsilon / (1 - \gamma)\) of the true optimal value in the \(\ell^\infty\) norm, where \(\gamma\) is the discount factor and aggregated states differ by at most \(\varepsilon\). Numerical experiments on a variety of simulated environments confirm the robustness of our algorithm and its ability to solve MDPs with much cheaper updates especially as the scale of the MDP problem increases.
翻訳日:2021-07-26 14:12:30 公開日:2021-07-23
# 非可変エキシトン・ポーラリトンノードを用いたニューラルネットワークの学習

Teaching a neural network with non-tunable exciton-polariton nodes ( http://arxiv.org/abs/2107.11156v1 )

ライセンス: Link先を確認
Andrzej Opala, Riccardo Panico, Vincenzo Ardizzone, Barbara Pietka, Jacek Szczytko, Daniele Sanvitto, Micha{\l} Matuszewski, Dario Ballarini(参考訳) ニューラルネットワークのソフトウェアシミュレーションとは対照的に、ハードウェアやニューロモルフィックの実装は、しばしば限定的あるいは変更性がない。 このようなネットワークは、スピードとエネルギー効率において大きな改善を約束するが、その性能は効率的な教育を適用することの難しさによって制限される。 本研究では,非線形ノード応答の精密測定とバックプロパゲーションアルゴリズムの応用により,可変でない励起子・ポーラリトンノードのシステムと効率的な指導手法を提案する。 バックプロパゲーションを使用しない場合と比較して,MNIST手書きディジットベンチマークの分類精度が大幅に向上することを示した。

In contrast to software simulations of neural networks, hardware or neuromorphic implementations have often limited or no tunability. While such networks promise great improvements in terms of speed and energy efficiency, their performance is limited by the difficulty to apply efficient teaching. We propose a system of non-tunable exciton-polariton nodes and an efficient teaching method that relies on the precise measurement of the nonlinear node response and the subsequent use of the backpropagation algorithm. We demonstrate experimentally that the classification accuracy in the MNIST handwritten digit benchmark is greatly improved compared to the case where backpropagation is not used.
翻訳日:2021-07-26 14:12:07 公開日:2021-07-23
# 線形収束を伴う分散アルゴリズムの有限ビット量子化

Finite-Bit Quantization For Distributed Algorithms With Linear Convergence ( http://arxiv.org/abs/2107.11304v1 )

ライセンス: Link先を確認
Chang-Shen Lee, Nicol\`o Michelusi, Gesualdo Scutari(参考訳) 本稿では,メッシュネットワーク上の(強い凸)複合最適化問題に対する分散アルゴリズムを量子化通信の対象として検討する。 特定のアルゴリズム設計に注目するのではなく,線形速度で収束する不動点イテレートの形で分散アルゴリズムをキャスティングするブラックボックスモデルを提案する。 アルゴリズムモデルは、線形収束を保存する量化器設計に関する新しい(ランダムな)バイアス圧縮(BC-)ルールと結合される。 通信効率のよい符号化方式と結合した新しい量子化器も提案され、有限ビットを用いてBCルールを効率的に実装する。 これは、実装が無限のビット数を要求する既存の量子化規則のほとんどとは対照的である。 ブラックボックスモデルに対して、最適化問題の解に到達するために必要な平均ビット数を決定する統一的な通信複雑性解析法を開発した。 その結果,提案する量子化器を用いた分散アルゴリズムは,既存の量子化ルールを用いたアルゴリズムよりも通信複雑性が高いことがわかった。

This paper studies distributed algorithms for (strongly convex) composite optimization problems over mesh networks, subject to quantized communications. Instead of focusing on a specific algorithmic design, we propose a black-box model casting distributed algorithms in the form of fixed-point iterates, converging at linear rate. The algorithmic model is coupled with a novel (random) Biased Compression (BC-)rule on the quantizer design, which preserves linear convergence. A new quantizer coupled with a communication-effici ent encoding scheme is also proposed, which efficiently implements the BC-rule using a finite number of bits. This contrasts with most of existing quantization rules, whose implementation calls for an infinite number of bits. A unified communication complexity analysis is developed for the black-box model, determining the average number of bit required to reach a solution of the optimization problem within the required accuracy. Numerical results validate our theoretical findings and show that distributed algorithms equipped with the proposed quantizer have more favorable communication complexity than algorithms using existing quantization rules.
翻訳日:2021-07-26 14:11:57 公開日:2021-07-23
# 最適リスクポートフォリオと固有ポートフォリオ--インド株式市場から選択した株式を用いた比較分析

Optimum Risk Portfolio and Eigen Portfolio: A Comparative Analysis Using Selected Stocks from the Indian Stock Market ( http://arxiv.org/abs/2107.11371v1 )

ライセンス: Link先を確認
Jaydip Sen and Sidra Mehtab(参考訳) リターンとリスクの間の最良のトレードオフを達成する方法で構成株に重みを割り当てる最適なポートフォリオを設計することは、困難な研究課題である。 markowitzが提案したポートフォリオの古典的な平均分散理論は、期待リターンの推定誤差がポートフォリオのパフォーマンスに悪影響を及ぼすため、実世界の株式市場データに対して副最適であることがわかった。 本稿では,インド株式市場の7つの重要な部門を対象としたポートフォリオデザイン,viz,minimum risk portfolio,the optimal risk portfolio,eigen portfolioの3つのアプローチについて述べる。 株価は2016年1月1日から2020年12月31日まで、yahoo financeのウェブサイトから毎日値上げされている。 本研究で選択した7つのセクターそれぞれに3つのポートフォリオを構築し,そのポートフォリオを,年次リターンとリスク,構成銘柄に割り当てられた重み,相関ヒートマップ,Eigenポートフォリオの主成分などの指標に基づいて,トレーニングデータに基づいて分析する。 最後に、すべてのセクターの最適リスクポートフォリオとEigenポートフォリオが6ヶ月の期間のリターンでテストされる。 ポートフォリオのパフォーマンスを比較し、各セクタに対して高いリターンを与えるポートフォリオを特定する。

Designing an optimum portfolio that allocates weights to its constituent stocks in a way that achieves the best trade-off between the return and the risk is a challenging research problem. The classical mean-variance theory of portfolio proposed by Markowitz is found to perform sub-optimally on the real-world stock market data since the error in estimation for the expected returns adversely affects the performance of the portfolio. This paper presents three approaches to portfolio design, viz, the minimum risk portfolio, the optimum risk portfolio, and the Eigen portfolio, for seven important sectors of the Indian stock market. The daily historical prices of the stocks are scraped from Yahoo Finance website from January 1, 2016, to December 31, 2020. Three portfolios are built for each of the seven sectors chosen for this study, and the portfolios are analyzed on the training data based on several metrics such as annualized return and risk, weights assigned to the constituent stocks, the correlation heatmaps, and the principal components of the Eigen portfolios. Finally, the optimum risk portfolios and the Eigen portfolios for all sectors are tested on their return over a period of a six-month period. The performances of the portfolios are compared and the portfolio yielding the higher return for each sector is identified.
翻訳日:2021-07-26 14:11:43 公開日:2021-07-23
# ロバストな視覚言語ナビゲーションのためのadversarial reinforced instruction attack

Adversarial Reinforced Instruction Attacker for Robust Vision-Language Navigation ( http://arxiv.org/abs/2107.11252v1 )

ライセンス: Link先を確認
Bingqian Lin, Yi Zhu, Yanxin Long, Xiaodan Liang, Qixiang Ye, Liang Lin(参考訳) 自然言語グラウンドドナビゲーションタスクでは,言語命令が重要な役割を担っている。 しかし、人間の指示で訓練されたナビゲーターは、異なるタイミングで複雑な命令から重要な情報を正確に取得することが困難になり、ナビゲーション性能が低下する可能性がある。 本稿では,敵の攻撃パラダイムを用いて,長い命令から重要な要素を動的に抽出することのできる,より頑健なナビゲータの訓練を行う。 具体的には,動的強化型インストラクションアタック(DR-Attacker)を提案し,異なるタイミングで命令の最も命令的な情報を破壊することにより,ナビゲータが間違ったターゲットに移動することを誤解させる。 マルコフ決定過程として摂動生成を定式化することにより、DR-Attackerは強化学習アルゴリズムにより最適化され、学習可能な攻撃スコアに従ってナビゲーション中に摂動命令を逐次生成する。 そして、ハードサンプルとして機能する摂動指示を用いて、効果的な対向訓練戦略と補助的な自己監督推論タスクにより、ナビゲータの堅牢性を向上させる。 視覚言語ナビゲーション (vln) と対話履歴 (ndh) タスクからのナビゲーションは, 提案手法が最先端手法よりも優れていることを示す。 さらに,DR-Attackerの有効性を可視化分析により明らかにした。 コードはhttps://github.com/e xpectorlin/DR-Attack er.comで入手できる。

Language instruction plays an essential role in the natural language grounded navigation tasks. However, navigators trained with limited human-annotated instructions may have difficulties in accurately capturing key information from the complicated instruction at different timesteps, leading to poor navigation performance. In this paper, we exploit to train a more robust navigator which is capable of dynamically extracting crucial factors from the long instruction, by using an adversarial attacking paradigm. Specifically, we propose a Dynamic Reinforced Instruction Attacker (DR-Attacker), which learns to mislead the navigator to move to the wrong target by destroying the most instructive information in instructions at different timesteps. By formulating the perturbation generation as a Markov Decision Process, DR-Attacker is optimized by the reinforcement learning algorithm to generate perturbed instructions sequentially during the navigation, according to a learnable attack score. Then, the perturbed instructions, which serve as hard samples, are used for improving the robustness of the navigator with an effective adversarial training strategy and an auxiliary self-supervised reasoning task. Experimental results on both Vision-and-Language Navigation (VLN) and Navigation from Dialog History (NDH) tasks show the superiority of our proposed method over state-of-the-art methods. Moreover, the visualization analysis shows the effectiveness of the proposed DR-Attacker, which can successfully attack crucial information in the instructions at different timesteps. Code is available at https://github.com/e xpectorlin/DR-Attack er.
翻訳日:2021-07-26 14:05:03 公開日:2021-07-23
# コンステレーション:構成想像のためのオブジェクト上の関係抽象化の学習

Constellation: Learning relational abstractions over objects for compositional imagination ( http://arxiv.org/abs/2107.11153v1 )

ライセンス: Link先を確認
James C.R. Whittington, Rishabh Kabra, Loic Matthey, Christopher P. Burgess, Alexander Lerchner(参考訳) 視覚シーンの構造化表現を学ぶことは、現在推論によって知覚を橋渡しするための大きなボトルネックである。 シーンをオブジェクトのセットに分割することを学ぶスロットベースのモデルには、エキサイティングな進歩があったが、オブジェクトのグループ全体の構成特性の学習はまだ未検討のままである。 この問題に対処するために,静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを導入し,これらの抽象化を知覚的特異性よりも一般化し,抽象的リレーショナル推論の潜在的基盤を提供する。 さらに,この基礎が言語関連と相まって,感覚コンテンツを新たな方法で想像する手段であることを示す。 この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。

Learning structured representations of visual scenes is currently a major bottleneck to bridging perception with reasoning. While there has been exciting progress with slot-based models, which learn to segment scenes into sets of objects, learning configurational properties of entire groups of objects is still under-explored. To address this problem, we introduce Constellation, a network that learns relational abstractions of static visual scenes, and generalises these abstractions over sensory particularities, thus offering a potential basis for abstract relational reasoning. We further show that this basis, along with language association, provides a means to imagine sensory content in new ways. This work is a first step in the explicit representation of visual relationships and using them for complex cognitive procedures.
翻訳日:2021-07-26 14:04:38 公開日:2021-07-23
# モバイルニューラルネットワークにおけるバイアス損失

Bias Loss for Mobile Neural Networks ( http://arxiv.org/abs/2107.11170v1 )

ライセンス: Link先を確認
Lusine Abrahamyan, Valentin Ziatchin, Yiming Chen and Nikos Deligiannis(参考訳) コンパクト畳み込みニューラルネットワーク(CNN)は、近年、異常なパフォーマンス改善を目撃している。 しかし、多くのパラメータを持つcnnと同じ予測能力を提供していない。 層によって捕獲される多様で豊富な特徴は、これらの成功したcnnの重要な特徴である。 しかし、この特徴の大きいcnnとコンパクトなcnnとの差は、ほとんど調査されていない。 コンパクトCNNでは、パラメータ数が限られているため、豊富な特徴が得られず、特徴の多様性が重要な特徴となる。 モデル推論中にデータポイントから派生したアクティベーションマップに存在する様々な特徴は、異なるクラスのオブジェクトを区別するのに必要なユニークな記述子の存在を示す可能性がある。 対照的に、特徴の多様性の低いデータポイントは、有効な予測を行うのに十分な量のユニークな記述子を提供しないかもしれない。 ランダムな予測は最適化プロセスに悪影響を与え、最終的なパフォーマンスを損なう。 本稿では,ランダム予測によって生じる問題に対して,標準クロスエントロピーを再構成し,特徴量に制限のあるデータポイントに対してバイアスを与える手法を提案する。 新たなバイアス損失は,貴重なデータポイントのセットのトレーニングに焦点をあてることにより,学習機能に乏しい多数のサンプルが最適化プロセスを誤解することを防止する。 さらに、多様性の重要性を示すために、最後のレイヤにおけるユニークな記述子数を増やすためにアーキテクチャが導入されたSkipNetモデルのファミリーを示す。 我々のSkipnet-MはMobileNetV3 Largeよりも1%高い分類精度が得られる。

Compact convolutional neural networks (CNNs) have witnessed exceptional improvements in performance in recent years. However, they still fail to provide the same predictive power as CNNs with a large number of parameters. The diverse and even abundant features captured by the layers is an important characteristic of these successful CNNs. However, differences in this characteristic between large CNNs and their compact counterparts have rarely been investigated. In compact CNNs, due to the limited number of parameters, abundant features are unlikely to be obtained, and feature diversity becomes an essential characteristic. Diverse features present in the activation maps derived from a data point during model inference may indicate the presence of a set of unique descriptors necessary to distinguish between objects of different classes. In contrast, data points with low feature diversity may not provide a sufficient amount of unique descriptors to make a valid prediction; we refer to them as random predictions. Random predictions can negatively impact the optimization process and harm the final performance. This paper proposes addressing the problem raised by random predictions by reshaping the standard cross-entropy to make it biased toward data points with a limited number of unique descriptive features. Our novel Bias Loss focuses the training on a set of valuable data points and prevents the vast number of samples with poor learning features from misleading the optimization process. Furthermore, to show the importance of diversity, we present a family of SkipNet models whose architectures are brought to boost the number of unique descriptors in the last layers. Our Skipnet-M can achieve 1% higher classification accuracy than MobileNetV3 Large.
翻訳日:2021-07-26 14:03:55 公開日:2021-07-23
# LocalGLMnet: 表データの解釈可能なディープラーニング

LocalGLMnet: interpretable deep learning for tabular data ( http://arxiv.org/abs/2107.11059v1 )

ライセンス: Link先を確認
Ronald Richman and Mario V. W\"uthrich(参考訳) 深層学習モデルは、非常に競争力のある回帰モデルにつながり、一般化線形モデルのような古典的な統計モデルよりも優れている。 深層学習モデルの欠点は、それらの解法が解釈や説明が困難であり、深層学習モデルは内部的に不透明な方法で特徴工学と変数選択を解くため、変数選択は容易ではないことである。 一般化線形モデルの魅力的な構造に触発されて,類似した特徴を一般化線形モデルと共有するが,表現学習の技法から得られる優れた予測能力を提供する新しいネットワークアーキテクチャを提案する。 この新たなアーキテクチャは,テーブルデータの可変選択と,校正されたディープラーニングモデルの解釈を可能にする。実際,本手法はシェープリー値と統合勾配の精神における付加分解を提供する。

Deep learning models have gained great popularity in statistical modeling because they lead to very competitive regression models, often outperforming classical statistical models such as generalized linear models. The disadvantage of deep learning models is that their solutions are difficult to interpret and explain, and variable selection is not easily possible because deep learning models solve feature engineering and variable selection internally in a nontransparent way. Inspired by the appealing structure of generalized linear models, we propose a new network architecture that shares similar features as generalized linear models, but provides superior predictive power benefiting from the art of representation learning. This new architecture allows for variable selection of tabular data and for interpretation of the calibrated deep learning model, in fact, our approach provides an additive decomposition in the spirit of Shapley values and integrated gradients.
翻訳日:2021-07-26 14:03:35 公開日:2021-07-23
# プルーニング三元量子化

Pruning Ternary Quantization ( http://arxiv.org/abs/2107.10998v1 )

ライセンス: Link先を確認
Dan Liu, Xi Chen, Jie Fu, Xue Liu(参考訳) 本稿では,単純かつ効率的で対称な三元量子化法であるpruning ternary quantization (ptq)を提案する。 この方法では、ニューラルネットワークの重みを[-1,0,1]の疎三項に著しく圧縮し、計算、記憶、メモリフットプリントを低減する。 PTQはプルーニングとL2プロジェクションを用いることで,正規重みを3次正規正規基底に変換することができることを示す。 さらに、量子化重みを確定・安定化する改良された直線スルー推定器を導入する。 本手法はresnet-18構造の圧縮率を最大46倍とし,65.36%の許容精度で達成できる。 さらに、PTQはResNet-18モデルを46MBから955KB(~48x)に、ResNet-50モデルを99MBから3.3MB(~30x)に、ImageNet上のトップ1の精度は69.7%から65.3%に、それぞれ76.15%から74.47%に下げることができる。 本手法はプルーニングと量子化を統一し,サイズ・精度のトレードオフを実現する。

We propose pruning ternary quantization (PTQ), a simple, yet effective, symmetric ternary quantization method. The method significantly compresses neural network weights to a sparse ternary of [-1,0,1] and thus reduces computational, storage, and memory footprints. We show that PTQ can convert regular weights to ternary orthonormal bases by simply using pruning and L2 projection. In addition, we introduce a refined straight-through estimator to finalize and stabilize the quantized weights. Our method can provide at most 46x compression ratio on the ResNet-18 structure, with an acceptable accuracy of 65.36%, outperforming leading methods. Furthermore, PTQ can compress a ResNet-18 model from 46 MB to 955KB (~48x) and a ResNet-50 model from 99 MB to 3.3MB (~30x), while the top-1 accuracy on ImageNet drops slightly from 69.7% to 65.3% and from 76.15% to 74.47%, respectively. Our method unifies pruning and quantization and thus provides a range of size-accuracy trade-off.
翻訳日:2021-07-26 14:03:22 公開日:2021-07-23
# 不規則サンプリング時間列のための非定常時間変分オートエンコーダ

Heteroscedastic Temporal Variational Autoencoder For Irregularly Sampled Time Series ( http://arxiv.org/abs/2107.11350v1 )

ライセンス: Link先を確認
Satya Narayan Shukla, Benjamin M. Marlin(参考訳) 不規則にサンプリングされた時系列は、標準的なディープラーニングモデルに重要な課題をもたらすいくつかの領域で一般的に発生する。 本稿では,不規則なサンプル時系列の確率的補間のための新しいディープラーニングフレームワークを提案し,これをヘテロセダスティック時変自動符号化(HeTVAE)と呼ぶ。 HeTVAEは、入力観察間隔に関する情報を符号化する新しい入力層と、入力間隔による不確実性を伝播する時間的VAEアーキテクチャと、出力補間における可変不確実性を可能にするヘテロセダスティック出力層とを含む。 提案したアーキテクチャは, ベースラインモデルや従来のモデルよりもスパースサンプリングや不規則サンプリングにより, 時間的変動の不確かさを反映しやすく, また最近, ホモスセダスティックな出力層を用いた潜時変動モデルも提案されている。

Irregularly sampled time series commonly occur in several domains where they present a significant challenge to standard deep learning models. In this paper, we propose a new deep learning framework for probabilistic interpolation of irregularly sampled time series that we call the Heteroscedastic Temporal Variational Autoencoder (HeTVAE). HeTVAE includes a novel input layer to encode information about input observation sparsity, a temporal VAE architecture to propagate uncertainty due to input sparsity, and a heteroscedastic output layer to enable variable uncertainty in output interpolations. Our results show that the proposed architecture is better able to reflect variable uncertainty through time due to sparse and irregular sampling than a range of baseline and traditional models, as well as recently proposed deep latent variable models that use homoscedastic output layers.
翻訳日:2021-07-26 14:03:00 公開日:2021-07-23
# 非可逆目的の暗黙的速度制約付き最適化

Implicit Rate-Constrained Optimization of Non-decomposable Objectives ( http://arxiv.org/abs/2107.10960v1 )

ライセンス: Link先を確認
Abhishek Kumar, Harikrishna Narasimhan, Andrew Cotter(参考訳) 機械学習における制約付き最適化問題は、あるしきい値を持つ非分解性評価指標を最適化すると共に、別の関心度を制約する。 そのような問題の例としては、固定された偽陽性率での偽陰性率の最適化、固定リコールでの精度の最適化、精度リコールまたはroc曲線下の領域の最適化などがある。 我々の重要なアイデアは、しきい値パラメータを暗黙関数定理を通じてモデルパラメータの関数として表現するレート制約付き最適化を定式化することである。 標準勾配法を用いて,結果の最適化問題を解く方法を示す。 これらの問題に対する既存の最先端技術に対する提案手法の有効性を示すベンチマークデータセットの実験を行った。

We consider a popular family of constrained optimization problems arising in machine learning that involve optimizing a non-decomposable evaluation metric with a certain thresholded form, while constraining another metric of interest. Examples of such problems include optimizing the false negative rate at a fixed false positive rate, optimizing precision at a fixed recall, optimizing the area under the precision-recall or ROC curves, etc. Our key idea is to formulate a rate-constrained optimization that expresses the threshold parameter as a function of the model parameters via the Implicit Function theorem. We show how the resulting optimization problem can be solved using standard gradient based methods. Experiments on benchmark datasets demonstrate the effectiveness of our proposed method over existing state-of-the art approaches for these problems.
翻訳日:2021-07-26 14:02:42 公開日:2021-07-23
# k$-ラプラシアンから構築された高階ホモロジー埋め込みの分解

The decomposition of the higher-order homology embedding constructed from the $k$-Laplacian ( http://arxiv.org/abs/2107.10970v1 )

ライセンス: Link先を確認
Yu-Chia Chen, Marina Meil\u{a}(参考訳) k 次ラプラシアン $\mathbf{\mathcal l}_k$ のヌル空間は、多様体やネットワークの非自明な位相を符号化する。 ホモロジー埋め込みの構造を理解することは、データから幾何学的あるいは位相的情報を明らかにすることができる。 グラフ Laplacian $\mathbf{\mathcal L}_0$ の null 空間埋め込みの研究は、理論的な保証を持つスペクトルクラスタリングアルゴリズムや確率ブロックモデルの推定器など、新しい研究や応用を刺激している。 本研究では,k$-thホモロジー埋め込みの幾何学について検討し,スペクトルクラスタリングを想起する事例に注目した。 すなわち、多様体の {\em connected sum} をそれらのホモロジー埋め込みの直和に対する摂動として解析する。 多様体の最も単純な位相成分に対応する部分空間へのホモロジー埋め込みを分解するアルゴリズムを提案する。 提案手法はNP-hardとして一般に知られている最も短い相同ループ検出問題に適用される。 スペクトルループ検出アルゴリズムは既存の手法よりもスケールが良く,点雲や画像などの多様なデータに対して有効である。

The null space of the $k$-th order Laplacian $\mathbf{\mathcal L}_k$, known as the {\em $k$-th homology vector space}, encodes the non-trivial topology of a manifold or a network. Understanding the structure of the homology embedding can thus disclose geometric or topological information from the data. The study of the null space embedding of the graph Laplacian $\mathbf{\mathcal L}_0$ has spurred new research and applications, such as spectral clustering algorithms with theoretical guarantees and estimators of the Stochastic Block Model. In this work, we investigate the geometry of the $k$-th homology embedding and focus on cases reminiscent of spectral clustering. Namely, we analyze the {\em connected sum} of manifolds as a perturbation to the direct sum of their homology embeddings. We propose an algorithm to factorize the homology embedding into subspaces corresponding to a manifold's simplest topological components. The proposed framework is applied to the {\em shortest homologous loop detection} problem, a problem known to be NP-hard in general. Our spectral loop detection algorithm scales better than existing methods and is effective on diverse data such as point clouds and images.
翻訳日:2021-07-26 14:02:31 公開日:2021-07-23
# オフラインおよびオンラインモデル誤り訂正のためのデータ同化法と機械学習法の比較

A comparison of combined data assimilation and machine learning methods for offline and online model error correction ( http://arxiv.org/abs/2107.11114v1 )

ライセンス: Link先を確認
Alban Farchi, Marc Bocquet, Patrick Laloyaux, Massimo Bonavita, Quentin Malartic(参考訳) 近年の研究では、機械学習手法とデータ同化を組み合わせることで、そのシステムのスパースでノイズの多い観測のみを用いて動的システムを再構築できることが示されている。 同じアプローチで、知識ベースのモデルのエラーを修正することができる。 結果として得られるサロゲートモデルは、物理的部分を補う統計的な部分を持つハイブリッドである。 実際には、補正は統合項(すなわち)として追加することができる。 モデル分解剤において)または物理的モデルの傾向の内部で直接的に。 解決剤の修正は容易に実装できる。 傾向補正はより技術的であり、特に物理的モデルの随伴を必要とするが、より柔軟である。 2次元ロレンツモデルを用いて2つの手法を比較する。 長距離予測実験の精度は, リゾルベント補正と傾向補正を用いたサロゲートモデルと幾分似ている。 対照的に,傾向補正を用いたサロゲートモデルは,データ同化実験における解法補正を用いたサロゲートモデルを大きく上回っている。 最後に,傾向補正がオンラインモデル誤り訂正の可能性を開放することを示す。 新しい観測が利用可能になると モデルを徐々に改善します 結果として得られるアルゴリズムは、弱い 4d-var の新しい定式化と見なすことができる。 同じフレームワークを使ったオンラインとオフラインの学習を2スケールのlorenzシステムと比較し、オンライン学習では、スパースとノイズの少ない観察からすべての情報を抽出できることを示した。

Recent studies have shown that it is possible to combine machine learning methods with data assimilation to reconstruct a dynamical system using only sparse and noisy observations of that system. The same approach can be used to correct the error of a knowledge-based model. The resulting surrogate model is hybrid, with a statistical part supplementing a physical part. In practice, the correction can be added as an integrated term (i.e. in the model resolvent) or directly inside the tendencies of the physical model. The resolvent correction is easy to implement. The tendency correction is more technical, in particular it requires the adjoint of the physical model, but also more flexible. We use the two-scale Lorenz model to compare the two methods. The accuracy in long-range forecast experiments is somewhat similar between the surrogate models using the resolvent correction and the tendency correction. By contrast, the surrogate models using the tendency correction significantly outperform the surrogate models using the resolvent correction in data assimilation experiments. Finally, we show that the tendency correction opens the possibility to make online model error correction, i.e. improving the model progressively as new observations become available. The resulting algorithm can be seen as a new formulation of weak-constraint 4D-Var. We compare online and offline learning using the same framework with the two-scale Lorenz system, and show that with online learning, it is possible to extract all the information from sparse and noisy observations.
翻訳日:2021-07-26 14:02:11 公開日:2021-07-23
# 逆シフトによる未知領域におけるメタラーニングの一般化の改善

Improving the Generalization of Meta-learning on Unseen Domains via Adversarial Shift ( http://arxiv.org/abs/2107.11056v1 )

ライセンス: Link先を確認
Pinzhuo Tian, Yao Gao(参考訳) メタラーニングは、学習が効率的に学習し、多くのアプリケーションで大きな成功を収める、有望な方法を提供する。 しかし、ほとんどのメタラーニング文献は、同じドメインのタスクを扱うことに焦点を当てており、他の見えないドメインのタスクに一般化するのが脆弱である。 本研究では,他の未認識領域からタスクをシミュレートすることで,メタラーニング手法の一般化と堅牢性を改善することでこの問題に対処した。 具体的には、ドメインシフトをシミュレートし、擬似タスクを生成する方法を学ぶためのモデルに依存しないシフト層を提案し、それをトレーニングするための新しい逆学習学習機構を開発する。 擬似的なタスクに基づいて、メタ学習モデルはクロスドメインメタ知識を学習することができる。 領域一般化設定の下で広範な実験を行う。 実験の結果,提案するシフト層は様々なメタ学習フレームワークに適用できることがわかった。 さらに,本手法は,異なるドメイン間数ショット分類ベンチマークにおける最先端の性能も向上し,ドメイン間数ショット回帰に対して良好な結果が得られた。

Meta-learning provides a promising way for learning to efficiently learn and achieves great success in many applications. However, most meta-learning literature focuses on dealing with tasks from a same domain, making it brittle to generalize to tasks from the other unseen domains. In this work, we address this problem by simulating tasks from the other unseen domains to improve the generalization and robustness of meta-learning method. Specifically, we propose a model-agnostic shift layer to learn how to simulate the domain shift and generate pseudo tasks, and develop a new adversarial learning-to-learn mechanism to train it. Based on the pseudo tasks, the meta-learning model can learn cross-domain meta-knowledge, which can generalize well on unseen domains. We conduct extensive experiments under the domain generalization setting. Experimental results demonstrate that the proposed shift layer is applicable to various meta-learning frameworks. Moreover, our method also leads to state-of-the-art performance on different cross-domain few-shot classification benchmarks and produces good results on cross-domain few-shot regression.
翻訳日:2021-07-26 14:01:52 公開日:2021-07-23
# 残差ログ類似度推定によるポーズ回帰

Human Pose Regression with Residual Log-likelihood Estimation ( http://arxiv.org/abs/2107.11291v1 )

ライセンス: Link先を確認
Jiefeng Li, Siyuan Bian, Ailing Zeng, Can Wang, Bo Pang, Wentao Liu, Cewu Lu(参考訳) ヒートマップに基づく手法は、確率的ヒートマップによる出力分布のモデル化により、人間のポーズ推定の分野を支配している。 対照的に回帰に基づく手法はより効率的であるが、性能が劣る。 本研究では,最大推定値(MLE)を探索し,効率的な回帰に基づく手法を提案する。 MLEの観点からは、異なる回帰損失を採用することは出力密度関数について異なる仮定をしている。 真の分布に近い密度関数は、より良い回帰性能をもたらす。 そこで本稿では,その基礎となる出力分布を捉えるために,残差ログ類似度推定(rle)を用いた新しい回帰パラダイムを提案する。 具体的には、RLEはトレーニングプロセスを容易にするために、未参照の基盤となる分布ではなく、分布の変化を学習する。 提案する再パラメータ化設計では,本手法は既製の流れモデルと互換性がある。 提案手法は効率的,効率的,柔軟である。 包括的実験による様々な人間のポーズ推定タスクにおけるその可能性を示す。 従来の回帰パラダイムと比較して、RLEによる回帰はテスト時間オーバーヘッドを伴わずに、MSCOCOに12.4mAPの改善をもたらす。 また, マルチパーソンポーズ推定において, 初めて, 回帰法がヒートマップ法よりも優れていることがわかった。 私たちのコードはhttps://github.com/J eff-sjtu/res-loglike lihood-regressionで利用可能です。

Heatmap-based methods dominate in the field of human pose estimation by modelling the output distribution through likelihood heatmaps. In contrast, regression-based methods are more efficient but suffer from inferior performance. In this work, we explore maximum likelihood estimation (MLE) to develop an efficient and effective regression-based methods. From the perspective of MLE, adopting different regression losses is making different assumptions about the output density function. A density function closer to the true distribution leads to a better regression performance. In light of this, we propose a novel regression paradigm with Residual Log-likelihood Estimation (RLE) to capture the underlying output distribution. Concretely, RLE learns the change of the distribution instead of the unreferenced underlying distribution to facilitate the training process. With the proposed reparameterization design, our method is compatible with off-the-shelf flow models. The proposed method is effective, efficient and flexible. We show its potential in various human pose estimation tasks with comprehensive experiments. Compared to the conventional regression paradigm, regression with RLE bring 12.4 mAP improvement on MSCOCO without any test-time overhead. Moreover, for the first time, especially on multi-person pose estimation, our regression method is superior to the heatmap-based methods. Our code is available at https://github.com/J eff-sjtu/res-loglike lihood-regression
翻訳日:2021-07-26 14:01:36 公開日:2021-07-23
# 深層学習と空中画像による森林炭素の過剰推定

Tackling the Overestimation of Forest Carbon with Deep Learning and Aerial Imagery ( http://arxiv.org/abs/2107.11320v1 )

ライセンス: Link先を確認
Gyri Reiersen, David Dao, Bj\"orn L\"utjens, Konstantin Klemmer, Xiaoxiang Zhu, and Ce Zhang(参考訳) 森林炭素のオフセットはますます人気があり、気候の緩和、森林保護、森林再生に重要な役割を果たす。 しかし、森林にどれだけの炭素が蓄えられているかを測定することは、いまだに高価で時間のかかる測定、時には不正確な測定によって行われている。 これらの制限を克服するために、多くの検証機関は、衛星や空中画像から森林炭素を推定するために機械学習(ML)アルゴリズムを活用している。 航空画像は樹木種や家族分類を可能にし、衛星画像に基づく森林分類を改善している。 しかし、航空画像の収集は著しく高価であり、高解像度の森林炭素推定がどの程度改善するかは定かではない。 本論文は,熱帯再植林計画のための深層学習アルゴリズムによる空中画像,衛星画像,地中地中計測から森林炭素を推定する最初の体系的比較について述べる。 以上の結果から,衛星画像による森林炭素推定は,熱帯再植林計画において10回以上も過大評価可能であることが示された。 航空と衛星による森林炭素測定の大きな違いは、航空画像に基づくmlアルゴリズムの可能性を示し、この研究を炭素測定のオプション間のグローバルなベンチマークに拡張することの重要性を高める。

Forest carbon offsets are increasingly popular and can play a significant role in financing climate mitigation, forest conservation, and reforestation. Measuring how much carbon is stored in forests is, however, still largely done via expensive, time-consuming, and sometimes unaccountable field measurements. To overcome these limitations, many verification bodies are leveraging machine learning (ML) algorithms to estimate forest carbon from satellite or aerial imagery. Aerial imagery allows for tree species or family classification, which improves the satellite imagery-based forest type classification. However, aerial imagery is significantly more expensive to collect and it is unclear by how much the higher resolution improves the forest carbon estimation. This proposal paper describes the first systematic comparison of forest carbon estimation from aerial imagery, satellite imagery, and ground-truth field measurements via deep learning-based algorithms for a tropical reforestation project. Our initial results show that forest carbon estimates from satellite imagery can overestimate above-ground biomass by more than 10-times for tropical reforestation projects. The significant difference between aerial and satellite-derived forest carbon measurements shows the potential for aerial imagery-based ML algorithms and raises the importance to extend this study to a global benchmark between options for carbon measurements.
翻訳日:2021-07-26 14:01:19 公開日:2021-07-23
# 浅層学習を用いた資源効率の良い山岳スカイライン抽出

Resource Efficient Mountainous Skyline Extraction using Shallow Learning ( http://arxiv.org/abs/2107.10997v1 )

ライセンス: Link先を確認
Touqeer Ahmad, Ebrahim Emami, Martin \v{C}ad\'ik, George Bebis(参考訳) スカイラインは、惑星ローバー/UAVと仮想/拡張現実の応用において、山岳の視覚的位置決めと位置決め/ナビゲーションにおいて重要な役割を担っている。 本研究では,山間部と山間部の境界線を区別するために,浅層学習手法を適用してフィルタの集合を学習する,新しい山間部スカイライン検出手法を提案する。 明快な特徴記述子とその分類、あるいはスカイセグメンテーションのためのディープネットワークを微調整する一般的なシーン解析といった従来のアプローチとは異なり、このアプローチは局所構造解析に基づいて線形フィルタを学習する。 テスト時には、各候補のエッジピクセルに対して、ピクセルの構造テンソルに基づいて学習されたフィルタの集合から1つのフィルタを選択し、その周りのパッチに適用する。 次に、動的プログラミングを用いて、結果の多段グラフの最も短い経路問題を解き、空山境界を得る。 提案手法は従来の手法よりも高速で、同等のパフォーマンスを提供し、モバイルデバイス、惑星ローバー、UAVといったリソース制約のあるプラットフォームに適している。 提案手法を,4つの異なるデータセットを用いた事前のスカイライン検出手法と比較した。 我々のコードは \url{https://github.com/T ouqeerAhmad/skyline_ detection} で利用可能です。

Skyline plays a pivotal role in mountainous visual geo-localization and localization/navigat ion of planetary rovers/UAVs and virtual/augmented reality applications. We present a novel mountainous skyline detection approach where we adapt a shallow learning approach to learn a set of filters to discriminate between edges belonging to sky-mountain boundary and others coming from different regions. Unlike earlier approaches, which either rely on extraction of explicit feature descriptors and their classification, or fine-tuning general scene parsing deep networks for sky segmentation, our approach learns linear filters based on local structure analysis. At test time, for every candidate edge pixel, a single filter is chosen from the set of learned filters based on pixel's structure tensor, and then applied to the patch around it. We then employ dynamic programming to solve the shortest path problem for the resultant multistage graph to get the sky-mountain boundary. The proposed approach is computationally faster than earlier methods while providing comparable performance and is more suitable for resource constrained platforms e.g., mobile devices, planetary rovers and UAVs. We compare our proposed approach against earlier skyline detection methods using four different data sets. Our code is available at \url{https://github.com/T ouqeerAhmad/skyline_ detection}.
翻訳日:2021-07-26 14:00:59 公開日:2021-07-23
# OLR 2021チャレンジ:データセット、ルール、ベースライン

OLR 2021 Challenge: Datasets, Rules and Baselines ( http://arxiv.org/abs/2107.11113v1 )

ライセンス: Link先を確認
Binling Wang, Wenxuan Hu, Jing Li, Yiming Zhi, Zheng Li, Qingyang Hong, Lin Li, Dong Wang, Liming Song and Cheng Yang(参考訳) 本稿では,多言語シナリオにおける音声認識システムと音声認識システムの性能向上を目的とした,第6回オリエンタル言語認識(olr)2021チャレンジを提案する。 本稿では,データプロファイル,4つのタスク,2つのベースライン,評価原則について述べる。 言語識別(LID)タスクに加えて、OLR 2021 Challengeに初めて多言語自動音声認識(ASR)タスクが導入された。 この課題は,(1)制約付きLID,(2)制約なしLID,(3)制約付きマルチリンガルASR,(4)制約なしマルチリンガルASRの4つのタスクを含む,より実践的で困難な問題に焦点を当てている。 LIDタスクと多言語ASRタスクのベースラインがそれぞれ提供される。 LIDベースラインシステムは、Pytorchで構築された拡張TDNN x-vectorモデルである。 多言語asrベースラインシステムとしてトランスフォーマティブベースのエンドツーエンドモデルが提供される。 これらのレシピはオンラインで公開され、参加者は自身のLIDまたはASRシステムを構築することができる。 ベースラインの結果は、これらのタスクがかなり困難であり、より良いパフォーマンスを達成するための努力に値することを示している。

This paper introduces the sixth Oriental Language Recognition (OLR) 2021 Challenge, which intends to improve the performance of language recognition systems and speech recognition systems within multilingual scenarios. The data profile, four tasks, two baselines, and the evaluation principles are introduced in this paper. In addition to the Language Identification (LID) tasks, multilingual Automatic Speech Recognition (ASR) tasks are introduced to OLR 2021 Challenge for the first time. The challenge this year focuses on more practical and challenging problems, with four tasks: (1) constrained LID, (2) unconstrained LID, (3) constrained multilingual ASR, (4) unconstrained multilingual ASR. Baselines for LID tasks and multilingual ASR tasks are provided, respectively. The LID baseline system is an extended TDNN x-vector model constructed with Pytorch. A transformer-based end-to-end model is provided as the multilingual ASR baseline system. These recipes will be online published, and available for participants to construct their own LID or ASR systems. The baseline results demonstrate that those tasks are rather challenging and deserve more effort to achieve better performance.
翻訳日:2021-07-26 14:00:38 公開日:2021-07-23
# HURRA! 可読性ルータ異常検出

HURRA! Human readable router anomaly detection ( http://arxiv.org/abs/2107.11078v1 )

ライセンス: Link先を確認
Jose M. Navarro, Dario Rossi(参考訳) 本稿では,ネットワークトラブルシューティングにおける人的操作者の時間削減を目的としたシステムであるHURRAを提案する。 そのため、異常検出アルゴリズムの後に接続される2つのモジュールから構成される: (i) 異常検出アルゴリズムとの関係で現在の特徴をランク付けする第1の注意機構、(ii) 人間のインタラクションや決定を必要とせずに、以前の専門家の知識をシームレスに組み込むことができる第2のモジュール。 トラブルシューティングチケットを解決したオペレータによって手作業でアノテートされたグラウンド真理を収集した,多種多様な異常と非常に異質なkpiの集合を示す数十個のispから得られる実ルータデータセットの集まりにおいて,これらの単純なプロセスの有効性を示す。 実験評価の結果, 提案手法は, (i) 専門家との高いレベルの合意の実現に有効であること, (ii) 単純な統計手法でも, 専門家の知識から有用な情報を抽出し, さらなる性能向上を実現することが可能であること, (iii) 実運用の難しさが, 異常検出アルゴリズムの自動選択とハイパーパラメータのチューニングに関係していることが確認された。

This paper presents HURRA, a system that aims to reduce the time spent by human operators in the process of network troubleshooting. To do so, it comprises two modules that are plugged after any anomaly detection algorithm: (i) a first attention mechanism, that ranks the present features in terms of their relation with the anomaly and (ii) a second module able to incorporates previous expert knowledge seamlessly, without any need of human interaction nor decisions. We show the efficacy of these simple processes on a collection of real router datasets obtained from tens of ISPs which exhibit a rich variety of anomalies and very heterogeneous set of KPIs, on which we gather manually annotated ground truth by the operator solving the troubleshooting ticket. Our experimental evaluation shows that (i) the proposed system is effective in achieving high levels of agreement with the expert, that (ii) even a simple statistical approach is able to extracting useful information from expert knowledge gained in past cases to further improve performance and finally that (iii) the main difficulty in live deployment concerns the automated selection of the anomaly detection algorithm and the tuning of its hyper-parameters.
翻訳日:2021-07-26 14:00:06 公開日:2021-07-23
# AD-GAN: 遠位遠位訓練による終端無監督核偏位

AD-GAN: End-to-end Unsupervised Nuclei Segmentation with Aligned Disentangling Training ( http://arxiv.org/abs/2107.11022v1 )

ライセンス: Link先を確認
Kai Yao and Kaizhu Huang and Jie Sun and Curran Jude(参考訳) 本論文では教師なし細胞核セグメンテーションについて考察する。 最近提案された細胞核画像とランダムに合成されたマスク間の画像と画像の翻訳を爆発させるため、既存のアプローチ、例えばCycleGANは奨励的な結果を得た。 しかしながら、これらの手法は通常2段階のパイプラインを取り、細胞核画像のエンドツーエンドの学習に失敗する。 さらに本気で言えば、元の画像と対応するセグメンテーション出力との間のコンテンツ不整合という、損失のある変換問題につながる可能性がある。 これらの制約に対処するため、我々はAligned Disentangling Generative Adversarial Network (AD-GAN)と呼ばれる新しいエンドツーエンドの非教師付きフレームワークを提案する。 直感的には、AD-GANは、コンテンツ表現(下降空間構造)とスタイル表現(構造の描画)を分離するために、表現のゆがみを導入する。 この枠組みにより空間構造を明示的に保存することができ、マクロレベルの損失変換を著しく低減することができる。 また,マイクロレベルの損失変換を抑えるために,遅延空間におけるコンテンツとの絡み合いを調整できる新しいトレーニングアルゴリズムを提案する。 実世界の2Dおよび3Dデータセットの評価は、AD-GANが他の比較手法とプロのソフトウェアを定量的にも質的にも大幅に上回っていることを示している。 具体的には、提案されたAD-GANは、現在の最高の教師なし手法よりも平均17.8%(w.r.t.)大幅に改善される。 4つの細胞核データセット上のDICE。 教師なしの手法として、AD-GANは最高の教師なしモデルと競合し、エンド・ツー・エンドの教師なし核セグメンテーションに向けてさらに飛躍する。

We consider unsupervised cell nuclei segmentation in this paper. Exploiting the recently-proposed unpaired image-to-image translation between cell nuclei images and randomly synthetic masks, existing approaches, e.g., CycleGAN, have achieved encouraging results. However, these methods usually take a two-stage pipeline and fail to learn end-to-end in cell nuclei images. More seriously, they could lead to the lossy transformation problem, i.e., the content inconsistency between the original images and the corresponding segmentation output. To address these limitations, we propose a novel end-to-end unsupervised framework called Aligned Disentangling Generative Adversarial Network (AD-GAN). Distinctively, AD-GAN introduces representation disentanglement to separate content representation (the underling spatial structure) from style representation (the rendering of the structure). With this framework, spatial structure can be preserved explicitly, enabling a significant reduction of macro-level lossy transformation. We also propose a novel training algorithm able to align the disentangled content in the latent space to reduce micro-level lossy transformation. Evaluations on real-world 2D and 3D datasets show that AD-GAN substantially outperforms the other comparison methods and the professional software both quantitatively and qualitatively. Specifically, the proposed AD-GAN leads to significant improvement over the current best unsupervised methods by an average 17.8% relatively (w.r.t. the metric DICE) on four cell nuclei datasets. As an unsupervised method, AD-GAN even performs competitive with the best supervised models, taking a further leap towards end-to-end unsupervised nuclei segmentation.
翻訳日:2021-07-26 13:59:41 公開日:2021-07-23
# 量子畳み込みアンセッツェを用いたRGB画像分類

RGB Image Classification with Quantum Convolutional Ansaetze ( http://arxiv.org/abs/2107.11099v1 )

ライセンス: Link先を確認
Yu Jing, Yang Yang, Chonghang Wu, Wenbing Fu, Wei Hu, Xiaogang Li and Hua Xu(参考訳) 量子ハードウェア技術における量子ビット数の急激な増加とコヒーレンス時間により、いわゆるNISQ(Noisy Intermediate-Scale Quantum)デバイス上での浅いニューラルネットワークの実装が注目されている。 多くの量子(畳み込み)回路アンセッツェは、実験結果が期待できるグレースケール画像分類タスクに対して提案されている。 しかし、これらをrgb画像に適用する場合、視覚課題に有用なチャネル内情報を効果的に抽出することができない。 本稿では,RGB画像上の畳み込み操作をシミュレートする2種類の量子回路アンセッツェを提案する。 我々の知る限りでは、これはRGB画像を効果的に扱う量子畳み込み回路の最初の作品であり、純粋に古典的なCNNと比較して高いテスト精度である。 また、量子回路アンサッツの大きさとハイブリッド量子古典畳み込みニューラルネットワークの学習性との関係についても検討する。 CIFAR-10とMNISTデータセットに基づく実験により、量子回路アンサッツのより大きなサイズがマルチクラス分類タスクの予測性能を改善し、短期的な量子アルゴリズム開発に有用な洞察を与えることを示した。

With the rapid growth of qubit numbers and coherence times in quantum hardware technology, implementing shallow neural networks on the so-called Noisy Intermediate-Scale Quantum (NISQ) devices has attracted a lot of interest. Many quantum (convolutional) circuit ansaetze are proposed for grayscale images classification tasks with promising empirical results. However, when applying these ansaetze on RGB images, the intra-channel information that is useful for vision tasks is not extracted effectively. In this paper, we propose two types of quantum circuit ansaetze to simulate convolution operations on RGB images, which differ in the way how inter-channel and intra-channel information are extracted. To the best of our knowledge, this is the first work of a quantum convolutional circuit to deal with RGB images effectively, with a higher test accuracy compared to the purely classical CNNs. We also investigate the relationship between the size of quantum circuit ansatz and the learnability of the hybrid quantum-classical convolutional neural network. Through experiments based on CIFAR-10 and MNIST datasets, we demonstrate that a larger size of the quantum circuit ansatz improves predictive performance in multiclass classification tasks, providing useful insights for near term quantum algorithm developments.
翻訳日:2021-07-26 13:59:15 公開日:2021-07-23
# 局所アンサンブルカルマンフィルタを用いた状態,グローバルおよび局所パラメータ推定:カオス力学のオンライン機械学習への応用

State, global and local parameter estimation using local ensemble Kalman filters: applications to online machine learning of chaotic dynamics ( http://arxiv.org/abs/2107.11253v1 )

ライセンス: Link先を確認
Quentin Malartic, Alban Farchi, Marc Bocquet(参考訳) 近年の研究では、機械学習手法とデータ同化を組み合わせることで、そのシステムのスパースでノイズの多い観測のみを用いて動的システムを再構築できることが示されている。 同じアプローチで、知識ベースのモデルのエラーを修正することができる。 結果として得られるサロゲートモデルは、物理的部分を補う統計的な部分を持つハイブリッドである。 実際には、補正は統合項(\textit{i.e})として追加することができる。 モデル分解剤において)または物理的モデルの傾向の内部で直接的に。 解決剤の修正は容易に実装できる。 傾向補正はより技術的であり、特に物理的モデルの随伴を必要とするが、より柔軟である。 2次元ロレンツモデルを用いて2つの手法を比較する。 長距離予測実験の精度は, リゾルベント補正と傾向補正を用いたサロゲートモデルと幾分似ている。 対照的に,傾向補正を用いたサロゲートモデルは,データ同化実験における解法補正を用いたサロゲートモデルを大きく上回っている。 最後に,傾向補正がオンラインモデル誤り訂正の可能性を開くことを示す。 新しい観測が利用可能になると モデルを徐々に改善します 結果として得られるアルゴリズムは、弱い 4d-var の新しい定式化と見なすことができる。 同じフレームワークを使ったオンラインとオフラインの学習を2スケールのlorenzシステムと比較し、オンライン学習では、スパースとノイズの少ない観察からすべての情報を抽出できることを示した。

Recent studies have shown that it is possible to combine machine learning methods with data assimilation to reconstruct a dynamical system using only sparse and noisy observations of that system. The same approach can be used to correct the error of a knowledge-based model. The resulting surrogate model is hybrid, with a statistical part supplementing a physical part. In practice, the correction can be added as an integrated term (\textit{i.e.} in the model resolvent) or directly inside the tendencies of the physical model. The resolvent correction is easy to implement. The tendency correction is more technical, in particular it requires the adjoint of the physical model, but also more flexible. We use the two-scale Lorenz model to compare the two methods. The accuracy in long-range forecast experiments is somewhat similar between the surrogate models using the resolvent correction and the tendency correction. By contrast, the surrogate models using the tendency correction significantly outperform the surrogate models using the resolvent correction in data assimilation experiments. Finally, we show that the tendency correction opens the possibility to make online model error correction, \textit{i.e.} improving the model progressively as new observations become available. The resulting algorithm can be seen as a new formulation of weak-constraint 4D-Var. We compare online and offline learning using the same framework with the two-scale Lorenz system, and show that with online learning, it is possible to extract all the information from sparse and noisy observations.
翻訳日:2021-07-26 13:58:05 公開日:2021-07-23
# ニューラルチャット翻訳のためのバイリンガル会話特性のモデル化

Modeling Bilingual Conversational Characteristics for Neural Chat Translation ( http://arxiv.org/abs/2107.11164v1 )

ライセンス: Link先を確認
Yunlong Liang, Fandong Meng, Yufeng Chen, Jinan Xu and Jie Zhou(参考訳) ニューラルチャット翻訳は、国際交流や協力に広く応用されているバイリンガル会話テキストの翻訳を目的としている。 文レベルおよび文脈対応ニューラルマシン翻訳(NMT)の顕著な性能にもかかわらず、役割選好、対話コヒーレンス、翻訳一貫性といった固有の特徴から、バイリンガルな会話文の翻訳には依然として課題がある。 本稿では,上記の特性をモデル化し,会話テキストの翻訳品質を高めることを目的とする。 具体的には、3つの潜時変分モジュールを設計し、バイリンガルな会話特性の分布を学習する。 これらの学習分布から抽出することにより、役割選好に適した潜伏変数、対話コヒーレンス、翻訳一貫性をNMTモデルに組み込んで翻訳を改善する。 ベンチマークデータセットbcontrast(英語-ドイツ語)と自己収集したバイリンガル対話コーパスbmeld(英語-中国語)のアプローチを評価した。 広汎な実験により,我々の手法は強いベースラインよりも大きなマージンで性能を向上し,BLEU と TER の点で最先端の文脈認識型 NMT モデルを大幅に上回っていることがわかった。 さらに、bmeldデータセットを研究コミュニティ向けに公開しています。

Neural chat translation aims to translate bilingual conversational text, which has a broad application in international exchanges and cooperation. Despite the impressive performance of sentence-level and context-aware Neural Machine Translation (NMT), there still remain challenges to translate bilingual conversational text due to its inherent characteristics such as role preference, dialogue coherence, and translation consistency. In this paper, we aim to promote the translation quality of conversational text by modeling the above properties. Specifically, we design three latent variational modules to learn the distributions of bilingual conversational characteristics. Through sampling from these learned distributions, the latent variables, tailored for role preference, dialogue coherence, and translation consistency, are incorporated into the NMT model for better translation. We evaluate our approach on the benchmark dataset BConTrasT (English-German) and a self-collected bilingual dialogue corpus, named BMELD (English-Chinese). Extensive experiments show that our approach notably boosts the performance over strong baselines by a large margin and significantly surpasses some state-of-the-art context-aware NMT models in terms of BLEU and TER. Additionally, we make the BMELD dataset publicly available for the research community.
翻訳日:2021-07-26 13:57:23 公開日:2021-07-23
# 言語間伝達のための潜在翻訳のモデル化

Modelling Latent Translations for Cross-Lingual Transfer ( http://arxiv.org/abs/2107.11353v1 )

ライセンス: Link先を確認
Edoardo Maria Ponti, Julia Kreutzer, Ivan Vuli\'c, and Siva Reddy(参考訳) 最先端の成果が複数のタスクや言語にもたらされる一方で、翻訳ベースの言語間転送はしばしば見過ごされ、多言語で事前学習されたエンコーダが好まれる。 主な制限は、1) 分類段階に該当する翻訳誤り、2) 最大形翻訳の表現力の不足である。 そこで本研究では,従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合し,中間翻訳を潜在確率変数として扱う手法を提案する。 その結果、1)ニューラルネットワーク翻訳システムは、ダウンストリームタスク分類器の精度が報酬となる最小リスクトレーニングの変種で微調整することができる。 さらに、複数のサンプルを描画して、推論中のすべての可能な翻訳における期待損失を近似することができる。 我々は,多言語NLUタスクに対する新しい潜時翻訳モデルの評価を行い,コモンセンス推論,パラフレーズ同定,自然言語推論を行った。 ゼロショット学習と少数ショット学習の両方において,平均で2.7点の精度向上が報告されており,低リソース言語(例えばハイチのクレオール)ではさらに顕著である。 最後に、異なるNMTモデルの比較と、下流の性能に対する代替翻訳の影響を詳細に分析する。

While achieving state-of-the-art results in multiple tasks and languages, translation-based cross-lingual transfer is often overlooked in favour of massively multilingual pre-trained encoders. Arguably, this is due to its main limitations: 1) translation errors percolating to the classification phase and 2) the insufficient expressiveness of the maximum-likelihood translation. To remedy this, we propose a new technique that integrates both steps of the traditional pipeline (translation and classification) into a single model, by treating the intermediate translations as a latent random variable. As a result, 1) the neural machine translation system can be fine-tuned with a variant of Minimum Risk Training where the reward is the accuracy of the downstream task classifier. Moreover, 2) multiple samples can be drawn to approximate the expected loss across all possible translations during inference. We evaluate our novel latent translation-based model on a series of multilingual NLU tasks, including commonsense reasoning, paraphrase identification, and natural language inference. We report gains for both zero-shot and few-shot learning setups, up to 2.7 accuracy points on average, which are even more prominent for low-resource languages (e.g., Haitian Creole). Finally, we carry out in-depth analyses comparing different underlying NMT models and assessing the impact of alternative translations on the downstream performance.
翻訳日:2021-07-26 13:57:00 公開日:2021-07-23
# スコアベースのポイントクラウドDenoising

Score-Based Point Cloud Denoising ( http://arxiv.org/abs/2107.10981v1 )

ライセンス: Link先を確認
Shitong Luo, Wei Hu(参考訳) 走査装置から取得した点雲はノイズによって引き起こされることが多く、表面再構成や解析などの下流タスクに影響する。 ノイズのある点雲の分布は、ノイズのないサンプルの集合の分布と見なすことができる。 $p(x)$ ある種のノイズモデル $n$ と畳み込み、そのモードが基礎となるクリーンサーフェスである $(p * n)(x)$ となる。 ノイズの多い点群を妄想するために、各点の位置を反復的に更新する$p * n$ via gradient ascent から各点の対数類似度を増やすことを提案する。 p * n$ はテスト時に未知であり、勾配上昇を行うにはスコア(すなわち、ログ確率関数の勾配)のみが必要であるので、入力としてノイズのある点雲のみを与えられた$p * n$ のスコアを推定するニューラルネットワークアーキテクチャを提案する。 ネットワークを訓練する目的関数を導出し,推定したスコアを活かした復調アルゴリズムを開発する。 実験により,提案モデルは様々なノイズモデルの下で最先端の手法よりも優れており,点群アップサンプリングなど他のタスクに適用できる可能性を示している。

Point clouds acquired from scanning devices are often perturbed by noise, which affects downstream tasks such as surface reconstruction and analysis. The distribution of a noisy point cloud can be viewed as the distribution of a set of noise-free samples $p(x)$ convolved with some noise model $n$, leading to $(p * n)(x)$ whose mode is the underlying clean surface. To denoise a noisy point cloud, we propose to increase the log-likelihood of each point from $p * n$ via gradient ascent -- iteratively updating each point's position. Since $p * n$ is unknown at test-time, and we only need the score (i.e., the gradient of the log-probability function) to perform gradient ascent, we propose a neural network architecture to estimate the score of $p * n$ given only noisy point clouds as input. We derive objective functions for training the network and develop a denoising algorithm leveraging on the estimated scores. Experiments demonstrate that the proposed model outperforms state-of-the-art methods under a variety of noise models, and shows the potential to be applied in other tasks such as point cloud upsampling.
翻訳日:2021-07-26 13:56:21 公開日:2021-07-23
# 対角的特徴整合性を有する人物の姿勢伝達

Human Pose Transfer with Disentangled Feature Consistency ( http://arxiv.org/abs/2107.10984v1 )

ライセンス: Link先を確認
Kun Wu, Chengxiang Yin, Zhengping Che, Bo Jiang, Jian Tang, Zheng Guan and Gangyi Ding(参考訳) 深層生成モデルは、任意の人間のポーズで画像を合成し、ある人のポーズを他の人に転送する上で大きな進歩を遂げている。 しかし、既存の手法のほとんどは、ソース画像から抽出されたポーズ情報を、生成ネットワークの条件入力として明示的に活用している。 一方、彼らは通常、合成画像の視覚的忠実さにフォーカスするが、固有の一貫性を無視し、ポーズ転送の性能をさらに制限する。 本稿では,現状の制約を緩和し,合成画像の品質を向上させるために,DFC-Net(Disentangle d Feature Consistency)を用いたポーズ転送ネットワークを提案する。 ソースとターゲット人を含む一対のイメージが与えられた後、DFC-Netはソースからそれぞれポーズと静的情報を抽出し、ターゲット人の画像をソースから所望のポーズで合成する。 さらに、dfc-netは、対向訓練における不連続な特徴一貫性損失を利用して転送コヒーレンスを強化し、キーポイントアンプを統合してポーズ特徴抽出を強化する。 さらに,dfc-netの汎用性とロバスト性を向上させるために,追加的なポーズ情報を提供する非ペアサポートデータセットmixamo-supが,トレーニング中にさらに活用されている。 Mixamo-Pose と EDN-10k の大規模実験により,DFC-Net がポーズ転送における最先端性能を達成することを示した。

Deep generative models have made great progress in synthesizing images with arbitrary human poses and transferring poses of one person to others. However, most existing approaches explicitly leverage the pose information extracted from the source images as a conditional input for the generative networks. Meanwhile, they usually focus on the visual fidelity of the synthesized images but neglect the inherent consistency, which further confines their performance of pose transfer. To alleviate the current limitations and improve the quality of the synthesized images, we propose a pose transfer network with Disentangled Feature Consistency (DFC-Net) to facilitate human pose transfer. Given a pair of images containing the source and target person, DFC-Net extracts pose and static information from the source and target respectively, then synthesizes an image of the target person with the desired pose from the source. Moreover, DFC-Net leverages disentangled feature consistency losses in the adversarial training to strengthen the transfer coherence and integrates the keypoint amplifier to enhance the pose feature extraction. Additionally, an unpaired support dataset Mixamo-Sup providing more extra pose information has been further utilized during the training to improve the generality and robustness of DFC-Net. Extensive experimental results on Mixamo-Pose and EDN-10k have demonstrated DFC-Net achieves state-of-the-art performance on pose transfer.
翻訳日:2021-07-26 13:55:57 公開日:2021-07-23
# 光フロー用残留特徴ピラミッドモジュールの細部保存

Detail Preserving Residual Feature Pyramid Modules for Optical Flow ( http://arxiv.org/abs/2107.10990v1 )

ライセンス: Link先を確認
Libo Long, Jochen Lang(参考訳) 特徴ピラミッドと反復精製は近年,光学的流量推定に大きな進歩をもたらした。 しかし、特徴ピラミッドのダウンサンプリングは、前景のオブジェクトと背景とのブレンドを引き起こす可能性があるため、反復処理におけるその後の決定を誤解させることになる。 結果は特に薄さと小さな構造物の流れについて詳細を欠いている。 我々は,光学フロー推定の全体的な反復的洗練設計を変更することなく,特徴マップに重要な詳細を保持できる新しいResidual Feature Pyramid Module (RFPM)を提案する。 RFPMは、複数の特徴ピラミッド間の残留構造をダウンサンプリングモジュールに組み込んで、境界を越えてオブジェクトのブレンディングを修正する。 モジュールを2つの最先端のイテレーティブリファインメントアーキテクチャに統合する方法をデモします。 その結果, RFPM はSintel のクリーンパスにおける流れの誤差を視覚的に低減し, 最先端の性能向上を図っている。 rfpmの特定のモジュール構造に従って,複数のデータセット上の一般的なフルオプティカルフロートレーニングスケジュールと比較して,トレーニング時間を劇的に短縮できる特別なトランスファー学習手法を導入する。

Feature pyramids and iterative refinement have recently led to great progress in optical flow estimation. However, downsampling in feature pyramids can cause blending of foreground objects with the background, which will mislead subsequent decisions in the iterative processing. The results are missing details especially in the flow of thin and of small structures. We propose a novel Residual Feature Pyramid Module (RFPM) which retains important details in the feature map without changing the overall iterative refinement design of the optical flow estimation. RFPM incorporates a residual structure between multiple feature pyramids into a downsampling module that corrects the blending of objects across boundaries. We demonstrate how to integrate our module with two state-of-the-art iterative refinement architectures. Results show that our RFPM visibly reduces flow errors and improves state-of-art performance in the clean pass of Sintel, and is one of the top-performing methods in KITTI. According to the particular modular structure of RFPM, we introduce a special transfer learning approach that can dramatically decrease the training time compared to a typical full optical flow training schedule on multiple datasets.
翻訳日:2021-07-26 13:55:35 公開日:2021-07-23
# 時間整合規則化によるドメイン適応ビデオセグメンテーション

Domain Adaptive Video Segmentation via Temporal Consistency Regularization ( http://arxiv.org/abs/2107.11004v1 )

ライセンス: Link先を確認
Dayan Guan, Jiaxing Huang, Aoran Xiao, Shijian Lu(参考訳) ビデオセマンティックセグメンテーションは、ビデオの分析と理解に不可欠なタスクである。 最近の取り組みは、完全に注釈付きデータから学習することで、教師付きビデオセグメンテーションに重点を置いているが、学習モデルは、異なるドメインの動画に適用するときに、明らかなパフォーマンス低下を経験することが多い。 本稿では,対象領域ビデオの連続フレームに対する時間整合性規則化(tcr)によるビデオの領域ギャップに対処する,ドメイン適応型ビデオセグメンテーションネットワークであるda-vsnについて述べる。 DA-VSNは2つの新しい設計と補完的な設計で構成されている。 ひとつはクロスドメインTCRで、ターゲットフレームの予測を、(アノテートされたソースデータから派生した)ソースフレームと同様の時間的一貫性を持つように誘導する。 2つ目はドメイン内TCRで、ターゲットフレームの信頼できない予測を、ターゲットフレームの自信のある予測と同様の時間的一貫性を持つように誘導する。 提案した領域適応型ビデオセグメンテーションネットワークは,広いマージンで複数のベースラインを一貫して上回る性能を示した。

Video semantic segmentation is an essential task for the analysis and understanding of videos. Recent efforts largely focus on supervised video segmentation by learning from fully annotated data, but the learnt models often experience clear performance drop while applied to videos of a different domain. This paper presents DA-VSN, a domain adaptive video segmentation network that addresses domain gaps in videos by temporal consistency regularization (TCR) for consecutive frames of target-domain videos. DA-VSN consists of two novel and complementary designs. The first is cross-domain TCR that guides the prediction of target frames to have similar temporal consistency as that of source frames (learnt from annotated source data) via adversarial learning. The second is intra-domain TCR that guides unconfident predictions of target frames to have similar temporal consistency as confident predictions of target frames. Extensive experiments demonstrate the superiority of our proposed domain adaptive video segmentation network which outperforms multiple baselines consistently by large margins.
翻訳日:2021-07-26 13:55:19 公開日:2021-07-23
# 物体形状表現のための奥行き符号付き方向距離関数

A Deep Signed Directional Distance Function for Object Shape Representation ( http://arxiv.org/abs/2107.11024v1 )

ライセンス: Link先を確認
Ehsan Zobeidi and Nikolay Atanasov(参考訳) 3d座標を符号付き距離関数(sdf)や占有値にマッピングするニューラルネットワークは、オブジェクト形状の忠実な暗黙表現を可能にした。 本稿では,連続符号方向距離関数(SDDF)を最適化することにより,新規距離ビューの合成を可能にする新しい形状モデルを提案する。 深部SDFモデルと同様に、SDDFの定式化は形状のカテゴリ全体を表現し、部分的な入力データから形状の完全あるいは補間を行う。 任意の方向に最も近い表面までの距離を測定するSDFとは異なり、SDDFは所定の方向に距離を測定する。 これにより、深度カメラやライダーセンサーから容易に利用できる距離測定のみを使用して、3D形状の監視なしにSDDFモデルをトレーニングすることができる。 また,任意の場所や方向の位置を直接予測することで,表面抽出やレンダリングといった処理後のステップも排除する。 高容量ブラックボックスモデルを訓練するニューラルラジアンスフィールドのような深い視線合成技術とは異なり、SDDF値が視方向に沿って直線的に減少する性質を構築により符号化する。 この構造制約は次元の減少をもたらすだけでなく、対象表面までの距離に関わらず、SDDF予測の精度に関する解析的信頼を与える。

Neural networks that map 3D coordinates to signed distance function (SDF) or occupancy values have enabled high-fidelity implicit representations of object shape. This paper develops a new shape model that allows synthesizing novel distance views by optimizing a continuous signed directional distance function (SDDF). Similar to deep SDF models, our SDDF formulation can represent whole categories of shapes and complete or interpolate across shapes from partial input data. Unlike an SDF, which measures distance to the nearest surface in any direction, an SDDF measures distance in a given direction. This allows training an SDDF model without 3D shape supervision, using only distance measurements, readily available from depth camera or Lidar sensors. Our model also removes post-processing steps like surface extraction or rendering by directly predicting distance at arbitrary locations and viewing directions. Unlike deep view-synthesis techniques, such as Neural Radiance Fields, which train high-capacity black-box models, our model encodes by construction the property that SDDF values decrease linearly along the viewing direction. This structure constraint not only results in dimensionality reduction but also provides analytical confidence about the accuracy of SDDF predictions, regardless of the distance to the object surface.
翻訳日:2021-07-26 13:55:04 公開日:2021-07-23
# rewritenet:実世界画像におけるテキスト編集による写実的シーンテキスト生成

RewriteNet: Realistic Scene Text Image Generation via Editing Text in Real-world Image ( http://arxiv.org/abs/2107.11041v1 )

ライセンス: Link先を確認
Junyeop Lee, Yoonsik Kim, Seonghyeon Kim, Moonbin Yim, Seung Shin, Gayoung Lee, Sungrae Park(参考訳) シーン画像中のテキストを元のスタイルを維持しながら所望のテキストに変換するシーンテキスト編集(ste)は、テキストとスタイル間の複雑な介入により困難な課題である。 そこで本研究では,視覚情報だけでなくテキスト情報も利用するrewritenetと呼ばれる,新しい表現学習に基づくsteモデルを提案する。 シーンテキスト画像は、前者がテキスト情報を表し、スタイルがフォント、アライメント、背景といったシーンテキストの特徴を表す内容とスタイルの特徴に分解できると仮定する。 そこで本研究では,テキスト情報から学習したシーン認識器を導入することにより,入力画像の内容とスタイルの特徴を分離エンコードする手法を提案する。 そして、原画像からのスタイル特徴と対象テキストからのコンテンツ特徴とを組み合わせることにより、テキスト編集画像を生成する。 トレーニング段階で合成画像のみを使用できる従来の作品とは異なり、合成データと実データの間のドメインギャップを埋める自己教師付きトレーニングスキームを提案することで、実世界のイメージも活用する。 我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。 また,テキスト情報の利用と自己教師付き学習方式がテキストの切り替え性能を向上させることを検証した。 実装とデータセットは公開される予定だ。

Scene text editing (STE), which converts a text in a scene image into the desired text while preserving an original style, is a challenging task due to a complex intervention between text and style. To address this challenge, we propose a novel representational learning-based STE model, referred to as RewriteNet that employs textual information as well as visual information. We assume that the scene text image can be decomposed into content and style features where the former represents the text information and style represents scene text characteristics such as font, alignment, and background. Under this assumption, we propose a method to separately encode content and style features of the input image by introducing the scene text recognizer that is trained by text information. Then, a text-edited image is generated by combining the style feature from the original image and the content feature from the target text. Unlike previous works that are only able to use synthetic images in the training phase, we also exploit real-world images by proposing a self-supervised training scheme, which bridges the domain gap between synthetic and real data. Our experiments demonstrate that RewriteNet achieves better quantitative and qualitative performance than other comparisons. Moreover, we validate that the use of text information and the self-supervised training scheme improves text switching performance. The implementation and dataset will be publicly available.
翻訳日:2021-07-26 13:54:42 公開日:2021-07-23
# 生成型adversarial networkにおける非現実的特徴抑制

Unrealistic Feature Suppression for Generative Adversarial Networks ( http://arxiv.org/abs/2107.11047v1 )

ライセンス: Link先を確認
Sanghun Kim and SeungKyu Lee(参考訳) ジェネレータとディスクリミネータ間のミニマックスゲームが不安定であることから,GANの性能向上は難しい課題である。 近年の研究では、訓練における高品質なサンプルの選択により、GANの性能が向上することが示されている。 しかし、サンプルを廃棄するサンプリング手法は、トレーニングの速度やネットワークの最適性といったいくつかの面で制限を示す。 本稿では,高品質な特徴を保ち,非現実的特徴を抑圧する非現実的特徴抑圧(UFS)モジュールを提案する。 UFSモジュールはネットワークのトレーニング安定性を維持し、生成された画像の品質を向上させる。 WGAN-GP, SNGAN, BigGAN などのモデルにおける UFS モジュールの有効性を示す。 UFSモジュールを用いて,様々なベースラインモデルと比較してFrechet開始距離と開始スコアが向上した。 また、ufsモジュールがクラスアクティベーションマップを通じて非現実的な機能を効果的に抑制する様子を可視化する。

Due to the unstable nature of minimax game between generator and discriminator, improving the performance of GANs is a challenging task. Recent studies have shown that selected high-quality samples in training improve the performance of GANs. However, sampling approaches which discard samples show limitations in some aspects such as the speed of training and optimality of the networks. In this paper we propose unrealistic feature suppression (UFS) module that keeps high-quality features and suppresses unrealistic features. UFS module keeps the training stability of networks and improves the quality of generated images. We demonstrate the effectiveness of UFS module on various models such as WGAN-GP, SNGAN, and BigGAN. By using UFS module, we achieved better Frechet inception distance and inception score compared to various baseline models. We also visualize how effectively our UFS module suppresses unrealistic features through class activation maps.
翻訳日:2021-07-26 13:54:22 公開日:2021-07-23
# 教師なし領域適応のための輸送因果機構

Transporting Causal Mechanisms for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2107.11055v1 )

ライセンス: Link先を確認
Zhongqi Yue, Hanwang Zhang, Qianru Sun, Xian-Sheng Hua(参考訳) 既存のUnsupervised Domain Adaptation (UDA)の文献では、共変量シフトと条件シフトの仮定が採用されている。 しかし、ターゲットドメインにおける監視の欠如により、それらはセマンティックな損失に悩まされる。この機能は、必然的にソースドメインにおける非差別的なセマンティクスを失う。 因果的視点 -- トランスポータビリティ理論 -- を使って、そのような損失が実際には共起効果であり、因果的介入によってのみ排除できると特定します。 しかし、輸送性によって提供される理論的解決策は、ドメインギャップの原因である観測されていない共同創設者の成層化と表現を必要とするため、UDAにとって実用的ではない。 そこで本研究では,教師なしの方法で発見されたドメイン不変な異種間因果機構を用いて,共起層と表現を識別するために,因果機構(tcm)を輸送する手法を提案する。 TCMは理論上も実証上も根拠がある。 大規模な実験により、TCMはImageCLEF-DA、Office-Home、VisDA-2017の3つの挑戦的なUDAベンチマークで最先端のパフォーマンスを達成した。 コードはAppendixで入手できる。

Existing Unsupervised Domain Adaptation (UDA) literature adopts the covariate shift and conditional shift assumptions, which essentially encourage models to learn common features across domains. However, due to the lack of supervision in the target domain, they suffer from the semantic loss: the feature will inevitably lose non-discriminative semantics in source domain, which is however discriminative in target domain. We use a causal view -- transportability theory -- to identify that such loss is in fact a confounding effect, which can only be removed by causal intervention. However, the theoretical solution provided by transportability is far from practical for UDA, because it requires the stratification and representation of an unobserved confounder that is the cause of the domain gap. To this end, we propose a practical solution: Transporting Causal Mechanisms (TCM), to identify the confounder stratum and representations by using the domain-invariant disentangled causal mechanisms, which are discovered in an unsupervised fashion. Our TCM is both theoretically and empirically grounded. Extensive experiments show that TCM achieves state-of-the-art performance on three challenging UDA benchmarks: ImageCLEF-DA, Office-Home, and VisDA-2017. Codes are available in Appendix.
翻訳日:2021-07-26 13:54:10 公開日:2021-07-23
# 表情認識のための感情意味相関を用いたラベル分布修正

Label Distribution Amendment with Emotional Semantic Correlations for Facial Expression Recognition ( http://arxiv.org/abs/2107.11061v1 )

ライセンス: Link先を確認
Shasha Mao, Guanghui Shi, Licheng Jiao, Shuiping Gou, Yangyang Li, Lin Xiong, Boxin Shi(参考訳) ラベル分布学習を利用することで、顔画像に確率分布を割り当てて複合感情を表現し、一方のホットラベルに発生するラベル不確実性とノイズの問題を効果的に改善する。 実際、驚きと幸福の感情は、驚きと中立よりも同期している可能性があるなど、感情間の相関は本質的に異なることが観察されている。 この相関は,信頼性の高いラベル分布を得る上で重要である可能性がある。 そこで本研究では,意味空間における表現間の相関を利用して顔画像のラベル分布を補正する手法を提案する。 単語2vec間の固有に多様な相関から着想を得た表情間のトポロジ的情報は,まず意味空間において探索され,各画像は意味空間に埋め込まれる。 特に、クラス関係グラフを構築し、表現間の意味的相関関係をタスク空間に転送する。 各画像のセマンティクスとタスククラス関係グラフを比較することにより、そのラベル分布の信頼性を評価する。 信頼度に基づいて、信頼度の高いサンプルと信頼度の低いサンプルを弱めることにより、ラベル分布を補正する。 実験により,提案手法は最先端手法よりも有効であることが示された。

By utilizing label distribution learning, a probability distribution is assigned for a facial image to express a compound emotion, which effectively improves the problem of label uncertainties and noises occurred in one-hot labels. In practice, it is observed that correlations among emotions are inherently different, such as surprised and happy emotions are more possibly synchronized than surprised and neutral. It indicates the correlation may be crucial for obtaining a reliable label distribution. Based on this, we propose a new method that amends the label distribution of each facial image by leveraging correlations among expressions in the semantic space. Inspired by inherently diverse correlations among word2vecs, the topological information among facial expressions is firstly explored in the semantic space, and each image is embedded into the semantic space. Specially, a class-relation graph is constructed to transfer the semantic correlation among expressions into the task space. By comparing semantic and task class-relation graphs of each image, the confidence of its label distribution is evaluated. Based on the confidence, the label distribution is amended by enhancing samples with higher confidence and weakening samples with lower confidence. Experimental results demonstrate the proposed method is more effective than compared state-of-the-art methods.
翻訳日:2021-07-26 13:53:47 公開日:2021-07-23
# Modal-Wise回帰とMulti-Modal IoUに基づく大規模なミスアライメントによるマルチモーダル歩行者検出

Multi-Modal Pedestrian Detection with Large Misalignment Based on Modal-Wise Regression and Multi-Modal IoU ( http://arxiv.org/abs/2107.11196v1 )

ライセンス: Link先を確認
Napat Wanchaitanawong, Masayuki Tanaka, Takashi Shibata, Masatoshi Okutomi(参考訳) 複数のモダリティを組み合わせることで、これらのモダリティから高い視認性領域を組み合わせることで、暗い照明条件下で正確な歩行者検出が可能になる。 組み合わせの使用に必須の仮定は、2つのモダリティの間に弱いミスアライメントが存在しない、あるいは単に存在しないことである。 しかし、一般に、この仮定は実際の状況でしばしば破られる。 この仮定の崩壊により、バウンディングボックスの位置は2つのモード間に一致せず、特に不一致が大きい領域において検出精度が著しく低下する。 本稿では,大規模な不整合に対して頑健なマルチモーダル高速RCNNを提案する。 キーは,1)モーダルワイド回帰,2)ミニバッチサンプリング用マルチモーダルIoUである。 大きなミスアライメントに対処するため、RPNと検出ヘッドの両方に対して、両モードでバウンディングボックスレグレッションを実行する。 両モードでIoUを統合するマルチモーダル・ミニバッチサンプリング(multi-modal mini-batch sample)という新しいサンプリング戦略を提案する。 提案手法の性能は,実画像実験による大規模不一致データに対する最先端手法よりもはるかに優れていることを実証する。

The combined use of multiple modalities enables accurate pedestrian detection under poor lighting conditions by using the high visibility areas from these modalities together. The vital assumption for the combination use is that there is no or only a weak misalignment between the two modalities. In general, however, this assumption often breaks in actual situations. Due to this assumption's breakdown, the position of the bounding boxes does not match between the two modalities, resulting in a significant decrease in detection accuracy, especially in regions where the amount of misalignment is large. In this paper, we propose a multi-modal Faster-RCNN that is robust against large misalignment. The keys are 1) modal-wise regression and 2) multi-modal IoU for mini-batch sampling. To deal with large misalignment, we perform bounding box regression for both the RPN and detection-head with both modalities. We also propose a new sampling strategy called "multi-modal mini-batch sampling" that integrates the IoU for both modalities. We demonstrate that the proposed method's performance is much better than that of the state-of-the-art methods for data with large misalignment through actual image experiments.
翻訳日:2021-07-26 13:53:28 公開日:2021-07-23
# 半教師付き意味セグメンテーションのためのバイアス付き擬似ラベルの再分配:ベースライン調査

Re-distributing Biased Pseudo Labels for Semi-supervised Semantic Segmentation: A Baseline Investigation ( http://arxiv.org/abs/2107.11279v1 )

ライセンス: Link先を確認
Ruifei He, Jihan Yang, Xiaojuan Qi(参考訳) 自己学習は、半教師付きセマンティクスセグメンテーションが進んだが、実世界のセマンティクスセグメンテーションデータセットの長いクラス分布に苦しめられ、疑似ラベル付きデータの偏りが多数派クラスに向けられている。 本稿では,ラベル付きデータから推定される真のクラス分布と一致する偏りのない擬似ラベルを生成するための,単純かつ効果的な分布アライメントとランダムサンプリング(dars)手法を提案する。 さらに,擬似ラベルデータを用いたモデルトレーニングを容易にするために,プログレッシブデータ拡張とラベル付け戦略も提供する。 Cityscapes と PASCAL VOC 2012 のデータセットによる実験は、我々のアプローチの有効性を実証している。 単純ではあるが,本手法は最先端手法と比較して良好に機能する。 コードはhttps://github.com/C VMI-Lab/DARS.comから入手できる。

While self-training has advanced semi-supervised semantic segmentation, it severely suffers from the long-tailed class distribution on real-world semantic segmentation datasets that make the pseudo-labeled data bias toward majority classes. In this paper, we present a simple and yet effective Distribution Alignment and Random Sampling (DARS) method to produce unbiased pseudo labels that match the true class distribution estimated from the labeled data. Besides, we also contribute a progressive data augmentation and labeling strategy to facilitate model training with pseudo-labeled data. Experiments on both Cityscapes and PASCAL VOC 2012 datasets demonstrate the effectiveness of our approach. Albeit simple, our method performs favorably in comparison with state-of-the-art approaches. Code will be available at https://github.com/C VMI-Lab/DARS.
翻訳日:2021-07-26 13:53:11 公開日:2021-07-23
# Mixed SIGNals: モーションプリミティブの混合による手話生成

Mixed SIGNals: Sign Language Production via a Mixture of Motion Primitives ( http://arxiv.org/abs/2107.11317v1 )

ライセンス: Link先を確認
Ben Saunders, Necati Cihan Camgoz, Richard Bowden(参考訳) 音声言語を音声レベルで表現することが一般的である。 しかし、手話では、これは運動を構成運動プリミティブに分解することを意味する。 アバターをベースとした手話生成(SLP)は伝統的に、手の動き、形状、表情の連続からアニメーションを構築してきた。 しかし、より最近のSLPに対するディープラーニングベースのソリューションは、完全な骨格構造を推定する単一のネットワークを用いてこの問題に対処している。 我々はSLPタスクを2つの異なる訓練されたサブタスクに分割することを提案する。 最初の翻訳サブタスクは音声言語から潜在手話表現に翻訳され、光沢を監督する。 その後、アニメーションのサブタスクは、学習時空間表現によく似た表現的な手話シーケンスを作ることを目的としている。 翻訳サブタスクにプログレッシブトランスフォーマティブを用いることで,手話アニメーションのための運動プリミティブ(momp)アーキテクチャを新たに混合する手法を提案する。 異なる動きプリミティブのセットはトレーニング中に学習され、推論時に時間的に組み合わせて連続手話列をアニメーション化することができる。 本稿では,RWTH-PHOENIX-Weathe r-2014T(PHOENIX14T)データセットの評価を行った。 我々は、競合する結果よりも11%改善した最先端のバック翻訳性能を実現する。 重要なことに、私たちは初めて、音声言語からサインへの完全な翻訳パイプラインのパフォーマンスを、光沢からサインへというよりも強く示しています。

It is common practice to represent spoken languages at their phonetic level. However, for sign languages, this implies breaking motion into its constituent motion primitives. Avatar based Sign Language Production (SLP) has traditionally done just this, building up animation from sequences of hand motions, shapes and facial expressions. However, more recent deep learning based solutions to SLP have tackled the problem using a single network that estimates the full skeletal structure. We propose splitting the SLP task into two distinct jointly-trained sub-tasks. The first translation sub-task translates from spoken language to a latent sign language representation, with gloss supervision. Subsequently, the animation sub-task aims to produce expressive sign language sequences that closely resemble the learnt spatio-temporal representation. Using a progressive transformer for the translation sub-task, we propose a novel Mixture of Motion Primitives (MoMP) architecture for sign language animation. A set of distinct motion primitives are learnt during training, that can be temporally combined at inference to animate continuous sign language sequences. We evaluate on the challenging RWTH-PHOENIX-Weather -2014T(PHOENIX14T) dataset, presenting extensive ablation studies and showing that MoMP outperforms baselines in user evaluations. We achieve state-of-the-art back translation performance with an 11% improvement over competing results. Importantly, and for the first time, we showcase stronger performance for a full translation pipeline going from spoken language to sign, than from gloss to sign.
翻訳日:2021-07-26 13:52:56 公開日:2021-07-23
# マルチレベル一貫性を用いた教師なし領域適応3次元検出

Unsupervised Domain Adaptive 3D Detection with Multi-Level Consistency ( http://arxiv.org/abs/2107.11355v1 )

ライセンス: Link先を確認
Zhipeng Luo, Zhongang Cai, Changqing Zhou, Gongjie Zhang, Haiyu Zhao, Shuai Yi, Shijian Lu, Hongsheng Li, Shanghang Zhang, Ziwei Liu(参考訳) ディープラーニングに基づく3Dオブジェクト検出は、大規模な自律走行データセットの出現で前例のない成功を収めた。 しかしながら、クロスドメインデプロイメントでは、大幅なパフォーマンス低下が重要な課題である。 さらに、既存の3Dドメイン適応検出手法は、しばしばターゲットのドメインアノテーションへの事前アクセスを前提としています。 この課題に対処するために、ソースドメインアノテーションのみを利用する、より現実的な、教師なしの3Dドメイン適応検出について研究する。 1)3次元検出における領域ギャップの主な要因を包括的に検討した。 私たちの重要な洞察は、幾何学的ミスマッチがドメインシフトの鍵となることです。 2) 適応的で信頼性の高い擬似ターゲットを生成するために,教師学生のパラダイムを取り入れた,新しく統一されたマルチレベル一貫性ネットワーク(MLC-Net)を提案する。 MLC-Netは、ポイント、インスタンス、およびニューラル統計レベルの一貫性を利用して、クロスドメイン転送を容易にする。 大規模な実験により、MLC-Netは標準ベンチマークで既存の最先端メソッド(追加のターゲットドメイン情報を使用するものを含む)より優れていることが示された。 特に,本手法は検出器非依存であり,単段および二段の3次元検出器において一貫した利得が得られる。

Deep learning-based 3D object detection has achieved unprecedented success with the advent of large-scale autonomous driving datasets. However, drastic performance degradation remains a critical challenge for cross-domain deployment. In addition, existing 3D domain adaptive detection methods often assume prior access to the target domain annotations, which is rarely feasible in the real world. To address this challenge, we study a more realistic setting, unsupervised 3D domain adaptive detection, which only utilizes source domain annotations. 1) We first comprehensively investigate the major underlying factors of the domain gap in 3D detection. Our key insight is that geometric mismatch is the key factor of domain shift. 2) Then, we propose a novel and unified framework, Multi-Level Consistency Network (MLC-Net), which employs a teacher-student paradigm to generate adaptive and reliable pseudo-targets. MLC-Net exploits point-, instance- and neural statistics-level consistency to facilitate cross-domain transfer. Extensive experiments demonstrate that MLC-Net outperforms existing state-of-the-art methods (including those using additional target domain information) on standard benchmarks. Notably, our approach is detector-agnostic, which achieves consistent gains on both single- and two-stage 3D detectors.
翻訳日:2021-07-26 13:52:32 公開日:2021-07-23
# 物理インフォームドニューラルネットワークのための新しいメタ学習初期化法

A novel meta-learning initialization method for physics-informed neural networks ( http://arxiv.org/abs/2107.10991v1 )

ライセンス: Link先を確認
Xu Liu, Xiaoya Zhang, Wei Peng, Weien Zhou, Wen Yao(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、様々な科学計算問題を解くために広く用いられている。 しかし、大規模なトレーニングコストは、いくつかのリアルタイムアプリケーションのPINNを制限する。 PINNの訓練効率を改善するためにいくつかの研究が提案されているが、初期化の影響を考慮するものはほとんどない。 そこで本研究では, 物理学的不定形ニューラルネットワーク (nrpinn) を提案する。 original reptileアルゴリズムはラベル付きデータに基づくメタラーニング初期化手法である。 PINNは、損失関数にパーセンテージ項として偏微分方程式(PDE)を追加することで、ラベル付きデータが少ないか、ラベル付きデータなしでトレーニングすることができる。 このアイデアに触発されて、パラメータ化されたPDEからより多くのタスクをサンプリングし、損失のペナルティ項を適応する新しいReptile初期化を提案する。 新しいReptile初期化は、教師付き、教師なし、半教師付き学習によって、関連するタスクから初期化パラメータを取得することができる。 そして、初期化パラメータを持つPINNはPDEを効率的に解くことができる。 さらに、新しいReptile初期化はPINNの変種にも利用できる。 最後に、Poisson, Burgers, Schr\odinger方程式の解法や、PDEの未知のパラメータを推定する逆問題を含む前方問題の双方を考慮したNRPINNの実証および検証を行う。 実験の結果,NRPINNトレーニングは,他の初期化手法を用いたPINNよりもはるかに高速で精度が高いことがわかった。

Physics-informed neural networks (PINNs) have been widely used to solve various scientific computing problems. However, large training costs limit PINNs for some real-time applications. Although some works have been proposed to improve the training efficiency of PINNs, few consider the influence of initialization. To this end, we propose a New Reptile initialization based Physics-Informed Neural Network (NRPINN). The original Reptile algorithm is a meta-learning initialization method based on labeled data. PINNs can be trained with less labeled data or even without any labeled data by adding partial differential equations (PDEs) as a penalty term into the loss function. Inspired by this idea, we propose the new Reptile initialization to sample more tasks from the parameterized PDEs and adapt the penalty term of the loss. The new Reptile initialization can acquire initialization parameters from related tasks by supervised, unsupervised, and semi-supervised learning. Then, PINNs with initialization parameters can efficiently solve PDEs. Besides, the new Reptile initialization can also be used for the variants of PINNs. Finally, we demonstrate and verify the NRPINN considering both forward problems, including solving Poisson, Burgers, and Schr\"odinger equations, as well as inverse problems, where unknown parameters in the PDEs are estimated. Experimental results show that the NRPINN training is much faster and achieves higher accuracy than PINNs with other initialization methods.
翻訳日:2021-07-26 13:51:24 公開日:2021-07-23
# フェデレーションラーニングにおけるコミュニケーション効率:達成と課題

Communication Efficiency in Federated Learning: Achievements and Challenges ( http://arxiv.org/abs/2107.10996v1 )

ライセンス: Link先を確認
Osama Shahid, Seyedamin Pouriyeh, Reza M. Parizi, Quan Z. Sheng, Gautam Srivastava, Liang Zhao(参考訳) フェデレートラーニング(FL)は、機械学習タスクを分散的に実行することで知られている。 特にさまざまなデータ保護とプライバシーポリシーが課されているFLは、これらの課題に固執しながら、機械学習タスクの実行を可能にしている。 新しいテクノロジーが出現するのと同じように、課題とメリットがあるでしょう。 FLに存在する課題は通信コストである。FLは、ネットワークに接続されたデバイスが常にアップデートを共有する必要がある分散環境で発生するため、通信ボトルネックが発生する。 本稿では,fl設定における通信制約を克服する目的で実施する調査について述べる。

Federated Learning (FL) is known to perform Machine Learning tasks in a distributed manner. Over the years, this has become an emerging technology especially with various data protection and privacy policies being imposed FL allows performing machine learning tasks whilst adhering to these challenges. As with the emerging of any new technology, there are going to be challenges and benefits. A challenge that exists in FL is the communication costs, as FL takes place in a distributed environment where devices connected over the network have to constantly share their updates this can create a communication bottleneck. In this paper, we present a survey of the research that is performed to overcome the communication constraints in an FL setting.
翻訳日:2021-07-26 13:51:03 公開日:2021-07-23
# オフライン強化学習のためのモデル選択:医療設定の実践的考察

Model Selection for Offline Reinforcement Learning: Practical Considerations for Healthcare Settings ( http://arxiv.org/abs/2107.11003v1 )

ライセンス: Link先を確認
Shengpu Tang, Jenna Wiens(参考訳) 強化学習(RL)は治療方針を学習し、医療における意思決定を支援するために用いられる。 しかし、複雑な状態/動作空間上の一般化の必要性を考えると、関数近似器(例えばディープニューラルネットワーク)の組み込みは、過剰フィッティングを減らし、配置時のポリシーパフォーマンスを改善するためにモデル選択を必要とする。 しかし、モデル選択のための標準的な検証パイプラインでは、実際の環境で学習したポリシーを実行する必要があります。 本研究では,検証性能の指標としてオフポリシー評価(ope)に依存するオフラインrlのモデル選択パイプラインについて検討する。 本稿では,一般的な ope 手法の詳細な分析を行い,候補ポリシーのランク付けに使用する場合のハイパーパラメータと計算要件(補助モデルのフィッティング/インリファレンス)について述べる。 敗血症患者に対する学習において, モデル選択パイプラインの一部として, 異なる OPE 手法の有用性を比較検討した。 検討したすべてのOPE手法の中で、適合Q評価(FQE)は、高い計算コストで、常に最高の検証ランキングに導かれる。 ランキングの精度と計算効率のトレードオフを両立させるため,不必要な計算を回避し,モデル選択を高速化する簡易な二段階法を提案する。 我々の研究は、オフラインのRLモデル選択のための実用的なガイドとして機能し、実世界のデータセットを使用してRL実践者がポリシーを選択するのに役立つ。 再現性と将来の拡張を容易にするため、この論文に付随するコードはhttps://github.com/M LD3/OfflineRL_ModelS election.comで公開されている。

Reinforcement learning (RL) can be used to learn treatment policies and aid decision making in healthcare. However, given the need for generalization over complex state/action spaces, the incorporation of function approximators (e.g., deep neural networks) requires model selection to reduce overfitting and improve policy performance at deployment. Yet a standard validation pipeline for model selection requires running a learned policy in the actual environment, which is often infeasible in a healthcare setting. In this work, we investigate a model selection pipeline for offline RL that relies on off-policy evaluation (OPE) as a proxy for validation performance. We present an in-depth analysis of popular OPE methods, highlighting the additional hyperparameters and computational requirements (fitting/inference of auxiliary models) when used to rank a set of candidate policies. We compare the utility of different OPE methods as part of the model selection pipeline in the context of learning to treat patients with sepsis. Among all the OPE methods we considered, fitted Q evaluation (FQE) consistently leads to the best validation ranking, but at a high computational cost. To balance this trade-off between accuracy of ranking and computational efficiency, we propose a simple two-stage approach to accelerate model selection by avoiding potentially unnecessary computation. Our work serves as a practical guide for offline RL model selection and can help RL practitioners select policies using real-world datasets. To facilitate reproducibility and future extensions, the code accompanying this paper is available online at https://github.com/M LD3/OfflineRL_ModelS election.
翻訳日:2021-07-26 13:50:52 公開日:2021-07-23
# VisDA-2021 Universal Domain Adaptation for Improving Performance on Out-of-Distribution Data

VisDA-2021 Competition Universal Domain Adaptation to Improve Performance on Out-of-Distribution Data ( http://arxiv.org/abs/2107.11011v1 )

ライセンス: Link先を確認
Dina Bashkirova, Dan Hendrycks, Donghyun Kim, Samarth Mishra, Kate Saenko, Kuniaki Saito, Piotr Teterwak, Ben Usman(参考訳) 機械学習の進歩は、典型的には同じデータ、すなわち同じドメイン上のモデルのトレーニングとテストによって測定される。 これにより、アウトオブディストリビューションデータの将来の正確性が過大評価される。 Visual Domain Adaptation (VisDA) 2021コンペティションは、新しいテストディストリビューションに適応し、分散シフトを処理するモデルの能力をテストする。 画像分類器のための教師なし領域適応課題を設定し,新しい視点,背景,モダリティ,品質劣化に対する適応性を評価する。 当社の課題は、大規模な公開データセットに基づいていますが、従来のドメイン内のベンチマーキングよりも、ドメイン間での評価を構築します。 さらに,入力分布ドリフトに加えて,目的とするデータセットにおけるメソッドの欠落や新規クラスに遭遇する可能性のある,"ユニバーサル"設定にも注目する。 厳密なプロトコルを使用してパフォーマンスを計測し、確立されたメトリクスの助けを借りて最先端のドメイン適応手法と比較する。 この競争によって、多くのデプロイメントシナリオにおいて、現実的なデータを扱う機械学習メソッドの能力がさらに向上するだろうと考えています。

Progress in machine learning is typically measured by training and testing a model on the same distribution of data, i.e., the same domain. This over-estimates future accuracy on out-of-distribution data. The Visual Domain Adaptation (VisDA) 2021 competition tests models' ability to adapt to novel test distributions and handle distributional shift. We set up unsupervised domain adaptation challenges for image classifiers and will evaluate adaptation to novel viewpoints, backgrounds, modalities and degradation in quality. Our challenge draws on large-scale publicly available datasets but constructs the evaluation across domains, rather that the traditional in-domain bench-marking. Furthermore, we focus on the difficult "universal" setting where, in addition to input distribution drift, methods may encounter missing and/or novel classes in the target dataset. Performance will be measured using a rigorous protocol, comparing to state-of-the-art domain adaptation methods with the help of established metrics. We believe that the competition will encourage further improvement in machine learning methods' ability to handle realistic data in many deployment scenarios.
翻訳日:2021-07-26 13:50:24 公開日:2021-07-23
# 学習フレームワークにおけるウェーブレット設計

Wavelet Design in a Learning Framework ( http://arxiv.org/abs/2107.11225v1 )

ライセンス: Link先を確認
Dhruv Jawali, Abhishek Kumar and Chandra Sekhar Seelamantula(参考訳) ウェーブレットはいくつかの信号および画像処理アプリケーションで高い成功を収めている。 ウェーブレットの設計は20年以上にわたって活発な研究分野であり、その問題は分析的な観点からしばしばアプローチされてきた。 本稿では,ウェーブレット設計の学習に基づくアプローチを提案する。 本稿では,畳み込みオートエンコーダとウェーブレット多重解像度近似の並列性を示し,学習角度が設計問題に対するコヒーレントな計算フレームワークをどのように提供するかを示す。 我々は、カスタマイズされたデータセットを必要としないフィルタバンクオートエンコーダをトレーニングすることで、データ非依存のウェーブレットを設計することを目指している。 実際、我々はフィルタバンクオートエンコーダのトレーニングに高次元ガウスベクトルを用い、ほぼゼロのトレーニング損失は学習フィルタが非常に高い確率で完全な再構成特性を満たすことを示している。 自動エンコーダアーキテクチャを適切に設計し、学習プロセスで使用される平均二乗誤差コストに適切な正規化項を付加することにより、直交性、コンパクトサポート、滑らか性、対称性、消滅モーメントなどのウェーブレットの特性を組み込むことができる。 このアプローチは,よく知られた直交ウェーブレットのダウベキエス族と対称なバイオrthogonalウェーブレットのcohen-daubechies-fea uveau族を回復するだけでなく,これらのファミリーの外でウェーブレットを学ぶ。

Wavelets have proven to be highly successful in several signal and image processing applications. Wavelet design has been an active field of research for over two decades, with the problem often being approached from an analytical perspective. In this paper, we introduce a learning based approach to wavelet design. We draw a parallel between convolutional autoencoders and wavelet multiresolution approximation, and show how the learning angle provides a coherent computational framework for addressing the design problem. We aim at designing data-independent wavelets by training filterbank autoencoders, which precludes the need for customized datasets. In fact, we use high-dimensional Gaussian vectors for training filterbank autoencoders, and show that a near-zero training loss implies that the learnt filters satisfy the perfect reconstruction property with very high probability. Properties of a wavelet such as orthogonality, compact support, smoothness, symmetry, and vanishing moments can be incorporated by designing the autoencoder architecture appropriately and with a suitable regularization term added to the mean-squared error cost used in the learning process. Our approach not only recovers the well known Daubechies family of orthogonal wavelets and the Cohen-Daubechies-Fea uveau family of symmetric biorthogonal wavelets, but also learns wavelets outside these families.
翻訳日:2021-07-26 13:50:04 公開日:2021-07-23
# ニューラルネットワーク損失景観における局所構造とグローバル構造の分類

Taxonomizing local versus global structure in neural network loss landscapes ( http://arxiv.org/abs/2107.11228v1 )

ライセンス: Link先を確認
Yaoqing Yang, Liam Hodgkinson, Ryan Theisen, Joe Zou, Joseph E. Gonzalez, Kannan Ramchandran, Michael W. Mahoney(参考訳) 損失ランドスケープの観点からニューラルネットワークモデルを見ることは、学習に対する統計力学アプローチにおいて長い歴史を持ち、近年は機械学習の適切な範囲で注目を集めている。 その中で、(損失景観の滑らかさのような)局所的な測度は、モデルのグローバルな性質(良い一般化など)と相関することが示されている。 ここでは、何千ものニューラルネットワークモデル、体系的に異なる学習タスク、モデルアーキテクチャ、および/またはデータの量/品質の損失ランドスケープ構造を詳細に分析する。 ロスランドスケープの異なる側面を捉えようとするさまざまな指標を考慮することで、ロスランドスケープがグローバルに接続されている場合、トレーニングされたモデルのアンサンブルが互いに似ており、モデルが局所的に滑らかな領域に収束している場合、最良のテスト精度が得られることを示す。 また, モデルが小さかったり, 品質の低いデータにトレーニングされたりした場合に, グローバルに接続が不十分なランドスケープが発生すること, また, 損失のランドスケープが世界的に低かった場合, ゼロロスへのトレーニングは, テスト精度を低下させる可能性があることを示した。 これらの結果をもとに, 負荷様および温度様パラメータを持つ簡易な1次元モデルを構築し, これらのパラメータに依拠して \emph{ effective loss landscape} の概念を導入し, 損失景観の \emph{rugged convexity} という観点から解析する。 このレンズを通して観察すると、詳細な実験結果から、学習のフェーズ(および関連する2次降下行動)、良い一般化の基本的な決定要因と付随的な決定要因、学習プロセスにおける負荷様および温度様パラメータの役割、モデルとデータによるロスランドスケープの異なる影響、そしてローカルとグローバルメトリクスの関係が明らかになった。

Viewing neural network models in terms of their loss landscapes has a long history in the statistical mechanics approach to learning, and in recent years it has received attention within machine learning proper. Among other things, local metrics (such as the smoothness of the loss landscape) have been shown to correlate with global properties of the model (such as good generalization). Here, we perform a detailed empirical analysis of the loss landscape structure of thousands of neural network models, systematically varying learning tasks, model architectures, and/or quantity/quality of data. By considering a range of metrics that attempt to capture different aspects of the loss landscape, we demonstrate that the best test accuracy is obtained when: the loss landscape is globally well-connected; ensembles of trained models are more similar to each other; and models converge to locally smooth regions. We also show that globally poorly-connected landscapes can arise when models are small or when they are trained to lower quality data; and that, if the loss landscape is globally poorly-connected, then training to zero loss can actually lead to worse test accuracy. Based on these results, we develop a simple one-dimensional model with load-like and temperature-like parameters, we introduce the notion of an \emph{effective loss landscape} depending on these parameters, and we interpret our results in terms of a \emph{rugged convexity} of the loss landscape. When viewed through this lens, our detailed empirical results shed light on phases of learning (and consequent double descent behavior), fundamental versus incidental determinants of good generalization, the role of load-like and temperature-like parameters in the learning process, different influences on the loss landscape from model and data, and the relationships between local and global metrics, all topics of recent interest.
翻訳日:2021-07-26 13:49:40 公開日:2021-07-23
# 機能的脳ネットワーク生成による効果的かつ解釈可能なfmri解析

Effective and Interpretable fMRI Analysis via Functional Brain Network Generation ( http://arxiv.org/abs/2107.11247v1 )

ライセンス: Link先を確認
Xuan Kan, Hejie Cui, Ying Guo, Carl Yang(参考訳) 神経科学における最近の研究は、fMRIデータから構築された機能的脳ネットワークの大きな可能性を示し、人気モデリングと臨床予測を行っている。 しかし、既存の機能的脳ネットワークは下流予測タスクにうるさいし、GNNの最近の強力な機械学習モデルと互換性がない。 本研究では,FMRIの特徴を抽出し,脳ネットワークを生成し,GNNを用いて予測を行う,エンドツーエンドのトレーニング可能なパイプラインを開発した。 PNC fMRIデータに対する予備実験は、我々のフレームワークの優れた有効性とユニークな解釈可能性を示している。

Recent studies in neuroscience show great potential of functional brain networks constructed from fMRI data for popularity modeling and clinical predictions. However, existing functional brain networks are noisy and unaware of downstream prediction tasks, while also incompatible with recent powerful machine learning models of GNNs. In this work, we develop an end-to-end trainable pipeline to extract prominent fMRI features, generate brain networks, and make predictions with GNNs, all under the guidance of downstream prediction tasks. Preliminary experiments on the PNC fMRI data show the superior effectiveness and unique interpretability of our framework.
翻訳日:2021-07-26 13:49:01 公開日:2021-07-23
# マルチタスク学習におけるハードパラメータ共有の再考

Rethinking Hard-Parameter Sharing in Multi-Task Learning ( http://arxiv.org/abs/2107.11359v1 )

ライセンス: Link先を確認
Lijun Zhang, Qizheng Yang, Xiao Liu, Hui Guan(参考訳) マルチタスク学習(MTL)におけるハードパラメータ共有により、タスクはモデルのパラメータの一部を共有でき、ストレージコストを低減し、予測精度を向上させることができる。 共通の共有プラクティスは、各タスクに別々のトップレイヤを使用して、ディープニューラルネットワークのボトム層をタスク間で共有することです。 本研究は, 微細な画像分類作業に関する実証的研究を通じて, この実践を再考し, 2つの驚くべき観察を行った。 1) 分離したボトム層パラメータを用いることで, 従来よりも性能が著しく向上し, この現象は, 異なるタスク固有パラメータの異なるバックボーンアーキテクチャ上で協調的に訓練されたタスク数をそれぞれ保持する。 2) 下位層からのタスク固有パラメータの割合が少ないマルチタスクモデルは,各タスクで個別に訓練された独立モデルと競合し,最先端のMTLフレームワークより優れている。 我々は,現在の共有パラダイムを再考し,mtlにおけるモデル設計のベースラインとしてボトム層パラメータを分離する新たな戦略を採用することを示唆する。

Hard parameter sharing in multi-task learning (MTL) allows tasks to share some of model parameters, reducing storage cost and improving prediction accuracy. The common sharing practice is to share bottom layers of a deep neural network among tasks while using separate top layers for each task. In this work, we revisit this common practice via an empirical study on fine-grained image classification tasks and make two surprising observations. (1) Using separate bottom-layer parameters could achieve significantly better performance than the common practice and this phenomenon holds for different number of tasks jointly trained on different backbone architectures with different quantity of task-specific parameters. (2) A multi-task model with a small proportion of task-specific parameters from bottom layers can achieve competitive performance with independent models trained on each task separately and outperform a state-of-the-art MTL framework. Our observations suggest that people rethink the current sharing paradigm and adopt the new strategy of using separate bottom-layer parameters as a stronger baseline for model design in MTL.
翻訳日:2021-07-26 13:48:52 公開日:2021-07-23
# 人工知能を用いたマルウェア解析と結果解釈可能性に関する研究

Malware Analysis with Artificial Intelligence and a Particular Attention on Results Interpretability ( http://arxiv.org/abs/2107.11100v1 )

ライセンス: Link先を確認
Benjamin Marais, Tony Quertier, Christophe Chesneau(参考訳) マルウェアの検出と分析は、サイバーセキュリティにおける過去数年間の活発な研究課題である。 実際、例えばパッケージングのような難読化技術の開発には、最近のマルウェアの変種を検出するために特別な注意が必要である。 通常の検出方法は必ずしも結果を解釈するためのツールを提供していない。 そこで本研究では,バイナリファイルのグレースケール画像への変換に基づくモデルを提案する。 さらに,提案モデルでは,サンプルが85%の精度で満たされているか,あるいは暗号化されているかを判定できる。 結果を分析し、適切に振る舞うことができます。 また,検出モデルに注意機構を適用することで,ファイルのどの部分が疑わしいかを特定することができる。 この種のツールはデータアナリストにとって非常に有用であり、一般的な検出モデルの解釈可能性の欠如を補い、悪意のあるファイルが検出されていない理由を理解するのに役立つ。

Malware detection and analysis are active research subjects in cybersecurity over the last years. Indeed, the development of obfuscation techniques, as packing, for example, requires special attention to detect recent variants of malware. The usual detection methods do not necessarily provide tools to interpret the results. Therefore, we propose a model based on the transformation of binary files into grayscale image, which achieves an accuracy rate of 88%. Furthermore, the proposed model can determine if a sample is packed or encrypted with a precision of 85%. It allows us to analyze results and act appropriately. Also, by applying attention mechanisms on detection models, we have the possibility to identify which part of the files looks suspicious. This kind of tool should be very useful for data analysts, it compensates for the lack of interpretability of the common detection models, and it can help to understand why some malicious files are undetected.
翻訳日:2021-07-26 13:48:34 公開日:2021-07-23
# 二重dqnに基づく複雑な環境におけるロボット経路計画の改善アルゴリズム

An Improved Algorithm of Robot Path Planning in Complex Environment Based on Double DQN ( http://arxiv.org/abs/2107.11245v1 )

ライセンス: Link先を確認
Fei Zhang, Chaochen Gu, and Feng Yang(参考訳) 実験によると,DQN(Deep Q Network)は,多数のジレンマのある環境での経路計画に適用する場合,いくつかの制限がある。 報酬関数はモデル化が難しく、経験の遷移の成功は経験の再生で見つけるのが難しい。 本稿では, a* と高速探索確率木 (rrt) を参照して解くために, 改良された二重dqn (ddqn) を提案する。 経験リプレイにおける豊富な実験を実現するため、各トレーニングラウンドにおけるロボットの初期化はRTR戦略に基づいて再定義される。 また、自由位置に対する報酬は、a*の位置コストの定義に従って学習プロセスを加速するように特別に設計されている。 シミュレーション実験により,改良されたDDQNの有効性を検証し,DQNやDDQNに効果のない障害物回避能力と最適経路計画の学習に成功した。

Deep Q Network (DQN) has several limitations when applied in planning a path in environment with a number of dilemmas according to our experiment. The reward function may be hard to model, and successful experience transitions are difficult to find in experience replay. In this context, this paper proposes an improved Double DQN (DDQN) to solve the problem by reference to A* and Rapidly-Exploring Random Tree (RRT). In order to achieve the rich experiments in experience replay, the initialization of robot in each training round is redefined based on RRT strategy. In addition, reward for the free positions is specially designed to accelerate the learning process according to the definition of position cost in A*. The simulation experimental results validate the efficiency of the improved DDQN, and robot could successfully learn the ability of obstacle avoidance and optimal path planning in which DQN or DDQN has no effect.
翻訳日:2021-07-26 13:48:21 公開日:2021-07-23
# 圧縮センシングイメージングのための動的近位アンロールネットワーク

Dynamic Proximal Unrolling Network for Compressive Sensing Imaging ( http://arxiv.org/abs/2107.11007v1 )

ライセンス: Link先を確認
Yixiao Yang, Ran Tao, Kaixuan Wei, Ying Fu(参考訳) 圧縮センシングイメージング(Compressive Sensing Imaging, CSI)は、アンダーサンプル計測から基盤となる画像の復元が困難な問題であり、多くの実用的応用がある。 近年,csiの不適切さを緩和するために暗黙的に学習されたニューラルネットワークが,有望な結果とともにこの問題に適用されている。 しかし、既存のニューラルネットワークアプローチでは、サンプリング比率などの画像パラメータ毎に別々のモデルが必要であり、トレーニングの困難と特定の設定に過度に適合する。 本稿では,単一のモデルを用いて,リトレーニングすることなく様々な計測行列を処理できる動的近位アンロールネットワーク(dpunet)を提案する。 具体的には、DPUNetは、勾配降下による埋め込み物理モデルと、学習された動的近位写像によって関節再建に先立つ画像の両方を活用できる。 dpunetの重要なコンポーネントは動的近位マッピングモジュールであり、そのパラメータは推論段階で動的に調整でき、任意の撮像設定に適応させることができる。 実験の結果, dpunetは, サンプリング率やノイズレベルが異なる場合に, 1つのモデルで効率的に複数のcsiモダリティを処理でき, 最先端のアプローチよりも優れることがわかった。

Recovering an underlying image from under-sampled measurements, Compressive Sensing Imaging (CSI) is a challenging problem and has many practical applications. Recently, deep neural networks have been applied to this problem with promising results, owing to its implicitly learned prior to alleviate the ill-poseness of CSI. However, existing neural network approaches require separate models for each imaging parameter like sampling ratios, leading to training difficulties and overfitting to specific settings. In this paper, we present a dynamic proximal unrolling network (dubbed DPUNet), which can handle a variety of measurement matrices via one single model without retraining. Specifically, DPUNet can exploit both embedded physical model via gradient descent and imposing image prior with learned dynamic proximal mapping leading to joint reconstruction. A key component of DPUNet is a dynamic proximal mapping module, whose parameters can be dynamically adjusted at inference stage and make it adapt to any given imaging setting. Experimental results demonstrate that the proposed DPUNet can effectively handle multiple CSI modalities under varying sampling ratios and noise levels with only one model, and outperform the state-of-the-art approaches.
翻訳日:2021-07-26 13:47:30 公開日:2021-07-23
# 不完全画像からの階層的形状知覚ネットワークによる3次元脳再構成

3D Brain Reconstruction by Hierarchical Shape-Perception Network from a Single Incomplete Image ( http://arxiv.org/abs/2107.11010v1 )

ライセンス: Link先を確認
Bowen Hu, Baiying Lei, Yong Liu, Min Gan, Bingchuan Wang, Shuqiang Wang(参考訳) 3次元形状復元は,手術環境が間接的かつ狭く,手術臓器の3次元形状を限られた2次元情報で再構築することに焦点を当てた,最小侵襲かつ自己誘導型手術のナビゲーションに不可欠である。 しかし, 術中の緊急時(出血など)やリスク管理条件による情報の欠如や不完全性は考慮されていない。 本稿では,新しい階層型形状知覚ネットワーク(HSPN)を提案し,低レイテンシで1つの不完全な画像から特定の脳の3次元点雲(PC)を再構成する。 木構造予測器と複数の階層的な注目パイプラインを構築し、不完全な画像を正確に記述した点雲を生成し、高品質な点雲を完成させる。 一方、アテンションゲートブロック(agbs)は階層的アテンションパイプラインによって伝達される不完全なpcの幾何学的局所的特徴と再構成点雲の内部的特徴を効率的に集約するように設計されている。 提案したHSPNでは、3次元形状知覚と完成が自然に達成される。 Chamfer 距離と PC-to-PC 誤差によって測定された総合的な結果から,提案した HSPN の性能は,定性的表示,定量的実験,分類評価の点で,他の競合手法よりも優れていることが示された。

3D shape reconstruction is essential in the navigation of minimally-invasive and auto robot-guided surgeries whose operating environments are indirect and narrow, and there have been some works that focused on reconstructing the 3D shape of the surgical organ through limited 2D information available. However, the lack and incompleteness of such information caused by intraoperative emergencies (such as bleeding) and risk control conditions have not been considered. In this paper, a novel hierarchical shape-perception network (HSPN) is proposed to reconstruct the 3D point clouds (PCs) of specific brains from one single incomplete image with low latency. A tree-structured predictor and several hierarchical attention pipelines are constructed to generate point clouds that accurately describe the incomplete images and then complete these point clouds with high quality. Meanwhile, attention gate blocks (AGBs) are designed to efficiently aggregate geometric local features of incomplete PCs transmitted by hierarchical attention pipelines and internal features of reconstructing point clouds. With the proposed HSPN, 3D shape perception and completion can be achieved spontaneously. Comprehensive results measured by Chamfer distance and PC-to-PC error demonstrate that the performance of the proposed HSPN outperforms other competitive methods in terms of qualitative displays, quantitative experiment, and classification evaluation.
翻訳日:2021-07-26 13:47:09 公開日:2021-07-23
# WaveFill: 画像描画のためのウェーブレットベースの生成ネットワーク

WaveFill: A Wavelet-based Generation Network for Image Inpainting ( http://arxiv.org/abs/2107.11027v1 )

ライセンス: Link先を確認
Yingchen Yu, Fangneng Zhan, Shijian Lu, Jianxiong Pan, Feiying Ma, Xuansong Xie, Chunyan Miao(参考訳) image inpaintingは、画像の欠落または破損した領域をリアルなコンテンツで完成することを目的としている。 一般的なアプローチは、生成的逆ネットワークを用いて、再構成と知覚的品質のハイブリッドな目標を採用する。 しかし、レコンストラクションの損失と敵対的損失は、異なる周波数のコンテンツを合成し、単純にそれらを組み合わせることで、しばしば周波数間の衝突と、妥協されたインペインティングを引き起こす。 本稿では,複数の周波数帯域に分割し,各周波数帯域の欠落領域を別々かつ明示的に埋めるウェーブレットベースのインパインティングネットワークであるWaveFillを提案する。 WaveFillは空間情報を自然に保存する離散ウェーブレット変換(DWT)を用いて画像を分解する。 分解された低周波帯域に対するl1再構成損失と高周波帯域への逆損失を応用し、空間領域での画像を完了しながら、効果的に周波数間衝突を緩和する。 異なる周波数帯域における不整合と異なる統計量を持つヒューズ特徴に対処するため、マルチ周波数特徴を効果的に調整・融合する新しい正規化スキームを設計する。 複数のデータセットに対する大規模な実験により、WaveFillは質的かつ定量的に優れた画像インライン化を実現している。

Image inpainting aims to complete the missing or corrupted regions of images with realistic contents. The prevalent approaches adopt a hybrid objective of reconstruction and perceptual quality by using generative adversarial networks. However, the reconstruction loss and adversarial loss focus on synthesizing contents of different frequencies and simply applying them together often leads to inter-frequency conflicts and compromised inpainting. This paper presents WaveFill, a wavelet-based inpainting network that decomposes images into multiple frequency bands and fills the missing regions in each frequency band separately and explicitly. WaveFill decomposes images by using discrete wavelet transform (DWT) that preserves spatial information naturally. It applies L1 reconstruction loss to the decomposed low-frequency bands and adversarial loss to high-frequency bands, hence effectively mitigate inter-frequency conflicts while completing images in spatial domain. To address the inpainting inconsistency in different frequency bands and fuse features with distinct statistics, we design a novel normalization scheme that aligns and fuses the multi-frequency features effectively. Extensive experiments over multiple datasets show that WaveFill achieves superior image inpainting qualitatively and quantitatively.
翻訳日:2021-07-26 13:46:48 公開日:2021-07-23
# (参考訳) HARP-Net: スケーラブルなニューラルオーディオ符号化のための超自動再構成プロパゲーション

HARP-Net: Hyper-Autoencoded Reconstruction Propagation for Scalable Neural Audio Coding ( http://arxiv.org/abs/2107.10843v2 )

ライセンス: CC BY 4.0
Darius Petermann, Seungkwon Beack, Minje Kim(参考訳) オートエンコーダベースのコーデックは、そのボトルネック層の活性化をビットストリングに変換するために量子化を利用する。 この問題を回避するために、対応するエンコーダ・デコーダ層間のスキップ接続を追加する。 ミラー化された自己エンコーダトポロジーでは、デコーダ層はその対応するエンコーダ層の中間特徴表現を再構成する。 これにより、対応するエンコーダ層から直接伝播する付加情報が復元に役立つ。 我々はこのようなスキップ接続を追加のオートエンコーダで実装し、それぞれがペアのエンコーダ-デコーダ層間の大量のデータ転送を圧縮する小さなコーデックである。 提案するハイパーオートコーディングアーキテクチャは,通常のオートエンコーダベースラインに比べて知覚音質の向上を実証的に検証する。

An autoencoder-based codec employs quantization to turn its bottleneck layer activation into bitstrings, a process that hinders information flow between the encoder and decoder parts. To circumvent this issue, we employ additional skip connections between the corresponding pair of encoder-decoder layers. The assumption is that, in a mirrored autoencoder topology, a decoder layer reconstructs the intermediate feature representation of its corresponding encoder layer. Hence, any additional information directly propagated from the corresponding encoder layer helps the reconstruction. We implement this kind of skip connections in the form of additional autoencoders, each of which is a small codec that compresses the massive data transfer between the paired encoder-decoder layers. We empirically verify that the proposed hyper-autoencoded architecture improves perceptual audio quality compared to an ordinary autoencoder baseline.
翻訳日:2021-07-26 11:07:46 公開日:2021-07-23
# 内蔵モーションセンサを用いたカメラプロトコルによる認証の改善:深層学習ソリューション

Improving the Authentication with Built-in Camera Protocol Using Built-in Motion Sensors: A Deep Learning Solution ( http://arxiv.org/abs/2107.10536v2 )

ライセンス: Link先を確認
Cezara Benegui, Radu Tudor Ionescu(参考訳) 組込みカメラ(ABC)プロトコルの強化版として,組込みモーションセンサを用いた深層学習ソリューションを提案する。 標準ABCプロトコルは、QRコードに基づくメタ情報も考慮しながら、カメラセンサの光応答非均一性(PRNU)に基づいてモバイルデバイスを識別する。 認証の間、ユーザーは画面に2つのQRコードを含む2つの写真を撮る必要がある。 提示されたqrコード画像は、プロトコルによって生成されたカメラ指紋に似たユニークなプローブ信号も含む。 検証中、サーバは受信した写真の指紋を算出し、(i)プローブ信号が存在する場合、(ii)QRコードに埋め込まれたメタデータが正しく、(iii)カメラ指紋が正しく識別されている場合、ユーザを認証する。 しかし、このプロトコルは、攻撃者が外部写真からカメラの指紋を計算できる場合の偽造攻撃に対して脆弱である。 本稿では,動きセンサデータに基づくabcプロトコルの付加的および受動的認証層としての拡張を提案する。 スマートフォンは、写真とは異なり、ソーシャルメディアプラットフォーム上ではユーザーによって投稿されないモーションセンサーデータによって識別できるため、写真のみを使用するよりも安全である。 この目的のために、我々は動き信号をディープニューラルネットワークが生成する埋め込みベクトルに変換し、スマートフォン識別タスクにサポートベクターマシンを適用する。 abcプロトコルの変更により、前回の作業で提案された攻撃に対する偽の受け入れ率を0.07%まで低下させるマルチモーダルプロトコルが実現しました。

We propose an enhanced version of the Authentication with Built-in Camera (ABC) protocol by employing a deep learning solution based on built-in motion sensors. The standard ABC protocol identifies mobile devices based on the photo-response non-uniformity (PRNU) of the camera sensor, while also considering QR-code-based meta-information. During authentication, the user is required to take two photos that contain two QR codes presented on a screen. The presented QR code images also contain a unique probe signal, similar to a camera fingerprint, generated by the protocol. During verification, the server computes the fingerprint of the received photos and authenticates the user if (i) the probe signal is present, (ii) the metadata embedded in the QR codes is correct and (iii) the camera fingerprint is identified correctly. However, the protocol is vulnerable to forgery attacks when the attacker can compute the camera fingerprint from external photos, as shown in our preliminary work. In this context, we propose an enhancement for the ABC protocol based on motion sensor data, as an additional and passive authentication layer. Smartphones can be identified through their motion sensor data, which, unlike photos, is never posted by users on social media platforms, thus being more secure than using photographs alone. To this end, we transform motion signals into embedding vectors produced by deep neural networks, applying Support Vector Machines for the smartphone identification task. Our change to the ABC protocol results in a multi-modal protocol that lowers the false acceptance rate for the attack proposed in our previous work to a percentage as low as 0.07%.
翻訳日:2021-07-26 11:02:17 公開日:2021-07-23
# MobileCharger:ロバストで安全な充電のための逆デルタアクチュエータを備えた自律移動ロボット

MobileCharger: an Autonomous Mobile Robot with Inverted Delta Actuator for Robust and Safe Robot Charging ( http://arxiv.org/abs/2107.10585v2 )

ライセンス: Link先を確認
Iaroslav Okunevich, Daria Trinitatova, Pavel Kopanev, and Dzmitry Tsetserukou(参考訳) MobileChargerは、2つの移動ロボット間の安全で堅牢なエネルギー伝達のための逆デルタアクチュエータを備えた、新しいモバイル充電ロボットである。 rgb-dカメラベースのコンピュータビジョンシステムは、畳み込みニューラルネットワーク(cnn)を使用してターゲット移動ロボットの電極を検出することができる。 埋込高密度触覚センサを適用して、接触面の圧力データに基づいて、充電器機構上の電極とCNNを用いたメインロボット上の電極とのずれを推定する。 これにより、アクチュエータの終端エフェクタの正確な位置決めが可能となり、2つのロボットの電極間の信頼性の高い接続が保証される。 実験の結果,CNNを用いた電極検出では,高い平均精度 (84.2%) を示した。 cnnベースの電極探索アルゴリズムの試験成功率は83%に達し、平均実行時間は60秒であった。

MobileCharger is a novel mobile charging robot with an Inverted Delta actuator for safe and robust energy transfer between two mobile robots. The RGB-D camera-based computer vision system allows to detect the electrodes on the target mobile robot using a convolutional neural network (CNN). The embedded high-fidelity tactile sensors are applied to estimate the misalignment between the electrodes on the charger mechanism and the electrodes on the main robot using CNN based on pressure data on the contact surfaces. Thus, the developed vision-tactile perception system allows precise positioning of the end effector of the actuator and ensures a reliable connection between the electrodes of the two robots. The experimental results showed high average precision (84.2%) for electrode detection using CNN. The percentage of successful trials of the CNN-based electrode search algorithm reached 83% and the average execution time accounted for 60 s. MobileCharger could introduce a new level of charging systems and increase the prevalence of autonomous mobile robots.
翻訳日:2021-07-26 11:01:51 公開日:2021-07-23
# starganv2-vc:自然音声変換のための多様な教師なし非並列フレームワーク

StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for Natural-Sounding Voice Conversion ( http://arxiv.org/abs/2107.10394v2 )

ライセンス: Link先を確認
Yinghao Aaron Li, Ali Zare, Nima Mesgarani(参考訳) 本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた非並列多人数音声変換手法を提案する。 逆方向のソース分類器の損失と知覚的損失の組み合わせにより、我々のモデルは従来のVCモデルよりも大幅に優れていた。 我々のモデルは、20人の英語話者でしか訓練されていないが、任意の対多、多言語、歌唱変換など、様々な音声変換タスクに一般化されている。 また, スタイルエンコーダを用いて, 平易な読み上げ音声を, 情緒的, 虚偽的音声などのスタイリスティックな音声に変換する。 非並列多言語音声変換タスクの主観的および客観的評価実験により,テキストラベルを必要とせずに,TTSに基づく音声変換手法の音質に近い自然な音声を生成できることが明らかになった。 さらに,本モデルは完全に畳み込み型であり,Parallel WaveGANのような高速なボコーダでリアルタイム音声変換を行うことができる。

We present an unsupervised non-parallel many-to-many voice conversion (VC) method using a generative adversarial network (GAN) called StarGAN v2. Using a combination of adversarial source classifier loss and perceptual loss, our model significantly outperforms previous VC models. Although our model is trained only with 20 English speakers, it generalizes to a variety of voice conversion tasks, such as any-to-many, cross-lingual, and singing conversion. Using a style encoder, our framework can also convert plain reading speech into stylistic speech, such as emotional and falsetto speech. Subjective and objective evaluation experiments on a non-parallel many-to-many voice conversion task revealed that our model produces natural sounding voices, close to the sound quality of state-of-the-art text-to-speech (TTS) based voice conversion methods without the need for text labels. Moreover, our model is completely convolutional and with a faster-than-real-tim e vocoder such as Parallel WaveGAN can perform real-time voice conversion.
翻訳日:2021-07-26 11:01:38 公開日:2021-07-23
# 再同定のためのポーズに基づくコピー・ペースト法

Copy and Paste method based on Pose for Re-identification ( http://arxiv.org/abs/2107.10479v2 )

ライセンス: Link先を確認
Cheng Yang(参考訳) ReID(Re-identificati on)は、異なる視点で監視カメラ内のオブジェクトをマッチングすることを目的としている。 非常に高速に開発されていますが、この段階では複数のシナリオでReIDタスクの処理方法はありません。 しかし、この用量は、セキュリティシナリオなど、実生活において常に発生する。 本稿では,視点,背景,ポーズ(歩行やサイクリング)が異なる再同定の新しいシナリオについて検討する。 もちろん、通常のReID処理方法は、このシナリオをうまく扱えない。 誰もが知っているように、このスキャナリオに画像データセットを導入することが最善の方法ですが、これは非常に高価です。 そこで本稿では,新たなシナリオにおいて,ポーズ(cpp)に基づくコピー&ペースト法という,簡易かつ効果的な画像生成手法を提案する。 CPPは、2つの異なるセマンティックイメージデータセットに新しいセマンティックイメージデータセットを合成するために、コピーとペーストを使用したキーポイント検出に基づく手法である。 例えば、歩行者や自転車を使って、同じ人が異なる自転車に乗っていることを示す画像を生成することができます。 cppは新しいシナリオでのreidタスクに適しており、オリジナルのreidタスクのオリジナルのデータセットの最先端を上回っている。 具体的には、サードパーティの公開データセットの一般化パフォーマンスも向上する。 CPPで合成されたコードとデータセットは将来的に利用可能になる。

Re-identification (ReID) aims at matching objects in surveillance cameras with different viewpoints. It's developing very fast, but there is no processing method for the ReID task in multiple scenarios at this stage. However, this dose happen all the time in real life, such as the security scenarios. This paper explores a new scenario of Re-identification, which differs in perspective, background, and pose(walking or cycling). Obviously, ordinary ReID processing methods cannot handle this scenario well. As we all know, the best way to deal with that it is to introduce image datasets in this scanario, But this one is very expensive. To solve this problem, this paper proposes a simple and effective way to generate images in some new scenario, which is named Copy and Paste method based on Pose(CPP). The CPP is a method based on key point detection, using copy and paste, to composite a new semantic image dataset in two different semantic image datasets. Such as, we can use pedestrians and bicycles to generate some images that shows the same person rides on different bicycles. The CPP is suitable for ReID tasks in new scenarios and it outperforms state-of-the-art on the original datasets in original ReID tasks. Specifically, it can also have better generalization performance for third-party public datasets. Code and Datasets which composited by the CPP will be available in the future.
翻訳日:2021-07-26 11:01:18 公開日:2021-07-23
# 凸最適化のためのニューラル固定点加速

Neural Fixed-Point Acceleration for Convex Optimization ( http://arxiv.org/abs/2107.10254v2 )

ライセンス: Link先を確認
Shobha Venkataraman, Brandon Amos(参考訳) 固定点反復は数値計算の中心であり、適度な精度の高速解を必要とするリアルタイムアプリケーションでは、しばしば計算ボトルネックとなる。 本研究では,メタ学習法と古典的加速度法を組み合わせたニューラル不動点加速度法を提案し,分布から引き出される不動点問題を自動学習する。 我々は,convex coneプログラミングの最先端解法であるscsと設計モデルと損失関数に適用し,未熟な最適化と高速化の不安定性よりも学習の課題を克服した。 我々の研究は、CVXPYで表現可能な最適化問題に神経加速度をもたらす。 この論文のソースコードはhttps://github.com/f acebookresearch/neur al-scsで入手できる。

Fixed-point iterations are at the heart of numerical computing and are often a computational bottleneck in real-time applications that typically need a fast solution of moderate accuracy. We present neural fixed-point acceleration which combines ideas from meta-learning and classical acceleration methods to automatically learn to accelerate fixed-point problems that are drawn from a distribution. We apply our framework to SCS, the state-of-the-art solver for convex cone programming, and design models and loss functions to overcome the challenges of learning over unrolled optimization and acceleration instabilities. Our work brings neural acceleration into any optimization problem expressible with CVXPY. The source code behind this paper is available at https://github.com/f acebookresearch/neur al-scs
翻訳日:2021-07-26 11:00:57 公開日:2021-07-23
# AnonySIGN:手話ビデオ匿名化のための新しい人間の外観合成

AnonySIGN: Novel Human Appearance Synthesis for Sign Language Video Anonymisation ( http://arxiv.org/abs/2107.10685v2 )

ライセンス: Link先を確認
Ben Saunders, Necati Cihan Camgoz, Richard Bowden(参考訳) 手話データの視覚的匿名化は、大規模なデータセット収集によって引き起こされるプライバシー問題に対処するための重要なタスクである。 従来の匿名化技術は、手話理解に大きく影響したか、あるいは手作業、労働集約的な作業を必要とした。 本稿では,手話映像の視覚的外観を匿名化するための自動的手法として手話映像匿名化(slva)の課題を,手話映像の本来の意味を保ちながら正式に紹介する。 SLVAに取り組むために,手話データの視覚的匿名化のための新しいアプローチであるAnonySignを提案する。 まず、元のシグナの外観を除去するために、ソースビデオからポーズ情報を抽出する。 次に、条件付き可変オートエンコーダフレームワークにおける画像から画像への変換手法を用いて、ポーズシーケンスから新しい外観の写実的な手話ビデオを生成する。 近い後部スタイルの分布を学習し、新しい人間の外観を合成するためにサンプリングすることができる。 さらに,匿名化した手話ビデオにおけるスタイル一貫性を保証する,新しい \textit{style loss}を提案する。 SLVAタスクにおける AnonySign を定量的および定性的な実験により評価し,新しい人間の外見合成の現実性と匿名性を強調した。 さらに、SLVAタスクの評価基準として匿名知覚研究を定式化し、AnonySignを用いたビデオ匿名化が元の手話の内容を保持することを示す。

The visual anonymisation of sign language data is an essential task to address privacy concerns raised by large-scale dataset collection. Previous anonymisation techniques have either significantly affected sign comprehension or required manual, labour-intensive work. In this paper, we formally introduce the task of Sign Language Video Anonymisation (SLVA) as an automatic method to anonymise the visual appearance of a sign language video whilst retaining the meaning of the original sign language sequence. To tackle SLVA, we propose AnonySign, a novel automatic approach for visual anonymisation of sign language data. We first extract pose information from the source video to remove the original signer appearance. We next generate a photo-realistic sign language video of a novel appearance from the pose sequence, using image-to-image translation methods in a conditional variational autoencoder framework. An approximate posterior style distribution is learnt, which can be sampled from to synthesise novel human appearances. In addition, we propose a novel \textit{style loss} that ensures style consistency in the anonymised sign language videos. We evaluate AnonySign for the SLVA task with extensive quantitative and qualitative experiments highlighting both realism and anonymity of our novel human appearance synthesis. In addition, we formalise an anonymity perceptual study as an evaluation criteria for the SLVA task and showcase that video anonymisation using AnonySign retains the original sign language content.
翻訳日:2021-07-26 11:00:45 公開日:2021-07-23