このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220109となっている論文です。

PDF登録状況(公開日: 20220109)

TitleAuthorsAbstract論文公表日・翻訳日
# 米国における感情スコアとcovid-19感染者との関係

The relationship between sentiment score and COVID-19 cases in the United States ( http://arxiv.org/abs/2202.01708v1 )

ライセンス: Link先を確認
Truong Luu and Rosangela Follmann(参考訳) 新型コロナウイルス(COVID-19)は、世界中で深刻な影響を受け続けている。 このパンデミックによる不確実性から解放された国はない。 健康、社会的、経済的トートは強い感情を引き起こし、あらゆる年齢、性別、人種の人々に恐怖を広めている。 新型コロナウイルス(COVID-19)のパンデミックが始まって以来、多くの人は自分の生活の幅広い側面に関する感情や意見を表明してきた。 本研究では、covid-19関連ツイートから感情スコアや意見を抽出する枠組みを検討する。 我々は、米国中の新型コロナウイルス(covid-19)患者とユーザーの感情を結びつけ、特定の新型コロナウイルスのマイルストーンが公衆の感情に与える影響について調査する。 この研究の結果は、パンデミックに関連する法律の発展に寄与し、科学研究のガイドとなり、パンデミックに関連する中核的な問題について大衆に情報を提供し、教育するのに役立つ。

The coronavirus disease (COVID-19) continues to have devastating effects across the globe. No nation has been free from the uncertainty brought by this pandemic. The health, social and economic tolls associated with it are causing strong emotions and spreading fear in people of all ages, genders, and races. Since the beginning of the COVID-19 pandemic, many have expressed their feelings and opinions related to a wide range of aspects of their lives via Twitter. In this study, we consider a framework for extracting sentiment scores and opinions from COVID-19 related tweets. We connect users' sentiment with COVID-19 cases across the USA and investigate the effect of specific COVID-19 milestones on public sentiment. The results of this work may help with the development of pandemic-related legislation, serve as a guide for scientific work, as well as inform and educate the public on core issues related to the pandemic.
翻訳日:2022-02-06 08:57:05 公開日:2022-01-09
# (参考訳) RecoMed:高血圧治療のための知識対応レコメンダシステム [全文訳有]

RecoMed: A Knowledge-Aware Recommender System for Hypertension Medications ( http://arxiv.org/abs/2201.05461v1 )

ライセンス: CC BY 4.0
Maryam Sajde, Hamed Malek, Mehran Mohsenzadeh(参考訳) 背景と目的 高次医学の多様性は処方薬にとって重要な課題であり、医師の意思決定過程に混乱や疑念を引き起こしている。 本稿では、他の医師が処方した薬について情報を提供し、また、他の薬が推奨できる薬を検索することで、高血圧の処方過程における医師を助けるRecoMedと呼ばれる医薬品推薦システムを開発することを目的とする。 方法 開発された方法には2つのステップがある: まず、医療関連ルールを見つけるために、関連性ルールマイニングアルゴリズムが使用される。 2番目のステップはグラフマイニングとクラスタリングを伴い、ATCコードを通じてリッチなレコメンデーションを提示する。 第一に、初期グラフは、履歴処方データから構築される。 そして、第2の工程でデータの刈り取りを行い、その後、一般医の判断により、繰り返し率の高い薬剤を除去する。 次に、医薬はATCコードと呼ばれる医薬分類システムに適合し、豊富な勧告を提供する。 そして最後に、DBSCANとLouvainのアルゴリズムが薬をクラスターする。 結果 推奨医薬の一覧はシステムの出力として提供され、医師は患者の臨床症状に基づいて1つ以上の薬を選択できる。 血圧上昇薬に関連するクラス2の薬のみが、システムの性能を評価するために使用される。 このシステムから得られた結果は、この分野の専門家によってレビューされ、確認されている。

Background and Objective High medicine diversity has always been a significant challenge for prescription, causing confusion or doubt in physicians' decision-making process. This paper aims to develop a medicine recommender system called RecoMed to aid the physician in the prescription process of hypertension by providing information about what medications have been prescribed by other doctors and figuring out what other medicines can be recommended in addition to the one in question. Methods There are two steps to the developed method: First, association rule mining algorithms are employed to find medicine association rules. The second step entails graph mining and clustering to present an enriched recommendation via ATC code, which itself comprises several steps. First, the initial graph is constructed from historical prescription data. Then, data pruning is performed in the second step, after which the medicines with a high repetition rate are removed at the discretion of a general medical practitioner. Next, the medicines are matched to a well-known medicine classification system called the ATC code to provide an enriched recommendation. And finally, the DBSCAN and Louvain algorithms cluster medicines in the final step. Results A list of recommended medicines is provided as the system's output, and physicians can choose one or more of the medicines based on the patient's clinical symptoms. Only the medicines of class 2, related to high blood pressure medications, are used to assess the system's performance. The results obtained from this system have been reviewed and confirmed by an expert in this field.
翻訳日:2022-01-23 20:19:58 公開日:2022-01-09
# (参考訳) 大規模ユーザ施設における高スループットおよび遠隔操作を実現する機械学習 [全文訳有]

Machine learning enabling high-throughput and remote operations at large-scale user facilities ( http://arxiv.org/abs/2201.03550v1 )

ライセンス: CC BY 4.0
Tatiana Konstantinova, Phillip M. Maffettone, Bruce Ravel, Stuart I. Campbell, Andi M. Barbour, Daniel Olds(参考訳) イメージング、散乱、分光は、新しい機能性材料を理解し発見するための基礎となる。 自動化と実験技術における現代の革新は、これらの測定をはるかに高速かつ高解像度に実行し、分析のための膨大なデータを生み出している。 これらの革新は特にユーザ施設やシンクロトロン光源で顕著である。 機械学習(ML)手法は、大規模なデータセットをリアルタイムで処理し、解釈するために定期的に開発されている。 しかし、MLに関する専門知識やMLモデルをデプロイする技術的な障壁がしばしば欠落している施設一般ユーザコミュニティの参入には、概念上の障壁が依然として残っている。 本稿では,国立シンクロトロン光源ii(nsls-ii)の複数のビームラインにおけるオンザフライ解析のための,様々なアーチ型mlモデルを示す。 これらの例は,既存の実験ワークフローにモデルを統合することで,読者が自身のML技術をNSLS-IIや共通インフラを持つ施設に簡単に組み込むことができるように,系統的に記述する。 ここで提示されたフレームワークは、実験的なオーケストレーションとデータ管理のための既存のblueskyスイートとの統合を通じて、さまざまなmlモデルをフィードバックループとともに運用する方法を示しています。

Imaging, scattering, and spectroscopy are fundamental in understanding and discovering new functional materials. Contemporary innovations in automation and experimental techniques have led to these measurements being performed much faster and with higher resolution, thus producing vast amounts of data for analysis. These innovations are particularly pronounced at user facilities and synchrotron light sources. Machine learning (ML) methods are regularly developed to process and interpret large datasets in real-time with measurements. However, there remain conceptual barriers to entry for the facility general user community, whom often lack expertise in ML, and technical barriers for deploying ML models. Herein, we demonstrate a variety of archetypal ML models for on-the-fly analysis at multiple beamlines at the National Synchrotron Light Source II (NSLS-II). We describe these examples instructively, with a focus on integrating the models into existing experimental workflows, such that the reader can easily include their own ML techniques into experiments at NSLS-II or facilities with a common infrastructure. The framework presented here shows how with little effort, diverse ML models operate in conjunction with feedback loops via integration into the existing Bluesky Suite for experimental orchestration and data management.
翻訳日:2022-01-12 23:33:31 公開日:2022-01-09
# (参考訳) 連成層化と標本配置のための分布アルゴリズムのハイブリッド推定

A hybrid estimation of distribution algorithm for joint stratification and sample allocation ( http://arxiv.org/abs/2201.04068v1 )

ライセンス: CC BY 4.0
Mervyn O'Luing, Steven Prestwich and S. Armagan Tarim(参考訳) 本研究では,統合階層化問題とサンプル割り当て問題を解くため,分散アルゴリズムのハイブリッド推定(heda)を提案する。 これは、すべての可能な成層集合の集合から各成層の各品質を最適なサンプル割り当てで測定する複雑な問題である。 EDAは確率的ブラックボックス最適化アルゴリズムであり、最適成層探索において確率モデルを推定、構築、サンプリングするために使用できる。 本稿では,ハイブリッドEDAに擬似アニールアルゴリズムを加えることにより,EDAの活用性を高める。 原子層と連続層に対する経験的比較の結果,集団遺伝的アルゴリズム,シミュレートアニーリングアルゴリズム,ヒルクライミングアルゴリズムを用いて,同一データに対するベンチマークテストと比較した結果,hedaはこれまでに見いだされた最良値を達成した。 しかし、HEDAの場合、実行時間と総実行時間は一般的に高い。

In this study we propose a hybrid estimation of distribution algorithm (HEDA) to solve the joint stratification and sample allocation problem. This is a complex problem in which each the quality of each stratification from the set of all possible stratifications is measured its optimal sample allocation. EDAs are stochastic black-box optimization algorithms which can be used to estimate, build and sample probability models in the search for an optimal stratification. In this paper we enhance the exploitation properties of the EDA by adding a simulated annealing algorithm to make it a hybrid EDA. Results of empirical comparisons for atomic and continuous strata show that the HEDA attains the bests results found so far when compared to benchmark tests on the same data using a grouping genetic algorithm, simulated annealing algorithm or hill-climbing algorithm. However, the execution times and total execution are, in general, higher for the HEDA.
翻訳日:2022-01-12 23:10:41 公開日:2022-01-09
# 燃焼化学速度予測のための高精度・ロバスト深層ニューラルネットワークのマルチスケールサンプリング法

A multi-scale sampling method for accurate and robust deep neural network to predict combustion chemical kinetics ( http://arxiv.org/abs/2201.03549v1 )

ライセンス: Link先を確認
Tianhan Zhang, Yuxiao Yi, Yifan Xu, Zhi X. Chen, Yaoyu Zhang, Weinan E, Zhi-Qin John Xu(参考訳) 機械学習は長い間、非常に多くのパラメータと評価基準の欠如と再現性のため、燃焼化学速度を予測するブラックボックスとみなされてきた。 現在の研究は、ディープニューラルネットワーク(DNN)メソッドに関する2つの基本的な疑問、すなわち、DNNが必要とするデータとDNNメソッドの一般性を理解することを目的としている。 DNNトレーニングデータセットのサンプリングと事前処理は、さらにDNN予測能力に影響を与える。 燃焼データを前処理するためにBox-Cox変換(BCT)を提案する。 さらに,モンテカルロ法,多様体サンプリング法,生成型ニューラルネットワーク法(cycle-gan法),新たに導入したマルチスケールサンプリング法など,様々なサンプリング法と前処理の有無を比較した。 この結果から,DNNは有限構成で化学動力学を捉えることができるが,流れ場と結合するDNNでは避けられない摂動に対する頑健さは維持できないことが明らかとなった。 モンテカルロとサイクルGANのサンプリングはより広い位相空間をカバーできるが、小規模の中間種を捕獲できず、予測結果に乏しい。 特定の火炎シミュレーションデータを持たないマルチスケール手法に基づく3層DNNは、様々なシナリオにおける化学動力学の予測を可能にし、時間的進化の間に安定である。 この単一のDNNは、いくつかのCFDコードで容易に実装され、(1)を含む様々な燃焼器で検証される。 0 次元の自己着火 (2) 1次元自由伝播火炎、(3) 3つの火炎構造を持つ2次元ジェット火炎と(4)。 3次元の乱流浮揚火炎。 その結果,事前学習したDNNの満足度と一般化能力が示された。 DNNのFortranバージョンとPythonバージョンとサンプルコードは再現性のために補足されている。

Machine learning has long been considered as a black box for predicting combustion chemical kinetics due to the extremely large number of parameters and the lack of evaluation standards and reproducibility. The current work aims to understand two basic questions regarding the deep neural network (DNN) method: what data the DNN needs and how general the DNN method can be. Sampling and preprocessing determine the DNN training dataset, further affect DNN prediction ability. The current work proposes using Box-Cox transformation (BCT) to preprocess the combustion data. In addition, this work compares different sampling methods with or without preprocessing, including the Monte Carlo method, manifold sampling, generative neural network method (cycle-GAN), and newly-proposed multi-scale sampling. Our results reveal that the DNN trained by the manifold data can capture the chemical kinetics in limited configurations but cannot remain robust toward perturbation, which is inevitable for the DNN coupled with the flow field. The Monte Carlo and cycle-GAN samplings can cover a wider phase space but fail to capture small-scale intermediate species, producing poor prediction results. A three-hidden-layer DNN, based on the multi-scale method without specific flame simulation data, allows predicting chemical kinetics in various scenarios and being stable during the temporal evolutions. This single DNN is readily implemented with several CFD codes and validated in various combustors, including (1). zero-dimensional autoignition, (2). one-dimensional freely propagating flame, (3). two-dimensional jet flame with triple-flame structure, and (4). three-dimensional turbulent lifted flames. The results demonstrate the satisfying accuracy and generalization ability of the pre-trained DNN. The Fortran and Python versions of DNN and example code are attached in the supplementary for reproducibility.
翻訳日:2022-01-12 15:03:02 公開日:2022-01-09
# (参考訳) {\lambda}-scaled-attention:タンパク質配列の効率的なモデリングのための新しい高速注意機構 [全文訳有]

{\lambda}-Scaled-Attention: A Novel Fast Attention Mechanism for Efficient Modeling of Protein Sequences ( http://arxiv.org/abs/2201.02912v1 )

ライセンス: CC BY 4.0
Ashish Ranjan, Md Shah Fahad, Akshay Deepak(参考訳) 注意に基づくディープネットワークはNLPの分野におけるテキストデータに適用されている。 しかし、それらのタンパク質配列への応用は、平易なテキスト語とは異なり、タンパク質語の弱い意味論のため、さらなる課題をもたらす。 標準的な注意技術が直面する 未解決の課題には (i)注意力低下問題、及び (ii)注目分布の変動が大きい。 そこで本研究では,これらの問題に対処するタンパク質配列の高速かつ効率的なモデリングのために,新しい<lambda>スケールド・アテンション手法を提案する。 これは {\lambda}-scaled attention networkの開発に使われ、タンパク質サブシーケンスレベルで実装されたタンパク質機能予測のタスクとして評価される。 生物プロセス(BP)と分子機能(MF)のデータセットに関する実験では、標準の注目技術(BPは+2.01%、MFは+4.67%)と最先端のProtVecGen-Plusアプローチ(BPは+2.61%、MFは+4.20%)に基づいて、提案された「ラムダ」スケールの注意技術に対するF1スコアの値が大幅に改善された。 さらに,学習過程では,高速な収束(エポック数の半分に収束)と効率的な学習(トレーニングと検証損失の差が非常に低い)も観察された。

Attention-based deep networks have been successfully applied on textual data in the field of NLP. However, their application on protein sequences poses additional challenges due to the weak semantics of the protein words, unlike the plain text words. These unexplored challenges faced by the standard attention technique include (i) vanishing attention score problem and (ii) high variations in the attention distribution. In this regard, we introduce a novel {\lambda}-scaled attention technique for fast and efficient modeling of the protein sequences that addresses both the above problems. This is used to develop the {\lambda}-scaled attention network and is evaluated for the task of protein function prediction implemented at the protein sub-sequence level. Experiments on the datasets for biological process (BP) and molecular function (MF) showed significant improvements in the F1 score values for the proposed {\lambda}-scaled attention technique over its counterpart approach based on the standard attention technique (+2.01% for BP and +4.67% for MF) and state-of-the-art ProtVecGen-Plus approach (+2.61% for BP and +4.20% for MF). Further, fast convergence (converging in half the number of epochs) and efficient learning (in terms of very low difference between the training and validation losses) were also observed during the training process.
翻訳日:2022-01-12 04:07:19 公開日:2022-01-09
# (参考訳) 心電図データの高次モデリングのための弱スーパービジョン [全文訳有]

Weak Supervision for Affordable Modeling of Electrocardiogram Data ( http://arxiv.org/abs/2201.02936v1 )

ライセンス: CC BY-SA 4.0
Mononito Goswami, Benedikt Boecking and Artur Dubrawski(参考訳) 心電図(ecgs)の分析は安価で非侵襲的で強力な心臓疾患の診断方法である。 ecgは、これまで異常な心拍を自動検出するために機械学習を使用して研究してきた。 大量のラベルのないデータを収集するのは簡単ですが、異常な心拍のポイントバイポイントアノテーションは面倒で高価です。 我々は、複数の弱い監督源を用いて、人間の設計したヒューリスティックスを通して、個々のデータポイントの真理ラベルを使わずに、異常な心拍の診断モデルを学ぶ。 我々の研究は、時系列データから直接弱い監督源を定義する最初のものである。 その結果,6つの直感的時系列ヒューリスティックスを用いて,10万以上の心拍数に対する高品質な確率的ラベル推定を人的努力の少ない状態で推定し,評価されたラベルを用いて,有意なテストデータに基づいて評価された競合分類器の訓練を行うことができた。

Analysing electrocardiograms (ECGs) is an inexpensive and non-invasive, yet powerful way to diagnose heart disease. ECG studies using Machine Learning to automatically detect abnormal heartbeats so far depend on large, manually annotated datasets. While collecting vast amounts of unlabeled data can be straightforward, the point-by-point annotation of abnormal heartbeats is tedious and expensive. We explore the use of multiple weak supervision sources to learn diagnostic models of abnormal heartbeats via human designed heuristics, without using ground truth labels on individual data points. Our work is among the first to define weak supervision sources directly on time series data. Results show that with as few as six intuitive time series heuristics, we are able to infer high quality probabilistic label estimates for over 100,000 heartbeats with little human effort, and use the estimated labels to train competitive classifiers evaluated on held out test data.
翻訳日:2022-01-12 03:52:53 公開日:2022-01-09
# (参考訳) ディープニューラルネットワークを用いたJ2摂動ランバート問題の高速解法

Fast solver for J2-perturbed Lambert problem using deep neural network ( http://arxiv.org/abs/2201.02942v1 )

ライセンス: CC BY 4.0
Bin Yang, Shuang Li, Jinglang Feng and Massimiliano Vasile(参考訳) 本稿では j2-摂動ランベルト問題に対する新しい高速解法を提案する。 解法は、差分補正手順と組み合わされたインテリジェントな初期推定生成器からなる。 インテリジェントな初期推定生成器は、未摂動ランバート問題の解から来る初期速度ベクトルを補正するために訓練されたディープニューラルネットワークである。 差動補正モジュールは、初期推測を受け取り、前方射撃手順を使用して、初期速度をさらに更新し、終端条件を正確に満たす。 8つのサンプル形式を解析し、J2摂動ランバート問題でニューラルネットワークをトレーニングする最適な形式を求める。 この新手法の精度と性能は、ジュピター系における多変量J2摂動ランベルト問題の解法である代表的なテストケースで実証される。 提案手法を,古典的標準撮影法とホモトピーに基づく摂動ランベルトアルゴリズムと比較する。 同等の精度で、提案手法は、他の2つよりも大幅に高速であることが示される。

This paper presents a novel and fast solver for the J2-perturbed Lambert problem. The solver consists of an intelligent initial guess generator combined with a differential correction procedure. The intelligent initial guess generator is a deep neural network that is trained to correct the initial velocity vector coming from the solution of the unperturbed Lambert problem. The differential correction module takes the initial guess and uses a forward shooting procedure to further update the initial velocity and exactly meet the terminal conditions. Eight sample forms are analyzed and compared to find the optimum form to train the neural network on the J2-perturbed Lambert problem. The accuracy and performance of this novel approach will be demonstrated on a representative test case: the solution of a multi-revolution J2-perturbed Lambert problem in the Jupiter system. We will compare the performance of the proposed approach against a classical standard shooting method and a homotopy-based perturbed Lambert algorithm. It will be shown that, for a comparable level of accuracy, the proposed method is significantly faster than the other two.
翻訳日:2022-01-12 03:40:51 公開日:2022-01-09
# (参考訳) インドのwordnetsとプリンストンwordnetとの関係 [全文訳有]

Indian Language Wordnets and their Linkages with Princeton WordNet ( http://arxiv.org/abs/2201.02977v1 )

ライセンス: CC BY 4.0
Diptesh Kanojia, Kevin Patel, Pushpak Bhattacharyya(参考訳) ワードネットは豊富なレキシコ・セマンティクス資源である。 linked wordnets は wordnet の拡張であり、異なる言語の wordnet で同様の概念をリンクする。 このようなリソースは多くの自然言語処理(NLP)アプリケーションで非常に有用であり、主に知識に基づくアプローチに基づいている。 このようなアプローチでは、これらのリソースはゴールドスタンダード/オラクルとみなされる。 したがって、これらの資源が正しい情報を持っていることが重要である。 したがって、人間の専門家によって創造される。 しかし、複数の言語の人間の専門家は理解しづらい。 したがって、コミュニティはこのような手作業によるリソースの共有の恩恵を受けるだろう。 本稿では、プリンストン・ワードネットに関連付けられた18の言語単語ネットのマッピングをリリースする。 このようなリソースの可用性は、これらの言語におけるnlpの進展に直接影響すると信じています。

Wordnets are rich lexico-semantic resources. Linked wordnets are extensions of wordnets, which link similar concepts in wordnets of different languages. Such resources are extremely useful in many Natural Language Processing (NLP) applications, primarily those based on knowledge-based approaches. In such approaches, these resources are considered as gold standard/oracle. Thus, it is crucial that these resources hold correct information. Thereby, they are created by human experts. However, human experts in multiple languages are hard to come by. Thus, the community would benefit from sharing of such manually created resources. In this paper, we release mappings of 18 Indian language wordnets linked with Princeton WordNet. We believe that availability of such resources will have a direct impact on the progress in NLP for these languages.
翻訳日:2022-01-12 03:39:41 公開日:2022-01-09
# (参考訳) 自動エンコーダに基づく多視点表現学習 [全文訳有]

Auto-Encoder based Co-Training Multi-View Representation Learning ( http://arxiv.org/abs/2201.02978v1 )

ライセンス: CC BY 4.0
Run-kun Lu, Jian-wei Liu, Yuan-fang Wang, Hao-jie Xie, Xin Zuo(参考訳) 多視点学習は、オブジェクトの様々な表現を利用して、貴重な知識をマイニングし、学習アルゴリズムの性能を向上させる学習問題であり、多視点学習の重要な方向性の1つは、サブスペース学習である。 オートエンコーダは、入力を再構成することで生データの潜時特徴を学習する深層学習の手法であり、これに基づいて、相補性と一貫性を両立させ、複数のビューの協調潜時特徴表現を求める、Auto-encoder based Co-training Multi-View Learning (ACMVL)と呼ばれる新しいアルゴリズムを提案する。 アルゴリズムには2つの段階があり、第1は各ビューの自動エンコーダを訓練し、第2段階は教師付きネットワークを訓練する。 興味深いことに、2つのステージは重みを部分的に共有し、コトレーニングプロセスによって互いに助け合う。 実験結果から,優れた潜在特徴表現を学習でき,各ビューの自動エンコーダは従来のオートエンコーダよりも強力な再構成能力を有することがわかった。

Multi-view learning is a learning problem that utilizes the various representations of an object to mine valuable knowledge and improve the performance of learning algorithm, and one of the significant directions of multi-view learning is sub-space learning. As we known, auto-encoder is a method of deep learning, which can learn the latent feature of raw data by reconstructing the input, and based on this, we propose a novel algorithm called Auto-encoder based Co-training Multi-View Learning (ACMVL), which utilizes both complementarity and consistency and finds a joint latent feature representation of multiple views. The algorithm has two stages, the first is to train auto-encoder of each view, and the second stage is to train a supervised network. Interestingly, the two stages share the weights partly and assist each other by co-training process. According to the experimental result, we can learn a well performed latent feature representation, and auto-encoder of each view has more powerful reconstruction ability than traditional auto-encoder.
翻訳日:2022-01-12 03:33:06 公開日:2022-01-09
# (参考訳) 自然言語処理における静的バックドア攻撃の再考 [全文訳有]

Rethink Stealthy Backdoor Attacks in Natural Language Processing ( http://arxiv.org/abs/2201.02993v1 )

ライセンス: CC BY 4.0
Lingfeng Shen, Haiyun Jiang, Lemao Liu, Shuming Shi(参考訳) 最近、自然言語処理(NLP)モデルは、バックドア攻撃と呼ばれるある種のセキュリティ脅威に弱いことが示されている。 最も危険なバックドア攻撃はステルスなバックドアで、トリガーをテキストスタイルまたは構文として定義する。 彼らは驚くほど高い攻撃成功率(ASR)を達成したが、彼らのASRに寄与する主要な要因は「バックドアトリガー」パラダイムではない。 したがって、これらのステルスバックドア攻撃の能力はバックドア攻撃として分類されると過大評価される。 そこで本研究では,バックドア攻撃の実際の攻撃力を評価するために,清浄状態と中毒状態のasr差を測定する攻撃成功率差(assack successfully rate difference, asrd)と呼ばれる新しい指標を提案する。 さらに、ステルスバックドア攻撃に対する防御が欠如しているため、ステルスバックドア攻撃に対して効果的に防御できる2つの単純なトリックからなるトリガーブレーカーを提案する。 テキスト分類タスクの実験により,我々の手法は,ステルスなバックドア攻撃に対する最先端の防御手法よりもはるかに優れた性能を発揮することが示された。

Recently, it has been shown that natural language processing (NLP) models are vulnerable to a kind of security threat called the Backdoor Attack, which utilizes a `backdoor trigger' paradigm to mislead the models. The most threatening backdoor attack is the stealthy backdoor, which defines the triggers as text style or syntactic. Although they have achieved an incredible high attack success rate (ASR), we find that the principal factor contributing to their ASR is not the `backdoor trigger' paradigm. Thus the capacity of these stealthy backdoor attacks is overestimated when categorized as backdoor attacks. Therefore, to evaluate the real attack power of backdoor attacks, we propose a new metric called attack successful rate difference (ASRD), which measures the ASR difference between clean state and poison state models. Besides, since the defenses against stealthy backdoor attacks are absent, we propose Trigger Breaker, consisting of two too simple tricks that can defend against stealthy backdoor attacks effectively. Experiments on text classification tasks show that our method achieves significantly better performance than state-of-the-art defense methods against stealthy backdoor attacks.
翻訳日:2022-01-12 03:21:46 公開日:2022-01-09
# (参考訳) プライバシを意識したcovid-19早期検出の試み [全文訳有]

Privacy-aware Early Detection of COVID-19 through Adversarial Training ( http://arxiv.org/abs/2201.03004v1 )

ライセンス: CC BY 4.0
Omid Rohanian, Samaneh Kouchaki, Andrew Soltan, Jenny Yang, Morteza Rohanian, Yang Yang, David Clifton(参考訳) 新型コロナウイルスの早期発見は、潜在的な患者のトリアージ、モニタリング、一般健康評価に役立ち、新型コロナウイルスに対処する病院の手術負担を軽減できる研究分野として進行中である。 定期的な臨床データ(血液検査、バイタルサイン)を用いて、新型コロナウイルスの検出にさまざまな機械学習技術が用いられてきた。 データ漏洩とこれらのモデルを使用する際の情報漏洩は、評判にダメージを与え、病院に法的問題を引き起こす可能性がある。 それにもかかわらず、潜在的な機密情報の漏洩から医療モデルを保護することは、未調査の研究分野である。 本研究では,日常的に収集された臨床データを用いて,患者の新型コロナウイルス状況を予測するための2つの機械学習アプローチを検討する。 我々は、患者に関する人口統計情報に関連する属性を保護する強固なディープラーニングアーキテクチャを探索するために、敵対的トレーニングを用いる。 本研究で検討した2つのモデルは、敵攻撃や情報漏洩に対する機密情報を保護することを目的としている。 オックスフォード大学病院,ベッドフォードシャー病院 NHS Foundation Trust, 大学病院 Birmingham NHS Foundation Trust, ポーツマス病院 NHS Trust のデータセットを用いた一連の実験では, 基礎検査の血液検査情報と, 患者が病院に到着する際のバイタルサインを用いてPCR検査結果を予測する2つのニューラルネットワークをトレーニングし, テストしている。 それぞれのモデルが提供できるプライバシのレベルを評価し、提案するアーキテクチャが同等のベースラインに対して有効性と堅牢性を示す。 当社の主な貢献の1つは、敵の攻撃に対して敏感な属性を選択的に保護するために、組み込みメカニズムを備えた効果的なcovid-19検出モデルの開発をターゲットとしていることです。

Early detection of COVID-19 is an ongoing area of research that can help with triage, monitoring and general health assessment of potential patients and may reduce operational strain on hospitals that cope with the coronavirus pandemic. Different machine learning techniques have been used in the literature to detect coronavirus using routine clinical data (blood tests, and vital signs). Data breaches and information leakage when using these models can bring reputational damage and cause legal issues for hospitals. In spite of this, protecting healthcare models against leakage of potentially sensitive information is an understudied research area. In this work, we examine two machine learning approaches, intended to predict a patient's COVID-19 status using routinely collected and readily available clinical data. We employ adversarial training to explore robust deep learning architectures that protect attributes related to demographic information about the patients. The two models we examine in this work are intended to preserve sensitive information against adversarial attacks and information leakage. In a series of experiments using datasets from the Oxford University Hospitals, Bedfordshire Hospitals NHS Foundation Trust, University Hospitals Birmingham NHS Foundation Trust, and Portsmouth Hospitals University NHS Trust we train and test two neural networks that predict PCR test results using information from basic laboratory blood tests, and vital signs performed on a patients' arrival to hospital. We assess the level of privacy each one of the models can provide and show the efficacy and robustness of our proposed architectures against a comparable baseline. One of our main contributions is that we specifically target the development of effective COVID-19 detection models with built-in mechanisms in order to selectively protect sensitive attributes against adversarial attacks.
翻訳日:2022-01-12 03:06:54 公開日:2022-01-09
# (参考訳) 新型コロナウイルス(covid-19)パンデミックにおけるバイオメディカル記事のゼロショットと少数ショットの分類 [全文訳有]

Zero-Shot and Few-Shot Classification of Biomedical Articles in Context of the COVID-19 Pandemic ( http://arxiv.org/abs/2201.03017v1 )

ライセンス: CC0 1.0
Simon Lupart, Benoit Favre, Vassilina Nikoulina, Salah Ait-Mokhtar(参考訳) mesh (medical subject headings) は国立医学図書館によって作成され、生物医学領域の出版物の細かなインデックス化に使われる大きなシソーラスである。 新型コロナウイルス(COVID-19)パンデミックの文脈では、MeSH記述子は対応するトピックに関する記事に関連して現れている。 ゼロショット分類は、メッシュカテゴリの論文の流れをタイムリーにラベリングするのに適切な応答である。 本研究では,MeSHで利用可能なリッチな意味情報によってBioBERT表現が向上し,ゼロショット/フェーショットタスクに適合する可能性が示唆された。 本稿では,MeSHの項定義と論文の要約が有効であるか否かを判断し,マルチタスク学習を活用して,Seq2seqタスクによって表現のMeSH階層を誘導する。 結果は、MedLineとLitCovidデータセットのベースラインを確立し、結果の表現がMeSHに存在する階層的関係を伝達していることを示す。

MeSH (Medical Subject Headings) is a large thesaurus created by the National Library of Medicine and used for fine-grained indexing of publications in the biomedical domain. In the context of the COVID-19 pandemic, MeSH descriptors have emerged in relation to articles published on the corresponding topic. Zero-shot classification is an adequate response for timely labeling of the stream of papers with MeSH categories. In this work, we hypothesise that rich semantic information available in MeSH has potential to improve BioBERT representations and make them more suitable for zero-shot/few-shot tasks. We frame the problem as determining if MeSH term definitions, concatenated with paper abstracts are valid instances or not, and leverage multi-task learning to induce the MeSH hierarchy in the representations thanks to a seq2seq task. Results establish a baseline on the MedLine and LitCovid datasets, and probing shows that the resulting representations convey the hierarchical relations present in MeSH.
翻訳日:2022-01-12 02:49:15 公開日:2022-01-09
# (参考訳) 変圧器を用いた頭字語抽出へのアンサンブルアプローチ [全文訳有]

An Ensemble Approach to Acronym Extraction using Transformers ( http://arxiv.org/abs/2201.03026v1 )

ライセンス: CC BY 4.0
Prashant Sharma, Hadeel Saadany, Leonardo Zilio, Diptesh Kanojia, Constantin Or\u{a}san(参考訳) 頭字語は、文中の句の初期成分を用いて構築された句の省略単位である。 テキストからの頭字語の自動抽出は、機械翻訳、情報検索、テキスト要約といった様々な自然言語処理タスクに役立つ。 本稿では, 頭字語抽出の課題に対して, 2つの異なる手法を用いて頭字語とその長文の抽出を行うアンサンブル手法を提案する。 最初の方法は多言語文脈言語モデルを利用し、タスクを実行するためにモデルを微調整する。 第2の方法は畳み込みニューラルネットワークアーキテクチャを使って頭字語を抽出し、それらを前のメソッドの出力に追加する。 また、いくつかのオープンアクセスジャーナルから抽出した追加のトレーニングサンプルを用いて、公式のトレーニングデータセットも強化し、タスクパフォーマンスの向上に役立てます。 当社のデータセット分析では、現在のタスクデータセット内のノイズも強調しています。 デンマーク語 (0.74), 英語法 (0.72), 英語法 (0.73), 英語法 (0.73), フランス語 (0.63), ペルシア語 (0.57), スペイン語 (0.65), ベトナム語 (0.65) である。 コードとモデルを公開しています。

Acronyms are abbreviated units of a phrase constructed by using initial components of the phrase in a text. Automatic extraction of acronyms from a text can help various Natural Language Processing tasks like machine translation, information retrieval, and text summarisation. This paper discusses an ensemble approach for the task of Acronym Extraction, which utilises two different methods to extract acronyms and their corresponding long forms. The first method utilises a multilingual contextual language model and fine-tunes the model to perform the task. The second method relies on a convolutional neural network architecture to extract acronyms and append them to the output of the previous method. We also augment the official training dataset with additional training samples extracted from several open-access journals to help improve the task performance. Our dataset analysis also highlights the noise within the current task dataset. Our approach achieves the following macro-F1 scores on test data released with the task: Danish (0.74), English-Legal (0.72), English-Scientific (0.73), French (0.63), Persian (0.57), Spanish (0.65), Vietnamese (0.65). We release our code and models publicly.
翻訳日:2022-01-12 02:37:22 公開日:2022-01-09
# (参考訳) マルチパーティプライバシ学習のためのメタジェネライゼーション : graynetにおける異常マルチメディアトラフィックの同定 [全文訳有]

Meta-Generalization for Multiparty Privacy Learning to Identify Anomaly Multimedia Traffic in Graynet ( http://arxiv.org/abs/2201.03027v1 )

ライセンス: CC BY 4.0
Satoshi Kamo and Yiqiang Sheng(参考訳) サイバースペースにおける異常マルチメディアトラフィックの特定は、分散サービスシステム、複数世代のネットワーク、そして未来のあらゆるインターネットにおいて大きな課題である。 本稿では,グレーネットにおけるマルチパーティプライバシ学習モデルのメタ汎用化について検討し,異常なマルチメディアトラフィック識別の性能向上を図る。 graynetのマルチパーティプライバシ学習モデル(multiparty privacy learning model)は、グローバルに共有されたモデルで、分割、分散、トレーニングを行う。 メタ一般化は、その一般化誤差を減らすために学習モデルの固有の特性を発見することを指す。 実験では、以下の3つのメタ一般化原則をテストする。 graynetにおけるマルチパーティプライバシ学習モデルの一般化誤差は、バイトレベルのインベディングの次元を変化させることで低減される。 その後、パケットレベルの特徴を抽出するために深さを合わせることでエラーを低減させる。 最後に、トラフィックレベルのデータを前処理するサポートセットのサイズを調整することでエラーを低減する。 実験の結果,この提案は,異常マルチメディアトラフィックを識別するための最先端学習モデルよりも優れていることがわかった。

Identifying anomaly multimedia traffic in cyberspace is a big challenge in distributed service systems, multiple generation networks and future internet of everything. This letter explores meta-generalization for a multiparty privacy learning model in graynet to improve the performance of anomaly multimedia traffic identification. The multiparty privacy learning model in graynet is a globally shared model that is partitioned, distributed and trained by exchanging multiparty parameters updates with preserving private data. The meta-generalization refers to discovering the inherent attributes of a learning model to reduce its generalization error. In experiments, three meta-generalization principles are tested as follows. The generalization error of the multiparty privacy learning model in graynet is reduced by changing the dimension of byte-level imbedding. Following that, the error is reduced by adapting the depth for extracting packet-level features. Finally, the error is reduced by adjusting the size of support set for preprocessing traffic-level data. Experimental results demonstrate that the proposal outperforms the state-of-the-art learning models for identifying anomaly multimedia traffic.
翻訳日:2022-01-12 02:28:36 公開日:2022-01-09
# (参考訳) 多嚢胞性卵巣症候群予後の対比次元における判別分析 [全文訳有]

Discriminant Analysis in Contrasting Dimensions for Polycystic Ovary Syndrome Prognostication ( http://arxiv.org/abs/2201.03029v1 )

ライセンス: CC BY 4.0
Abhishek Gupta, Himanshu Soni, Raunak Joshi, Ronald Melwin Laban(参考訳) 機械学習を用いたPCOS(Polycystic Ovary Syndrome)の早期発見のために多くの予後診断法が確立されている。 PCOSはバイナリ分類の問題である。 次元化手法は機械学習の性能に大きな影響を与え,教師付き次元化手法を用いることにより,この問題に新たなエッジを与えることができる。 本稿では,二進分類のための線形形式と二次形式を持つ異なる次元の判別解析とメトリクスについて述べる。 トレーニング精度97.37%、テスト精度95.92%を2次判別分析を用いて測定し、多くの一般的な分類アルゴリズムと比較して、優れた精度と識別分析のばらつきが得られた。 また、問題をより深く理解するための可視化によるデータ分析も提供する。

A lot of prognostication methodologies have been formulated for early detection of Polycystic Ovary Syndrome also known as PCOS using Machine Learning. PCOS is a binary classification problem. Dimensionality Reduction methods impact the performance of Machine Learning to a greater extent and using a Supervised Dimensionality Reduction method can give us a new edge to tackle this problem. In this paper we present Discriminant Analysis in different dimensions with Linear and Quadratic form for binary classification along with metrics. We were able to achieve good accuracy and less variation with Discriminant Analysis as compared to many commonly used classification algorithms with training accuracy reaching 97.37% and testing accuracy of 95.92% using Quadratic Discriminant Analysis. Paper also gives the analysis of data with visualizations for deeper understanding of problem.
翻訳日:2022-01-12 02:17:44 公開日:2022-01-09
# (参考訳) 文脈言語モデルを用いた薬剤エラー検出 [全文訳有]

Medication Error Detection Using Contextual Language Models ( http://arxiv.org/abs/2201.03035v1 )

ライセンス: CC BY 4.0
Yu Jiang and Christian Poellabauer(参考訳) 薬のエラーは注文や処方の段階で起こることが多く、医療上の合併症や健康状態の悪化につながる可能性がある。 異なる手法を用いてこれらのエラーをキャッチすることは可能だが、本研究の焦点は、潜在的な薬物エラーを検出し予防するための処方薬情報のテキスト的および文脈的分析である。 本稿では,BERTに基づく文脈言語モデルを用いて,数千件の患者記録の実際の医療データから抽出したデータセットに基づいて,テキストや音声の異常を検出する方法について述べる。 提案モデルでは,テキスト依存のパターンを学習し,患者データなどの文脈情報に基づいて誤出力を予測できる。 実験の結果、テキスト入力の精度は96.63%、音声入力の精度は79.55%となり、実世界のほとんどのアプリケーションで十分である。

Medication errors most commonly occur at the ordering or prescribing stage, potentially leading to medical complications and poor health outcomes. While it is possible to catch these errors using different techniques; the focus of this work is on textual and contextual analysis of prescription information to detect and prevent potential medication errors. In this paper, we demonstrate how to use BERT-based contextual language models to detect anomalies in written or spoken text based on a data set extracted from real-world medical data of thousands of patient records. The proposed models are able to learn patterns of text dependency and predict erroneous output based on contextual information such as patient data. The experimental results yield accuracy up to 96.63% for text input and up to 79.55% for speech input, which is satisfactory for most real-world applications.
翻訳日:2022-01-12 02:13:11 公開日:2022-01-09
# (参考訳) クリーンでノイズの多いサンプルを用いたセマンティック学習 [全文訳有]

Semantics-driven Attentive Few-shot Learning over Clean and Noisy Samples ( http://arxiv.org/abs/2201.03043v1 )

ライセンス: CC BY 4.0
Orhun Bu\u{g}ra Baran and Ramazan G\"okberk Cinbi\c{s}(参考訳) ここ数年、数ショット学習(FSL)はラベル付きトレーニングの例への依存性を最小限にするために大きな注目を集めてきた。 FSLの固有の難しさは、クラス毎にトレーニングサンプルが多すぎることによるあいまいさの扱いである。 FSLにおけるこの根本的な課題に対処するために、新しいクラスに関する事前の意味知識を活用できるメタラーナーモデルを訓練し、分類器合成プロセスを導くことを目的とする。 特に,表現次元とトレーニングインスタンスの重要性を推定する意味論的特徴的注意とサンプル注意機構を提案する。 また,FSLにおけるサンプルノイズの問題を,より現実的で不完全な環境でのメタラーナーの利用に向けて検討した。 実験の結果,サンプルノイズを伴わない意味的FSLモデルの有効性が示された。

Over the last couple of years few-shot learning (FSL) has attracted great attention towards minimizing the dependency on labeled training examples. An inherent difficulty in FSL is the handling of ambiguities resulting from having too few training samples per class. To tackle this fundamental challenge in FSL, we aim to train meta-learner models that can leverage prior semantic knowledge about novel classes to guide the classifier synthesis process. In particular, we propose semantically-conditi oned feature attention and sample attention mechanisms that estimate the importance of representation dimensions and training instances. We also study the problem of sample noise in FSL, towards the utilization of meta-learners in more realistic and imperfect settings. Our experimental results demonstrate the effectiveness of the proposed semantic FSL model with and without sample noise.
翻訳日:2022-01-12 02:06:20 公開日:2022-01-09
# (参考訳) デジタル法医学調査における年齢推定への人工知能の適用 [全文訳有]

Applying Artificial Intelligence for Age Estimation in Digital Forensic Investigations ( http://arxiv.org/abs/2201.03045v1 )

ライセンス: CC BY 4.0
Thomas Grubl, Harjinder Singh Lallie(参考訳) 児童性的虐待・搾取(CSAE)被害者の正確な年齢推定は、最も重要なデジタル法医学的課題の一つである。 調査員は画像を見て、性発達段階やその他の人間の特徴を解釈することで、被害者の年齢を決定する必要があることが多い。 子どもを守る主な優先事項は、しばしば巨大な法医学的バックログ、認知バイアス、そしてこの研究が引き起こす膨大な心理的ストレスに負の影響を受けます。 本稿では、既存の顔画像データセットを評価し、同様のデジタル法医学研究の貢献のニーズに合わせた新しいデータセットを提案する。 この0歳から20歳の小さなデータセットは245枚の画像を含み、FG-NETデータセットから82枚のユニークな画像とマージされ、画像の多様性と低年齢範囲の密度で合計327枚の画像が得られる。 新しいデータセットは、IMDB-WIKIデータセットで事前トレーニングされたDeep Expectation (DEX)アルゴリズムでテストされる。 10歳から15歳までの青年と16歳から20歳までの青年の合計成績は、非常に奨励的だが、0歳から10歳までの子どもの正確さはさらなる作業が必要であることも示唆している。 試作機の有効性を判断するために,2人の法医学研究者を含む4人のデジタル法医学専門家の貴重な入力を考慮し,年齢推定結果の改善を図る。 さらに、画像密度とジェンダーや人種の多様性などの要因の均等な分布に関するデータセットを拡張する必要がある。

The precise age estimation of child sexual abuse and exploitation (CSAE) victims is one of the most significant digital forensic challenges. Investigators often need to determine the age of victims by looking at images and interpreting the sexual development stages and other human characteristics. The main priority - safeguarding children -- is often negatively impacted by a huge forensic backlog, cognitive bias and the immense psychological stress that this work can entail. This paper evaluates existing facial image datasets and proposes a new dataset tailored to the needs of similar digital forensic research contributions. This small, diverse dataset of 0 to 20-year-old individuals contains 245 images and is merged with 82 unique images from the FG-NET dataset, thus achieving a total of 327 images with high image diversity and low age range density. The new dataset is tested on the Deep EXpectation (DEX) algorithm pre-trained on the IMDB-WIKI dataset. The overall results for young adolescents aged 10 to 15 and older adolescents/adults aged 16 to 20 are very encouraging -- achieving MAEs as low as 1.79, but also suggest that the accuracy for children aged 0 to 10 needs further work. In order to determine the efficacy of the prototype, valuable input of four digital forensic experts, including two forensic investigators, has been taken into account to improve age estimation results. Further research is required to extend datasets both concerning image density and the equal distribution of factors such as gender and racial diversity.
翻訳日:2022-01-12 01:45:31 公開日:2022-01-09
# (参考訳) COVID-19患者の肺感染症とCTボリュームからの正常領域の分画 [全文訳有]

Lung infection and normal region segmentation from CT volumes of COVID-19 cases ( http://arxiv.org/abs/2201.03050v1 )

ライセンス: CC BY 4.0
Masahiro Oda, Yuichiro Hayashi, Yoshito Otake, Masahiro Hashimoto, Toshiaki Akashi, Kensaku Mori(参考訳) 本稿では,ctデータから肺の感染症と正常領域を自動的に分割する手法を提案する。 2019年12月からは、新型コロナウイルス(covid-19)が世界中に広がり、経済活動や日常生活に大きな影響を与えている。 感染数が多い患者を診断するには,コンピュータによる診断支援が必要である。 胸部ctはcovid-19を含むウイルス性肺炎の診断に有効である。 新型コロナウイルスの診断支援にはコンピュータによるCTボリュームからの肺状態の定量的解析が必要である。 本稿では, HIVの完全畳み込みネットワーク(FCN)を用いたCTボリュームからの肺の感染領域と正常領域の自動分離法を提案する。 新型コロナウイルスを含む肺疾患の診断においては、肺の正常領域と感染症領域の解析が重要である。 肺の正常領域と感染部位をCTボリュームで認識し,分類する。 様々な形状と大きさの感染症領域を分断するため, FCNに密集したプール接続と拡張畳み込みを導入した。 新型コロナウイルス患者のCTボリュームに本手法を適用した。 新型コロナウイルスの軽症から重篤な症例まで、肺の正常領域と感染領域を正しく区分けする手法が提案された。 正常および感染部位の食感スコアはそれぞれ0.911と0.753であった。

This paper proposes an automated segmentation method of infection and normal regions in the lung from CT volumes of COVID-19 patients. From December 2019, novel coronavirus disease 2019 (COVID-19) spreads over the world and giving significant impacts to our economic activities and daily lives. To diagnose the large number of infected patients, diagnosis assistance by computers is needed. Chest CT is effective for diagnosis of viral pneumonia including COVID-19. A quantitative analysis method of condition of the lung from CT volumes by computers is required for diagnosis assistance of COVID-19. This paper proposes an automated segmentation method of infection and normal regions in the lung from CT volumes using a COVID-19 segmentation fully convolutional network (FCN). In diagnosis of lung diseases including COVID-19, analysis of conditions of normal and infection regions in the lung is important. Our method recognizes and segments lung normal and infection regions in CT volumes. To segment infection regions that have various shapes and sizes, we introduced dense pooling connections and dilated convolutions in our FCN. We applied the proposed method to CT volumes of COVID-19 cases. From mild to severe cases of COVID-19, the proposed method correctly segmented normal and infection regions in the lung. Dice scores of normal and infection regions were 0.911 and 0.753, respectively.
翻訳日:2022-01-12 01:17:09 公開日:2022-01-09
# (参考訳) 大規模不確実性に基づく胸部CT画像からのCOVID-19感染分離 [全文訳有]

COVID-19 Infection Segmentation from Chest CT Images Based on Scale Uncertainty ( http://arxiv.org/abs/2201.03053v1 )

ライセンス: CC BY 4.0
Masahiro Oda, Tong Zheng, Yuichiro Hayashi, Yoshito Otake, Masahiro Hashimoto, Toshiaki Akashi, Shigeki Aoki, Kensaku Mori(参考訳) そこで本研究では, 肺感染領域のct量から分離する手法を提案する。 新型コロナウイルスは世界中で感染し、多くの患者と死者を出した。 ct画像によるcovid-19診断は、迅速かつ正確な診断結果を提供することができる。 肺の感染部位の自動分離法は、診断のための定量的基準を提供する。 従来の方法は、全2D画像または3Dボリュームベースプロセスを使用する。 感染地域は、その大きさにかなりの変化がある。 このようなプロセスは、小さな感染症領域を簡単に見逃す。 パッチベースのプロセスは、小さなターゲットのセグメンテーションに有効である。 しかし,感染地域区分では適切なパッチサイズの選択が困難である。 セグメンテーションfcnの様々な受容野サイズ間のスケール不確実性を利用して感染領域を得る。 受信フィールドサイズはパッチサイズと、パッチをカットしたボリュームの解像度として定義することができる。 本稿では,パッチベースセグメンテーションを行う感染セグメンテーションネットワーク(isnet)と,セグメンテーション結果を洗練するスケール不確実性対応予測アグリゲーション手法を提案する。 我々は,様々な強度値のセグメント感染領域に対するisnetの設計を行う。 ISNetは複数のエンコーディングパスを持ち、複数の強度範囲で正規化されたパッチボリュームを処理する。 様々な受容場サイズを持つisnetによる予測結果を収集する。 予測集計法により,予測結果のスケール不確かさを抽出する。 集計fcnを用いて,予測間のスケール不確実性を考慮した洗練されたセグメント化結果を生成する。 199個の胸部ctデータを用いた実験では,dice類似度スコアを47.6%から62.1%に改善した。

This paper proposes a segmentation method of infection regions in the lung from CT volumes of COVID-19 patients. COVID-19 spread worldwide, causing many infected patients and deaths. CT image-based diagnosis of COVID-19 can provide quick and accurate diagnosis results. An automated segmentation method of infection regions in the lung provides a quantitative criterion for diagnosis. Previous methods employ whole 2D image or 3D volume-based processes. Infection regions have a considerable variation in their sizes. Such processes easily miss small infection regions. Patch-based process is effective for segmenting small targets. However, selecting the appropriate patch size is difficult in infection region segmentation. We utilize the scale uncertainty among various receptive field sizes of a segmentation FCN to obtain infection regions. The receptive field sizes can be defined as the patch size and the resolution of volumes where patches are clipped from. This paper proposes an infection segmentation network (ISNet) that performs patch-based segmentation and a scale uncertainty-aware prediction aggregation method that refines the segmentation result. We design ISNet to segment infection regions that have various intensity values. ISNet has multiple encoding paths to process patch volumes normalized by multiple intensity ranges. We collect prediction results generated by ISNets having various receptive field sizes. Scale uncertainty among the prediction results is extracted by the prediction aggregation method. We use an aggregation FCN to generate a refined segmentation result considering scale uncertainty among the predictions. In our experiments using 199 chest CT volumes of COVID-19 cases, the prediction aggregation method improved the dice similarity score from 47.6% to 62.1%.
翻訳日:2022-01-12 01:11:25 公開日:2022-01-09
# (参考訳) 最適最適化システムの選択

Selecting the Best Optimizing System ( http://arxiv.org/abs/2201.03065v1 )

ライセンス: CC BY 4.0
Nian Si, Zeyu Zheng(参考訳) 最適最適化システム(SBOS)の問題を定式化し,それらの問題に対する解決策を提供する。 SBOS問題では、有限個の系が競合する。 各システム内では、連続的な決定変数がシステムの期待性能に影響する。 sbos問題(sbos problem)は、システムの期待性能や各システム内の最適化決定を事前に知ることなく、最善の選択を最適に選択した決定に基づいて異なるシステムを比較する。 システムとシステム性能を評価する選択の選択を適応的に選択し,劣悪なシステムを順次排除し,最終的にユーザ特定予算を要した上で最善のシステムとして推奨する,実装の容易なアルゴリズムを設計する。 提案アルゴリズムは確率勾配降下法と逐次除去法を統合し,各システム内の構造を同時に利用し,システム間の比較を行う。 提案アルゴリズムでは,予算が無限に増加するにつれて,誤選択の確率に対して指数収束率を0に証明する。 sbos問題の3つの実用例を示す数値例を3つ紹介する。 提案アルゴリズムは,様々な問題設定とサンプリング予算の下で,ベンチマークアルゴリズムに対する誤選択の確率の観点から,一貫した,より強力な性能を示す。

We formulate selecting the best optimizing system (SBOS) problems and provide solutions for those problems. In an SBOS problem, a finite number of systems are contenders. Inside each system, a continuous decision variable affects the system's expected performance. An SBOS problem compares different systems based on their expected performances under their own optimally chosen decision to select the best, without advance knowledge of expected performances of the systems nor the optimizing decision inside each system. We design easy-to-implement algorithms that adaptively chooses a system and a choice of decision to evaluate the noisy system performance, sequentially eliminates inferior systems, and eventually recommends a system as the best after spending a user-specified budget. The proposed algorithms integrate the stochastic gradient descent method and the sequential elimination method to simultaneously exploit the structure inside each system and make comparisons across systems. For the proposed algorithms, we prove exponential rates of convergence to zero for the probability of false selection, as the budget grows to infinity. We conduct three numerical examples that represent three practical cases of SBOS problems. Our proposed algorithms demonstrate consistent and stronger performances in terms of the probability of false selection over benchmark algorithms under a range of problem settings and sampling budgets.
翻訳日:2022-01-12 01:02:44 公開日:2022-01-09
# (参考訳) ImageSubject:対象検出のための大規模データセット [全文訳有]

ImageSubject: A Large-scale Dataset for Subject Detection ( http://arxiv.org/abs/2201.03101v1 )

ライセンス: CC BY 4.0
Xin Miao, Jiayi Liu, Huayan Wang, Jun Fu(参考訳) 主に被写体は、写真家が強調したいものなので、通常、画像やビデオの中に存在します。 人間の視聴者は容易に識別できるが、アルゴリズムはそれらを他のオブジェクトと混同することが多い。 主な被写体を検出することは、機械が画像やビデオの内容を理解するのに役立つ重要な技術である。 オブジェクトのレイアウトと画像のコンテキストを学習モデルで理解し,その中の主対象を見つけることを目的として,新しいデータセットを提案する。 これは3つの側面で達成される。 プロの撮影スキルを持つ監督が制作した映画撮影映像から画像を集め,21,540本の映画撮影映像から107,700枚の画像を含む,強い多様性を持つデータセットを収集した。 2つのクラス - subject と non-subject foreground object のバウンディングボックスラベルでラベル付けしました。 本稿では,データセットの詳細な解析を行い,そのタスクを塩分検出とオブジェクト検出と比較する。 imagesubjectは、写真家がハイライトしたい画像に被写体をローカライズしようとする最初のデータセットである。 さらに、変換器に基づく検出モデルは、他の一般的なモデルアーキテクチャの中でも最良の結果をもたらす。 最後に、潜在的なアプリケーションについて議論し、データセットの重要性を結論付ける。

Main subjects usually exist in the images or videos, as they are the objects that the photographer wants to highlight. Human viewers can easily identify them but algorithms often confuse them with other objects. Detecting the main subjects is an important technique to help machines understand the content of images and videos. We present a new dataset with the goal of training models to understand the layout of the objects and the context of the image then to find the main subjects among them. This is achieved in three aspects. By gathering images from movie shots created by directors with professional shooting skills, we collect the dataset with strong diversity, specifically, it contains 107\,700 images from 21\,540 movie shots. We labeled them with the bounding box labels for two classes: subject and non-subject foreground object. We present a detailed analysis of the dataset and compare the task with saliency detection and object detection. ImageSubject is the first dataset that tries to localize the subject in an image that the photographer wants to highlight. Moreover, we find the transformer-based detection model offers the best result among other popular model architectures. Finally, we discuss the potential applications and conclude with the importance of the dataset.
翻訳日:2022-01-12 01:01:35 公開日:2022-01-09
# (参考訳) プロジェクション:混合イニシアティブな研究プロセス [全文訳有]

Projection: A Mixed-Initiative Research Process ( http://arxiv.org/abs/2201.03107v1 )

ライセンス: CC BY 4.0
Austin Silveria(参考訳) 人間と機械間の密な情報の通信は、比較的低帯域幅である。 現代の検索システムやレコメンダシステムの多くは、機械学習ブラックボックスとして動作し、情報の表現方法や、特定のアクションを取る理由に関する洞察をほとんど与えていない。 研究プロセスを通じて人間と機械間の通信の帯域幅を増やすことを目的とした複合開始インタフェースであるProjectionを提案する。 このインターフェースは、階層的クラスタリングや空間投影といった手法で、情報の検索と視覚化にコンテキストを追加することをサポートする。 潜在的な顧客は、研究の概要と検索プロセスを統合することに興味を示し、検索を階層的に構成し、関連する知識空間の可視化を支援することができる。

Communication of dense information between humans and machines is relatively low bandwidth. Many modern search and recommender systems operate as machine learning black boxes, giving little insight as to how they represent information or why they take certain actions. We present Projection, a mixed-initiative interface that aims to increase the bandwidth of communication between humans and machines throughout the research process. The interface supports adding context to searches and visualizing information in multiple dimensions with techniques such as hierarchical clustering and spatial projections. Potential customers have shown interest in the application integrating their research outlining and search processes, enabling them to structure their searches in hierarchies, and helping them visualize related spaces of knowledge.
翻訳日:2022-01-12 00:49:54 公開日:2022-01-09
# (参考訳) BERTに基づく言語フレームワークを用いたBhagavad Gita翻訳のセマンティックおよび感情分析 [全文訳有]

Semantic and sentiment analysis of selected Bhagavad Gita translations using BERT-based language framework ( http://arxiv.org/abs/2201.03115v1 )

ライセンス: CC BY 4.0
Rohitash Chandra, Venkatesh Kulkarni(参考訳) 歌や詩の翻訳がリズムや韻律のパターンを損なうだけでなく、意味的な情報を失うことも知られている。 バガヴァド・ギタ(bhagavad gita)は、元々サンスクリットで書かれた古代ヒンドゥー教の哲学書で、マハバラータ戦争以前のクリシュナとアルジュナの会話を特徴としている。 Bhagavad Gitaはヒンドゥー教における重要な聖典の1つであり、ヒンドゥー教のヴェーディック・コーパスの最前線として知られている。 この2世紀、西洋の学者はヒンドゥー教哲学に多くの関心を寄せており、したがってバガヴァド・ギタは多くの言語に翻訳されている。 しかし、英語の翻訳の質を評価する研究はあまりない。 ディープラーニングを利用した言語モデルの最近の進歩は、翻訳だけでなく、意味や感情分析による言語やテキストの理解を深めている。 我々の研究は、ディープラーニングによる言語モデルの最近の進歩に動機づけられている。 本稿では,Bhagavad Gitaから選択された翻訳(主にサンスクリット語から英語)を,意味分析と感情分析を用いて比較する。 我々は,textit{bidirectional encoder representations from transformers} (bert)として知られる,最先端のディープラーニングに基づく言語モデルのチューニングに手ラベル付き感情データセットを使用する。 我々は,新しい文埋め込みモデルを用いて,選択された章や句の意味分析を行う。 最後に,上述のモデルを用いて感情分析と意味分析を行い,結果の可視化を行う。 以上の結果から,各Bhagavad Gita翻訳の文体や語彙は様々であるが,感情分析や意味的類似性は,伝達されたメッセージが翻訳全体でほぼ類似していることを示している。

It is well known that translations of songs and poems not only breaks rhythm and rhyming patterns, but also results in loss of semantic information. The Bhagavad Gita is an ancient Hindu philosophical text originally written in Sanskrit that features a conversation between Lord Krishna and Arjuna prior to the Mahabharata war. The Bhagavad Gita is also one of the key sacred texts in Hinduism and known as the forefront of the Vedic corpus of Hinduism. In the last two centuries, there has been a lot of interest in Hindu philosophy by western scholars and hence the Bhagavad Gita has been translated in a number of languages. However, there is not much work that validates the quality of the English translations. Recent progress of language models powered by deep learning has enabled not only translations but better understanding of language and texts with semantic and sentiment analysis. Our work is motivated by the recent progress of language models powered by deep learning methods. In this paper, we compare selected translations (mostly from Sanskrit to English) of the Bhagavad Gita using semantic and sentiment analyses. We use hand-labelled sentiment dataset for tuning state-of-art deep learning-based language model known as \textit{bidirectional encoder representations from transformers} (BERT). We use novel sentence embedding models to provide semantic analysis for selected chapters and verses across translations. Finally, we use the aforementioned models for sentiment and semantic analyses and provide visualisation of results. Our results show that although the style and vocabulary in the respective Bhagavad Gita translations vary widely, the sentiment analysis and semantic similarity shows that the message conveyed are mostly similar across the translations.
翻訳日:2022-01-12 00:44:10 公開日:2022-01-09
# MAXIM:画像処理のためのマルチ軸MLP

MAXIM: Multi-Axis MLP for Image Processing ( http://arxiv.org/abs/2201.02973v1 )

ライセンス: Link先を確認
Zhengzhong Tu, Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar, Alan Bovik, Yinxiao Li(参考訳) トランスフォーマーと多層パーセプトロン(MLP)モデルの最近の進歩は、コンピュータビジョンタスクのための新しいネットワークアーキテクチャ設計を提供する。 これらのモデルは、画像認識などの多くの視覚タスクにおいて有効であることが証明されたが、低レベルの視覚に適応する上ではまだ課題がある。 高解像度画像をサポートする柔軟性の欠如と局所的注意の限界は、おそらく画像復元にトランスフォーマーとmlpを使用する主なボトルネックである。 本研究では,画像処理タスクにおいて,効率よく柔軟な汎用視覚バックボーンとして機能する,MAXIMと呼ばれるマルチ軸MLPアーキテクチャを提案する。 MAXIMはUNet型の階層構造を使用し、空間的にゲートされたMLPによって可能となる長距離相互作用をサポートする。 具体的には、MLPベースのビルディングブロックとして、局所的およびグローバルな視覚的手がかりの効率的でスケーラブルな空間混合を可能にする多軸ゲートMLPと、クロスアテンションに代わるクロスアテンションブロックがある。 どちらのモジュールもmlpのみに基づいているが、画像処理に望ましい2つの特性であるglobalと‘fully-convolutional’の両方のメリットがある。 広範な実験結果から,提案手法は,デノイジング,デブラリング,デヘイジング,デヘイジング,エンハンスメントなど,さまざまな画像処理タスクにおいて10以上のベンチマークで最先端のパフォーマンスを達成でき,かつ,競合モデルに比べてパラメータやフロップ数が少なくなることを示した。

Recent progress on Transformers and multi-layer perceptron (MLP) models provide new network architectural designs for computer vision tasks. Although these models proved to be effective in many vision tasks such as image recognition, there remain challenges in adapting them for low-level vision. The inflexibility to support high-resolution images and limitations of local attention are perhaps the main bottlenecks for using Transformers and MLPs in image restoration. In this work we present a multi-axis MLP based architecture, called MAXIM, that can serve as an efficient and flexible general-purpose vision backbone for image processing tasks. MAXIM uses a UNet-shaped hierarchical structure and supports long-range interactions enabled by spatially-gated MLPs. Specifically, MAXIM contains two MLP-based building blocks: a multi-axis gated MLP that allows for efficient and scalable spatial mixing of local and global visual cues, and a cross-gating block, an alternative to cross-attention, which accounts for cross-feature mutual conditioning. Both these modules are exclusively based on MLPs, but also benefit from being both global and `fully-convolutional& #x27;, two properties that are desirable for image processing. Our extensive experimental results show that the proposed MAXIM model achieves state-of-the-art performance on more than ten benchmarks across a range of image processing tasks, including denoising, deblurring, deraining, dehazing, and enhancement while requiring fewer or comparable numbers of parameters and FLOPs than competitive models.
翻訳日:2022-01-11 17:40:41 公開日:2022-01-09
# 視覚変換器を用いた合成InSARの授業試作

Learning class prototypes from Synthetic InSAR with Vision Transformers ( http://arxiv.org/abs/2201.03016v1 )

ライセンス: Link先を確認
Nikolaos Ioannis Bountos, Dimitrios Michail, Ioannis Papoutsis(参考訳) InSAR(Interferometri c Synthetic Aperture Radar)データによる噴火前の火山活動の早期の兆候の検出は,火山の危険性を評価する上で重要である。 本研究では,これをinsar画像の2次分類問題として扱うとともに,合成生成インターフェログラムの豊富な情報源を利用して,実際のインターフェログラムで等しく機能する品質分類器を訓練する新しい深層学習手法を提案する。 問題の非バランス性は、桁違いに少ない正のサンプルと、ラベル付きInSARデータによるキュレートされたデータベースの欠如と相まって、従来のディープラーニングアーキテクチャにとって難しい課題となっている。 本稿では,視覚トランスフォーマーを用いた合成データからクラスプロトタイプを学習する,ドメイン適応のための新しいフレームワークを提案する。 本報告では, 火山変動検出技術に勝る検出精度について報告する。 さらに、この知識に基づいて学習した表現とプロトタイプ空間の間の新しい非線形投影を学習し、ラベルのない実InSARデータセットからモデルが生成した擬似ラベルを用いて構築した。 これにより、テストセットに97.1%の精度で新しい最先端技術がもたらされます。 本手法のロバスト性は,上層トランスフォーマ-プロトタイプモデルから生成された擬似ラベルを用いた,ラベル付き実insarデータセット上で,単純なresnet-18畳み込みニューラルネットワークをトレーニングすることで実証する。 提案手法は,サンプルを手作業でラベル付けする必要なしに性能を大幅に向上させ,各種リモートセンシングアプリケーションにおける合成insarデータのさらなる活用に向けた道を開く。

The detection of early signs of volcanic unrest preceding an eruption, in the form of ground deformation in Interferometric Synthetic Aperture Radar (InSAR) data is critical for assessing volcanic hazard. In this work we treat this as a binary classification problem of InSAR images, and propose a novel deep learning methodology that exploits a rich source of synthetically generated interferograms to train quality classifiers that perform equally well in real interferograms. The imbalanced nature of the problem, with orders of magnitude fewer positive samples, coupled with the lack of a curated database with labeled InSAR data, sets a challenging task for conventional deep learning architectures. We propose a new framework for domain adaptation, in which we learn class prototypes from synthetic data with vision transformers. We report detection accuracy that surpasses the state of the art on volcanic unrest detection. Moreover, we built upon this knowledge by learning a new, non-linear, projection between the learnt representations and prototype space, using pseudo labels produced by our model from an unlabeled real InSAR dataset. This leads to the new state of the art with $97.1%$ accuracy on our test set. We demonstrate the robustness of our approach by training a simple ResNet-18 Convolutional Neural Network on the unlabeled real InSAR dataset with pseudo-labels generated from our top transformer-prototyp e model. Our methodology provides a significant improvement in performance without the need of manually labeling any sample, opening the road for further exploitation of synthetic InSAR data in various remote sensing applications.
翻訳日:2022-01-11 17:40:14 公開日:2022-01-09
# スムーズネステッドシミュレーション:高次元における立方体および正方形根収束率のブリッジング

Smooth Nested Simulation: Bridging Cubic and Square Root Convergence Rates in High Dimensions ( http://arxiv.org/abs/2201.02958v1 )

ライセンス: Link先を確認
Wenjia Wang and Yanyuan Wang and Xiaowei Zhang(参考訳) ネステッドシミュレーションは、条件付き期待関数をシミュレーションによって推定する。 本稿では,条件付き期待の滑らかさを多次元条件付き変数の関数として活用するために,カーネルリッジ回帰に基づく新しい手法を提案する。 漸近解析により,条件付き期待値が十分滑らかであれば,シミュレーション予算の増加に伴う収束率の次元性の呪いを効果的に緩和できることを示した。 滑らかさは、立方根収束率(つまり、標準ネストシミュレーションの最適速度)と平方根収束率(つまり標準モンテカルロシミュレーションの標準速度)の間のギャップを橋渡しする。 ポートフォリオリスク管理と入力不確実性定量化の数値例を用いて,提案手法の性能を示す。

Nested simulation concerns estimating functionals of a conditional expectation via simulation. In this paper, we propose a new method based on kernel ridge regression to exploit the smoothness of the conditional expectation as a function of the multidimensional conditioning variable. Asymptotic analysis shows that the proposed method can effectively alleviate the curse of dimensionality on the convergence rate as the simulation budget increases, provided that the conditional expectation is sufficiently smooth. The smoothness bridges the gap between the cubic root convergence rate (that is, the optimal rate for the standard nested simulation) and the square root convergence rate (that is, the canonical rate for the standard Monte Carlo simulation). We demonstrate the performance of the proposed method via numerical examples from portfolio risk management and input uncertainty quantification.
翻訳日:2022-01-11 17:35:36 公開日:2022-01-09
# エコー状態ネットワークを用いたスパース時系列データからの因果発見

Causal Discovery from Sparse Time-Series Data Using Echo State Network ( http://arxiv.org/abs/2201.02933v1 )

ライセンス: Link先を確認
Haonan Chen (1), Bo Yuan Chang (1), Mohamed A. Naiel1 (1), Georges Younes (1), Steven Wardell (2), Stan Kleinikkink (2), John S. Zelek (1) ((1) University of Waterloo, (2) ATS Automation)(参考訳) 時系列データの集合間の因果発見は、症状の原因を診断し、障害が発生する前に障害を予防するのに役立つ。 しかし、特にデータ取得率のばらつき(一様でないデータサンプリング)や欠落したデータポイント(スパースデータサンプリングなど)が存在する場合、信頼できる因果発見は非常に困難である。 これらの問題に対処するために,第1部はガウス過程の回帰によって欠落したデータを満たし,第2部は,因果発見のための貯水池コンピュータ(カオスシステムモデリング)の一種であるエコー状態ネットワークを活用する,という2つの部分からなる新しいシステムを提案した。 We evaluate the performance of our proposed system against three other off-the-shelf causal discovery algorithms, namely, structural expectation-maximiza tion, sub-sampled linear auto-regression absolute coefficients, and multivariate Granger Causality with vector auto-regressive using the Tennessee Eastman chemical dataset; we report on their corresponding Matthews Correlation Coefficient(MCC) and Receiver Operating Characteristic curves (ROC) and show that the proposed system outperforms existing algorithms, demonstrating the viability of our approach to discover causal relationships in a complex system with missing entries.

Causal discovery between collections of time-series data can help diagnose causes of symptoms and hopefully prevent faults before they occur. However, reliable causal discovery can be very challenging, especially when the data acquisition rate varies (i.e., non-uniform data sampling), or in the presence of missing data points (e.g., sparse data sampling). To address these issues, we proposed a new system comprised of two parts, the first part fills missing data with a Gaussian Process Regression, and the second part leverages an Echo State Network, which is a type of reservoir computer (i.e., used for chaotic system modeling) for Causal discovery. We evaluate the performance of our proposed system against three other off-the-shelf causal discovery algorithms, namely, structural expectation-maximiza tion, sub-sampled linear auto-regression absolute coefficients, and multivariate Granger Causality with vector auto-regressive using the Tennessee Eastman chemical dataset; we report on their corresponding Matthews Correlation Coefficient(MCC) and Receiver Operating Characteristic curves (ROC) and show that the proposed system outperforms existing algorithms, demonstrating the viability of our approach to discover causal relationships in a complex system with missing entries.
翻訳日:2022-01-11 17:33:24 公開日:2022-01-09
# 離散フーリエ変換の量子化雑音サンプルからの信号再構成

Signal Reconstruction from Quantized Noisy Samples of the Discrete Fourier Transform ( http://arxiv.org/abs/2201.03114v1 )

ライセンス: Link先を確認
Mohak Goyal and Animesh Kumar(参考訳) 本稿では,離散フーリエ変換(dft)の1ビットまたは2ビットノイズ観測から信号再構成のための2種類のアルゴリズムを提案する。 DFTの1ビット観測は実部の符号に対応し、DFTの2ビット観測は実部と虚部の両方の符号に対応している。 2d-dftの符号を用いて,画像の分析とシミュレーションに焦点をあてる。 この信号のクラスの選択は、この問題に関する以前の研究にインスパイアされている。 本アルゴリズムでは,信号再構成における平均二乗誤差(MSE)がサンプリングレートの逆数に漸近的に比例していることを示す。 サンプルは既知の分布のゼロ平均ノイズの影響を受けている。 本研究では,バナッハの不動点定理に基づく縮小写像を用いたアルゴリズムを設計することにより,この信号推定問題を解く。 提案アルゴリズムの有効性を示すために,4つのベンチマーク画像を用いた数値実験を行った。 PSNR、SSIM、ESSIM、MS-SSIMなどの画像再構成品質評価のための様々な指標が採用されている。 これら4つのベンチマーク画像において、我々のアルゴリズムはこれらの指標の最先端を著しく上回っている。

In this paper, we present two variations of an algorithm for signal reconstruction from one-bit or two-bit noisy observations of the discrete Fourier transform (DFT). The one-bit observations of the DFT correspond to the sign of its real part, whereas, the two-bit observations of the DFT correspond to the signs of both the real and imaginary parts of the DFT. We focus on images for analysis and simulations, thus using the sign of the 2D-DFT. This choice of the class of signals is inspired by previous works on this problem. For our algorithm, we show that the expected mean squared error (MSE) in signal reconstruction is asymptotically proportional to the inverse of the sampling rate. The samples are affected by additive zero-mean noise of known distribution. We solve this signal estimation problem by designing an algorithm that uses contraction mapping, based on the Banach fixed point theorem. Numerical tests with four benchmark images are provided to show the effectiveness of our algorithm. Various metrics for image reconstruction quality assessment such as PSNR, SSIM, ESSIM, and MS-SSIM are employed. On all four benchmark images, our algorithm outperforms the state-of-the-art in all of these metrics by a significant margin.
翻訳日:2022-01-11 17:30:18 公開日:2022-01-09
# 安定画像再構成のための全変動最小化の強化

Enhanced total variation minimization for stable image reconstruction ( http://arxiv.org/abs/2201.02979v1 )

ライセンス: Link先を確認
Congpei An, Hao-Ning Wu, Xiaoming Yuan(参考訳) 総変動(tv)の正則化は、画像処理タスクの様々な変動モデルを大きく高めている。 画像強調の初期文献における後方拡散過程とテレビの正則化を組み合わせることにより,テレビ正則化を用いたモデルが遭遇するコントラスト損失の低減に,テレビの最小化モデルが特に有効であることを示す。 非適応線形測定と可変密度サンプルフーリエ測定を考慮し,ノイズサブサンプリング測定から拡張tvモデルの安定な再構成保証を確立する。 特に、いくつかの制限された等尺的特性条件下では、拡張されたテレビの最小化モデルは、ノイズのレベルが重要で測定量が制限されるシナリオにおいて、様々なテレビベースのモデルよりも厳密な再構成誤差を持つ。 拡張テレビモデルの利点は、いくつかの合成、自然、医療画像の再構成に関する予備的な実験によって数値的に検証される。

The total variation (TV) regularization has phenomenally boosted various variational models for image processing tasks. We propose combining the backward diffusion process in the earlier literature of image enhancement with the TV regularization and show that the resulting enhanced TV minimization model is particularly effective for reducing the loss of contrast, which is often encountered by models using the TV regularization. We establish stable reconstruction guarantees for the enhanced TV model from noisy subsampled measurements; non-adaptive linear measurements and variable-density sampled Fourier measurements are considered. In particular, under some weaker restricted isometry property conditions, the enhanced TV minimization model is shown to have tighter reconstruction error bounds than various TV-based models for the scenario where the level of noise is significant and the amount of measurements is limited. The advantages of the enhanced TV model are also numerically validated by preliminary experiments on the reconstruction of some synthetic, natural, and medical images.
翻訳日:2022-01-11 17:26:46 公開日:2022-01-09
# 乳癌治療のオープンセット認識

Open-Set Recognition of Breast Cancer Treatments ( http://arxiv.org/abs/2201.02923v1 )

ライセンス: Link先を確認
Alexander Cao, Diego Klabjan and Yuan Luo(参考訳) オープンセット認識は、テストサンプルをトレーニングや"未知"から既知のクラスの1つに分類することで、分類タスクを一般化する。 治療の改善を伴う新規ながん薬物カクテルが継続的に発見されるため、がん治療の予測は、オープンセット認識問題の観点から自然に定式化することができる。 トレーニング中に未知のサンプルをモデル化することによる欠点は、医療のオープンセット学習における事前作業の直接的な実装から生じる。 そこで我々は,問題方法論を再構成し,画像データセットの最先端結果が得られるガウス混合変分オートエンコーダモデルを乳癌患者データに適用した。 より正確でロバストな分類結果が得られ,F1の平均値が24.5%上昇したばかりでなく,臨床環境への展開性の観点からも,オープンセット認識の再検討を行った。

Open-set recognition generalizes a classification task by classifying test samples as one of the known classes from training or "unknown." As novel cancer drug cocktails with improved treatment are continually discovered, predicting cancer treatments can naturally be formulated in terms of an open-set recognition problem. Drawbacks, due to modeling unknown samples during training, arise from straightforward implementations of prior work in healthcare open-set learning. Accordingly, we reframe the problem methodology and apply a recent existing Gaussian mixture variational autoencoder model, which achieves state-of-the-art results for image datasets, to breast cancer patient data. Not only do we obtain more accurate and robust classification results, with a 24.5% average F1 increase compared to a recent method, but we also reexamine open-set recognition in terms of deployability to a clinical setting.
翻訳日:2022-01-11 16:51:25 公開日:2022-01-09
# TPAD:軌道異常検出モデルによる効果的な軌道予測の同定

TPAD: Identifying Effective Trajectory Predictions Under the Guidance of Trajectory Anomaly Detection Model ( http://arxiv.org/abs/2201.02941v1 )

ライセンス: Link先を確認
Chunnan Wang, Chen Liang, Xiang Chen and Hongzhi Wang(参考訳) 軌道予測(TP)はコンピュータビジョンとロボティクス分野における重要な研究課題である。 近年、この問題に対処するために多くの確率的TPモデルが提案され、決定論的軌道出力を持つ従来のモデルよりも優れた性能を実現している。 しかし、これらの確率モデルは様々な性質を持つ将来の軌道を生成することができる。 自己評価能力の欠如、すなわち、予測結果の合理性を調べるため、ユーザの候補結果から高品質なものを識別する指針を欠いている。 これにより、実際のアプリケーションで最善を尽くすのを妨げる。 本稿では,この欠陥を補足し,軌道異常検出(AD)技術に基づく新しいTP評価手法であるTPADを提案する。 TPADでは、まず自動機械学習(Automated Machine Learning, AutoML)技術とADおよびTPフィールドの経験を組み合わせて、効果的なADモデルを自動的に設計する。 次に,学習軌跡ADモデルを用いて,予測軌跡の合理性を検証し,ユーザにとってよいTP結果を確認する。 広範な実験結果から, TPAD は確率的 TP モデルの実用的応用効果を向上させることにより, 近似予測結果を効果的に同定できることが示されている。

Trajectory Prediction (TP) is an important research topic in computer vision and robotics fields. Recently, many stochastic TP models have been proposed to deal with this problem and have achieved better performance than the traditional models with deterministic trajectory outputs. However, these stochastic models can generate a number of future trajectories with different qualities. They are lack of self-evaluation ability, that is, to examine the rationality of their prediction results, thus failing to guide users to identify high-quality ones from their candidate results. This hinders them from playing their best in real applications. In this paper, we make up for this defect and propose TPAD, a novel TP evaluation method based on the trajectory Anomaly Detection (AD) technique. In TPAD, we firstly combine the Automated Machine Learning (AutoML) technique and the experience in the AD and TP field to automatically design an effective trajectory AD model. Then, we utilize the learned trajectory AD model to examine the rationality of the predicted trajectories, and screen out good TP results for users. Extensive experimental results demonstrate that TPAD can effectively identify near-optimal prediction results, improving stochastic TP models' practical application effect.
翻訳日:2022-01-11 16:51:10 公開日:2022-01-09
# 高性能ソーラーシェーディング設計のためのハイブリッド機械学習・最適化ツールの開発

Development of a hybrid machine-learning and optimization tool for performance-based solar shading design ( http://arxiv.org/abs/2201.03028v1 )

ライセンス: Link先を確認
Maryam Daneshi, Reza Taghavi Fard, Zahra Sadat Zomorodian, Mohammad Tahsildoost(参考訳) ソーラーシェーディング設計は、初期の設計段階で望ましい室内環境品質(IEQ)のために行われるべきである。 この分野は非常に困難で、時間を要するため、専門家や高度なソフトウェア、大量のお金も必要です。 本研究の主な目的は、太陽シェーディングの様々なモデルを研究するための簡単なツールを設計し、早期に意思決定を容易かつ迅速にすることである。 この目標を達成するために、データベース生成方法、人工知能、最適化が使われている。 このツールは2つの主要な部分を含んでいる 1 有効パラメータの提案とともに、ユーザ選択モデルの性能を予測すること 2. 最適な準備済みモデルをユーザに提案する。 この点に関して、当初は可変パラメータを持つサイドライト靴箱モデルがパラメトリックにモデル化され、5つの共通太陽遮蔽モデルが空間に適用された。 日陰と日陰のない状態のそれぞれについて、日光と輝き、視野、初期コストに関する指標をシミュレートした。 この研究で生成されたデータベースには、87912の代替品と、ニューラルネットワーク、ランダムフォレスト、サポートベクター回帰、k近接近傍など、最適化された機械学習モデルに導入された6つの計算指標が含まれている。 結果によると、最も正確かつ高速な推定モデルはRandom Forrestで、r2_scoreは0.967である。 1) 各シェーディングモデルに最も影響のあるパラメータと,それのない状態を特定するために感度分析を行った。 本解析では, 窓の向き, wwr, 室幅, 長さ, シェーディング深さなど, 最も有効なパラメータを識別した。 最後に,NSGA IIアルゴリズムを用いて機械学習モデルの推定関数を最適化することにより,約7300の最適モデルを同定した。 開発したツールは、各デザインの代替案を数秒以内で評価できる。

Solar shading design should be done for the desired Indoor Environmental Quality (IEQ) in the early design stages. This field can be very challenging and time-consuming also requires experts, sophisticated software, and a large amount of money. The primary purpose of this research is to design a simple tool to study various models of solar shadings and make decisions easier and faster in the early stages. Database generation methods, artificial intelligence, and optimization have been used to achieve this goal. This tool includes two main parts of 1. predicting the performance of the user-selected model along with proposing effective parameters and 2. proposing optimal pre-prepared models to the user. In this regard, initially, a side-lit shoebox model with variable parameters was modeled parametrically, and five common solar shading models with their variables were applied to the space. For each solar shadings and the state without shading, metrics related to daylight and glare, view, and initial costs were simulated. The database generated in this research includes 87912 alternatives and six calculated metrics introduced to optimized machine learning models, including neural network, random Forrest, support vector regression, and k nearest neighbor. According to the results, the most accurate and fastest estimation model was Random Forrest, with an r2_score of 0.967 to 1. Then, sensitivity analysis was performed to identify the most influential parameters for each shading model and the state without it. This analysis distinguished the most effective parameters, including window orientation, WWR, room width, length, and shading depth. Finally, by optimizing the estimation function of machine learning models with the NSGA II algorithm, about 7300 optimal models were identified. The developed tool can evaluate various design alternatives in less than a few seconds for each.
翻訳日:2022-01-11 16:50:49 公開日:2022-01-09
# 人工知能の安全性のための高信頼性エージェント設計の課題

Arguments about Highly Reliable Agent Designs as a Useful Path to Artificial Intelligence Safety ( http://arxiv.org/abs/2201.02950v1 )

ライセンス: Link先を確認
Issa Rice, David Manheim(参考訳) 将来のトランスフォーメーション人工知能(tai)やasi(artificial superintelligence)システムの安全性を確保するために、いくつかの異なるアプローチが存在しており、異なるアプローチの支持者は、近未来における彼らの仕事の重要性や有用性、将来のシステムについて異論を唱えている。 高い信頼性を持つエージェントデザイン(hrad)は、マシンインテリジェンス研究所などによって提唱された最も議論の的となっている野心的なアプローチの1つであり、将来のaiシステムからリスクを低減させるかどうかについて様々な議論がなされている。 AIの安全性に関する議論の混乱を軽減するため、ここでは、AIシステムの安全性への道筋としてHRADを正当化するために使用される4つの中心的な議論を集め、提示するライスによる以前の議論に基づいて構築する。 我々は,(1)付随効用,(2)脱融合,(3)正確な仕様,(4)予測の議論をタイトルにした。 これらのそれぞれが、将来のAIシステムがいかに危険であるかについて、部分的に矛盾する主張をしている。 我々は,出版文献と非公式文献のレビューと,その話題に関する立場を述べた専門家との相談に基づいて,仮定と主張を説明してきた。 最後に,それぞれのアプローチに対する議論と,アジェンダ全体に対する議論を概説した。

Several different approaches exist for ensuring the safety of future Transformative Artificial Intelligence (TAI) or Artificial Superintelligence (ASI) systems, and proponents of different approaches have made different and debated claims about the importance or usefulness of their work in the near term, and for future systems. Highly Reliable Agent Designs (HRAD) is one of the most controversial and ambitious approaches, championed by the Machine Intelligence Research Institute, among others, and various arguments have been made about whether and how it reduces risks from future AI systems. In order to reduce confusion in the debate about AI safety, here we build on a previous discussion by Rice which collects and presents four central arguments which are used to justify HRAD as a path towards safety of AI systems. We have titled the arguments (1) incidental utility,(2) deconfusion, (3) precise specification, and (4) prediction. Each of these makes different, partly conflicting claims about how future AI systems can be risky. We have explained the assumptions and claims based on a review of published and informal literature, along with consultation with experts who have stated positions on the topic. Finally, we have briefly outlined arguments against each approach and against the agenda overall.
翻訳日:2022-01-11 16:47:51 公開日:2022-01-09
# Box2Seg: Box-Level Supervisionで3Dポイントクラウドのセマンティックスを学ぶ

Box2Seg: Learning Semantics of 3D Point Clouds with Box-Level Supervision ( http://arxiv.org/abs/2201.02963v1 )

ライセンス: Link先を確認
Yan Liu, Qingyong Hu, Yinjie Lei, Kai Xu, Jonathan Li and Yulan Guo(参考訳) ラベルが少ない非構造化3次元点雲から密接なポイントワイズセマンティクスを学ぶことは現実的な問題であるが、文献では過小評価されている。 既存の弱教師付き手法は少数のポイントレベルのアノテーションで意味学を効果的に学習できるが、バニラ境界ボックスレベルのアノテーションは大規模3Dポイントクラウドのセマンティックセグメンテーションにも有用である。 本稿では,3次元点雲の点レベルのセマンティクスをバウンディングボックスレベルの監視で学習するための,Box2Segと呼ばれるニューラルアーキテクチャを提案する。 提案手法の鍵は,各境界箱の内外における幾何学的および位相的構造を探索することにより,正確な擬似ラベルを生成することである。 具体的には、注目に基づく自己学習(AST)技術とポイントクラス活性化マッピング(PCAM)を用いて擬似ラベルを推定する。 ネットワークはさらに訓練され、擬似ラベルで洗練されている。 S3DISとScanNetを含む2つの大規模ベンチマーク実験により,提案手法の競合性能が示された。 特に、提案されたネットワークは、安価、あるいは市販のボックスレベルのアノテーションとサブクラウドレベルのタグでトレーニングすることができる。

Learning dense point-wise semantics from unstructured 3D point clouds with fewer labels, although a realistic problem, has been under-explored in literature. While existing weakly supervised methods can effectively learn semantics with only a small fraction of point-level annotations, we find that the vanilla bounding box-level annotation is also informative for semantic segmentation of large-scale 3D point clouds. In this paper, we introduce a neural architecture, termed Box2Seg, to learn point-level semantics of 3D point clouds with bounding box-level supervision. The key to our approach is to generate accurate pseudo labels by exploring the geometric and topological structure inside and outside each bounding box. Specifically, an attention-based self-training (AST) technique and Point Class Activation Mapping (PCAM) are utilized to estimate pseudo-labels. The network is further trained and refined with pseudo labels. Experiments on two large-scale benchmarks including S3DIS and ScanNet demonstrate the competitive performance of the proposed method. In particular, the proposed network can be trained with cheap, or even off-the-shelf bounding box-level annotations and subcloud-level tags.
翻訳日:2022-01-11 16:04:40 公開日:2022-01-09
# MaskMTL:深層マルチタスク学習によるマスク付き顔画像の属性予測

MaskMTL: Attribute prediction in masked facial images with deep multitask learning ( http://arxiv.org/abs/2201.03002v1 )

ライセンス: Link先を確認
Prerana Mukherjee, Vinay Kaushik, Ronak Gupta, Ritika Jha, Daneshwari Kankanwadi, and Brejesh Lall(参考訳) 目印の自由な顔画像の属性を予測することは、マスクの使用によって顔が目立たなくなるとさらに複雑になる課題である。 身元確認や個人情報へのセキュアなログインを利用するスマートアクセス制御ゲートは、生体認証特性として顔を利用することができる。 特に、Covid-19パンデミックは、衛生的および接触のない身元確認の重要性をますます証明している。 このような場合、マスクの使用はより避けられないものとなり、属性予測は、コミュニティの広がりからターゲットの脆弱なグループを分離したり、共同環境での社会的距離を確保するのに役立つ。 マスクの形状,大きさ,テクスチャの異なるマスクを効率的にオーバーレイすることで,マスクの装着による変動を効果的にモデル化する。 本稿では,マスク付き顔画像から多種多様な属性を同時推定する深層マルチタスク学習(MTL)手法を提案する。 ベンチマーク顔属性UTKFaceデータセットの実験結果から,提案手法が他の競合技術に取って代わることを示す。

Predicting attributes in the landmark free facial images is itself a challenging task which gets further complicated when the face gets occluded due to the usage of masks. Smart access control gates which utilize identity verification or the secure login to personal electronic gadgets may utilize face as a biometric trait. Particularly, the Covid-19 pandemic increasingly validates the essentiality of hygienic and contactless identity verification. In such cases, the usage of masks become more inevitable and performing attribute prediction helps in segregating the target vulnerable groups from community spread or ensuring social distancing for them in a collaborative environment. We create a masked face dataset by efficiently overlaying masks of different shape, size and textures to effectively model variability generated by wearing mask. This paper presents a deep Multi-Task Learning (MTL) approach to jointly estimate various heterogeneous attributes from a single masked facial image. Experimental results on benchmark face attribute UTKFace dataset demonstrate that the proposed approach supersedes in performance to other competing techniques.
翻訳日:2022-01-11 16:03:20 公開日:2022-01-09
# ThreshNet:Thresholdメカニズムによるコネクション削減による効率的なDenseNet

ThreshNet: An Efficient DenseNet using Threshold Mechanism to Reduce Connections ( http://arxiv.org/abs/2201.03013v1 )

ライセンス: Link先を確認
Rui-Yang Ju, Ting-Yu Lin, Jia-Hao Jian, Jen-Shiun Chiang, Wei-Bin Yang(参考訳) コンピュータビジョンタスクにおけるニューラルネットワークの継続的な開発により、ますます多くのネットワークアーキテクチャが大きな成功を収めている。 最も先進的なニューラルネットワークアーキテクチャの1つとして、DenseNetはモデル深さの問題を解決するために、すべてのフィーチャーマップをショートカットする。 このネットワークアーキテクチャは、低いMAC(乗算と累積)で優れた精度を持つが、過剰な推論時間を要する。 この問題を解決するため、HarDNetは特徴マップ間の接続を削減し、残りの接続は調和波に似ている。 しかし、この圧縮手法はモデル精度を低下させ、MACとモデルサイズを増大させる可能性がある。 このネットワークアーキテクチャはメモリアクセス時間を短縮するだけでなく、全体的なパフォーマンスも改善する必要がある。 そこで本稿では,接続方法をさらに最適化するためのしきい値機構を用いた新しいネットワークアーキテクチャを提案する。 異なる畳み込み層に対する異なる数の接続が破棄され、threshnet の機能マップが圧縮される。 提案したネットワークアーキテクチャでは,CIFAR-10,CIFAR-100, SVHNの3つのデータセットを用いて画像分類の性能評価を行った。 実験の結果,ThreshNetはDenseNetと比較して最大60%の推論時間を短縮し,トレーニング速度を最大35%高速化し,エラー率を20%削減した。

With the continuous development of neural networks in computer vision tasks, more and more network architectures have achieved outstanding success. As one of the most advanced neural network architectures, DenseNet shortcuts all feature maps to solve the problem of model depth. Although this network architecture has excellent accuracy at low MACs (multiplications and accumulations), it takes excessive inference time. To solve this problem, HarDNet reduces the connections between feature maps, making the remaining connections resemble harmonic waves. However, this compression method may result in decreasing model accuracy and increasing MACs and model size. This network architecture only reduces the memory access time, its overall performance still needs to be improved. Therefore, we propose a new network architecture using threshold mechanism to further optimize the method of connections. Different numbers of connections for different convolutional layers are discarded to compress the feature maps in ThreshNet. The proposed network architecture used three datasets, CIFAR-10, CIFAR-100, and SVHN, to evaluate the performance for image classifications. Experimental results show that ThreshNet achieves up to 60% reduction in inference time compared to DenseNet, and up to 35% faster training speed and 20% reduction in error rate compared to HarDNet on these datasets.
翻訳日:2022-01-11 16:03:01 公開日:2022-01-09
# Pose Disentanglementによる部分点雲からの自己教師付き特徴学習

Self-Supervised Feature Learning from Partial Point Clouds via Pose Disentanglement ( http://arxiv.org/abs/2201.03018v1 )

ライセンス: Link先を確認
Meng-Shiun Tsai, Pei-Ze Chiang, Yi-Hsuan Tsai, Wei-Chen Chiu(参考訳) ポイントクラウドタスクのラベル効率とドメインガップ問題に対処するため、ポイントクラウドでの自己教師あり学習が近年注目を集めている。 本稿では,部分点雲から情報表現を学習するための新しい自己教師型フレームワークを提案する。 コンテンツとポーズ属性の両方を含むlidarでスキャンされた部分的ポイントクラウドを活用することで,部分的ポイントクラウドからの2つの要素の分離が特徴表現学習を促進することを示す。 この目的のために、我々のフレームワークは3つの主要な部分から構成されている。 1) 点雲の全体論的意味を捉える補完ネットワーク 2) 部分データを走査する視角を理解するためのポーズ回帰ネットワーク 3) モデルがコンテンツやポーズの特徴を学習することを奨励する部分再構成ネットワーク。 学習した特徴表現の堅牢性を示すために,分類,部分分割,登録を含む下流タスクを,最先端の手法との比較で実施する。 提案手法は,既存の自己教師付き手法に勝るだけでなく,合成および実世界のデータセット間でのより優れた一般化性を示す。

Self-supervised learning on point clouds has gained a lot of attention recently, since it addresses the label-efficiency and domain-gap problems on point cloud tasks. In this paper, we propose a novel self-supervised framework to learn informative representations from partial point clouds. We leverage partial point clouds scanned by LiDAR that contain both content and pose attributes, and we show that disentangling such two factors from partial point clouds enhances feature representation learning. To this end, our framework consists of three main parts: 1) a completion network to capture holistic semantics of point clouds; 2) a pose regression network to understand the viewing angle where partial data is scanned from; 3) a partial reconstruction network to encourage the model to learn content and pose features. To demonstrate the robustness of the learnt feature representations, we conduct several downstream tasks including classification, part segmentation, and registration, with comparisons against state-of-the-art methods. Our method not only outperforms existing self-supervised methods, but also shows a better generalizability across synthetic and real-world datasets.
翻訳日:2022-01-11 16:02:39 公開日:2022-01-09
# ソフトアクタークリティカルに基づく適応型デバイスエッジ共推論フレームワーク

An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic ( http://arxiv.org/abs/2201.02968v1 )

ライセンス: Link先を確認
Tao Niu, Yinglei Teng, Zhu Han, Panpan Zou(参考訳) 近年,コンピュータビジョン (CV) や自然言語処理 (NLP) など多くの分野で,DNN(Deep Neural Network) の応用が注目されている。 しかし、特にIoT(Internet of Things)デバイスでは、高次元パラメータモデルと大規模数学的計算により実行効率が制限される。 従来のクラウド/エッジのみのパターンと異なり,通信負荷と実行精度のバランスのよいDNNモデルにおいて,デバイスとエッジ間の協調計算が強調される。 具体的には、トレーニング済みのAlexnetが \emph{early-exit} を通じて右にサイズされ、中間DNN層でパーティショニングされるマルチブランチ構造を利用するために、体系的なオンデマンドコ推論フレームワークを提案する。 整数量子化は送信ビットをさらに圧縮するために実行される。 その結果,離散的(SAC-d)のための新たなDeep Reinforcement Learning (DRL)オプティマイザ-Soft Actor Critic を確立し,ソフトポリシーの繰り返しによって \emph{exit point}, \emph{partition point}, \emph{compressing bits} を生成する。 レイテンシと精度を意識した報酬設計に基づいて、このようなオプティマイザは動的無線チャネルや任意のCPU処理のような複雑な環境によく適応でき、5G URLLCをサポートすることができる。 Raspberry Pi 4とPCの実際の実験では、提案されたソリューションの性能が向上している。

Recently, the applications of deep neural network (DNN) have been very prominent in many fields such as computer vision (CV) and natural language processing (NLP) due to its superior feature extraction performance. However, the high-dimension parameter model and large-scale mathematical calculation restrict the execution efficiency, especially for Internet of Things (IoT) devices. Different from the previous cloud/edge-only pattern that brings huge pressure for uplink communication and device-only fashion that undertakes unaffordable calculation strength, we highlight the collaborative computation between the device and edge for DNN models, which can achieve a good balance between the communication load and execution accuracy. Specifically, a systematic on-demand co-inference framework is proposed to exploit the multi-branch structure, in which the pre-trained Alexnet is right-sized through \emph{early-exit} and partitioned at an intermediate DNN layer. The integer quantization is enforced to further compress transmission bits. As a result, we establish a new Deep Reinforcement Learning (DRL) optimizer-Soft Actor Critic for discrete (SAC-d), which generates the \emph{exit point}, \emph{partition point}, and \emph{compressing bits} by soft policy iterations. Based on the latency and accuracy aware reward design, such an optimizer can well adapt to the complex environment like dynamic wireless channel and arbitrary CPU processing, and is capable of supporting the 5G URLLC. Real-world experiment on Raspberry Pi 4 and PC shows the outperformance of the proposed solution.
翻訳日:2022-01-11 15:41:03 公開日:2022-01-09
# 不均質データにおける柔軟判別分析によるロバスト分類

Robust classification with flexible discriminant analysis in heterogeneous data ( http://arxiv.org/abs/2201.02967v1 )

ライセンス: Link先を確認
Pierre Houdouin, Fr\'ed\'eric Pascal, Matthieu Jonckheere, Andrew Wang(参考訳) 線形および二次判別分析は古典的手法としてよく知られているが、非ガウス分布や汚染されたデータセットに悩まされることがある。 本稿では,このギャップを埋めるために,各データポイントを任意の楕円対称 (es) 分布と任意のスケールパラメータで描画する,新しいロバストな判別解析を提案する。 このようなモデルは、おそらく非常に異質で、独立で、特定されていない分散サンプルを可能にする。 新たな決定規則を導出した結果,最大類似度パラメータ推定と分類は非常に単純で高速で頑健であることが判明した。

Linear and Quadratic Discriminant Analysis are well-known classical methods but can heavily suffer from non-Gaussian distributions and/or contaminated datasets, mainly because of the underlying Gaussian assumption that is not robust. To fill this gap, this paper presents a new robust discriminant analysis where each data point is drawn by its own arbitrary Elliptically Symmetrical (ES) distribution and its own arbitrary scale parameter. Such a model allows for possibly very heterogeneous, independent but non-identically distributed samples. After deriving a new decision rule, it is shown that maximum-likelihood parameter estimation and classification are very simple, fast and robust compared to state-of-the-art methods.
翻訳日:2022-01-11 15:36:52 公開日:2022-01-09
# マシンバイアスの発生源を明らかにする

Uncovering the Source of Machine Bias ( http://arxiv.org/abs/2201.03092v1 )

ライセンス: Link先を確認
Xiyang Hu, Yan Huang, Beibei Li, Tian Lu(参考訳) オンラインマイクロレンディングプラットフォーム上で人間評価者の決定力学を捉える構造的計量モデルを構築し,実世界のデータセットを用いてモデルパラメータを推定する。 ジェンダーにおける2種類のバイアス(選好に基づくバイアスと信念に基づくバイアス)が、人間の評価者の決定に存在している。 どちらの種類の偏見も女性応募者に有利である。 反事実シミュレーションにより,企業や借主の貸付成果や福祉に対するジェンダーバイアスの効果を定量化する。 その結果,選好バイアスの存在と信念バイアスの存在の両方が企業の利益を減少させることが示唆された。 選好に基づくバイアスが取り除かれると、会社はより多くの利益を得る。 信念に基づく偏見が取り除かれると、会社の利益も増加する。 どちらも、最終的にローンを返済する借り手、特に男性借り手に対する承認確率を高める結果である。 借り手にとって、偏見の排除は信用リスク評価における正の正の男女差を減少させる。 また,実世界のデータと反事実シミュレーションのデータの両方で機械学習アルゴリズムをトレーニングする。 これらのアルゴリズムによる決定を比較し、評価者のバイアスがアルゴリズムによってどのように継承され、マシンベースの決定に反映されるかを確認する。 機械学習のアルゴリズムは、好みに基づくバイアスと信念に基づくバイアスの両方を軽減できる。

We develop a structural econometric model to capture the decision dynamics of human evaluators on an online micro-lending platform, and estimate the model parameters using a real-world dataset. We find two types of biases in gender, preference-based bias and belief-based bias, are present in human evaluators' decisions. Both types of biases are in favor of female applicants. Through counterfactual simulations, we quantify the effect of gender bias on loan granting outcomes and the welfare of the company and the borrowers. Our results imply that both the existence of the preference-based bias and that of the belief-based bias reduce the company's profits. When the preference-based bias is removed, the company earns more profits. When the belief-based bias is removed, the company's profits also increase. Both increases result from raising the approval probability for borrowers, especially male borrowers, who eventually pay back loans. For borrowers, the elimination of either bias decreases the gender gap of the true positive rates in the credit risk evaluation. We also train machine learning algorithms on both the real-world data and the data from the counterfactual simulations. We compare the decisions made by those algorithms to see how evaluators' biases are inherited by the algorithms and reflected in machine-based decisions. We find that machine learning algorithms can mitigate both the preference-based bias and the belief-based bias.
翻訳日:2022-01-11 15:36:40 公開日:2022-01-09
# 限られた訓練データを用いた画像分類のためのスライス・ワッサースタイン空間の不変符号化

Invariance encoding in sliced-Wasserstein space for image classification with limited training data ( http://arxiv.org/abs/2201.02980v1 )

ライセンス: Link先を確認
Mohammad Shifat-E-Rabbi, Yan Zhuang, Shiying Li, Abu Hasnat Mohammad Rubaiyat, Xuwang Yin, Gustavo K. Rohde(参考訳) deep convolutional neural networks (cnns) は最先端の汎用画像分類システムであると考えられている。 しかし、訓練データに制限がある場合には性能が低下することが知られており、そのため、計算コストが高く、必ずしも有効ではないデータ拡張戦略が必要である。 本稿では,最近導入された画像変換であるRandon Cumulative Distribution Transform (R-CDT) の数学的特性を利用して,スライス・ワッサーシュタイン空間における最も近い部分空間分類モデルを数学的に拡張することを提案する。 特定のタイプの学習問題に対して,我々の数学的解法は,分類精度と計算複雑性の観点から深層CNNによるデータ拡張よりも有利であり,特に限られた学習データ設定において有効であることを示す。 この方法は単純で効果的で、計算効率が良く、非定型であり、調整すべきパラメータは不要である。 このメソッドを実装するpythonコードは、https://github.com/r ohdelab/mathematical _augmentationで入手できる。 私たちのメソッドはPyTransKitの一部として統合されており、https://github.com/r ohdelab/PyTransKitで利用可能です。

Deep convolutional neural networks (CNNs) are broadly considered to be state-of-the-art generic end-to-end image classification systems. However, they are known to underperform when training data are limited and thus require data augmentation strategies that render the method computationally expensive and not always effective. Rather than using a data augmentation strategy to encode invariances as typically done in machine learning, here we propose to mathematically augment a nearest subspace classification model in sliced-Wasserstein space by exploiting certain mathematical properties of the Radon Cumulative Distribution Transform (R-CDT), a recently introduced image transform. We demonstrate that for a particular type of learning problem, our mathematical solution has advantages over data augmentation with deep CNNs in terms of classification accuracy and computational complexity, and is particularly effective under a limited training data setting. The method is simple, effective, computationally efficient, non-iterative, and requires no parameters to be tuned. Python code implementing our method is available at https://github.com/r ohdelab/mathematical _augmentation. Our method is integrated as a part of the software package PyTransKit, which is available at https://github.com/r ohdelab/PyTransKit.
翻訳日:2022-01-11 15:03:20 公開日:2022-01-09
# 顔認識システムに関する調査研究

A Survey on Face Recognition Systems ( http://arxiv.org/abs/2201.02991v1 )

ライセンス: Link先を確認
Jash Dalvi, Sanket Bafna, Devansh Bagaria, Shyamal Virnodkar(参考訳) 顔認識は最も成功した技術の1つであり、異種ドメインに影響を与えている。 深層学習はその畳み込みベースのアーキテクチャのため、コンピュータビジョンタスクで最も成功したことが証明されている。 ディープラーニングの出現以来、顔認識技術はその精度を大幅に向上させてきた。 本稿では,最も影響力のある顔認識システムについて検討した。 まず,一般的な顔認識システムの概要を紹介する。 第2に、調査では、さまざまなネットワークアーキテクチャと、大きな影響を与えたトレーニング損失をカバーしている。 最後に,顔認識システムの性能評価に使用される各種データベースについて述べる。

Face Recognition has proven to be one of the most successful technology and has impacted heterogeneous domains. Deep learning has proven to be the most successful at computer vision tasks because of its convolution-based architecture. Since the advent of deep learning, face recognition technology has had a substantial increase in its accuracy. In this paper, some of the most impactful face recognition systems were surveyed. Firstly, the paper gives an overview of a general face recognition system. Secondly, the survey covers various network architectures and training losses that have had a substantial impact. Finally, the paper talks about various databases that are used to evaluate the capabilities of a face recognition system.
翻訳日:2022-01-11 15:02:55 公開日:2022-01-09
# 相互情報最大化によるドメインプライベート表現の保存

Preserving Domain Private Representation via Mutual Information Maximization ( http://arxiv.org/abs/2201.03102v1 )

ライセンス: Link先を確認
Jiahong Chen, Jing Wang, Weipeng Lin, Kuangen Zhang, Clarence W. de Silva(参考訳) 教師なしドメイン適応の最近の進歩は、ドメイン不変表現を抽出することでドメインの分岐を緩和することで、ラベルなしデータドメインへのモデルの一般化を大幅に改善できることを示している。 しかしながら、既存のメソッドはラベル許容ドメインにプライベートな表現を効果的に保存できないため、一般化に悪影響を及ぼす可能性がある。 本稿では、ラベルなし領域の潜在分布が、ラベルなし領域にプライベートなドメイン不変特徴と個々の特徴の両方を表現することができるように、そのような表現を保存する手法を提案する。 特に,ラベルなし領域とその潜在空間間の相互情報を最大化し,領域の分岐を緩和することで,保存が可能となることを示す。 我々はまた、未ラベル領域にプライベートな表現を保存することが重要であり、クロスドメインの一般化の必要性を理論的かつ実証的に検証する。 我々の手法は、いくつかの公開データセット上で最先端の手法より優れている。

Recent advances in unsupervised domain adaptation have shown that mitigating the domain divergence by extracting the domain-invariant representation could significantly improve the generalization of a model to an unlabeled data domain. Nevertheless, the existing methods fail to effectively preserve the representation that is private to the label-missing domain, which could adversely affect the generalization. In this paper, we propose an approach to preserve such representation so that the latent distribution of the unlabeled domain could represent both the domain-invariant features and the individual characteristics that are private to the unlabeled domain. In particular, we demonstrate that maximizing the mutual information between the unlabeled domain and its latent space while mitigating the domain divergence can achieve such preservation. We also theoretically and empirically validate that preserving the representation that is private to the unlabeled domain is important and of necessity for the cross-domain generalization. Our approach outperforms state-of-the-art methods on several public datasets.
翻訳日:2022-01-11 15:02:47 公開日:2022-01-09
# フェデレーション学習における効率的なクライアント選択のためのマルチエージェント強化学習手法

A Multi-agent Reinforcement Learning Approach for Efficient Client Selection in Federated Learning ( http://arxiv.org/abs/2201.02932v1 )

ライセンス: Link先を確認
Sai Qian Zhang, Jieyu Lin, Qi Zhang(参考訳) Federated Learning(FL)は、クライアントデバイスが生データを公開せずに、ローカルに計算されたモデルを集約することで、共有モデルを共同で学習できるトレーニング技術である。 既存の作業の多くはflモデルの精度向上に重点を置いているが,本稿では,実世界のアプリケーションでflを採用する上でのハードルとなるトレーニング効率の向上に注目する。 具体的には,モデル精度,処理遅延,通信効率を共同で最適化した効率的なflフレームワークを設計した。 複雑な制御問題の解決におけるMARL(Multi-Agent Reinforcement Learning)の成功に触発されて,MARLベースのFLフレームワークである \textit{FedMarl} を提案する。 実験によると、FedMarlは処理遅延と通信コストを大幅に削減して、モデルの精度を大幅に改善できる。

Federated learning (FL) is a training technique that enables client devices to jointly learn a shared model by aggregating locally-computed models without exposing their raw data. While most of the existing work focuses on improving the FL model accuracy, in this paper, we focus on the improving the training efficiency, which is often a hurdle for adopting FL in real-world applications. Specifically, we design an efficient FL framework which jointly optimizes model accuracy, processing latency and communication efficiency, all of which are primary design considerations for real implementation of FL. Inspired by the recent success of Multi-Agent Reinforcement Learning (MARL) in solving complex control problems, we present \textit{FedMarl}, an MARL-based FL framework which performs efficient run-time client selection. Experiments show that FedMarl can significantly improve model accuracy with much lower processing latency and communication cost.
翻訳日:2022-01-11 14:50:11 公開日:2022-01-09
# 生成擬似リプレイによるロバストかつ資源効率のよいデータフリー知識蒸留

Robust and Resource-Efficient Data-Free Knowledge Distillation by Generative Pseudo Replay ( http://arxiv.org/abs/2201.03019v1 )

ライセンス: Link先を確認
Kuluhan Binici, Shivam Aggarwal, Nam Trung Pham, Karianto Leman, Tulika Mitra(参考訳) data-free knowledge distillation(kd)は、トレーニングされたニューラルネットワーク(教師)からよりコンパクトなもの(学生)への知識転送を可能にする。 既存の作業では、実データよりも学生の正確性を監視し、プロセス全体で最高のパフォーマンスを報告するために検証セットを使用している。 しかし、蒸留時にも検証データは入手できないため、ピーク精度を達成した学生スナップショットを記録することは不可能である。 したがって, 実効的なデータフリーKD法は, 蒸留時に単調に生徒の精度を向上させるのが理想である。 これは,合成データの分布変化による知識の低下を経験する学生にとって困難である。 この問題を解決するための簡単なアプローチは、生成されたサンプルを定期的に保存しリハーサルすることで、メモリフットプリントが増加し、プライバシの懸念が生まれます。 これまでに観測された合成試料の分布を生成ネットワークを用いてモデル化する。 特に,合成データ表現を最適に学習するためにカスタマイズされた学習目標を持つ変分オートエンコーダ(vae)を設計する。 学生は、VAEが作成したサンプルとともに、生成的擬似再生技術によってリハーサルされる。 したがって、サンプルを保存することなく知識劣化を防止することができる。 画像分類ベンチマーク実験により, 試料保存法で発生する大きなメモリオーバーヘッドを解消しつつ, 蒸留モデル精度の期待値の最適化を行った。

Data-Free Knowledge Distillation (KD) allows knowledge transfer from a trained neural network (teacher) to a more compact one (student) in the absence of original training data. Existing works use a validation set to monitor the accuracy of the student over real data and report the highest performance throughout the entire process. However, validation data may not be available at distillation time either, making it infeasible to record the student snapshot that achieved the peak accuracy. Therefore, a practical data-free KD method should be robust and ideally provide monotonically increasing student accuracy during distillation. This is challenging because the student experiences knowledge degradation due to the distribution shift of the synthetic data. A straightforward approach to overcome this issue is to store and rehearse the generated samples periodically, which increases the memory footprint and creates privacy concerns. We propose to model the distribution of the previously observed synthetic samples with a generative network. In particular, we design a Variational Autoencoder (VAE) with a training objective that is customized to learn the synthetic data representations optimally. The student is rehearsed by the generative pseudo replay technique, with samples produced by the VAE. Hence knowledge degradation can be prevented without storing any samples. Experiments on image classification benchmarks show that our method optimizes the expected value of the distilled model accuracy while eliminating the large memory overhead incurred by the sample-storing methods.
翻訳日:2022-01-11 14:49:54 公開日:2022-01-09
# 指数族ランゲヴィンダイナミクスのための安定性に基づく一般化境界

Stability Based Generalization Bounds for Exponential Family Langevin Dynamics ( http://arxiv.org/abs/2201.03064v1 )

ライセンス: Link先を確認
Arindam Banerjee, Tiancong Chen, Xinyan Li and Yingxue Zhou(参考訳) 確率的ミニバッチ反復アルゴリズムの一般化境界を安定性の概念に基づいて検討する。 近年、安定性(Mou et al., 2018; Li et al., 2020)と情報理論アプローチ(Xu and Raginsky, 2017; Negrea et al., 2019; Steinke and Zakynthinou, 2020; Haghifam et al., 2020)に基づく確率勾配ランゲヴィン力学(SGLD)のような、ノイズの多い反復学習アルゴリズムに対するデータ依存の一般化バウンダリが注目されている。 本稿では,安定性に基づく一般化境界を統一し,実質的に一般化し,3つの技術的進歩を行う。 まず,一般の確率的反復アルゴリズム(必ずしも勾配降下ではない)の一般化誤差を,(一様でない)安定性の観点から限定した。 期待される安定性は、le camスタイルの分岐によって境界づけられる。 そのような境界は O(1/n) のサンプル依存を持ち、O(1/\sqrt{n}) の依存を持つ多くの既存の境界とは異なっている。 第2に,SGLDの相当な一般化である指数型ファミリーランゲヴィンダイナミクス(EFLD)を導入し,確率勾配降下(SGD)で指数型ファミリーノイズを使用できることを示した。 我々は一般efldアルゴリズムのためのデータ依存期待安定性に基づく一般化境界を確立する。 第3に, EFLD の重要な特殊事例として, {-1,+1} 上のベルヌーイ雑音を用いて, 符号-SGD を拡張するノイズ符号-SGD を考える。 ノイズの多い符号-SGDの一般化境界はEFLDによって示され、アルゴリズムの最適化保証も確立する。 さらに、ベンチマークデータセットに実験結果を示し、我々の境界が既存の境界よりも非空で定量的にシャープであることを示す。

We study generalization bounds for noisy stochastic mini-batch iterative algorithms based on the notion of stability. Recent years have seen key advances in data-dependent generalization bounds for noisy iterative learning algorithms such as stochastic gradient Langevin dynamics (SGLD) based on stability (Mou et al., 2018; Li et al., 2020) and information theoretic approaches (Xu and Raginsky, 2017; Negrea et al., 2019; Steinke and Zakynthinou, 2020; Haghifam et al., 2020). In this paper, we unify and substantially generalize stability based generalization bounds and make three technical advances. First, we bound the generalization error of general noisy stochastic iterative algorithms (not necessarily gradient descent) in terms of expected (not uniform) stability. The expected stability can in turn be bounded by a Le Cam Style Divergence. Such bounds have a O(1/n) sample dependence unlike many existing bounds with O(1/\sqrt{n}) dependence. Second, we introduce Exponential Family Langevin Dynamics(EFLD) which is a substantial generalization of SGLD and which allows exponential family noise to be used with stochastic gradient descent (SGD). We establish data-dependent expected stability based generalization bounds for general EFLD algorithms. Third, we consider an important special case of EFLD: noisy sign-SGD, which extends sign-SGD using Bernoulli noise over {-1,+1}. Generalization bounds for noisy sign-SGD are implied by that of EFLD and we also establish optimization guarantees for the algorithm. Further, we present empirical results on benchmark datasets to illustrate that our bounds are non-vacuous and quantitatively much sharper than existing bounds.
翻訳日:2022-01-11 14:47:35 公開日:2022-01-09
# エッジデバイスにおける視線推定の実用化のためのカメラ位置の解決

Resolving Camera Position for a Practical Application of Gaze Estimation on Edge Devices ( http://arxiv.org/abs/2201.02946v1 )

ライセンス: Link先を確認
Linh Van Ma, Tin Trung Tran, Moongu Jeon(参考訳) Gazeの推定研究のほとんどは、カメラが完全に視線を捉えているという設定条件でのみ動作する。 彼らは、人の所定の位置にカメラを正しく設置する方法をリテラルで指定していない。 本稿では,論理的なカメラ設置位置を用いた視線推定について検討する。 さらに,現実的シナリオを用いた安価なエッジデバイスを用いて,本研究を実用化する。 つまり、最初にショッピング環境をセットアップし、顧客が見つめている行動を把握したいのです。 この設定は、既存の視線推定研究から推定精度を維持するために最適なカメラ位置を必要とする。 次に,数発学習視線推定の最先端技術を適用し,推定段階でのトレーニングサンプリングを削減した。 本実験では, NVIDIA Jetson TX2 に関する実装研究を行い, 視線推定精度の劣化を伴わずに, 基準作業よりも高速な 12 FPS を実現した。 ソースコードはhttps://github.com/l inh-gist/GazeEstimat ionTX2で公開されている。

Most Gaze estimation research only works on a setup condition that a camera perfectly captures eyes gaze. They have not literarily specified how to set up a camera correctly for a given position of a person. In this paper, we carry out a study on gaze estimation with a logical camera setup position. We further bring our research in a practical application by using inexpensive edge devices with a realistic scenario. That is, we first set up a shopping environment where we want to grasp customers gazing behaviors. This setup needs an optimal camera position in order to maintain estimation accuracy from existing gaze estimation research. We then apply the state-of-the-art of few-shot learning gaze estimation to reduce training sampling in the inference phase. In the experiment, we perform our implemented research on NVIDIA Jetson TX2 and achieve a reasonable speed, 12 FPS which is faster compared with our reference work, without much degradation of gaze estimation accuracy. The source code is released at https://github.com/l inh-gist/GazeEstimat ionTX2.
翻訳日:2022-01-11 14:44:25 公開日:2022-01-09
# 多言語機械翻訳における次の1000言語に向けて:教師付き学習と自己監督学習の相乗効果を探る

Towards the Next 1000 Languages in Multilingual Machine Translation: Exploring the Synergy Between Supervised and Self-Supervised Learning ( http://arxiv.org/abs/2201.03110v1 )

ライセンス: Link先を確認
Aditya Siddhant, Ankur Bapna, Orhan Firat, Yuan Cao, Mia Xu Chen, Isaac Caswell, Xavier Garcia(参考訳) すべての人間の言語間の普遍的な翻訳は、機械翻訳(MT)研究の聖杯である。 近年の多言語MTの進歩はこの目標に近づきつつあるが、低リソースと非英語の言語ペアに対するラベル付きデータの入手が禁じられているため、より並列なデータのトレーニングによって単に多言語MTシステムを拡張することは不可能であることが明らかになっている。 そこで本研究では,多言語mtモデルの構築に向けて,異なる言語対のデータ可用性に応じて,教師付き目標と自己教師付き目標の混合を用いて,多言語mtモデルを構築する実践的アプローチを提案する。 これらの2つの学習パラダイムの相乗効果により、ゼロリソース設定で高品質な翻訳を生成でき、低リソース言語と中リソース言語の教師あり翻訳品質を上回ることさえ可能となる。 自己教師型多言語モデルの品質に対する多言語監視の程度、ドメインミスマッチ、および並列および単言語データの量の影響を理解するために、幅広い実験を行った。 このアプローチのスケーラビリティを示すために、200以上の言語でモデルをトレーニングし、未熟な言語でゼロリソース翻訳で高いパフォーマンスを示す。 私たちの発見が、今後数千の言語への翻訳を可能にするための足掛かりになることを期待しています。

Achieving universal translation between all human language pairs is the holy-grail of machine translation (MT) research. While recent progress in massively multilingual MT is one step closer to reaching this goal, it is becoming evident that extending a multilingual MT system simply by training on more parallel data is unscalable, since the availability of labeled data for low-resource and non-English-centric language pairs is forbiddingly limited. To this end, we present a pragmatic approach towards building a multilingual MT model that covers hundreds of languages, using a mixture of supervised and self-supervised objectives, depending on the data availability for different language pairs. We demonstrate that the synergy between these two training paradigms enables the model to produce high-quality translations in the zero-resource setting, even surpassing supervised translation quality for low- and mid-resource languages. We conduct a wide array of experiments to understand the effect of the degree of multilingual supervision, domain mismatches and amounts of parallel and monolingual data on the quality of our self-supervised multilingual models. To demonstrate the scalability of the approach, we train models with over 200 languages and demonstrate high performance on zero-resource translation on several previously under-studied languages. We hope our findings will serve as a stepping stone towards enabling translation for the next thousand languages.
翻訳日:2022-01-11 14:44:10 公開日:2022-01-09
# 動的視覚認識のためのGlance and Focus Networks

Glance and Focus Networks for Dynamic Visual Recognition ( http://arxiv.org/abs/2201.03014v1 )

ライセンス: Link先を確認
Gao Huang, Yulin Wang, Kangchen Lv, Haojun Jiang, Wenhui Huang, Pengfei Qi, Shiji Song(参考訳) 空間的冗長性は、視覚認識タスク、すなわち画像またはビデオフレームの識別的特徴が通常ピクセルのサブセットのみに対応し、残りの領域は手元のタスクとは無関係である。 したがって、全てのピクセルを同じ量の計算量で処理する静的モデルは、時間と空間消費の点でかなりの冗長性をもたらす。 本稿では,人間の視覚システムを模倣した逐次的粗い特徴学習プロセスとして画像認識問題を定式化する。 具体的には、提案したGlance and Focus Network (GFNet) は、まず、低解像度スケールで入力画像の迅速なグローバルな表現を抽出し、その後、より詳細な特徴を学習するために、一連の健全な(小さな)領域に戦略的に参画する。 シーケンシャルなプロセスは、モデルがその予測に十分な自信を持てば、さらに冗長な計算を避けることができるので、テスト時に適応的推論を自然に促進する。 本モデルにおける識別領域の特定問題は強化学習タスクとして定式化されているので,分類ラベル以外の手作業による追加アノテーションは不要である。 GFNetは、すべての既製のバックボーンモデル(MobileNets、EfficientNets、TSMなど)と互換性があるため、汎用的で柔軟性がある。 様々な画像分類・映像認識タスクおよび様々なバックボーンモデルを用いた広範囲な実験により,本手法の顕著な効率性を示した。 例えば、iPhone XS Max上の高効率のMobileNet-V3の平均遅延を、精度を犠牲にすることなく1.3倍削減する。 コードと事前トレーニングされたモデルは、https://github.com/b lackfeather-wang/gfn et-pytorchで入手できる。

Spatial redundancy widely exists in visual recognition tasks, i.e., discriminative features in an image or video frame usually correspond to only a subset of pixels, while the remaining regions are irrelevant to the task at hand. Therefore, static models which process all the pixels with an equal amount of computation result in considerable redundancy in terms of time and space consumption. In this paper, we formulate the image recognition problem as a sequential coarse-to-fine feature learning process, mimicking the human visual system. Specifically, the proposed Glance and Focus Network (GFNet) first extracts a quick global representation of the input image at a low resolution scale, and then strategically attends to a series of salient (small) regions to learn finer features. The sequential process naturally facilitates adaptive inference at test time, as it can be terminated once the model is sufficiently confident about its prediction, avoiding further redundant computation. It is worth noting that the problem of locating discriminant regions in our model is formulated as a reinforcement learning task, thus requiring no additional manual annotations other than classification labels. GFNet is general and flexible as it is compatible with any off-the-shelf backbone models (such as MobileNets, EfficientNets and TSM), which can be conveniently deployed as the feature extractor. Extensive experiments on a variety of image classification and video recognition tasks and with various backbone models demonstrate the remarkable efficiency of our method. For example, it reduces the average latency of the highly efficient MobileNet-V3 on an iPhone XS Max by 1.3x without sacrificing accuracy. Code and pre-trained models are available at https://github.com/b lackfeather-wang/GFN et-Pytorch.
翻訳日:2022-01-11 14:21:23 公開日:2022-01-09
# 航空監視の現状:調査

The State of Aerial Surveillance: A Survey ( http://arxiv.org/abs/2201.03080v1 )

ライセンス: Link先を確認
Kien Nguyen, Clinton Fookes, Sridha Sridharan, Yingli Tian, Xiaoming Liu, Feng Liu and Arun Ross(参考訳) 空中プラットフォームや撮像センサーの急速な出現は、規模、機動性、展開性、カバート観測能力において前例のないアドバンテージにより、新しい形態の空中監視を可能にしている。 本稿では,コンピュータビジョンとパターン認識の観点から,人間中心の空中監視タスクを包括的に概観する。 ドローン、UAV、その他の空飛ぶプラットフォームを使った航空監視タスクの現状に関する、詳細な体系的なレビューと技術的分析を提供することを目的としている。 主な対象は、単一または複数の被験者が検出され、特定され、追跡され、再同定され、その振る舞いが分析される人間である。 より具体的には、これらの4つのタスクのそれぞれに対して、地上設定と比較して、これらのタスクを空中設定で実行する際のユニークな課題について論じる。 次に、各タスクで利用可能な航空データセットをレビューし、分析し、空中文学のアプローチを深く掘り下げ、現在の空中課題にどのように対処しているかを調査する。 論文の結論として,欠落したギャップと今後の研究道を示すオープンリサーチ質問について論じた。

The rapid emergence of airborne platforms and imaging sensors are enabling new forms of aerial surveillance due to their unprecedented advantages in scale, mobility, deployment and covert observation capabilities. This paper provides a comprehensive overview of human-centric aerial surveillance tasks from a computer vision and pattern recognition perspective. It aims to provide readers with an in-depth systematic review and technical analysis of the current state of aerial surveillance tasks using drones, UAVs and other airborne platforms. The main object of interest is humans, where single or multiple subjects are to be detected, identified, tracked, re-identified and have their behavior analyzed. More specifically, for each of these four tasks, we first discuss unique challenges in performing these tasks in an aerial setting compared to a ground-based setting. We then review and analyze the aerial datasets publicly available for each task, and delve deep into the approaches in the aerial literature and investigate how they presently address the aerial challenges. We conclude the paper with discussion on the missing gaps and open research questions to inform future research avenues.
翻訳日:2022-01-11 14:20:53 公開日:2022-01-09
# SABLAS:ブラックボックス動的システムのための安全な学習制御

SABLAS: Learning Safe Control for Black-box Dynamical Systems ( http://arxiv.org/abs/2201.01918v2 )

ライセンス: Link先を確認
Zengyi Qin, Dawei Sun and Chuchu Fan(参考訳) バリア関数に基づく制御証明書は、動的システムのおそらく安全な制御ポリシーを生成する強力なツールである。 しかしながら、バリア証明書に基づく既存の手法は、通常、識別可能な力学を持つホワイトボックスシステムに適用されるため、システムはブラックボックスであり、正確にモデル化できない多くの実用アプリケーションには適用できない。 一方、ブラックボックスシステムのモデルフリー強化学習(RL)法は、安全性保証の欠如とサンプリング効率の低下に悩まされている。 本稿では,ブラックボックス力学系の安全制御ポリシとバリア証明書を,システムモデルを正確に必要とせずに学習できる新しい手法を提案する。 本手法では,ブラックボックス力学系が微分不能であっても制御方針への勾配をバックプロパゲートするために損失関数を再設計し,ブラックボックス系に安全証明書が保持されていることを示す。 シミュレーション実験の結果,本手法は,最新のブラックボックスセーフコントロール法に比べて,100%の安全性と目標到達率をはるかに少ないトレーニングサンプルで達成することで,学習方針の性能を大幅に向上できることがわかった。 私たちの学習エージェントは、元のパフォーマンスを維持しながら、目に見えないシナリオに一般化することができます。 ソースコードはhttps://github.com/z engyi-qin/bcbfにある。

Control certificates based on barrier functions have been a powerful tool to generate probably safe control policies for dynamical systems. However, existing methods based on barrier certificates are normally for white-box systems with differentiable dynamics, which makes them inapplicable to many practical applications where the system is a black-box and cannot be accurately modeled. On the other side, model-free reinforcement learning (RL) methods for black-box systems suffer from lack of safety guarantees and low sampling efficiency. In this paper, we propose a novel method that can learn safe control policies and barrier certificates for black-box dynamical systems, without requiring for an accurate system model. Our method re-designs the loss function to back-propagate gradient to the control policy even when the black-box dynamical system is non-differentiable, and we show that the safety certificates hold on the black-box system. Empirical results in simulation show that our method can significantly improve the performance of the learned policies by achieving nearly 100% safety and goal reaching rates using much fewer training samples, compared to state-of-the-art black-box safe control methods. Our learned agents can also generalize to unseen scenarios while keeping the original performance. The source code can be found at https://github.com/Z engyi-Qin/bcbf.
翻訳日:2022-01-11 12:43:32 公開日:2022-01-09
# 空中シーン解析:タイルレベルシーン分類からピクセルワイドセマンティックラベリングへ

Aerial Scene Parsing: From Tile-level Scene Classification to Pixel-wise Semantic Labeling ( http://arxiv.org/abs/2201.01953v2 )

ライセンス: Link先を確認
Yang Long and Gui-Song Xia and Liangpei Zhang and Gong Cheng and Deren Li(参考訳) 空中画像が与えられた場合、空中シーン解析(ASP)は、画像のすべてのピクセルにセマンティックラベルを割り当てることによって、画像内容の意味的構造を解釈する。 データ駆動型手法の普及に伴い、過去数十年間、高解像度空中画像を用いたタイルレベルのシーン分類やセグメンテーションに基づく画像解析の手法の問題にアプローチすることで、asp.netは有望な進歩を遂げてきた。 しかしながら、以前のスキームはタイルワイドなバウンダリで結果を生成することが多いが、後者はピクセルからセマンティクスまで複雑なモデリングプロセスを扱う必要がある。 本稿では,タイルレベルのシーン分類から画素単位のセマンティックラベリングまでの観点から,これらの課題をASP.NET で解決する。 具体的には,まず,文献レビューによる空中画像解釈を再考する。 次に,100万エイドという航空画像を含む大規模シーン分類データセットを提案する。 本稿では,従来の畳み込みニューラルネットワーク(CNN)を用いたベンチマーク実験についても報告する。 最後に,タイルレベルのシーン分類とオブジェクトベース画像解析を統合し,ピクセル単位の意味ラベリングを実現する。 集中的な実験によると、Million-AIDは難しいが有用なデータセットであり、新しく開発されたアルゴリズムを評価するためのベンチマークとして機能する。 Million-AIDから知識を伝達する際、Mario-AIDで事前訓練された微調整CNNモデルは、空中シーン分類のための事前訓練されたImageNetよりも一貫して性能が向上する。 さらに,階層型マルチタスク学習手法では,難解なgid上で最先端の画素単位の分類を実現し,航空機画像解釈のための画素単位の意味ラベリングに対してタイルレベルのシーン分類を橋渡しする。

Given an aerial image, aerial scene parsing (ASP) targets to interpret the semantic structure of the image content, e.g., by assigning a semantic label to every pixel of the image. With the popularization of data-driven methods, the past decades have witnessed promising progress on ASP by approaching the problem with the schemes of tile-level scene classification or segmentation-based image analysis, when using high-resolution aerial images. However, the former scheme often produces results with tile-wise boundaries, while the latter one needs to handle the complex modeling process from pixels to semantics, which often requires large-scale and well-annotated image samples with pixel-wise semantic labels. In this paper, we address these issues in ASP, with perspectives from tile-level scene classification to pixel-wise semantic labeling. Specifically, we first revisit aerial image interpretation by a literature review. We then present a large-scale scene classification dataset that contains one million aerial images termed Million-AID. With the presented dataset, we also report benchmarking experiments using classical convolutional neural networks (CNNs). Finally, we perform ASP by unifying the tile-level scene classification and object-based image analysis to achieve pixel-wise semantic labeling. Intensive experiments show that Million-AID is a challenging yet useful dataset, which can serve as a benchmark for evaluating newly developed algorithms. When transferring knowledge from Million-AID, fine-tuning CNN models pretrained on Million-AID perform consistently better than those pretrained ImageNet for aerial scene classification. Moreover, our designed hierarchical multi-task learning method achieves the state-of-the-art pixel-wise classification on the challenging GID, bridging the tile-level scene classification toward pixel-wise semantic labeling for aerial image interpretation.
翻訳日:2022-01-11 12:42:42 公開日:2022-01-09